Transcript Поиск и скачивание в сети
Поиск и копирование мультимедийных ресурсов в сети
Лапшева Елена Евгеньевна
, руководитель центра непрерывной подготовки IT специалистов факультета КНиИТ СГУ
Процесс поиска Сначала возникает информационная потребность . Она инициирует поиск.
Формализация информационной потребности сводится к выделению ключевых слов . Множество ключевых слов с отношениями между ними называется запросом .
Система на множестве документов называется информационно-поисковым пространством . Список отобранных документов называют выдачей или откликом .
Релевантность – мера соответствия отклика запросу Смысловая релевантность отклика информационной потребности пользователя.
– мера соответствия Формальная релевантность соответствия отклика запросу, как набору ключевых слов.
– мера Информационный шум – документы, не соответствующие информационной потребности, но соответствующие запросу.
Релевантность отклика документы, содержащие информацию о России, соответствующие информационной потребности (смысловая релевантность) Россия гостиница Россия Российская Федерация, РФ документы, содержащие последовательность букв Россия, формально релевантные запросу
Релевантность отклика Документы, которые были выданы информационно-поисковой системой, будем называть выданными .
Документы, соответствующие информационной потребности пользователя, будем называть релевантными .
Основные характеристики результатов поиска Полнота результата поиска отражает, как много документов, соответствующих информационной потребности пользователя, попала в число выданных документов.
Полнота Число выданных релевантны х документов Число релевантны х документов в Интернет
Основные характеристики результатов поиска Точность результата поиска отражает качество соответствия отклика информационной потребности пользователя.
Точность Число выданных релевантны х документов Число выданных документов
Факторы, влияющие на точность и полноту отклика Качество запроса Правильный выбор информационно-поискового пространства Поиск осуществляется не на реальном пространстве документов сети, а в некоторой модели (на серверах поисковой системы), содержание которой отличается от действительного содержания Интернет в момент проведения поиска
Основные характеристики результатов поиска пространство документов Интернет документы, представленные в поисковой системе, отсутствующие в сети на момент проведения поиска пространство документов, представленных в сети на которых осуществляется поиск документы, представленные в поисковой системе, присутствующие в сети на момент проведения поиска
Информационно-поисковые системы в WWW По способу информационно-поисковые системы делятся на: • • каталоги поисковые машины • гибридные системы – универсальные поисковые машины По глубине охвата ресурса: • • глобальные локальные
Каталог Каталог – иерархически упорядоченная база данных (рубрикатор) документов, информация в которую заносится человеком Основная характеристика каталога – объем базы данных, то есть количество представленных документов.
1994 г. – первый каталог, созданный Дэвидом Фило и Джерри Янгом, Yahoo www.list.ru
, www.city.ru
, www.ru
Поисковые машины и гибридные системы Поисковая машина ( www.altavista.com
).
– активная система, самостоятельно исследующая сеть с целью пополнения своих баз данных документов Гибридная система (универсальная поисковая машина) сочетает в себе функции как каталога, так и поисковой машины ( www.yandex.ru
).
Универсальные поисковые машины Глобальные www.google.com
www.yahoo.com
www.lycos.com
www.go.com
www.bing.com
Региональные (РуНет) www.yandex.ru
www.rambler.ru
www.yahoo.ru
www.aport.ru
Проблемы составления запросов Составление запроса – это процесс выражения информационной потребности с помощью ключевых слов и комбинирования этих ключевых слов с помощью средств информационно поискового языка системы.
На качество запроса оказывают воздействие следующие факторы: • • знание пользователем особенностей естественного языка; знание структуры и особенностей информационно поискового языка.
Учет особенностей естественного языка Повышение точности поиска: использование профессионализмов ; использование редких терминов ; использование названий и фамилий .
Повышение полноты отклика: использование синонимов различающихся по написанию, но тождественных по смыслу.
– слов,
Информационно поисковый язык Оператор поискового языка целью повышения точности: – служебные слова, которые используются для комбинирования ключевых слов запроса с • логические операторы; • • • операторы расстояния; операторы выбора части документа, по которой осуществляется поиск; операторы выбора подмножества документов.
Логические операторы
Оператор
Логическое И Логическое ИЛИ Логическое НЕ Группировка
Rambler
And & пробел Or | NOT !
()
Яndex
& пробел (в пределах предложения) && (в пределах документа) | ~ (в пределах предложения) ~~ (в пределах документа) ()
пробел OR NOT – ()
Уточнение запроса Чтобы исключить документы, где встречается определенное слово, поставьте перед ним знак минус в Google или ~ или ~~ в Yandex. Например (для www.yandex.ru
): путеводитель по Франции ~~агентство ~~ тур
Уточнение запроса Чтобы определенное слово обязательно присутствовало в документе, поставьте перед ним плюс и в Yandex, и в Google.
Например: школьное оборудование +проектор Если не находится какое-либо слово, поисковая система часто предлагает вместо него синонимы, для исключения синонимов ставьте знак +
Поиск цитаты и в пределах сайта Чтобы найти документ, в котором встречается определенная фраза, возьмите эту фразу в кавычки.
Например: «быть или не быть» В пределах сайта пишите site: Например: ирак site: .iq или ирак site: kommersant.ru
Используйте синонимы Попробуйте задать для поиска три-четыре слова-синонима сразу. Для этого перечислите их через вертикальную черту (|) или OR Например: норма|норматив|правило Матчи ЦСКА 2005 | 2006
Заполнение пустых мест Знак * в тексте запроса для вставки любых значений Например: Дума проголосовала по * законопроекту Прибыл * посол
Дополнительные возможности title:(в стране) Поиск по заголовкам документов url:ptici.narod.ru/ptici/ Поиск по URL kuropatka.htm лекарь inurl:vojne host:lib.ru rhost:ru.lib.* site:http://www.lib.ru/P XESY/FILATOW mime:pdf lang:en domain:ru date:200712* date: 20071215..20080101
date:>20091231 cat:11000051 Поиск с учетом фрагмента URL Поиск по хосту Поиск по хосту в обратной записи Поиск по всем поддоменам и страницам заданного сайта Поиск по одному типу файлов Поиск с ограничением по языку Поиск с ограничением по домену Поиск с ограничением по дате Поиск с ограничением по интервалу дат Поиск по рубрике Яндекс.Каталога
расширенный поиск
Расширенный поиск
В расширенном поиске есть памятка по использованию языка запросов
искать в найденном
Дополнительные службы поиска Картинки Товары в интернет магазинах Новости Словари Географические карты Блоги Книги
Поиск картинок размер рисунка в пикселях и Кбайтах месторасположение картинки
Поиск внутри сайта поиск по сайту
Поиск по странице Меню «Правка» Найти на этой странице
Языковые инструменты Google.ru
Переводчик – дополнительная услуга
Скачивание. Фрагмент текста 1.
2.
3.
4.
Выделить текст Ctrl+C Перейти в текстовый редактор Ctrl+V