Поиск в Интернете

Download Report

Transcript Поиск в Интернете

Поиск и копирование
мультимедийных ресурсов в
сети
Лапшева Елена Евгеньевна,
руководитель центра непрерывной подготовки
IT-специалистов факультета КНиИТ СГУ
[email protected]
Процесс поиска



Сначала возникает информационная потребность.
Она инициирует поиск.
Формализация информационной потребности
сводится к выделению ключевых слов. Множество
ключевых слов с отношениями между ними
называется запросом.
Система на множестве документов называется
информационно-поисковым пространством. Список
отобранных документов называют выдачей или
откликом.
Релевантность – мера
соответствия отклика запросу

Смысловая релевантность – мера соответствия
отклика информационной потребности
пользователя.

Формальная релевантность – мера соответствия
отклика запросу, как набору ключевых слов.

Информационный шум – документы, не
соответствующие информационной
потребности, но соответствующие запросу.
Релевантность отклика
документы,
содержащие
информацию о России,
соответствующие
информационной
потребности
Российская
Федерация,
РФ
Россия
гостиница
Россия
документы, содержащие
последовательность букв
Россия, формально
релевантные запросу
Релевантность отклика


Документы, которые были выданы
информационно-поисковой системой, будем
называть выданными.
Документы, соответствующие
информационной потребности пользователя,
будем называть релевантными.
Основные характеристики
результатов поиска

Полнота результата поиска отражает, как
много документов, соответствующих
информационной потребности пользователя,
попала в число выданных документов.
Число выданных релевантных документов
Полнота
Число релевантных документовв Интернет
Основные характеристики
результатов поиска

Точность результата поиска отражает
качество соответствия отклика
информационной потребности пользователя.
Число выданных релевантных документов
Т очность
Число выданных документов
Факторы, влияющие на
точность и полноту отклика



Качество запроса
Правильный выбор информационно-поискового
пространства
Поиск осуществляется не на реальном пространстве
документов сети, а в некоторой модели, содержание
которой отличается от действительного содержания
Интернет в момент проведения поиска
Основные характеристики
результатов поиска
пространство
документов
Интернет
пространство документов,
представленных в сети на
которых осуществляется поиск
документы,
представленные в
поисковой
системе,
отсутствующие в
сети на момент
проведения
поиска
документы, представленные в
поисковой системе,
присутствующие в сети на
момент проведения поиска
Основные характеристики
результатов поиска

Актуальность – характеристика, показывающая
наличие в отклике информации о
существующих документах.

Скорость получения результатов –
характеристика, зависящая от
•
•
•
•
каналов связи между компьютером
пользователя и поисковым сервером,
загруженности этих каналов,
алгоритмов обработки запросов,
запроса пользователя.
Основные информационные
пространства Интернет


Документально-информационные ресурсы:
• документы, представленные в WWW
• файловые архивы FTP
• базы данных
• система wiki-wiki
Коммуникационные ресурсы:
• система электронной почты
• система телеконференций
• форумы
• блоги (живые журналы)
• система on-line коммуникаций
Информационно-поисковые
системы в WWW

По способу организации и пополнения базы
данных о документах сети информационнопоисковые системы делятся на:
•
•
•

каталоги
поисковые машины
гибридные системы – универсальные поисковые
машины
По глубине охвата ресурса:
•
•
глобальные
локальные
Каталог




Каталог – иерархически упорядоченная база
данных (рубрикатор) документов, информация в
которую заносится человеком
Основная характеристика каталога – объем базы
данных, то есть количество представленных
документов.
1994 г. – первый каталог, созданный Дэвидом
Фило и Джерри Янгом, Yahoo
www.list.ru, www.city.ru, www.ru
Поисковые машины и
гибридные системы



Поисковая машина – активная система,
самостоятельно исследующая сеть с целью
пополнения своих баз данных документов
(www.ya.ru, www.altavista.com).
1995 г., корпорация Digital (теперь Compaq),
AltaVista
Гибридная система (универсальная поисковая
машина) сочетает в себе функции как каталога,
так и поисковой машины (www.yandex.ru).
Универсальные поисковые
машины
Глобальные
 www.google.com
 www.yahoo.com
 www.lycos.com
 www.go.com
 www.bing.com
Региональные
(РуНет)
 www.yandex.ru
 www.rambler.ru
 www.yahoo.ru
 www.aport.ru
Характеристики поисковой
машины








Объем индекса (измеряется в млн. страниц).
Период обновления информации о документах.
Представление документа при индексировании
(возможность робота различать заголовки, подзаголовки,
подписи к рисункам и т.д.).
Глубина индексирования – количество страниц одного
сайта, заносимых в индекс.
Особенности организации ввода запроса.
Ранжирование документов.
Поиск картинок.
Вывод дополнительной информации.
Проблемы составления
запросов

Составление запроса – это процесс выражения
информационной потребности с помощью
ключевых слов и комбинирования этих ключевых
слов с помощью средств информационнопоискового языка системы.

На качество запроса оказывают воздействие
следующие факторы:
•
знание пользователем особенностей
естественного языка;
•
знание структуры и особенностей
информационно поискового языка.
Учет особенностей
естественного языка
Повышение точности поиска:
 использование профессионализмов;
 использование редких терминов;
 использование названий и фамилий.
Повышение полноты отклика:
 использование синонимов – слов,
различающихся по написанию, но
тождественных по смыслу.
Информационнопоисковый язык

Оператор поискового языка – служебные слова,
которые используются для комбинирования
ключевых слов запроса с целью повышения
точности:
•
•
•
•
логические операторы;
операторы расстояния;
операторы выбора части документа, по которой
осуществляется поиск;
операторы выбора подмножества документов.
Логические операторы
Оператор
Логическое
И
Rambler
And
&
пробел
Яndex
&
пробел
(в пределах
предложения)
Google
пробел
&&
(в пределах документа)
Логическое
ИЛИ
Or
|
|
OR
~
Логическое
НЕ
NOT
!
(в пределах
предложения)
~~
NOT
–
(в пределах документа)
Группировка
()
()
()
Уточнение запроса

Чтобы исключить документы, где встречается
определенное слово, поставьте перед ним
знак минус в Google или ~ или ~~ в Yandex.

Например (для www.yandex.ru):
путеводитель по Франции ~~агентство
~~тур
Уточнение запроса

Чтобы определенное слово обязательно
присутствовало в документе, поставьте
перед ним плюс и в Yandex, и в Google.

Например:
школьное оборудование +проектор
Если не находится какое-либо слово,
поисковая система часто предлагает вместо
него синонимы, для исключения синонимов
ставьте знак +

Поиск цитаты и в пределах
сайта

Чтобы найти документ, в котором
встречается определенная фраза, возьмите
эту фразу в кавычки.

Например:
«быть или не быть»
 В пределах сайта в Google:
 Например:

ирак site: .iq или ирак site: kommersant.ru
Используйте синонимы

Попробуйте задать для поиска
три-четыре слова-синонима сразу. Для
этого перечислите их через
вертикальную черту (|) или OR
Например: норма|норматив|правило
 Матчи ЦСКА 2005 | 2006

Оператор точной формы





Ищете имена?
Неважно какой регистр использовать в запросе.
Исключением является оператор точной формы. По
запросу '!лужков' вы найдете документы,
содержащие эту словоформу в любом регистре
А по запросу '!Лужков' — только документы, с
формой 'Лужков' с большой буквы.
Это полезно, если искомое имя собственное
совпадает с распространенным нарицательным,
например, село !Кошки или !Прост.
Заполнение пустых мест
Знак * в тексте запроса для вставки
любых значений
 Например:
 Дума проголосовала по * законопроекту
 Прибыл * посол

Дополнительные возможности
title:(в стране)
url:ptici.narod.ru/ptici/
kuropatka.htm
лекарь inurl:vojne
host:lib.ru
rhost:ru.lib.*
site:http://www.lib.ru/P
XESY/FILATOW
mime:pdf
lang:en
domain:ru
date:200712*
date:20071215..20080101
date:>20091231
cat:11000051
Поиск по заголовкам документов
Поиск по URL
Поиск с учетом фрагмента URL
Поиск по хосту
Поиск по хосту в обратной записи
Поиск по всем поддоменам и
страницам заданного сайта
Поиск по одному типу файлов
Поиск с ограничением по языку
Поиск с ограничением по домену
Поиск с ограничением по дате
Поиск с ограничением по интервалу
дат
Поиск по рубрике Яндекс.Каталога
расширенный поиск
Расширенный поиск
В расширенном поиске есть памятка по использованию
языка запросов
Расширенный поиск







Словарный фильтр
Дата создания документа
Поиск на определенном сайте
Поиск изображения по названию или
альтернативной надписи
Поиск специальных объектов
Поиск документов на определенном
языке
Поиск документов определенного
формата
искать в найденном
Дополнительные службы
поиска







Картинки
Товары в интернетмагазинах
Новости
Словари
Географические карты
Блоги
Книги
Поиск картинок



www.yandex.ru
www.yahoo.ru
www.google.com
Расширенный поиск
Поиск картинок
размер рисунка
в пикселях и Кбайтах
месторасположение
картинки
Поиск картинок
размер рисунка
в пикселях и Кбайтах
месторасположение
картинки
Поиск внутри сайта
поиск по
сайту
Поиск по странице
Меню «Правка»  Найти на этой странице
Языковые инструменты Google.ru

Переводчик – дополнительная услуга
Скачивание. Фрагмент текста
1.
2.
3.
4.
Выделить текст
Ctrl+C
Перейти в текстовый редактор
Ctrl+V