Transcript Document

Многоязычный поиск в многофункциональной электронной библиотеке: общие подходы и их реализация в ИС T-Libra 6.x

®

С.Х.Ляпин, А.В.Куковякин

ООО «Константа» (Россия); Архангельский областной центр повышения квалификации специалистов культуры e-mail: [email protected]

; [email protected]

Міжнародна наукова конференція «Проблеми гармонізації традиційних і новітніх бібліотечно-інформаційних ресурсів» Київ, НБУВ, 7-8 жовтня 2008 р.

Содержание (1)

• Многоязычный поиск: общие подходы – – – Классификация: основные типы многоязычного поиска Инструментарий: словари, тезаурусы, классификаторы Оценка поиска в различных прикладных разработках и коллекциях документов (программы РОМИП и CLEF) • Электронная библиотека как универсальная среда для организации ресурсов («документов») и использования поиска.

Наиболее широкий спектр: – типов, видов и форматов документов – типов и видов поиска – типичных «моделей пользователя» и, соответственно, функциональных структур пользовательского интерфейса

Содержание (2)

• • • Многоязычный поиск в ИС T-Libra 6.x

®

проблемы и решения : – – – – – ИС T-Libra 6.x

® : назначение, архитектура, функционал UNICODE : организация ресурсов и поиска Ресурсы: подготовка и импорт Словари: создание и использование Тезаурусы и квази-тезаурусы (виртуальные пользовательские ad hoc тезаурусы) – Поиск и презентация его результатов для разных типов и видов документов, разных категорий пользователей.

Контакты Презентация программы генерации словаря словоформ и параллельного многоязычного поиска I типа (русский и украинский языки) в ИС T-Libra 6.2.

Многоязычный поиск: классификация (1)

Тип многоязычного поиска: I

– Запрос – • одновременно на нескольких языках.

«ручной» ввод пользователем терминов отдельно на каждом из языков –

Термины запроса не переводятся.

– Поиск - по множеству документов на различных – языках.

– Результаты запроса - на языке «оригинала».

Результаты запроса не переводятся.

Параллельный многоязычный поиск без перевода входных терминов и результатов запроса.

Многоязычный поиск: классификация (2)

Тип многоязычного поиска: II

– – – – – – Запрос – на одном (или нескольких) языках.

• • •

Термины запроса автоматически переводятся

многоязычный переводной словарь (многоязычный тезаурус), или совокупность взаимно пересекающихся двуязычных переводных словарей (пересекающихся двуязычных тезаурусов), или встроенные программы машинного перевода.

Поиск - по множеству документов на различных языках.

Результаты запроса - на языке «оригинала».

Результаты запроса не переводятся

.

Множественный кросс-языковый поиск с переводом входных терминов, без перевода результатов запроса.

Многоязычный поиск: классификация (3)

Тип многоязычного поиска: III

– – – – – • Запрос – одновременно на нескольких языках «ручной» ввод пользователем терминов отдельно на каждом из языков .

Термины запроса не переводятся

.

Поиск - по множеству документов на различных языках.

Результаты запроса - на языке «оригинала».

Результаты запроса автоматически переводятся

Встроенные или внешние программы машинного перевода –

Параллельный поиск без перевода входных терминов, с переводом результатов запроса.

Многоязычный поиск: классификация (4)

Тип многоязычного поиска: IV

– – – – – – Запрос – на одном (или нескольких) языках.

• • •

Термины запроса автоматически переводятся

многоязычный переводной словарь (многоязычный тезаурус), или совокупность взаимно пересекающихся двуязычных переводных словарей (пересекающихся двуязычных тезаурусов), или встроенные программы машинного перевода.

Поиск - по множеству документов на различных языках.

Результаты запроса - на языке «оригинала».

Результаты запроса автоматически переводятся

.

Встроенные или внешние программы перевода

Множественный кросс-языковый поиск с переводом входных терминов и результатов запроса.

Многоязычный поиск: классификация (5)

I.

Параллельный поиск без перевода входных терминов и результатов запроса

III.

Параллельный поиск без перевода входных терминов, с переводом результатов запроса

II.

Множественный кросс языковый поиск с переводом входных терминов, без перевода результатов запроса

IV.

Множественный кросс языковый поиск с переводом и входных терминов, и результатов запроса

Многоязычный поиск: инструментарий (1) • • • Инструментарий поиска: словари, тезаурусы, классификаторы

их объекты = Тезаурусы: «слова» их объекты = «термины» языка).

Классификаторы (рубрикаторы):

философские и т.п.).

Классификатор / рубрикатор тезауруса.

частный случай

Многоязычный поиск: инструментарий (2) • • Инструментарий поиска: словоизменительные и переводные словари (1) – Использование готовых

словоизменительных одноязычных словарей

(например, имеющихся в составе OpenOffice )

Плюсы

: минимизация трудозатрат разработчиков.

Минусы :

нет автоматизированного пополнения словаря (генерации словоформ).

Использование готовых

словари)

.

переводных двух- и многоязычных словарей (кросс-языковые

– –

Плюсы :

минимизация трудозатрат разработчиков;

Минусы :

нет автоматизированного пополнения словаря (генерации словоформ).

Многоязычный поиск: инструментарий (3) • • Инструментарий поиска: словоизменительные и переводные словари (2)

Генерация кросс-языковых словарей

на основе специально подготовленных двух- и многоязычных ресурсов (заголовков статей, ключевых слов, аннотаций на двух и более языках ),

их дальнейшее использование

составе электронной библиотеки для поиска по полнотекстовым ресурсам.

(в формате баз данных) в –

Литература:

Абрамова, Н.Н

. Формирование многоязычных словарей и их использование при кросс-языковом поиске информации / Абрамова Н.Н., Глобус Е.И. [Электронный ресурс]. – Режим доступа: http://company.yandex.ru/grant/2005/01_Abramova_102704.pdf

Многоязычный поиск: инструментарий (3) • • Инструментарий поиска: словоизменительные и переводные словари (3) Генерация

«на лету»

парадигмы hoc словоизменительной

только для терминов выполняемого пользовательского запроса

словарь словоформ»).

Реализовано в ИС T-Libra v.6.x

®

(«виртуальный

ad («Константа», Россия) Создание и автоматическое пополнение словоизменительного одноязычного словаря

при импорте полнотекстовых ресурсов.

Реализовано в ИС T-Libra v.6.x

® («Константа», Россия)

Многоязычный поиск: инструментарий (3) • • • • Инструментарий: тезаурусы (1).

Стандарты

Международный стандарт ISO 2788-1986

одноязычных тезаурусов.

для описания –

Американский стандарт ANSI/NISO Z39.19-1993

расширяет и уточняет стандарт ISO 2788-1986, а также накладывает ряд важных дополнительных ограничений на структуру тезауруса.

Международный стандарт ISO 5964-1985

многоязычных тезаурусов.

для описания Желательна проверка используемых тезаурусов на соответствие требованиям стандартов (для концептуальной и технологической совместимости различных информационно-поисковых систем).

Литература:

Аджиев, Алим Сапарович

системах / RCDL'2003, . Подходы к описанию и использованию тезаурусов в информационных Аджиев Алим Сапарович, Нгуен Хунь Мань Санкт-Петербург, Россия, 2003 г. – С. // Электронные библиотеки: перспективные 191-200.

[Электронный ресурс]. – Режим доступа: http://rcdl2003.spbu.ru/proceedings/F1.pdf

Многоязычный поиск: инструментарий (3) • Инструментарий: тезаурусы (2) Многоязычные тезаурусы – – – – Дополнительно к требованиям одноязычного тезауруса дается описание

языка

(как свойства термина)

, а также описание

типов связи между эквивалентными терминами на разных языках:

Полная эквивалентность

(значения терминов совпадают)

Неполная эквивалентность

совпадают, но пересекаются) (значения терминов не

Частичная эквивалентность

шире, чем значение другого) (значение одного термина

Эквивалентность один ко многим

термина соответствует совокупности значений нескольких терминов).

(значение одного

Многоязычный поиск: инструментарий (3) • Инструментарий: тезаурусы (3) Многоязычные тезаурусы для интеллектуализации поиска –

Пример (НИВЦ МГУ):

Русско-английский Тезаурус по общественно-политической жизни для УИС «РОССИЯ». По состоянию на 2002 год: в русской части тезауруса находилось 64 тысячи

терминов

, в английской 55 тысяч, в целом иерархическая сеть включала 27 тысяч

понятий

.

– Используется как один из важнейших инструментов

понятийно ориентированного поиска

(не зависящего от языка

) называемого

«концептуального индексирования»

с помощью так документа и автоматического разрешения многозначности терминов.

– – Построенный концептуальный индекс позволяет выполнять поиск

одновременно русских и английских документов

по запросу на русском или английском языке.

Литература.

Добров Б.В., Лукашевич Н.В.

http://rcdl2001.krc.karelia.ru/papers/papers/dobrov_lukashevich/dobrov_paper.rtf

http://rcdl2002.jinr.ru/Reports/Vol_2/vol2_148-158.pdf

Многоязычный поиск: оценка поиска (1)

– Европейская программа CLEF ( Cross-Language Evaluation Forum ) и семинар CLEF Workshop , присоединенный к Европейской конференции по электронным библиотекам ( ECDL ), – CLEF Workshop: экспериментальное изучение методов информационного поиска, прежде всего -

коллекций для европейских языков.

задачи многоязычного поиска и интеграции многоязычных

– • В России – семинар Информационного Поиска), присоединенный к конференции RCDL.

РОМИП (Российская Оценка Методов РОМИП также отвечает за оценки русскоязычного поиска в рамках CLEF

Многоязычный поиск: оценка поиска (2)

В CLEF 2006 исследовались направления («дорожки»):

1) моноязычный, двуязычный и многоязычный поиск документов (Ad Hoc); 2) моноязычный и многоязычный поиск по структурированным документам в области социальных наук (Domain-Specific); 3) интерактивный многоязычный поиск (iCLEF); 4) многоязычный поиск ответов на вопрос (QA@CLEF); 5) многоязычный поиск по коллекции изображений (ImageCLEF); 6) многоязычный поиск по коллекции аудиозаписей речи (CLSR); 7) многоязычный поиск web-документов (WebCLEF) 8) многоязычный поиск с учетом географических отношений (GeoCLEF)

Многоязычный поиск: оценка поиска (3)

– –

Описания «дорожек» в CLEF 2006:

Агеев, М.С

. Обзор исследований в рамках Cross-Language Evaluation Forum в 2006 году //. Труды четвертого российского семинара РОМИП'2006. (Суздаль, 19 октября 2006г.). Санкт-Петербург: НУ ЦСИ, 2006. 274 с. – C.151-159. [Электронный ресурс]. – Режим доступа: http://romip.narod.ru/romip2006/14_uis_clef.pdf

Cross-Language Evaluation Forum (CLEF) // [Электронный ресурс]. – Режим доступа: http://www.clef-campaign.org

Peters, Carol

. What happened in CLEF 2006. Introduction to the Working Notes // Proceedings of CLEF’2006. [Электронный ресурс]. – Режим доступа: http://www.clefcampaign.org/2006/working_notes/ workingnotes2006/petersCLEF2006.pdf

Электронная библиотека как универсальная среда для апробации многоязычного поиска

ЭБ (в перспективе) включает в себя наиболее широкий спектр:

– – – –

типов, видов и форматов документов; типов и видов собственно поиска; типичных «моделей пользователя»; типов (функциональных структур) пользовательского интерфейса.

Многоязычный поиск в ИС T-Libra 6.x

® : проблемы и решения • ИС T-Libra 6.x

® : назначение, архитектура, функционал • UNICODE : организации ресурсов и поиска • Ресурсы: подготовка и импорт • Словари: создание и использование • Тезаурусы и квази-тезаурусы (виртуальные пользовательские ad hoc тезаурусы) • Поиск и презентация его результатов для разных типов и видов документов, разных категорий пользователей.

• Пользовательские интерфейсы

ИС T-Libra 6.x

®

: разработчик и статус программы

Специализированное программное обеспечение

“Информационная система «T-Libra 6.x» для создания многофункциональных электронных библиотек”

разработано

ООО «Константа»

(Россия), зарегистрировано в Реестре программ для ЭВМ Федеральной службой по интеллектуальной собственности, патентам и товарным знакам Российской Федерации (Свидетельство № 2007613971 от 17 сентября 2007 года).

Назначение ИС T-Libra 6.x

®

(1)

• Создание многофункциональных многоязычных многоплатформенных электронных библиотек в Интернет/Интранет-архитектуре с возможностями: – – –

автоматизированной подготовки

(в том числе с использованием специализированных АРМов)

электронных полнотекстовых ресурсов

различного вида и формата для последующего ввода их в ИС T-Libra 6.х;

автоматического импорта и индексации

полнотекстовых ресурсов, подготовленных в соответствии с требованиями ИС T-Libra 6.х; электронных

импорта/экспорта библиографических данных

в формате ISO 2709 из существующих MARC-ориентированных АБИС («электронных каталогов») в ИС T-Libra 6.х. и обратно;

Назначение ИС T-Libra 6.x

®

(2)

С возможностями (продолжение): –

автоматического пополнения

(при импорте полнотекстовых ресурсов) и «ручного» редактирования многоязычного электронного словаря словоформ; –

поиска по интегрированному Каталогу

интерфейсами для их редактирования; с настраиваемыми полями и встроенной в них булевой алгеброй, а также встроенным в функционал одного из полей предметным мультирубрикатором, содержащим библиотечные классификаторы и рубрикаторы (УДК, ББК, ВАК, ГРНТИ и т.д.) в виде баз данных с собственными – использования для целей хранения и презентации пополняемого

файлового хранилища (Депозитария)

ресурсов; с файлами произвольного вида и формата и собственным настраиваемым рубрикатором

Назначение ИС T-Libra 6.x

®

(3)

С возможностями (продолжение): – гибкого

тематизируемого многоязычного полнотекстового поиска

различного типа и вида с сортировкой, группировкой и различными формами презентации его результатов; –

мультимодального расширения

(графика, аудио, видео), используемого как для расширения

функциональных возможностей

ИС T-Libra 6.х., – так и для

взаимодействия и интеграции

с другими информационными системами, модулями и оболочками (

электронными коллекциями, электронными экспозициями, мультимедиа-энциклопедиями и т.д .

) .

ИС T-Libra 6.x: архитектура

Клиент Сервер

(блок-схема)

Браузер (MS IE 6 и выше) HTTP Веб-сервер (Apache) CGI CGI приложение named pipe Сервер приложения (объектная среда, бизнес-логика) ODBC РСУБД (MySQL)

ИС T-Libra 6.x: функциональная структура

Информационная система T-Libra

Пользовательский раздел Каталог поиск ресурсов по каталогу со встроенным мультирубрикатором Депозитарий поиск и извлечение файловых ресурсов по специализированному настраиваемому рубрикатору Полнотекстовый поиск гибкий параметризируемый поиск по полнотекстовым ресурсам Административный раздел Оператор ресурсов пополнение ИС ресурсами различного типа Оператор словаря пополнение и редактирование многоязычного словаря словоформ Администратор управление пользователями, назначение прав доступа к ресурсам ИС, настройки ИС

Пользовательский раздел

• • • • •

Каталог

Поиск по библиографической информации осуществляется издания”, “Предметная область”.

с

учетом лексико-грамматической парадигматики естественного языка

по 6 ти полям: “Автор”, “Заглавие”, “Ключевые слова”, “Аннотация”, “Год Пополняется с помощью

программ импорта

из любых электронных каталогов, поддерживающих стандарты семейства MARC, или из библиографических файлов-описаний, создаваемых пользователем.

Имеется

полная и краткая форма поиска

“Заглавие”, “Ключевые слова”, “Аннотация” объединены логическим сложением).

(в последней поля

Булева алгебра

(операции логического сложения, умножения, отрицания) включена в функционал соответствующих полей и структуру формы поиска.

Поле “Предметная область” представляет собой

настраиваемый мультирубрикатор

пользователя.

, включающий набор стандартных классификаторов (УДК, ББК, ВАК, ГРНТИ), а также рубрикатор “Депозитарий”, создаваемый с учетом интересов конкретного корпоративного

Пользовательский раздел

Депозитарий

• Подсистема представляет собой

универсальное файловое хранилище информации ИС T-Libra

, и содержит файловые ресурсы любого вида и формата. • Имеет

собственный настраиваемый рубрикатор ресурсов

и позволяет получить сначала описания ресурсов (

метаданные

), а затем и

сами электронные ресурсы

: полные тексты произведений (статей, сборников статей, учебников, справочников, монографий и т.п.), архивные документы в текстовом и/или графическом формате, аудио, видео и т.д.

• Подсистема связана в обе стороны

с другими подсистемами пользовательского раздела T-Libra

(«Каталог» и «Полнотекстовый поиск»), а также с мультимодальными расширениями ИС T-Libra (электронными коллекциями и т.п.) .

Пользовательский раздел

Полнотекстовый поиск

Типы запросов –

Абзацно-ориентированный:

запроса.

в произведениях, включенных пользователем в поисковую область («корзина ресурсов»), находит множество абзацев, удовлетворяющих условиям –

Частотно-ориентированный:

встречаемости термина.

создает частотно ранжированный список терминов (имен существительных) из произведения / произведений на заданную глубину с указанием абсолютной и относительной частоты

Административный раздел, подсистема «Оператор ресурсов» Схема импорта ресурсов

Каталог Подготовка ресурсов Папки с файлами Импорт ресурсов Депозитарий Автоматизированная или «ручная» подготовка ресурсов Автоматический импорт в подсистемы T-Libra Полнотекстовый поиск Словарь

Организация программной среды ИС T-Libra (словарь словоформ)

Концептуальная модель

• • • • •

Многоязычность

: унифицированное создание и использование электронных словарей основных европейских языков

Многоплановое использование одного и того же словаря :

– для обычного библиотечного поиска (с учетом морфологии), – для продвинутых лингвистических, текстологических и других исследований (в составе «виртуальной лаборатории»),

Генерация словоизменительной парадигмы, управляемая правилами грамматики

(с возможностью изменения этих правил пользователем – в специализированных модулях);

Автоматическое пополнение «ручное» редактирование словаря (при импорте текстов) + его с рабочего места Оператора словаря Unicode:

поддержка Unicode при импорте текстов (при создании словаря словоформ);

использование Unicode при экспорте текстов (отображении текста в окне браузера);

Правила

Схема пополнения словаря ( автоматически и/или вручную)

Оператор Генерация парадигм, выбор лучшей Парадигма Корректировка парадигмы Новые словоформы Словоизменительный словарь

Публикации

С.Х.Ляпин, А.В.Куковякин

. Концепт-ориентированный поиск в электронной полнотекстовой библиотеке с мультимодальным расширением // Труды 6-й Всеросс. науч. конф. RCDL’2004, Пущино, 29 сент. - 1 окт. 2004 г. - С. 127-134, http://www.impb.ru/~rcdl2004.

Ляпин С.Х., Куковякин А.В

2005 .

Методология и технология создания многоцелевой информационной среды T-System на базе электронной библиотеки с гибким полнотекстовым поиском // Труды Седьмой Всероссийской научной конференции "Электронные библиотеки: перспективные методы и технологии, электронные коллекции", RCDL'2005, Ярославль, 4-6 окт. г. – Ярославль: Изд-во ЯрГУ, 2005, http://www.rcdl2005.uniyar.ac.ru/ru/RCDL2005/papers/sek2_1_paper.pdf

; см. также в: www.elbib.ru/index.phtml?page=elbib/rus/journal/2006/part5/Lyapin •

С.Х.Ляпин.

Интеллектуализация многофункциональной электронной библиотеки: концепция, методология, технология // Международная научная конференция «Интеллектуальные информационные технологии в библиотечном деле», 11-12 октября 2005 г., Киев, Национальная библиотека Украины им. В.И.Вернадского (доклад на пленарном заседании), http://www.nbuv.gov.ua/new/05_kiev/plenar.html

Ляпин С.Х., Куковякин А.В

. Гибкий поиск и его модификации в многофункциональной информационной среде T-System // Материалы международной конференции «EVA-2005, Москва», 28 ноября - 02 декабря 2005 г., г. Москва, Всероссийская государственная библиотека иностранной литературы им. М.И.Рудомино, http://conf.cpic.ru/upload/eva2005/reports/tezis_412.doc

.

Поисковая система Yandex по запросу «T-Libra» выдает (на октябрь 2008 года) около 30 релевантных ссылок

Презентация •

параллельного многоязычного поиска I типа (русский и украинский языки)

работы программы генерации словаря словоформ украинского языка в ИС T-Libra 6.2.