Transcript Document

Компьютерный анализ естественно-языкового текста

Кафедра информационных систем в искусстве и гуманитарных науках

Компьютерный анализ естественно-языкового текста СТРУКТУРА КУРСА 1.

2.

3.

4.

Введение в дисциплину Автоматический анализ текста на морфологическом уровне Автоматический анализ текста на синтаксическом уровне Семантический компонент в системах автоматического анализа текста

Компьютерный анализ естественно-языкового текста СТРУКТУРА КУРСА 2.

Автоматический анализ текста на морфологическом уровне 1. Морфологически

й уровень

в ЛИТ

2.

Основные понятия морфологии в компьютерной морфологии 3.

4.

5.

6.

7.

Основные процедуры компьютерной морфологии Компьютерная морфология русского языка Технологии морфологического анализа «Предсказание» (типизация) Вопросы, смежные с синтаксисом

ПЕРИОДИЗАЦИЯ РАЗРАБОТОК ПО КОМПЬЮТЕРНОЙ МОРФОЛОГИИ РУССКОГО ЯЗЫКА • Первые разработки (для машинного перевода) – сер. 50-х – конец 60-х гг.

• Освоение новых функций – конец 60-х – конец 80-х гг.

• Освоение словаря Зализняка – конец 80-х конец 90-х гг.

• Компьютерная морфология русского языка – «написанная книга»?.. – 2000-е гг.

ПЕРВЫЕ РАЗРАБОТКИ В ОБЛАСТИ КОМПЬЮТЕРНОЙ МОРФОЛОГИИ РУССКОГО ЯЗЫКА 1954 г.

Джорджтаунский эксперимент (январь) Начало разработок систем МП в СССР: с английского (Институте точной механики и вычислительной техники) и французского (в Институте прикладной математики) языков Конец 50-х гг.: Разработки систем МП с русского языка в США: в Вашингтонском университете (1956-1957 г.) – со словарем словоформ в Гарвардском университете (1959-1961) – с модулем морфологического анализа «справа налево» (inverse inflection) Группа под руководством Ю.А.Моторина (1956/1958 г.) – англо-русский перевод Начало 60-х гг.: Университет Уэйна (США) – перевод со словарем словоформ Национальное бюро стандартов, Джорджтаунский университет (США) с модулем морфологического анализа.

Перевод с русского в Гренобльском университете (Франция)

МОРФОЛОГИЧЕСКИЕ МОДУЛИ В НОВЫХ ФУНКЦИЯХ • Систематизация опыта построения морфологических синтезаторов в работах З.М.Волоцкой (1958), Т.М.Николаевой (1961), далее - О.А.Штерновой (1977) • Работа А.А.Раскиной и Т.С.Чепиго в ВИНИТИ (1967): построение словаря словоформ (нач. с 10 тыс.) с конечной целью – система перифразирования предложений на тему «Космос» • Комплексная система обработки информации в ВИНИТИ (группа Г.Г.Белоногова): ИП вместе с набором автоматизированных вспомогательных функций (описан в публикациях 1984-89 гг.)

ИСПОЛЬЗОВАНИЕ МОРФОЛОГИЧЕСКОГО АНАЛИЗА В ТЕХНОЛОГИЧЕСКОЙ ЦЕПОЧКЕ ВИНИТИ

СЛОВАРЬ ЗАЛИЗНЯКА 1974 • «Обратный словарь русского языка» 1977 • «Грамматический словарь русского языка» 1980 • 2-е изд. ГСРЯ 1987 • 3-е изд. ГСРЯ 2003 • 4-е изд. ГСРЯ (добавлены имена собственные) Автор – Андрей Анатольевич Зализняк (с 1997 г. академик РАН)

ПЕРЕНОС СЛОВАРЯ ЗАЛИЗНЯКА НА МАШИННЫЕ НОСИТЕЛИ • Автоматизированная лексикографическая система УНИЛЕКС (1987), УНИЛЕКС-2 (1989), УНИЛЕКС-Т (1993) • Объявление в журнале “Language” о возможности приобрести электронную версию ГСРЯ у Университета Бригема Янга (Brigham Young University, штат Юта) (1992) • Интеграция словаря Зализняка в STARLING рабочую программную среду для лингвиста (ок.1989, в Интернете с 1998 - starling.rinet.ru)

ФРАГМЕНТ СТРАНИЦЫ СЛОВАРЯ ЗАЛИЗНЯКА

ДОСТОИНСТВА СЛОВАРЯ ЗАЛИЗНЯКА • полнота словника • детальность словоизменительной характеристики

WORD -де -ка -либо -нибудь -с -таки -то а а а а а-конто ФРАГМЕНТ СЛОВАРЯ ЗАЛИЗНЯКА, ЭКСПОРТИРУЕМОГО ИЗ STARLING TRANS GRAMMAR 3 (_без удар._) част.

3 (_без удар._) част.

5 част.

5 (_без удар._) част.

0 част.

5 част.

3 (_без удар._) част.

1 (_без удар._) союз 1 част.

1 межд.

1 с 0 (_название буквы а_) 4 с 0 ah and butI eh

СТРУКТУРА СЛОВАРНОЙ БАЗЫ ДАННЫХ Идентификатор лексемы порогов пород породнени порожда Идентификатор парадигмы 302 005 002 401

СТРУКТУРА СЛОВАРНОЙ БАЗЫ ДАННЫХ Идентификатор лексемы пороговый порода породнение порождать Основа Идентификатор парадигмы порогов пород 302 005 породнени 002 порожда 401

ВОЗМОЖНОСТИ ИСПОЛЬЗОВАНИЯ КОДОВ ГСРЯ В МОРФОЛОГИЧЕСКИХ МОДУЛЯХ • Могут быть слишком дробными (для обработки письменного текста) дол м 1е//1а порт м 1е клён м 1а имеют одинаковый набор окончаний • Могут быть недостаточно точными (для некоторых процедур компьютерной морфологии) бугор м 1*b котёл м 1*b псалом м 1*b сон м 1*b хребет м 1*b

восстановление начальной формы:

бугра: (- ра), (+ о р) котла: (- ла), (+ ё л) псалма: (- ма), (+ о м) сна: (- на), (+ о н) хребта: (- та), (+ е т)

НЕДОСТАТКИ СЛОВАРЯ ЗАЛИЗНЯКА • сложная структура словоизменительной характеристики • формальная «вседозволенность» (свобода образования форм множественного числа -

вреды, зарезы, неонацизмы

, кратких форм -

бегл, кредитово, соляны,

сравнительной степени -

тяжелораненее, убитее, изюбревее

) • неполнота словника

РАЗРАБОТКИ МОРФОЛОГИЧЕСКИХ МОДУЛЕЙ ДЛЯ РУССКОГО ЯЗЫКА ПОСЛЕ СЛОВАРЯ ЗАЛИЗНЯКА • Коммерческие модули проверки орфографии – «ОРФО», «ПРОПИСЬ»; в составе текстовых редакторов «ЛЕКСИКОН», «ДЕЛА В ПОРЯДКЕ» • Вопрос как строить морфологические модули решается на уровне кандидатских диссертаций (О.В.Минтусова 1990, И.В.Жарков 1995, Г.О.Сидоров 1995)

КОМПЬЮТЕРНАЯ МОРФОЛОГИЯ РУССКОГО ЯЗЫКА В XXI ВЕКЕ • Модули морфологической обработки предлагаются в качестве готового к употреблению товара (Руссикон, ABBYY, Медиа-Лингва, Гарант-Парк Интернет,… ) • Модули морфологической обработки распространяются свободно (АОТ, А.Поминов, С.Сикорский…) • Что дальше?

КОМПЬЮТЕРНАЯ МОРФОЛОГИЯ РУССКОГО ЯЗЫКА В ИНТЕРНЕТЕ (1) http://www.multitran.ru

http://starling.rinet.ru

http://axofiber.no-ip.org

“Морфологический анализатор” Морфологический анализатор “Морфологические классы русского языка” Морфологический анализатор - генератор парадигмы Словарь ГСРЯ в текстовом формате Словарь ГСРЯ в формате базы данных dbf Проект “Русская морфология” (RMU/RMS) он-лайн загруж.

он-лайн он-лайн загруж.

загруж.

он-лайн развертывание парадигмы анализ анализ представление морфологии типизация словарных слов анализ развертывание парадигмы типизация словарных слов типизация словарных слов анализ развертывание парадигмы типизация несловарных слов

КОМПЬЮТЕРНАЯ МОРФОЛОГИЯ РУССКОГО ЯЗЫКА В ИНТЕРНЕТЕ (2) http://www.aot.ru

http://www.xrce.xerox.co

m/competencies/content analysis/demos/russian.en.

html http://www.keva.ru/ http://www.geocities.com/ SiliconValley/Bit/1116/ Морфологический анализатор - генератор парадигмы “Программа морфологического анализа” “Русский морфологический словарь” “Russian Morphological Analysis” “Демонстрационная версия русского морфологического анализатора” “Russian Morphological Dictionary” он-лайн загруж.

загруж.

он-лайн он-лайн / загруж.

загруж.

анализ развертывание парадигмы анализ типизация несловарных слов представление морфологии типизация словарных слов анализ анализ развертывание парадигмы анализ

КОМПЬЮТЕРНАЯ МОРФОЛОГИЯ РУССКОГО ЯЗЫКА В XXI ВЕКЕ: повестка дня • Потребность в свободно распространяемых готовых решениях (АОТ, …) • Проблемы технической эффективности (анализа, типизации) • Качество лингвистических баз данных и их адаптируемость к конкретным задачам

ПРЕЗЕНТАЦИЯ МОРФОЛОГИЧЕСКИХ МОДУЛЕЙ АОТ См. http://www.aot.ru/docs/sokirko/MorphPPT-Dateien/frame.htm