Анализ статистических алгоритмов снятия морфологической

Download Report

Transcript Анализ статистических алгоритмов снятия морфологической

Анализ статистических
алгоритмов снятия
морфологической омонимии в
русском языке
Егор Лакомкин
Иван Пузыревский
Дарья Рыжова
Морфологическая разметка
Начальная форма (лемма)
 грамматические характеристики

Я иду по улице.
Улице: lex=“улица” gr=“S,f,sg,dat”
набор тегов
Автоматический
морфологический анализ
Мама мыла раму




lex=«мыть»
gr=“V,act,f,indic,ipf,norm,praet,sg,tran”
lex=«мыло» gr=“S,inan,n,nom,norm,pl”
lex=«мыло» gr=“S,gen,inan,n,norm,sg”
lex=«мыло» gr=“S,acc,inan,n,norm,pl”
задача выбора правильного варианта
(дизамбигуация)
Дизамбигуация в текстах на
английском языке
Методы:
Как правило, статистические
алгоритмы на основе марковских
моделей
 Точность: ~96%

Особенности английского
языка

Бедная морфология
морфологическая разметка фактически
сводится к POS-теггингу

Фиксированный порядок слов
можно опираться только на локальный
контекст слова (ближайших соседей) без учёта
дальних зависимостей (т.е. достаточно
марковских моделей первого порядка)
Задача исследования:
Проверить экспериментально,
применимы ли статистические
алгоритмы, основанные на
марковских моделях, к задаче
морфологической дизамбигуации
текстов на русском языке
До (серия 1)
После (серия 2)
Существительное
Существительное
Местоименное
Параметры эксперимента
существительное
Местоименное
существительное
Прилагательное
Прилагательное (полное)
Местоименное прилагательное Местоименное прилагательное
 Корпус: подкорпус НКРЯ
Глагол
Глаголсо снятой
омонимией
Наречие
(~6 млн словоупотреблений)
Наречие
Местоименное
наречие
Местоименное Mystem
наречие
 Морфологический
анализатор:
Предикатив
Наречие
 4 серии экспериментов (2 по 2):
Вводное слово
 Набор
Предлог
Союз

Предлог
• Только POS
Союзлицо, наклонение, время
• POS, род, число, падеж,
Междометие
 Изменённый
Частица
Наречие
частей речи – как в НКРЯ:
набор Междометие
частей речи:
• Только POS
Частица
• POS, род, число, падеж, лицо, наклонение, время
Причастие (полное)
2 алгоритма: HMM и MEMM
Причастие (краткое)
Прилагательное (краткое)
Деепричастие
Алгоритмы


Набор скрытых величин Y (состояний модели
= наборов грамматических тегов); составляют
марковскую цепь первого порядка
Набор наблюдаемых величин X (наблюдений)
~ словоформ
Словоформы заменяем на 3-буквенные
окончания:


Сокращаем количество наблюдаемых
состояний
Практически не теряем полезную информацию
(поскольку в РЯ почти вся морфологическая
информация сосредоточена в окончании)
HMM
Обучение:
Сбор статистик по корпусу:

P(yi|yj) – матрица переходов
 P(xk|yi) – вероятности наблюдений

прил
сущ
глаг
-ные
-чки
-ают
MEMM

Обучение:

Восстановление условного
распределения P(yt+1|yt, x)
Yt-1
Xt-1

Yt
Yt+1
Xt
Xt+1
Сбор по корпусу некоторых статистик
(=признаков) + применение принципа
максимальной энтропии
MEMM: признаки





наличие у текущего слова
фиксированного трехбуквенного
окончания,
тег, приписанный предыдущему слову,
наличие у текущего слова
фиксированного разбора, выданного
морфологическим анализатором,
наличие предлога в окрестности
текущего слова,
согласованность по роду/числу/падежу с
двумя предыдущими словами.
Задача алгоритмов:
Вычисление наиболее вероятной
последовательности скрытых
величин
Деление выборки на
обучающую и тестирующую:

Кросс-валидация (5 фолдов):
Деление выборки на 5 частей:
4 обучающие + 1 тестирующая
 5 серий подсчётов
 Усреднение результата

Оценка качества

Определение верхней и нижней границы:



Качество работы алгоритма (= точность):
Сравнение с «золотым стандартом» - с эталонным разбором
НКРЯ:




Верхняя граница: процент случаев, когда среди гипотез Mystem’а
есть правильная;
Нижняя: «частотная снималка» (слову приписывается наиболее
частотный вариант разбора, без учёта контекста)
общая точность
точность по знакомым словам
точность по незнакомым словам
Не учитывались:


Инициалы, аббревиатуры, цифры;
Сложные слова с дефисом (ср. бело-кремовый)
Результаты
теги
POS
Общ.
Зн.
Незн.
Общ.
Зн.
Незн.
Нижн.гр.
.8590
.8586
.8885
.6817
.6836
.5525
HMM
.9482
.9489
.8996
.8873
.8909
.6550
MEMM
.9516
.9524
.8967
.8670
.8706
.6332
.9895
.9081
.9741
.7017
Верхн.гр.
С модифицированным набором частей речи
Нижн.гр.
.8565
.8560
.8898
.6818
.6838
.5563
HMM
.9490
.9498
.8984
.8872
.8908
.6550
MEMM
.9519
.9528
.8955
.8686
.8708
.6333
.9895
.9063
.9739
.7053
Верхн.гр.
Выводы



POS-теггинг – на приличном уровне, причём MEMM
чуть лучше, чем HMM
Дизамбигуация по расширенным тегам – довольно
низкий уровень точности. Случаи, особенно часто
разбираемые ошибочно:
 Местоимения
 Имена собственные
 Субстантивация прилагательных
 Омонимия падежных форм (номинатив vs. аккузатив)
Изменение набора частей речи почти не влияет на
результат
Дальнейшие направления
исследования




HMM второго порядка
Эксперименты с признаками MEMM
CRF
Возможно, ввод локальных правил
Конечная цель:
Создание открытого инструмента
достаточно высокого качества
Спасибо за внимание!