Методы выделения ключевых фраз из текста
Download
Report
Transcript Методы выделения ключевых фраз из текста
Методы извлечения
ключевых фраз
Рязанцев Дмитрий 428
План доклада
Зачем нужны ключевые фразы
Общая схема работы
Выделение кандидатов в ключевые фразы
Расчет веса на основании атрибутов
Отбор ключевых фраз
Особенности оценки систем
Системы выделения ключевых фраз
Kea
HUMB
KP-Miner
Зачем нужны ключевые фразы ?
Возможность разделения документов по
категориям
Быстрый поиск документов по
ключевым фразам
Связывание разных документов между
собой
Общая схема работы
Выделение кандидатов в ключевые фразы
Расчет веса на основании атрибутов
Отбор ключевых фраз
Выделение кандидатов в
ключевые фразы
Выделение всех последовательностей
длиной не более чем n слов (n-грамма)
Стемминг
Две группы подходов к сокращению
количества кандидатов
Без
словаря
Со словарем
Без словаря
Выделение n-грамм только из первых m
слов документа
Не учитываются слова, начинающиеся
и заканчивающиеся на «стоп слова»
Можно также учитывать:
Частоту
вхождения n-граммы в документ
Место, где встречается n-грамма
Со словарем
Проверка
на наличие в словаре
всех n-грамм из текста
Примеры словарей:
– база технических у научных
обозначений
Wikipedia
GRISP
Общая схема выделения
Выделение кандидатов в ключевые фразы
Расчет веса на основании атрибутов
Отбор ключевых фраз
Расчет веса выделенной фразы
Необходимо определить вероятность
того, что фраза – ключевая
Введем набор атрибутов, с помощью
которых будем учитывать оценивать
фразы
Основные атрибуты
TFxIDF
frequency) - частота употребления фразы
в документе
IDF(inverse document frequency)
TF(term
Расстояние от начала документа.
Длина фразы
Специфические атрибуты
Раздел, в котором встречается фраза
Keyphraseness
И другие…
Методы учета атрибутов
С обучением
Обучение
классификатора и дальнейшее
его применение
Без обучения
Применение
атрибутов
формулы от значения
Общая схема выделения
Выделение кандидатов в ключевые фразы
Расчет веса на основании атрибутов
Отбор ключевых фраз
Отбор ключевых фраз из
взвешенного множества
После просчета атрибутов получаем
множество фраза-число
Как отобрать нужное количество фраз ?
Фиксированный
порог
Плавающий порог
Особенности оценки систем
Специфические оценки качества работы
Точность
(precision) – отношение количества
правильно определенных фраз к общему числу
выделенных фраз.
Полнота (recall) – отношения количества правильно
определенных фраз, к общему числу ключевых фраз.
F – мера (F - measure) – среднее между полнотой и
точностью.
Зависимость от входных данных
Научные статьи
Документы общей
Блоги и т.д.
тематики
Системы выделения ключевых
фраз. Kea
Нет ориентации на определенный тип статей
Выделение n-грамм длины не более чем 3, за
исключением:
Атрибуты
имен собственных
начинающихся со стоп слов
содержащих в себе знаки препинания
TFxIDF
Расстояния от начала документа
Байесовский классификатор
Системы выделения ключевых
фраз. Kea. Результаты
Системы выделения ключевых
фраз. HUMB
Система выделения ключевых фраз из научных и технических
статей.
Выделение n-грамм длины не более чем 5, за исключением:
начинающихся со стоп слов
содержащих в себе знаки препинания и математические символы
Атрибуты
Место первого вхождения фразы
Phraseness
Информативность (Informativeness)
Мера сплоченности слов во фразе
Используется TFxIDF
Keywordness
Как часто фраза является ключевой в документах коллекции
Системы выделения ключевых
фраз. HUMB
Is
in GRISP*
Бинарный атрибут, показывающий есть ли данная фраза
в GRISPe
Wikipedia keyphraseness
Как часто фраза является ссылкой из статьи википедии
Длина фразы (в словах)
Обучение классификаторов
C4.5,
SVN
Постобработка
Определение
степени связанности фраз
Системы выделения ключевых
фраз. HUMB. Результаты
Системы выделения ключевых
фраз. KP-miner
Выделения ключевых фраз из английских и арабских
документов.
Выделение n-грамм из первых m слов текста , за
исключением:
начинающихся со стоп слов
содержащих в себе знаки препинания
появляющихся менее k раз в тексте
Атрибуты
TFxIDF
B – коэффициент уравновешивания значимости длинных фраз
P – атрибут основанный на положении фразы в документе
Системы выделения ключевых
фраз. KP-miner
W = tf*idf*B*P
W
– вес фразы
Отбор:
Фиксированный
порог
Пересчет TF, для выбранных фраз,
являющихся подфразами других
Системы выделения ключевых
фраз. KP-miner. Результаты
Результаты тестирования на SemEval-2010
Вопросы ?