Transcript PBI
PBI
Определение абзацев в тексте
9 ноября 2010 г
Сильвестров Алексей
•
•
•
•
Введение
Методы определения
Entropy rate constancy
Методы оценивания и
результаты
Введение
• Цель: PBI – один из этапов обработки
текста.
Методы определения
• Многопризнаковый бинарный классификатор:
начинается ли с данного предложения абзац?
• Использование отдельно взятых признаков и
эвристик.
Методы определения
•
1.
2.
3.
Признаки делятся на 3 вида:
Несинтаксические.
Языковые.
Синтаксические.
Несинтаксические:
• Distance (Dw,Ds): расстояние в словах и
предложениях от начала нового абзаца.
• Sentence Length: В среднем длина предложения
меняется на протяжении абзаца.
• Quotes: Содержит ли предложение цитаты или
является частью цитаты?
• Final Punctuation: Каким знаком оканчивается
предложение?
Синтаксические:
• Number of phrases (VP, NP, PP).
• Tree Depth.
• Cue Words: “because”, ”so”…
Языковые:
• Sentence probability: Вероятность данного
предложения согласно выбранной языковой
модели.
• Word entropy rate: Энтропия первых
предложений меньше, чем у остальных в
абзаце.
• Character n-gram models: Возможно, в
начинающем абзац предложении больше
заглавных букв?
Языковые и несинт. признаки: производительность
Синт. признаки: бесполезны
Языковая модель
• Языковая модель - это распределение
вероятностей последовательностей слов:
• P( “And nothing but the truth”) 0.001
• P( “And nuts sing on the roof”) 0
Языковая модель
•
Вероятность предложения s из L слов:
P(s) p(w1 ) p(w2 | w1 ) p(w3 | w1w 2 ) p(wL | w1 w L-1 )
•
Аппроксимация: n-граммы
L
P(s) p(wi | w i-1 , w i-2 ,...,w i-(n -1) )
i 1
Языковая модель
• Пример:
p(Johnread a book)
p(John| bos )p(read| John)p(a| read)p(book | a)p( eos | book)
p(Johnread a book) 0.01 0.15 0.4 0.6 0.2 0.0000072
• Пользуемся биграммами.
• <bos> -начало предложения, иначе
• <eos> -конец предложения, чтобы
p(w1 | w 0 ) теряет смысл.
p(s) 1
s
Языковая модель
• Maximum Likelihood:
C ( xyz)
C ( xyz)
P( z | xy)
C ( xyw) C ( xy)
w
• Грубая оценка.
P( z | xy) 0
• Неприемлем: C( xyz) 0
Языковая модель
• Jelinek-Mercer smooth:
C ( xyz)
PJM ( z | xy)
(1 ) PJM ( z | y )
C ( xy)
• Где параметр подбирают или задают как
функцию от С(xyz)
Энтропия
• Энтропия случайной величины:
1
H ( ) p( x) log2
p( x)
x
• Пример: бросок 8-гранной кости:
8
1
H ( ) p(i) log2
log2 8 3bits
p(i)
i 1
Энтропия
• Совместная энтропия:
1
H ( X , Y ) p( x, y) log2
p( x, y)
y x
• Условная энтропия:
1
H (Y | X ) p( x, y) log2
p ( y | x)
x y
• Цепное правило:
H ( X , Y ) H ( X ) H (Y | X )
Энтропия
• Цепное правило:
H ( X , Y ) H ( X ) H (Y | X ) H (Y ) H ( X | Y )
• Взаимная информация:
I ( X , Y ) H ( X ) H ( X | Y ) H (Y ) H (Y | X )
• Мера взаимной зависимости двух случайных
величин
Энтропия
I ( X , Y ) H ( X ) H ( X | Y ) H (Y ) H (Y | X )
Энтропия
• Entropy rate:
H rate
1
1
H ( X 1 ,..., X n ) p( x1 ,...,xn ) log2
n
p( x1 ,...,xn )
x1n
• Т.к. информация, содержащаяся в сообщении,
зависит от его длины, рассматривают per-word
энтропию ( она же entropy rate).
Entropy rate constancy
• Согласно принципу, энтропия
H ( X i | X1,..., X l ...X i 1 ) H ( X i | Ci , Li ) const
• Тогда в выражении
H ( X i | Ci , Li ) H ( X i | Li ) I ( X i | Ci , Li )
где Ci -все слова в тексте до текущего предложения
Li -все слова в предложении до текущего слова
H ( X i | Li ) возрастает с номером предложения,
т.к. I ( X i | Ci , Li ) всё время растет.
Entropy rate constancy
• Нас интересует среднее значение
1
1
i ( n 1)
H ( X i | Li )
H ( Si )
log
P
(
x
|
x
)
i
i 1
| Si |
| Si | xi X
для X i wi Si
• Задача свелась к вычислению энтропии
предложения.
Entropy rate constancy
WSJ corpora
Entropy rate constancy
Война и мир
Вопросы?