Transcript PBI

PBI
Определение абзацев в тексте
9 ноября 2010 г
Сильвестров Алексей
•
•
•
•
Введение
Методы определения
Entropy rate constancy
Методы оценивания и
результаты
Введение
• Цель: PBI – один из этапов обработки
текста.
Методы определения
• Многопризнаковый бинарный классификатор:
начинается ли с данного предложения абзац?
• Использование отдельно взятых признаков и
эвристик.
Методы определения
•
1.
2.
3.
Признаки делятся на 3 вида:
Несинтаксические.
Языковые.
Синтаксические.
Несинтаксические:
• Distance (Dw,Ds): расстояние в словах и
предложениях от начала нового абзаца.
• Sentence Length: В среднем длина предложения
меняется на протяжении абзаца.
• Quotes: Содержит ли предложение цитаты или
является частью цитаты?
• Final Punctuation: Каким знаком оканчивается
предложение?
Синтаксические:
• Number of phrases (VP, NP, PP).
• Tree Depth.
• Cue Words: “because”, ”so”…
Языковые:
• Sentence probability: Вероятность данного
предложения согласно выбранной языковой
модели.
• Word entropy rate: Энтропия первых
предложений меньше, чем у остальных в
абзаце.
• Character n-gram models: Возможно, в
начинающем абзац предложении больше
заглавных букв?
Языковые и несинт. признаки: производительность
Синт. признаки: бесполезны
Языковая модель
• Языковая модель - это распределение
вероятностей последовательностей слов:
• P( “And nothing but the truth”)  0.001
• P( “And nuts sing on the roof”)  0
Языковая модель
•
Вероятность предложения s из L слов:
P(s)  p(w1 ) p(w2 | w1 ) p(w3 | w1w 2 )    p(wL | w1    w L-1 )
•
Аппроксимация: n-граммы
L
P(s)   p(wi | w i-1 , w i-2 ,...,w i-(n -1) )
i 1
Языковая модель
• Пример:
p(Johnread a book) 
p(John| bos )p(read| John)p(a| read)p(book | a)p( eos | book)
p(Johnread a book)  0.01 0.15 0.4 0.6 0.2  0.0000072
• Пользуемся биграммами.
• <bos> -начало предложения, иначе
• <eos> -конец предложения, чтобы
p(w1 | w 0 ) теряет смысл.
 p(s)  1
s
Языковая модель
• Maximum Likelihood:
C ( xyz)
C ( xyz)
P( z | xy) 

 C ( xyw) C ( xy)
w
• Грубая оценка.
 P( z | xy)  0
• Неприемлем: C( xyz)  0 
Языковая модель
• Jelinek-Mercer smooth:
C ( xyz)
PJM ( z | xy)  
 (1   ) PJM ( z | y )
C ( xy)
• Где параметр  подбирают или задают как
функцию от С(xyz)
Энтропия
• Энтропия случайной величины:
1
H (  )   p( x) log2
p( x)
x
• Пример: бросок 8-гранной кости:
8
1
H (  )   p(i) log2
 log2 8  3bits
p(i)
i 1
Энтропия
• Совместная энтропия:
1
H ( X , Y )   p( x, y) log2
p( x, y)
y x
• Условная энтропия:
1
H (Y | X )   p( x, y) log2
p ( y | x)
x y
• Цепное правило:
H ( X , Y )  H ( X )  H (Y | X )
Энтропия
• Цепное правило:
H ( X , Y )  H ( X )  H (Y | X )  H (Y )  H ( X | Y )
• Взаимная информация:
I ( X , Y )  H ( X )  H ( X | Y )  H (Y )  H (Y | X )
• Мера взаимной зависимости двух случайных
величин
Энтропия
I ( X , Y )  H ( X )  H ( X | Y )  H (Y )  H (Y | X )
Энтропия
• Entropy rate:
H rate
1
1
 H ( X 1 ,..., X n )   p( x1 ,...,xn ) log2
n
p( x1 ,...,xn )
x1n
• Т.к. информация, содержащаяся в сообщении,
зависит от его длины, рассматривают per-word
энтропию ( она же entropy rate).
Entropy rate constancy
• Согласно принципу, энтропия
H ( X i | X1,..., X l ...X i 1 )  H ( X i | Ci , Li )  const
• Тогда в выражении
H ( X i | Ci , Li )  H ( X i | Li )  I ( X i | Ci , Li )
где Ci -все слова в тексте до текущего предложения
Li -все слова в предложении до текущего слова
H ( X i | Li ) возрастает с номером предложения,
т.к. I ( X i | Ci , Li ) всё время растет.
Entropy rate constancy
• Нас интересует среднее значение
1
1
i ( n 1)
H ( X i | Li ) 
H ( Si ) 
log
P
(
x
|
x
)

i
i 1
| Si |
| Si | xi X
для X i  wi  Si
• Задача свелась к вычислению энтропии
предложения.
Entropy rate constancy
WSJ corpora
Entropy rate constancy
Война и мир
Вопросы?