False Friends Extraction

Download Report

Transcript False Friends Extraction

Софийски университет
"Св. Климент Охридски"
Измерване на междуезикова
семантична близост чрез
търсене в Google
Светлин Наков,
докторант към КИТ
научен ръководител:
д-р Елена Паскалева
Пета международна конференция
“Езикът – феномен без граници”
Варна, 12 - 14 юни 2008 г.
13.06.2007 г.
Съдържание
• Извличане на семантична близост чрез
търсене в Google
• Извличане на контекст от Google
• TF.IDF претегляне
• Техниката "обратен контекст"
• Техниката "обогатяване на контекста"
• Експерименти и резултати
• Тестови данни
• Резултати
• Сравнение с други алгоритми
2
Контекст от Google
• Google контекст на една дума наричаме
думите, с които тя се среща най-често
според Google
• Дума: рокля
• Контекст: булчинска, сватбена, бална,
черна, вечерна, бяла, бал, сватба, ...
• Извлича се от съседните думи в първите
1000 резултата, които Google връща
• Махат се стоп думите (предлози, съюзи, ...)
• Прилага се лематизация
• Контекстен вектор: {дума; брой срещания}
3
Контекст от Google – пример
• Резултати от търсене в Google за "рокля"
Изборът на булчинска рокля « Всичко за сватбата
Сега е времето за най-забавната задача от списъка за организацията на
сватбата - избирането на вашата булчинска рокля. Това е важно,
защото показва изцяло ...
Покупка на подходяща бална рокля :: Advise
Обикновено покупката на подходяща бална рокля започва с едно
(не)разумно пазаруване. Но това не означава да пазаруваме само
заради цената на дадена рокля ...
Дълга рокля - 8-ми Март - секс магазин
Дълга рокля със сребърни отблясъци. Универсален размер (45-80 кг.).
Ръчно пране в хладка вода ... Комплект бродирана рокля и прашки.
Най - гледани продукти: ...
...
4
Пример: Google контекстни
вектори за "рокля" и "блуза"
блуза
рокля
рокля
422
блуза
461
сватбен
262
дамски
386
бална
202
женска
345
булчински
167
вълнен
205
вечерен
94
памучен
183
черен
84
поръчвам
176
купувам
72
класически 188
ваш
56
магазин
98
червен
37
фирма
12
...
...
...
...
5
Близост в рамките на един език
• Две думи са близки по значение, ако имат
близък Google контекст
• context(водка) = {алкохол, коктейл, уиски,
текила, джин, бутилка, чаша, цена, пия, ...}
• context(ракия) = {алкохол, домашна, пия,
водка, джин, бутилка, чаша, цена, ...}
• Измерване на семантична близост
• Измерваме ъгъл между контекстните
вектори, извлечени от Google
• Косинус в N-мерното пространство:
6
Междуезикова семантична близост
• Сравнение на контексти с думи от
различни езици
• Превеждаме контекста и го сравняваме
• Използваме речник: съответствия между
двойки думи
• Проблем: думи с няколко значения, напр.
син (бг) --> синий (ру), сын (ру)
• Нужда от лематизация – речник на лемите
• Проблем: много думи изобщо липсват в
речника – трябва ни наистина голям речник
7
TF.IDF претегляне
• TF.IDF (term frequency – inverse document
frequency)
• Статистическа мярка за важност на
дадена дума за даден набор от
документи
• Редките думи са по-важни
• Взимат с по-голяма тежест
• Подобрява точността на резултатите
8
Техниката "обратен контекст"
• Търсим "рокля" и намираме "булчинска",
"сватбена", "сайт", "вечерна", "купувам"
• Търсим на обратно "булчинска", "сватбена" и
"вечерна" и намираме често пъти "рокля"
• Търсим на обратно "сайт" и "купувам" и не
намираме "рокля"
• Така филтрираме паразитните думи: "сайт",
"купувам", "магазин", "Интернет", "начало",
"нов", "любим", "предпочитан", ...
• Праг на срещане – прекалено малко
срещания се игнорират
9
Техниката "обогатяване на
контекста"
• Търсим "рокля" и намираме "булчинска",
"сватбена", "сайт", "вечерна", "купувам"
• Думите "булчинска", "сватбена" и
"вечерна"се срещат много пъти, значи са
типични за "рокля"
• Търсим техните контексти и ги добавяме към
контекста на "рокля" (така го обогатяваме)
• Праг на срещане – прекалено малко
срещания се игнорират
• Те не могат да са типични думи
10
Тестови данни
• Използваме класическите 30 двойки думи
на Милер и Чарлз*
• Преведени на български и руски език
#
Българска
дума
Руска дума
Семантична
близост оценена от
човек
(по Милер и Чарлз)
1
автомобил
автомобиль
3,92
2
скъпоценен
камък
драгоценност
ь
3,84
...
...
...
...
25
крайбрежие
лес
0,42
26
момче
волшебник
0,42
...
...
...
...
* Miller, G., Charles W., Contextual Correlates of Semantic Similarity, Language and Cognitive Processes, 1991, 6(1):1–28
30
пладне
нитка
0,08
11
Експерименти
• RAND – случайна близост
• SIM – основен алгоритъм
• SIM-BIG – SIM + подробен българо-руски речник
• SIM+TFIDF – SIM алгоритъм + TF.IDF
• SIM-BIG+TFIDF – SIM + TF.IDF + подробен речник
• REV-0 ... REV-50 – SIM + обратен контекст с прагове на
честота 0, 10, 20, 30, 40 и 50
• REV-BIG-0 ... REV-BIG-50 – SIM + обратен контекст +
подробен речник
• IND-10 ... IND-50 – SIM + обогатен контекст с прагове
на честота 10, 20, 30, 40 и 50
• IND-BIG-10 ... IND-BIG-50 – SIM + обогатен контекст
+ подробен речник
12
Резултати – корелация на Пирсън
• Постигаме корелация между автоматичните
резултати и човешките над 71%
Праг 0
Праг
10
Праг
20
Праг
30
Праг
40
Праг
50
RAND
0,0000
-
-
-
-
-
SIM
0,7043
-
-
-
-
-
SIM+TFIDF
0,7010
-
-
-
-
-
SIM-BIG
0,6210
-
-
-
-
-
SIM-BIG+TFIDF 0,6191
-
-
-
-
-
Алгоритъм
REV
0,5933 0,5732
0,5623
0,5625
0,5623
0,5492
REV-BIG
0,5961
0,5964
0,5956
0,5957
0,5953
0,5920
IND
-
0,5078
0,6027
0,6850
0,6485
0,6445
IND-BIG
-
0,5046
0,6057
0,7149
0,6296
0,6412
13
Сравнение с други алгоритми
• Най-добри алгоритми, които не ползват
допълнителни семантични ресурси
(например WordNet и EuroWordNet)
• Постигат корелация на Пирсън 62% *
• Нашият алгоритъм
• Постига корелация на Пирсън 71%
• Използва само Google и езикови речник
• Не използва семантични ресурси
* Weeds J. “Measures and Applications of Lexical Distributional Similarity”, Ph.D. Thesis, University of Sussex, 2003
14
Измерване на междуезикова семантична
близост чрез търсене в Google
Въпроси?
15