Wielowymiarowa Przestrzeń Semantyczna - ZILStart

Download Report

Transcript Wielowymiarowa Przestrzeń Semantyczna - ZILStart

Wielowymiarowa Przestrzeń
Semantyczna (HAL)
jako narzędzie analizy korpusów języka
polskiego
Joanna Rączaszek – Leonardi
Bartosz Kruszyński
Wydział Psychologii UW
Teorie znaczenia wyrazów języka
naturalnego
Jak ująć/reprezentować znaczenie?
Gdzie go szukać?
W zewnętrznej rzeczywistości?
W umyśle użytkownika języka?
W związkach między wyrazami?
Alan Cruse „Meaning in Language” (Oxford
Textbooks in Linguistics, 2004)
„The position taken in this book is that in general meanings are
not finitely describable, so this task boils down to finding the best
way to approximate meanings as closely as necessary for current
purposes...”
Charakterystyka znaczenia: częstość
współwystępowania z innymi wyrazami
Teoria najmniej ciekawa dla psychologa...?
(pomija to, do czego wyraz się odnosi, pomija
reprezentacje poznawcze, jakie towarzyszą użyciu
lub rozumieniu wyrazu).
Jednak związki między wyrazami (konteksty jęz.) daje
się obiektywnie opisać;
• Łatwiej niż: odniesienia, czy reprezentacje umysłowe...
Wzorce współwystępowania wyrazów jeśli nie
wyznaczają (tak jak chciał np. Quine) tego, co one
znaczą, to na pewno z tego znaczenia wynikają. Jakoś
więc są z innymi aspektami znaczenia powiązane,
odzwierciedlają je.
Metoda:
1995 – Kurt Burgess: Konferencja CUNY:
Hyperspace Analogue to Language
Korpus: np. 160 mln wyrazów;
Macierz np. 10 000 x 10 000; elementy: średnia
bliskość danych dwóch wyrazów w tekście (miara
współwystępowania dwóch wyrazów);
Wyraz: reprezentowany przez wektor (o długości 10
000 elementów);
Podobieństwo wektorów: podobieństwo
(strukturalistycznie zdefiniowanego) znaczenia.
CO UMIE HAL?
Kategoryzacja
Np. semantyczna rzeczowników (nazwy
geograficzne, zwierzęta, rośliny);
Kategorie gramatyczne;
Znajduje najbliższe „semantycznie” wyrazy
Burgess: korelacja bliskości w przestrzeni
HAL z siłą torowania (model pamięci
semantycznej(?));
Torowanie semantyczne:
Założenie: słowa semantycznie związane
uaktywniają się nawzajem (sieci semantyczne: im
bliższy związek, tym silniej)
Rozpoznanie słowa jest szybsze po wcześniejszej
prezentacji słowa semantycznie z nim związanego
SZPITAL
SZPITAL
KOŁO
DRZEWO
LEKARZ
JAJKO
TRATWA
STONU
słowo
nie-słowo
Wstępna ocena HAL’a
Bardzo prosty koncepcyjnie model może
być użyteczny w badaniach reprezentacji
znaczenia.
Czy nadaje się do tych samych celów w
przypadku języka polskiego?
HAL a język polski
Polski: swobodniejszy (niż angielski) szyk zdania:
czy HAL będzie działał?
• przykład: konstrukcja macierzy
Działa. Nawet na małym (np. 0,5 mln) korpusie:
Znajduje wyrazy bliskie znaczeniowo (intuicyjnie; np.
Najbliżej wyrazu „absolwentów”: są wyrazy:
„uczniów”, „ludzi”, „i”, „nauczycieli”, „szkół”);
Klasyfikuje;
Przewiduje siłę torowania: efekt torowania silniejszy
dla wyrazów bliskich w przestrzeni HAL niż dla
dalekich (związek między „strukturalistycznym” a
„psychologicznym” opisem znaczenia).
HAL działa:
Dla języków o różnej strukturze i szyku
zdania
Dla małych korpusów
Dla form podstawowych jak i dla
bezpośrednio występujących w tekście
HAL jako narzędzie analizy tekstów
Porównywanie bliskości wyrazów w
HAL’ach skonstruowanych dla różnych
korpusów tekstów:
Pochodzących z różnych momentów
czasowych
• Np. Analiza zmiany relatywnej bliskości wektorów
w czasie
Pochodzących z różnych kultur lub środowisk:
• Nasz Dziennik vs Gazeta Wyborcza
Pierwsze (wstępne) analizy
1. Porównanie otoczenia semantycznego
wybranych słów
2. Porównanie odległości między wybranymi
wyrazami wewnątrz każdego korpusu
Ad. 1
GW:
ND:
"kościoła"
"kościoła"
"kościoła"
"mit"
"kościoła"
"urząd"
"kościoła"
"historii"
"kościoła"
"katolickiego"
"kościoła"
"polityki"
"kościoła"
"patriotyzm"
"kościoła"
"polaków"
"kościoła"
"wiernych"
"kościoła"
"powołany"
"kościoła"
"duszpasterz"
"kościoła"
"tle"
"kościoła"
"matki"
"kościoła"
"w"
"kościoła"
"bożej"
"kościoła"
"św"
"kościoła"
"kościoła"
"kościoła"
"kościoła"
"kościoła"
"kościoła"
"kościoła"
"kościoła"
"kościoła"
"kościoła"
"kościoła"
"kościoła"
"kościoła"
"kościoła"
"kościoła"
"kościoła"
"kościoła"
"kościoła"
"kościoła"
"kościoła"
"kościoła"
"wyroki"
"miał"
"krwi"
"znaki"
"przekracza"
"założenia"
"dzieła"
"książka"
"mówić"
"europę"
"krakowie"
"odmówił"
"otwarcie"
"wiary"
"postawa"
"cbś"
"nagrodę"
"przekonany
""głośno"
ND:
"kobiet"
"kobiet"
"roli"
"kobiet"
"mężczyzn"
"kobiet"
"niczym"
"kobiet"
"cyklu"
"kobiet"
"dziele"
"kobiet"
"ciała"
"kobiet"
"równocześnie"
"kobiet"
"chętnie"
"kobiet"
"sytuacja"
"kobiet"
"twarzy"
"kobiet"
"pokoleń"
"kobiet"
"białe"
"kobiet"
"jaruga"
"kobiet"
"miejscach"
"kobiet"
"pełnomocnik"
"kobiet"
"zatem"
"kobiet"
"status"
"kobiet"
"zasadach"
"kobiet"
"forum"
"kobiet"
"kilkunastu"
"kobiet"
"wskaźnik"
"kobiet"
"rękę"
"kobiet"
"nowacka"
"kobiet"
"trzech"
"kobiet"
"pomysł"
"kobiet"
"zdjęcia"
"kobiet"
"izabela"
"kobiet"
"wspólnej"
"kobiet"
"statusu"
"kobiet"
"ton"
"kobiet"
"mężczyzn"
"kobiet"
"sobą"
"kobiet"
"kowalewska"
"kobiet"
"ds"
"kobiet"
"wygląda"
"kobiet"
"roli"
"kobiet"
"przyczynić"
"kobiet"
"prowadzi"
"kobiet"
"kobiet"
"kobiet"
GW:
Ad. 2. Porównanie relatywnych odległości
wektorów reprezentujących wybrane pojęcia
Uporządkowano wszystkie wyrazy (o f
>10) według odległości od wybranego
wyrazu.
Czyli: im wyższa ranga, tym podobniejsze
wektory.
„Dyferencjał semantyczny”
w HAL’u:
ND
GW
Kościoła
dobrego - 1307
Złego
- 1858
dobrego - 3381
złego
- 1085
Kobieta
dobrego
złego
matka
dobrego
złego
dobrego
złego
matka
dobrego
złego
Aborcji
Polsce
– 3034
- 576
- 157
– 5784
- 1701
dobrego – 4120
złego
- 3034
– 1698
- 3300
- 309
– 294
- 465
dobrego – 2451
złego
- 3269
Kłopoty z HAL’em:
Odróżnienie asocjacji (klisz językowych) od
„prawdziwej” bliskości semantycznej
• np. „czerwony” i „kapturek” mogą mieć podobne wektory
bliskości do innych wyrazów bo często występują razem –
szczególnie w małych korpusach.
Odróżnianie znaczeń wyrazów wieloznacznych
Czym jest HAL? Ponadjednostkowa, abstrakcyjna
„reprezentacja znaczenia”?
Grupowanie form podstawowych ze względu na
znaczenie
Geograf ia
Zw ierzęta
Anatomia
Bibliografia
Burgess, C., & Lund, K. (1997). Modeling parsing constraints with highdimensional context space. Language and Cognitive Processes, 12,
177-210.
Burgess, C., & Livesay, K. (1998). The effect of corpus size in predicting
reaction time in a basic word recognition task: Moving on from Kucera
and Francis. Behavior Research Methods, Instruments, & Computers,
30, 272-277.
Burgess, C. (1998). From simple associations to the building blocks of
language: Modeling meaning in memory with the HAL model.
Behavior Research Methods, Instruments, & Computers, 30, 188-198.
Lund, K., & Burgess, C. (1996). Producing high-dimensional semantic
spaces from lexical co-occurrence. Behavior Research Methods,
Instrumentation, and Computers, 28, 203-208.
Marciszewski, W. (1985) Logika formalna, Warszawa: PWN.
Osgood, C. E. (1971) Exploration in semantic space: A personal diary.
Journal of Social Issues, 27, 5-64.
Przykład:
Obliczanie wartości elementów macierzy
dla zdania:
The horse raced past the barn fell.
Okno o rozmiarze 5
The horse
barn
fell
past
raced
horse
the
barn
fell
past
raced
horse
the
5
The horse raced
barn
fell
past
raced
horse
the
5
4
barn
fell
past
raced
horse
the
5
The horse raced past
barn
fell
past
raced
horse
the
5
4
3
5
4
barn
fell
past
raced
horse
the
5
The horse raced past the
barn
fell
past
raced
horse
the
5
4
3
5
4
barn
fell
past
raced
horse
the
5
5
4
3
2
The horse raced past the barn
barn
barn
fell
past
raced
horse
the
4
3
2
6
5
4
3
5
4
fell
past
raced
horse
the
5
5
4
3
2
The horse raced past the barn fell
barn
barn
fell
5
fell
past
raced
horse
the
4
3
2
6
3
2
1
4
5
4
3
5
4
past
raced
horse
the
5
5
4
3
2