2 KolokacijeFFST

Download Report

Transcript 2 KolokacijeFFST

Uvod - kolokacije
• riječi/pojavnice nisu nasumično raspoređene u tekstu
• moguće je uočiti da neke riječi imaju tendenciju pojavljivanja u
“sličnom” društvu
• karakteristične kombinacije riječi prilično su učestale u tekstu
Uvod - kolokacije
• Altenberg: oko 70 % pojavnica iz korpusa tvori rekurentne
kombinacije riječi neke vrste (proučavao je korpus engleskoga)
• npr. daljinski upravljač, odlučno opovrgnuti, oružje za masovno
uništenje, drvo za ogrjev, uzeti mjeru, ispod stola, kick the bucket,
weiß wein, ...
• takve se kombinacije riječi u lingvistici nazivaju kolokacijama
Kolokacije
•
•
veći dio definicija oslanja se na statističke pojmove poput čestote ili
supojavljivanja
kolokacija je kombinacija riječi koje se supojavljuju značajno češće
nego što bi se moglo predvidjeti iz njihovih zasebnih frekvencija u
promatranom uzorku (Kilgarriff 1992)
Kolokacije
• knjiške definicije određuju “susljedne” riječi kao kolokacije preko tri
osobine koje one moraju zadovoljavati:
• nedjeljivost (non-compositionality)
• nezamjenljivost (non-substitutability)
• nepromjenljivost (non-modifiability)
Nedjeljivost
• značenje kolokacije ne može biti izvedeno iz značenja pojedinih
komponenti (riječi)
• Na primjer:
• “ispod stola”; “topli brat”
• u strojnom bi prevođenju prijevod riječ-za-riječ mogao predstavljati
pogrešku (npr. eng. red tape)
Nezamjenljivost
• bilo koju riječ iz kolokacije nije moguće zamijeniti sinonimom ili bilo
kojom drugom sličnom riječi
• Na primjer:
• “ispod stola”; “topli brat”
• nije moguće:“podno stola”*; “mlaki brat”*
Nepromjenljivost
• kolokacije nije moguće mijenjati čak i kad nam gramatika to dopušta
• “ispod stola”; “topli brat”
• nije moguće:“ispod drvenog stola”*; “topli Ivanov polubrat”*
Identifikacija kolokacija
• [msd="A.*"][lemma="glava"] > Sort na Node
• dobili smo dobre potencijalne kandidate za kolokacije!
Uzajamna obavijesnost, UO (Mutual Information,
MI )
• brojčana vrijednost koja se izračunava uspoređivanjem
vjerojatnosti supojavljivanja dviju pojavnica zajedno s
vjerojatnošću da se pojave odvojeno:
MI  log 2
vjerojatnost pojavljivanja zajedno
vjerojatnost pojavljivanja odvojeno
Uzajamna obavijesnost, UO (Mutual Information,
MI )
• govori o tome koliko jedna riječ govori o
drugoj:
P ( x, y )
MI  log 2
P( x)  P( y )
• P(x)
• P( x, y)
vjerojatnost unigrama
vjerojatnost bigrama
Uzajamna obavijesnost - primjer
• U 1 M (1.000.000 pojavnica) korpusu:
• <okrugao> se javlja 29 puta
• <stol> se javlja 196 puta
• <okrugao><stol> se javlja 15 puta
• možemo li tvrditi da je “okrugli stol” kolokacija prema UO?
Uzajamna obavijesnost
15
0,000015
1000000
MI  log 2(
)  log 2(
)
29
196
0,00000000
5684

1000000 1000000
 log 2(2838,98)  11,47
• Wlofram Alpha http://www.wolframalpha.com
• ld(x) > računa logaritam po bazi 2 broja x
• ld(8) =3
ili
• log_2(x)
upisati x bez decimala u W.A.
Uzajamna obavijesnost – primjer 2
• U 1 M korpusu:
• <slobodan> se javlja 297 puta
• <trgovina> se javlja 134 puta
• <slobodan> <trgovina> se javlja 24 puta
• možemo li tvrditi da je “slobodna trgovina” kolokacija prema UO?
Uzajamna obavijesnost – primjer 2
24
0,000024
1000000
MI  log 2(
)  log 2(
)
297
134
0,00000003
9798

1000000 1000000
 log 2(603,04)  9,23
Uzajamna obavijesnost
• u izloženom primjeru, UO pokazuje koliko jedna pojavnica govori o
drugoj, odnosno
• broj koji nam kazuje koliko se povećava sigurnost da će slijediti riječ trgovina
nakon što smo vidjeli riječ slobodna
• ta se sigurnost izražava u bitovima i u prethodnom primjeru iznosi 9,23 bita
Kolokacije AP 1995 korpusa
“Nekolokacije” AP 1995 korpusa
T-test
t
Razlika između promatrane i
očekivane aritm. sredine
x μ
2
s
N
x je aritmetička sredina uzorka
 je pretpostavljena vrijednost
aritmetičke sredine osnovnog skupa
s2 je varijanca uzorka
N je veličina uzorka
promatrana vrijednost
x  P(w1, w2)
  P(w1)  P(w2)
pretpostavljena vrijednost
2
varijanca se uzima aproksimativno kao s  P(w1, w2)
T-test: 1. primjer
• U 1 M korpusu:
• <okrugao> se javlja 29 puta
• <stol> se javlja 196 puta
• <okrugao><stol> se javlja 15 puta
• možemo li tvrditi da je okrugli stol kolokacija?
t
x μ
s2
N
T-test: 1. primjer
• x promatrana aritmetička sredina je:
15
x
 0,000015
1000000
•  pretpostavljena vrijednost aritmetičke sredine
osnovnog skupa je:
29
196


 0,00000000 5684
1000000 1000000
T-test: 1. primjer
• vrijednosti uvrštene u formulu izgledaju:
t
x -μ
s2
N

0,000015 0,00000000
5684 0,00001499
4316

 3,871
0,00000387
29
0,000015
1000000
• za prihvaćanje H0 sa sigurnošću od 99% (α=0,005) kritična
vrijednost t treba iznositi najmanje 2,576
H0 se odbacuje jer je 3,871 > 2,576
možemo tvrditi da okrugli i stol tvore kolokaciju
T-test
• ukoliko je vrijednost veličine t veća od 2,576 hipoteza H0 se odbacuje
s 99 % pouzdanosti (∞ stupnjeva slobode)
•
•
•
•
α=0,0005 (99,9 %); t ≥ 3,291
α=0,005 (99 %); t ≥ 2,576
α=0,01 (98 %); t ≥ 2,326
α=0,05 (90 %); t ≥ 1,645
UO vs. T test
UO vs. T test
Supojavljvanja „riječi”
• stručno nazivlje
• periferna memorija, višestanični organizam
• leksičke kolokacije
• daljinski upravljač, mobilni uređaj
• vlastita imena
• Ruđer Bošković, Leo Messi
• frazemi
• dolijevati ulje na vatru, čovjek od riječi
• ustaljene fraze i klišeji
• plan i program, dobar dan
Statistički rezultati
• statistička metodologija od iznimne je pomoći kod pronalaženja
kolokacija
• frekvencije same po sebi ne govore da su dvije riječi u posebnom
odnosu
• ALI: statističke mjere daju dobru procjenu koliko je vjerojatno da se
radi o kombinaciji dvije riječi, a ne slučajnosti