Transcript ppt

Morfológia
A számítógépes nyelvfeldolgozás alapjai
A számítógépes nyelvfeldolgozás alapjai – 2013. március 4.
Bevezető
• Szöveg szavakra bontása
megtörtént
• Szavak morfológiai elemzése
• Szótövesítés (lemmatizálás)
• Szófaji egyértelműsítés
Morfológiai elemzés
• Feladata: minden szövegszóhoz
hozzárendelni az összes lehetséges
elemzését (szófaj és egyéb morfológiai
jegyek) és a hozzájuk tartozó szótöveket
(lemmák)
• magyar vs. angol
– Szótári alapalakok
– Lehetséges szóalakok száma
– Lehetséges elemzések (kódok) száma (angol
36 vs. magyar ~1000)
– Eltárolható-e minden szóalak?
Morfológiai elemző
• Lexikon: szótövek és toldalékok
• Szabályok: a szóalakok felszíni
reprezentációja és a nyelvi elemek
szótári reprezentációja hogyan
függ össze
• Csak zárt szóosztályokra működik
jól (névmások, kötőszavak…) –
ezek kimerítően felsorolhatók a
szótárban
Lemmatizálás
• Szótövesítés: a morfológiai elemző
feladata – a szóalakot tőre (lemmára) és
toldalékokra bontja
• Képzés?
• Abszolút és relatív szótő:
faxolásaitoknak (fax vs. faxolás)
• Mikor melyiket érdemes használni?
szolgáltatások – szolgáltatás – szolgáltat –
szolga
Ismeretlen szavak elemzése
• A szókincs állandó bővülése miatt nincs
benne minden szó a szótárban
• Lehetséges toldalékok listájára lehet
csak hagyatkozni
• Tartalmaz-e a szóalak jobb oldala
lehetséges toldaléktömböket?
– Ha igen, levágjuk, és a maradékot kezeljük
szótőként
– Az affixumok alapján kap morfológiai
elemzést
• Előállítható-e két szótárban meglevő
lemmából? (egérpad)
Példa: vuvuzeláztál
• vuvuzeláz+tál (vuvuzeláz ige egyes szám második
személyű múlt idejű alanyi ragozású alakja)
• vuvuzelázta+l (vuvuzelázta főnévből képzett egyes szám
harmadik személyű jelen idejű alanyi tagozású ige)
• vuvuzela+z+tál (vuvuzela főnévből képzett egyes szám
második személyű múlt idejű alanyi ragozású ige)
• vuvuzelázt+ál (melléknév, vuvuzelázt lemmához
hozzátettük az ál melléknevet)
• vuvuzeláz+tál (főnév, vuvuzeláz lemmához hozzátettük a
tál főnevet)
• vuvuzel+áztál (egyes szám második személyű múlt idejű
alanyi ragozású ige, vuvuzel lemmához hozzátettük az
áztál igét)
• vuvuze+láz+tál (főnév, a vuvuze lemmához hozzátettük
először a láz, majd a tál főneveket)
• vuvuz+el+áztál (egyes szám második személyű múlt
idejű alanyi ragozású ige, a vuvuz lemmához hozzátettük
az eláztál igekötős igét)
Kötőjelet tartalmazó szóalakok
• Hasonló az összetett szavakhoz
• A kötőjel utáni rész elemzése adja
meg az egész szóalak elemzését
• A kötőjel után egész szó következik
(labdarúgó-világbajnokság)
• A kötőjel után toldalék következik
(GPS-nek)
Problémák és megoldások
• GPS-szel
• Igei elemzés?
• Megszorítások:
– a toldaléklista bármely elemével való egyezés
élvezzen elsőbbséget a szótár bármely (toldalékolt)
elemével való egyezéssel szemben
– az összetett szavak és kötőjeles szavak elemzésénél
nem engedünk meg bizonyos kombinációkat,
melyeket nyelvtani okok miatt kell kizárni
• VERB+NOUN: gyakorolok - *gyakorol+ok
• PREVERB+NOUN: ellen - *el+len
• VERB + ADV: Róma - *ró+ma
NE-k elemzése
• „normális” szavak esetén a szótárra +
toldaléklistára hagyatkozik
• Az NE-k nem sorolhatók fel szótárban -> csak a
toldaléklista elérhető
• Az NE látszólag ragozott:
Pannon (Pann+on)
McDonald’s
• minden lehetséges vágást végrehajtunk, és az
eredményül kapott lemmákra keresünk a
weben – a leggyakoribbat fogadjuk el
helyesnek
Citroenben
Citroen + ben
Citroenb + en
Citroenbe + n
Tulajdonnévlisták
•
•
•
•
Segítik az elemzést
Leggyakoribbakat érdemes felvenni
Fontos a szótár mérete
Ha túl kicsi, nem kapunk jó
elemzéseket:
Kansas – kan+sas
• Ha túl nagy, túlgenerálás:
szemantika – szem+Antika
Tulajdonnevekhez kötőjellel
kapcsolt elemek
• ha a kötőjel utáni rész főnév, akkor a
teljes szó elemzése legyen az, ami a
kötőjel utáni részé:
Bush-kormánnyal - -vAl ragos főnév
• ha a kötőjel után toldalék következik, a
kötőjel előtti részt és a kötőjelet
helyettesítsük egy másik lemmával
(mintaillesztés)
• amennyiben sikerül elemezni, a kapott
elemzés lesz a teljes szóalak címkéje:
MTI-vel - felhővel - -vAl ragos főnév
Morfológiai kódrendszerek
• Morfológiai elemzés alapja
• Szófaji (és szintaktikai) információ
átfordítása gép által is könnyen kezelhető
formátumba
• Kijelentő módú, jelen idejű, egyes szám
harmadik személyű, tárgyas ragozású ige
-> Vmip3s---y
Kódrendszerek
• Nyelvfüggetlen (?)
• Nyelvfüggő
• Előnyök és hátrányok:
– nemzetközi összehasonlíthatóság
– nyelv sajátosságainak figyelembe
vétele
– komplexitás
• Eltérő mélységű és minőségű
információk – példák?
Magyar kódrendszerek
• HUMOR
– MNSZ-ben
– Van rá elemző
• MSD
– Szeged Korpuszban
– Van rá elemző
• KR
– Nincs rá adatbázis
– Elemző van rá (min mérjük??? – MSD-KR
harmonizáció)
HUMor
• High-speed unification morphology
• Unifikációs nyelvleíráson alapul
• Tövek és morfémák együttes
előfordulásra való képességük
alapján jegyekkel vannak ellátva
(előfordulhatnak-e együtt vagy
sem?)
MSD
• Morphosyntactic Description
• Nemzetközi kódrendszer:
– angol
– román
– szlovén
– cseh
– bolgár
– észt
– magyar
MSD - 2
• Pozicionális kódok
• Adott pozíció adott információtípust
kódol
• 0. pozíció: szófaj
• 1. pozíció: szófajon belüli (al)típus
• További pozíciók: egyéb nyelvtani
információk (szám, személy, ragozás
stb.)
• Ami nem releváns a magyarban, nem
írjuk ki (-)
KR
• Magyarra lett kitalálva
• Jegy-érték struktúrákban kódolja
az információt
• Vannak default jegyek (E/3., egyes
szám stb.)
• Képzések és összetételek kezelése
KR-MSD harmonizáció
• Szeged-Pest együttműködésben
• KR-ből: gyakorító, műveltető, ható igék
kezelése, köznév és tulajdonnév
megkülönböztetésének eltörlése
• MSD-ből: névmások elkülönítése,
határozószók fokozhatósága
• Egységes morfológiai elemző és
átalakított Szeged Korpusz 2.5
folyamatban…
Magyar morfológiai elemzők
• HuMOR
– HuMOR-kódokra épül
– Nem szabad hozzáférésű
• Hunmorph
– KR-kódokra épül (morphdb.hu lexikai és
morfológiai adatbázis)
– Nyílt forráskódú, ingyenes
– http://mokk.bme.hu/resources/hunmorph
• Magyarlanc
– MSD-kódokra épül, harmonizált KR-MSD
hamarosan…
– morphdb.hu-t használja
– Ingyenes
– http://www.inf.u-szeged.hu/rgai/magyarlanc
Szófaji egyértelműsítés
• POS-tagging – POS-tagger
• A morfológiai elemző által adott kódok közül
kiválasztja az adott környezetbe illőt:
Megcsípett, a szemét!
V DET N-NOM
Hol csípte meg?
ADV V PREV
A szemét.
DET N-ACC
Morfológiailag többértelmű
szavak
• A Szeged Korpusz
szövegszavainak kb. 50%-a
többértelmű
• Szófaji egyértelműsítés fontossága
– Várnak
– Népének
– Művére
– Faszék
– Vámpír
Szófaji egyértelműsítők
• Szabályalapú rendszerek:
– Szakértői szabályok
– Ha a következő szó főnév és a megelőző szó
ige, akkor az adott szó legyen névelő
• Statisztikai rendszerek
– Rejtett Markov-modell (HMM)
– Maximum Entrópia (MaxEnt)
– Szekvenciajelölés (CRF): egész mondatra
keres megfelelő címkesorozatot, nem egyes
szavakra
Magyar szófaji egyértelműsítők
• hunPOS
– HMM-alapú
– Nyílt forráskódú
– http://mokk.bme.hu/resources/hunpos
• purePOS
– HMM-alapú
– Nyílt forráskódú
– http://nlpg.itk.ppke.hu/software/purepos
• Magyarlanc
–
–
–
–
Maximum entrópia alapú
Ingyenes
http://www.inf.u-szeged.hu/rgai/magyarlanc
Online demó:
http://www.inf.u-szeged.hu/rgai/magyarlanc-service/
Kiértékelés
• Pontosság (accuracy)
• Hány %-ban találta el a szófaji
elemzést és a lemmát
• Egyes osztályokra (szófajokra) Fmérték
• Mostani rendszerek ~96-97%
pontosság körül teljesítenek