Transcript ppt
Morfológia A számítógépes nyelvfeldolgozás alapjai A számítógépes nyelvfeldolgozás alapjai – 2013. március 4. Bevezető • Szöveg szavakra bontása megtörtént • Szavak morfológiai elemzése • Szótövesítés (lemmatizálás) • Szófaji egyértelműsítés Morfológiai elemzés • Feladata: minden szövegszóhoz hozzárendelni az összes lehetséges elemzését (szófaj és egyéb morfológiai jegyek) és a hozzájuk tartozó szótöveket (lemmák) • magyar vs. angol – Szótári alapalakok – Lehetséges szóalakok száma – Lehetséges elemzések (kódok) száma (angol 36 vs. magyar ~1000) – Eltárolható-e minden szóalak? Morfológiai elemző • Lexikon: szótövek és toldalékok • Szabályok: a szóalakok felszíni reprezentációja és a nyelvi elemek szótári reprezentációja hogyan függ össze • Csak zárt szóosztályokra működik jól (névmások, kötőszavak…) – ezek kimerítően felsorolhatók a szótárban Lemmatizálás • Szótövesítés: a morfológiai elemző feladata – a szóalakot tőre (lemmára) és toldalékokra bontja • Képzés? • Abszolút és relatív szótő: faxolásaitoknak (fax vs. faxolás) • Mikor melyiket érdemes használni? szolgáltatások – szolgáltatás – szolgáltat – szolga Ismeretlen szavak elemzése • A szókincs állandó bővülése miatt nincs benne minden szó a szótárban • Lehetséges toldalékok listájára lehet csak hagyatkozni • Tartalmaz-e a szóalak jobb oldala lehetséges toldaléktömböket? – Ha igen, levágjuk, és a maradékot kezeljük szótőként – Az affixumok alapján kap morfológiai elemzést • Előállítható-e két szótárban meglevő lemmából? (egérpad) Példa: vuvuzeláztál • vuvuzeláz+tál (vuvuzeláz ige egyes szám második személyű múlt idejű alanyi ragozású alakja) • vuvuzelázta+l (vuvuzelázta főnévből képzett egyes szám harmadik személyű jelen idejű alanyi tagozású ige) • vuvuzela+z+tál (vuvuzela főnévből képzett egyes szám második személyű múlt idejű alanyi ragozású ige) • vuvuzelázt+ál (melléknév, vuvuzelázt lemmához hozzátettük az ál melléknevet) • vuvuzeláz+tál (főnév, vuvuzeláz lemmához hozzátettük a tál főnevet) • vuvuzel+áztál (egyes szám második személyű múlt idejű alanyi ragozású ige, vuvuzel lemmához hozzátettük az áztál igét) • vuvuze+láz+tál (főnév, a vuvuze lemmához hozzátettük először a láz, majd a tál főneveket) • vuvuz+el+áztál (egyes szám második személyű múlt idejű alanyi ragozású ige, a vuvuz lemmához hozzátettük az eláztál igekötős igét) Kötőjelet tartalmazó szóalakok • Hasonló az összetett szavakhoz • A kötőjel utáni rész elemzése adja meg az egész szóalak elemzését • A kötőjel után egész szó következik (labdarúgó-világbajnokság) • A kötőjel után toldalék következik (GPS-nek) Problémák és megoldások • GPS-szel • Igei elemzés? • Megszorítások: – a toldaléklista bármely elemével való egyezés élvezzen elsőbbséget a szótár bármely (toldalékolt) elemével való egyezéssel szemben – az összetett szavak és kötőjeles szavak elemzésénél nem engedünk meg bizonyos kombinációkat, melyeket nyelvtani okok miatt kell kizárni • VERB+NOUN: gyakorolok - *gyakorol+ok • PREVERB+NOUN: ellen - *el+len • VERB + ADV: Róma - *ró+ma NE-k elemzése • „normális” szavak esetén a szótárra + toldaléklistára hagyatkozik • Az NE-k nem sorolhatók fel szótárban -> csak a toldaléklista elérhető • Az NE látszólag ragozott: Pannon (Pann+on) McDonald’s • minden lehetséges vágást végrehajtunk, és az eredményül kapott lemmákra keresünk a weben – a leggyakoribbat fogadjuk el helyesnek Citroenben Citroen + ben Citroenb + en Citroenbe + n Tulajdonnévlisták • • • • Segítik az elemzést Leggyakoribbakat érdemes felvenni Fontos a szótár mérete Ha túl kicsi, nem kapunk jó elemzéseket: Kansas – kan+sas • Ha túl nagy, túlgenerálás: szemantika – szem+Antika Tulajdonnevekhez kötőjellel kapcsolt elemek • ha a kötőjel utáni rész főnév, akkor a teljes szó elemzése legyen az, ami a kötőjel utáni részé: Bush-kormánnyal - -vAl ragos főnév • ha a kötőjel után toldalék következik, a kötőjel előtti részt és a kötőjelet helyettesítsük egy másik lemmával (mintaillesztés) • amennyiben sikerül elemezni, a kapott elemzés lesz a teljes szóalak címkéje: MTI-vel - felhővel - -vAl ragos főnév Morfológiai kódrendszerek • Morfológiai elemzés alapja • Szófaji (és szintaktikai) információ átfordítása gép által is könnyen kezelhető formátumba • Kijelentő módú, jelen idejű, egyes szám harmadik személyű, tárgyas ragozású ige -> Vmip3s---y Kódrendszerek • Nyelvfüggetlen (?) • Nyelvfüggő • Előnyök és hátrányok: – nemzetközi összehasonlíthatóság – nyelv sajátosságainak figyelembe vétele – komplexitás • Eltérő mélységű és minőségű információk – példák? Magyar kódrendszerek • HUMOR – MNSZ-ben – Van rá elemző • MSD – Szeged Korpuszban – Van rá elemző • KR – Nincs rá adatbázis – Elemző van rá (min mérjük??? – MSD-KR harmonizáció) HUMor • High-speed unification morphology • Unifikációs nyelvleíráson alapul • Tövek és morfémák együttes előfordulásra való képességük alapján jegyekkel vannak ellátva (előfordulhatnak-e együtt vagy sem?) MSD • Morphosyntactic Description • Nemzetközi kódrendszer: – angol – román – szlovén – cseh – bolgár – észt – magyar MSD - 2 • Pozicionális kódok • Adott pozíció adott információtípust kódol • 0. pozíció: szófaj • 1. pozíció: szófajon belüli (al)típus • További pozíciók: egyéb nyelvtani információk (szám, személy, ragozás stb.) • Ami nem releváns a magyarban, nem írjuk ki (-) KR • Magyarra lett kitalálva • Jegy-érték struktúrákban kódolja az információt • Vannak default jegyek (E/3., egyes szám stb.) • Képzések és összetételek kezelése KR-MSD harmonizáció • Szeged-Pest együttműködésben • KR-ből: gyakorító, műveltető, ható igék kezelése, köznév és tulajdonnév megkülönböztetésének eltörlése • MSD-ből: névmások elkülönítése, határozószók fokozhatósága • Egységes morfológiai elemző és átalakított Szeged Korpusz 2.5 folyamatban… Magyar morfológiai elemzők • HuMOR – HuMOR-kódokra épül – Nem szabad hozzáférésű • Hunmorph – KR-kódokra épül (morphdb.hu lexikai és morfológiai adatbázis) – Nyílt forráskódú, ingyenes – http://mokk.bme.hu/resources/hunmorph • Magyarlanc – MSD-kódokra épül, harmonizált KR-MSD hamarosan… – morphdb.hu-t használja – Ingyenes – http://www.inf.u-szeged.hu/rgai/magyarlanc Szófaji egyértelműsítés • POS-tagging – POS-tagger • A morfológiai elemző által adott kódok közül kiválasztja az adott környezetbe illőt: Megcsípett, a szemét! V DET N-NOM Hol csípte meg? ADV V PREV A szemét. DET N-ACC Morfológiailag többértelmű szavak • A Szeged Korpusz szövegszavainak kb. 50%-a többértelmű • Szófaji egyértelműsítés fontossága – Várnak – Népének – Művére – Faszék – Vámpír Szófaji egyértelműsítők • Szabályalapú rendszerek: – Szakértői szabályok – Ha a következő szó főnév és a megelőző szó ige, akkor az adott szó legyen névelő • Statisztikai rendszerek – Rejtett Markov-modell (HMM) – Maximum Entrópia (MaxEnt) – Szekvenciajelölés (CRF): egész mondatra keres megfelelő címkesorozatot, nem egyes szavakra Magyar szófaji egyértelműsítők • hunPOS – HMM-alapú – Nyílt forráskódú – http://mokk.bme.hu/resources/hunpos • purePOS – HMM-alapú – Nyílt forráskódú – http://nlpg.itk.ppke.hu/software/purepos • Magyarlanc – – – – Maximum entrópia alapú Ingyenes http://www.inf.u-szeged.hu/rgai/magyarlanc Online demó: http://www.inf.u-szeged.hu/rgai/magyarlanc-service/ Kiértékelés • Pontosság (accuracy) • Hány %-ban találta el a szófaji elemzést és a lemmát • Egyes osztályokra (szófajokra) Fmérték • Mostani rendszerek ~96-97% pontosság körül teljesítenek