Transcript ppt
Szintaxis
A számítógépes nyelvfeldolgozás alapjai
A számítógépes nyelvfeldolgozás alapjai – 2013. március 14.
Bevezetés
• Szintaxis: mondat szavai között
levő nyelvtani kapcsolatok (alanyige, főnév-névutó stb.) azonosítása
(gépi úton)
• Tokenizálás és szófaji
egyértelműsítés eredményének
felhasználásával
• Parsing – parser
Mondatbeli egységek
• Frázisok: szorosabban összetartozó
elemek
– Főnévi csoportok (NP): én, a sárga ház, Pisti
kutyája…
– Ezek töltik be a különféle nyelvtani
szerepeket (alany, tárgy…)
• predikátum-argumentum viszonyok
– nem csak ige lehet predikátum (melléknevek
(féltékeny vkire), esemény jelentésű főnevek
(vkik közötti háború)…)
Szintaxis az alkalmazásokban
• A szintaktikai elemzés általában
előfeldolgozó lépés egy magasabb
rendű feladathoz
• A folyó szövegek mélyebb nyelvi
elemzéséhez elengedhetetlen a
mondatok szintaktikai elemzése
• Információkinyeréshez is szükséges a jó
minőségű szintaktikai elemzés:
A SPAR felvásárolta a PLUS-t.
Vásárló: SPAR Áru: PLUS
Szintaxis az alkalmazásokban
• Gépi fordítás
Tegnap az irodában Péter öt levelet írt.
TEMP
LOC SUBJ OBJ VERB
Peter wrote five letters in the office yesterday.
SUBJ VERB OBJ
LOC
TEMP
Számítógépes szintaxis
• Szabályalapú elemzés
– Szakértők kézzel írnak szabályokat
• Statisztikai elemzés
– Nagyméretű adatbázisok (treebankek)
– Elemzők (parserek)
– Treebankekből automatikusan kinyert
szabályok alapján zajlik az elemzés
Statisztikai szintaktikai
elemzés
• Angol nyelvre kifejlesztett
technológiák
• Konstituens- (összetevős) és
függőségi (dependencia)alapú
elemzők
• Kötött szórend vs. szabad szórend
Függőségi vs.
konstituenselemzés
• Minden csomópont egy szónak felel
meg -> nincsenek művi csomópontok
(CP, I’…) a függőségi fákban
• Konstituens-nyelvtanok általában kötött
szórendű nyelvekre jók
• Mi határozza meg a szintaktikai
viszonyokat?
– a fában való elhelyezkedés (konstituens)
– függőségi viszonyok (címkézett élek)
(dependencia)
Elemzés mint keresés
• adott mondathoz az elemzési fákat
megtalálni és kiválasztani a
legjobbat
• Megszorítások a keresésben:
– A fa gyökere a kezdő szimbólum (S)
– A fa levelein az input szavai találhatók
Konstituenselemzés
• Terminálisok: szavak
• Nemterminálisok: konstituensek
• Szabályok: baloldal egyetlen
nemterminális
Elemzés fentről lefelé
• célirányos
• S-ből kiindulva építi a fát
• szabályok bal oldalát illeszti
Elemzés lentről felfelé
• adatorientált
• input
szavaiból
indul ki
• szabályok
jobb oldalát
illeszti
Összehasonlítás
• fentről lefelé:
– csak jó (S-ben végződő) fákat állít elő
– sok fa nem felel meg az inputnak
• lentről felfelé:
– csak a szavaknak megfelelő fák állnak
elő
– számos rossz fa is előáll
Konstituensfák a Szeged
Treebankben
• Generatív szintaxison alapul (É. Kiss et al. 1999)
• A magyar nyelv szintaktikai sajátságai szintén
figyelembe vannak véve (nem „hardcore”
Chomsky-féle nyelvtan)
• Az ige-argumentum viszonyokat címkék kódolják
• Nagyon részletes információk: minden esetraghoz
külön nyelvtani szerep tartozik
• Szemantikai információ is megjelenik (idő- és
helyhatározók)
Függőségi elemzés
• Tranzakcióalapú
– Minden lépésben egy új él felvétele
– Osztályozási probléma:
• egyedek: szópárok
• jellemzők: szavak, POS-kódok
• akció: új él behúzása vagy semmi
• Gráfalapú
– Legjobb gráf megtalálása
Függőségi fák a Szeged
Dependencia Treebankben
• A szavak a fa csomópontjai
• A főnévi argumentumok sokkal
kevesebb szereppel rendelkeznek:
SUBJ, OBJ, DAT,OBL, ATT ->
morfológia kódolja már az esetragot
• Szemantikai információ megőrződik
• Lehetnek keresztező élek (A fiúnak látta
a kutyáját.)
Virtuális csomópontok
• Kijelentő mód, jelen idő, 3.
személyben nincs létige
András katona (*van).
András legyen katona!
András katona lesz.
• A SzT-ben nincs jelölve ezeknek a
mondatoknak a grammatikai
szerkezete
• SzDT-ben virtuális csomópontok
Szeged Treebank vs. Szeged
Dependencia Treebank
• Címkézett relációk mindkettőben -> nem olyan
nagy az eltérés
• Virtuális csomópontok SzDT-ben -> minden
mondat nyelvtani szerkezettel rendelkezik (IE,
MT)
• Nincsenek szórendi megszorítások a SzDT-ben
• Szóalakok szerepelnek a fákban
• Egyéb lehetőség: morfémaalapú szintaxis
(Prószéky et al. (1989), Koutny, Wacha (1991))
Hol tartunk jelenleg?
• Szeged (Dependencia) Treebank:
konstituens és függőségi reprezentáció
egyaránt (kézi annotáció)
• Magyarra adaptált statisztikai elemzők:
– konstituens (Berkeley parser)
– függőségi (Bohnet-parser)
• Szeged (Dependencia) Treebanken
tanítva
• Sztenderd magyar szövegeken
viszonylag jól működnek
• Nyelvspecifikus hibák
Alanyesetű, nem alanyi szerepet
betöltő főnevek
• Birtokos: a kisfiú labdája
• Predikatív névszó: István juhász
maradt.
• Tárgy: A kutyám kergeti a macska.
(kerti ösvény mondat)
A fiam szereti a lányod.
Lehetséges megoldások
• Birtokos:
– SzT: egy NP tartalmazza a birtokost
és a birtokot ((a kisfiú) labdája)
– SzDT: ATT reláció
• Predikatív névszó: PRED reláció
– SzDT: virtuális csomópont
• Tárgy: OBJ reláció
– Néha nem elég a szövegkörnyezet…
-> többértelműség
Áltárgyak
Formailag tárgynak látszó határozók:
Futottam egy jót.
Nagyot aludtam.
Tárgyatlan ige -> nem lehet tárgy -> MODE
reláció
Részes esetnek látszó esetek
Nem minden szemantikai alany áll
alanyesetben:
• Részes esetű alany:
Sándornak kell elrendeznie az ügyeket.
• Mindkét treebankben DAT
• Bizonyos segédigék részes esetű
alannyal állnak (kivételek)
• DAT-NOM párhuzam: birtokos szerkezet
Többértelműség
• morfológiai többértelműség:
szemét – szem+é+t
• szerkezeti többértelműség:
Reggel lelőttem egy elefántot a pizsamámban.
– Kin van a pizsama?
• lexikális többértelműség:
„megveted még hideg ágyamat”
– Visszautasítod vagy megágyazol?
• szemantikai többértelműség:
Minden férfi szeret egy nőt.
– Ugyanazt a nőt vagy mindenki másikat?
Szintaktikai többértelműség
• bővítmények csatolása:
Láttam a lányt a távcsővel.
– Kinél van a távcső?
• mellérendelés:
(Sikoltozó (gyerekek és anyukák)) szaladgáltak a
játszótéren.
((Sikoltozó gyerekek) és (anyukák)) szaladgáltak
a játszótéren.
• szintaktikai egyértelműsítés: az összes
lehetséges fa előállítása a mondathoz és a
legjobb kiválasztása
• lokális többértelműség: a mondat egy része
többértelmű (több elemzés rendelhető hozzá),
de a mondat maga nem (a fiú kutyája – az „a”
hova csatlakozik?)
Többértelműség az angolban
Time flies like an arrow.
VB VBZ VB DT NN
NN NNS IN
VB
NNP
NN
RB
CC
Time flies like an arrow.
•
•
•
•
•
•
•
•
•
Az időlegyek szeretnek egy nyilat.
Úgy repül az idő, mint egy nyílvessző.
A Time magazin úgy száll, mint egy nyílvessző.
Az idő úgy menekül, mint egy nyílvessző.
A Time magazin kiadója úgy száll, mint egy
nyílvessző.
Mérd a legyek sebességét úgy, mint egy nyílét.
Mérd a legyek sebességét úgy, mint egy nyíl.
Mérd meg nyílsebesen a legyek sebességét.
Mérd meg azoknak a legyeknek a sebességét,
amelyek egy nyílra hasonlítanak.
Szintaktikai elemzés jóságának
mérése
• Konstituenselemzés
– Minden konstituenst hasonlítunk
(címkézve vagy anélkül)
– Egyes szavak őseinek sorozatát
hasonlítjuk
• Dependenciaelemzés
– minden szóra
– ős és/vagy reláció típusának
eltalálása
Kiértékelés
•
•
•
•
pontosság
fedés
F-mérték
LAS (labeled accuracy score): szülő és
címke
• ULA (unlabeled accuracy score): csak
szülő
• elemzési hibák lehetséges okai:
– rossz szófaji elemzés
– hiba a tanító adatbázisban
– többértelműség