Keeletehnoloogiast

Download Report

Transcript Keeletehnoloogiast

Eesti keeles suhtlev arvuti –
kas utoopia?
Heli Uibo, Kaili Müürisep
Kes õpetaks arvuti eesti keeles
suhtlema?
• Vastus: keeletehnoloogia
• Aga…
• Lihtne see pole. Mõelge, kuidas suhtlevad
omavahel kaks inimest.
Inimesed A ja B suhtlevad
•
•
•
•
•
•
A peas tekib mõte.
A sõnastab mõtte.
A ütleb mõtte välja.
B kuuleb A sõnu.
B saab aru, mida A ütles (oskab seda keelt).
B saab sisuliselt aru, mida A ütles (loodetavasti
on A ja B mõttemaailmad sedavõrd sarnased).
• B-l tekib omakorda mõte, ta sõnastab selle, ütleb
välja jne.
Veidi teooriat
Kõik keeletehnoloogia rakendused eeldavad osalist või
täielikku loomuliku keele analüüsi ja/või sünteesi (natural
language processing = NLP)
Kirjaliku keele töötluse etapid:
Morfoloogia
(sõna)
Süntaks
(lause)
Semantika
(lause
tähendus)
Pragmaatika
(lause
kontekst)
Analüüs e. tuvastus
Süntees e. genereerimine
Veidi teooriat (2)
• Mõnede rakenduste puhul on olulised just
kõnetuvastus (speech-to-text) või kõnesüntees
(text-to-speech)
kõnetuvastus
kõne
(helisignaalide
jada)
kõnesüntees
kirjalik
tekst
Veidi teooriat (3)
Loomuliku keele töötluse meetodid:
– grammatikapõhised (mingist
lingvistilisest teooriast lähtudes
koostatakse spetsiaalse struktuuriga
sõnastikud ja reeglid)
– statistilised (suurte tekstikorpuste põhjal
leitakse seaduspärasused, keeleteadusest
eriti ei hoolita)
Keeletehnoloogia – mis ja milleks?
• Keeletehnoloogia on infotehnoloogia haru,
mis tegeleb inimkeele töötlusega.
• Keeletehnoloogia arendamise reaalsed
eesmärgid:
– muuta inimese suhtlus masinaga võimalikult
mugavaks (kasutajaliides loomulikus keeles);
– aidata inimesel orienteeruda järjest kasvavas
infohulgas (infootsingusüsteemid, automaatsed
sisukokkuvõtete tegijad);
Keeletehnoloogia – mis ja milleks? (2)
– aidata inimest keeleküsimustes (elektroonilised
sõnastikud, õigekirja-, grammatika- ja
stiilikorrektorid, tesaurused, täis- või
poolautomaatsed tõlkijad);
– aidata puudega inimesi (kõne analüüs ja süntees
pimedatele, kirjutamise ja lugemise
abivahendid düslektikutele jne.)
kõrvalprodukt: kasu keeleteadusele
(lingvistiliste teooriate kontroll praktikas,
näiteks tekstikorpustel)
Mida keeletehnoloogia kasutab
• Keeletehnoloogia kasutab teadmisi
–
–
–
–
–
arvutiteadusest
keeleteadusest
matemaatikast
psühholoogiast
inseneriteadusest
Millega keeletehnoloogia kõige
üldisemalt tegeleb
Keeletehnoloogia tegeleb
– keeletarkvara väljatöötamisega
– keeleressursside loomisega
Keeletarkvara
• Kõne tuvastus ja süntees
• Õigekirja-, grammatika- ja stiilikorrektorid
• Optilise tekstituvastuse (OCR) programmid
(teksti skanneerimisel)
• Infootsisüsteemid
• Keeleõppeprogrammid
• Masintõlkesüsteemid
Keeleressursid
•
•
•
•
Kirja- ja kõnekeelekorpused
Elektroonilised sõnastikud
Leksikaalsed andmebaasid
Formaliseeritud grammatikakirjeldused
Keeletehnoloogia maailmas
• Areng algas koos esimeste arvutitega
– (“The spirit is strong but the flesh is weak.”)
• Peamiselt “suurte keelte” jaoks (inglise,
prantsuse, saksa, hiina, jaapani, vene)
• Euroopa Liit  tõlkeprobleemid
Tekstitoimeti juurde kuuluvad
abivahendid
• Õigekirjakorrektor (spelling checker) – sõna
tasandil õigekiri
• Grammatikakorrektor (grammar checker) –
lause tasandil õigekiri
• Stiilikorrektor (style checker) – teksti
tasandil õigekiri
• Automaatne poolitus (hyphenation)
• Tesaurus (thesaurus) – aitab rikastada teksti
sõnavara sünonüümide abil
Infootsisüsteemid
• Otsingusüsteemid e. otsingumootorid
(information retrieval = IR)
• Mitmekeelne otsing (multilingual
information retrieval)
• Info ekstrahheerimissüsteemid (information
extraction = IE)
• Dokumentide liigitus (classification)
• Automaatne sisukokkuvõtete tegemine
(automatic summarization)
Masintõlge
• Sõnastikupõhised süsteemid
• Tõlkemälu-põhised süsteemid
• Tõelised masintõlkeprogrammid
Väike ülevaade sellest, mida veebist leidsin...
Kõne süntees ja tuvastus
• Kõne süntees – elektroonilisel kujul olevast
tekstist kõne genereerimine ehk arvuti “räägib”.
• Kõne analüüs e. kõnetuvastus – suulisest kõnest
elektroonilise teksti genereerimine ehk arvuti
“kuuleb”.
Keeleõpe
• Sõnastikud
• Korpused
• Hääldus
Veel keeletehnoloogia rakendusi
• Loomuliku keele liidesega infootsisüsteemid (enamasti valdkond piiritletud:
transport, geograafia vm.)
www.askjeeves.com – universaalne
• Keelemõistataja - arvuti arvab ära, mis
keeles on tekst kirjutatud
http://odur.let.rug.nl/~vannoord/TextCat/De
mo/textcat.html (XRCE = Xerox Research
Centre Europe)
Keeletehnoloogia Eestis
• Kõne süntees Küberneetika Instituudis ja
Eesti Keele Instituudis(www.ee/eks)
• Sõnastikud Eesti Keele Instituudis
(www.eki.ee)
• Korpused Tartu Ülikoolis (www.cl.ut.ee)
• Morfoloogia- ja süntaksianalüsaatorid
• Tesaurused
• Dialoogimudelid
Morfoloogiline analüüs
Morfoloogiaanalüsaatorid:
1) ESTMORF (H. Kaalep). Sellest arendatud ka MS
Office’i speller
2) Ü. Viks (Eesti Keele Instituut):
klassifikatoorne morfoloogia
“Väike vormisõnastik”
avatud morfoloogiamudel
3) H. Uibo kahetasemelise morfoloogiamudeli
rakendamise katsed
Morfoloogiline analüüs (2)
• Morfoloogiaanalüsaator ESTMORF (H.-J.
Kaalep) suudab leida õige morfoloogilise
tõlgenduse üle 99% sõnadele.
• Üle 45% eesti keele sõnadest
morfoloogiliselt mitmeti tõlgendatavad
(homonüümid).
 morfoloogiline ühestamine
Morfoloogiline ühestamine
Morfoloogilised ühestajad:
1) kitsenduste grammatikal põhinev (T.
Puolakainen)
2) statistiline (H.Kaalep, T.Vaino)
Morfoloogiline ühestamine (2)
• Sagedasemad mitmesused:
 partitsiipide verbi ja omadussõna
tõlgenduste vahel (vrd. Neid ei nähtud.
Nähtud film.)
 nimisõnade nimetava, omastava ja
osastava (saba) või omastava, osastava ja
lühikese sisseütleva vahel (metsa)
 kaassõna, määrsõna ja nimisõna vahel
(andis võtmed minu kätte; kass sai hiire
kätte; pani kindad kätte)
Morfoloogilise ühestamise
probleemid (3)
• Sagedased mitmeti tõlgendatavad
verbivormid:
sai, viis, tee,või, tuli
Morfoloogiline ühestamine (3)
Näide lahendamatust mitmesusest:
(1) maailma-GEN juhtivad majandusriigid
(2) maailma-PART juhtivad majandusriigid
(3) maailma-ILLAT juhtivad majandusriigid
Morfoloogiline ühestamine - tulemused
• 85-90 % sõnadest saavad ühese
morfoloogilise tõlgenduse.
• Vigu on vähem kui 2 %.
Süntaktiline märgendamine - probleemid
Määrused või määruslikud täiendid:
Ta võttis praeahjust panni
Ta võttis vasest ahjuroobi
Omastavas käändes sihitis või eestäiend
Ta ostis selle linna turult
Alus ja sihitis
Tal ei olnud enamasti midagi ütelda
Alus ja määrus
See kord ilmus, kord kadus
Süntaktiline märgendamine - vead
Kiilud ja poolitatud osalaused
Seega oli samm, mille astus Eesti, palju
pikem ja otsustavam.
Fraasipiirid:
Peapiiskop Korneliuse tegevuses on
aimatavad erinevad motiivid.
Kvantorid
Asesõnade ühildumine
Süntaktiline märgendamine tulemused
• Korrektsus 96,5 - 98,5%
• Üheseid analüüse 83-90%
• Mitmesus tingitud peamiselt semantikast ja
lause keerulisest struktuurist
Süntaksianalüsaatori rakendused
• Nimisõnafraaside tuvastaja
• Automaatne sisukokkuvõtete tegija
Tesaurus
• Arvutileksikon, kus sõnad on nende tähenduste järgi
organiseeritud hierarhilisse struktuuri – sõnade võrku
(WordNet).
• Eesti keel kuulub ühena seitsmest keelest EuroWordNet’I
(teised keeled: hollandi, itaalia, hispaania, saksa,
prantsuse, tšehhi)
• Võrk kajastab erinevaid seoseid, nt ülem- ja alammõisted
(auto – liiklusvahend) või osa- tervikuseosed (mootor –
auto)
• 12 000 sõna
Veel ...
• Semantilise ühestamise programm semyhe (K.
Kaljurand, N. Kahusk) - põhineb WordNet’il
• Inglisekeelne infootsimissüsteem WebExtrAns
koostöös Zürichi Ülikooliga (projekti juht M.
Koit, meeskonnas K. Kaljurand, N. Kahusk)
• Dialoogimudelid (M. Koit, H. Õim, T. Hennoste,
M. Kullasaar, E. Vutt jt.)
Tekst-kõne sünteesi demod
• MBROLA projekt de Mons'i ülikoolis
(Belgias)
http://tcts.fpms.ac.be/synthesis/mbrola.html
– vaba kõnesünteesitarkvara
– difoonide andmebaasid 24 keele jaoks,
sh. eesti keel (E. Meister, A. Eek, M.
Mihkla)
Tekst-kõne sünteesi demod (2)
• Belli laborid
http://www1.belllabs.com/project/tts/voices.html
– inglise keelel põhinev,
– annab valida, kas arvuti räägib mehe,
naise, lapse, kohvijooja vm. häälega
Tekst-kõne sünteesi demod (3)
• AT&T laborid
http://www.research.att.com/~mim/cgibin/ttsdemo
– loeb inglise keelt suhteliselt hästi
– suurtähtedega kirjutatud või täpitähti
sisaldavat teksti hääldab tähthaaval
Tekst-kõne sünteesi demod (4)
• Eesti keele kõnesüntees - E. Meister jt.
TÜ Küberneetika instituudi foneetika ja
kõnetehnoloogia labor
demo veebis: kiisu.eki.ee