Jezikovne tehnologije

Download Report

Transcript Jezikovne tehnologije

Jezikovne tehnologije
Uvodni pregled in prelet
doc.dr. Špela Vintar
Oddelek za prevajalstvo
Filozofska fakulteta, Univerza v Ljubljani
2005/2006
[email protected]
Še nekaj aplikacij




Eliza
Sinteza govora… ali petja
Odgovarjanje na vprašanja
Klepec
Pregled tem

Uvod v jezikovne tehnologije


Jezikovni viri na internetu


Pregled slovarjev, korpusov in terminoloških virov na
internetu
Korpusi




Kako računalnik razume jezik
Osnove korpusnega jezikoslovja
Korpusi na internetu
Napredno iskanje in regularni izrazi
Označevanje korpusov



oblikoslovno označevanje in ostale ravni
standardi: eXtensible Markup Language (XML)
zapisi znakov in pretvorbe med njimi
Pregled tem II

Korpusna leksikografija


Korpusna terminologija


Razpoznavanje govora, tvorjenje govora in aplikacije.
Gost: Jerneja Žganec Gros
Skladnja



Gradnja specializiranih korpusov in njihova izraba za
terminografske namene
Govorne tehnologije


Kako s pomočjo korpusa nastane slovar? Gost: Simon
Krek
Modeli za skladenjsko analizo jezika
Orodja in aplikacije
Projektne predstavitve
Organizacijske reči



Projektna / seminarska naloga
Izpit
“Kolobarjenje” predavateljev:
doc. dr. Tomaž Erjavec (IJS) [email protected]
doc. dr. Špela Vintar (FF UL) [email protected]
mag. Irena Srdanović [email protected]
+ gosti

Konzultacije in govorilne ure:


petek 13.00-13.30, po potrebi po vajah, po dogovoru
Spletna stran:
http://lojze.lugos.si/jt
Računalniška obdelava naravnega
jezika


NLP = Natural Language Processing
računalniško jezikoslovje (Computational
Linguistics)



veja računalništva in informatike, ki se navezuje
na jezikoslovje
cilj: modeliranje naravnega jezika za različne
računalniške aplikacije (črkovalniki, prevajalniki,
lematizatorji itd.)
jezikovne tehnologije (Language
Technologies)

razvoj konkretnih jezikovnih virov, orodij in
programov
Jezik in računalnik

Kako računalnik “razume” jezik?

Jezikovne komponente v urejevalniku
besedil:
črkovalnik, preverjanje slovnice, pravila za segmentacijo
besed, stavkov

Kaj je beseda, kaj je stavek?





vsi podatki so za računalnik najprej nizi znakov
(strings)
besede so med seboj ločene s presledki
besede so med seboj ločene s presledki ali ločili
besede so med seboj ločene s presledkom ali ločilom in
presledkom
javno- in zasebnopravni vidiki, itd., $4.000.000
Iskanje

Zanimajo me avtomobilska podjetja.


Bomo iskali avtomobilska podjetja, avtomobilsko
podjetje?
Če me zanimajo še zadetki v angleščini:
automobile companies, automobile company
X zadetkov
Y zadetkov
Iskanje

Zanimajo me avtomobilska podjetja.


Bomo iskali avtomobilska podjetja, avtomobilsko
podjetje?
Če me zanimajo še zadetki v angleščini:
automobile companies, automobile company
X zadetkov
Y zadetkov
Iskanje z Googlom
avtomobilsko podjetje
avtomobilska podjetja
avtomobilska firma
avtomobilske firme
avtopodjetje
zastopnik avtomobilov
prodajalec avtomobilov
avtoprodaja
zastopstvo avtomobilov
573
835
43
107
4
807
407
507
405
Oblika vs. pomen

Kako bi bilo mogoče zgraditi “pametni” spletni
iskalnik, ki bi iskal po pomenu besede?
zdravljenje anoreksije
zdravljenje
zdravljenja
zdravljenju
terapija
terapevtski ukrepi
terapije
...
anoreksija
anoreksije
anoreksičnost
motnje hranjenja
prehranjevalne motnje
odklanjanje hrane
...
Problemi

Jezik ima lastnosti, ki jih človek razpozna zlahka, stroj pa
mnogo težje.

Še posebej:

Večpomenskost: mnoge besede imajo več pomenov

Parafraze: mnoge vsebine je mogoče izraziti na več načinov

Nedoločenost: mnoga jezikovna sredstva imajo nedoločen
pomen, ki ga razberemo šele iz sobesedila

Time flies like an arrow.
Razsežnosti problema
Razpoznavanje
besed
Oblikoslovje
Globina analize
Skladnja
Pomenoslovje
Pragmatika
Obdelava znanja
Področje
Obseg jezikovnih podatkov
Mnoge aplikacije zahtevajo le nizko raven analize.
Strukturalistični in empirični vidiki
jezikoslovja

Strukturalistični pristop:




Empirični pristop:



Jezik je omejen in urejen sistem, ki temelji na pravilih.
Avtomatska obdelava jezika je mogoča s pomočjo pravil.
Pravila se oblikuje v skladu s človeško jezikovno intuicijo.
Jezik je vsota vseh svojih udejanjanj (v govorjenih in
pisnih besedilih)
Posplošitve o jeziku so mogoče le na podlagi velikih
besedilnih zbirk, ki nam služijo za vzorec jezika ->
korpusi
Strojno učenje (Machine Learning):

“data-driven automatic inference of rules”
Jezikovne tehnologije:
Raziskovalna področja






Oblikoslovje: besednovrstno označevanje (part-of-speech
tagging), lematizacija, razčlemba sestavljenih besed
Skladnja: razpoznavanje stavčnih členov, slovničnih funkcij
(osebek/povedek/...); popolna skladenjska analiza
Glasoslovje: razpoznavanje in tvorjenje govora, pogovorni
sistemi
Pomenoslovje: razreševanje večpomenskosti, avtomatska
izdelava semantičnih virov (tezavrov, ontologij)
Večjezikovne tehnologije: luščenje prevodnih ustreznic iz
korpusov, strojno prevajanje in tolmačenje
Jezik in internet: iskanje podatkov, rudarjenje besedil (Text
Mining), napredni spletni iskalniki
Jezikovne tehnologije:
Aplikacije

korpusna orodja




prevajalska orodja




terminološki programi, programi s pomnilnikom prevodov,
strojni prevajalniki
govorne aplikacije


konkordančniki in orodja za statistično obdelavo korpusov
orodja za izdelavo vzporednih korpusov (poravnava besedil)
orodja za označevanje korpusov
mobilna telefonija
odgovarjanje na vprašanja (Question Answering)
samopovzemanje dokumentov
rudarjenje podatkov, rudarjenje besedil
Dodatni viri

Language Technology World [http://www.ltworld.org/ie_index.html]

Interactive Online CL Demos
[http://www.ifi.unizh.ch/CL/InteractiveTools.html]

Natural Language Processing – course
materials
[http://www.cs.cornell.edu/Courses/cs674/2003sp/]