Računalniška orodja za jezikoslovce in prevajalce

Download Report

Transcript Računalniška orodja za jezikoslovce in prevajalce

Uvod v jezikovne tehnologije
Korpusi in baze podatkov
OP 2002/2003
Špela Vintar
[email protected]
Računalniška obdelava naravnega jezika


NLP = Natural Language Processing
računalniško jezikoslovje (Computational Linguistics)
– veja računalništva in informatike, ki se navezuje na
jezikoslovje
– cilj: modeliranje naravnega jezika za različne računalniške
aplikacije (črkovalniki, prevajalniki, lematizatorji itd.)

jezikovne tehnologije (Language Technologies)
– razvoj konkretnih jezikovnih virov, orodij in programov
Jezik in računalnik

Kako računalnik “razume” jezik?
– Jezikovne komponente v urejevalniku besedil:
črkovalnik, preverjanje slovnice, pravila za
segmentacijo besed, stavkov
– Kaj je beseda, kaj je stavek?
 vsi podatki so za računalnik najprej nizi znakov (strings)
 besede so med seboj ločene s presledki
 besede so med seboj ločene s presledki ali ločili
 besede so med seboj ločene s presledkom ali ločilom in
presledkom
 javno- in zasebnopravni vidiki, itd., $4.000.000
Iskanje

Zanimajo me avtomobilska podjetja.
– Bomo iskali avtomobilska podjetja, avtomobilsko
podjetje?
– Če me zanimajo še zadetki v angleščini:
automobile companies, automobile company
X zadetkov
Y zadetkov
Iskanje

Zanimajo me avtomobilska podjetja.
– Bomo iskali avtomobilska podjetja, avtomobilsko
podjetje?
– Če me zanimajo še zadetki v angleščini:
automobile companies, automobile company
X zadetkov
Y zadetkov
Iskanje z Googlom
avtomobilsko podjetje
avtomobilska podjetja
avtomobilska firma
avtomobilske firme
avtopodjetje
zastopnik avtomobilov
prodajalec avtomobilov
avtoprodaja
zastopstvo avtomobilov
573
835
43
107
4
807
407
507
405
Problemi


Jezik ima lastnosti, ki jih človek razpozna zlahka,
stroj pa mnogo težje.
Še posebej:
– Večpomenskost: mnoge besede imajo več pomenov
– Parafraze: mnoge vsebine je mogoče izraziti na več
načinov
– Nejasnost: mnoga jezikovna sredstva imajo nejasen
pomen
Razsežnosti problema
Razpoznavanje
besed
Oblikoslovje
Globina analize
Skladnja
Pomenoslovje
Pragmatika
Obdelava znanja
Obseg jezikovnih podatkov
Mnoge aplikacije zahtevajo le nizko raven analize!
Področje
Strukturalistični in empirični vidiki
jezikoslovja

Strukturalistični pristop:
– Jezik je omejen in urejen sistem, ki temelji na pravilih.
– Avtomatska obdelava jezika je mogoča s pomočjo pravil.
– Pravila se oblikuje v skladu s človeško jezikovno intuicijo.

Empirični pristop:
– Jezik je vsota vseh svojih udejanjanj (v govorjenih in pisnih
besedilih)
– Posplošitve o jeziku so mogoče le na podlagi velikih
besedilnih zbirk, ki nam služijo za vzorec jezika -> korpusi

Strojno učenje (Machine Learning):
– “data-driven automatic inference of rules”
Jezikovne tehnologije:
Raziskovalna področja






Oblikoslovje: besednovrstno označevanje (part-of-speech
tagging), lematizacija, razčlemba sestavljenih besed
Skladnja: razpoznavanje stavčnih členov, slovničnih funkcij
(osebek/povedek/...); popolna skladenjska analiza
Glasoslovje: razpoznavanje in tvorjenje govora, pogovorni
sistemi
Pomenoslovje: razreševanje večpomenskosti, avtomatska
izdelava tezavrov
Večjezikovne tehnologije: luščenje prevodnih ustreznic iz
korpusov, strojno prevajanje in tolmačenje
Jezik in internet: iskanje podatkov, rudarjenje besedil (Text
Mining), napredni spletni iskalniki
Jezikovne tehnologije:
Aplikacije

Programska oprema
– korpusna orodja
• konkordančniki in orodja za statistično obdelavo korpusov
• orodja za izdelavo vzporednih korpusov (poravnava besedil)
• orodja za označevanje korpusov
– prevajalska orodja
• terminološki programi, programi s pomnilnikom prevodov,
strojni prevajalniki
– drugo
• mobilna telefonija, spletni vmesniki, orodja v urejevalnikih
besedil, orodja za invalide, programi za učenje jezikov itd.