Napredak u radu na Hrvatskome nacionalnom korpusu

Transcript Napredak u radu na Hrvatskome nacionalnom korpusu

Prevoditelj i računalo
Marko Tadić
([email protected])
Odsjek za lingvistiku Filozofskoga fakulteta Sveučilišta u Zagrebu
Poslijediplomski studij prevođenja, Zagreb, 2002-02 i 2002-03
Pregled 1. predavanja

računalna lingvistika

jezične tehnologije (JT, HLT)
– podjela JT
– situacija s hrvatskim jezikom
– portal JTHJ
– perspektive

JT u prevođenju
– korpusi
– rječnici / leksičke (terminološke) baze
– prevoditeljska radna stanica (TWS)

strojno (potpomognuto) prevođenje (M(A)T)
Uvod 1: računalna lingvistika

naziv:
lingvistika + računalo =

računalni “tretman” jezika
– lingvistika na prvom mjestu

računalo: u mnogim znanostima danas nezaobilazan
alat (fizika, (bio-)kemija, ekonomija, promet...)
– prikupljanje primarnih podataka (= empirija)
– oblikovanje sekundarnih podataka i teorija (= modeliranje)

računalni “tretman” jezika zanimljiv:
– lingvistima
– informatičarima

interdisciplinarnost
Uvod 2: strojna obradba jezika


naziv 2:
računalo + lingvistika =
računalni “tretman” jezika
– obrada podataka tj. informatika na prvom mjestu

razlika:
– lingvisti: računalna lingvistika
• računala u jezičnom opisu (modeli j. pod-sustava)
• cilj: što kvalitetniji opis jezičnih činjenica
– informatičari: obrada prirodnoga jezika (natural language
processing, NLP)
• računala u obradi prirodnojezičnih podataka
• vrsta strojne obradbe teksta
• cilj: što učinkovitije, što brže i sa što manjim utroškom
računalnih resursa obraditi (jezične) podatke
Uvod 3: metodologija

je li računalna lingvistika grana lingvistike?

DA i NE!

NE: grana poput fonologije, morfologije, sintakse...
– organiziraju se oko definicije predmeta istraživanja
(j. jedinice na određenim j. razinama)
– pokušavaju opisati/objasniti neki vid jezične porabe

DA: posebna metodologija
– primjenljiva na j. jedinice na svim j. razinama
– dopušta razliku između računalne i neračunalne:
• leksikografije
• sintakse...

primjena znanstvenih otkrića u industriji = tehnologija
Jezične tehnologije 1

tehnologija = “znanost o tehničkim postupcima
prerade sirovina u proizvode” (Leksikon LZ)

što je sirovina, a što proizvod u slučaju jezičnih
tehnologija?
– sirovina: jezik tj. podaci o jeziku
– proizvodi: sustavi koji korisniku omogućuju
jednostavn(ij)u uporabu prirodnoga jezika u
računalnome okružju

podaci o jeziku = temeljni za razvitak jezičnih
tehnologija
Jezične tehnologije 2

definirane u EU Framework Programme 5 (< LI & LE)

najveće pojedinačno istraživačko područje u FP5:
– IST = Information Society Technologies
(26.3% proračuna FP5 = 3,900 M€)

key action III IST-a:
– MC&T = Multimedia Content & Tools (564 M€)

najveći dio MC&T:
– HLT = Human Language Technologies = (prirodno)jezične
tehnologije
• uključuju i obradu govora (Speech processing)
• HLTcentral: www.hltcentral.org

nastavak u EU Framework Programme 6: eContent
Podjela JT 1

jezični resursi
– korpusi
– rječnici

jezični alati
– morfologija
• generatori/analizatori
• označivači (POS taggers), lematizatori
– sintaksa
• plitki/duboki/robusni parseri
• prepoznavanje dijelova rečenice (imenične fraze...)
• prepoznavanje naziva (named entity recognition...)
– semantika
• detektiranje leksičkoga značenja (sinonimija/antonimija...)
• detektiranje rečeničnoga značenja (agens, pacijens...)
– strojno (potpomognuto) prevođenje: M(A)T (CMU & US Army)
– strojno (potpomognuto) učenje jezika: CALL
Podjela JT 2

komercijalni proizvodi
– provjernici (checkers)
• pravopisa
• gramatike
• stila
– rječnici (on-/off-line)
• tezaurusi / pojmovnici
• leksičke baze (opći i specijalizirani rječnici)
– automatsko indeksiranje i sažimanje dokumenata
– text-to-speech i speech-to-text sustavi, npr.
• strojevi za diktiranje
– sustavi za strojno (potpomognuto) prevođenje
• prijevodne memorije (= paralelni korpusi)
• ograničeno strojno prevođenje (kontrolirani jezici)
• grubo strojno prevođenje (tekst za osnovne informacije)
– sustavi za strojno (potpomognuto) učenje jezika
Razvitak JT za pojedini jezik 1

resursi i alati
– specifični za svaki jezik
– razvoj JT počinje iz temeljaca za svaki pojedini jezik

resursi
– priskrbljuju temeljne jezične podatke (evidenciju,
statistiku i relaciju) za:
• razvoj drugih jezičnih resursa
• razvoj jezičnih alata

razvitak JT
– planiran
– potpomognut (industrija, država...)
prijevodna pomagala
pretraka i ekstrakcija podataka II
APLIKACIJE
sustavi za učenje jezika II
pretraga i ekstrakcija podataka I
sustavi za učenje jezika I
uključivanje rječnika u obradnike
teksta
provjernik
gramatike i stila
pretraživanje
(Web-puzilica)
provjernik pravopisa
razrješivanje
značenja riječi
obrada govora na
razni rečenice
površinska
sintaksa
strukturirane verzije rječnika
ALATI
Razvitak
JT za
pojedini
jezik 2
dijaloški sustavi
okruženje za integraciju alata
statistički alati za obradu korpusa
lematizator/označivač
Petek (2000:107)
obrada govora na
razini riječi
morfološki analizator
baza znanja na temelju višej.
leksičko-semantičkim odnosima
korpus IV
leksičko-semantička
baza znanja
RESURSI
korpus III
leksička baza III
leksička baza II
korpus II
leksička baza I
morfološki opis
korpus I
opis fonema
strojno čitljivi rječnici
govorni korpus
LEKSIK
MORFOLOGIJA
5. faza: višejezične i opće aplikacije
4. faza: uznapredovali alati
3. faza: srednje složeni alati
2. faza: osnovni alati
SINTAKSA
SEMANTIKA
GOVOR
Primjer uporabe JT 1

danas: ubrzano stvaranje e-teksta
– prebacivanje postojećih tekstova u e-tekst
– stvaranje novih dokumenata jedino kao e-tekst

razlika klasični tekst <> e-tekst:
– medij: papir  elektroni
– čitanje/pohrana teksta: linearno nelinearno (prema
potrebi)

što se nije promijenilo?
– uporaba prirodnoga jezika kojim se tekst stvara tj. kojim
se kodiraju podaci

većina znanja = još uvijek pohranjena i kao tekst
na nekom prirodnom jeziku
Primjer uporabe JT 2

procjena broja riječi po jezicima
dohvatljivog Altavistom 2000-02
(izvor: Greg Grefenstette, XRCE,
2000-09)

potrebna je ekstrakcija podataka iz
teksta
Word count estimate
Welsh
7,590,000
Albanian
9,203,000
Breton
9,975,000
Lithuanian
20,927,000
Latvian
21,925,000
Esperanto
26,795,000
Basque
28,296,000
Latin
38,256,000
Estonian
43,257,000
Irish
49,778,000
Icelandic
53,167,000
Roumanian
63,846,000
Croatian
72,122,000
Slovene
74,998,000
Turkish
100,548,000
Malay
113,236,000
Catalan
126,324,000
Slovakian
140,909,000
Finnish
192,105,000
Dannish
206,167,000
Polish
235,726,000
Hungarian
268,944,000
Czech
269,310,000
Norwegian
455,391,000
Dutch
622,063,000
Swedish
644,740,000
Portugese
924,965,000
Italian
1,240,205,000
Spanish
1,595,489,000
French
2,208,418,000
German
3,068,760,000
English
47,264,700,000
Primjer uporabe JT 3

može li pretraživanje dokumenata biti “svjesno”
prirodnoga jezika tih dokumenata

web-tražilice (npr.) = prilagođene za engleski

što s drugim jezicima s različitim strukturama?

može li lingvistika nekako pomoći u “izvlačenju”
podataka (znanja) iz teksta?

document retrieval meets human language
technologies...
Primjer uporabe JT 4: morfologija

upit “osjetljiv” na oblike riječi
Morfološki osjetljiv upit
temelji oblik
"šipak"
generirani oblik 1
"šipak"

jednostavan upit
generirani oblik 2
"šipka"

jednostavan upit
generirani oblik 3
"šipku"

jednostavan upit
generirani oblik 4
"šipaka"

jednostavan upit
generirani oblik X
"..."

jednostavan upit
Primjer uporabe JT 5: semantika

upit “osjetljiv” na značenje riječi
Semanti~ki osjetljiv upit
upit
"mrak"
sinonim 1
"tama"

jednostavan upit

sinonim 2
"tmina"

jednostavan upit
sinonim 3
"mrklina"

jednostavan upit
uporaba semantičkih mreža
– WordNet
– EuroWordNet 1 i 2
sinonim 4
"mr~ina"

jednostavan upit
sinonim X
"..."

jednostavan upit
Primjer uporabe JT 6: višejezičnost

višejezično pretraživanje
Vi{ejezi~an upit
upit
"voda"
prijevod 1
"water"

jednostavan upit

prijevod 2
"Wasser"

jednostavan upit
prijevod 3
"acqua"

jednostavan upit
prijevod 4
"agua"

jednostavan upit
prijevod X
"..."

jednostavan upit
grubo strojno prevođenje (MT): jednostavnije
fraze, bez preciznoga prijevoda cijeloga teksta
Primjeri uporabe JT 7: nazivi 1

identifikacija i kategorizacija naziva u tekstu (named
entity recognition)

uvela DARPA kao dio procesa prepoznavanja poruka

natjecateljska disciplina na konferencijama MUC6
(1995) and MUC7 (1998)

7 vrsta naziva
–
–
–
–
–
–
–
osoba
organizacija
lokacija
nadnevak
vrijeme
valuta
postotak
Primjeri uporabe JT 8: nazivi 2

izgleda jednostavno
– uporaba popisa imena (morfologija!?)

izvedba
– ljudi: 98-99%
– najbolji sustavi: 94%

identifikacija naziva
– manje problematična

kategorizacija naziva
– bitno složenija
– potreban uvid u ko-tekstne podatke (npr. “...primanje dr.
Pećine u ...”)
Primjeri uporabe JT 9: nazivi 3
<XML>
<BODY>
<DIV0 type="MAIN">
<HEAD type="NA">Nagrada zagrebačkim gitaristima</HEAD>
<P><ENAMEX TYPE="ORGANIZATION">Zagrebački gitaristički kvartet</ENAMEX>
osvojio je prvu nagradu na <ENAMEX TYPE="ORGANIZATION">Međunarodnome
gitarističkom natjecanju Simone Salmaso</ENAMEX> u <ENAMEX
TYPE="LOCATION">Viareggiu</ENAMEX> u konkurenciji 14 komornih sastava (u
kategoriji D). Prvo mjesto je kao solist osvojio i član toga renomiranoga
zagrebačkog sastava <ENAMEX TYPE="PERSON">Darko Pelužan</ENAMEX> u
konkurenciji 30 gitarista (u kategoriji C). Članovi <ENAMEX
TYPE="ORGANIZATION">Zagrebačkoga gitarističkog kvarteta</ENAMEX> (koji je
1990. osnovao profesor <ENAMEX TYPE="PERSON">Ante Čagalj</ENAMEX>, pretežno od
studenata gitare) sada su još <ENAMEX TYPE="PERSON">Mihaela
Pažulinec</ENAMEX>, <ENAMEX TYPE="PERSON">Krunoslav Pehar</ENAMEX> i <ENAMEX
TYPE="PERSON">Melita Ivković</ENAMEX>. To nije prvi put da <ENAMEX
TYPE="ORGANIZATION">Zagrebački gitaristički kvartet</ENAMEX> osvaja prvu
nagradu na nekome međunarodnom natjecanju u <ENAMEX
TYPE="LOCATION">Italiji</ENAMEX>: pobijedio je i prije dvije godine u <ENAMEX
TYPE="LOCATION">Tarantu</ENAMEX> na 6. međunarodnom natjecanju <ENAMEX
TYPE="ORGANIZATION">Trofeo Kawai</ENAMEX>.</P>
<BYLINE>(<ENAMEX TYPE="ORGANIZATION">Večernji list</ENAMEX>)</BYLINE>
</DIV0>
</BODY>
</XML>
Situacija s hrvatskim jezikom 1

podaci na Webu o hrvatskome jeziku raspršeni na
različitim adresama
– institucionalno i zemljopisno heterogeni
– profesionalno ili amatersko — hard to tell

na cijelom Webu ne postoji profesionalna, sustavna,
institucionalno podržana polazna stranica
(homepage) za hrvatski jezik!

tko?
– Institut za hrvatski jezik i jezikoslovlje?
– Odsjeci za kroatistiku (FFZG, FFZD, FFRI)?
– Ministarstvo znanosti i tehnologije?
Situacija s hrvatskim jezikom 2

danas: prisutnost nacionalnoga jezika na Internetu =
simbol (kao grb, zastava i himna)

prisutnost:
– ne samo brojem stranica objavljenih na tom jeziku
– nego i: postojanjem on-line dostupnih osnovnih jezičnih
resursa i alata za taj jezik:
• reprezentativni (nacionalni) i specijalizirani korpusi
• opći i specijalizirani rječnici
• usluge strojnoga prevođenja (AltaVista sa Systranom)

prisutnost nacionalnog jezika na Webu nemoguća bez
razvitka JT za taj jezik

premali smo za rasipanje ljudskih i financijskih
Situacija s JT za hrvatski 1

jezični resursi
– korpusi (Zavod za lingvistiku, FFZG)
• Hrvatski nacionalni korpus (www.hnk.ffzg.hr) (MZT 130718)
– probna inačica: pretraživo >11 Mw, skupljeno >100 Mw
– >30 Mw suvremenoga hrvatskoga do proljeća 2002.
– prema 100 Mw do 2004.
• Hrvatsko-engleski paralelni korpus
– 3,5 Mw prijevoda (HR: 1,6; EN: 1,9)
– sravnjeno (aligned) na rečeničnoj razini
• Hrvatsko-slovenski paralelni korpus
– planiran na 1 Mw prijevoda (HR: 0,5; SI: 0,5)(MZT 130821)
– skupljeno oko 0,4 Mw (in statu nascendi)
– rječnici / leksikoni / tezaurusi
• Hrvatski morfološki leksikon (www.hnk.ffzg.hr/hml)
– oko 36.000 natuknica s generiranim svim oblicima i MSD
– generirani oblici za 17.000 imenica
• EUROVOC
• ostali rječnici: malo natuknica, visoko specijalizirani, amaterski?
Situacija s JT za hrvatski 2

jezični alati
– obrada morfologije
• generator: Tadić (1994)
• nema analizatora
! Boras (1990)
• nema označivača/lematizatora (POS tagger) ! Žubrinić (1995)
– obrada sintakse
• nema prepoznavanja dijelova rečenice
• nema prepoznavanja naziva
• nema parsera
! Boras (1998), Seljan
! Seljan
– semantička obrada
• nema tezaurusa općeg jezika
! Bratanić: EUROVOC
• nema semantičkih mreža (WordNet)
• nema prepoznavanja leksičkog ili rečeničnog značenja
– strojno (potpomognuto) prevođenje
– strojno (potpomognuto) učenje (!?)
– obrada govora
• baza difona: Bakran (1998); projekt MBROLA
! HR-LX paralelni korpusi
Situacija s JT za hrvatski 3

komercijalni proizvodi za hrvatski jezik
– pravopisni provjernici (5?)
– tezaurus u izradi (za MS-Office)
– nema provjernika gramatike i/li stila
– nema sustava za prirodnojezično pretraživanje teksta
(full-text search)
– nema sustava za diktiranje
– nema sustava za strojno prevođenje
(Word Translator?, NeuroTran?, PalmTran?)
– nema sustava za učenje
Portal JTHJ 1

portal Jezične tehnologije za hrvatski jezik
–
–
–
–

javni katalog
–
–
–
–


i-projekt
trajanje: od 2000-11 do 2001-12
potpora MZT RH pod brojem 00-86
obveza održavanje podataka: 3 daljnje godine
institucija
projekata
jezičnih resursa i alata
aktivnosti
vezanih uz područje (hrvatskih) JT
http://www.hnk.ffzg.hr/jthj
Tadić & Simeon (2001), Building the Croatian Language
Technologies Portal, CUC2001 CD
Portaj JTHJ 2
Portal JTHJ 2

2 osnovna područja
– informativna sastavnica
– interaktivna sastavnica

navigacijska traka

struktura svakog popisa
– vrh:
– sredina:
– dno:
nabrojci relevantni za hrvatski
nabrojci relevantni za ostale jezike
stranice sa sličnim poveznicama
Portal JTHJ 3
Upozorenja 1

nitko neće riješiti JT za hrvatski osim nas

već kasnimo!

hrvatski će jezik postati funkcionalno nepismen zbog
nemogućnosti sudjelovanja u digitalnim
komunikacijskim kanalima 21. stoljeća

JT za hrvatski morale bi imati status fundamentalnog
istraživanja u humanističkim znanostima!
Upozorenja 2

JT za hrvatski u Strategiji informatizacije RH moraju
se:
– shvatiti kao njezin nezaobilazan dio
– moraju biti izrijekom navedene i razrađene
• !a ne jedna rečenica; Budin (2001:19)
– tretirati kao jedan od prioriteta (Česi, Slovenci, Madžari,
EU...)

informacijsko društvo neće moći u Hrvatsku ako se
za hrvatski ne razviju JT
Pregled 2. predavanja

JT u prevođenju

Korpusna lingvistika i korpusi

Korpusi u terminologiji

Korpusi za prevoditelje

Rječnici i enciklopedije

Leksičke i terminološke baze podataka
Jezične tehnologije u prevođenju

kakvi su jezičnotehnološki resursi/alati na
raspolaganju prevoditeljima?

računalo u prevođenju: 2 krajnosti
– potpuno automatizirano strojno prevođenje (MT)
– računalna pomagala za ljudsko prevođenje (MAT)

pomagala
– jezični resursi: korpusi i rječnici
– jezični alati za
•
•
•
•
stvaranje i održavanje glosara / terminoloških baza
pristup udaljenim terminološkim bazama
konkordancije
prijevodne memorije (Translation memories, TM)
Jezične tehnologije u prevođenju 2

korpusi
– jednojezični
– višejezični

rječnici
– leksičke / terminološke baze

prevoditeljska radna stanica
– Translator’s Workstation / Workbench
– kombinira sve moguće resurse i alate u jedinstveno
okružje
Korpusna lingvistika

jezik
– apstraktan sustav znakova
– proučavanje jezika moguće jedino posredno
– putem jezičnih ostvaraja (= tekstovi)
– zbirka tekstova = korpus

metodološki odmak
– proučavanjem jezičnih ostvaraja postulira se da se
otkrivanjem pravilnosti u korpusu, zapravo otkrivaju
pravilnosti u jeziku

usustavljena stvarna jezična građa, a ne znanje jezika
imanentno govorniku (= podatkovna orijentacija)

empirija, ne mentalizam
Korpus

korpus (definicija)
– skup tekstnih odsječaka odabranih i prikupljenih prema
eksplicitnim kriterijima s ciljem da čine jezični uzorak

računalni korpus (definicija)
– korpus koji je kodiran na standardan i dosljedan način s
nakanom da bude računalno podržan i pretraživan

opseg korpusa (4 žene)
– mjeri se u pojavnicama (1 Mw = 1.000.000 pojavnica)

raspon
– vremenski raspon između najstarijeg i najmlađeg teksta

uzorkovanje
– ne cijela populacija nego reprezentativan uzorak
Tipovi korpusa

raspon
– sinkronijski (oko 1-20 god)
– dijakronijski (više od 20 god)

broj jezika
– jednojezični
– višejezični (2, 3, 4,...)

sastav
– usporedni (parallel corpora)
• tekstovi na 2 ili više jezika (izvornik + prijevod/i)
– usporedivi (comparable corpora)
• korpusi sastavljeni prema istim parametrima i principima
• višejezični ili jednojezični (više idioma)
Rezultati pretrage korpusa 1

3 tipa podataka iz korpusa
– evidencija (= popis)
– frekvencija (= popis s brojanjem)
– relacija (= odnos prema drugim jezičnim jedinicama)

popisi fonema/grafema
– jednoslovi, dvoslovi, troslovi, ... n-slovi

popisi riječi
– abecedni rječnici (unaprijedni ili odostražni)
– frekvencijski rječnici (= čestotnici)

popisi kombinacija riječi
– kolokacije, idiomi, fraze...

popisi rečeničnih struktura
– tree banks

popisi značenja...
Rezultati pretrage korpusa 2

konkordancije
– popisi riječi iz nekoga korpusa s ko-tekstnom okolinom
u kojoj su se pojavile
– off- / on-line
– opseg
• djelomične (prema nekom ulaznom uvjetu, npr. bab*)
• potpune (puni popis svih riječi nekoga korpusa)
– oblici
• KWIC (Keyword in context) = najčešći
• KWAL (Keyword and line) = rjeđe
KWIC konkordancija
stožernica
izvor
lijeva okolina
konkordancijski redak
desna okolina
Korpus u terminologiji

prikupljanje termina / izgradnja terminoloških baza
– jednorječne jedinice (Single-word units, SWU)
– višerječne jedinice (Multi-word units, MWU) (= kolokacije)

metode
– leksikonski temeljene (= provjera termina)
• problem: morfologija
– statističke (= pronalaženje kandidata za termine)
• uporaba raznih statističkih mjera supojavljivanja riječi u korpusu

primjer statističke metode uzajamne obavijesnosti (MI)
– SSP EN i HR
Korpus za prevoditelje 1

uvid u porabu gdje rječnici nisu dostatni (kolokacije,
fraze, idiomi...)
– konkordancije
– Web kao korpus (s pomoću tražilica)
– !oprez: korpusi nisu normativni priručnici

priprema izvornoga teksta korpusnom
metodologijom
– obilježavanje termina s unaprijed dogovorenim prijevodnim
ekvivalentima
• Ugovor iz Maastrichta & EUROVOC
• prijedlog MEI
Korpusi za prevoditelje 2

paralelni korpusi
– korpusi sastavljeni od izvornika i prijevoda

prijevodni ekvivalenti
– eksplicitno obilježeni
– razine
• rečenice = češće, automatizirano
• riječi = rjeđe, teže

sravnjivanje (alignment)
– postupak obilježavanja prijevodnih ekvivalenata
– uspostavljanje prijevodnih jedinica (Translation unit, TU)
HR-EN paralelni korpus

sastavljen u Zavodu za lingvistiku FFZG

jednosmjeran usporedni korpus

• izvorni jezik:
hrvatski
• ciljni jezik:
engleski
novinski korpus
• Croatia Weekly (113 brojeva)
• od 1998-01 do 2000-04

korpusni parametri
hr
članaka
rečenica
pojavnica
4.748
74.638
1.636.246
en
4.748
82.898
1.968.874
HR-EN paralelni korpus 5

sravnjen (aligned) na rečeničnoj razini programom
Vanilla aligner (Danielsson & Ridings 1997.)

statistika sravnjivanja rečenica
0:1
250
0,35 %
1:0
19
0,03 %
1:1
58788
83,52 %
1:2
9374
13,32 %
2:1
1529
2,17 %
2:2
432
0,61 %
ukupno
70392
100 %
HR-EN paralelni korpus 6
HR-EN paralelni korpus 7
Korpusi za prevoditelje 3
<TU id=1, type=“1:1”>
<HR>
<S id="CW010199803190201hr.S1"> Do 1 . kolovoza zabranjeni skupovi u istočnoj
Slavoniji</S>
</HR>
<EN>
<S id="CW010199803190201en.S1"> POLITICAL RALLIES IN EASTERN SLAVONIA BANNED
UNTIL AUGUST 1 </S>
</EN>
</TU>
<TU id=2, type=“2:1”>
<HR>
<S id="CW010199803190201hr.S2"> Vlada je ocijenila kako je provođenje mirne
reintegracije Podunavlja jedan od poglavitih interesa Hrvatske </S>
<S id="CW010199803190201hr.S3"> Stoga , treba izbjeći svaki čin koji bi mogao
dovesti do narušavanja reda i sigurnosti ljudi </S>
</HR>
<EN>
</EN>
</TU>
...
<S id="CW010199803190201en.S2"> The Government has assessed that the
implementation of peaceful reintegration in Eastern Slavonia is one of Croatia's
priority interests , therefore , any act that might endanger order and public
safety should be avoided </S>
Korpusi za prevoditelje 4

paraleni korpusi = prijevodne memorije
– baze već prevedenih rečenica

okviri primjene TM-a
– prevođenje novih inačica postojećih (prevedenih) tekstova
• npr. priručnici koji se malo razlikuju od prethodnoga izdanja
– prevođenje mnogo tekstova s istog specijaliziranog područja

prijevodi tehničkih i znanstvenih tekstova
– visoka repetitivnost
– ograničen leksik

rezultati uporabe TM-a
– ubrzava
– olakšava
– pospješuje dosljednost u primjeni termina
Korpusi za prevoditelje 5

analiza prijevodnoga jezika

npr. TEC (Translated English corpus)
– specifičnosti prijevodnoga EN
– analiza otklona od izvornoga EN
• prevoditeljske strategije
– karakteristične jezične pogreške
• kontaminacije SL-om
Rječnici i enciklopedije

rječnici i leksikoni
– opći/specijalizirani, jedno-/višejezični
– on- (WWW) i off-line (CD)
– ubrzano pretraživanje
– meta-pretraživanje (on-line)
• istodobno pretraživanje više rječnika (OUP Xrfr)
– uključivanje multimedijalnih informacija
• slikovni rječnici / leksikoni

enciklopedije
– off-line (CD): Britannica, Encarta, Grolier...
– on-line (WWW): Britannica, Webopedia...
Terminološke baze 1

Sager (1990:167), definicija:
– automatizirana zbirka riječi iz zasebnoga područja znanja s
ciljem da služi ograničenoj skupini korisnika

isti korisnici kao i za specijalizirane rječnike ili
glosare

on- i off-line

potrebne kad se istom terminologijom istodobno
mora služiti više prevoditelja
– donekle osigurana dosljednost uporabe termina
– mogućnost centralizirane dopune baze
– centralizirana diseminacija termina iz baze
Terminološke baze 2

osnovne jedinice terminoloških baza
– termini (riječi ili nizovi riječi)
– pojmovi (predstavljeni jednom ili s više riječi)

pretraživanje leksičkih / terminoloških baza
– vrsta pretraživanja dokumenata (IT)
(= 1 leksički članak = 1 dokument)
– danas: leksičke / terminološke baze = kompleksne i
mulitifunkcionalne <= upite postavljaju korisnici:
• ljudi
• računala (WP alati, sustavi za indeksiranje, MT sustavi...)
Terminološke baze 3

vrste ljudskih korisnika
– specijalisti u području tražene terminologije
– profesionalni posrednici u komunikaciji
• prevođenje
• sažimanje
• popularizacija/novinstvo
– leksikografi i terminolozi
• istražuju uporabu termina
– indok specijalisti: opis specijalističkih dokumenata
• bibliotekari
– jezični planeri
• standardizacija terminologije
– raznorodna grupa korisnika
Terminološke baze podataka 3

mogući oblici prevoditeljskoga on-line upita
– termin + TL ekvivalent + izvor TL termina
– termin + TL ekvivalent + TL izvor + TL definicija
– termin + TL ekvivalent + sinonim + odrednica (područja...)

preciznije
– termin
+ TL ekvivalent
+ DEF
+ ko-tekst ili napomena o uporabi
+ stilska odrednica
+ sinonim
+ izvor
+ područna odrednica
Leksičke baze 1

TIS (Terminological Information System of the
General Secretariat of the Council of the
European Union)
– 13 jezika (+ lat.)
– 200.000 unosaka (45% s >3 jezika)
– 25.000 unosaka >5 jezika
– rast: 4.000 prijevoda/mjesec
– rezultat rada terminologa Vijeća EU kao odgovor na
probleme s kojima su se susreli pri prevođenju
Leksičke baze 2

Trados MultiTerm (muwi.trados.com)
– www.trados.com
• komercijalna tvrtka za usluge u MAT
– MultiTerm = standardni zapis leksičkih baza u tijelima EU
– 4 ogledne baze
• Kodix
• Euterpe
• Beumer
• UPU
– terminološka baza Europskoga parlamenta (EUTERPE)
• >200.000 unosaka
• 12 službenih jezika EU
Leksičke baze 3: EUROVOC 1

pojmovnik ili tezaurus (definicija)
– rječnik ustrojen prema hijerarhijskim vezama i asocijativnim
odnosima unutar nekog tematskog područja

multidisciplinarni pojmovnik iz dokumenata Europskih
zajednica
– 21 šire područje, 127 potpodručja

HR prijevod (www.hidra.hr/eurovoc)
– 2. i 3. svezak izdanja iz 1995.
– dodatak 3.1 iz 2000.

preveden i na albanski, češki, litavski, poljski,
rumunjski, ruski, slovenski i ukrajinski
Leksičke baze 4: EUROVOC 2

terminološke preciznosti, npr.
– European Council
(= Europsko vijeće; šefovi država/vlada + predsjednik
Europske komisije)
– Council of Europe
(= Vijeće Europe)
– Council of the European Union
(= Vijeće Europske Unije; uz Europski parlament legislativno
tijelo; ministri EU država koji ih predstavljaju)
Leksičke baze 4: EURODICAUTOM

EURODICAUTOM (europa.eu.int/eurodicautom)
– terminološka baza Europske komisije
– pokrenuta 1973
– Dicautom, 1964. (rječnik fraza) + Euroterm, 1962-68,
prijevodni rječnik (4 jezika)
– sastavljen kao glosar za EU prevoditelje
– postao osnovna leksička baza EU s 120.000 dnevnih upita
– oko 5,5 milijuna unosaka
– 48 osnovnih područja
Pregled 3. predavanja

temeljni pojmovi
 zablude o MT
 MT i HT
 prijevodi prema namjeni
 tipovi MT sustava
– rule-based sustavi
– empirijski sustavi




povijest MT-a
problemi MT-a
primjena MT-a
prevoditeljska radna stanica (TWS)
Prevođenje 1
Lo, as a careful housewife runs to catch
One of her feathered creatures broke away,
Sets down her babe, and makes all swift dispatch
In pursuit of the thing she would have stay;
Gle, kao što brižna domaćica juri
Odbjeglo stvorenje pernato da vrati,
Spušta svoje čedo i silno se žuri
Jer mu hoće na put u potjeri stati;
William Shakespeare, Soneti, 143.
preveo Mate Maras
Prevođenje 2
Prevođenje 3
Prevođenje 4
Temeljni pojmovi

prevođenje
– postupak “prijenosa” značenja s jednoga jezika na drugi
– postupak transkodiranja jednoga teksta u drugi
– ...

strojno prevođenje (Machine translation, MT)
– prevođenje koje obavlja računalo

strojno potpomognuto prevođenje (M aided T, MAT)
– prevođenje koje obavlja čovjek s pomoću računala




izvorni jezik (source language, SL)
ciljni jezik (target language, TL)
međujezik (interlingua, IL)
jezični par:
– 1. SLx : TLy
2. SLy : TLx
Popularne zablude o MT-u

MT je gubljenje vremena jer računala nikad neće moći prevoditi
Shakespearea

ako postoji MT sustav koji prevodi The spirit is willing, but the
flesh is weak u ruski ekvivalent Votka je dobra, ali je odrezak
loš onda je MT beskorisno

općenito je kakvoća prijevoda iz MT sustava vrlo niska što ih u
praksi čini neupotrebljivim

MT ugrožava radna mjesta prevoditelja

MT sustavi su strojevi i treba ih kupovati kao što se kupuju
automobili

“običan” pogled na MT
– MT = SF “začin”
– dugoročan, nikad dosegljiv san znanstvenika
– jedno od prvopredloženih područja za primjenu računala uopće
MT i HT

cilj istraživanja s područja MT
– proizvesti pomagala i alate za profesionalne i neprofesionalne
prevoditelje koja uporabom računalnih resursa podupiru
ljudske vještine i inteligenciju

MT nije suparnik HT (Human translation)
– pomagala za porast učinkovitosti u tehnici prevođenja
– sustavi za prevođenje onoga što se ionako ne bi prevodilo
Prijevodi prema namjeni

diseminacija podataka
– tradicionalan prijevod
– kakvoća prijevoda koja se očekuje od ljudskoga prevoditelja
– kakvoća prijevoda za objavljivanje

asimilacija podataka
– niža razina kakvoće (osobito u stilu)
– za upoznavanje s osnovnim sadržajem izvornog dokumenta
– što je brže moguće

razmjena podataka
– prijevod između sudionika u komunikaciji (trenutna/odložena)

pristup podatcima
– višejezični pristup pretraživanju informacija (baze podataka,
elektronski arhivi, crpljenje podataka, data-mining...)
Diseminacija podataka

jedino potencijalno područje “sukoba” između MT i HT
– kakvoća prijevoda

!ali: MT sustavi proizvode
– prijevod koji ljudi moraju revidirati (post-editing)
– “grubu” inačicu prijevoda

MT sustavi zahtijevaju
– normaliziran oblik SL teksta (= kontrolirani jezik)
• ograničen vokabular
• ograničen repertoar rečeničnih struktura
– visokospecijaliziran sadržaj dokumenata i ograničen stil

prijevodni alati = MAT (TM, terminološke baze, TWS...)
– stroj podložan profesionalcu, a kod MT-a obrnuto
Asimilacija podataka

nusproizvod MT sustava za diseminaciju
– “grub” prijevod

uvid u osnovne podatke SL teksta

brzina DA, kakvoća NE!

“bolje ikakav prijevod, nego nikakav”

MT sustavi za namjenu asimilacije podataka
– uporaba raste  jeftin hardware, dostupnija komunikacija
– neprofesionalna uporaba

HT
– sporo i skupo
– previsoka kakvoća
Razmjena podataka

izrazit rast potreba za prijevodima u razmjeni podataka

prijevodi e-teksta
– WWW stranice
– e-mail poruke
– pričaonice (chat lists)

HT nemoguće
– izravnan i trenutan prijevod = apsolutna nužnost
– kakvoća = nije bitna

MT sustavi = prirodna okolina
– real-time
– on-line

speech-to-speech real-time MT
Pristup podatcima

sastavnica sustava za pristup podatcima

MT modul dio sustava za
– full-text pretraživanje dokumenata iz tekstovnih baza (e-tekst)
– crpljenje podataka (npr. specifikacije proizvoda...) iz tekstova
– sustavi za sažimanje tekstova (summarizing systems)
– upite nad netekstovnim bazama podataka

MT sustavi
– jak leksikon i terminološki prijevodni ekvivalenti (SWU i MWU)
– jak morfološki modul (fleksija)
– slabija sintaksa
Tipovi MT sustava

temeljeni na pravilima (rule-based)
– izravni (transformacijski)
– neizravni (s jezičnim znanjem)
• transfer
• interlingua

temeljeni na podatcima (empirijski)
– statistički
– oprimjerivanje (example-based)
Shematski prikaz procesa MT
1. analiza SL rečenice
sinteza rečenice na TL
2. analiza SL riječi
sinteza TL riječi
3.
značenje SL riječi
pronalaženje TL riječi
4.
značenje SL/TL rečenice
1. razina: sintaktički parsing
2. razina: morfološka raščlamba
3. razina: rječnik po natuknicama
4. razina: rečenična semantika
generiranje rečenice
generiranje oblika riječi
rječnik po značenjima
Rule-based sustavi 1


izravni (transformacijski)
postupak:
– raščlaniti SL rečenicu
– zamijeniti SL riječi s TL riječima prema dvojezičnom rječniku
– preurediti red riječi da odgovara TL

pravila:
– odabira parova riječi
– odabira oblika TL riječi
– promjene redoslijeda riječi u TL rečenici

zahtjevi:
– detaljna kontrastivna gramatika dva jezika; bitan smjer: SL  TL
• eng. corner

—>
—>
hrv. kut
esp. rincón (unutarnji)
hrv. ugaoesp. esquina (vanjski)
ograničenja:
– nema gramatike TL stoga ni jamstva ovjerenosti TL rečenica
– teško proširljivi sustavi (nova pravila, novi jezični parovi)
Rule-based sustavi 2: transformacije
S
NP
S
VP
NP
PP
PP
NP
N
Claudia
V
sat
VP
NP
P DET
N
N
V
P DET N
on a stool Klaudija sjela je na # stolac
Klaudija je sjela na stolac
Rule-based sustavi 3


neizravni (sustavi s “jezičnim znanjem”): transfer i interlingua
postupak
–
–
–
–

raščlaniti SL rečenicu
predstaviti je u nekom apstraknom obliku
pronaći adekvatan apstraktni oblik TL rečenice
proizvesti TL rečenicu
pravila:
– iscrpne gramatike i SL i TL: do duboke sintaktičke i/li semantičke
razine (npr. dubinski padeži)
– kontrastivna gramatika ne konkretnih rečenica već njihovih
apstraktnih reprezentacija

prednosti:
– sustav je dvosmjeran
– lako dopunjiv (novim pravilima, novim jezicima)
– kvalitetniji prijevodi
Rule-based sustavi 4: transfer
sit(Claudia,stool,pret.)
sjesti(Klaudija,stolac,perf.)
S
NP
S
VP
NP
PP
V
NP
N
Claudia
V
sat
VP
P DET
N
on a stool
PP
NP
N
AUX PTCP P
N
Klaudija je sjela na stolac
Rule-based sustavi 5: interlingua
sedere(C,s,p)
S
NP
S
VP
NP
PP
V
NP
N
Claudia
V
sat
VP
P DET
N
on a stool
PP
NP
N
AUX PTCP P
N
Klaudija je sjela na stolac
Empirijski sustavi 1

empirijski podaci = ključni
– paralelni korpusi
• dvojezični
• višejezični

sravnjeni (aligned)
– razina rečenice
– razina riječi
prijevodni ekvivalenti (translation equivalents, TE) =
eksplicitno obilježeni i povezani
– <xlink
veterin_hr.S3 veterin_si.S3
veterin_hr.S4 veterin_si.S4
veterin_hr.S5 veterin_si.S5
...>
Empirijski sustavi 2: statistički

primjena statističkih metoda na pronalaženje TE
– frekvencije, 2 test, uzajamna obavijesnost (MI), Dice
koeficijent, logaritamska očekivanost (log likelihood) itd.

kontingencijske tablice
cow
vache 59
¬ vache 8
¬ cow
6
570934
– broj rečenica u kojima se pojavljuju cow i vache u eng-fra
paralelnom korpusu
– 2 = 456400  par cow/vache = dobar kandidat za prijevodni
ekvivalent
Empirijski sustavi 3: oprimjerivanje

Example-based MT

čuvanje prevedenih rečenica i originala u bazi (= TM)

postupak:
– pronalaženje TL rečenice u bazi što sličnije SL rečenici
• strukturalno
• ne nužno i leksički
– filtriranje nepoželjnih leksičkih jedinica  prazna mjesta u
TL rečenici za kasnije dopunjavanje
Povijest MT-a 1

prije računala
– racionalisti (Descartes) izlažu ideju mehaničkoga čovjeka
( mehaničkoga prevoditelja)
– sredinom ‘30 20. st., Georges Artsrouni i Petr Troyanski patent
za “prijevodne strojeve”
– Troyanski predlaže
• automatski dvojezični rječnik
• shemu za kodiranje međujezičnih gramatičkih uloga
(interlingua = esperanto)
• nacrt analize SL teksta i sinteze TL teksta
– tek krajem ‘50 saznalo se za njegove ideje
Povijest MT-a 2

začetnici: 1947-1954.
– ideja uporabe ‘elektroničkoga računala’ kao pomagala pri
prevođenju = jedno od prvih područja primjene računala
– 1947-03: Warren Weaver u pismu Norbertu Wieneru
– 1949-07: Weawerov memorandum (+ Shannon, teorija info.)
– MT počinje na mnogim sveučilištima u SAD
– 1954: prvi javni demo, IBM + Georgetown Univ.
– snažna državna financijska podrška
– proto-MT = naivan pristup: riječ-za-riječ
Will you translate me to the second page of the street?
Hoćete li me prevesti na drugu stranu ulice?
He fled on neck, on nose.
Pobjegao je navrat-nanos.
She did it from the hill, from the valley.
Učinila je to zbrda-zdola.
But Grandmother and fourty thiefs...
Ali Baba i četrdeset hajduka...
Povijest MT-a 3

desetljeće optimizma: 1954-1966.
– prvi sustavi = izravni (mainframe računala)
• veliki dvojezični rječnici (ru-en, en-ru)
• pravila za ispravljanje poretka riječi u TL rečenici
– uskoro potreba za sintaktičkom analizom
– razvitak formalnih gramatika još uvijek nedovoljan
• TGG (Chomsky 1957), gramatika ovisnosti, stratifikacijska gram.
– pretjerani optimizam uz najave o brzom dosezanju FAHQMT
(fully automated high quality MT)
– semantičke prepreke (višeznačnost, anafora,...) nerješive
– ALPAC izvješće (1966)
• MT je sporo, netočnije i 2x skuplje od HT-a
• “there is no immediate or predictable prospect of useful machine
translation”
Povijest MT-a 4

nakon ALPAC izvješća: 1966-’80
– gotovo potpuni prekid istraživanja s područja MT-a u SAD i
SSSR-u
– nastavak u Francuskoj, Kanadi i Njemačkoj
• manji opseg istraživanja
• drugi jezični parovi (en-fr, fr-en, en-nj, nj-en...)
– 1970: SYSTRAN u USAF i u EC 1976.
– 1976: METEO u Kanadi
– zahtjevi za MT iz
• višejezičnih zajednica
• multinacionalnih tvrtki
– iskazuje se potreba za jeftinijim M(A)T sustavima za
prevođenje tehničke dokumentacije
Povijest MT-a 5

rane ‘80
– razvitak mnogih sustava u više zemalja
– komercijalizacija
• mainframe računala (SYSTRAN, LOGOS, PAHO, METAL...)
• mini-, mikro-računala (ALPS, Weidner, Globalink, Sharp, NEC,...)
– strategija istraživanja MT
• neizravni sustavi
• ponekad interlingua
• uključivanje morfološke/sintaktičke/semantičke analize
• uključivanje izvanjezičnih baza znanja (rječnik  enciklopedija)
– GETA-Ariane (Grenoble), SUSY (Saarbrücken), Mu (Kyoto),
DLT (Utrecht, IL = esperanto), CMU (SAD), EUROTRA (EU,
neslavno propao)
Povijest MT-a 6

rane ‘90
– daljnja komercijalizacija MT sustava s omasovljenjem
PC-a
– pojava empirijskih MT sustava
• IBM: Candide = statistički MT
• Japan: example-based MT
– početci istraživanja speech-to-speech MT
• ATR (Japan)
• VERBMOBIL (Njemačka)
• JANUS (CMU i Sveučilište u Karlsruheu)
• PANGLOSS (ARPA, 3 SAD Univ.)
Povijest MT-a 7

prijelom stoljeća
– pojava TWS
– lokalizacija softwarea
• jedno od najvećih područja uporabe MT (LISA)
– uloga Interneta
• SL i TL postaju e-tekstovi  transport
• pristup terminološkim bazama
• on-line MT sustavi
– e-mail
– web-stranice (npr. AltaVista...)
– MT sustavi postaju masovni proizvodi
• poput tekst-procesora
Problemi MT-a

višeznačnost
– riječi:
kosa, luk, kući...
– rečenice (ili više rečenica):
The driver of the bus with the yellow hat.
John sleeps with his wife 3 times a week. So does Jack.

leksički i strukturno pogrešni odabiri
– neodabir najboljeg TE u danom ko- i kon-tekstu
– pogreške u međusobnom slaganju riječi prema gramatičkim
kategorijama (npr. imenice i pridjevi u rodu, broju, padežu)

višerječne jedinice (MWU): idiomi, kolokacije
– eng. kick the bucket
– eng. step into one’s shoes
– eng. heavy smoker <> hrv. okorjeli pušač <> fra. grand fumeur
Primjena MT-a

uske, strogo
definirane domene

ograničen vokabular
i sintaktičke konstrukcije

Canada:
sustav METEO, od 1976.

farmaceutika:
upute za lijekove

transport:
SCANIA priručnici

obavještajstvo: NSA
(analiza tekstova, djelomični, grubi prijevodi: ključne riječi,
karakteristične fraze...)
Primjena M(A)T-a 2

EU:
– 9 institucija EU ima svoje prevodilačke službe
– 3.500 prevoditelja
– prevodi se
• 1.200.000 stranica godišnje
• 300.000.000 riječi godišnje
– struktura prijevoda
• pravni
• operacionalni
• politički
46%
26%
28%
– centralizacija MAT resursa u EU
• terminološka baza
EURODICAUTOM
• centralna prijevodna memorija EURAMIS
Primjena M(A)T-a 3

SYSTRAN (EC-SYSTRAN)
– privatna tvrtka 51%, ostatak EU
– preveo 600.000 stranica u 1999.

EU podaci za 1999.
– 300.000 stranica zatraženo prvo u MT
– proces prevođenje mijenja svoj oblik
• 1. SYSTRAN
• 2. postprocesiranje tj. revizija prijevoda
– 48 sati = apsolutni deadline za svaki prijevod
– EURAMIS TM
• raste za 50% svakih 6 mjeseci
• pohranjeno 480.000 stranica prijevoda
– 4 kvartal 1999.
• ljudski prijevod
• MT
179.000 rečenica
42.000 rečenica
– prosječna dužina dokumenta za prijevod = 20 stranica
Prevoditeljska radna stanica (TWS)

TWS kombinira na jednom radnom mjestu razne
jezične resurse i alate od pomoći pri prevođenju
–
–
–
–
–
–
–
–

višejezični WP
OCR
terminološke baze (pristup i sastavljanje)
analiza SL i TL teksta
konkordancije
TM
MT modul(e)
kontrola radnoga toka (workflow control)
modularni princip rada
– uporaba odgovarajućega modula za pojedini zadatak
TWS 2

korisnici = profesionalni prevoditelji
– individualno
– grupno

prevoditelji imaju alat pod punom kontrolom, odluka:
– o uporabi pojedinog modula = prevoditelj
– o prihvaćanju rezultata = prevoditelj

mogućnost
– odabira resursa
– dopune resursa (individualno/grupno)
– pune/djelomične automatizacije prevođenja (MT)
TWS 3

nakon EUROTRA projekta, EU razvija jezične resurse i
alate za pomoć pri prevođenju

TWS nastale na temelju rezultata EU projekata
– Translator’s Workbench (1989-94)
• 10 Eu sveučilišta i tvrtki razvijalo pojedine sastavnice
• višejezični editor, konverori dokumenata, pristup TB, MT moduli,
kontrolirani jezici, TM, analiza SL i TL teksta, razvitak leksičkih
resursa iz korpusa
– TransLearn
• projekt korpusno-temeljenog sustava za grube prijevode
• na temelju tekstova iz CELEX baze (full-text baza EU pravnih
tekstova)
• en, fr, po, gr
TWS 4

EURAMIS (European Advanced Multilingual
Information System) = EC TWS
– pristup EURODICAUTOM-u (višejezična TB EC-a)
– pristup rječničkim resursima samoga EC-SYSTRAN MT
– pristup CELEX-u
– mogućnost sastavljanja osobnih/grupnih TB (Trados
MultiTerm format TB)
– mogućnost usporedbe dokumenata (otkrivanje razlika)
– TM (osobna/grupna/centralizirana: 7 tematskih okvira EC-a)
– EC-SYSTRAN MT (17 jezičnih parova)
– mogućnost provjere (pravopisa, gramatike, stila)
– spoj na EC administrativna mreža i Internet resurse
TWS 5

danas 4 vodeća proizvođača TWS
– TRADOS, CH: najuspješniji
• Trados 5
• Trados 5 Freelance
– STAR AG, DE
• Transig
– IBM
• TranslationManager
– LANT, BE
• Eurolang Optimizer
Kakav MT neće biti moguć?
Things have never been without being some way or other,
So they cannot forever be without being one way or other.
For: things being without being one way or other,
Things would not have been even the way they have been.
Because things have always been one way or other,
That has been, and not that which has never been one way or other.
So things will always somehow be one way or other,
Because things will have been so that they will have been.
For: things have never been without something being there,
So they will never be with nothing being there.
Miroslav Krleža, Khevenhiller, preveo Željko Bujas
Prevoditelj i računalo
Marko Tadić
([email protected])
Odsjek za lingvistiku Filozofskoga fakulteta Sveučilišta u Zagrebu
Poslijediplomski studij prevođenja, Zagreb, 2002-02 i 2002-03

Napredak u radu na Hrvatskome nacionalnom korpusu

Transcript Napredak u radu na Hrvatskome nacionalnom korpusu

Directory