Angl*-lietuvi*-angl* ir pranc*z*-lietuvi*

Download Report

Transcript Angl*-lietuvi*-angl* ir pranc*z*-lietuvi*

Anglų-lietuvių-anglų ir
prancūzų-lietuvių-prancūzų kalbų
mašininio vertimo, paremto statistiniais
metodais, sistemos sukūrimas
Projekto ir jo eigos pristatymas
Vilnius, 2013 m. lapkričio 5 d.
Bendrieji projekto duomenys
• Projekto pavadinimas: Anglų-lietuvių-anglų ir prancūzųlietuvių-prancūzų kalbų mašininio vertimo, paremto
statistiniais metodais, sistemos sukūrimas
• Projekto vykdytojas: Vilniaus universitetas
• Projekto pradžia: 2012-04-01
• Projekto pabaiga: 2014-09-30
• Bendra projekto vertė: 5 388 539,89 Lt
Pagrindinės projekto datos
• 2012-04-01 VU pasirašė sutartį su CPVA ir pradėjo vykdyti projektą;
• 2012-11-01 VU įvykdė viešąjį pirkimą ir įsigijo techninę įrangą, skirtą
projektui įgyvendinti;
• 2013-01-14 VU paskelbė pirkimą Anglų-lietuvių-anglų ir prancūzųlietuvių-prancūzų kalbų mašininio vertimo, paremto statistiniais
metodais, sistemos sukūrimo paslaugoms pirkti;
• 2013-05-09 VU paskelbė UAB „Tilde informacinės technologijos“ ir
„Tilde SIA“ konsorciumą konkurso nugalėtoju;
• 2013-05-31 VU ir konkurso nugalėtojas pasirašė sutartį numatytoms
paslaugoms teikti;
• 2013-09-10 Paslaugų teikėjas sėkmingai įgyvendino pirmuosius tris
darbų etapus (paslaugų teikimo planas, tekstynų rinkimo metodai ir
priemonės, mašininio vertimo mokymo infrastruktūra);
• Planuojama, kad projektas bus baigtas laiku – 2014-09-30
Kas bus padaryta?
• Bus sukurtos šios mašininio vertimo (MV) sistemos:
• LT-EN-LT
• Vertimo tikslumas bendrinėje srityje – 37 BLEU punktai, teisinėje ir IT
srityje – 50 BLEU punktų.
• LT-FR-LT
• Vertimo tikslumas bendrinėje srityje – 37 BLEU punktai, teisinėje –
50 BLEU punktų.
• Pateikimas viešajam vartojimui:
• interneto puslapio sąsaja;
• įskiepis interneto puslapiams automatiškai versti, veikiantis
populiariausiose naršyklėse;
• mobilios programėlės, veikiančios populiariausiose platformose;
• programavimo sąsaja (API), pritaikyta verslo sektoriui.
Kas bus padaryta pakeliui?
• Lingvistiniai instrumentai
• Teksto skaidymo priemonės
• Morfologiniai, sintaksiniai ir semantiniai
analizatoriai
Projekto komanda
• VU
• Projekto vadovas – dr. Arūnas Samuilis (26 mokslinių straipsnių ir 5 išradimų
bendraautorius);
• Ekspertai: Danielius Ralys (30 mokslinių straipsnių ir 9 išradimų
bendraautorius), Virginijus Dadurkevičius (18 mokslinių straipsnių ir 2
išradimų bendraautorius), Franciška Ralienė (14 mokslinių straipsnių ir 1
išradimo bendraautorė) ir Jonas Vaičiulis.
• Paslaugos teikėjas (UAB „Tilde informacinės technologijos“ ir „Tilde SIA“
konsorciumas)
• Vadovas – Giedrius Karauskas (5+ metai vadovaujant kalbinių technologijų
projektams);
• Ekspertai: Raivis Skadiņš (daktaro laipsnis kalbinių technologijų srityje, 10+
metų patirtis mokslinių tyrimų ir technologinės plėtros projektuose kalbinių
technologijų srityje), Andis Lagzdiņš (magistro laipsnis kompiuterijos srityje,
4+ metų patirtis mokslinių tyrimų ir technologinės plėtros projektuose
kalbinių technologijų srityje);
• IS architektas – Daiga Deksne (8+ metų patirtis);
• Programuotojai: Valters Šics (7+ metų patirtis) ir Mārcis Pinnis (6+ metų
patirtis);
• Vertėjai-redaktoriai: Agnė Sūnaitė, Inga Jovaišaitė ir Skaistė Matelionytė.
Projekto paslaugos teikėjo
darbų grafikas
Birželis
`
2014
Liepa
Rugpjūtis
Rugsėjis
Spalis
Lapkritis
Gruodis
Sausis
Vasaris
Kovas
Balandis
Gegužė
Birželis
Liepa
Rugpjūtis
Rugsėjis
Spalis
Lapkritis
Gruodis
2013
1
2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
Pateiktys
D1
D2
D3
D4
D5
D6
D7
D8
D9
D10
Paslaugų teikimo plano parengimas
Tekstynų rinkimo priemonės ir metodai
MV mokymo infrastruktūra
I etapu išmokytos MV sistemos
Pirmaisiais metais surinkti tekstynai
II etapu išmokytos sistemos
Galutinės išmokytos MV sistemos
Per visą paslaugų teikimo laiką surinkti tekstynai
Viešoji vertimo paslauga
Atnaujinta MV mokymo infrastruktūra
x – darbo procesas
d – galutinis pateikimas
m – pateikimo metmenys
x
x
x
x
x
x
m d
m d
m d
x x
x x
x
x
x
x
m
m
x
x
x
x
x
x
x
x
d
d
x
x
x
x
x
x
x
x
x
x
x
x
m
d
x m
x m
m
x x m
d
d
d
d
Šiuo metu padaryta
• Įvaldyti tekstynų rinkimo metodai ir priemonės
• Surinktas bandomasis tekstynas vertimo sistemos testavimui ir
kokybės kontrolei
• Sukurta mašininio vertimo mokymo infrastruktūra
• Sukaupti tokie vienkalbių ir dvikalbių tekstynų kiekiai:
• Bendrinė sritis
Tekstynas
LT
EN
FR
LT-EN-LT
LT-FR-LT
Planas
> 850 mln.
> 1 mlrd.
> 1 mlrd.
> 8 mln.
> 7 mln.
Vienetai
žodžiai
žodžiai
žodžiai
sakiniai
sakiniai
Paruošta
74 mln.
372 mln.
132 mln.
5 mln.
6 mln.
• Teisinė sritis
Tekstynas
LT
EN
FR
LT-EN-LT
LT-FR-LT
Planas
> 200 mln.
> 200 mln.
> 200 mln.
> 3 mln.
> 2,5 mln.
Vienetai
žodžiai
žodžiai
žodžiai
sakiniai
sakiniai
Paruošta
52 mln.
172 mln.
39 mln.
5 mln.
4 mln.
• IT sritis
Tekstynas
LT
EN
LT-EN-LT
Planas
> 250 mln.
> 250 mln.
> 5 mln.
Vienetai
žodžiai
žodžiai
sakiniai
Paruošta
23 mln.
20 mln.
3 mln.
Jau verčiam!
• Matuojant BLEU rodiklį šiuo metu jau gaunami tokie rezultatai:
• Bendrinė sritis
Kryptis
LT-EN
EN-LT
LT-FR
FR-LT
Planas
37
37
37
37
VU sistema Google translate
25,3
32,6
15,1
18,6
14,3
18,5
11,8
17,1
• Teisinė sritis
Kryptis
LT-EN
EN-LT
LT-FR
FR-LT
Planas
VU sistema Google translate
50
30,2
40,3
50
26,0
43,9
50
21,3
29,2
50
24,2
31,1
Planas
VU sistema Google translate
50
33,6
37,0
50
29,9
22,1
• IT sritis
Kryptis
LT-EN
EN-LT
Artimiausios perspektyvos
• Svarbus kuriamos sistemos išbandymas – pirmojo etapo
pridavimas 2014 m. kovo mėn. Puikūs dabartiniai rezultatai,
nuolatinė atliekamų paslaugų kokybės kontrolė ir vis didėjanti
projekto darbuotojų patirtis leidžia tikėtis gerų pirmojo etapo
rezultatų.
• Kol kas mašininio vertimo rezultatai pasiekiami nenaudojant
papildomų faktorių – morfologinių, sintaksinių ar semantinių
žymelių. Įsisavinus šias priemones, vertimo kokybė turėtų
pagerėti.
Klausimai?
Dėkojame už dėmesį!
• Smalsiems skirtas šio pristatymas priedas – su mašininio
vertimo istorijos apžvalga ir statistinio vertimo pagrindinėmis
sąvokomis bei idėjomis.
PRIEDAI
• Mašininio vertimo istorijos apžvalga
• Statistinio mašininio vertimo pagrindinės sąvokos bei idėjos
Mašinos gali versti
• 1947 m. Warren Weaver pasiūlė panaudoti kompiuterius
tekstų vertimui. Atsiranda terminas – mašininis vertimas (MV).
• MV imamas sparčiai vystyti JAV ir TSRS, siekiant įgyti strateginį
pranašumą šaltajame kare.
• Populiariausios verčiamos kalbos – rusų ir anglų.
• Vyrauja pažodinis vertimas, sukuriami dideli kompiuteriniai
dvikalbiai žodynai, apimantys virš 200 000 žodžių.
Atsiranda taisyklinis mašininis
vertimas
• 1950 – 1960 metais atsiranda mašininio (kompiuterinio)
vertimo sistemos, kurias galima pavadinti taisyklinėmis (rulebased).
• Jos kuriamos laikantis požiūrio, jog kalbą galima aprašyti
naudojant tam tikrų taisyklių (taip pat ir gramatinių) sistemą.
• Optimistinis laikotarpis – tikėtasi per keletą metų sukurti
tobulą mašininį vertimą.
Mašininio vertimo lygiai
Ar kompiuteris „supranta“
gramatiką?
Teksto struktūros nagrinėjimas didina automatinio vertimo
tikslumą.
• Kaip turi būti skaidomas tekstas – į sakinius, frazes, žodžius,
morfemas?
• Kokiame lygyje tekstas turi būti nagrinėjamas:
morfologiniame, sintaksiniame, semantiniame?
Banguojančios viltys
•
Vyravo optimistinės MV perspektyvos, tačiau pasiekti
prasti praktiniai rezultatai.
•
1966 m. JAV įkurtas ALPAC (Automatic Language
Processing Advisory Committee) komitetas nusprendžia, jog
MV artimiausiu metu neturi perspektyvų.
•
MV projektų finansavimas JAV nutraukiamas dvidešimčiai
metų, jis sumenksta ir kitose šalyse.
Vis dėlto mašininis vertimas
progresuoja!
Praktika parodė, jog ALPAC klydo.
SYSTRAN MV sistema pradedama naudoti Europos Komisijoje.
Įvairiose šalyse atsiranda veikiančios MV sistemos:
•
•
•
•
ARIANE (Grenoble);
SUSY (Saarbrücken);
Mu (Kyoto);
Interlingva metodo taikymas Nyderlanduose (Rosetta, DLT).
Taisyklinio MV pažanga lėtėja
• Europinis EUROTRA projektas (1982 – 1992 m. m.), kainavęs
apie 50 000 000 ECU, baigiasi nesėkme – šimtai specialistų taip
ir nesukūrė veikiančios MV sistemos.
• Tai – rimta taisyklinio MV krizė. Jau daug metų trypčiojama
vietoje.
• Dar ir šiandien taisyklinio vertimo lyderiai – vis tas pats
SYSTRAN bei kelių dešimtmečių senumo rusiška PROMT
vertimo sistema.
Ar galima versti be gramatikos?
• 1990 m. įvyksta naujas proveržis - IBM tyrėjų grupė suformuluoja
statistinio mašininio vertimo pagrindus (P. Brown et al.).
• Vertimo procesas prilyginamas tam tikro pranešimo perdavimui
triukšmingu kanalu.
• Dekoduojama remiantis Bajeso teorema.
• Vertimas remiasi tekstynais, vertimui ypač svarbūs dvikalbiai
tekstynai.
• Geri rezultatai – pasirodo, galima versti neturint nei žodyno, nei
jokio supratimo apie gramatiką!
Lygiagretus tekstynas ant Rozetės
akmens
Rozetės akmuo – pirmasis
lygiagretus tekstynas, o taip pat
ir statistinio vertimo objektas
Mašininio vertimo pritaikymas
lietuvių kalbai
• 2005 - 2007 m. Vytauto Didžiojo universitetas sėkmingai įvykdė
Europos Sąjungos Struktūrinių fondų finansuojamą projektą
„Internetinė informacijos vertimo priemonė“ . Rezultatas –
vieša internetinė vertimo iš anglų į lietuvių k. paslauga. Vertimo
variklį pateikė rusų kompanija PROMT. Nėra aišku, kiek laiko dar
bus teikiama ši paslauga.
http://vertimas.vdu.lt/twsas/
• Nuo 2008 m. rugsėjo 25 d. Google Translate palaiko ir lietuvių
kalbą.
• Microsoft BING irgi jau verčia iš(į) lietuvių kalbos!
• Nei Google, nei Microsoft neleidžiama naudoti savo vertimo
sistemas komerciniams tikslams!
Ar mašinos gali versti gerai?
• Žodžiai turi daug prasmių. Daugiaprasmiškumas buvo ir išlieka
svarbiausia kompiuterinio mašininio vertimo problema.
• Sunki problema – kaip versti įvardžius (anaforos atpažinimas).
• The soldiers killed ten women. They have been buried next day. Kas
buvo palaidoti, jie ar jos, kareiviai ar moterys?
• Sintaksinių struktūrų nustatymas šių vertimo problemų neišspręs.
• Ieškoma išsigelbėjimo semantikoje bei kuriant įvairias ontologijas.
• MV problemos stimuliuoja pažangą dirbtinio intelekto kūrimo srityje.
• Populiarėja mišrios (hibridinės) vertimo sistemos, apimančios tiek
taisyklinį, tiek ir statistinį MV.
• Nuo 2010 m. SYSTRAN (Systran Server 7) inkorporavo ir statistinį
vertimą į savo sistemą.
• Panašiu keliu eina ir PROMT.
Statistinio mašininio vertimo
prielaidos Bendras kontekstas
• Norimus dalykus dažnai sužinom netiesiogiai, atlikdami rekonstrukciją:
•
•
•
•
•
•
•
reikia masės, bet matuojam svorį
reikia greičio, o matuojam laiką
temperatūrą nustatom matuodami ilgį
domina žvaigždžių cheminė sudėtis, o matuojam spektrus
kūno erdvinę sandarą sužinom analizuodami linijines rentgenogramas
gama šaltinių išsidėstymą danguje rekonstruojam iš laike moduliuoto signalo
ir t. t.
• Matavimai būna su paklaidomis, transformacijos –
nevienareikšmiškos, rekonstrukcija – apsunkinta. Toli
gražu ne atvirkštinės funkcijos suradimas y = x2
atveju.
• Kuo vadovautis, atliekant rekonstrukciją?
Statistinio mašininio vertimo
prielaidos Bajeso metodas
• Atliekant atvirkštinio skaičiavimo tikimybinius uždavinius, jau nuo 1763 m.
vadovaujamasi Bajeso teorema:
P(A|B) 
• A ir B yra susiję įvykiai
• P(A) ir P(B) – jų nepriklausomos tikimybės
• P(A|B) ir P(B|A) – jų sąlyginės tikimybės
P(B|A)  P(A)
P(B)
• Pritaikant mūsų aptariamiems atvejams, Bajeso teoremą galima perfrazuoti taip:
• A – hipotezė (pvz., hipotetinė erdvinė kūno struktūra)
• B – realiai gauti duomenys, matavimo rezultatai (pvz., linijinės kūno rentgenogramos)
• P(A) – apriorinė (išankstinė) hipotezės tikimybė (pvz., tuo mažesnė, kuo labiau
nukrypstama nuo vidutinės kūno sandaros); P(A) – konstanta, galima į ją neatsižvelgti
• P(B|A) – aposteriorinė (atsižvelgiant į įvykusį matavimo faktą) hipotezės tikimybė (pvz.,
kokia tikimybė, kad pasirinkus tokią tai hipotetinė erdvinę kūno struktūrą gali
susigeneruoti realiai jau gauti duomenys)
• Ta hipotezė, kuri maksimizuoja P(A|B) yra pati tikimiausia
• Taikymo sudėtingumas
•
•
•
•
Galimų hipotezių gali būti be galo daug
Sunku įvertinti apriorinį žinojimą
P(B|A) matematinis išreiškimas gali būti labai sudėtingas
Maksimumo paieška gali būti matematiškai ir praktiškai labai komplikuota
Vertimas, kaip statistinis procesas
Pagrindinės idėjos
•
1990 m. IBM Thomas J. Watson Research Center padaryta prielaida:
•
Viskas vyksta statistiškai! Todėl galioja Bajeso formulė, ir:
A – angliškas sakinys, kurį reikia išversti ~
L  arg max P  A | L   P ( L )
L – hipotetinis lietuviškas sakinys
L
L̃ – tinkamiausias lietuviškas vertimas
P(A|L) – tikimybė, kad hipotetinis lietuviškas sakinys gali būti išverstas į duotą anglišką
sakinį (statistinis vertimo modelis)
P(L) – hipotetinio lietuviško sakinio tikimybė (statistinis kalbos modelis)
•
Problemos:
•
•
•
•
šimtai tūkstančių galimų žodžių kiekvienoje kalboje
reikia milžiniškų skaičiaus jau išverstų sakinių vertimo modeliui sudaryti
kiekvienoje kalboje yra savi žodžių tvarkos dėsniai
fleksuotos kalbos (lietuvių kalboje gali būti iki 1,5 mlrd. teoriškai galimų žodžių
formų!)
Vertimas, kaip statistinis procesas
Dabartinės galimybės
• Sukurti metodai operuoti ne tik žodžiais, bet ir sustabarėjusiomis
frazėmis.
• Prieš vertimą žodžiai gali būti lemuojami ir anotuojami
morfologinėmis žymelėmis (“factors”), pvz., “žvejams” keičiamas į
“žvejas” ir pažymima, kad originali forma buvo daiktavardžio
daugiskaitos naudininkas. Atskirai “verčiant” lemas ir jų žymeles
išvengiama milijardinių formų gausos ir sumažėja reikalavimai
tekstynų dydžiams. Paskutinėje vertimo stadijoje lemos (bet jau
kitoje kalboje) vėl sujungiamos su žymelėmis ir atstatoma jų normali
forma.
• Žymelėse gali būti nurodoma ne tik morfologinė, bet ir sintaksinėsemantinė informacija.
• Europos Komisijos remto projekto EuroMatrix metu (2006-2012)
sukurtas universalus atviro kodo statistinio mašininio vertimo
programinės įrangos paketas MOSES.