Machine Translation

Download Report

Transcript Machine Translation

Interacțiunea om-calculator/
Human-Computer Interaction
Machine Translation
© 2015 Mihaela Colhon
Problem
© 2015 Mihaela Colhon
Solution!
•
•
•
•
Make Effective Presentations
Using Awesome Backgrounds
Engage your Audience
Capture Audience Attention
© 2015 Mihaela Colhon
Machine Translation
Definition. Machine Translation (shortly, MT) represents
the usage of computers and tools for translating texts
from a source language to a target language.
Needs. Huge and growing demands exist for automatic
translations of:
- scientific and technical documents,
- commercial and business transactions,
- administrative, legal documentation,
- instruction manuals, agricultural and medical books, etc.
© 2015 Mihaela Colhon
Sisteme de Traducere Automată
Traducerea este considerată ca fiind procesul prin care un text
scris în limba sursa este transformat într-un text echivalent
intr-o alta limba, numită limba țintă.
Traducătoarele variază foarte mult în ceea ce privește modul în
care se realizeaza traducerea. Problema principala este de a
găsi în mod corect corespondentul de traducere. Evident, un
lexic bilingv functionează ca o punte de legatură între
cuvintele din limba sursă și echivalentele lor din limba țintă.
O altă posibilă abordare în această problemă este dată de
lexicul cu structură semantică a rețelelor de tip WordNet.
Cele mai importante resurse folosite în sistemele de traducere
sunt corpusurile bilingve© 2015
și dicționarele.
Mihaela Colhon
© 2015 Mihaela Colhon
Mecanisme de traducere automată
Mecanisme de traducere:
- Bazate pe transfer
- Bazate pe schimb interlingvistic
Ambele mecanisme sunt construite pornind de la aceeasi idee
de bază: să facă o traducere în limba țintă utilizând o
reprezentare intermediară care sintetitează înțelesul și
structura propoziției originale pentru a genera traducerea
corectă.
În abordările bazate pe schimb interlingvistic, această
reprezentare intermediară trebuie să fie independentă de
limbiile sursă și țintă aflate în discuție, în timp ce în sistemele
de traducere pe baza de transfer există anumite dependențe
între reprezentările implicate.
© 2015 Mihaela Colhon
Sisteme de Traducere Automată.
Exemple
• sisteme construite prin identificarea echivalenților de
traducere din corpusuri paralele sau din corpusuri
comparabile (Munteanu si Marcu, Stefanescu si al. 2012).
Sistemul prezentat în (Munteanu si Marcu, 2002) folosește un
dictionar pentru a traduce unele cuvinte din propozitia sursa,
apoi foloseste aceste traduceri pentru a interoga o baza de
date pentru gasirea traducerilor posibile.
• LEXACC - Lucene-Based Parallel Sentence Extractor from
Comparable Corpora (Stefanescu si al., 2012) a fost dezvoltat
pe corpusuri paralele, obținându-se rezultate bune în
comparație cu abordările existente la acel moment
(Stefanescu si al 2012).
© 2015 Mihaela Colhon
Sisteme de Traducere Automată
YAWA - este un sistem de aliniere in 3 faze,
care foloseste traducerea bilingvă a
lexicului și detectarea marginilor
propozitiilor din cele doua limbi ale
aliniatorului,
pentru
a
identifica
corespondentii de traducere. Cele trei
faze ale sistemului de aliniere YAWA sunt:
- alinierea cuvintelor cu continut,
- alinierea pe bucăți (grupuri sintactice)
- analiza secțiunilor de cuvinte nealiniate.
© 2015 Mihaela Colhon
Sisteme de Traducere Automată
MEBA (Tufis si al., 2006) - foloseste un algoritm iterativ
care profită de toate fazele de pre-procesare utilizate de
YAWA. Ca o îmbunătățire a sistemului de aliniere YAWA,
în MEBA, fiecare iteratie poate fi configurată pentru a
alinia diferite categorii de token-uri (nume de entitati,
date și numere, cuvinte cu conținut, cuvinte funcționale,
semne de punctuatie) în ordine descrescătoare a
evidenței statistice.
© 2015 Mihaela Colhon
Multe dintre succesele din domeniul traducerii automate,
sunt datorate în special lucrărilor de cercetare ale IBM,
unde s-au dezvoltat multe modele statistice mai
complicate. Aceste sisteme erau capabile să folosească
avantajul existenței corpusurilor multilinguale care au
fost produse de Parlamentul Canadei și Uniunea
Europeană ca rezultat al legilor ce stipulau traducerea
tuturor procedurilor guvernamentale în toate limbile
oficiale corespunzătoare sistemelor de guvernământ.
Totuși, multe sisteme necesită corpusuri special dezvoltate,
care erau (și continuă să fie) o limitare majoră a
succesului sistemelor.
© 2015 Mihaela Colhon
Sisteme statistice de traducere
Sistemele statistice de traducere au devenit cele mai utilizate
abordări în cadrul traducerilor bazate pe corpus. Astfel de
modele de traducere sunt bazate pe modele statistice ale căror
parametrii sunt derivați din analiza de corpusuri paralele bilingve.
Un sistem statistic de traducere utilizează un model de traducere
bazat pe relatia dintre cele doua limbi, regulile de traducere fiind
dobândite automat din analiza de construcții paralele. Sisteme de
traducere care utilizează aceasta abordare mai sunt numite și
traducatoare bazate pe corpus.
© 2015 Mihaela Colhon
Aquis-ul Comunitaire
Un mare corpus paralel, folosit intensiv in realizarea sistemelor
automate de traducere este Aquis-ul Comunitaire care
cuprinde totalitatea legilor Uniunii Europene aplicabile în
statele membre ale uniunii. Este disponibil în 22 de limbi
oficiale (printre care se găsește și limba română) ale Uniunii
Europene și reprezintă cel mai mare corpus paralel existent la
acest moment, luând în considerare atât mărimea sa cât și
numărul de limbi acoperite .
Documentele corpusului au fost convertite în format XML și au
fost codificate uniform în UTF-8. Seturile de etichete morfosintactice folosite la adnotarea cuvintelor acestui corpus sunt
conținute în specificațiile proiectului MULTEXT-East.
© 2015 Mihaela Colhon
Corpus. XML Format
© 2015 Mihaela Colhon
Bitexts
Textele paralele, mai precis textele prezentate într-o anumită limbă –
limba sursă, împreună cu traducerea lor în altă limbă – limba
țintă, sunt deosebit de utile pentru multe aplicații precum:
sistemele de traducere,
lexicografia bilingvă,
regăsirea informațiilor multilingve.
Mai mult decât atât, importanța acestora crește considerabil când
corespondentele între perechi de texte paralele sunt etichetate.
Cea mai obișnuită metodă de etichetare este cea care realizează
etichetări pe partea de vorbire.
© 2015 Mihaela Colhon
Bitexts. Exemplu
<tu id="1">
<seg lang="en"><s id="31958q1101.n.5.1.en"><w lemma="have" ana="1+,vmpp"
chunk="vp#1">having</w><w lemma="regard" ana="1+,ncns" chunk="np#1">regard</w><w
lemma="to" ana="5+,sp" chunk="pp#1">to</w><w lemma="article" ana="1+,ncns"
chunk="pp#1,np#2">article</w><w lemma="54" ana="1+,mc" chunk="pp#1,np#2">54</w><w
lemma="of" ana="5+,sp" chunk="pp#2">of</w><w lemma="the" ana="2+,dd"
chunk="pp#2,np#3">the</w><w lemma="treaty" ana="1+,ncns"
chunk="pp#2,np#3">treaty</w><c>;</c></s>
</seg>
<seg lang="ro"><s id="31958q1101.n.4.1.ro"><w lemma="avea" ana="1+,vmg"
chunk="">avand</w><w lemma="in" ana="5+,spsa" chunk="">in</w><w lemma="vedere"
ana="1+,ncfsrn" chunk="">vedere</w><w lemma="art." ana="8+,yn" chunk="">art.</w><w
lemma="54" ana="1+,mc" chunk="">54</w><w lemma="din" ana="5+,spsa" chunk="">din</w><w
lemma="tratat" ana="1+,ncms-n" chunk="">tratat</w><c>;</c></s>
</seg>
</tu>
© 2015 Mihaela Colhon
Bitexts în MT
O cale de a identifica corespondențe între un set de texte paralele
constă în dezvoltarea de mijloace de aliniament. Aliniand două
(sau mai multe) texte înseamnă să se stabilească corespondențe
(traduceri) între segmentele de texte considerate.
În aliniamentul lexical, corespondețele sunt identificate la nivel de
cuvânt. Importanța corpusurilor aliniate la nivel de propoziție
sau la nivel de cuvânt a crescut foarte mult, în special datorită
utilizării acestora în cadrul sistemelor de traducere care dețin
componente de aliniere pe bază de transfer.
În acest caz, textele paralele sunt folosite în procesul alinieierii
pentru a extrage reguli și modele de traducere.
© 2015 Mihaela Colhon
Sisteme de Traducere Bazate pe Corpus
Exista mai multe moduri în care un corpus poate fi folosit în
instruirea unui unui sistem de traducere:
• Abordarea directă se folosește corpusul pentru a extrage
informatii despre unitățile lexicale (cum un cuvânt poate fi tradus
într-un anumit context); într-un astfel de sistem cea mai
importantă resursă este lexiconul: cu cât lexiconul este mai mare
cu atât traducerea este mai exactă.
• Abordarea bazată pe transfer atenția este centrată în special pe
analiza relațiilor structurale. Corpusul, în acest caz, poate fi folosit
pentru a extrage regulile de transfer gramatical pe care le
structurează din limba sursă ca date de intrare cu scopul de a
produce corespondentele lor în limba țintă.
• Abordarea bazată pe cunoștințe lingvistice, textul sursă este
codificat conform unei anumite reprezentări și apoi,
reprezentarea este folosită pentru a genera textul țintă.
© 2015 Mihaela Colhon
Sisteme de Traducere Bazate pe Corpus
Utilizarea corpusului în sistemele de traducere.
© 2015 Mihaela Colhon
Transfer based MT Systems
© 2015 Mihaela Colhon
Sisteme de Traducere Bazate pe
Transfer
Mecanismul bazat pe transfer în sistemele de traducere
presupune ca sistemul să fie tradus din limba sursă în limba
țintă prin realizarea unui transfer de informație și apoi, pe
baza acestui transfer, generarea de construcții corecte
(corecte din punct de vedere grammatical si lexical) în limba
țintă. Procesele implicate in dezvoltarea acest mecanism
sunt :
• Procesul de analiză – unde propozitia din limba sursa este
analizata pentru a extrage structura ei sintactica;
• Procesul de transfer – aplica reguli care acopera segmentele
gramaticale ale propozitiei sursa într-o reprezentare care sta
la baza generarii propozitiei tinta;
• Procesul de sinteză – implica schimbarea reprezentarii
propozitiei tinta conform regulilor limbajului tinta;
© 2015 Mihaela Colhon
Sisteme de Traducere Bazate pe
Transfer
Orice traducator care foloseste mecanismul de transfer trebuie să includă
neaparat module specifice responsabile de analiza, transfer si generare:
• Parsarea sintactică – extrage din cadrul fiecarei propozitii sursa
elementele sintactice componente și returnează o reprezentare a
fiecarei astfel de componente intr-un arbore de constituenti
• Analizatorul morfologic – atribuie informatii despre caracteristicile de
flexionare ale cuvintelor;
• Modulul de transfer lexical – cel care asigura corespondenta unitatilor
lexicale și caracteristicilor morfologice din limba sursa cu echivalentele
lor din limba tinta;
• Algoritmul de transfer – trebuie sa construiasca arborele sintactic al
limbii tinta pentru fiecare arbore sintactic al fiecarei fraze din limba
sursa.
• Generatorul de constructii in limba tinta – este responsabil cu sinteza
cuvintelor din limbajul tinta. Traverseaza tot arborele sintactic construit
pentru a produce componentele lexicale ale limbajului tinta, ținând cont
de caracteristicile morfologice
ale cuvintelor din limba sursă.
© 2015 Mihaela Colhon
Sisteme de Traducere Bazate pe
Transfer
Modul în care sistemele de traducere bazate pe transfer
funcționează variază substanțial dar în general urmăresc
același principiu: aplicarea sau învățarea unor seturi de
reguli de traducere care sunt definite ca și corespondențe
între structuri ale limbii sursă și ale limbii țintă.
Acest lucru implică analiza textului primit ca dată de intrare
din punct de vedere morfologic, sintactic, uneori
semantic (de preferat!!! ) pentru a crea astfel o
reprezentare internă. Traducerea este generata din
aceasta reprezentare folosind atat dictionare bilingve cât
și reguli gramaticale.
© 2015 Mihaela Colhon
MT problems: semantics
© 2015 Mihaela Colhon
Metode de Transfer
Una din principalele caracteristici ale sistemelor de traducere bazate
pe transfer este faza care „transferă” reprezentare intermediara a
textului din limba originala într-o reprezentare intermediara a
textului în limba țintă.
• Transferul “de suprafata” (sau sintactic) – acest nivel este
caracterizat prin tranferarea „structurilor sintactice” între limba
sursa și limba tinta. Este potrivit pentru limbi din aceasi familie sau
de tip asemanator, de exemplu limbile latine precum spaniola,
franceza, romana, italiana etc.
• Transferul semantic – acest nivel construieste o reprezentare
semantica a textului din limba sursa. Aceasta reprezentare poate
sa contina o serie de constructii prin intermediul cărora se
specifica înțelesul. Traducere necesită de asemenea și transfer
structural tipic. Acest nivel este folosit la traduceri între limbi
diferite din punct de vedere morphologic și sintactic ca de
exemplu, limba engleza și o© 2015
limba
latina.
Mihaela Colhon
eRoL System
© 2015 Mihaela Colhon
Corespondenți de traducere
A Contrastive Study of Syntactic Constituents in English and Romanian Texts Mihaela Colhon, University
of Craiova
© 2015 Mihaela Colhon
Lexical holes
In any translation
process, the one-tozero lexical alignment
is undesirable. Oneto-zero means the
lack of equivalent
lexical translation in
the target language.
This phenomena is
called “lexical hole”.
A Contrastive Study of Syntactic Constituents in English and Romanian Texts Mihaela Colhon, University of Craiova
Basic English-Romanian Syntactic Patterns
The general structure of Declarative sentences:
In English:
Subject +
Predicate +
Adverbs
A Contrastive Study of Syntactic Constituents in English and Romanian Texts Mihaela Colhon, University of Craiova
Basic English-Romanian Syntactic Patterns
In Romanian, the subject can be omitted at all:
A Contrastive Study of Syntactic Constituents in English and Romanian Texts Mihaela Colhon, University of Craiova
Basic English-Romanian Syntactic Patterns
Attribute (or adjectival part of speech)
In English, the attribute precede the part of speech that it modifies.
Exceptions:
• adjective like present, proper and extant (the people present in
the room)
• fixed multi-word constructions
• adjectives used in predicative forms (the house ablaze)
• adjective with indefinite pronouns ending in –body, -one, -thing
(nothing unusual)
• prepositional constructions (picture of my son)
A Contrastive Study of Syntactic Constituents in English and Romanian Texts
Mihaela Colhon, University of Craiova
Basic English-Romanian Syntactic Patterns
Alignments between English-Romanian Noun Phrases usually
determine cross-alignments because of the involved attributes.
A Contrastive Study of Syntactic Constituents in English and Romanian Texts Mihaela Colhon, University of Craiova
Basic English-Romanian Syntactic Patterns
A Contrastive Study of Syntactic Constituents in English and Romanian Texts Mihaela Colhon, University of Craiova
Basic English-Romanian Syntactic Patterns
Predicate
In English, the general rule is that predicate takes the second
place in the sentence, after the subject.
The transitive verbs are followed by direct objects.
The intransitive verbs are followed by adverbs (adverbial phrases
of manner, place and time).
Exceptions:
• when the predicate is preceded by some indefinite frequency
adverbs (often, always, usually, never, rarely, seldom,
sometimes)
• when the predicate is preceded by restrictive adverb (hardly,
scarcely, only)
A Contrastive Study of Syntactic Constituents in English and Romanian Texts
Mihaela Colhon, University of Craiova
Basic English-Romanian Syntactic Patterns
Negative forms of Predicate
generate
cross-alignmnets
between English and Romanian
texts.
A Contrastive Study of Syntactic Constituents in English and Romanian Texts
Mihaela Colhon, University of Craiova
Slide Title
•
•
•
•
Make Effective Presentations
Using Awesome Backgrounds
Engage your Audience
Capture Audience Attention
© 2015 Mihaela Colhon
Slide Title
Product A
• Feature 1
• Feature 2
• Feature 3
Product B
• Feature 1
• Feature 2
• Feature 3
© 2015 Mihaela Colhon