Combinatorial and Compositional Aspects of Bilingual Aligned

Download Report

Transcript Combinatorial and Compositional Aspects of Bilingual Aligned

Combinatorial and Compositional Aspects of Bilingual Aligned Corpora

S. Martzoukos

Combinatorial and Compositional Aspects of Bilingual Aligned Corpora

A CADEMISCH P ROEFSCHRIFT ter verkrijging van de graad van doctor aan de Universiteit van Amsterdam op gezag van de Rector Magnificus prof. dr. ir. K.I.J. Maex ten overstaan van een door het College voor Promoties ingestelde commissie, in het openbaar te verdedigen in de Aula der Universiteit op vrijdag 21 oktober 2016, te 11:00 uur door

Spyridon Martzoukos

geboren te Cholargos, Griekenland

Promotiecommissie Promotor: Prof. dr. M. de Rijke Universiteit van Amsterdam Co-promotor: Dr. C. Monz Universiteit van Amsterdam Overige leden: Prof. dr. J. Bos Prof. dr. A.P.J. van den Bosch Dr. E. Kanoulas Dr. M.J. Marx Prof. dr. K. Sima’an Rijksuniversiteit Groningen Radboud Universiteit Nijmegen Universiteit van Amsterdam Universiteit van Amsterdam Universiteit van Amsterdam Faculteit der Natuurwetenschappen, Wiskunde en Informatica SIKS Dissertation Series No. 2016-10 The research reported in this thesis has been carried out under the auspices of SIKS, the Dutch Research School for Information and Knowledge Systems.

The research was supported by CoSyne under project number FP7-ICT-4-248531.

Copyright c 2016 Spyros Martzoukos, Amsterdam, The Netherlands ii

Samenvatting

Het onderwerp van dit proefschrift zijn de bouwstenen van Statistich Automatisch Ver talen (Statistical Machine Translation, SMT). Er wordt aangetoond dat deze bouw stenen, zinsdelen die verkregen zijn uit tweetalige aligned corpora, een rijkere struc tuur hebben dan algemeen verondersteld. Een grondige verklaring van het extractie mechanisme toont aan dat de verzameling bouwstenen die het oplevert zich leent voor wiskundige analyse, wat de mogelijkheid biedt tot het ontwikkelen van nieuwe SMT tools en benaderingen. Met dit doel zijn verbanden tussen graaftheorie en waarschijn lijkheidsleer onderzocht om kansfuncties af te leiden voor het opdelen van zinnen in zinsdelen, en voor vertaal-regels. Wat deze regels betreft ondersteunen experimentele resultaten het idee van een statistisch principe van compositionaliteit van vertalingen, wat in de toekomst het onderszoek naar het genereren van data kan bevorderen. Boven dien, aangezien de bestanddelen van compositionaliteit de oorspronkelijke bouwstenen van vertaling (verkregen dmv het trainingsproces) vormen, onderzoeken we of ze een talige bouwstenen (frasen) generaliseren, en zo ja, welke. Dit leidt tot de identifi catie van de rol van puntsgewijs wederzijdse informatie (pointwise mutual informa tion, PMI) als de afstands-metriek over segmentatie-verfijningen. Experimenten tonen aan dat deze gedeeltelijk geordende benadering meer geschikt is dan een standaard taalmodel-benadering voor het vinden van de ‘natuurlijke’ bouwstenen van eentalige corpora.

1

Abstract

The subject of investigation of this thesis is the building blocks of translation in Statis tical Machine Translation (SMT). We find that these building blocks, namely phrase level dictionary entries, which are extracted from bilingual aligned corpora (training data), admit richer structure than previously known. A rigorous explanation of the extraction mechanism shows that the resulting set of building blocks is amenable to mathematical investigation with the potential of developing tools and new frameworks for translation. To this end we bridge previously unseen gaps between graph theory and probability theory within SMT in order to derive probability mass functions for phrase-level sentence segmentations and rules of translation. For the latter, experimen tal results support the claim of a statistical (principle of) compositionality of translation rules which fosters future work on data generation. In addition, since the constituents of composition are the original building blocks of translation, as extracted from the training process, we investigate whether they generalize monolingual building blocks (phrases), and if so, of what type. This leads to identifying the role of pointwise mutual information as the distance metric on segmentation refinements. Experiments show that such a partially ordered framework is more appropriate than a standard language model approach for finding the ‘natural’ building blocks of monolingual corpora.

3