Implementing Cross-Language Text Retrieval Systems for

Download Report

Transcript Implementing Cross-Language Text Retrieval Systems for

Implementing Cross-Language
Text Retrieval Systems for Largescale text Collections and the
World Wide Web


Mark W. Davis and William C.Ogden
AAAI 1997
Inleiding

Cross-Language Text Retrieval (CLTR):
– vraag in taal a
– documenten in taal b
– eventueel eenvoudige vertaling

Doelen/doelgroepen:
– wat kennis taal, moeite met queries
– eventueel zelf al beoordelen
– eerste selectie voor laten vertalen
QUILT:
Query User Interface with Light Translations

Prototype
–
–
–
–
Engelse queries vertaald naar Spaans
Documenten in Spaans, plus eenvoudige vertaling
Zoektermen highlighted
Vertaling zoektermen zo zichtbaar
Het proces: vertalingen zoeken

Engels:
–
–
–
–

zinsgrenzen
bepalen woordsoorten: POS-tagger
filteren: alleen nuttige POS
gebruik van Porter stemming en stoplist
Engels-Spaans:
– opzoeken term in tweetalig lexicon: Spaanse
equivalenten met zelfde POS
Dit levert een verzameling mogelijke
vertalingen voor elk woord
Het proces: disambiguatie




Gekozen voor gebruik van een parallel 'aligned'
corpus (UN-teksten)
Engelse query levert documentvector van Engelse
documenten
Voor iedere Spaanse term, voor ieder equivalent
vector van Spaanse documenten
Equivalent met meest gelijke vector (normalized
dotproduct) wordt gekozen
Voorbeeld

Engelse query
How has the threat of swine fever affected international trade?

POS, filter, stemming, stoplist
NN_threat NN_swine NN_fever VB_affect JJ_intern NN_trade

Equivalenten, voorbeeld
NN_fever calentur|chuch|fiebr|pasm

Spaanse query
menaz perr fiebr afect intern comerc

NB Engelse woorden die NIET vertaald kunnen worden worden
Spaans gestemd en meegenomen
Evaluatie van systeem




Gebruik van TREC Spaanse testsets
Voor de queries gebruik van de Engelstalige
querybeschrijvingen (=vertaling van de Spaanse
querybeschrijvingen)
Evaluatie m.b.v. de pooled retrieved relevant set van
de Spaanse systemen
Testen
–
–
–
–
gebruik alle equivalenten zonder selectie
met/zonder POS voor disambiguatie
met/zonder corpus voor disambiguatie
complete Quilt benadering
Resultaten
Method
Mono5
Quilt
POS5
ALL5
CORP5
Precision (NI) % of MONO
0.2895
0.2127
73.5
0.1949
67.3
0.1422
49.1
0.1153
39.8
NB: Het uiteindelijke IR systeem van QUILT is vrij
basaal, kan verbeterd met b.v. gebruik van
phrases en met automatische feedback (Rocchio)
Vertalen van documenten

Hier is gekozen voor een eenvoudiger
vertaalproces:
–
–
–
–
zinsgrenzen
POS tagger
opzoeken in lexicon
meest frequente alternatief kiezen
(frequentie op basis van heel groot corpus)
– Engelse termen volledig, geen stemming
– gebruiker kan ander alternatieven zien
Evaluatie van nut systeem





Echt evalueren levert problemen op omdat het doel
anders is dan van "gewone" IR
Criterium : aantal correct door gebruiker
geidentificeerde relevante documenten voor de
queries
Pretest: kennis van Spaans
Test: vergelijken resultaten van gebruikers op zelfde
niveau met en zonder gebruik van de vertaling
Alternatieve test: observatie keuze van middelen bij
allerlei taken
Beschikbaarheid
Webversie van QUILT: Mundial
http://crl.nmsu.edu/users/madavis/mundial.html
functioneert niet (meer)?


Altavista gebruikt SYSTRAN, vele talen,
commercieel product met vergelijkbare
mogelijkheden