Implementing Cross-Language Text Retrieval Systems for
Download
Report
Transcript Implementing Cross-Language Text Retrieval Systems for
Implementing Cross-Language
Text Retrieval Systems for Largescale text Collections and the
World Wide Web
Mark W. Davis and William C.Ogden
AAAI 1997
Inleiding
Cross-Language Text Retrieval (CLTR):
– vraag in taal a
– documenten in taal b
– eventueel eenvoudige vertaling
Doelen/doelgroepen:
– wat kennis taal, moeite met queries
– eventueel zelf al beoordelen
– eerste selectie voor laten vertalen
QUILT:
Query User Interface with Light Translations
Prototype
–
–
–
–
Engelse queries vertaald naar Spaans
Documenten in Spaans, plus eenvoudige vertaling
Zoektermen highlighted
Vertaling zoektermen zo zichtbaar
Het proces: vertalingen zoeken
Engels:
–
–
–
–
zinsgrenzen
bepalen woordsoorten: POS-tagger
filteren: alleen nuttige POS
gebruik van Porter stemming en stoplist
Engels-Spaans:
– opzoeken term in tweetalig lexicon: Spaanse
equivalenten met zelfde POS
Dit levert een verzameling mogelijke
vertalingen voor elk woord
Het proces: disambiguatie
Gekozen voor gebruik van een parallel 'aligned'
corpus (UN-teksten)
Engelse query levert documentvector van Engelse
documenten
Voor iedere Spaanse term, voor ieder equivalent
vector van Spaanse documenten
Equivalent met meest gelijke vector (normalized
dotproduct) wordt gekozen
Voorbeeld
Engelse query
How has the threat of swine fever affected international trade?
POS, filter, stemming, stoplist
NN_threat NN_swine NN_fever VB_affect JJ_intern NN_trade
Equivalenten, voorbeeld
NN_fever calentur|chuch|fiebr|pasm
Spaanse query
menaz perr fiebr afect intern comerc
NB Engelse woorden die NIET vertaald kunnen worden worden
Spaans gestemd en meegenomen
Evaluatie van systeem
Gebruik van TREC Spaanse testsets
Voor de queries gebruik van de Engelstalige
querybeschrijvingen (=vertaling van de Spaanse
querybeschrijvingen)
Evaluatie m.b.v. de pooled retrieved relevant set van
de Spaanse systemen
Testen
–
–
–
–
gebruik alle equivalenten zonder selectie
met/zonder POS voor disambiguatie
met/zonder corpus voor disambiguatie
complete Quilt benadering
Resultaten
Method
Mono5
Quilt
POS5
ALL5
CORP5
Precision (NI) % of MONO
0.2895
0.2127
73.5
0.1949
67.3
0.1422
49.1
0.1153
39.8
NB: Het uiteindelijke IR systeem van QUILT is vrij
basaal, kan verbeterd met b.v. gebruik van
phrases en met automatische feedback (Rocchio)
Vertalen van documenten
Hier is gekozen voor een eenvoudiger
vertaalproces:
–
–
–
–
zinsgrenzen
POS tagger
opzoeken in lexicon
meest frequente alternatief kiezen
(frequentie op basis van heel groot corpus)
– Engelse termen volledig, geen stemming
– gebruiker kan ander alternatieven zien
Evaluatie van nut systeem
Echt evalueren levert problemen op omdat het doel
anders is dan van "gewone" IR
Criterium : aantal correct door gebruiker
geidentificeerde relevante documenten voor de
queries
Pretest: kennis van Spaans
Test: vergelijken resultaten van gebruikers op zelfde
niveau met en zonder gebruik van de vertaling
Alternatieve test: observatie keuze van middelen bij
allerlei taken
Beschikbaarheid
Webversie van QUILT: Mundial
http://crl.nmsu.edu/users/madavis/mundial.html
functioneert niet (meer)?
Altavista gebruikt SYSTRAN, vele talen,
commercieel product met vergelijkbare
mogelijkheden