Transcript Natural Language Processing in IR
22.01.01
Verarbeitung natürlicher Sprache im IR
-- vorgestellt am Beispiel eines Projekts unter der Leitung von General Electric (GE) Research Yu-wen Pang
Yu wen Pang : Verarbeitung natürlicher Sprache im IR 1
22.01.01
Hauptaufgabenstellung des Projekts
mit Hilfe NLP-Technik die Leistung von Volltext-Dokument-Retrieval verbessern Schwerpunkt
1991-1996 : Verbesserung der Dokument repräsentation (Indexierung) 1996- jetzt : Query Expansion
Yu wen Pang : Verarbeitung natürlicher Sprache im IR 2
22.01.01
Inhalt
Stream-basiertes IR Modell - Übersicht des Stream-Konzepts -- Streams -- Stream Merging -- Leistung Query Expansion -- Methoden -- bisheriges Ergebnis Weitere Experimente Andere Ansätze zum NLP im IR Yu wen Pang : Verarbeitung natürlicher Sprache im IR 3
Übersicht des Stream-Konzepts
stems Index-1 Search queries match-1
text data base
22.01.01
phrases Index-2 match-2 names Index-3 Head+Modifier pairs Index-4 match-3 match-4 merge
Yu wen Pang : Verarbeitung natürlicher Sprache im IR (Tomek Strzalkowski u. a. 1999, S122) 4
Streams
22.01.01
Was sind Streams?
Indizes, die mit verschiedenen Methoden als Dokumentrepräsentation erzeugt werden 4 verwendete streams Wortstämme (stems stream) - einfache Nominalphrasen (simple noun phrase stream ) - Namen (name stream) - Head+Modifier Paare (H+M pairs stream) Yu wen Pang : Verarbeitung natürlicher Sprache im IR 5
Wortstämme (stems stream)
einfachster, zur Zeit erfolgreichster aller streams besteht aus Einzelwörtern in Wortstamm-Form Probleme -- Mehrwortbegriffe (`joint venture ´ Terme: `joint ´ / `venture´) - lexikalische Ambiguität unerwünschte Treffer Yu wen Pang : Verarbeitung natürlicher Sprache im IR 22.01.01
6
22.01.01
Einfache Nominalphrasen (simple noun phrase stream)
Zweck : Erfassung von Mehrwort-Termen Extraktion von 3 Arten von Nominalphrasen
Modifikation
(adj,Partizip)+
Substantiv
(e) z.B.: air traffic control system
Eigenname + Substantiv
z.B.: U.S. citizen, China trade
Eigenname
(proper noun) z.B.: warren commission Yu wen Pang : Verarbeitung natürlicher Sprache im IR 7
Namen (name stream)
Eigennamen von Personen, Orten, Ereignissen, Organisationen usw.
2 Prinzipien - aus mehreren Wörtern zusammengesetzten Name als eine Einheit, nicht zerlegen z.B : South Africa= South+Africa -- Varianten desselben Name z.B. : President Bill Clinton = President Clinton In der verwendeten Datenbank (TREC-5, 1996) sind 8% der generierten Terme zusammengesetzte Namen.
22.01.01
Yu wen Pang : Verarbeitung natürlicher Sprache im IR 8
22.01.01
Head+Modifier Paare (H+M pairs stream)
erzeugt in 5 aufeinanderfolgenden Schritten 1. Part-of-speech (Wortart) tagging 2. Lexikon basierte Normalisierung von Wörtern 3. syntaktische Analyse mit Tagged Text Parser 4. Extraktion von Head+Modifier Paaren 5. Korpus-basierte Disambiguierung von langen Nominalphrasen Yu wen Pang : Verarbeitung natürlicher Sprache im IR 9
22.01.01
Schritt 1 : Part-of-speech tagging
Funktion lexikalische Ambiguität auflösen Wirkung -- genaueres Stemming - Basis für Phrasenbegrenzung Yu wen Pang : Verarbeitung natürlicher Sprache im IR 10
Schritt 2 : Normalisierung von Wörtern
In dem Projekt wird ein Suffix Trimmer verwendet.
Funktion - reduziert flektierte Wörter auf den Wortstamm wie im Wörterbuch angegeben -- wandelt nominalisierte Verben (z.B.: implementation, storage) in Stammform (implement, store) um Beispiel
originaler Text :
The issue is veterans entitlement, or the awarding of monetary compensation and / or medical assistance for physical damages caused by Agent Orange.
stemmed :
veteran entitle award monetary compensate medical assist physical damage agent orange Yu wen Pang : Verarbeitung natürlicher Sprache im IR 22.01.01
11
Schritt 3 : Syntaktische Analyse mit Tagged Text Parser (TTP)
Funktion : Phrasen und deren Beziehung erzeugen
TTP - ein schneller und robuster Parser für natürliche Sprache (für einen Satz unter 1 Sekunde) - eine wichtige Strategie vom TTP: „skip-and-fit“
Nach der zugeteilten Zeit wird das problematische Fragment übersprungen. Eine approximative Analyse wird erzeugt. Der Parser setzt mit der nächsten Phrase fort. Das übersprungene Fragment wird später mit einem einfachen Phrasenparser analysiert und an der Hauptstruktur angebunden.
22.01.01
Yu wen Pang : Verarbeitung natürlicher Sprache im IR 12
Schritt 4 : head+modifier Paare Extraktion (aus TTP parse tree)
4 Paartypen werden in Betracht gezogen : 1. Kopf des Substantivs+linke adj/noun Adjunkte 2. Kopf des Substantivs+Kopf rechter Adjunkte 3. Hauptverb+Kopf seiner Objektphrase 4. Kopf des Subjekts+Hauptverb Beispiel
originaler Text :
The issue is veterans entitlement, or the awarding of monetary compensation and / or medical assistance for physical damages caused by Agent Orange.
head+modifier Paare :
damage+physical, cause+damage, award+compensate, award+assist, compensate+monetary, assist+medical, entitle+veteran 22.01.01
Yu wen Pang : Verarbeitung natürlicher Sprache im IR 13
22.01.01
Schritt 5 : Disambiguierung der langen Nominalphrasen
Funktion zerlegt lange Nominalphrasen in sinnvolle H+M Paare Beispiel : `insider trading case ´ `trading+insider ´ sinnvoller als `case+trading ´. Yu wen Pang : Verarbeitung natürlicher Sprache im IR 14
Verfahren der Disambiguierung
Phase 1 -- Die nicht-ambigen Paare werden generiert.
-- Die strukturell ambigen Nominalphrasen (=Nominalphrasen bestehend aus mehr als 2 Wörter und mindestens 2 Wörter sind Substantive) werden zur Phase 2 verschoben.
-- Die Verteilungsstatistik der zusammengesetzten Terme wird gesammelt. (z.B. `insider trading ´ mehr als `trading case´) Phase 2 -- Die H+M Paare von ambigen Nominalphrasen werden nach der Statistik generiert.
22.01.01
Yu wen Pang : Verarbeitung natürlicher Sprache im IR 15
Termgewichtung in Streams
Stream Gewichtungsschema Stämme lnc.ntn
Phrasen ltn.ntn
H+M Paare ltn.nsn
22.01.01
Namen ltn.ntn
In SMART verwendet
Erklärung am Beispiel : lnc.ntn
1. lnc : verwendet bei Dokumenten ntn : verwendet bei Query 2. lnc : log-tf, nicht-idf, Cosinus-Normalisierung ntn : straight-tf, idf, nicht-Normalisierung
Yu wen Pang : Verarbeitung natürlicher Sprache im IR 16
Stream Merging
Was ist Merging (Fusion)?
- ein Prozeß, in dem die Ergebnisse des Rankings von jedem Stream miteinander verschmolzen werden und ein finales Ranking erzeugt wird Faktoren, die das finale Ranking beeinflussen 22.01.01
-- Werte eines Dokuments von jedem stream -- Effizienz jedes Streams -- Anzahl von Streams, in denen ein bestimmtes Dokument ausgegeben wird -- Performance im bestimmten Rankingbereich von jedem Stream Yu wen Pang : Verarbeitung natürlicher Sprache im IR 17
Algorithmus des Mergings
d : Dokument d i : stream i A(i) : Koeffizient für stream i score(i)(d) : Relevanz des Dokuments d in Stream i zur Query nstreams(d) : Anzahl von Streams, in denen Dokument d ausgegeben wird
*Finalscore(d)=
A(i)
score(i)(d)
(0.9+nstreams(d)/10)
22.01.01
* der beste Algorithmus für PRISE
Yu wen Pang : Verarbeitung natürlicher Sprache im IR 18
22.01.01
Leistungen von Streams
Leistungen einzelner Streams (11-pt avg. Prec) RUNS short queries long queries Stems 0.1682 0.2626
Phrases 0.1233 0.2365
H+M pairs 0.0755 0.2040
Names 0.0844 0.0608 (Tomek Strzalkowski u. a. 1999, S132) Yu wen Pang : Verarbeitung natürlicher Sprache im IR 19
Erhöhung der Precision nach Merging der Streams gegenüber reinem stemming Streams merged short queries long queries % change % change alle streams +5.4 +20.94
stems+Phrases+Pairs +6.6 +22.85
stems+Phrases +7.0 +24.94
stems+Pairs +2.2 +15.27
22.01.01
stems+Names +0.6 +2.59
(Tomek Strzalkowski u. a. 1999, S134) Yu wen Pang : Verarbeitung natürlicher Sprache im IR 20
22.01.01
Query Expansion
Beobachtung -- Query vom Benutzer : meistens nur semantisch oder begrifflich ähnlich den relevanten Dokumente was noch nicht gut modelliert werden kann - die Formulierung der Query : oft irreführend Ziel der Query Die Query soll den relevanten Dokumente ähnlicher werden, sowohl inhaltlich als auch strukturell.
Methoden -- Term-Expansion -- Volltext-Expansion Yu wen Pang : Verarbeitung natürlicher Sprache im IR 21
Term-Expansion
Verfahren Retrieval mit originaler Query mit Hilfe `Relevance-Feedback ´ beurteilen, ob die ausgegebenen Dokumente relevant sind Die Terme in den als relevant beurteilten Dokumenten werden zur Query hinzugefügt.
22.01.01
Gewichtungen der Terme in der Query werden neu berechnet.
Retrieval mit der bearbeiteten Query Yu wen Pang : Verarbeitung natürlicher Sprache im IR 22
22.01.01
Probleme der Term-Expansion
1. Einige wichtige Aspekte, die bezüglich der Query manche Dokumente zur Relevanz bringen, sind mit der Term-Expansion nur schwer zu erfassen.(z.B. Textstruktur) 2. Der Expansion mit Relevance-Feedback von den Benutzenden legen einseitige Relevance-Informationen zugrunde.
Yu wen Pang : Verarbeitung natürlicher Sprache im IR 23
Volltext-Expansion
(neuer Vorschlag des Projekts) Richtlinien Retrieval mit originaler Query 22.01.01
In Top N Dokumente die zur Query relevanten Abschnitte aussuchen ganze Abschnitte zur Query hinzufügen Indexierung für die expandierte Query Retrieval mit der expandierter Query Yu wen Pang : Verarbeitung natürlicher Sprache im IR 24
Ergebnis der Query-Expansion
Der beste offizielle Lauf bis 1999 Beschreibung durchschnittl. Precision in Recall von der Query Precision Top 10 Dok. 4728 Dok.
Manuell unterstützte 0.3346 0.6520 0.3325 Expansion In diesem Lauf : (Tomek Strzalkowski u.a. : NLIR TREC-8 Report) 1. Indexierung nur mit stem-stream 2. Relevance-Infos vom User mit Zusammenfassung (summary) 3. als `relevant ´ beurteilte Zusammenfassungen zum Thema der Query hinzugefügt 22.01.01
Yu wen Pang : Verarbeitung natürlicher Sprache im IR 25
22.01.01
Weitere Experimente in dem Projekt
Indexierung erweiterter Query mit allen Streams automatische Expansion mit Textabschnitten vs. Zusammenfassungen linguistische Verarbeitung für Indexierung vs. nur für Query Yu wen Pang : Verarbeitung natürlicher Sprache im IR 26
22.01.01
Andere Ansätze zum NLP in IR-Systeme in TREC
CLARIT : NLP verwendet bei Indexierung InQuery (von UMass): NLP verwendet bei Verarbeitung von Query Yu wen Pang : Verarbeitung natürlicher Sprache im IR 27
22.01.01
Literatur
T. Strzalkowski, L. Guthrie, J. Karlgren, J. Leistensnider, F. Lin, J. Perez-Carballo, T. Straszheim, J. Wang, J. Wilding : Natural Language Information Retrieval : TREC-5 Report http://trec.nist.gov/pubs/trec5/t5_proceedings.html
T. Strzalkowski, J. Karlgren, J. Perez-Carballo, A. Hulth, P. Tapanainen, T. Lahtinen : Natural Language Information Retrieval : TREC-8 Report http://trec.nist.gov /pubs/trec8/t8_proceedings.html
T. Strzalkowski, J. Perez-Carballo : Evaluating Natural Language Processing Techniques in Information Retrieval. In : T. Strzalkowski (ed.): Natural Language Information Retrieval, 1999 Kluwer Academic Publishers T. Strzalkowski, P. Scheyen : Evaluation of the Tagged Text Parser, A Preliminary Report. In : H. Bunt, M. Tomita (ed.) : Recent Advances in Parsing Technology,1996 Kluwer Academic Publishers Yu wen Pang : Verarbeitung natürlicher Sprache im IR 28