Workshop_ASV_Übersicht

Download Report

Transcript Workshop_ASV_Übersicht

eAQUA Workshop
Einführung
Linguistische Informatik
Gerhard Heyer
Universität Leipzig
[email protected]
Institut für Informatik
Einführung Linguistische Informatik
Gegenstand und Ziele ASV
Gegenstand der Automatischen Sprachverarbeitung
(ASV) sind
• Daten,
• Verfahren
• Anwendungen
für die automatische semantische Analyse von Text.
Ziel ist die automatische Extraktion von (linguistischem
und nicht linguistischem) Wissen aus Texten
Prof. Dr. G. Heyer
Modul Linguistische Informatik
2
Einführung Linguistische Informatik
Gegenstand und Ziele ASV
Wissen (knowledge)
Meist auf Erfahrung beruhende und objektiv
nachprüfbare Kenntnis von Fakten und Zusammenhängen eines Weltausschnitts, die Personen zur
Lösung von Problemen einsetzen.
Wissen ermöglicht die Vernetzung von Informationen.
Prof. Dr. G. Heyer
Modul Linguistische Informatik
3
Einführung Linguistische Informatik
Gegenstand und Ziele ASV
Gegenstand der Automatischen Sprachverarbeitung (ASV) sind
Daten, Verfahren und Anwendungen für die automatische
semantische Analyse von Text
Ziel ist die automatische Extraktion von (linguistischem und nicht
linguistischem) Wissen aus Texten
• automatische Verarbeitung von geschriebener
Sprache (Text)
• unabhängig von einer Einzelsprache und deren
Kodierung
• Teil der Angewandten Informatik
• Abteilung am Institut für Informatik in der Fakultät für
Mathematik und Informatik
Prof. Dr. G. Heyer
Modul Linguistische Informatik
4
Einführung Linguistische Informatik
Aspekte und Teildisziplinen
Als ein Teilgebiet der Informatik und umfasst die
Automatische Sprachverarbeitung (ASV) Aspekte
• des Information Retrieval und
• der Linguistik
mit Anwendungen im
• Wissensmanagement und
• den E-Humanities.
Prof. Dr. G. Heyer
Modul Linguistische Informatik
5
Einführung Linguistische Informatik
Informatik und Linguistik
Informatik als Werkzeug oder Theoriegrundlage
Linguistik mit dem Computer: Unterstützung der
Linguisten bei der praktischen Arbeit
Linguistische Informatik: Anwendung von Konzepten
und Verfahren der Informatik für die Analyse von
Sprache (als System oder Einzelsprache)
• formale Sprachen, Parsing, Semantik und Verifikation
• informationstheoretische Konzepte,
graphentheoretische Modellierung
Prof. Dr. G. Heyer
Modul Linguistische Informatik
6
Einführung Linguistische Informatik
Zwei Traditionen der Linguistischen Informatik
Computerlinguistik
• Orientierung an kognitiven Modellen des
Sprachverstehens
• Grundlage: formale Sprachen und regelbasierte
Repräsentationen
• Ziel ist die Simulation sprachlicher Prozesse auf dem
Computer
Institutionell meist an philologischen Fakultäten angesiedelt,
sehr populär in den 90er Jahren,
keine wesentlichen theoretischen oder praktischen Erfolge
Prof. Dr. G. Heyer
Modul Linguistische Informatik
7
Einführung Linguistische Informatik
Zwei Traditionen der Linguistischen Informatik
Sprachprodukttechnologie
• Orientierung an empirischen und ingenieurswissenschaftlichen Verfahren der Sprachbeschreibung
• Grundlage: Textdatenbanken, IR, informationstheoretische Modelle, graphbasierte Modellierungen
• Ziel ist die computerunterstützte Nutzung von Sprache
als wesentliches Mittel des Verstehens und der
Kommunikation
Institutionell Teil der Angewandten Informatik,
starker Auftrieb mit wachsender Bedeutung des Internet
Prof. Dr. G. Heyer
Modul Linguistische Informatik
8
Einführung Linguistische Informatik
Anwendungen der Linguistischen Informatik
Informatik für den Computer
Weder Sprachverstehen noch Sprachproduktion sind
bisher gelöst. Aber wir besitzen eine Vielzahl von
Verfahren, die zwar kein Verstehen ermöglichen, aber für
viele Anwendungen oft völlig ausreichen.
flache Ansätze (effizient und robust)
statistische Methoden, Mustergrammatiken
tiefe Ansätze (präzise und korrekt)
linguistische Prinzipien, Constraints oder
komplexe Regelwerke
Prof. Dr. G. Heyer
Modul Linguistische Informatik
9
Einführung Linguistische Informatik
Zentrale Einsatzgebiete
• Sprachprodukte für das
Informations- und Wissensmanagement
• Sprachprodukte für die
Dokumentenproduktion und -verwaltung
• Sprachprodukte für die
Mensch-Maschine Kommunikation
• Sprachprodukte für die
Mensch-Mensch Kommunikation
Prof. Dr. G. Heyer
Modul Linguistische Informatik
10
Einführung Linguistische Informatik
Wichtige Trends
• Integration von verschiedenen Medien und Modi in der
Kommunikation zwischen Menschen bzw. Mensch und
Maschine
• Management von großen Mengen multimedialer,
multimodaler und multilingualer Information
• Schrittweise Entwicklung zu inhaltsbezogenem Umgang
mit Information (semantische statt syntaktische
Methoden)
Prof. Dr. G. Heyer
Modul Linguistische Informatik
11
Einführung Linguistische Informatik
Literaturempfehlungen
Grewendorf/Hamm/Sternefeld, Linguistisches Wissen,
Suhrkamp (stw 695), Frankfurt (13) 2004
Heyer/Quasthoff/Wittig, Text Mining – Wissensrohstoff Text,
W3L Verlag, Bochum 20082 (auch als E-Learning Kurs)
C.Manning/H.Schütze, Foundations of Statistical Natural
Language Processing, MIT Press 2000
D.Jurafsky/J.Martin, Speech and Language Processing,
Prentice Hall, NY 2000
Computerlinguistik im Internet, u.a.
http://www.sil.org
http://www.aclweb.org
Prof. Dr. G. Heyer
Modul Linguistische Informatik
12
Einführung Linguistische Informatik
Fragestellungen der ASV
Daten, Verfahren und Anwendungen
Daten
Nur Text
Vorverarbeitung
Format
Hybridtext
Verarbeitung
Text + Bilder
... ... ...
• Tokenisierung
• Spelling
• Wortnormierung
• Segmentierung
• ... ... ...
Prof. Dr. G. Heyer
• Auszeichnungen
• Dateiformate
• DB Formate
• ... ... ...
Modul Linguistische Informatik
• Suche
• Extraktion
• Strukturierung
• ... ... ...
13
Einführung Linguistische Informatik
Fragestellungen der ASV
Daten, Verfahren und Anwendungen
Verfahren
musterbasiert
Information Retrieval
(Vector space representations,
similarity measures, ...)
statistisch
regelbasiert
Machine Learning
(Learning algorithms, bootstrapping ...)
Graph based methods
(Clustering, small worlds ...)
Prof. Dr. G. Heyer
Modul Linguistische Informatik
14
Einführung Linguistische Informatik
Fragestellungen der ASV
Daten, Verfahren und Anwendungen
Anwendungen
Quellenauswahl
• Selektion
• Integration
• Segmentierung
• ... ... ...
Prof. Dr. G. Heyer
Modul Linguistische Informatik
Analyse
• Text & Trend Mining
• IR und P2P Systeme
• Wissens- und
Content Management
• ... ... ...
Infrastruktur
• Schnittstellen
• Integration
• Web Services
• ... ... ...
15
Einführung Linguistische Informatik
Einige grundlegende Annahmen und Fakten: Text
Was ist ein Text?
Aus Sicht der ASV:
Aneinander gekettete Zeichen und Folgen von Zeichen (bezogen
auf ein Alphabet)
Möglicherweise in Sätze, Absätze und Kapitel strukturiert
Annotiert mit Metadaten (Sprache, Autor, Textsorte, Zeitstempel,
Region, ... )
Annahme:
Text ist keine zufällige Aneinanderreihung von Zeichen, sondern
repräsentiert Wissen (zum Gegenstand des Textes)
Durch eine geeignete Analyse von Texten lässt sich das darin
enthaltene Wissen extrahieren
Prof. Dr. G. Heyer
Modul Linguistische Informatik
16
Einführung Linguistische Informatik
Zipfsches Gesetz
Text folgt grundlegenden statistischen Gesetzmäßigkeiten
Das Zipfsche Gesetz:
Rang r einer Wortform aus einer häufigkeitssortierten Liste von
Wortformen (eines Textes/ einer Sprache) multipliziert mit
seiner Häufigkeit n ist in etwa konstant.
rnk
(mit textabhängiger Konstante k)
bzw. ausgedrückt durch indirekte Proportionalität
n ~ 1/r
Prof. Dr. G. Heyer
Modul Linguistische Informatik
17
Einführung Linguistische Informatik
Zipfsches Gesetz: Beispiel
•
Deutscher Wortschatz:
Wortform
sich
rn
Rang r
1.680.106
10
16.801.060
197.502
100
19.750.200
Mio
36.116
500
18.059.500
Medien
19.041
1.000
19.041.000
Miete
3.755
5.000
18.775.000
vorläufige
1.664
10.000
16.640.000
immer
•
Häufigkeit n
Gilt Zipfsches Gesetz auch für Märchen „Ali-Baba und die 40
Räuber“?
Prof. Dr. G. Heyer
Modul Linguistische Informatik
18
Einführung Linguistische Informatik
Graphische Darstellung
Prof. Dr. G. Heyer
Modul Linguistische Informatik
19
Einführung Linguistische Informatik
Zipfsches Gesetz 2
George K. Zipf: Für natürliche Sprache gilt das „Principle of
Least Effort“.
Die am häufigsten gebrauchten
Wörter sind meist sehr kurze,
inhaltsleere Funktionswörter.
(vgl. Beispiel:
10 häufigste Wörter aus
Projekt Deutscher Wortschatz)
Prof. Dr. G. Heyer
Modul Linguistische Informatik
Wortform
Häufigkeit
der
7.377.879
die
7.036.092
und
4.813.169
in
3.768.565
den
2.717.150
von
2.250.642
zu
1.992.268
das
1.983.589
mit
1.878.243
sich
1.680.106
20
Einführung Linguistische Informatik
Textabdeckung
Wenn wir nur N
Wörter kennen,
welcher Anteil von
Text wird dadurch
abgedeckt?
Prof. Dr. G. Heyer
Modul Linguistische Informatik
N
Textabdeckung
(deutsch)
Textabdeckung
(englisch)
1
3%
5%
10
16 %
23 %
100
40 %
42 %
1.000
60 %
65 %
10.000
79 %
90 %
100.000
92 %
99 %
1.000.000
98 %
21
Einführung Linguistische Informatik
Anwendungen
• Differenzanalyse
• Abschätzung über Anzahl an Wortformen,
die n mal im Text vorkommen
• Abschätzung des Umfangs eines Vokabulars
• Abschätzung des Zuwachses eines Vokabulars,
wenn sich die Textmenge erhöht
• Analyse von Suchanfragen
• ... ... ...
Prof. Dr. G. Heyer
Modul Linguistische Informatik
22
Einführung Linguistische Informatik
Terminologie-Extraktion
• Fachtermini sind Wörter, die in Fachtexten einer Domäne (und
nur dort) wesentlich häufiger auftreten als in anderen Texten:
Prof. Dr. G. Heyer
Modul Linguistische Informatik
23
Einführung Linguistische Informatik
Differenzanalyse
Charakteristische Begriffe (einer Domäne)
Vergleiche die Häufigkeiten von Termen einer Domäne mit
den Häufigkeiten in einem allgemeinen Referenzwortschatz.
Diejenigen Terme, die im Fachwortschatz relativ zum
allgemeinen Wortschatz (nach einem festgelegten Schlüssel)
wesentlich häufiger vorkommen, sind wahrscheinlich
charakteristisch für die Domäne.
Prof. Dr. G. Heyer
Modul Linguistische Informatik
24
Einführung Linguistische Informatik
Differenzanalyse 2
Beobachtung: domänenspezifische Terme treten in Texten
dieses Fachgebiets häufiger auf, als in der allgemeinen Sprache
• Verwendung eines allgemeinen Korpus als reference
corpus R (in unserem Fall: Deutscher Wortschatz)
• Domänenspezifischer Text T als Grundlage der ATR
• Identifiziere Wortformen w die signifikant häufiger in T
als in R auftreten (cf. Witschel 2005, 2008)
Prof. Dr. G. Heyer
Modul Linguistische Informatik
25
Einführung Linguistische Informatik
Statistik der Termerkennung
Grundlage ist ein statistitischer Test:
•Null-Hypothese: Die Wahrscheinlichkeit eines Auftretens von
w ist gleich für T und R
•Schätze diese Wahrscheinlichkeiten als relative Häufigkeiten
von beiden Textkorpora (maximum likelihood estimate)
•Berechne das Maß der Überraschung, wenn diese Werte
unter der Null-Hypothese beobachtet werden.
Beispiel: Log-likelihood
k (logk  log   1)
sig ( w) 
log n
Prof. Dr. G. Heyer
Modul Linguistische Informatik
k  Häufigkeit von w in T
  np
n  Länge eines T extesT
p  relativeHäufigk. von w in R
26
Einführung Linguistische Informatik
Link für automatische Terminologie-Extraktion
ASV-Verfahren:
http://wortschatz.uni-leipzig.de/~fwitschel/terminology.html
Prof. Dr. G. Heyer
Modul Linguistische Informatik
27
Einführung Linguistische Informatik
Bedingte Wahrscheinlichkeit von Wortformen
Beobachtung:
Wahrscheinlichkeit für das Auftreten einer Wortform hängt im
Satz von allen vorangehenden Wortformen ab.
Bedingte Wahrscheinlichkeit P(wj|wj)
= Wahrscheinlichkeit für das Auftreten der Wortform wj, unter
der Voraussetzung, dass die Wortform wi aufgetreten ist.
Es gilt:
Prof. Dr. G. Heyer
Pw j | wi  
Modul Linguistische Informatik
Pwi , w j 
Pwi 
28
Einführung Linguistische Informatik
Wahrscheinlichkeit eines Satzes
Bi- und Trigramme
Beobachtung:
Beziehungen zwischen den Wortformen eines
Satzes stark lokal geprägt. Wortformen sind zu
Phrasen gruppiert.
• Wahrscheinlichkeit des Auftretens von Wortform wi stark von
restlichen Wortformen der gleichen Phrase, weniger stark von
Wortformen anderer Phrasen beeinflußt.
• Es genügt, die Wahrscheinlichkeit des Auftretens von
Wortformen zu approximieren. Nur wenige Vorgänger sind zu
berücksichtigen.
- ausreichend: Verwendung von lediglich 2 vorausgehenden Wortformen
- mehr Vorgänger bringen kaum mehr Genauigkeit, erhöhen jedoch
enorm den Rechenaufwand
Prof. Dr. G. Heyer
Modul Linguistische Informatik
29
Einführung Linguistische Informatik
Sprachstatistik
• Bi- und Trigramme bilden eine wichtige Grundlage
für viele Text Mining Ansätze
• Anwendungen insbesondere im Bereich
– Tagging
– Clustering
– Klassifikation
– Information/ Relation Extraction
Prof. Dr. G. Heyer
Modul Linguistische Informatik
30
Einführung Linguistische Informatik
Weiterführende Annahmen: Strukturalismus
Zwischen den Wörtern in einem Text bestehen zwei
grundlegende Beziehungen: syntagmatisch und
paradigmatisch
Ferdinand de Saussure (1916):
In einem System sprachlicher Zeichen (Laute, Morpheme,
Wörter usw.) stehen zwei Zeichen in syntagmatischer
Relation, wenn sie meist gemeinsam auftreten. Zwei Zeichen
stehen in paradigmatischer Relation, wenn sie meist in
ähnlichen Kontexten auftreten.
Prof. Dr. G. Heyer
Modul Linguistische Informatik
31
Einführung Linguistische Informatik
Syntagmatische und paradigmatische Relationen
Grundlegende semantische Zusammenhänge
bedeutungstragende Zeichen:
für
- Zwei Zeichen, die meist gemeinsam auftreten,
ergänzen sich funktional und inhaltlich (Nomen
„Sonne“ und Verb „scheinen“)
- Zwei Zeichen, die meist in ähnlichen Kontexten
auftreten, haben grammatikalisch und inhaltlich
eine ähnliche Funktion (Nomen „Sonne“ und
das sinnverwandte Nomen „Kerze“)
Prof. Dr. G. Heyer
Modul Linguistische Informatik
32
Einführung Linguistische Informatik
Beispiel
Ein kurz er Bei spiel satz würd e helf en.
Ein klein es Bei spiel wort wär e nütz lich.
Ein ander es Bei spiel wort könn te auch helf en.
Bestimmung globaler Kontexte
KG(satz)={er, e, spiel, helf, …}
KG(wort)={es, e, spiel, helf, …}
KG(könn)={es, te, auch, ander, …}
…
Generierung erster Hypothesen
SIM(satz, wort) ?
3
SIM(satz, könn) ?
0
SIM(wort, könn) ?
0
…
Prof. Dr. G. Heyer
Modul Linguistische Informatik
Ähnlichkeit über Schwellwert
PARA(satz, wort)
33
Einführung Linguistische Informatik
Lokaler Kontext
Es sei S eine Sprache mit einem nach Häufigkeit geordneten Vollformenlexikon
LS = {l1, l2, ... , ln}
Satz der Länge n aus S: w1, ..., wi, ..., wk, ..., wn mit wi  LS
Def. 1: Der lokale Kontext einer Wortform wi sei die Menge von Wortformen,
mit denen wi zusammen in einem Satz S auftritt.
Def. 2: Die Wortformen wi und wj stehen in syntagmatischer Relation
zueinander, wenn es mindestens einen lokalen Kontext gibt, der beide
Wortformen enthält.
Prof. Dr. G. Heyer
Modul Linguistische Informatik
34
Einführung Linguistische Informatik
Globaler Kontext
Def. 3: Zwei Wörter stehen in statistisch-syntagmatischer Relation,
wenn sie in syntagmatischer Relation stehen und dies statistisch
signifikant ist.
Def. 4: Der globale Kontext einer Wortform sei die Menge aller
Wortformen zu denen sie in statistisch-syntagmatischer Relation
steht.
Def. 5: Zwei Wortformen einer Sprache stehen in paradigmatischer
Relation, wenn die globalen Kontexte der Wortformen in Bezug
auf ein gegebenes Ähnlichkeitsmaß und einen vorher festgelegten
Schwellwert zueinander ähnlich sind.
Prof. Dr. G. Heyer
Modul Linguistische Informatik
35
Einführung Linguistische Informatik
Formalisierung Globaler Kontext
• Eine Annäherung an die allgemeine Bedeutung
(Semantik) einer konkreten Einheit ai kann nun mit
dem globalen Kontext KG(ai) formalisiert werden:
– KG(ai) ist die Menge der in beliebiger statistisch
syntagmatischer Relation SYNS stehender Einheiten mit ai
KG(ai) = {aj|SYNS(aj,ai)}
Prof. Dr. G. Heyer
Modul Linguistische Informatik
36
Einführung Linguistische Informatik
Formalisierung Globaler Kontext
• Daraus folgt Möglichkeit für einen Vergleich auf
semantische Ähnlichkeit:
– SIM(KG(ai),KG(aj) )
– denn wenn zwei verschiedene Wörter ähnliche Kontexte
besitzen, liegen relevante Gemeinsamkeiten zugrunde
• „Gemeinsamkeit“ ist als paradigmatische Relation
formalisierbar:
–
PARA(ai,aj)  SIM (KG(ai),KG(aj)) > t
Prof. Dr. G. Heyer
Modul Linguistische Informatik
37
Einführung Linguistische Informatik
Signifikanzmaße
• Gegeben Korpus mit n Sätzen
• Ein Wort A kommt nA mal vor, Wort B kommt nB mal
vor
• Jeder Satz ist ein Versuch, bei welchem A mit
anderen Wörtern B, C, … vorkommt
Gesucht ist Aussage darüber, ob gemeinsames
Vorkommen von Wort A mit B insgesamt nAB Mal im
gesamten Korpus statistisch signifikant ist.
Prof. Dr. G. Heyer
Modul Linguistische Informatik
38
Einführung Linguistische Informatik
Signifikanzmaße
Annahmen:
• Signifikanzmaß soll auch Signifikanzstärke liefern
– d.h. gesucht ist Aussage, ob z.B. nAB signifikanter als nAC ist
• Nicht gesucht ist Aussage, ob nAB signifikanter als nCD ist
– d.h. nur lokale Rankings wichtig
• Vereinfachende Annahme, dass jeder Satz von jedem anderen
unabhängig ist
• Ein Wort kommt nur einmal pro Satz vor
In der Literatur herrscht Uneinigkeit über die Wahl des
‘richtigen’ Signifikanz- und Ähnlichkeitsmaßes
Prof. Dr. G. Heyer
Modul Linguistische Informatik
39
Einführung Linguistische Informatik
Signifikanzmaße
Wahrscheinlichkeit für gemeinsames Auftreten
nA, nB
nAB
nges
Anzahl der Sätze, die A bzw. B enthalten
Anzahl der Sätze, die A und B enthalten
Gesamtzahl der Sätze
Tanimoto-Ähnlichkeit
(Anteil der Doppeltreffer bzgl. Anteil der Einzeltreffer)
simT(A,B) = nAB / (nA+nB-nAB)
Mutual information
(Abweichung von der statistischen Unabhängigkeit)
i(A,B) = log(nAB nges / (nA nB)) [= log(pAB / (pA pB))]
Poisson Maß
(Wahrscheinlichkeit simultaner seltener Ereignisse)
x = nA nB / nges
sig(A,B) = x – nAB log x + log nAB! (für 2,5x< nAB )
Prof. Dr. G. Heyer
Modul Linguistische Informatik
40
Einführung Linguistische Informatik
Graf für „Reis“
Prof. Dr. G. Heyer
Modul Linguistische Informatik
41
Einführung Linguistische Informatik
Literaturempfehlung
Statistische und musterbasierte Textanalyse
(Text Mining)
– Sprachstatistik
– Clustering, Klassifikation
– Musteranalyse, Bootstrapping
Prof. Dr. G. Heyer
Modul Linguistische Informatik
42