Automatische Erweiterung eines semantikbasierten Lexikons durch Bootstrapping auf großen Korpora Chris Biemann Universität Leipzig Rainer Osswald FernUniversität Hagen 1.

Download Report

Transcript Automatische Erweiterung eines semantikbasierten Lexikons durch Bootstrapping auf großen Korpora Chris Biemann Universität Leipzig Rainer Osswald FernUniversität Hagen 1.

Automatische Erweiterung eines
semantikbasierten Lexikons durch
Bootstrapping auf großen Korpora
Chris Biemann
Universität Leipzig
Rainer Osswald
FernUniversität Hagen
1. April 2005
GLDV-05 Frühjahrstagung, Bonn
1
Gliederung
• Motivation: Lexikonerweiterung für semantisches Parsen
• Von Kookkurrenzen zu Adjektivprofilen von Nomen
• Verebungsmechanismus für semantische Eigenschaften
• Ergebnisse: komplexe semantische Klassen
• Ergebnisse: Kombination von binären Einzelmerkmalen
• Diskussion
2
Motivation
• Semantisches Parsen versucht, eine semantische
Repräsentation für geparste Sätze zu finden
• Notwendig hierzu sind semantische Eigenschaften von
Wörtern
• Diese semantischen Eigenschaften werden manuell in ein
Lexikon codiert (zeitaufwändig und teuer)
• Hypothese: Gegeben ein manuell erstelltes Lexikon
mittlerer Größe sollte es möglich sein, Klassifizierer zu
trainieren, die neue Einträge findne können.
3
HaGenLex: Semantisches Lexikon
Größe: 22‘700 Lemmas
davon: 11‘300 Nomen, 6‘700 Verben
semantic class
WORT
Aggressivität
Agonie
Agrarprodukt
Ägypter
Ahn
Ahndung
Ähnlichkeit
Airbag
Airbus
Airport
Ajatollah
Akademiker
Akademisierung
Akkordeon
Akkreditierung
Akku
Akquisition
Akrobat
...
SEMANTISCHE KLASSE
nonment-dyn-abs-situation
nonment-stat-abs-situation
nat-discrete
human-object
human-object
nonment-dyn-abs-situation
relation
nonax-mov-art-discrete
mov-nonanimate-con-potag
art-con-geogr
human-object
human-object
nonment-dyn-abs-situation
nonax-mov-art-discrete
nonment-dyn-abs-situation
ax-mov-art-discrete
nonment-dyn-abs-situation
human-object
4
...
Semantische Klassen in
HaGenLex
Insgesamt 50 semantische Klassen für Nomen werden
gebildet aus erlaubten Kombinationen von
• 16 semantischen Features (binär): HUMAN+, ARTIFICIAL• 17 ontologischen Sorten, z.B. concrete, abstract-situation...
Sorte (Hierarchie)
semantische Features
semantische Klassen
5
Anwendung: WOCADI-Parser
„Welche Bücher von Peter Jackson über Expertensysteme
wurden bei Addison-Wesley seit 1985 veröffentlicht?“
6
Annahmen
• Harris 1968: Distributional Hypothesis
Semantische Ähnlichkeit ist eine Funktion über globale
Kontexte von Wörtern. Je ähnlicher die Kontexte, desto
ähnlicher die Wörter
• Dies projiziert auf Nomen und Adjektive: Nomen mit
denselben semantischen Klassen werden typischerweise
von denselben Adjektiven modifiziert
• Die Nachbarschaftskookkurrenzbeziehung zwischen
Adjektiven (links) und Nomen (rechts) approximiert
typische Head-Modifier-Strukturen
7
Nachbarschaftskookkurrenzen und
-profile
• Signifikante Kookkurrenzen spiegeln Relationen zwischen
Wörtern wieder. Um zu ermitteln, welche Kookkurrenzen
(gemeinsame Auftreten) signifikant sind, wird ein
Signifikanzmaß benötigt (hier log-likelihood)
• Im Folgenden werden Adjektive, die signifikant häufig (sprich
typischerweise) links von Nomen auftreten, sowie Nomen, die
signifikant rechts von Adjektiven auftreten
• Die Menge on Adjektiven, die signifikant häufig links von
Nomen beobachtet werden, heisst Adjektivprofil des Nomens
(Analog: Nomenprofil für Adjektive)
• Für Experimente benutzen wir den Deutschen Korpus Version
2003 des „Projekt Deutscher Wortschatz“, 500 Millionen
Tokens
8
Beispiel Nachbarschaftsprofile
... von ganz erlegten Käsebüchern
Wort
Adjektiv- bzw. Substantivprofil
Buch
neu, erschienen, erst, neuest, jüngst, gut, geschrieben, letzt, zweit, vorliegend,
gleichnamig, herausgegeben, nächst, dick, veröffentlicht, ...
Käse
gerieben, überbacken, kleinkariert, fett, französisch, fettarm, löchrig,
holländisch, handgemacht, grün, würzig, selbstgemacht, produziert, schimmelig,
Camembert
gebacken, fettarm, reif
überbacken
Schweinesteak, Aubergine, Blumenkohl, Käse
erlegt
Tier, Wild, Reh, Stück, Beute, Großwild, Wildkatzen, Büffel, Rehbock, Beutetier,
Wal, Hirsch, Hase, Grizzly, Wildschwein, Thier, Eber, Bär, Mücke,
ganz
Leben, Bündel, Stück, Volk, Wesen, Vermögen, Herz, Heer, Arsenal, Dorf, Land,
Können, Berufsleben, Paket, Kapitel, Stadtviertel, Rudel, Jahrzehnt, ...
Datenbasis: grundformreduzierte Nachbarschaftskookkurrenzen.
Umfang: 125‘000 Substantive, 25‘000 Adjektive
9
Vererbungsmechanismus
Welche Klasse
bekommt S4 im
nächsten Schritt?
Algorithmus:
Initialisieren der Adjektiv- und Substantivprofile;
Initialisieren der Startmenge;
Solange noch neue Substantive klassifiziert werden {
Berechnung der Klassenwahrscheinlichkeiten der Adjektive;
Für alle noch unklassifizierten Substantive s {
Multipliziere die Klassenwahrscheinlichkeit für jede Klasse;
Weise die Klasse mit der höchsten Wahrscheinlichkeit s zu;
}
}
Klassenwahrscheinlichkeiten
pro Adjektiv:
• Zähle Klassenanzahlen
• Normiere auf Anteil der
Klasse in bekannten
Substantiven
• Normiere auf 1 10
Beispiel: Topf
Klassenanzahlen für Adjektive:
angebrannt: {nat-substance=1, art-substance=1, ax-mov-art-discrete=1}
Suppe
Zigarette
Milch nat-substance
zerbeult:
{nonmov-art-discrete=1, mov-nonanimate-con-potag=2, nonax-mov-art-discrete=1, ax-mov-art-discrete=3}
Wagen, Auto
Fahrzeug, Mountainbike, Posaune
Mantel
Dach
irden:
nonax-mov-art-discrete
art-con-geogr
ax-mov-art-discrete
{ax-mov-art-discrete=1, prot-discrete=1}
Fuß
Gefäß
übervoll:
mov-nonanimate-con-potag
ax-mov-art-discrete
nonax-mov-art-discrete
nonmov-art-discrete
{art-con-geogr=1, nonax-mov-art-discrete=1, ax-mov-art-discrete=9}
Schal
Hafen
Teller, Flasche, Schüssel, Becher, Geschirr, Vase, Krug, Gefäß, Napf
tönern:
art_substance
ax-mov-art-discrete
prot-discrete
ax-mov-art-discrete
{nonmov-art-discrete=3, art-con-geogr=1, nonment-dyn-abbs-situation=1, nonax-mov-art-discrete=1}
Zimmer, Saal, Lager
Stall
Vorlesung
Tablett
nonmov-art-discrete
art-con-geogr
nonment-dyn-abs-situation
nonax-mov-art-discrete
Adjektivprofil von Topf = ax-mov-art-discrete:
angebrannt(X) heiß(-) ehern(-) fremd(-) divers(-) zerbeult(X) brodelnd(-) staatlich(-) gußeisern(-) tönern(X)
gemeinsam(-) groß(-) irden(X) verschieden(-) verschlossen(-) anonym(-) rund(-) flach(-) Bremer(-) geschlossen(-)
passend(-) gesondert(-) andere(-) riesig(-) Golden(-) eisern(-) europäisch(-) viel(-) öffentlich(-) mehr(-) golden(-)
leer(-) klein(-) getrennt(-) möglich(-) speziell(-) übervoll(X) dampfend(-) gleich(-) gefüllt(-)
Klassenwahrscheinlichkeiten (unnormiert):
{mov-nonanimate-con-potag=2.8E-25, ax-mov-art-discrete=5.8E-8, art-con-geogr=1.5E-20,
nonax-mov-art-discrete=2.1E-15, nat-substance=3.3E-25, nonment-dyn-abs-situation=1.6E-25,
prot-discrete=5.0E-25, art-substance=3.3E-25, nonmov-art-discrete=7.1E-20}
11
Parameter
• Mindestanzahl Adjektive: minAdj
Ein Substantiv wird erst dann klassifiziert, wenn
mindestens minAdj klassifizierende Adjektive vorhanden
sind
Vermeidung von statistischem Rauschen und
Häufigkeitsschwelle.
• Maximalanzahl Klassen für Adjektive: maxClass
Ein Adjektiv wird nur dann zum Klassifizieren verwendet,
wenn es für höchstens maxClass verschiedene Klassen
spricht
unspezifische Adjektive können Ergebnis nicht verzerren
12
Datenbasis Experimente
Verteilung der semantischen Klassen (gesamt: 6045)
nonment-dyn-abs-situation
human-object
prot-theor-concept
nonoper-attribute
ax-mov-art-discrete
nonment-stat-abs-situation
animal-object
nonmov-art-discrete
ment-stat-abs-situation
nonax-mov-art-discrete
tem-abstractum
mov-nonanimate-con-potag
art-con-geogr
abs-inf o
art-substance
nat-discrete
nat-substance
prot-discrete
nat-con-geogr
prot-substance
mov-art-discrete
meas-unit
oper-attribute
institution
ment-dyn-abs-situation
plant-object
mov-nat-discrete
con-inf o
con-geogr
con-object
animate-object
prot-method
dyn-abs-situation
object
nonmov-nonanimate-con-potag
abs-geogr
stat-abs-situation
modality
relation
con-potag
prot-con-object
nonmov-nat-discrete
noninstit-abs-potag
thc-relation
nonanimate-con-potag
abs-situation
abs-potag
13
Davon erfüllen 4726 Substantive minAdj=5, d.h. maximaler Recall=78,2%
Ergebnisse globaler Klassifikator
• Klassifiziert wurde direkt nach semantischer Klasse
• Verschiedene Messpunkte entsprechen Parameterbelegungen
minAdj in {5,10,15,20}, maxClass in {2, 5, 50}
• Ergebnisse zu schlecht
Recall
Precision/Recall für globalen
Klassifikator
1
0,9
0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0
0
0,2
0,4
0,6
Precision
0,8
1
14
Einzelklassifikatoren
Architektur: Binäre Klassifikatoren für Einzelmerkmale, dann
zusammenführen. Parameter: minAdj=5, maxClass=2
ANIMAL +/ANIMATE +/ARTIF +/AXIAL +/... (16 Stück)
ab +/abs +/ad +/as +/... (17 Stück)
Auswahl:
Kompatible
semantische
Klassen,
die minimal bzgl.
Hierarchie sind,
sowie eindeutig.
Ergebnisklasse
oder
Verweigern
15
Evaluation semantische Features
Anzahl
+
-
Bias
method
6004
12
5992
0,0020
instit
6032
39
5993
0,0065
mental
9008
162
8846
0,0180
info
6015
119
5896
0,0198
animal
5995
143
5852
0,0239
geogr
6015
188
5827
0,0313
thconc
6028
518
5510
0,0859
instru
5932
969
4963
0,1634
human
5995
1313
4682
0,2190
legper
6009
1352
4657
0,2250
animate
6010
1505
4505
0,2504
potag
6015
1664
4351
0,2766
artif
5864
2204
3660
0,3759
axial
5892
2260
3632
0,3836
movable
5827
2345
3482
0,4024
spatial
6033
2910
3123
0,4823
Precision/Recall vs. Bias
semantische Merkmale
total Prec,
Prec +,
total Rec,
Rec +
1,00
Precision/Recall
Name
0,80
0,60
0,40
0,20
0,00
0,00
0,10
0,20
0,30
0,40
0,50
Bias Datenbasis
• Für Bias >0,05 gute bis sehr gute Precision
• Precision gesamt: 93,8% (86,8% für Eigenschaft +)
• Recall gesamt: 70,7% (69,2% für Eigenschaft +)
16
Evaluation ontologische Sorten
Anzahl
+
-
Bias
re
6033
7
6026
0,0012
mo
6033
8
6025
0,0013
o-
6033
5994
39
0,0065
oa
6045
41
6004
0,0068
me
6045
41
6004
0,0068
qn
6045
41
6004
0,0068
ta
6033
107
5926
0,0177
s
6010
224
5786
0,0373
as
6031
363
5668
0,0602
na
6033
411
5622
0,0681
at
6033
450
5583
0,0746
io
6033
664
5369
0,1101
ad
6031
1481
4550
0,2456
abs
6033
1846
4187
0,3060
d
6010
2663
3347
0,4431
co
6033
2910
3123
0,4823
ab-
6033
3082
2951
0,4891
Precision/Recall vs. Bias
ontologische Sorten
total Prec,
Prec +,
total Rec,
0,20
0,30
Rec +
1,00
Precision/Recall
Name
0,80
0,60
0,40
0,20
0,00
0,00
0,10
0,40
0,50
Bias Datenbasis
• Für Bias >0,10 gute bis sehr gute Precision
• Precision gesamt: 94,1% (89,5% für Eigenschaft +)
• Recall gesamt: 73,6% (69,6% für Eigenschaft +)
17
Eval. komplexe sem. Klassen
nonment-dyn-abs-situation
human-object
prot-theor-concept
nonoper-attribute
ax-mov-art-discrete
nonment-stat-abs-situation
animal-object
nonmov-art-discrete
ment-stat-abs-situation
nonax-mov-art-discrete
tem-abstractum
mov-nonanimate-con-potag
art-con-geogr
abs-info
art-substance
nat-discrete
nat-substance
prot-discrete
nat-con-geogr
prot-substance
mov-art-discrete
meas-unit
oper-attribute
Institution
ment-dyn-abs-situation
plant-object
mov-nat-discrete
con-info
Rest
Anz.
1421
1313
516
411
362
226
143
133
126
108
107
98
96
94
88
88
86
73
63
50
45
41
39
39
36
34
27
25
157
Prec
Rec
89,19
34,27
96,82
69,54
53,71
0,00
55,64
36,84
100,0
57,41
51,28
31,48
96,77
70,45
58,70
42,31
60,47
100,0
57,14
100,0
65,00
100,0
100,0
90,91
0,00
0,00
0,00
100,0
22,22
40,00
39,24
18,22
0,00
40,88
6,19
26,57
23,31
15,87
15,74
28,04
31,63
28,12
11,70
29,55
31,82
9,30
57,53
20,63
40,00
37,78
24,39
0,00
0,00
0,00
8,82
22,22
8,00
19,75
Precision/Recall in % vs. Anzahl
semantische Klassen
%Recall
%Precision
100
80
Precision/Recall in %
Klasse
60
40
20
0
0
250
500
750
1000
1250
1500
Anzahl in Trainingsm enge
• Aussage für Bias schwierig
• Precision gesamt: 80,2%
18
• Recall gesamt: 34,2%, es wurden 6649 neue Substantive klassifiziert
Einige Fehler
Pflanze animal-object anstatt plant-object
zart, fleischfressend, fressend, verändert, genmanipuliert, transgen, exotisch, selten, giftig, stinkend,
wachsend...
Nachwuchs human-object anstatt animal-object
wissenschaftlich, qualifiziert, akademisch, eigen, talentiert, weiblich, hoffnungsvoll, geeignet, begabt,
journalistisch...
Café art-con-geogr anstatt nonmov-art-discrete (vgl. Restaurant)
Wiener, klein, türkisch, kurdisch, romanisch, cyber, philosophisch, besucht, traditionsreich, schnieke,
gutbesucht, ...
Neger animal-object anstatt human-object
weiß, dreckig, gefangen, faul, alt, schwarz, nackt, lieb, gut, brav
aber:
Skinhead human-object (richtig)
{16,17,18,19,20,21,22,23,30}ährig, gleichaltrig, zusammengeprügelt, rechtsradikal, brutal
Wegen zu weniger Adjektive zurückgewiesen:
Leberkäse human-object
bayerisch, warm
19
Ausblicke
• ‚Schwierigste‘ semantische Klasse: nonoper-attribute
z.B. Anfälligkeit, Angemessenheit, Ängstlichkeit, Beiläufigkeit, da typische
Adjektive zu unspezifisch:
erhöht, besonders, gering, hoch, extrem, größer, notorisch, gewisse, übertrieben, völlig,
stärker, übergroß, scheinbar, bedingt ....,
jedoch enden die meisten auf {k|h}eit....
• Andere syntaktische Beziehungen ausnutzen
• Polyseme Wörter behandeln:
- Disambiguierung: Mehrere Adjektivprofile pro
Substantiv
- Vereinigung von Substantivnachbarn
eigenschaftsspezifischer Adjektive können Hinweise auf
mehrere Klassen liefern
20
Fragen?
Danke für die Aufmerksamkeit!
21