Token-Annotation in FOLK

Download Report

Transcript Token-Annotation in FOLK

Mitglied der Leibniz-Gemeinschaft
Token-Annotation im
FOrschungs- und LehrKorpus
Gesprochenes Deutsch
Thomas Schmidt, IDS Mannheim
[email protected]
Mitglied der Leibniz-Gemeinschaft
FOLK
• Forschungs- und Lehrkorpus gesprochenes Deutsch
• Großes, breit stratifiziertes, computergestützt verarbeitbares,
öffentlich verfügbares Korpus deutscher Gespräche
• Seit 2008 am IDS
• Erstes offizielles Release: Dezember 2012 als Bestandteil der
Datenbank Gesprochenes Deutsch (DGD2)
• Anfang 2014: Ca. 100h Audio-Aufnahmen, ca. 1 Millionen
transkribierte Wort-Tokens
• Weiter im Aufbau
Mitglied der Leibniz-Gemeinschaft
Gliederung
• (semi-)automatisierte Normalisierung
literarischer Umschrift in FOLK
–
–
–
–
Literarische Umschrift
Orthographische Normalisierung
Automatisierung / Evaluation
Verbesserungsmöglichkeiten
• (semi-)automatisiertes POS-Tagging von
Transkriptionen
Mitglied der Leibniz-Gemeinschaft
Literarische Umschrift
= „Repräsentation von Mündlichkeit, so wie in der (schönen) Literatur üblich“
• „Sei glöcklich, du gutes Kend“ [Sesemi Weichbrodt, Buddenbrooks]
• Zwirner/Bethge (1958): Deutsche Mundarten
• Ehlich/Rehbein (1976): Halbinterpretative Arbeitstranskriptionen
• Selting et. al. (1998): Gesprächsanalytisches Transkriptionssystem
• „Modified Orthography“, „Eye dialect“, „Orthographe adaptée“
• „I wuz de on‘y one dat had much. So I stuck out for mo‘ dan fo‘ dollars, en
I said […]“
[Jim, Adventures of Huckleberry Finn]
• „b'jour“, „chais pas“ [Convention ICOR, CLAPI Lyon]
Mitglied der Leibniz-Gemeinschaft
Literarische Umschrift
Mitglied der Leibniz-Gemeinschaft
Literarische Umschrift
•
•
•
•
•
Ellisionen
Verschleifungen
Assimilationen
dialektale Färbungen
generelle Kleinschreibung
Mitglied der Leibniz-Gemeinschaft
Literarische Umschrift
• Warum nicht Standardorthographie?
– relevante Charakteristika der Mündlichkeit
– (hist.) visuelle Abgrenzung von geschriebenem
Text
• Warum nicht phonetische Umschrift?
– Arbeitsökonomie
– Zugänglichkeit / Lesbarkeit
– Verlust morphologischer/lexikalischer Systematik
Mitglied der Leibniz-Gemeinschaft
Literarische Umschrift
• „Bewusstes Abweichen von schriftsprachlichen Standards“
• Regelgeleitet?
– „Von der Orthographie soll […] abgewichen werden, wo der gesprochene Laut
durch einen anderen Buchstaben […] besser wiedergegeben wird“
[Zwirner/Bethge 1958]
– standardsprachliche Realisierungen  Standardorthographie,
– nicht-standardsprachliche Realisierungen  literarische Umschrift
– „[…] abweichende Ausdrücke werden […] nachgebildet, wenn sie vereinzelt
auftreten […], allgemein verbreitete Phänomene […] werden nicht notiert“
[Rehbein et al. 1993]
– Beispiellisten bei HIAT, GAT, Verbmobil
– (süddeutsch) [lustik]  lustig? lustick? lustik?
– (norddeutsch) [stain]  ???
Mitglied der Leibniz-Gemeinschaft
Warum normalisieren?
• Vorhersagbarkeit bei Suchen
– nein, nee, na, ne, neeh, nehee, nö, näh, nää
– bleibsch, bleibscht, gebliewe, gebliwwe
• Anwendung von NLP-Methoden
– Lemmatisierung
– POS-Tagging
– syntaktische Annotation etc.
Mitglied der Leibniz-Gemeinschaft
FOLK-Annotationsebenen
Transkription
da
gehst
de
jetz
einfach
über
dem
bild
Normalisierung
da
gehst
du
jetzt
einfach
über
dem
Bild
Lemmatisierung
da
gehen
du
jetzt
einfach
über
d
Bild
POS
ADV
VFIN
PPER
ADV
ADJD
APPR
ART
NN
Maskierung
2h-10h
Transkription / Kontrolle
Korrekturen
30h-80h
Normalisierung
• Effektivierung des Workflows:
 Beschleunigung
 Vereinfachung
1h-3h
POS-Tagging
2h-4h
Mitglied der Leibniz-Gemeinschaft
Normalisierungsregeln
• „Interpretationsarme Annäherung an Standardorthographie“
• Normalisierung auf Ebene von Lexikon und Morphosyntax, keine
syntaktischen oder stilistischen Korrekturen
• Orientierung am DUDEN, bei gleichberechtigten Schreibweisen (Spaghetti
vs. Spagetti)  redaktionell bevorzugte Varianten
• Explizite Regelungen für
– Interjektionen: Häsitationen, Rezeptionssignale, Frageanhängsel etc.
– Unvollständige Formen: (rekonstruierbare vs. nicht rekonstruierbare) Abbrüche,
fragmentierte Wörter
– Umgangssprachliche Verkürzungen
– …
• Diskussion und Dokumentation von Einzelfallentscheidungen 
Konsistenz
Mitglied der Leibniz-Gemeinschaft
Normalisierungsregeln
• Zweifelsfälle
– Rekonstruktion von Abbrüchen
– Kontraktionen
•
•
•
•
hammers  haben wir es
kannst  kannst Du?
durchs  durch das
zum  zu dem?
[ugs.]? / Frequenz?
Mitglied der Leibniz-Gemeinschaft
Evaluation
•
•
•
•
22 manuell normalisierte Transkriptionen aus FOLK
61.495 Wort-Tokens, 6.219 Wort-Types
Quote: Ø29.89% / max. 42.45% / min. 20.93%
Häufige Typen:
– Klein-  Großschreibung: 12.99%
– Ergänzung / Klassifizierung unvollständiger Formen: 6.49%
– Häsitation (ähm  äh): 1.46%
• 18 Trainings- / 4 Evaluationsdaten
Mitglied der Leibniz-Gemeinschaft
Automatisierung
• Lexikonbasiert
– Transkribierte Form W mehr als n-mal zu Form W‘
normalisiert  Zuweisung von Form W‘
– Nur großgeschriebene Variante in DeReWo 
Großschreibung
Mitglied der Leibniz-Gemeinschaft
Automatisierung
Schwellenwert
1
5
10
50
100
•
•
•
•
Precision
86.76%
87.81%
87.89%
92.53%
91.75%
Recall
84.14%
77.50%
74.30%
61.70%
53.88%
Error
17.80%
16.67%
16.41%
11.89%
12.71%
höhere Präzision  inakzeptabler Recall
deutliche Erleichterung der manuellen Korrektur
mehr Lexikondaten  Erhöhung von Precision und Recall?
keine Annäherung an 100%
Mitglied der Leibniz-Gemeinschaft
Phänomenologie: Lexikon
• Eindeutige Fälle
• Mehrdeutige Fälle
heut
mein mein
115
meine
39
meinen
2
meiner
1
frag
heute
67
frage
19
sache Sache
19
frag
2
sagen
Frage
1
Sachen
ma
hallgewersignal
Hallgebersignal
a a
3
mal
280
109
16
man
221
ah
1
wir
123
auch
8
%
3
aber
7
#
2
an
5
ma
2
ach
2
mir
2
acht
2
Mama
1
also
2
mach
1
abgestanden
1
machen
1
akut
1
meinst
1
alles
1
als
1
17
Mitglied der Leibniz-Gemeinschaft
Phänomenologie: Lexikon
• Regelmäßigkeiten
abbaue
abbauen
2
abzieh
abziehe
2
abgezoge
abgezogen
2
akzeptier
akzeptiere
1
abklopfe
abklopfen
2
all
alle
1
absetze
absetzen
1
anfang
anfange
1
abstelle
abstellen
1
anhab
anhabe
1
abwende
abwenden
1
aufmach
aufmache
1
abziehe
abziehen
1
bau
baue
1
achte
achten
1
bedank
bedanke
1
alte
alten
1
behandel
behandele
1
andere
anderen
3
beinah
beinahe
1
anfange
anfangen
1
bekomm
bekomme
1
angebe
angeben
1
bereu
bereue
1
angesproche
angesprochen
1
bestell
bestelle
3
anrufe
anrufen
1
besuch
besuche
1
bleib
bleibe
2
brauch
brauche
33
Mitglied der Leibniz-Gemeinschaft
Phänomenologie: Lexikon
• Ähnlichkeiten
abber
ankucken
gsagt
hintn
isch
odder
sauwer
schaun
spieln
verdrehn
warn
widder
würdst
zusammenarbeiden
zusammengearbeidet
aber
angucken
gesagt
hinten
ich
oder
sauber
schauen
spielen
verdrehen
waren
wieder
würdest
zusammenarbeiten
zusammengearbeitet
(Levenshtein-Distanz)
ansonschten
aufgawestellung
besserwischerisch
blätterteigstücksche
eklichem
gescheüber
geschtern
hihänge
karteikarde
linsensup
näkschten
runnergugge
spätdiensch
wollis
ansonsten
Aufgabenstellung
besserwisserisch
Blätterteigstückchen
ekligem
gegenüber
gestern
hinhängen
Karteikarten
Linsensuppe
nächsten
runtergucken
Spätdienst
Wallace
(Phonetische Distanz)
Mitglied der Leibniz-Gemeinschaft
Phänomenologie: Fehler
kann s
un
losgehn
es
losgehen
es
∅
also ihr sollt
jetzt
bis zur
auch
höhe des toasters bei dem bildrand des toasters n
und
gehst du
zu der Höhe
und
gehst du
zu der Höhe das ∅
da so n
ganz normal reden
auch
sollte
dann gehste
au
Toasters
mann mit n
stück
fleisch
ein
Mann
einem
Stück
Fleisch
ein
Mann
ein
Stück
Fleisch
watte ma
watte
ma
warte
mal
warte
mal
Watte mal
Watte
mal
wo
soll ich
lang
Bildrand
Toasters ein
Bildrand das ∅
ein
stückchen
Stückchen
Stückchen
Mitglied der Leibniz-Gemeinschaft
Verbesserung der automatischen Normalisierung
• Ermittlung von Kandidaten (Recall)
– Abgleich mit bereits normalisierten Formen
– Abgleich mit Wortliste (DeReWo)
• Ermittlung von möglichen Normalisierungen
– aus bereits normalisierten Formen
– ähnliche Formen aus Wortliste
– (Regeln: n-Ellision, e-Ellision)?
• Entscheidung zwischen Alternativen (Precision)
– einfache Häufigkeiten aus FOLK
– einfache Häufigkeiten aus anderen Korpora?
– (kombinatorische Häufigkeiten)?
Mitglied der Leibniz-Gemeinschaft
FOLK-Lexikon
Transkribierte
Form
Bereits
normalisiert?
nein
DeReWo etc.
In Wortliste?
ja
keine Normalisierung
nein
ja
Normalisierte Form(en)
Häufigkeit in FOLK
Ähnliche Form(en)
Häufigkeit in DeReKo
Kandidatenliste
n-gram-Häufigkeiten?
Auswahl
Normalisierte
Form
Manuelle Korrektur
(OrthoNormal)
Mitglied der Leibniz-Gemeinschaft
Effektivierung der manuellen Korrektur
Mitglied der Leibniz-Gemeinschaft
Test: POS-Tagging
• TreeTagger / STTS / „Default“-Parameterdatei
• 3 manuell korrigierte Transkripte aus
Testdatensatz
• Fehlerquoten:
Transkript1
literarische Umschrift
Transkript2
Transkript3
normalisiert
33.22%
18.79%
29.96%
18.62%
31.33%
19.5%
(optimiert)
13.38%
11.52%
16.13%
8.7%
7.5%
11.9%
(vereinfacht)
Gesamt
31.39%
18.84%
Mitglied der Leibniz-Gemeinschaft
POS-Tagging: aktuelle Arbeiten
• Erweiterung/Anpassung des STTS-Tagsets:
– Interaktive Einheiten: Responsive, Interjektionen
– Partikeln
– Koordiniert mit STTS-Workshops / Arbeiten zu IBK
• Erstellen eines Trainings- und Evaluationskorpus
• Neu-Training des TreeTaggers / andere Tagger (?)
 Westpfahl/Schmidt (2013): POS für(s) FOLK. In: JLCL.
Mitglied der Leibniz-Gemeinschaft
Zusammenfassung
• Brauchbare Automatisierung durch lexikonbasierte Verfahren
• Annäherung an 100% vorerst nicht realistisch
• Weitere Verbesserungen möglich durch
–
–
–
–
größere/andere Lexika
Ermitteln ähnlicher Formen als Kandidaten
verfeinerte Methoden zur Auswahl des besten Kandidaten
Effektivierung manueller Korrektur
Mitglied der Leibniz-Gemeinschaft
Ausblick
• „Anwenderbedarf“
– Sprachtechnologie/Ressourcen zur Verbesserung der
Normalisierung?
• Ähnliche Wörter (phonetische, orthographische Distanz)
• N-gramm-Methoden
• „Support“
– Web-Service „Normalisierung“?
– OrthoNormal für IBK-Daten (Dortmunder Chat-Korpus)?
– WebLicht für Transkriptionen?