Entwicklung eines Werkzeugs zur Online Textanalyse und -klassifikation Magisterarbeit im Studiengang Linguistische Informatik

Download Report

Transcript Entwicklung eines Werkzeugs zur Online Textanalyse und -klassifikation Magisterarbeit im Studiengang Linguistische Informatik

Entwicklung eines Werkzeugs zur
Online Textanalyse und -klassifikation
Magisterarbeit
im Studiengang Linguistische Informatik
(Magister Artium)
Magisterarbeit: Entwicklung eines Werkzeugs zur Online Textanalyse und –klassifikation
Inhaltsübersicht
1.
2.
3.
4.
5.
26.11.08
Einleitung und Übersicht
Demonstration der Textmühle
Theoretische Überlegungen
Aufbau und Struktur der Textmühle
Fazit
Nicolas Goessnitzer
2
Magisterarbeit: Entwicklung eines Werkzeugs zur Online Textanalyse und –klassifikation
1.
Einleitung und Übersicht
–
Wofür wird die Textmühle eingesetzt?
•
Verarbeitung von Texten und Korpora
–
–
–
–
•
Statistische Berechnungen
–
–
–
–
26.11.08
Konvertierung von Dateiformaten
Erstellung von Wort- und Frequenzlisten
Morphologische Analysen (mit malaga, bzw. jslim)
kontrollierte Erstellung von Korpora
Verteilungen von Domänen eines Korpus
Wortanzahlen in Texten und Domänen
Type/Token-Verteilungen
Klassifikation / Clusteranalyse
Nicolas Goessnitzer
3
Magisterarbeit: Entwicklung eines Werkzeugs zur Online Textanalyse und –klassifikation
1.
Einleitung und Übersicht
Übersicht zu den Dateiformaten im WWW
Berücksichtigung bei Textmühle
26.11.08
Nicolas Goessnitzer
4
Magisterarbeit: Entwicklung eines Werkzeugs zur Online Textanalyse und –klassifikation
1.
Einleitung und Übersicht
Übersicht zu den Dateiformaten im WWW
26.11.08
Nicolas Goessnitzer
5
Magisterarbeit: Entwicklung eines Werkzeugs zur Online Textanalyse und –klassifikation
1.
Einleitung und Übersicht
–
Was sind die wesentlichen Merkmale der Textmühle?
•
•
•
•
•
•
•
26.11.08
Zugriff über das Internet
Verarbeitung der Anforderungen erfolgt auf dem Server
Programmierung in einer „offenen“ Programmiersprache (PHP)
Keine Abhängigkeit vom Betriebssystem des Benutzers
Leichter Zugang zu Daten und Bearbeitungsprozeduren
Keine umständliche Installation und Konfiguration für den Nutzer
Zusammenarbeit mit anderen Applikationen im WWW
Nicolas Goessnitzer
6
Magisterarbeit: Entwicklung eines Werkzeugs zur Online Textanalyse und –klassifikation
1.
Demonstration
–
–
–
Verarbeitung eines Korpus anhand einer Beispielkollektion
Analyseergebnisee des Testkorpus wifi
Der Ablauf der Verarbeitungsschritte:
•
•
•
•
•
•
26.11.08
Import
Konvertierung
Filter
Frequenzliste
Morphologie
Clusteranalyse
Nicolas Goessnitzer
7
Magisterarbeit: Entwicklung eines Werkzeugs zur Online Textanalyse und –klassifikation
1.
Demonstration
26.11.08
Nicolas Goessnitzer
8
Magisterarbeit: Entwicklung eines Werkzeugs zur Online Textanalyse und –klassifikation
1.
Theoretische Überlegungen
3.1 Basiselemente Linguistischer Analysen
–
–
–
Term - Wort, Wortform, Grundform, Morphem und Allomorph
Text
Korpus
Praktischer Analyseansatz zur Tokenisierung:
Das Wort ist eine sprachliche Einheit,
die in der geschriebenen Sprache durch Leerstellen begrenzt ist.
Herbst, Stoll, u. Westermayr (1991, S. 79, Definition 317)
Pragmatische Definition von Text und Korpus:
Der Terminus “Text“ bezeichnet eine begrenzte Folge von sprachlichen
Zeichen […]
Brinker (2005, S.17f)
Ein Korpus ist eine Sammlung schriftlicher oder gesprochener Äußerungen
in einer oder mehreren Sprachen […]
Lemnitzer u. Zinsmeister (2006, S. 40)
26.11.08
Nicolas Goessnitzer
9
Magisterarbeit: Entwicklung eines Werkzeugs zur Online Textanalyse und –klassifikation
1.
Theoretische Überlegungen
Einschub: Korpuskodierungen
Welche Korpuskodierungen sind gebräuchlich?
→ überwiegend scheint eine XML-Codierung das Gebräuchlichste zu sein:
Korpus
Reuters Corpus
DWDS1
AAC2
Deutsches
Referenzkorpus
negr@ corpus
BNC
COBUILD3
Oslo
LIMAS
Umfang
~ 200 Mio. lfd. WortformenXML
~ 40 Mio. lfd. WortformenXML
~ 100 Mio. lfd. Wortformenn.b.
~ 2.000 Mio. lfd. WortformenIDS-Textmodell (XML)
~ 350 Tsd. lfd. Wortformen
SQL-DB
~ 100 Mio. lfd. WortformenXML (neue Version)
~ 65 Mio. lfd. Wortformenn.b.
~ 1,5 Mio. lfd. Wortformentxt/ascii
~
1 Mio. lfd. Wortformenn.b.
1 DWDS:
Digitales Wörterbuch der deutschen Sprache
2 AAC:
Austrian Academy Corpus (kaum Informationen via www zugänglich)
3 COBUILD:
Die Internetpräsenz des Collins-COBUILD Korpus ist z.Zt. nicht verfügbar
26.11.08
Kodierung
Nicolas Goessnitzer
10
Magisterarbeit: Entwicklung eines Werkzeugs zur Online Textanalyse und –klassifikation
1.
Theoretische Überlegungen
3.2 Knowledge Discovery
Benachbarte Gebiete des KD nach Hotho (2004, S.30)
–
–
26.11.08
Unvorstellbare Mengen an Dokumenten und Daten
Methoden zur Aufdeckung versteckter Zusammenhänge oder
weitergehender Informationen (Data Mining, Text Mining)
Nicolas Goessnitzer
11
Magisterarbeit: Entwicklung eines Werkzeugs zur Online Textanalyse und –klassifikation
1.
Theoretische Überlegungen
3.3 Angewendete Methoden des Textmining
–
–
–
–
Stopplisten
Anwendung linguistischen Wissens (Morphologische Analyse)
Löschen von seltenen Wörtern (insbesondere Hapax Legomena)
Normierung und Gewichtung der Daten
Unter Berücksichtigung kritischer Einflussfaktoren:
→
→
→
→
26.11.08
Datenmenge
Dateiformate
Zeichensätze
Sprache der Dokumente
Nicolas Goessnitzer
12
Magisterarbeit: Entwicklung eines Werkzeugs zur Online Textanalyse und –klassifikation
1.
Theoretische Überlegungen
3.3 Angewendete Methoden des Textmining: Einflussfaktoren
–
Datenmenge
•
Entwicklung 60er Jahre bis Gegenwart:
Anzahl der laufenden Wortformen
(z.T. 100 Mio. und mehr)
•
Datenübertragungsrate für Internetanwendungen
Zeitl. Abfolge
26.11.08
Nicolas Goessnitzer
13
Magisterarbeit: Entwicklung eines Werkzeugs zur Online Textanalyse und –klassifikation
1.
Theoretische Überlegungen
3.3 Angewendete Methoden des Textmining: Einflussfaktoren
–
Dateiformate
•
•
•
–
Abdecken möglichst vieler verschiedener Eingangsformate
Probleme bei proprietären Formaten (z.B. Microsoft)
Verfügbarkeit von Anwendungen zur Konvertierung
Zeichensätze
•
•
Quasi-Standard UTF-8 für Internet
Problem der Erkennung der konkreten Ausgangskodierung
(z.B. ISO-x, Ascii, Ansi)
•
Theoretische Lösung: Annotierung der Kodierung mit XML
–
Verwendete Sprache der Daten
•
•
26.11.08
Prinzipiell gelöstes Teilproblem für hinreichend große Textlänge
Problem der Multilingualität in Texten (insbesondere im WWW)
Nicolas Goessnitzer
14
Magisterarbeit: Entwicklung eines Werkzeugs zur Online Textanalyse und –klassifikation
1.
Theoretische Überlegungen
3.3 Angewendete Methoden des Textmining
–
Ansätze zur Anwendung linguistischen Wissens
•
•
•
Probabilistisches Stemming
„Linguistisches“ Stemming
Linguistische morphologische Analyse
Die zugrunde liegende Theorie, die Allomorph-Methode, basiert auf der von
Roland R. Hausser entwickelten SLIM-Sprachtheorie
–
Zerlegung der Oberfläche (Segmentierung)
–
Klassifikation der elementaren Bestandteile (Lexical-Lookup)
–
Regelbasierte Zusammensetzung und grammatische Gesamtanalyse der Wortform
(Konkatenation)
–
Stoplisten
•
•
26.11.08
Reduktion auf die semantisch relevanten Elemente
Qualitätsverbesserung für Stoplisten durch Wortformerkennung
Nicolas Goessnitzer
15
Magisterarbeit: Entwicklung eines Werkzeugs zur Online Textanalyse und –klassifikation
1.
Theoretische Überlegungen
3.3 Angewendete Methoden des Textmining
–
Löschen seltener Wörter
•
Rechnerisch aufwendige Clusteranalyse bedingt Reduktion der
berücksichtigten Terme/Wörter
•
Reduktion von Ausreissern („Rauschen“)
Absicherung: Vorkommenshäufigkeit < Schranke
•
Methoden: Dokument-Pruning und Wort-Pruning
•
Entfernen von invarianten Wörtern
–
Normierung und Gewichtung
•
Skalierung der Frequenzen an Normgröße
–
–
•
Gewichtung der Wortdimensionen
–
–
26.11.08
Ermöglicht Verfahren mit absoluten Frequenzen
Verdeckung von Unterscheidungsmerkmal Text-/ Domänengröße
tfidf: Ausreisser (sehr hohe bzw. sehr niedrige Frequenz erhalten niedrigeres
Gewicht)
Gewichtung nach Varianz
Nicolas Goessnitzer
16
Magisterarbeit: Entwicklung eines Werkzeugs zur Online Textanalyse und –klassifikation
1.
Theoretische Überlegungen
3.4 Clusteranalyse
–
Ziel einer Clusteranalyse:
Auffinden von homogenen Teilmengen von Objekten in
einer heterogenen Gesamtheit von Objekten
–
Vielfältige Anwendungsgebiete:
Archäologie, Biologie, Chemie, (Computer-)Linguistik, Geologie, Informatik,
Klimaforschung, Medizin, Psychologie, Soziologie, Wirtschaftswissenschaften…
–
Problem des Entscheidungszwangs zu maximaler Homogenität in einer
Gruppe oder maximaler Heterogenität zwischen Gruppen
–
Hauptproblem: eindeutige Bestimmung des geeignetsten
Verfahrens
Aufgrund der Berechenbarkeit:
Bei 10 Elementen und 5 Gruppen bestehen 42525 Möglichkeiten
Bei 50 Elementen sind es bereits 7,401 •1032 Möglichkeiten
26.11.08
Nicolas Goessnitzer
17
Magisterarbeit: Entwicklung eines Werkzeugs zur Online Textanalyse und –klassifikation
1.
Theoretische Überlegungen
3.4 Clusteranalyse
–
Überblick zu den gängigen Verfahren
Clusteralgorithmen nach Backhaus u.a. 2005, S. 511
26.11.08
Nicolas Goessnitzer
18
Magisterarbeit: Entwicklung eines Werkzeugs zur Online Textanalyse und –klassifikation
1.
Theoretische Überlegungen
3.4 Clusteranalyse
–
–
–
Zugrundeliegende Repräsentation: Vektorraummodell
Einsatz von Distanz- oder Ähnlichkeitsmaßen zur Analyse der
Eigenschaften von Clusterelementen
Basis-Algorithmen
K-means Algorithmus als Beispiel für partitionierende Verfahren
Probleme
partitionierenden
Verfahren:
1 Initiale Auswahl
vonbei
K Elementen
als Clusterzentren
2 (wiederhole
solange)
→ Die
Zielfunktion hat zu großen Einfluss auf das Ergebnis
3 Bilde K→
neueWahl
Cluster
Zuordnung jedes
zu dem ihm
derdurch
Startgruppierung
istElements
oft nur subjektiv
Unlösbarkeit
des Problems der lokalen Optima
nächsten→
stehenden
Clusterzentrums
4 Neuberechnung aller Clusterzentren
5 (bis sich die Clusterzentren nicht mehr verändern)
26.11.08
Nicolas Goessnitzer
19
Magisterarbeit: Entwicklung eines Werkzeugs zur Online Textanalyse und –klassifikation
1.
Theoretische Überlegungen
3.4 Clusteranalyse
–
–
–
Zugrundeliegende Repräsentation: Vektorraummodell
Einsatz von Distanz- oder Ähnlichkeitsmaßen zur Analyse der
Eigenschaften von Clusterelementen
Basis-Algorithmen
Schematischer Ablauf aller agglomerierendenVerfahren
bei agglomerierenden
Verfahren:
1Probleme
(wenn erforderlich)
Berechnen der Distanzoder Ähnlichkeitsmatrix
2→(wiederhole
solange)
Gefahr einer
fehlerhaften irreversiblen Zuordnung
3→Vereinige
die beiden Cluster,für
diedivisive
sich am nächsten
Berechnungsaufwand
Methodestehen
(Top-Down)
4 Berechnung des neu gebildeten Clusters und Substitution der beiden vorherigen
Cluster in der Distanz- oder Ähnlichkeitsmatrix
5 (bis nur noch ein Cluster mit allen Elementen übrig ist)
26.11.08
Nicolas Goessnitzer
20
Magisterarbeit: Entwicklung eines Werkzeugs zur Online Textanalyse und –klassifikation
1.
Theoretische Überlegungen
3.4 Clusteranalyse: Überblick zu agglomierierenden Verfahren
–
Single-Linkage-Verfahren („Nearest Neighbor“)
–
Complete-Linkage-Verfahren („Furthest Neighbor“)
–
Centroid-Verfahren (Bezug auf Clustermittelpunkte)
–
Ward‘s Methode
•
Einsatz des Varianzkriteriums
•
Fusionierung der Elemente mit dem minimalen Fehlerzuwachs
→ im intuitiven Ansatz bereits bessere Ergebnisse als die meisten anderen
Verfahren
→ vor allem für größenordnungsmäßig vergleichbare Cluster geeignet
26.11.08
Nicolas Goessnitzer
21
Magisterarbeit: Entwicklung eines Werkzeugs zur Online Textanalyse und –klassifikation
1.
Theoretische Überlegungen
3.4 Clusteranalyse: Visualisierung der Ergebnisse
Darstellung der Ausgangsdaten
–
Darstellung von Punktewolken der Merkmale (n-1 2-dimensionale Darst.)
–
Histogramm
Darstellung der Analysen
–
Dendrogramm
–
Struktogramm
„Ellbogen-Kriterium“
26.11.08
Nicolas Goessnitzer
22
Magisterarbeit: Entwicklung eines Werkzeugs zur Online Textanalyse und –klassifikation
1.
Theoretische Überlegungen
3.4 Clusteranalyse: Varianten der Textklassifikation
–
Initiale Klassifikation innerhalb eines Korpus
–
Klassifikation eines neuen Textes
•
•
Anwendung existierender Ähnlichkeits- und Distanzmatrizen
Erneute Clusteranalyse mit n+1 Elementen und ggf. Neuverteilung
–
Gruppierung/Klassifikation mittels Cluster-Analyse funktioniert bereits
mit niedriger Dimensionalität
–
Verbesserungansätze von Analyseergebnissen durch Einsatz von
Ontologien („Konzeptbildung“)
26.11.08
Nicolas Goessnitzer
23
Magisterarbeit: Entwicklung eines Werkzeugs zur Online Textanalyse und –klassifikation
1.
Aufbau und Struktur der Textmühle
4.1 Systemumfeld und technischer Rahmen
–
–
26.11.08
Entwicklung der Textmühle in PHP, Dateisystemoperationen in Perl
Zugrunde liegendes Prinzip von Client-Server-Anwendungen
Nicolas Goessnitzer
24
Magisterarbeit: Entwicklung eines Werkzeugs zur Online Textanalyse und –klassifikation
1.
Aufbau und Struktur der Textmühle
4.1 Systemumfeld und technischer Rahmen
–
Berücksichtigung des modularen Aufbaus bei Implementierung
–
Entwicklung mit Eclipse, Versionierung mit Subversion
–
Integration von bestehenden Anwendungen:
•
•
Grammatikentwicklungssysteme Malaga und jslim
Konvertierungsprogramme für XML-Formate, pdf und ps
–
•
•
•
26.11.08
Xpdf, Ghostscript (Win) vs. ps2ascii, html2text (Suse-Linux), PHP SDOM Parser
Ajax-Modul sajax für verbesserte Bedienung und parallele Anfragen
Grafikbibliothek phplot zur Generierung der Diagramme und Grafiken
weitere PHP-Module für spezifische Funktionen
Nicolas Goessnitzer
25
Magisterarbeit: Entwicklung eines Werkzeugs zur Online Textanalyse und –klassifikation
1.
Aufbau und Struktur der Textmühle
4.2 Aufbau der Textmühle (Module)
–
Benutzeroberfläche
•
•
•
–
26.11.08
Benutzerrollen und –konten
Internationalisierung
Fehlerbehandlung
Struktur der GUI
Nicolas Goessnitzer
26
Magisterarbeit: Entwicklung eines Werkzeugs zur Online Textanalyse und –klassifikation
1.
Aufbau und Struktur der Textmühle
4.2 Aufbau der Textmühle (Module)
–
26.11.08
Vorhergehende Probleme:
Neuentwicklung des Korpusprozesses
mit Unterstützung mittels Perl
Gesamtprozess
Nicolas Goessnitzer
27
Magisterarbeit: Entwicklung eines Werkzeugs zur Online Textanalyse und –klassifikation
1.
Fazit
Erkenntnisse aus Einsatztests und Anwendung
–
Erzeugung von vielfältigen Analysedaten
•
•
•
•
–
Problemstellungen
•
•
•
–
Performance bei Internetanbindung der Morphologiemodule
Integration Dateimodus
Anforderungen an Serverkonfiguration und –leistung
Zukünftige Planung
•
•
•
26.11.08
Wortanzahlen bgzl. Texten und Domänen
Frequenzverteilungen (Type-Token, Terme)
Morphologische Analyse der Wortformen
Clusteranalyse
Weiterentwicklung
Direktanbindung Morphologie
OpenSource?
Nicolas Goessnitzer
28