Entwicklung eines Werkzeugs zur Online Textanalyse und -klassifikation Magisterarbeit im Studiengang Linguistische Informatik
Download ReportTranscript Entwicklung eines Werkzeugs zur Online Textanalyse und -klassifikation Magisterarbeit im Studiengang Linguistische Informatik
Entwicklung eines Werkzeugs zur Online Textanalyse und -klassifikation Magisterarbeit im Studiengang Linguistische Informatik (Magister Artium) Magisterarbeit: Entwicklung eines Werkzeugs zur Online Textanalyse und –klassifikation Inhaltsübersicht 1. 2. 3. 4. 5. 26.11.08 Einleitung und Übersicht Demonstration der Textmühle Theoretische Überlegungen Aufbau und Struktur der Textmühle Fazit Nicolas Goessnitzer 2 Magisterarbeit: Entwicklung eines Werkzeugs zur Online Textanalyse und –klassifikation 1. Einleitung und Übersicht – Wofür wird die Textmühle eingesetzt? • Verarbeitung von Texten und Korpora – – – – • Statistische Berechnungen – – – – 26.11.08 Konvertierung von Dateiformaten Erstellung von Wort- und Frequenzlisten Morphologische Analysen (mit malaga, bzw. jslim) kontrollierte Erstellung von Korpora Verteilungen von Domänen eines Korpus Wortanzahlen in Texten und Domänen Type/Token-Verteilungen Klassifikation / Clusteranalyse Nicolas Goessnitzer 3 Magisterarbeit: Entwicklung eines Werkzeugs zur Online Textanalyse und –klassifikation 1. Einleitung und Übersicht Übersicht zu den Dateiformaten im WWW Berücksichtigung bei Textmühle 26.11.08 Nicolas Goessnitzer 4 Magisterarbeit: Entwicklung eines Werkzeugs zur Online Textanalyse und –klassifikation 1. Einleitung und Übersicht Übersicht zu den Dateiformaten im WWW 26.11.08 Nicolas Goessnitzer 5 Magisterarbeit: Entwicklung eines Werkzeugs zur Online Textanalyse und –klassifikation 1. Einleitung und Übersicht – Was sind die wesentlichen Merkmale der Textmühle? • • • • • • • 26.11.08 Zugriff über das Internet Verarbeitung der Anforderungen erfolgt auf dem Server Programmierung in einer „offenen“ Programmiersprache (PHP) Keine Abhängigkeit vom Betriebssystem des Benutzers Leichter Zugang zu Daten und Bearbeitungsprozeduren Keine umständliche Installation und Konfiguration für den Nutzer Zusammenarbeit mit anderen Applikationen im WWW Nicolas Goessnitzer 6 Magisterarbeit: Entwicklung eines Werkzeugs zur Online Textanalyse und –klassifikation 1. Demonstration – – – Verarbeitung eines Korpus anhand einer Beispielkollektion Analyseergebnisee des Testkorpus wifi Der Ablauf der Verarbeitungsschritte: • • • • • • 26.11.08 Import Konvertierung Filter Frequenzliste Morphologie Clusteranalyse Nicolas Goessnitzer 7 Magisterarbeit: Entwicklung eines Werkzeugs zur Online Textanalyse und –klassifikation 1. Demonstration 26.11.08 Nicolas Goessnitzer 8 Magisterarbeit: Entwicklung eines Werkzeugs zur Online Textanalyse und –klassifikation 1. Theoretische Überlegungen 3.1 Basiselemente Linguistischer Analysen – – – Term - Wort, Wortform, Grundform, Morphem und Allomorph Text Korpus Praktischer Analyseansatz zur Tokenisierung: Das Wort ist eine sprachliche Einheit, die in der geschriebenen Sprache durch Leerstellen begrenzt ist. Herbst, Stoll, u. Westermayr (1991, S. 79, Definition 317) Pragmatische Definition von Text und Korpus: Der Terminus “Text“ bezeichnet eine begrenzte Folge von sprachlichen Zeichen […] Brinker (2005, S.17f) Ein Korpus ist eine Sammlung schriftlicher oder gesprochener Äußerungen in einer oder mehreren Sprachen […] Lemnitzer u. Zinsmeister (2006, S. 40) 26.11.08 Nicolas Goessnitzer 9 Magisterarbeit: Entwicklung eines Werkzeugs zur Online Textanalyse und –klassifikation 1. Theoretische Überlegungen Einschub: Korpuskodierungen Welche Korpuskodierungen sind gebräuchlich? → überwiegend scheint eine XML-Codierung das Gebräuchlichste zu sein: Korpus Reuters Corpus DWDS1 AAC2 Deutsches Referenzkorpus negr@ corpus BNC COBUILD3 Oslo LIMAS Umfang ~ 200 Mio. lfd. WortformenXML ~ 40 Mio. lfd. WortformenXML ~ 100 Mio. lfd. Wortformenn.b. ~ 2.000 Mio. lfd. WortformenIDS-Textmodell (XML) ~ 350 Tsd. lfd. Wortformen SQL-DB ~ 100 Mio. lfd. WortformenXML (neue Version) ~ 65 Mio. lfd. Wortformenn.b. ~ 1,5 Mio. lfd. Wortformentxt/ascii ~ 1 Mio. lfd. Wortformenn.b. 1 DWDS: Digitales Wörterbuch der deutschen Sprache 2 AAC: Austrian Academy Corpus (kaum Informationen via www zugänglich) 3 COBUILD: Die Internetpräsenz des Collins-COBUILD Korpus ist z.Zt. nicht verfügbar 26.11.08 Kodierung Nicolas Goessnitzer 10 Magisterarbeit: Entwicklung eines Werkzeugs zur Online Textanalyse und –klassifikation 1. Theoretische Überlegungen 3.2 Knowledge Discovery Benachbarte Gebiete des KD nach Hotho (2004, S.30) – – 26.11.08 Unvorstellbare Mengen an Dokumenten und Daten Methoden zur Aufdeckung versteckter Zusammenhänge oder weitergehender Informationen (Data Mining, Text Mining) Nicolas Goessnitzer 11 Magisterarbeit: Entwicklung eines Werkzeugs zur Online Textanalyse und –klassifikation 1. Theoretische Überlegungen 3.3 Angewendete Methoden des Textmining – – – – Stopplisten Anwendung linguistischen Wissens (Morphologische Analyse) Löschen von seltenen Wörtern (insbesondere Hapax Legomena) Normierung und Gewichtung der Daten Unter Berücksichtigung kritischer Einflussfaktoren: → → → → 26.11.08 Datenmenge Dateiformate Zeichensätze Sprache der Dokumente Nicolas Goessnitzer 12 Magisterarbeit: Entwicklung eines Werkzeugs zur Online Textanalyse und –klassifikation 1. Theoretische Überlegungen 3.3 Angewendete Methoden des Textmining: Einflussfaktoren – Datenmenge • Entwicklung 60er Jahre bis Gegenwart: Anzahl der laufenden Wortformen (z.T. 100 Mio. und mehr) • Datenübertragungsrate für Internetanwendungen Zeitl. Abfolge 26.11.08 Nicolas Goessnitzer 13 Magisterarbeit: Entwicklung eines Werkzeugs zur Online Textanalyse und –klassifikation 1. Theoretische Überlegungen 3.3 Angewendete Methoden des Textmining: Einflussfaktoren – Dateiformate • • • – Abdecken möglichst vieler verschiedener Eingangsformate Probleme bei proprietären Formaten (z.B. Microsoft) Verfügbarkeit von Anwendungen zur Konvertierung Zeichensätze • • Quasi-Standard UTF-8 für Internet Problem der Erkennung der konkreten Ausgangskodierung (z.B. ISO-x, Ascii, Ansi) • Theoretische Lösung: Annotierung der Kodierung mit XML – Verwendete Sprache der Daten • • 26.11.08 Prinzipiell gelöstes Teilproblem für hinreichend große Textlänge Problem der Multilingualität in Texten (insbesondere im WWW) Nicolas Goessnitzer 14 Magisterarbeit: Entwicklung eines Werkzeugs zur Online Textanalyse und –klassifikation 1. Theoretische Überlegungen 3.3 Angewendete Methoden des Textmining – Ansätze zur Anwendung linguistischen Wissens • • • Probabilistisches Stemming „Linguistisches“ Stemming Linguistische morphologische Analyse Die zugrunde liegende Theorie, die Allomorph-Methode, basiert auf der von Roland R. Hausser entwickelten SLIM-Sprachtheorie – Zerlegung der Oberfläche (Segmentierung) – Klassifikation der elementaren Bestandteile (Lexical-Lookup) – Regelbasierte Zusammensetzung und grammatische Gesamtanalyse der Wortform (Konkatenation) – Stoplisten • • 26.11.08 Reduktion auf die semantisch relevanten Elemente Qualitätsverbesserung für Stoplisten durch Wortformerkennung Nicolas Goessnitzer 15 Magisterarbeit: Entwicklung eines Werkzeugs zur Online Textanalyse und –klassifikation 1. Theoretische Überlegungen 3.3 Angewendete Methoden des Textmining – Löschen seltener Wörter • Rechnerisch aufwendige Clusteranalyse bedingt Reduktion der berücksichtigten Terme/Wörter • Reduktion von Ausreissern („Rauschen“) Absicherung: Vorkommenshäufigkeit < Schranke • Methoden: Dokument-Pruning und Wort-Pruning • Entfernen von invarianten Wörtern – Normierung und Gewichtung • Skalierung der Frequenzen an Normgröße – – • Gewichtung der Wortdimensionen – – 26.11.08 Ermöglicht Verfahren mit absoluten Frequenzen Verdeckung von Unterscheidungsmerkmal Text-/ Domänengröße tfidf: Ausreisser (sehr hohe bzw. sehr niedrige Frequenz erhalten niedrigeres Gewicht) Gewichtung nach Varianz Nicolas Goessnitzer 16 Magisterarbeit: Entwicklung eines Werkzeugs zur Online Textanalyse und –klassifikation 1. Theoretische Überlegungen 3.4 Clusteranalyse – Ziel einer Clusteranalyse: Auffinden von homogenen Teilmengen von Objekten in einer heterogenen Gesamtheit von Objekten – Vielfältige Anwendungsgebiete: Archäologie, Biologie, Chemie, (Computer-)Linguistik, Geologie, Informatik, Klimaforschung, Medizin, Psychologie, Soziologie, Wirtschaftswissenschaften… – Problem des Entscheidungszwangs zu maximaler Homogenität in einer Gruppe oder maximaler Heterogenität zwischen Gruppen – Hauptproblem: eindeutige Bestimmung des geeignetsten Verfahrens Aufgrund der Berechenbarkeit: Bei 10 Elementen und 5 Gruppen bestehen 42525 Möglichkeiten Bei 50 Elementen sind es bereits 7,401 •1032 Möglichkeiten 26.11.08 Nicolas Goessnitzer 17 Magisterarbeit: Entwicklung eines Werkzeugs zur Online Textanalyse und –klassifikation 1. Theoretische Überlegungen 3.4 Clusteranalyse – Überblick zu den gängigen Verfahren Clusteralgorithmen nach Backhaus u.a. 2005, S. 511 26.11.08 Nicolas Goessnitzer 18 Magisterarbeit: Entwicklung eines Werkzeugs zur Online Textanalyse und –klassifikation 1. Theoretische Überlegungen 3.4 Clusteranalyse – – – Zugrundeliegende Repräsentation: Vektorraummodell Einsatz von Distanz- oder Ähnlichkeitsmaßen zur Analyse der Eigenschaften von Clusterelementen Basis-Algorithmen K-means Algorithmus als Beispiel für partitionierende Verfahren Probleme partitionierenden Verfahren: 1 Initiale Auswahl vonbei K Elementen als Clusterzentren 2 (wiederhole solange) → Die Zielfunktion hat zu großen Einfluss auf das Ergebnis 3 Bilde K→ neueWahl Cluster Zuordnung jedes zu dem ihm derdurch Startgruppierung istElements oft nur subjektiv Unlösbarkeit des Problems der lokalen Optima nächsten→ stehenden Clusterzentrums 4 Neuberechnung aller Clusterzentren 5 (bis sich die Clusterzentren nicht mehr verändern) 26.11.08 Nicolas Goessnitzer 19 Magisterarbeit: Entwicklung eines Werkzeugs zur Online Textanalyse und –klassifikation 1. Theoretische Überlegungen 3.4 Clusteranalyse – – – Zugrundeliegende Repräsentation: Vektorraummodell Einsatz von Distanz- oder Ähnlichkeitsmaßen zur Analyse der Eigenschaften von Clusterelementen Basis-Algorithmen Schematischer Ablauf aller agglomerierendenVerfahren bei agglomerierenden Verfahren: 1Probleme (wenn erforderlich) Berechnen der Distanzoder Ähnlichkeitsmatrix 2→(wiederhole solange) Gefahr einer fehlerhaften irreversiblen Zuordnung 3→Vereinige die beiden Cluster,für diedivisive sich am nächsten Berechnungsaufwand Methodestehen (Top-Down) 4 Berechnung des neu gebildeten Clusters und Substitution der beiden vorherigen Cluster in der Distanz- oder Ähnlichkeitsmatrix 5 (bis nur noch ein Cluster mit allen Elementen übrig ist) 26.11.08 Nicolas Goessnitzer 20 Magisterarbeit: Entwicklung eines Werkzeugs zur Online Textanalyse und –klassifikation 1. Theoretische Überlegungen 3.4 Clusteranalyse: Überblick zu agglomierierenden Verfahren – Single-Linkage-Verfahren („Nearest Neighbor“) – Complete-Linkage-Verfahren („Furthest Neighbor“) – Centroid-Verfahren (Bezug auf Clustermittelpunkte) – Ward‘s Methode • Einsatz des Varianzkriteriums • Fusionierung der Elemente mit dem minimalen Fehlerzuwachs → im intuitiven Ansatz bereits bessere Ergebnisse als die meisten anderen Verfahren → vor allem für größenordnungsmäßig vergleichbare Cluster geeignet 26.11.08 Nicolas Goessnitzer 21 Magisterarbeit: Entwicklung eines Werkzeugs zur Online Textanalyse und –klassifikation 1. Theoretische Überlegungen 3.4 Clusteranalyse: Visualisierung der Ergebnisse Darstellung der Ausgangsdaten – Darstellung von Punktewolken der Merkmale (n-1 2-dimensionale Darst.) – Histogramm Darstellung der Analysen – Dendrogramm – Struktogramm „Ellbogen-Kriterium“ 26.11.08 Nicolas Goessnitzer 22 Magisterarbeit: Entwicklung eines Werkzeugs zur Online Textanalyse und –klassifikation 1. Theoretische Überlegungen 3.4 Clusteranalyse: Varianten der Textklassifikation – Initiale Klassifikation innerhalb eines Korpus – Klassifikation eines neuen Textes • • Anwendung existierender Ähnlichkeits- und Distanzmatrizen Erneute Clusteranalyse mit n+1 Elementen und ggf. Neuverteilung – Gruppierung/Klassifikation mittels Cluster-Analyse funktioniert bereits mit niedriger Dimensionalität – Verbesserungansätze von Analyseergebnissen durch Einsatz von Ontologien („Konzeptbildung“) 26.11.08 Nicolas Goessnitzer 23 Magisterarbeit: Entwicklung eines Werkzeugs zur Online Textanalyse und –klassifikation 1. Aufbau und Struktur der Textmühle 4.1 Systemumfeld und technischer Rahmen – – 26.11.08 Entwicklung der Textmühle in PHP, Dateisystemoperationen in Perl Zugrunde liegendes Prinzip von Client-Server-Anwendungen Nicolas Goessnitzer 24 Magisterarbeit: Entwicklung eines Werkzeugs zur Online Textanalyse und –klassifikation 1. Aufbau und Struktur der Textmühle 4.1 Systemumfeld und technischer Rahmen – Berücksichtigung des modularen Aufbaus bei Implementierung – Entwicklung mit Eclipse, Versionierung mit Subversion – Integration von bestehenden Anwendungen: • • Grammatikentwicklungssysteme Malaga und jslim Konvertierungsprogramme für XML-Formate, pdf und ps – • • • 26.11.08 Xpdf, Ghostscript (Win) vs. ps2ascii, html2text (Suse-Linux), PHP SDOM Parser Ajax-Modul sajax für verbesserte Bedienung und parallele Anfragen Grafikbibliothek phplot zur Generierung der Diagramme und Grafiken weitere PHP-Module für spezifische Funktionen Nicolas Goessnitzer 25 Magisterarbeit: Entwicklung eines Werkzeugs zur Online Textanalyse und –klassifikation 1. Aufbau und Struktur der Textmühle 4.2 Aufbau der Textmühle (Module) – Benutzeroberfläche • • • – 26.11.08 Benutzerrollen und –konten Internationalisierung Fehlerbehandlung Struktur der GUI Nicolas Goessnitzer 26 Magisterarbeit: Entwicklung eines Werkzeugs zur Online Textanalyse und –klassifikation 1. Aufbau und Struktur der Textmühle 4.2 Aufbau der Textmühle (Module) – 26.11.08 Vorhergehende Probleme: Neuentwicklung des Korpusprozesses mit Unterstützung mittels Perl Gesamtprozess Nicolas Goessnitzer 27 Magisterarbeit: Entwicklung eines Werkzeugs zur Online Textanalyse und –klassifikation 1. Fazit Erkenntnisse aus Einsatztests und Anwendung – Erzeugung von vielfältigen Analysedaten • • • • – Problemstellungen • • • – Performance bei Internetanbindung der Morphologiemodule Integration Dateimodus Anforderungen an Serverkonfiguration und –leistung Zukünftige Planung • • • 26.11.08 Wortanzahlen bgzl. Texten und Domänen Frequenzverteilungen (Type-Token, Terme) Morphologische Analyse der Wortformen Clusteranalyse Weiterentwicklung Direktanbindung Morphologie OpenSource? Nicolas Goessnitzer 28