ppt - Universität zu Köln

Download Report

Transcript ppt - Universität zu Köln

Digitalisierung und
Aufbereitung von Sprachdaten
Stefan Baumann1, Dagmar Jung2 & Doris Mücke1
IfL Phonetik1
IfL Allgemeine Sprachwissenschaft2
Universität zu Köln
CCeH Workshop
 IT-bezogene Lehre an der
Philosophischen Fakultät
– Studierende des BA Fachs Linguistik und
Phonetik lernen:
Aufnahme von
Sprachdaten
(meist digital)
im Labor
Aufbereitung
& Annotation
von
Sprachdaten
im Feld
Digitalisierung & Aufbereitung Sprachdaten - Baumann, Jung & Mücke
2
IT-bezogene Kurse
 BA Linguistik & Phonetik
– Laboratory Phonology (Projektseminar)
– Akustische Phonetik (Praxisseminar)
– Prosodische Analyse (Grundkurs)
– Signalgestütze Transkription (Übung)
– Einführung in die Allgemeine
Sprachwissenschaft (Seminar)
– Sprachdokumentation (Proseminar)
– Diskursanalyse (Hauptseminar)
Digitalisierung & Aufbereitung Sprachdaten - Baumann, Jung & Mücke
3
IT-bezogene Kurse
 zusätzlich:
– Statistik-Kurse in regelmäßigen Abständen
(in ASW und Phonetik)
– Programme: R und SPSS
Digitalisierung & Aufbereitung Sprachdaten - Baumann, Jung & Mücke
4
Sprachaufnahmen Labor I
 Akustik
– Nutzung von digitalen
Aufnahmemöglichkeiten
– Wandlung in verschiedene Datei-Formate
• u.a. wav, SSFF
– Pre-processing
• Schneiden und Ordnen von Akustik-Dateien
• Optimierung für Frequenzanalysen
– Abtastrate: Downsampling (44.1kHz, 20kHz)
– Filtern, z.B. Noise-Reduction
Digitalisierung & Aufbereitung Sprachdaten - Baumann, Jung & Mücke
5
Sprachverarbeitung
 Parametrisierung
 Resynthese als Analysetechnik
 sprachverarbeitende Software
– Cool Edit, Audacity, PRAAT, EMU
– Articulate Assistant, Custom Software
Digitalisierung & Aufbereitung Sprachdaten - Baumann, Jung & Mücke
6
Beispiel Formantanalyse
b
e
n
e
nn e
richtig
fehlerhaft, F1 wird nicht
gefunden
Digitalisierung & Aufbereitung Sprachdaten - Baumann, Jung & Mücke
7
Sprachaufnahmen Labor II
 Aufnahme von Artikulationsdaten
Elektropalatographie
Elektromagnetische Artikulographie
Digitalisierung & Aufbereitung Sprachdaten - Baumann, Jung & Mücke
8
Annotation EPG
 hingeben
– Labeln von Bewegungsplateaus (Bsp. für partielle Assimilation)
1
2
3
4
Digitalisierung & Aufbereitung Sprachdaten - Baumann, Jung & Mücke
9
Annotation EMMA
Digitalisierung & Aufbereitung Sprachdaten - Baumann, Jung & Mücke
10
Sprachaufnahmen „im Feld“
– Mikrophonierung (nach Aufnahmesituation,
Monolog vs. Konversation, auch wireless)
– digitale Aufnahmeformate (Audio und Video)
– Aufnahme von „natürlichen Daten“ ->
Unterschiede gesprochene vs. geschriebene
Sprache wird durch Transkription und
Annotation sichtbar gemacht
– Erstelllung von Annotationen und Korpus z.B.
durch ELAN und Toolbox
Digitalisierung & Aufbereitung Sprachdaten - Baumann, Jung & Mücke
11
ELAN
Digitalisierung & Aufbereitung Sprachdaten - Baumann, Jung & Mücke
12
Toolbox
 Datenbank
 Textanalyse durch Parsen
 Erstellung von Morphemlisten/
Wortlisten/Wörterbüchern
 Datenaustausch mit ELAN (Bezug zu
Mediadateien bleibt dadurch erhalten)
Digitalisierung & Aufbereitung Sprachdaten - Baumann, Jung & Mücke
13
Toolbox
Digitalisierung & Aufbereitung Sprachdaten - Baumann, Jung & Mücke
14
Zwischen Labor- und Feldforschung
 Annotation verschiedener Datentypen (auch
Spontansprache)
 mehrere linguistische Beschreibungsebenen
– (Morpho-)Syntax: Wortstellung, Part-of-Speech,
Definitheit, Satztyp, Fokusoperatoren…
– Semantik/Pragmatik: Fokustyp, Informationsstatus
(Referenz- u. lexikalische Ebene)…
– Phonetik/Phonologie: Akzente und Grenztöne,
Tonhöhenumfang, Dauern von Silben und Wörtern…
Digitalisierung & Aufbereitung Sprachdaten - Baumann, Jung & Mücke
15
Zwischen Labor- und Feldforschung
 Annotationstool für Darstellung der
verschiedenen Ebenen:
EMU Speech Database System
(http://emu.sourceforge.net/)
 Beispiel Spontansprache:
Digitalisierung & Aufbereitung Sprachdaten - Baumann, Jung & Mücke
16
Zwischen Labor- und Feldforschung
Digitalisierung & Aufbereitung Sprachdaten - Baumann, Jung & Mücke
17
Fächerübergreifende Zusammenarbeit
 Neues DFG-Projekt von Phonetik (Grice)
und Germanistik (Lohnstein); ab 2010
 Ein Ziel: Erweiterung der Fokus-DB um
mehrebenen-annotierte Daten inklusive
Tondateien und Bereitstellung zu
Forschungszwecken
– Demo-Version: www.fokus-db.de, Benutzer:
„Besucher“, Passwort: „Demo“
Digitalisierung & Aufbereitung Sprachdaten - Baumann, Jung & Mücke
18