Einf. in die Instrumentalphonetik

Download Report

Transcript Einf. in die Instrumentalphonetik

Einf. in die Instrumentalphonetik
Wintersemester 2010
Bistra Andreeva
FR 4.7 Phonetik
Universität des Saarlandes
[email protected]
Sitzung 1
Administrativ

Teilnehmerliste

http://www.coli.uni-saarland.de/~andreeva

[email protected]
3.05.
9-10
10-11
11-12
12-13
13-14
14-15
4.05.
5.05.
10.05. 11.05. 12.05. 13.05.
Sitzung 1
Kursinhalt



Mikrofonaufnahmen
Signaldarstellungen:
- Oszillogramm = Mikrofonsignal = Druckwellen
- Spektrum
- Spektrogramm
- Grundfrequenz (= F0)
Messungen in den Signaldarstellungen
- Dauer (Zeitbereich)
- Harmonische, Formanten, Eckfrequenzen
(Frequenzbereich)
- Grundfrequenz (Zeit- und Frequenzbereich)
Sitzung 1
Signalverarbeitungsprogramm

Computerized Speech Lab (CSL)
Entropic Signal Processing System (ESPS) mit
Waves+ (Visualisierung)

PRAAT

Sitzung 1
Literatur



Pétursson, M. & Neppert, J. (1991). Elementarbuch
der Phonetik. Hamburg: Helmut Buske Verlag.
Borden, G., Harris, K. & Raphael, L. (1994). Speech
Science Primer. Physiology, Acoustics and Perception of Speech. Baltimore: Williams & Wilkins.
Ladefoged, P. (1982). A Course in Phonetics. San
Diego: Harcourt Brace Jovanovich.
Sitzung 1
Erste Schritte in Praat
 Programm starten

Doppelklick auf der Ikone
Es erscheinen 2 Fenster.
Sitzung 1
Erste Schritte in Praat
 Signal aufnehmen


Wie erkennt man laute/leise Signale?
Welche Laute sind meistens lauter als ihre
Umgebung?
Sitzung 2
Aufnahmen

Anschließen des Mikrofons, bzw. des Kassettenoder DAT-Recorders
Unter NEW:
 Record mono Sound
 Abtastrate einstellen (Sampling frequency)
- bei Vokalen bzw. F0: 10 kHz
- bei Frikativen: 20 kHz
 Aufnahmedauer (unbegrenzt)
 Record anklicken
 Aufnahmepegel einstellen
Sitzung 2
Aufnahmen





Aufnahme starten (record)
Aufnahme beenden (stop)
Während der Aufnahme das Aufnahmepegel im Auge
behalten
Datei benennen (sound markieren und umbennen)
Aufnahme speichern (save to list)
Sitzung 2
Oszillogramm




Auch: Mikrofonsignal, Zeitsignal, Drucksignal
Darstellung des in Spannungsunterschiede
umgewandelten Schalldrucksignals
x-Achse: Zeit (vgl. Dauer in der Perzeption)
y-Achse: Amplitude (vgl. Lautstärke in der
Perzeption)
Sitzung 2
Speichern von Daten


Relevanten Signalteil ausschneiden
Speichern
Sitzung 3
Laden einer Signaldatei

Datei ip001rb.wav im Verzeichnis InstrPhon laden
 Read
 Read from file
 Im Fenster Objects erscheint die Datei
 Edit anklicken
Sitzung 3
Abspielen der Vokale

die Vokale markieren und abspielen

Woran erkennt man die Vokale?
Sitzung 3
Abspielen der Konsonanten


die Konsonanten markieren und abspielen
 Welche Konsonanten sind für sich alleine
identifizierbar?
[p] von ‘Peter’, [t] von ‘tippt’ und [k] von ‘Kieler’
markieren, sehen und hören
 Was haben sie gemeinsam?
 Welche Position haben sie?
 In welcher Art von Silben befinden sie sich?
Sitzung 3
Dauer der Konsonanten messen


Den jeweiligen Laut markieren und Dauer (in
Sekunden) ablesen
1 sek = 1000 ms
Sitzung 3
Schneiden und Konkatenation
Die 3 silbeninitiale Plosive in Fenster B kopieren:
 Signalteil markieren


EDIT, copy selection to sound clipboard
EDIT, paste after selection - der markierte Signalteil
wird eingefügt
Sitzung 3
Hörtest

die im Fenster B kopierten Plosive in randomisierter
Reihenfolge abspielen
Daß wir die Plosive nicht gut voneinander
unterscheiden können, hat einen Grund:
Die Minimaleinheit, die wir hören, ist eine Silbe!
Sitzung 4
Phonetische Dauermessungen


ip006rb.wav laden
“Die Lallphase dauert nicht lange”
ip001rb.wav laden
“Peter tippt auf die Kieler”
- Wie unterscheidet sich [d] in “Die” von [t] in “tippt”?
Die zwei [d]-Segmente finden und vergleichen
- Was haben sie gemeinsam?
- Worin unterscheiden sie sich?
Sitzung 4
Voice Onset Time (VOT)


VOT oder Stimmlatenzzeit:
die Dauer vom Anfang der Lösung eines Plosivs bis
zum Einsatz der Stimmlippenschwingungen
VOT von [d] in “dauert” und [t] in “tippt” messen und
vergleichen
- Wie unterscheidet sich [d] in “Die” von [t] in “tippt”?
Faustregel: die VOT-Grenze zwischen dem stimmlosen [t]
und dem stimmhaften [d] liegt bei etwa 25 ms
(länger bei stimmlosen Plosiven)
N.B. Energie auch wichtig: größer für stimmlose
Plosive
Sitzung 4
Variable Lautrealisierungen

Vergleiche die beiden [t]’s in “nicht” und “tippt”
(Verschlußlösung)

ip008rb.wav laden
“Breite Karren stören den Betrieb”

Vergleiche die [t]’s in “tippt” und in “stören”
(Aspiration)
Sitzung 4
Lautwahrnehmung


“nicht lange” markieren und vorspielen
Was hört man?
“Klange”: Es gibt eine Preferenz, sinnvolle Äußerungen
(Wörter) wahrzunehmen
Sitzung 4
Laute im Signal


Inhalte der Fenster löschen
Fenster C aktivieren und löschen: VIEW, DELETE
ACTIVE VIEW



c:\user(s)\ip002rb.001 in Fenster A laden
“Tania kaufte Backpapier”
c:\user(s)\ip007rb.001 in Fenster B laden
“Junge Leute jammern nicht”
Ausgabepegel auf Null stellen
Plosive und Vokale im Signal finden
Sitzung 5
Spektrogramm
Das Spektrogramm stellt 3 Dimensionen dar:
 x-Achse: Zeit (ms) - vgl. Dauer in der Perzeption
 y-Achse: Frequenz (Hz) - vgl. Tonhöhe und
Klangqualität in der Perzeption
 Schwärzungsgrad: Energie - vgl. Lautstärke in der
Perzeption
Sitzung 5
Grundbegriffe






Amplitude: maximale Auslenkung bzw. Abweichung von
der Ruhelage (dB)
Frequenz: Anzahl der Schwingungen pro Sekunde (Hz)
Periodendauer: der zeitliche Abstand zweier
benachbarter Maxima (T, ms)
Grundfrequenz: die Welle mit der längsten Periodendauer (Stimmlippen)
Harmonische: sinusförmige Obertöne, deren
Frequenzen ganzzahlige Vielfache der Grundfrequenz
sind (Stimmlippen); F0=H1; H2= O1
Formanten: Bereiche von Harmonischen, die durch
Resonanz eine maximale Intensität erreichen
(Vokaltrakt)
Sitzung 5
Oszillogramm und Spektrogramm



Das Oszillogramm kann man als eine Überlagerung
von mehreren Harmonischen betrachten
Die Harmonischen (als Klangfarbe wahrgenommen)
werden durch ihre Frequenz (Kehrwert), ihre
Amplitude und ihre Phase (relative Verschiebung
zueinander) gekennzeichnet und bestimmen so das
komplexe Oszillogramm
Die Grundfrequenz (als Tonhöhe wahrgenommen)
kann von dem Oszillogramm als die Anzahl der
Perioden (sich wiederholenden Signalteile) pro
Sekunde berechnet werden: F0 =1/T
Sitzung 5
Oszillogramm und Spektrogramm

ip007rb.wav laden
Das Spektrogramm ist eine bessere Darstellung des
Signals, wenn man die einzelnen Frequenzkomponenten erkennen möchte. Es stellt die
Frequenzbereiche dar, in denen viel Energie vorhanden
ist.
Sitzung 5
Breitband-Spektrogramm



ip007rb.wav laden
Hohe Auflösung im Zeitbereich, niedrige Auflösung
im Frequenzbereich.
Einzelne Glottisschläge sind gut sichtbar (die
vertikale Linien).
Die Formanten sind gut zu erkennen (breite
horizontale “Bänder”). Sie sind charakteristisch für
die Laute, insb. für Vokale.
Sitzung 5
Schmalband-Spektrogramm




Unter Spectrum, Spectrogram settings
Window length (s) von 0.005 auf 0.03 ändern
Niedrige Auflösung im Zeitbereich, hohe Auflösung im
Frequenzbereich.
Einzelne Glottisschläge nicht sichtbar.
Einzelne Harmonische sind gut zu erkennen (schmale
paralelle “Bänder”). Grundfrequenz kann sehr genau
berechnet werden aus der n-ten Harmonischen: Wert
des n-ten Harmonischen festellen und durch n teilen.
(Formanten schwer zu erkennen).
Sitzung 5
Abgrenzung von Segmenten



Meistens benutzen wir ein Breitband-Spektrogramm,
um Laute zu segmentieren.
Akustische Ereignisse sind an Laute zuweisbar.
Zwischen den Lauten gibt es kontinuierliche
Übergange. Diese entstehen dadurch, daß die
Artikulatoren Zeit brauchen, um sich von der
“typischen” oder Zielposition für einen Laut zur
Zielposition des nächsten Lautes zu bewegen.
Dabei sind die Artikulatoren (fast) ständig in
Bewegung, wobei die Laute sich auch gegenseitig
beeinflussen (= Koartikulation).
kahl
ABER: Paar
Kiel
per
cool
pur
Sitzung 6
Vokale im Spektrogramm





stimmhafte Laute
ihre Klangcharakteristika sind primär durch die
Konfiguration des Vokaltraktes bestimmt
der durch Glottisimpulse angeregte Luftstrom (Quelle)
wird im Ansatzrohr moduliert (Filter)
Veränderung der Resonanzeigenschaften des
Ansatzrohres und somit der Resonanzfrequenzen des
entstehenden Vokals durch Kehlkopfhöhe,
Rachenenge, Zungenposition und -höhe sowie die
Lippenstellung
typische spektrale Zusammensetzung mit
Energiekonzentrationen bei den jeweiligen
Resonanzfrequenzen (Formanten)
Sitzung 6
Vokale im Spektrogramm
Vokale [], [] und [] (in “junge”, “jammern” und
“nicht”) im Zeitsignal suchen.

Was ist der Unterschied zwischen den Vokalen?
Deutliche Formantenstruktur. Vor allem die Positionierung
der ersten beiden Formanten (F1 und F2) ist sehr wichtig
für unsere Wahrnehmung der Vokale
 Mit welchen artikulatorischen Dimensionen hängen
F1 und F2 zusammen?
F1: Kieferöffnung; F2: vorne-hinten
 Was fällt auf, wenn man sich die Formanten eines
Vokals (z.B. []) im Kontext ansieht?
Onset-, Offsettransitionen und evtl. „steady state“, wenn
genug Zeit für die Artikulaton vorhanden ist
Sitzung 6
Messungen der Formantenwerte

Den Cursor in die Mitte des schwarzen Balkens
(Formanten) setzen und den Wert rechts neben der
roten gestrichelten Linie ablesen

Wenn es problematisch ist die Formanten zu
erkennen, geht man von vorgegebenen Werten aus,
d.h. man verwendet die durchschnittlichen
Formantwerte zur Orientierung (diese sind im fast
jeden Buch zu finden)
Sitzung 6
Messungen der Formantenwerte

Den Cursor in die Mitte des Vokals setzen

über den Menüeintrag ‘Formant' -> ‘Show formants'
die Formanten im Spektrogramm anzeigen

Wieder über den Menüeintrag ‘Formant' -> ‘Formant
listing' den jeweiligen Zeitpunkt sowie F1, F2, F3 und
F4 auflisten
Sitzung 9
FRIKATIVE


Die Entstehung der Frikative basiert auf einer Engebildung im Mundraum zwischen artikulierendem Organ
und der Artikulationsstelle. Diese Verengung unterteilt
den Mundraum in einen vorderen und einen hinteren
Resonanzraum. Der Luftstrom, der diese Enge
passiert, wird turbulent. Luftturbulenzen sind die
typischen Schallquellen aller Frikative.
Das erzeugte Friktionsgeräusch wirkt als akustische
Anregung für beide Resonanzräume. Es wird jedoch
überwiegend im vorderen Mundraum moduliert, so daß
das Spektrum des am Mund abgestrahlten Frikativschalls weitgehend von Größe und Form des vorderen
Resonanzraumes abhängt.
Sitzung 9
FRIKATIVE


Generell gilt, je größer der vordere Resonanzraum ist,
d.h. je weiter hinten die Artikulationsstelle, also der Ort
der Engebildung, liegt, desto stärker wird der Schall
moduliert und umso ausgeprägter ist sein Spektrum.
Während also beim labiodentalen [f] das Spektrum
sehr flach ist, weist das velare [x] bereits formantähnliche Strukturen auf.
Das Frikativspektrum weist wesentlich mehr Intensität
in den höheren Frequenzbereichen oberhalb von 2500
Hz auf als in den unteren Frequenzbereichen. Je nach
Artikulationsort konzentriert sich dieses 'Rauschen‘ auf
bestimmte Frequenzbereiche.
Sitzung 9
FRIKATIVE


Ein wichtiges Merkmal besonders zur Unterscheidung
der hinteren Artikulationsstellen ist neben den
Transitionen die spektrale Zusammensetzung des
Frikativschalls, sein Schwerpunkt und seine
Gesamtintensität. Das Frikativspektrum wird durch die
Passage des frikativen Grundschalls von dem Ort der
Engebildung bis zur Mundöffnung geprägt. Je länger die
Passage, desto tiefer sind die am Mund abgestrahlten
Frequenzen, bzw. ihr Gesamtschwerpunkt.
Je weiter hinten die Artikulationsstelle des Frikativs liegt,
desto tiefer liegt auf der Frequenzachse die untere
Grenze des Frikativschwerpunktes (vgl. [s] und []) und
desto strukturierter ist das Frikativspektrum (vgl. [f] und
[h]).
Sitzung 9
Labiodental [f v]

Das Spektrum labiodentaler Frikative ist flach. Ihre
Energie ist gleichmäßig über alle Frequenzbereiche
verteilt mit einer leichten Energiekonzentration im
obersten Frequenzbereich oberhalb von 6000 Hz. [f]
und [v] sind - besonders im Vergleich zu [s] und [S] Frikative geringer Energie.
Sitzung 9
Alveolar [s z]

Das Spektrum der alveolaren Frikative weist
insgesamt eine sehr hohe Intensität auf. Es gibt eine
Energiekonzentration im Bereich von 5000 Hz bis
8000 Hz. Die Untergrenze des Energieschwerpunktes
(= Eckfrequenz) kann bei angrenzenden hinteren
Vokalen um bis zu 1000 Hz tiefer liegen.
Sitzung 9
Postalveolar [ ]

Postalveolare Frikative weisen im Zeitsignal die
stärkste Energie, d.h. die höchste Amplitude auf.
Dadurch weisen sie im Sonagramm einen sehr hohen
Schwärzungsgrad auf. Ihr Energieschwerpunkt liegt im
Bereich von 2500 Hz bis 7000 Hz. Damit liegt ihr
Schwerpunkt um bis zu 2500 Hz tiefer als bei den
alveolaren Frikativen. Die Schwerpunktsuntergrenze
(= Eckfrequenz) variiert ebenfalls je nach
angrenzendem Vokal.
Sitzung 9
Palatal [ç j]

Palatale Frikative sind wesentlich intensitätsschwächer
als alveolare oder postalveolare. Ihr Frequenzschwerpunkt reicht hinunter bis ca. 3000 Hz und kann bereits
formantähnliche Strukturen aufweisen. Damit liegt ihre
Schwerpunktuntergrenze über der der postalveolaren
Frikative.
Dieses Faktum widerspricht dennoch nicht dem
Gesetz der artikulatorischen Tiefe, da sich beim
postalveolaren Frikativ [] die vordere Mundraumpassage durch Lippenrundung verlängert. Dadurch
liegt dieser, absolut gemessen, von der Mundöffnung
weiter hinten als der palatale Frikativ.
Sitzung 9
Velar [x]


Der velare Frikativ [x] zeichnet sich durch Friktionsenergie bis in die untersten Frequenzbereiche aus und
läßt sich dadurch vom palatalen [ç] unterscheiden. Sein
Spektrum weist eine relativ gut ausgeprägte formantähnliche Struktur auf. Sie variiert zwar in Abhängigkeit
von den angrenzenden Vokalen, entspricht aber nicht anders als beim glottalen /h/ - deren Formantstruktur.
Zur Unterscheidung von [x] und [ç] kann im Deutschen
der vokalische Kontext hinzugenommen werden, der
entscheidet, welches /ch/-Allophon produziert wird, da
beide distributive Allophone des Phonems /ch/ sind. So
taucht das [x] niemals nach vorderen Vokalen oder initial
auf. Das [ç] dagegen kann sowohl initial als auch im
Diminuitivsuffix "-chen" nach jedem Vokal auftreten.
Sitzung 9
Glottal [h]




Der glottale Frikativ ist ein stark koartikulierter Laut.
Das /h/ bezieht seine Vokalqualitäten aus dem
phonetischen Kontext, d.h. sowohl aus dem
vorausgehenden als auch dem folgenden Vokal.
Auch im vokalischen Kontext zeigen sich im Bereich
von 300 Hz bis 2400 Hz keine Transitionen an den
Grenzen des Frikativs.
Lediglich der dritte Formant F3 scheint konstant und
damit unabhängig vom Vokalkontext und /h/immanent zu sein. Er liegt zwischen 2500 Hz und
2800 Hz.
Zusammenfassung
Koartikulation
„Apart“
„spart“
„Bart“
[  ph a
 t
] [ p   t
] [ b

_________________

M.
___________________________________________________________________
___________________________________________________________________
N.
___________________________________________________________________
___________________________________________________________________
S. xxxx
xxxxxxxx
xxxxxxxxx
xxxxxxxxx
___________________________________________________________________
(M. = Mundraum; N. = Nase (Velum); S. = Stimmritze)

Zusammenfassung
Koartikulation
S
t
r
ei
k
p
o
s
t
e
n
[ 
t


k
ph

___________________________________________________________________
M.
___________________________________________________________________
___________________________________________________________________
N.
___________________________________________________________________
___________________________________________________________________
S.
xxxxxxxxxxx
xxxx
xxxxxxxxxxx
___________________________________________________________________
(M. = Mundraum; N. = Nase (Velum); S. = Stimmritze)
.
Zusammenfassung
Artikulation  Akustik

Die Erzeugung der akustisch unterschiedlichen Laute, die für
die sprachliche Informationsübertragung nötig sind, beruht auf:
1. unterschiedlichen Arten der Umwandlung kinetischer Energie
(Luftstrom) in akustische Energie (Schwingungsformen),
2. der weiteren Modifikation (= Färbung) der erzeugten akustischen
Signale.
 Diese zwei Stufen der akustischen Lautproduktion werden in einem
Modell zusammengefasst:
“Source-Filter Model” (Deutsch: “Anregung-Filter Modell”)
d.h., die Energieumwandlung ist die akustische Anregung und die
Modifikation/Färbung ist die Filterung der akustischen Energie.
Zusammenfassung
Unterschiedliche Zungenformen verändern die
Hohlräume und somit die Resonanzen, z.B.:
Großer hinterer Hohlraum
kleiner vorderer Hohlraum
Kleiner hinterer Hohlraum
großer vorderer Hohlraum
Zungenform und Lippenpositionen für Vokale
Zusammenfassung
Hohlräume und Vokalqualität
Hier werden die
Werte des ersten und
des zweiten
Formanten (F1 &
F2) im Verhältnis
einerseits zum
Pharynx und zum
oralen Hohlraum,
Zusammenfassung
Hohlräume und Vokalqualität
Hier werden die
Werte des ersten und
des zweiten
Formanten (F1 &
F2) im Verhältnis
einerseits zum
Pharynx und zum
oralen Hohlraum,
andererseits zur
Zungenhöhe und
Zungenposition.
Zusammenfassung
Wie kann man sich Formantwerte merken?
freq.
Gerundete, vorgestülpte Lippen
verlängern den oralen Hohlraum
und senken F2.
F2
F2
F1
F1
i
e
E

A

o
u
Zusammenfassung
Deutsche
Vokale
(nach Neppert &
Petursson)
Zusammenfassung
Nasale mit komplexem Resonator

Pharynx + Nasaltrakt = Hauptresonator;
Oraltrakt = Nebenresonator
Nasaltrakt
Resonator
Nasenausgang
Oraltrakt
Resonator
PharynxResonator
Zungen- oder
Lippenverschluss
Glottis
Mundausgang
Zusammenfassung
Sind /m

N/ unterschiedlich?
Kaum! Der Hauptresonator bleibt konstant; die
Nebenresonatoren variieren (dies wirkt sich ein wenig auf die
Stärke der Resonanzen aus).
Engl.
“pin“
“Tim
“King“
Zusammenfassung
Frikative
Frikative entstehen durch Turbulenz an einer Verengung (Quelle). Die
Färbung des Rauschens wird durch die Resonanzeigenschaften des
vorderen Hohlraums bestimmt:
Je kleiner desto höher die Frequenz des Rauschens
Verengung
Hinterer Hohlraum
Vorderer Hohlraum
Glottis
Lippen
Luftstrom
Quelle der Turbulenz
Modell für Frikativproduktion
Zusammenfassung
Sibilanten
Frikative mit zusätzlichem Rauschen durch Turbulenz an
den Zähnen = Sibilanten: /s
z

/
Verengung
Vorderer Hohlraum
Hinterer Hohlraum
Luftstrom
Hindernis
(Zähne)
primäre Quelle Quelle sekundärer
der Turbulenz Turbulenz
Modell für Sibilantenproduktion
Zusammenfassung
Andere Frikative

Frikative ohne zusätzliche Turbulenz: (labio-)dentale [f,
v, T, D]; palatale [C, ]; velare [x, ];
pharyngale [, ] und glottale [h, ].

Von der (labio-)dentalen Verengung (fast ohne Resonator)
bis zur glottalen Verengung (mit dem ganzen Vokaltrakt als
Resonator) wird der Resonator größer.
Dies hat tiefer-frequentigen Resonanzen zur Folge.
Zusammenfassung
Andere Frikative 2
[f] [T] [s]
[] [C]
sibilants
[x]
[] [h]
Zusammenfassung
Plosive: akustische Unterschiede
[
b
1. Verschlussdauer?
3. Lösungsenergie?
[
]
p
[
]
2. Stimme im Verschluss?
4. Formanttransitionen?
p
Zusammenfassung
Plosive: akustische Unterschiede (2)
[
d
1. Verschlussdauer?
3. Lösungsenergie?
[
]
t
[
]
2. Stimme im Verschluss?
4. Formanttransitionen?
t
Zusammenfassung
Plosive: akustische Unterschiede (3)
[
g
1. Verschlussdauer?
3. Lösungsenergie?
[
]
k
[
2. Stimme im Verschluss?
4. Formanttransitionen?
] k