Podstawy akustyki

Download Report

Transcript Podstawy akustyki

D•więk w multimediach
Ryszard Gubrynowicz
[email protected]
Wykład 7
1
Jak stany emocjonalne
znajdują swoje odbicie
w mowie ?
2
Interpretacja aktorska
happy
sad
angry
interested
bored
3
Funkcje emocjonalne cech
prozodycznych
Słuchacz na ogół kontroluje w wypowiedzi swój
stan emocjonalny. W jego wyrażeniu posługuje
się przede wszystkim tempem mówienia,
głośnością, wprowadzaniem dodatkowych pauz,
przedłużaniem niektórych dźwięków, a także
modulowaniem melodii. W wypowiedziach
nacechowanych emocjonalnie wahania melodii
są znacznie większe, niż w wypowiedziach o
charakterze neutralnym. Neutralne – 3-4 tony, z
dużym ładunkiem emocjonalnym - > 1 oktawy.
4
Przykład opozycji szczęśliwy –
smutny w konturze melodycznym
5
Przykład opozycji szczęśliwy –
gniewny w konturze melodycznym
6
Przykład z dialogu typu HMIHY –
How may I help you ?
Very Frustrated
Somewhat Frustrated
7
Trudności w określaniu emocji
Nadanie wypowiedzi określonego typu emocji
jest zadaniem bardzo złożonym. Osoby
określające typ wypowiedzi pod względem
emocji rzadko są zgodne w swych ocenach, z
wyjątkiem krańcowych, lub wyraźnie
kontrastowych typów emocji
Słuchacze w swojej ocenie głównie opierają się
na cechach prozodycznych, zwłaszcza na
iloczasach i stylizowanym przebiegu F0.
8
Interkorelacje między emocjami
Emotion
angry
bored
frust
0.44
0.44
0.26
0.22
-0.27
angry
0.70
0.21
-0.41
bored
0.14
-0.14
-0.28
0.32
sad
frustrated
sad
anxs
friend
anxious
friendly
conf
happy
inter
encour
-0.42
-0.32
-0.33
-0.37
-0.09
-0.32
-0.17
-0.32
-0.42
-0.27
-0.43
-0.09
-0.47
-0.16
-0.39
-0.14
-0.25
-0.17
0.44
0.77
-0.32
-0.14
0.59
0.75
confident
0.45
0.51
happy
0.58
0.73
interested
0.62
encouraging
(p < 0.001)
9
Cechy emocji w sygnale mowy



Prozodia nie uwzględnia jakości głosu, która
może również nieść informację o stanie
emocjonalnym osoby mówiącej (chrypka, krzyk,
szept itp.) czy stylu mówienia (hyperartykulacja,
wstawianie wydłużonych pauz…)
Wydaje się, że cechy akustyczne emocji mogą
być specyficzne dla języka
Trudności w jednoznacznym określaniu emocji w
sygnale mowy – często niesie równolegle
szereg emocji jednocześnie, o podobnym
charakterze
10
Emocje w płaszczyźnie subiektywnej
11
Emocje kontrastowe w płaszczyźnie
akustycznej
Strach/złość
- zwiększona prędkość i
głośność wypowiedzi
- podwyższone F0
- zwiększony zakres F0
- zaburzony rytm mowy
- dokładniejsza
artykulacja
- zwiększona energia w
zakresie wyższych
częstotliwości
Smutek/odprężenie
- zmniejszona prędkość i
głośność wypowiedzi
- obniżone F0
- zmniejszony zakres F0
- wyrównany rytm mowy,
płynna mowa
- niedokładna artykulacja
- obniżona energia w
zakresie wyższych
12
częstotliwości
Miary akustyczne emocji
F0: zakres zmian, wartość średnia, nachylenie
konturu (w górę/w dół), kształt konturu na sylabach
akcentowanych
Struktura harmoniczna sygnału: udział szumów
przydechowych, laryngalizacja (zwężone impulsy
krtaniowe, duża zmienność okresu tonu
krtaniowego)
Jasność brzmienia: stosunek energii w górnym
zakresie częstotliwości do energii w dolnym
zakresie
Głośność: zakres zmian, wartość średnia, kontur,
plozji
Iloczasy: pauz, wyrazów, samogłoska/spółgłoska,13
Wpływ emocji na głos i mowę
14
Cechy mowy emocjonalnej
15
Udział cech mowy w detekcji
stanu emocjonalnego - radość
Dla języka niemieckiego
F0śred :+50%
Zakres zmian F0 :+100%
Tempo : +30%
Jakość głosu = normalny lub napięty,
wskaźnik rozchylenia warg F1/F2:+10%
16
Cechy istotne w detekcji stanu
emocjonalnego – złość
Dla języka BE
F0śred :+10 Hz
Zakres zmian F0 : 9 półtonów
Zmiana tempa mowy: +30 słów/min
Głośność: +6 dB
Jakość głosu: laryngalizacja (+78%)
Inne: wzrost F0 na akcentowanych sylabach
zależnie od stopnia emocji - 10,20 i 40%
(podkreślona)
17
Cechy istotne w detekcji stanu
emocjonalnego – smutek
Wg skali oceny subiektywnej – język AE
F0śred : „0” linia odniesienia - „-1”, końcowe
obniżenie, co najmniej „-5”
Zakres zmian F0 : „-1 -5”
Zmiana tempa mowy : „-10”, pauzy niezbyt długie
„+5”, wahania (pauzy) „+10”
Głośność: „-5”
Jakość głosu: przydechowy „+10”, jasność „-9”
Inne: podniesienie częstotliwości na sylabie
akcentowanej „+1”, dokładność artykulacji „-5” 18
Cechy istotne w detekcji stanu
emocjonalnego – zdziwienie
Wg skali oceny subiektywnej – język AE
F0śred : „0” linia odniesienia - „-8”
Zakres zmian F0 : „+8”, skokowe zmiany konturu
melodycznego
Zmiana tempa mowy : „+4”, pauzy wydłużone „-510”
Głośność: „+5”
Jakość głosu: jasność „-3”
19
Ranking cech akustycznych emocji
SFFS- Sekwencyjna selekcja podzbioru cech
Cecha akustyczna
SFFS-Rank
Single Perf.
F0, maksymalne nachylenie
1
31.5
FO, standardowe odchylenie odległości
między przeciwstawnymi sobie punktami
2
23.0
F0, wartość średnia
3
25.6
Sygnał, gęstość przejść przez zero
4
16.9
F0, odchylenie standardowe
5
27.6
Iloczas pauz, wartość średnia
6
17.5
Iloczas głosek dźwięcznych, wartość średnia
7
18.5
Energia, średnia czasu opadania
8
17.8
Energia, średnia odległość między
przeciwstawnymi sobie punktami
9
19.0
Energia, średnia czasu narastania
10
17.6
20
Synteza mowy emocjonalnej
21
http://emosamples.syntheticspeech.de/#big4
Mechanizm percepcji dźwięków
22
Układ akustyczny
odbiornik - ośrodek - źródło
23
Narząd słuchu
W systemie percepcji dźwięków można wyróżnić 2
zasadnicze – układ peryferyjny słuchu i układ
nerwowy tego narządu poprzez który dokonywane
jest przetwarzanie bodźców na wyższych piętrach
układu nerwowego (w mózgu). W narządzie słuchu
dokonywane jest przetwarzanie zmian ciśnienia
akustycznego na rozkład drgań na błonie
podstawnej, który jest przekształcany na
odpowiednie serie impulsów pobudzających nerw
słuchowy. Informacje o odbieranych sygnałach
docierających do narządu słuch są ekstrahowane
24
na różnych poziomach układu nerwowego.
Anatomia narządu słuchu
25
Zasadnicze elementy
narządu słuchu
26
Schemat funkcjonalny organu słuchu
27
Charakterystyka częstotliwościowa
ucha zewnętrznego
Charakterystyka małżowiny – kąt 450
28
Ucho środkowe (przekrój)
1 – młoteczek
2 – kowadełko
3 – strzemiączko
4 – błona bębenkowa
5 – okienko okrągłe
6 – trąbka
Eustachiusza (łączy z
częścią gardłowonosową)
29
Ucho środkowe (od wewnątrz)
1 – młoteczek, 2 – jego ścięgno
3 – kowadełko, 4 – jego ścięgno
6 – stopa strzemiączka, 5 – mięsień
strzemiączka
7 – błona bębenkowa
Układ kosteczek słuchowych (1,3,6)
jest układem mechanicznym
dopasowującym drgania w
powietrzu do drgań w płynie którym
jest wypełnione ucho wewnętrzne.
Bez tego układu 98% energii akustycznej
uległoby odbiciu.
30
31
Funkcje kosteczek słuchowych
 swoistego
rodzaju układ przekładni mechanicznej
dopasowujący drgania w powietrzu do drgań w cieczy.
Zamienia duży ruch tłoka o dużej powierzchni (błona
bębenkowa) na mały ruch tłoka o małej powierzchni
(podstawa strzemiączka w okienku owalnym). Wzmocnienie
siły wynosi 27 razy. Transmisja dźwięków jest
najskuteczniejsza w przedziale częstotliwości 500-4000 Hz.
 układ zabezpieczający – powyżej 90 dB(<1-2 kHz), następuje
wzrost napięcia mięśni usztywniających układ kosteczek, w
wyniku czego następuje ograniczenie przepływu energii
akustycznej (odruch strzemiączkowy). Odruch ten jest zbyt
wolny by chronić ucho przed hałasem impulsowym, np.
32
wystrzał z broni palnej, gwałtowne pęknięcie ABS.
Jak działa ucho środkowe ?
Niska częstotliwość fali
Wysoka częstotliwość fali
docierającej do ucha
docierającej do ucha
Strzemiączko jest tłokiem umieszczonym w ścianie
kostnej ucha wewnętrznego (w okienku owalnym).
Tłok pobudza do drgań nieściśliwą ciecz wypełniającą
33
przestrzenie ucha wewnętrznego.
Praca układu kosteczek
ucha środkowego
34
Wzmocnienie w uchu środkowym
Występują tu dwa efekty – efekt wzmocnienia
tłokowego (S1 /S2 ) ≈ 20 . S1 = 0.6 cm2
Efekt dźwigni (kosteczki) - d1/d2=1.3
Łączne wzmocnienie = 26 (28 dB)
35
Charakterystyka transmitancji
ucha środkowego
36
Funkcje transmitancji ucha
zewnętrznego i środkowego
Zewnętrzny przewód słuchowy (o długości 2-3 cm,
średnica 1 cm) ma skomplikowaną geometrię, co
powoduje, że w jego charakterystyce transmitancji
występuje szereg rezonansów (ok. 6) w zakresie
od 3 do 12 kHz. Małżowina uszna wspomaga
kierunkowe słyszenie dźwięków.
Funkcja transmitancji ucha środkowego ma jeden
dominujący rezonans w pobliżu 1 kHz. Razem,
obie części narządu słuchu kształtują
częstotliwościową charakterystykę czułości słuchu
z szerokim maksimum położonym w pobliżu 3 kHz.
37
Porównanie charakterystyki czułości
słuchu z łączną charakterystyką ucha
zewnętrznego i środkowego
Ucho wewnętrzne działa jak swoistego rodzaju detektor
38
poziomu o stałym poziomie detekcji
Budowa ślimaka
1 – kanał ślimakowy, 2 – schody
przedsionka 3 – schody bębenka,
4 – zwój nerwowy
5 – nerw słuchowy
5 mm
Ślimak płodu (5 mies) – 2,5 zwojów
o – okienko owalne, r – okienko
okrągłe (struktura kostna usunięta)
39
40
41
The organ of Corti
Basilar membrane: it moves according to the
Auditory nerve axons
pressure wave induced by the movement of
VIII cranial nerve
the eardrum on the oval window
Hair cells
Two groups of hair cells: 1 row of
Inner Hair Cells (IHC)and 3 rows of
Outer Hair Cells (OHC)
Hair cells have stereocilia or “hairs” at
their top. Their height increases
progressively along the cell. The
longest is called “kinocilium”
inner
IHC connect to 90-95% of afferent
auditory fibers
outer
OHC are mostly efferent: top-down
information modulates their response
Dynamics of hair cells
1. Movement of basilar membrane
3. Receptor potential. Depolarization because of
the entry of Potassium ions (K+) and subsequent
entry of Calcium ions (Ca++)
2. Hair cell movement: increasing
tension opens the ionic channels
in the hair cells. An ionic
exchange happens
4. Synaptic vesicles release a
neurotransmitter (glutamate),
triggering the nervous impulse
Pobudzanie ślimaka
Długość membrany podstawnej – ~35mm
45
Drgania membrany podstawnej
Przebieg sinusoidalny
niskiej częstotliwości
Przebieg sinusoidalny
o wysokiej częstotliwości
Membrana tu drga niemal Tu membrana drga tylko
46
do określonego miejsca
na całej swej długości
Rozkład drgań na membranie
podstawnej – 100 Hz
47
Rozkład drgań na membranie
podstawnej – 400 Hz
48
Rozkład drgań na membranie
podstawnej – 1200 Hz
49
Rozkład drgań na membranie
podstawnej – 4800 Hz
50
Drgania membrany podstawnej przy
pobudzeniu tonem sinusoidalnym
podstawa
osklepek
Dźwięki o różnych częstotliwościach wywołują
maksymalny ruch membrany w jej różnych miejscach.
W ten sposób powstaje przełożenie częstotliwości
dźwięku na miejsce i dalej na odpowiednio
51
zróżnicowanej odpowiedzi neuronów.
Pobudzanie membrany podstawnej
przez dźwięk złożony
52
Przekrój zwoju ślimaka
53
Przekrój zwoju ślimakowego
Schody przedsionka
Organ
Cortiego
Schody bębenka
4 – błona Reisnera, 5 – membrana
podstawna, 6 – błona pokrywkowa
54
Schemat organu Cortiego
1- wewnętrzne
komórki rzęskowe
2- zewnętrzne
komórki rzęskowe
3- tunel Cortiego
4- membrana
podstawna
5- błona
siateczkowata
6- błona pokrywkowa
7- komórki Deitersa
8- przestrzeń Nuela
9- komórki Hensena
Drgający ruch struktur organu Cortiego wywołuje
pobudzenie neuronów, co powoduje, że słyszymy 55
dźwięk
Organ Cortiego i włókna nerwowe
Graeme Clark
The Bionic Ear
Institute
Zewnętrzne k. rz.
Wewnętrzne k. rz.
Blona podstawna
Odśrodkowe
nerwy słuchowe
mózg
56
Płyny w ślimaku
3 zwoje ślimaka są
wypełnione płynami
– endolimfą i
perylimfą. Mają one
zasadnicze
znaczenie dla
działania komórek
rzęskowych, które
wytwarzają impulsy
elektryczne
Różnice w składzie jonowym endolimfy i perylimfy
powoduje powstanie między nimi różnicy napięć około
57
80 mV.
Komórki rzęskowe zewnętrzne
i wewnętrzne
wewnętrzne
zewnętrzne
W ślimaku jest 3 500 wewnętrznych komórek
rzęskowych i 12 000 zewnętrznych. Jest to znikoma
ilość w porównaniu z receptorami narządu wzroku
58
Funkcje komórek rzęskowych
Komórki rzęskowe wewnętrzne są przymocowane do
doprowadzających włókien nerwu ślimakowego i ich funkcją
jako „rzeczywistych komórek słuchowych” jest zamiana
informacji akustycznej na sygnały nerwowe. Komórki
rzęskowe zewnętrzne są w przeważającym stopniu
stymulowane przez włókna odprowadzające nerwu
ślimakowego i często są opisywane jako „silnik” ślimakowego
wzmacniacza. Ich zadaniem jest spowodowanie, aby
maksymalne uwypuklenie błony podstawnej było bardziej
wyraźne tak, aby komórki rzęskowe wewnętrzne to
zarejestrowały. Tak więc komórki rzęskowe zewnętrzne służą
jedynie do tego by wzmocnić wędrującą falę, podczas gdy
komórki rzęskowe wewnętrzne zamieniają bodźce
mechaniczne na potencjał bioelektryczny.
59
Efekt współdziałania zewnętrznych i
wewnętrznych komórek rzęskowych
Tylko dzięki współdziałaniu i wzajemnym
oddziaływaniu komórek rzęskowych
wewnętrznych i zewnętrznych ucho posiada tak
niski próg słyszenia (= podwyższenie amplitudy
wędrującej fali) i taką czułość w rozróżnianiu
częstotliwości(=strome przesunięcie wędrującej
fali).
60
Uszkodzona komórka rzęskowa
zewnętrzna
zewnętrzne
wewnętrzne
Uszkodzona komórka rz.
61
Przestrzenny rozkład drgań w
błonie podstawnej
Okienko owalne
Kierunek rozchodzenia się fali bieżącej
podstawa
osklepek
62
Rozkład komórek rzęskowych na
błonie podstawnej
type 1
type 2
Nerwy słuchowe w uchu wewnętrznym
Ludzki
włos
Zewnętrzne k.rz.
60 µm
Wewnętrzne k.rz.
Błona siateczkowata
Spiralny zwój nerwowy
20 µm
64
Wise et al, The Bionic Ear Institute, 2003.
Mechaniczne i elektryczne
własności komórek rzęskowych
Przy podstawie (bliżej okienka owalnego) komórki
rzęskowe rozmieszczone wzdłuż błony podstawnej są
odpowiednio dostrojone częstotliwościowo
elektrycznie jak i mechanicznie. Rzęski przy okienku
owalnym są krótsze i sztywniejsze, te bardziej
oddalone są dłuższe i bardziej elastyczne.
Jednocześnie własności komórek rzęskowych,
decydujące o częstotliwości wyładowań elektrycznych
własnych, są zgodne z rozmieszczeniem komórek
wzdłuż membrany podstawnej. Częstotliwość
wyładowań jest zgodna z rozkładem rezonansów
błony podstawnej. A każdy neuron ma swoją
65
„częstotliwość charakterystyczną”.
Schemat działania organu Cortiego
Rzęski zaczynają wychylać się w dwie strony (wychylenie czubków – 0.3 nm). W
tym samym czasie dochodzi do zamykania się i otwierania kanałów jonowych .
Dzięki nim z endolimfy ślimaka do wnętrza rzęsek napływają jony potasu. W ten
sposób zostają wywołane chwilowe zmiany potencjału. Na zmiany te reagują
zakończenia komórek nerwowych, które powstałe pobudzenie przekazują dalej do
66
wyższych pięter układu słuchowego.
67
Rozkłady drgań na błony
podstawnej w funkcji częstotliwości
Poziom =>
głośny
cichy
f= 1000 Hz
f= 8000 Hz
f= 1000 Hz
i 8000 Hz
68
Synchronizacja fazowa
Komórki rzęskowe rozmieszczone wzdłuż błony
podstawnej są odpowiednio dostrojone
częstotliwościowo elektrycznie, jak i mechanicznie.
69
Synchronizacja fazowa
Odpowiedź neuronu słuchowego na
dźwięki o niskiej częstotliwości
Odpowiedź pozostaje zsynchronizowana dla dużego zakresu intensywności71
Synchronizacja fazy z
pobudzeniem sinusoidalnym
Dla częstotliwości < 5 kHz, impulsy nerwowe
pojawiają się z określoną fazą zgodnie z cyklem
sygnału pobudzającego. Wyładowania te nie
pojawiają się w każdym cyklu pobudzenia.
Jednakże odległość między pojedynczymi
impulsami może wynosić 2,3 lub więcej cykli.
72
Schemat synchronizacji pobudzeń
Schemat
pobudzenia
neuronu
73
Zsynchronizowana odpowiedź
słuchowa
• Włókna nerwowe synchronizują swoją
odpowiedź w celu jej wyostrzenia w zakresie
niskich częstotliwości i wygładzenia obwiedni
w zakresie wysokich częstotliwości
• Synchroniczność odgrywa istotną rolę w
procesie lokalizacji źródeł dźwięków
74
Zakres dynamiczny słyszenia
• Im większa jest liczba impulsów/s tym większe
wrażenie głośności
• Im większa jest liczba pobudzonych zakończeń 75
nerwowych, tym dźwięk jest odbierany jako głośniejszy
Częstotliwościowa czułość słuchu
Pomiar dla pojedynczego nerwu. Charakterystyka jest
symetryczna w skali log f.
76
Odpowiedź włókna nerwowego na 2
tony
Pojawienie się tonu w strefie zakreskowanej powoduje
zmniejszenie się liczby impulsów odpowiadającej tonowi
testowemu, co zwiększa lokalny kontrast częstotliwości.
77
Częstotliwościowa zależność poziomu
progowego włókien nerwowych
Szerokość pasma zależy od częstotliwości środkowej .
Częstotliwościowe zakresy odpowiedzi są asymetryczne.
78
Membrana podstawna – rozkład
częstotliwości
Od osklepka
(szczytu) w kierunku
podstawy błony
podstawnej rozkład
miejsc pobudzeń
zmienia się
proporcjonalnie do
logarytmu
częstotliwości
79
Membrana podstawna – rozkład
częstotliwości pobudzeń
Znaczna część długości błony
podstawnej reaguje na niższy
zakres częstotliwości (zakres
F1 w mowie), przy czym
większość odpowiedzi
neuronów jest w zakresie
poniżej środkowych
częstotliwości (2-3 kHz).
80
Słuch, mowa w korze mózgowej
Ośrodek Wernickego – słuchowy ośrodek mowy
Obszar Broca – okolica ruchowa mowy
81
Kodowanie częstotliwości w mózgu
Graeme Clark
The Bionic Ear Institute
2
5
10 20
pole
słuchowe
5 kHz
10 kHz
ślimak
2 kHz
20 kHz
82
83
Implant ślimakowy – część zewnętrzna
1. mikrofon 2. przewód doprowadzający 3. procesor mowy
4 cewka odbiorcza 5. cewka odbiorcza wysyłająca poprzez
skórę sygnały FM do implantowanego odbiornika
pobudzającego 6. odbiornik pobudzający 7. elektrody
pobudzające zakończenia nerwu słuchowego w ślimaku
8. nerw słuchowy
84
Implant ślimakowy – część wewnętrzna
85
Elektrody implantu ślimakowego
86
Wymiary elektrod
0.45mm
0.3mm
87
Procedura SPEAK
/a/
Sygnał mowy
20-kanałowy zestaw
filtrów pasmowych
Widmo chwilowe
6 maksymalnych
napięć
Powierzchnia elektrod
osklepek
88
podstawa
Symulacja działania implantu
ślimakowego
Wav ef orm of Original Sound
8
2
6
Amplitude
Amplitude
Simulated wav ef orm
1.5
4
2
0
TextEnd
1
0.5
-2
0
-4
-0.5
-6
x 104
0
0.5
1
1.5
2
2.5
Time (sec)
3
3.5
4
4.5
-1
5
TextEnd
0
0.5
1
8000
6000
6000
Frequency
Frequency
Spectrogram of Original Sound
8000
4000
TextEnd
2000
1.5
2
2.5
Time (sec)
3
3.5
4
4.5
3.5
4
4.5
Spectrogram of simulated wav ef orm
4000
TextEnd
2000
0
0
0.5
1
1.5
2
2.5
3
3.5
4
4.5
0
0
0.5
Time
From herrick_uedamodel/script_demo1:
best 6 of 16 channels, 250 Hz pulserate, 16 kHz sampling H/U filterbank
1
1.5
2.5
2
3
Time
89
Wpływ liczby kanałów pobudzających
na zrozumiałość mowy
1
2
4
8
16
90