Bevezetés a méréstechnikába

Download Report

Transcript Bevezetés a méréstechnikába

Beszédfelismerés és beszédszintézis
Spektrális módszerek a
beszédfeldolgozásban
Takács György
3. előadás
2013. 02. 20.
T.Gy. Beszedfelism es szint.
2013.02.20.
1
Tartalom
• Ismétlés
• A beszéd, mint lineáris idővariáns rendszer
• Fourier-módszerek, spektrális alapfogalmak – mi az,
amire léteznek eszközök (periodikus jel, egyszeri
folyamat, sztochasztikus folyamat)
• A gördülő spektrum
• Kváziperiodikus jel jellemzése Fourier-sorok
sorozatával
• Spektrum-burkoló, formáns
• Magánhangzók, felpattanó zárhangok jellemzői,
lokusz
T.Gy. Beszedfelism es szint.
2013.02.20.
2
A természetes beszédlánc
T.Gy. Beszedfelism es szint.
2013.02.20.
3
Beszédhang
• A legkisebb olyan egységek, amelyek sorozatával
egy nyelvet megvalósító beszéd akármilyen részlete
az agy számára reprodukálható, beszédhangnak
nevezzük.
• A beszédhangok a beszéd olyan szegmensei,
részletei, amelyeket a nyelvet beszélő egymástól
elkülöníteni és felismerni teljes biztonsággal képes.
• A beszédhangok a nyelvre jellemzőek!
• Egyes nyelvekben a hangmagasság hajlítása is
megkülönböztet beszédhangokat.
• Az élő beszéd olyan leírása, amely a beszéd
hangzásának leírására törekszik – a fonetikai átírás.
Ennek elterjedt rendszerei az APhI és a SAMPA.
T.Gy. Beszedfelism es szint.
2013.02.20.
4
A beszédhangok folytonos és
diszkrét természete
T.Gy. Beszedfelism es szint.
2013.02.20.
5
A beszéd szerkezete
• A beszéd egymástól megkülönböztethető
elemek szervezett időbeni egymásutánisága
– soros szerkezet.
• Elem lehet egy összefüggő mondanivaló, egy
hosszabb szünetekkel elhatárolt beszédrész,
egy mondat, egy szó, egy beszédhang.
• Egy ötven beszédhangból álló nyelvben
(leszámítva, hogy nem minden hang
mondható egymás után) kb. egymillió
különböző tíz hangból álló szó képezhető.
• A beszéd szerkezete felülről gyakorlatilag
nyitott, alulról zárt.
T.Gy. Beszedfelism es szint.
2013.02.20.
6
A fonéma
• Egy nyelv fonémakészlete elemek olyan
minimális számosságú halmaza,
amelyből minden szó jelentéshelyesen,
de csak egyféleképpen állítható elő
• A fonémakészlet elemei a fonémák.
• Az azonos fonémákat képviselő
beszédhangok az allofonok.
T.Gy. Beszedfelism es szint.
2013.02.20.
7
T.Gy. Beszedfelism es szint.
2013.02.20.
8
T.Gy. Beszedfelism es szint.
2013.02.20.
9
T.Gy. Beszedfelism es szint.
2013.02.20.
10
T.Gy. Beszedfelism es szint.
2013.02.20.
11
A beszéd, mint lineáris idővariáns
rendszer
• A beszéd, mint akusztikus jelenség egy
rendszer bizonyos gerjesztésekre adott
válasza
gerjesztés
g(t)
Lineáris
idővariáns
rendszer
T.Gy. Beszedfelism es szint.
2013.02.20.
válasz
v(t)
12
Időben
változó
toldalékcső
válasz
Gerjesztések
különböző
helyeken
g(t)
H
v(t)
lineáris idővariáns rendszer
T.Gy. Beszedfelism es szint.
2013.02.20.
13
A gerjesztés és válasz kapcsolatát leíró általános kapcsolat
v(t )  H g (t )

Ha a rendszer lineáris, akkor érvényes rá a szuperpozíció tétele,
azaz több gerjesztésre adott válasz az egyes gerjesztésekre adott
válaszok összege.
H 1 g1 t   2 g2 t    1H g1 t   2 t H g2 t 

Egy lineáris rendszer a magfüggvénnyel leírható, azaz létezik egy olyan
magfüggvény, amellyel tetszőleges g(t) gerjesztésre adott v(t) válasz
megadható

v(t )   ht , g  d

A h magfüggvény lefutása függ attól, hogy a rendszert melyik
időpillanatban érte a gerjesztés.
A válasz egy adott időpillanatban a gerjesztésnek nemcsak a ugyanabban
a pillanatban felvett értékétől függ (a rendszer „emlékezik”).
T.Gy. Beszedfelism es szint.
2013.02.20.
14
Lineáris időinvariáns rendszereknél a helyzet egyszerűbb:

v(t )   h g t   d

Ebben az esetben h súlyfüggvény kapcsolatban áll a lineáris rendszer
Átviteli karakterisztikájával, azaz:

H     ht e jt dt

Av
H   
Ag
Ahol Av a válasz szinuszjel és Ag a gerjesztő
szinuszjel amplitúdója
T.Gy. Beszedfelism es szint.
2013.02.20.
15
T.Gy. Beszedfelism es szint.
2013.02.20.
16
T.Gy. Beszedfelism es szint.
2013.02.20.
17
T.Gy. Beszedfelism es szint.
2013.02.20.
18
T.Gy. Beszedfelism es szint.
2013.02.20.
19
T.Gy. Beszedfelism es szint.
2013.02.20.
20
T.Gy. Beszedfelism es szint.
2013.02.20.
21
T.Gy. Beszedfelism es szint.
2013.02.20.
22
Beszédjel spektrális
jellemzésének nehézségei
• Kezelhető periodikus függvényeknél a Fourier-sor,
Egyszeri folyamatoknál a Fourier-integrál,
stacionárius sztochasztikus folyamatoknál a
spektrális sűrűség (az autokorrelációs függvény
Fourier-transzformáltja
• A beszédjelnek csak rövid szakaszai sorolható be a
fenti függvénytípusok valamelyikébe!
• Nem tudjuk hogyan csinálja a fül!!!! Bizonyosan
végez valamifajta spektrális elemzést
• Csak véges szakaszok feldolgozása lehetséges gépi
úton.
• A periódusidő meghatározása nehéz.
T.Gy. Beszedfelism es szint.
2013.02.20.
23
T.Gy. Beszedfelism es szint.
2013.02.20.
24
T.Gy. Beszedfelism es szint.
2013.02.20.
25
T.Gy. Beszedfelism es szint.
2013.02.20.
26
T.Gy. Beszedfelism es szint.
2013.02.20.
27
A vonalas spektrum burkolója értelmezhető úgy, mint egy
folytonos függvény, amelynek értékei megegyeznek a
felharmonikus frekvenciákon a vonalas spektrum értékeivel,
egyebütt pedig sinx / x típusú interpolációval állítható elő.
T.Gy. Beszedfelism es szint.
2013.02.20.
28
Formánsok
• A magánhangzók vonalas spektrumának
burkolója több helyi maximummal
rendelkezik. Egy helyi maximumot és
környezetét formánsnak nevezzük.
Szokásos jelölésük: F1, F2, F3, … FN
T.Gy. Beszedfelism es szint.
2013.02.20.
29
Magyar magánhangzók első és második formáns frekvenciái
T.Gy. Beszedfelism es szint.
2013.02.20.
30
T.Gy. Beszedfelism es szint.
2013.02.20.
31
T.Gy. Beszedfelism es szint.
2013.02.20.
32
T.Gy. Beszedfelism es szint.
2013.02.20.
33
T.Gy. Beszedfelism es szint.
2013.02.20.
34
T.Gy. Beszedfelism es szint.
2013.02.20.
35
T.Gy. Beszedfelism es szint.
2013.02.20.
36
T.Gy. Beszedfelism es szint.
2013.02.20.
37
Felpattanó zárhangok jellemzője
• A rákövetkező magánhangzó formánsfrekvenciái a
megelőző felpattanó zárhangra jellemző módon
egy kezdő értékből indulnak ki és érik el a
magánhangzóra jellemző állandósult értéket.
• Legjellemzőbb a második formáns frekvencia
kezdőértéke, amelyet a nyelvészeti szakirodalom
lokusz-nak nevez.
T.Gy. Beszedfelism es szint.
2013.02.20.
38
T.Gy. Beszedfelism es szint.
2013.02.20.
39
T.Gy. Beszedfelism es szint.
2013.02.20.
40