Beszédfelismerés neurális hálózatokkal

Download Report

Transcript Beszédfelismerés neurális hálózatokkal

Beszédfelismerés és beszédszintézis
Beszédfelismerés neurális
hálózatokkal
Takács György
13. előadás
2012. 05. 03.
T.Gy. Beszedfelism es szint.
2012.05. 03.
1
Egy létező és működő technikai
kompromisszum:
az izolált szavas kötöttszótárú felismerő
• A felismerendő alapelemek szavak (tehát
meghatározott szótárral dolgozik)
• A rendszer két fő eleme a tényleges
felismerő és a szótárszerkesztő
• Lehet személyfüggő és személyfüggetlen
(ez alapvetően a szótáralkotásra hat ki)
T.Gy. Beszedfelism es szint.
2012.05. 03.
2
A felismerő rész fő elemei
•
•
•
•
Kezdet és vég detektálás
Lényegkiemelés
Normálás
Mintaillesztés
T.Gy. Beszedfelism es szint.
2012.05. 03.
3
Mintaillesztés
• A felismerendő szavak és a szótárelemek azonos
méretű és elemeikben is normált mátrixok
• A felismerés lényege, hogy a felismerendő beszédjelet
leíró a mátrix melyik szótárelem mátrixhoz illeszkedik
legjobban
• Kézenfekvő megoldás az elemenkénti különbségek
abszolút értekeinek halmazata alapján minimum
keresés.
• Probléma: a hibás végpont-detektálás és a
ritmuskülönbségek miatt nem összeillő elemeket vetünk
össze, ezért nagy a különbség halmazat, nincs meg a jó
illeszkedés
• Megoldás: idővetemítés, (Dynamic Time Warping)
T.Gy. Beszedfelism es szint.
2012.05. 03.
4
Idővetemítés
• xi a felismerendő szó i-edik
keretét leíró lényegkiemelt
(normált) vektor , komponensei
a sávenergiák, LPC
együtthatók stb. p elemmel
• yj az éppen vizsgált szótárelem
j-edik keretének vektora
azonos (és normált)
komponensekkel, p elemmel
• xi és yi lokális távolsága
számolható a
• képlettel
p
di , j   xi ,k  y j ,k
k 1
T.Gy. Beszedfelism es szint.
2012.05. 03.
5
A mintaillesztésen alapuló modell
problémái
• Új szótárelem – új tanítás
• Nem izolált szavakat ejtünk
• A szótár elemszáma nem növelhető
néhány száz fölé
T.Gy. Beszedfelism es szint.
2012.05. 03.
6
A markov modell
T.Gy. Beszedfelism es szint.
2012.05. 03.
7
A Markov modell előnyei
• Kezelhetővé teszi a folyamatos beszédfelismerés
problémáját,
• Szétválasztható az állapot rákövetkezések
gyakoriságának és állapotok jellegvektorokkal
kapcsolatos tulajdonságainak tanítása,
• Szétválasztható a személyfüggő és személyfüggetlen
elemek tanítása,
• Kifinomult programrendszerek forráskódú formái
rendelkezésre állnak,
• A rendszerek értékelésére gazdag tanító- és tesztadatbázisok rendelkezésre állnak a világnyelveken
T.Gy. Beszedfelism es szint.
2012.05. 03.
8
A Markov modell problémái
• Diszkrét állapotok sorozatával modellez
• Az állapotban maradás esélye dominál
• Ha egy állapotsorozat = fonémasorozat,
akkor milyen hosszú legyen a
fonémasorozat
• Nehezen kezelhetők a bizonytalan
állapotok
T.Gy. Beszedfelism es szint.
2012.05. 03.
9
A beszédhangok folytonos és
diszkrét természete
T.Gy. Beszedfelism es szint.
2012.05. 03.
10
A feladat: beszédjel bemenet – írott szöveg kimenet
T.Gy. Beszedfelism es szint.
2012.05. 03.
11
• Az időben folytonos bemenő jel jön (néha szünet)
• A kimenet diszkrét halmaz elemeinek egymás utáni
(térbeli) füzére (néha szóközi szünet).
• Az egyes halmazelemekre a megfigyelés alapján egy
vagy több jelöltet állíthatunk.
• A jelöltállítás történhet szabályos időközönként, vagy ha
új jelölt bukkan fel.
• A jelöltek akusztikai-fonetikai szinten leggyakrabban
fonémák.
• A feldolgozás több rétegben célszerű (akusztikaifonetikai réteg, szintaktikai réteg, szemantikai réteg …)
T.Gy. Beszedfelism es szint.
2012.05. 03.
12
Modellek a folyamatos beszéd
felismerési folyamatához
• Kezelni legyenek képesek a folytonos folyamat
diszkrét állapotokba átrendezését
• Minél több összefüggés megtanítása a diszkrét
reprezentáció alapján lehetséges legyen
• Alkalmas modell egy olyan neurális háló, amely
bemenetén fogadja a folyamatos beszédjelet
előfeldolgozás után és kimenetén adja a diszkrét
szimbólumokat
• Alkalmas modell egy rejtett Markov folyamat,
amely az állapotsorozatok kezelését lehetővé
teszi.
T.Gy. Beszedfelism es szint.
2012.05. 03.
13
Ha nagyon sokat tudunk a
beszédfolyamatról – mire lehet építeni a
beszédfelismerőket?
• A -- az agy beszédfelfogási folyamatait
utánzó modellekre?
• B -- beszédkeltési folyamatokat leíró
modellekre?
T.Gy. Beszedfelism es szint.
2012.05. 03.
14
A mai bemutatott neurális hálózatos
megoldás jellegzetességei
• Nem pontos mása az agyban lejátszódó
folyamatoknak, bár A típusú megoldásra tör!
• Sok ötletet próbál átvenni azokból amit tudunk
az emberi beszédérzékelési folyamatokról
• Empirikus megoldásokat keres arra is, amire
nincs átvehető és megvalósítható racionális
módszer
• A vázolt módszer csak az akusztikai-fonetikai
szintet tartalmazza, a magasabb nyelvi szintek
Prószéky Professzor Úr tárgyához
kapcsolódnak…..
T.Gy. Beszedfelism es szint.
2012.05. 03.
15
Általános alapproblémák, amelyekre az NN
alapú megközelítéstől megoldást remélünk
• A beszéd folyamatos (nincsenek szóközönként szünetek) igazi
szünetek csak nagyobb prozódiai egységek között vannak –
folyamatosan adjon a kimenet fonéma jelölteket. Adjon egy hálózat
kimenet akkor aktivitást, amikor fonéma váltás van, pedig a
fonémaváltás folytonos!
• Ugyanannak a diszkrét beszédhangnak gyakorlatilag végtelen sok
reprezentációja elképzelhető (bemondó, tempó, hangerő,
hanglejtés, hangkörnyezet, hasonulás….., érzelem függvényében) - Mégis tanítsuk a hálózatot arra, hogy fonémajelölteket adjon, a
jelöltek közül válogasson a rendszer magasabb nyelvi szinteket
alapul véve
• Elnagyolt ejtés, pontatlanság, ejtési hiba, beszédhiba, gyakran
előfordul – kisebb hálózati aktivitás jelezze az elnagyolt jelöltet is.
• „érteni” kell a mondandót ahhoz, hogy jól felismerhessük! Ez
természetesen marad a nyelvi feldolgozó szintnek.
T.Gy. Beszedfelism es szint.
2012.05. 03.
16
A feladat: beszédjel bemenet – írott szöveg kimenet
T.Gy. Beszedfelism es szint.
2012.05. 03.
17
A rendszer elemei
T.Gy. Beszedfelism es szint.
2012.05. 03.
18
T.Gy. Beszedfelism es szint.
2012.05. 03.
19
T.Gy. Beszedfelism es szint.
2012.05. 03.
20
T.Gy. Beszedfelism es szint.
2012.05. 03.
21
T.Gy. Beszedfelism es szint.
2012.05. 03.
22
T.Gy. Beszedfelism es szint.
2012.05. 03.
23
T.Gy. Beszedfelism es szint.
2012.05. 03.
24
A kettős ablak elve: a szűrőkimenetek aktuális állapotát és a durva hálózat megelőző
és rákövetkező állapotait egyszerre veszi figyelembe a fonémajelöltek számolásakor
T.Gy. Beszedfelism es szint.
2012.05. 03.
25
Az előfeldolgozó szűrő jellemzői
T.Gy. Beszedfelism es szint.
2012.05. 03.
26
A
magyar
fonéma
készlet
és az
egyes
fonémák
durva
(főbb)
képzési
jellemzői
T.Gy. Beszedfelism es szint.
2012.05. 03.
27
T.Gy. Beszedfelism es szint.
2012.05. 03.
28
T.Gy. Beszedfelism es szint.
2012.05. 03.
29
T.Gy. Beszedfelism es szint.
2012.05. 03.
30
A fonéma
jelölteket
számoló
hálózat
a
svéd
és
a magyar
fonéma
készletre
T.Gy. Beszedfelism es szint.
2012.05. 03.
31
T.Gy. Beszedfelism es szint.
2012.05. 03.
32
T.Gy. Beszedfelism es szint.
2012.05. 03.
33
T.Gy. Beszedfelism es szint.
2012.05. 03.
34
T.Gy. Beszedfelism es szint.
2012.05. 03.
35
T.Gy. Beszedfelism es szint.
2012.05. 03.
36
T.Gy. Beszedfelism es szint.
2012.05. 03.
37
T.Gy. Beszedfelism es szint.
2012.05. 03.
38
T.Gy. Beszedfelism es szint.
2012.05. 03.
39
T.Gy. Beszedfelism es szint.
2012.05. 03.
40
T.Gy. Beszedfelism es szint.
2012.05. 03.
41
T.Gy. Beszedfelism es szint.
2012.05. 03.
42
T.Gy. Beszedfelism es szint.
2012.05. 03.
43
T.Gy. Beszedfelism es szint.
2012.05. 03.
44
T.Gy. Beszedfelism es szint.
2012.05. 03.
45
T.Gy. Beszedfelism es szint.
2012.05. 03.
46
T.Gy. Beszedfelism es szint.
2012.05. 03.
47