Mihajlik Péter - Nyelv- és Beszédtechnológiai Platform

Download Report

Transcript Mihajlik Péter - Nyelv- és Beszédtechnológiai Platform

Nyelvi
áttörés
A nyelv- és
beszédtechnológia mint
húzóágazat
A beszédtechnológia
jövője –
kihívások és
stratégiák
Mihajlik Péter
BME-TMIT
Áttekintés
• Bevezetés
• Helyzetkép
• Mitől, hogyan működik?
• Kihívások és válaszlehetőségek
• A közeljövő alkalmazásai
• Összegzés
Bevezetés
A beszédtechnológia két fő ága:
• Gépi beszédfelismerés
(ASR: Automatic Speech Recognition)
• Beszéd (hangnyomás-időfüggvény)
szöveg (írott szósorozat)
• Gépi beszédkeltés
(TTS: Text To Speech)
• Az előző megfordítása
Mellékágak:
Beszélő-felismerés, -azonosítás, érzelem-felismerés, beszédminősítés,
beszédterápia, beszéd-zene-zaj szétválasztás, beszédtisztítás, multimodális beszédfelismerés, stb.
Bevezetés
A beszédtechnológia két fő ága:
• Gépi beszédfelismerés
(ASR: Automatic Speech Recognition)
• Beszéd (hangnyomás-időfüggvény)
szöveg (írott szósorozat)
• Gépi beszédkeltés
(TTS: Text To Speech)
• Az előző megfordítása
Mellékágak:
Beszélő-felismerés, -azonosítás, érzelem-felismerés, beszédminősítés,
beszédterápia, beszéd-zene-zaj szétválasztás, beszédtisztítás, multimodális beszédfelismerés, stb.
Bevezetés II.
A beszéd-szöveg átalakítás kiemelt jelentőségű, mert
• Ami igazán fontos, élőszóban hangzik el
• Gyorsabban és könnyebben beszélünk, mint írunk
•„Kaputechnológia”, szűkkeresztmetszet. E nélkül nincs:
• beszédinformáció-kivonatolás, -visszakeresés,
-strukturálás
• beszédértés (szűk értelemben se)
• beszédfordítás
• hanggal-, hangból keresés
• Nagyszámú alkalmazás épít(ene) rá
• A korszerű beszédkeltési technológiák is erre alapoznak
Helyzetkép: az áttörés megtörtént –
a beszédtechnológia használható!
Helyzetkép: az áttörés megtörtént –
a beszédtechnológia használható!
A gépi beszédfelismerés is!!!
Helyzetkép: az áttörés megtörtént –
a beszédtechnológia használható!
A gépi beszédfelismerés is!!!
Noha a beszédfelismerési
technológia messze nem tökéletes,
a használhatósága ma már
nem kétséges!
Az áttörés megtörtént –
a beszédtechnológia használható!
• Használható: kisebb költséggel, többet tud a
gép, mint az ember?!
• Igen!
• Ki tudja 200 óra hangzó híranyagban
megtalálni a megadott 1000 kulcsszó
~50%-át 24 óra alatt?
• 2 db (4 magos) CPU képes rá!
(RTF<1 /mag)
• 2 ember, > 2 hét – csak lehallgatás (RTF>1 /fő)
• 12 ember, > 2 hét – teljes lejegyzés (RTF>6 /fő)
Áramdíj < 2 eFt
Munkadíj > 200 eFt / 1.2 MFt
Az áttörés megtörtént –
a beszédtechnológia használható!
• Használható: többet tud a gép, mint az ember?!
• Igen!
• Ki képes egy nagyváros összes lakosának
(~250.000) fő nevét és lakcímét első
hallásra 10 esetből min. 9-szer hibátlanul
leírni?
• 1 db CPU képes rá (+ beszédtechnológia)!
• ~0 sec válaszidő!!
Áramdíj, válaszidő: ~ 0
visszakérdezések, hibák
Az áttörés megtörtént –
a beszédtechnológia használható!
• Használható: kisebb költséggel, többet tud a
gép, mint az ember?!
• Igen, igen!
• A beszédszintetizátor bármit kimond
• Nem fárad el, nem reked be
• Ha kérik, gyorsabban beszél, ha kérik, lassabban
• Nem sértődik meg, ha a felmenőit emlegetik
•…
Az áttörés megtörtént –
a beszédtechnológia használható!
• Mitől?
• Új kutatási eredmények? – Alapjait tekintve nem
igazán, több éve kiforrott a technológia…
• Meg van oldva a probléma? – Határozottan nincs
• Inkább:
• A beszédtechnológia megtalálta az alkalmazásait!
• A számítástechnika fejlődése egyre inkább lehetővé
teszi a megfelelő (jórészt már ismert) algoritmusok
alkalmazását
Mitől, hogyan működik?
• „Megérti a gép, amit mondok?”
• Neeeemm!
(A gép nem „ért meg” semmit, a gépi szövegértésnek az emberi
kognícióhoz, gondolkodáshoz egyelőre nem sok köze van…)
• „Leírja, amit mondok?”
• Ez a cél, de általánosságban ez sem teljesül…
Mitől, hogyan működik?
A gépi beszédfelismerés alapelve:
I. Lényegkiemelés (jelfeldolgozás, normalizálások)
II. Mintaillesztés (tárolt modellekhez
történő összehasonlítás)
•
•
Összetett beszédmodell
Nyelvi, akusztikai információk
•
Összehasonlítások!!!
•
Órási keresési tér (akár > 1050 szósorozat)
Mindig a legjobban illeszkedő modellekre-útvonalra döntünk!
„eredmények a beszédtechnológiában”
Mitől, hogyan működik?
Honnan vesszük a beszédfelismerési modelleket?
• Szinte minden statisztikai alapú!
•
•
•
•
Lejegyzett beszédadatra van szükség a modelltanításhoz
Mivel (nagyon) sok a modellparaméter, (nagyon) sok adatra
van szükség a megfelelő becsléshez
Nincs általános modell, minden feladatra külön kell gyűjteni
Mindig számolni kell jelentős beszédfelismerési hibával
•
A beszédfelismerési hiba főként attól függ, hogy
akusztikailag, nyelvileg mennyire különböző
lehetőségek közül választhatunk a mintaillesztés
során
•
Nem egyszerű feladat eldönteni, hogy az optimális
felismerési eredmény (szósorozat) helyes is egyben
Kihívások és válaszlehetőségek
Az ideális beszédfelismerő rendszer…
• … zajban sem rosszabb, az embernél
• … távoli mikrofonnal működik
• … témafüggetlen
• … beszélőfüggetlen (a beszédhibákat is kiküszöböli)
• … stílus-független (spontán beszédre is működik)
• … minden nyelvre könnyen adaptálható
• (…kis fogyasztású, olcsó eszközön fut)
• (…kézi átirat nélkül tanítható)
…talán sosem fog működni… de azért….
Zajtűrő beszédfelismerés
• A zaj elmossa az
akusztikai különbségeket
• Nem mindegy milyen
(fehérzaj vs. háttérzene,
-beszélgetés)
• Válasz: nemlineáris,
idővariáns, nemstacionárius megközelítések, fizikusok, agy- és
halláskutatókkal közös
kutatások, stb.
Szófelismerési hiba %
Kihívások és válaszlehetőségek
Zajos
Jel-zaj viszony dB
Wall Street Journal – Olvasott hírek
Humán vs Cambridge HTK LVCSR
beszédfelismerő
Tiszta
Kihívások és válaszlehetőségek
Távoli mikrofon (distant speech recognition)
• Probléma: a jelenlegi módszerek a közeli mikrofonokra,
és/vagy csendes körülményekre használhatóak
• Távoli mikrofon: rossz jel-zaj viszony
• Válasz: a zajtűrő módszereken felül, mikrofon tömbök,
adaptív karakterisztika szabályozás, önirányító mikrofonok
Kihívások és válaszlehetőségek
Témafüggetlenség
• Probléma: a jelenlegi módszerek adott témakörökre
igényelnek nagy mennyiségű tanítóanyagot, eltérő témára
lényegesen nő a felismerési hiba
Beszélőfüggetlenség
• Probléma: a jelenlegi módszerek a standard nyelvet
kezelik, tájszólásra, beszédhibára kevésbé felkészültek
Válaszok
•
•
Minden eddiginél nagyobb mennyiségű tanítóadat használata
Akusztikus/nyelvi modell adaptáció, felügyelet nélküli vagy
félig felügyelt módszerek kutatása
Kihívások és válaszlehetőségek
Beszédstílus-függetlenség
• Probléma: a jelenlegi módszerek a spontán (lazán artikulált,
bennfentes, stb.) nyelvet kevéssé kezelik, jóval nagyobb a
felismerési hiba
• Nagy a jelentősége, hiszen a hétköznapi beszéd alapvetően
spontán
Nyelvi adaptálhatóság – morfológiailag gazdag nyelvek (!)
• Arab, észt, finn, magyar, török: a szóalaki változatosság jóval
nagyobb, mint az angol, spanyol, német, stb. nyelvekre
• Probléma: ritka szóalakok nagy száma, (nagyon) nagy szótár,
rosszul becsülhető nyelvi modell paraméterek, szótáron kívüli
szavak nagy száma alacsonyabb szófelismerési pontosság
Szóalaki változatosság –
beszédstílus, nyelvek –
kutatási eredmények
Magyar (tervezett)
Magyar (félig tervezett)
Magyar (spontán)
Szóalaki változatosság –
beszédstílus, nyelvek –
kutatási eredmények
•Angol szavak ~ magyar morf(émák)
• Illusztráció:
look at it ~ néz + d
• Építsük a nyelvi és kiejtési modelleket szó helyett
morféma (szótő, rag, stb.) alapon
• Szó  morféma leképezés?
• Nyelvi szabály alapon?
• Statisztikai felügyelet nélküli módszerrel?
• Kombináció?
• Szóhatár visszaállítás?
Szófelismerési pontosság %
Magyar nyelvű beszédfelismerési eredmények
85
Morféma alapú rendszerek
80
80
Word
MB
MC
HSF
HCG
CHM
75
75
70
70
65
65
60
60
55
55
50
50
45
Spontán
Hibacsökkenés %
85
15
Sajtótájékoztató
Hírműsor
45
Sp. St. Hír
Akusztikus adaptáció hatása
12
9
6
3
0
Tisztán statisztikai (MB) morf-alapú rendszerek javulása
Szótárméret: 20K-285K szó
2k – 80K morf
Szóalaki változatosság –
beszédstílus, nyelvek –
kutatási eredmények
• Morféma-alapú megközelítések általi felismerési
hibacsökkenés nemzetközi összehasonlításban
50
Javulás statisztikai morf
modellezés által [%]
FIN3
40
R=0,937
30
EST
20
TUR2
10
HU_BC
HU_SP
HU_PC
0
TUR1
ECA
-10
15
20
25
30
35
40
45
50
Különböző szóalakok száma 160 ezer szavas korpuszban [x1000]
Kihívások és válaszlehetőségek
Beszédstílus-függetlenség
Nyelvi adaptálhatóság – morfológiailag gazdag nyelvek
• A nyelvfüggetlen statisztikai módszer hatékonysága nem
elősorban nyelvfüggő és stílusfüggő, hanem a szóalaki
változatosságtól függ
• Minél nagyobb a szóalak-változatossági probléma, annál
jobban segít
• Mégsem ettől lesz kicsi a felismerési hiba
Válasz?
• minden eddiginél több tanítóadat?
• minden eddiginél nagyobb memória?
Kihívások és válaszlehetőségek
Tanítóadatbázis-méret növelés
• Kulcsfontosságú mind a kutatás, mind a fejlesztés
szempontjából
• Ahol az adat, ott fejlődik(-het) a technológia…
• 3 éves gyerek 5M-20M szót hallott!
Probléma: drága az előállítás (beszélt nyelvi korpuszokról
van szó!), a kutatás-fejlesztési eszköztár is az…
•
Google: akusztikus és nyelvi modell tanítás 35 CPU év! (áramköltség
>1.5 MFt) – és ez csak a „voice search” alkalmazás…
Válasz: könnyítsük, gyorsítsuk a kézi munkát, félig
felügyelt módszerek kutatása, felügyelet nélküli
módszerek kutatása
A közeljövő alkalmazásai
• Jó – közepes akusztikai viszonyokra készülnek
• Felismerési hiba tűrőek
• Az embert nem „lecserélni”, segíteni akarják
Ezeknek megfelelő gyakorlati feladatok:
• audio indexálás, keresés hang (video)tárakban,
• információ kivonatolás hanganyagból,
• kategorizálás,
• infobányászat,
• audio minőségbiztosítás,
• ügyfélszolgálat részbeni automatizálása, …
A közeljövő alkalmazásai
• A folyamatos nagyszótáras beszédfelismerési
technológia potenciális felhasználói
• általános beszédinformációs tárak: rádió, TV, mozi
• vállalati szféra: mindenféle szintű megbeszélések
hanganyaga, ügyfélszolgálatok, sajtótájékoztatók
• állami szféra: felügyelő szervek, biztonsági
szervek
• oktatás-kutatás: konferencia-, tanrendi előadások
• internetezők…
• Nem az a kérdés, hogy a beszédtechnológia
alkalmazásérett-e, hanem, hogy ki kerül
versenyhátrányba, mert későn ébredt….
Összefoglalás
• Az áttörés megtörtént – a
beszédtechnológia használható!
• Az általános probléma még nincs megoldva
• A kutatás-fejlesztés számára létfontosságú
az eddigieknél sokkal komolyabb adatbázisinfrastruktúra kialakítása
• Vannak olyan kutatási területek, melyek
illeszkednek a hazai adottságokhoz és jól
exportálhatóak
Köszönöm a figyelmet!
„Az áttörés megtörtént – a beszédtechnológia használható!”