Transcript Rozpoznawanie mowy - gamma.mini.pw.edu.pl
Rozpoznawanie mowy Konrad Żaba grupa UMSI
Język i mowa
• Język – ukształtowany społecznie system budowania wypowiedzi w komunikacji interpersonalnej – Ludzki język jest wyjątkowy • Mowa – system artykułowania dźwięków – Wykorzystanie języka w procesie komunikacji
Ludzki aparat mowy
• Aparat mowy składa się z trzech grup narządów: Aparatu oddechowego Aparatu fonacyjnego Aparatu artykulacyjnego
Głos
Głos ludzki to wibracje powietrza wytwarzane przez drgające struny głosowe Rozpoznawanie głosu przez ludzi: • Artykulacja tworzy falę dźwięku • Fala trafia do ucha • Poddawana jest przetwarzaniu przez mózg
Rozpoznawanie mowy
Technologia pozwalająca komputerowi wyposażonemu w urządzenie do próbkowania dźwięku interpretować ludzką mowę.
Wyróżniamy trzy rodzaje rozpoznawanie mowy: – Rozpoznawanie pojedynczych fonemów – Rozpoznawanie izolowanych słów – Rozpoznawanie łączonych słów i mowy ciągłej
Historia
• 1920r. - RADIO REX
Historia
• • • • • 1936r. Laboratoria AT&T Bella – początek prac – 1939r. „Voder” – pierwszy syntezator głosu – 1952r. „Audrey” – rozpoznaje cyfry 1960r. IBM „Shoebox” – rozpoznaje 16 słów 1971r. DARPA Speech Understanding Research 1978r. Texas Instruments - „Speak and spell” – Rewolucyjny chip odpowiadający za syntezę głosu 1985r. Kurzweil – 1000 słów
Historia
• • • • • • • 1987r. Kurzweil – 20000 słów 1993r. – poprawność interpretacji 10% 1995r. – poprawność interpretacji >50% 1997r. Dragon Naturally Speaking – rozpoznaje ciągłą mowę 2001r. – poprawność interpretacji >80% 2008r. – Google Voice Search 2011r. – Apple,DARPA - SIRI
Wykorzystanie
• • • • • • Pomoc niepełnosprawnym Rozpoznawanie osób Armia Telefonia Gadżety Gry
Algorytmy
• • • • • • Liniowe kodowanie predykcyjne Jednoprzebiegowa metoda Bridle’a i Browna Niejawne modele Markowa Nieliniowa transformacja czasowa (DTW) Sieci neuronowe …
Niejawne modele Markowa
• • Metoda statystyczna Prawdopodobieństwo, że dźwięk w formie dyskretnego obrazu akustycznego jest słowem • Najczęściej stosowana metoda klasyfikacji
Niejawne modele Markowa
• Realizację możemy podzielić na dwie fazy: Uczenie - estymacja parametrów zbioru modeli (w postaci automatów skończonych) za pomocą wypowiedzi uczących • Rozpoznanie – wyznaczenie transkrypcji fonetycznej rozpoznawanych wypowiedzi
Niejawne modele Markowa
Przykładowy niejawny model Markowa
Sieci neuronowe
Rozpoznawanie mowy zalicza się do problemów rozpoznawania wzorców.
• • Wyróżniamy dwa rodzaje algorytmów: Statycznej klasyfikacji fonemów Dynamicznej klasyfikacji fonemów
Sieci neuronowe
Sieci neuronowe dobrze radzą sobie z klasyfikacją obrazów, zatem można zaprezentować dyskretny obraz akustyczny jako spektrogram.
Spektrogram
Reprezentuje zmiany w amplitudzie widma (spektrum) poprzez czas.
• • • Trzy wymiary: Oś X : czas Oś Y: częstotliwość Oś Z: intensywność kolorów reprezentuje wielkość
Nauka
Cechą wspólną metod Niejawnych modeli Markowa i sieci neuronowych jest konieczność wstępnego procesu uczenia.
Rozpoznawanie mowy polskiej
• • • • • • Ogólnopolski projekt MSWiA Instytut Monitorowania Mediów – system wyszukiwania oparty na słowach kluczowych SkryBot – 90% skuteczność skrybot.sourceforge.net
MagicScribe System rozpoznawania mowy AGH ASR …
Dziękuję