Rozpoznawanie mowy - gamma.mini.pw.edu.pl

Download Report

Transcript Rozpoznawanie mowy - gamma.mini.pw.edu.pl

Rozpoznawanie mowy Konrad Żaba grupa UMSI

Język i mowa

• Język – ukształtowany społecznie system budowania wypowiedzi w komunikacji interpersonalnej – Ludzki język jest wyjątkowy • Mowa – system artykułowania dźwięków – Wykorzystanie języka w procesie komunikacji

Ludzki aparat mowy

• Aparat mowy składa się z trzech grup narządów:    Aparatu oddechowego Aparatu fonacyjnego Aparatu artykulacyjnego

Głos

Głos ludzki to wibracje powietrza wytwarzane przez drgające struny głosowe Rozpoznawanie głosu przez ludzi: • Artykulacja tworzy falę dźwięku • Fala trafia do ucha • Poddawana jest przetwarzaniu przez mózg

Rozpoznawanie mowy

Technologia pozwalająca komputerowi wyposażonemu w urządzenie do próbkowania dźwięku interpretować ludzką mowę.

Wyróżniamy trzy rodzaje rozpoznawanie mowy: – Rozpoznawanie pojedynczych fonemów – Rozpoznawanie izolowanych słów – Rozpoznawanie łączonych słów i mowy ciągłej

Historia

• 1920r. - RADIO REX

Historia

• • • • • 1936r. Laboratoria AT&T Bella – początek prac – 1939r. „Voder” – pierwszy syntezator głosu – 1952r. „Audrey” – rozpoznaje cyfry 1960r. IBM „Shoebox” – rozpoznaje 16 słów 1971r. DARPA Speech Understanding Research 1978r. Texas Instruments - „Speak and spell” – Rewolucyjny chip odpowiadający za syntezę głosu 1985r. Kurzweil – 1000 słów

Historia

• • • • • • • 1987r. Kurzweil – 20000 słów 1993r. – poprawność interpretacji 10% 1995r. – poprawność interpretacji >50% 1997r. Dragon Naturally Speaking – rozpoznaje ciągłą mowę 2001r. – poprawność interpretacji >80% 2008r. – Google Voice Search 2011r. – Apple,DARPA - SIRI

Wykorzystanie

• • • • • • Pomoc niepełnosprawnym Rozpoznawanie osób Armia Telefonia Gadżety Gry

Algorytmy

• • • • • • Liniowe kodowanie predykcyjne Jednoprzebiegowa metoda Bridle’a i Browna Niejawne modele Markowa Nieliniowa transformacja czasowa (DTW) Sieci neuronowe …

Niejawne modele Markowa

• • Metoda statystyczna Prawdopodobieństwo, że dźwięk w formie dyskretnego obrazu akustycznego jest słowem • Najczęściej stosowana metoda klasyfikacji

Niejawne modele Markowa

• Realizację możemy podzielić na dwie fazy: Uczenie - estymacja parametrów zbioru modeli (w postaci automatów skończonych) za pomocą wypowiedzi uczących • Rozpoznanie – wyznaczenie transkrypcji fonetycznej rozpoznawanych wypowiedzi

Niejawne modele Markowa

Przykładowy niejawny model Markowa

Sieci neuronowe

Rozpoznawanie mowy zalicza się do problemów rozpoznawania wzorców.

• • Wyróżniamy dwa rodzaje algorytmów: Statycznej klasyfikacji fonemów Dynamicznej klasyfikacji fonemów

Sieci neuronowe

Sieci neuronowe dobrze radzą sobie z klasyfikacją obrazów, zatem można zaprezentować dyskretny obraz akustyczny jako spektrogram.

Spektrogram

Reprezentuje zmiany w amplitudzie widma (spektrum) poprzez czas.

• • • Trzy wymiary: Oś X : czas Oś Y: częstotliwość Oś Z: intensywność kolorów reprezentuje wielkość

Nauka

Cechą wspólną metod Niejawnych modeli Markowa i sieci neuronowych jest konieczność wstępnego procesu uczenia.

Rozpoznawanie mowy polskiej

• • • • • • Ogólnopolski projekt MSWiA Instytut Monitorowania Mediów – system wyszukiwania oparty na słowach kluczowych SkryBot – 90% skuteczność skrybot.sourceforge.net

MagicScribe System rozpoznawania mowy AGH ASR …

Dziękuję