zde - Přírodovědecká fakulta JU

Download Report

Transcript zde - Přírodovědecká fakulta JU

Automatické rozpoznávání zpěvů ptáků
Ladislav Ptáček, UFY, březen 2014
Osnova
• Automatické rozpoznávání lidské řeči a automatická identifikace ptáků
1) Teoretický základ
2) Provádění experimentů
3) Identifikace ptáků
4) Kroužkování
5) Budníček menší
6) Použitá data
7) Příklad dosažených výsledků
8) Závěr
Automatické rozpoznávání
lidské řeči
• Využití
Identifikace osob
Převod řeči na text
Komunikace se strojem (ovládání PC, Call Centra, navigace)
• Překážky
Charakter lidské řeči
Každý mluvčí je originál
Nářečí, vady řeči, spisovně/nespisovně
Vliv prostoru
Hluk okolí
Automatické rozpoznávání
lidské řeči
• Typy úloh
•
Rozpoznávání Speaker recognition (SR)
•
Identifikace SI
•
Verifikace SV
•
Množina
Uzavřená / Otevřená
•
Obsah promluvy
Závislé / Nezávislé
Speech dependent/independent
Automatické rozpoznávání
Teoretický základ
• Postup získání vzorků z řeči/ze zpěvu
Automatické rozpoznávání
Teoretický základ
• Výpočet cepstrálních koeficientů
• Výpočet dalších koeficientů (energie, korelace, atd.) -> vznik modelu
• Proces rozpoznávání je porovnáváním modelů
Automatické rozpoznávání
Teorie, Feature vector
Automatické rozpoznávání
Teoretický základ
• Model UBM
Modeluje pozadí (hluk, ostatní ptáci, telefonní linka, atd.)
• Model GMM
Modeluje cílového řečníka (Target Bird)
• Porovnávání
Jsou porovnávány modely neznámého řečníka a GMM a UBM
Na základě jejich porovnání resp. jejich vzájemné vzdálenosti doje k rozhodnutí:
Accept x Reject
Automatické rozpoznávání
Metody
• Rozpoznávání ptáků: Metody
1.
Parametry MFCCs →
klasifikace GMM
2.
Parametry MFCC a PLP →
klasifikace HMM s využitím HTK
3.
Parametry MFCC →
klasifikátor ANN, s využitím NN Toolboxu v Matlabu
Naše práci kombinují
•
Neupravená data (raw records)
•
Záznamy napříč časovým obdobím (roky a delší)
•
GMM-UBM (Universal Background Model)
Automatické rozpoznávání
Metody
• GMM - Gaussovské směsi (Gaussian Mixture Models)
•
D..rozměr vektoru příznaků x (feature vector), M..počet Gaussiánů
•
μy..vektor D x 1
•
Σy .. kovarianční matice D x D
•
wS …váha pravděpodobnosti
•
λS..model řečníka S
•
UBM – Universal Background Model
Automatické rozpoznávání
Metody, State of the Art
•
JFA – Joint Factor Analysis
•
•
Nalezení korelací řečník resp. kanál → snížení rozměru supervektoru.
GMM supervektor lze vyjádřit jako součet dvou supervektorů:
M SC
•
S…řečník, C..kanál
S  m  Vy
C  Ux
•
i-Vector – Identity vector
•
Oddělení dat kanál x řečník - využité v JFA - je úspěšné pouze částečně.
Velké množství dat → není nutné je oddělit, dostaneme výsledky jako JFA
M  m  Tw,
•
m..supervektor, nezávislý na řečníkovi ani na kanálu
•
T..Total variability matrix, získaná EM z velkého množství dat s velkou variabilitou
•
w..i-Vector, záleží jak na řečníkovi tak na kanálu.
Automatické rozpoznávání
Experimenty, třídění nahrávek
•
•
Nahrávky jsou rozděleny do několika
sad
•
Příprava dat
•
katalogizace (700 minut
nahrávek)
•
třídění (eliminace nevhodných
nahrávek, atd.)
•
Nastavení konfiguračních souborů
•
Training
•
UBM
•
Testování
Spouštění testů
•
•
1 až 4 současně
Vyhodnocení dat
•
Matlab, EER
Automatické rozpoznávání
Experimenty, postup
• Jednotlivé kroky experimentů s vyznačením využitých sad nahrávek
Automatické rozpoznávání
Experimenty, procesní diagram
•
Speaker / Bird verification system
Automatické rozpoznávání
Experimenty, chyby rozpoznání
• Při verifikaci mohou nastat dva druhy chyb:
FA…False Acceptance
FR…False Rejection
Automatické rozpoznávání ptáků
Typy úloh
• Rozpoznávání ptáků: Typ úloh
1.
Identifikace jedince (v rámci jednoho druhu) →
Speaker Identification
2.
Rozpoznání druhu (zpěv/zvuk) →
Language Identification
3.
Rozpoznání specifického zvuku →
Speech recognition task (SV, SI)
4.
Optimalizace metod pro řeč → využití v ornitologii
Zpěvy ptáků
Databáze
•
Databáze nahrávek zvuků ptáků
Komerční (např. Cornell Lab, Audio CD)
Nekomerční (např. xeno-canto.org)
• U nás
AV ČR
Amatérské databáze
•
Vlastní databáze PřF
Ptáci
Zpěv a sluch
•
Hlasový trakt
s ( n )  x ( n )  h( n )
Ptáci
Sluch
• vrabec
o pěnkava
Ptáci
Přenos zpěvu postředím
Lidská řeč x Ptačí zpěv
•
Přenos na velké vzdálenosti
1.
Ozvěna
2.
Posun fází. Větší vliv na zvuky s konstantní f než na modulované
3.
Odrazy od země, interference
Kroužkování
• Sledování, rozpoznávání a identifikace jedinců v ornitologii
• Kroužkování (1773, H. C. Mortensen)
U nás 1910 Kurt Loos a dr. K. Richter
Propagují Ing. Otta Kadlec, Hrabě B.K.Kinský ad.
• European Union for Bird Ringing (EURING)
• Spektrogram
• Novější metody
Telemetrie, analýza stabilních izotopů z peří, radarové sledování
Kroužkování
Kroužkování
Ptáci
Budníček menší, kroužkování
Ptáci
Budníček menší
•
•
•
Budníček menší (CZ),
Phylloscopus collybita (LAT),
Chiffchaff (EN)
Zpěv v lese
Hluk v lese
Zpěv město
Zpěv → Fráze → Slabika → Elementy
Ptáci
Budníček menší, spektrogram
• Budníček, jeden zpěv (single song), délka 5 s.
Ptáci
Budníček menší, spektrogram
• Budníček, reálná nahrávka, hluk pozadí
•
Zpěv → Fráze → Slabika → Elementy
Automatické rozpoznávání
Experimenty, použitá data, 2011
Automatické rozpoznávání
Experimenty, příklad vyhodnocení
• Příklad vyhodnocení výsledků
Graf znázorňující EER
(Equal Error Rate)
Graf znázorňující závislost úspěšnosti na míře FA a FR
svislá čára znázorňuje nastavení Treshold
Automatické rozpoznávání
Experimenty, dosažené výsledky
• Příklad dosažených výsledků
Budníček menší
foto: Wikipedia
Automatické rozpoznávání
Experimenty, dosažené výsledky
• Příklad dosažených výsledků
Rypoši
Foto Klaus Rudloff ,
www.biolib.cz
Automatické rozpoznávání
Současnost, směřování
ZČU, Fakulta aplikovaných věd, katedra kybernetiky KKY
Příklady aplikací: Titulkování, převod řeči na text
Poslanecká sněmovna ČR
Televizní vysílání
Znaková řeč
Další využití
Lékaři
Polici
Soudnictví
Mobilní telefony (Google, Siri)
…další využití?
…budoucnost?
Závěr
Děkuji vám za pozornost
Ing. Ladislav Ptáček
Ústav fyziky a biofyziky
Laboratoř elektroniky a akustiky
Přírodovědecká fakulta
Branišovská 31, 370 05 České Budějovice
Telefon: +420 38 777 6268