Transcript prezentace

„Přepis mluveného slova do textové podoby“
Program NewtonDictate
NEWTON Technologies, a.s.
Ing. Petr Herian
www.diktovani.cz
[email protected]
NEWTON Media
NEWTON Media - Největší komerční archív plných textů v ČR
• Unikátní patentovaný systém zpracování dat,
(světová konference FIBEP 2008 v Praze)
• Multimediální archiv pro vydavatele a vysílatele
(Mafra, Ringier, TV Nova, ČRo, PSP,…)
V Newtonu Média řešíme úlohu
• Měsíčně zpracováváme 8000 hodin záznamu, 600 hodin doslovně přepisujeme
• Okamžitá úspora času (30-75%)
•Spolupráce s Technickou univerzitou v Liberci (od roku 2005):
• Propojení vývojových týmů, sdílení výsledků a zkušeností, zpětná vazba
• Spolufinancování vývoje technologie Voice to Text (V2T)
• Samostatné nadstavbové moduly, nové aplikace, servis, komunikace s klienty
Produkty vývoje zavedené do praxe
MyVoice a MyDictate
ATT – přepis a titulkování TV
NewtonDictate – diktovací program
AudioSearch - vyhledávání v archivech
Praktická ukázka programu
NewtonDictate
NewtonDictate 2.4
Základní funkce programu
Program NewtonDictate pracuje jako textový editor (např. Word)
a současně také jako digitální záznamník
Program řeč nahrává, automaticky přepisuje, přičemž kteroukoliv část přepisu
si lze kdykoliv přehrát a v případě potřeby snadno opravit.
Diktuje se interpunkce, program automaticky formátuje čísla, symboly
a používané zkratky.
Program můžete jednoduše naučit nová slova, celé věty,...
Program můžete naučit rozpoznávat Váš hlas (nadiktovat 120 předepsaných vět)
Diktovat lze do libovolného místa v textu, text i audio záznam lze libovolně
kopírovat, mazat přesouvat. Program nadiktovaný záznam průběžně ukládá.
Diktovat můžete také do libovolného programu, diktuje se na pozici kurzoru.
Program umí přepisovat audio nahrávky z diktafonů
Jak dosahovat nejlepších
výsledků
při diktováni aneb boj o každé
procento
Hlavní problémy rozpoznávání řeči
Komunikace řečí - pro člověka přirozená věc,
pro počítač velmi komplikovaná úloha
Systém pro rozpoznávání hlasu se stále učí
1. HLAS - Variabilita hlasového projevu, každý člověk mluví jinak
(výška hlasu, podoba hlásek, intonace, výslovnost, volba slov, momentální stav, prostředí ...)
2. SLOVNÍK - Rozsáhlost slovní zásoby (Angličtina 50 tis. slov, Čeština > 1 milion)
Systém rozpoznává jednotlivá slova, mnoho stejně znějících slov („byly“, „bily“, „Billy“ …),
250 000 příjmení v ČR, místopisné názvy apod.
V současnosti systém rozpozná 500.000 slov, slovo které není ve slovníku systém nikdy nepřepíše
Hlavní problémy rozpoznávání řeči
3. KONTEXT - Volba nejpravděpodobnější sekvence po sobě jdoucích
slov (odlišná témata)
chybí oddělovače (pauzy) mezi slovy, dochází ke koartikulaci, asimilaci,
Text: Až se vrátíš, zavolej jako včera na linku pět šest sedm.
Text bez mezer: ažsevrátíšzavolejjakovčeranalinkupětšestsedm
Foneticky: ašsevrátížzavolejakofčeranalinkupěčesedum
4. PROSTŘEDÍ - Vliv prostředí a přenosové cesty – degradace signálu
hluk okolí, vlastnosti přenosové linky (mikrofon/diktafon), další mluvící osoby, ruchy, šumy…
Princip rozpoznávání řeči
Co bylo řečeno a v jakých časových okamžicích?
|-|
zavolá
|-|
premiéra
| - | za | vola
|
premiéra
|-|
|
prima | éra
zvolá
|-|
zavolej
|
|-|
zavolá
|-|
premiéra
|
předseda |
|
předsedá
|
|
premiér | a |
|
-
|
-
|
před | sebou |
předsedo
předseda |
- |
|
-
|
|
Při rozpoznávání spojité řeči není apriori známo:
-
Kolik slov bylo řečeno?
Jaká sekvence slov byla řečena?
Byla všechna vyřčená slova ze slovníku?
Byla to skutečně jenom řeč nebo i další zvuky a hluky?
V jakých časových okamžicích začínala jednotlivá slova?
Zkušenosti
Zkušenosti s programem
•
Program na každého reaguje jinak, ale obecný právní text přepíše bez větších chyb.
•
Pokud tomu tak není je někde problém (mikrofon, charakteristika hlasu, nastavení
(muž/žena), slovník)
•
Nelze program jen zapnout a mluvit (existují vyjímky), je potřeba nalézt správný
způsob diktování (intonace, plynulost,...) .
•
Naučit se ideální způsob diktování trvalo zkušeným soudcům a advokátům několik
hodin. Tato časová investice se však velmi rychle vrátila v úspoře času.
•
Některá slova (věty) program nemá šanci rozpoznat
•
Nejčastější chyba - my čekáme co program napíše, program čeká co řekneme
•
Pro první seznámení doporučujeme přečíst známý text (nedívat se na monitor)
Budoucnost
Systém pro rozpoznávání hlasu se stále učí
Na vylepšení programu nepřetržitě pracujeme
•
Vaše zpětná vazba je pro nás velmi důležitá, své náměty přípomínky zasílejte na mail
[email protected].
•
Každé další rozpoznané procento šetří čas. (stále vylepšujeme, HLAS, SLOVNÍK, VAZBY
SLOV)
•
Anonymizované texty zvýší úspěšnost rozpoznávání (místopisné názvy, často používané
formulace, apod.)
•
Úspěšnost rozpoznávání zvýší také doslovně přepsané audio nahrávky
REFERENCE
Ministerstvo spravedlnosti - projekt pro všechny soudy a státní zastupitelství v ČR (přes 1.600 licencí)
Inspekce životního prostředí – celostátní projekt pro všechny inspektoráty inspekce
Česká národní banka - implementace systému přepisovacího pracoviště
NEWTON Media, a.s. - projekt přepisu rozhlasového a televizního vysílání, titulkování TV
Ministerstvo vnitra
1. a 3. Lékařská fakulta Univerzita Karlova
Všeobecná fakultní nemocnice v Praze
IKEM - Institut Klinické a Experimentální Medicíny
Oblastní nemocnice Mladá Boleslav, a.s.
Masarykova nemocnice v Ústí nad Labem
Mammacentrum, Praha
Nemocnice Prachatice, a.s
ACHK - Ambulantní centrum pro choroby hlavy a krku, s.r.o.
Gymnázium, ZŠ a MŠ pro sluchově postižené, Praha
Metropolitní univerzita Praha
Manlomka, s.r.o., chráněná dílna
Česká zemědělská univerzita
Masarykova univerzita v Brně
EU-Media - EURActiv.cz
Poliklinika Budějovická
Poliklinika Prosek
Revmatologický ústav
MEDICON, a.s.
Děkuji za pozornost
www.diktovani.cz
Ing. Petr Herian
Ing. Magdaléna Nekolná