Transcript prezentace
„Přepis mluveného slova do textové podoby“ Program NewtonDictate NEWTON Technologies, a.s. Ing. Petr Herian www.diktovani.cz [email protected] NEWTON Media NEWTON Media - Největší komerční archív plných textů v ČR • Unikátní patentovaný systém zpracování dat, (světová konference FIBEP 2008 v Praze) • Multimediální archiv pro vydavatele a vysílatele (Mafra, Ringier, TV Nova, ČRo, PSP,…) V Newtonu Média řešíme úlohu • Měsíčně zpracováváme 8000 hodin záznamu, 600 hodin doslovně přepisujeme • Okamžitá úspora času (30-75%) •Spolupráce s Technickou univerzitou v Liberci (od roku 2005): • Propojení vývojových týmů, sdílení výsledků a zkušeností, zpětná vazba • Spolufinancování vývoje technologie Voice to Text (V2T) • Samostatné nadstavbové moduly, nové aplikace, servis, komunikace s klienty Produkty vývoje zavedené do praxe MyVoice a MyDictate ATT – přepis a titulkování TV NewtonDictate – diktovací program AudioSearch - vyhledávání v archivech Praktická ukázka programu NewtonDictate NewtonDictate 2.4 Základní funkce programu Program NewtonDictate pracuje jako textový editor (např. Word) a současně také jako digitální záznamník Program řeč nahrává, automaticky přepisuje, přičemž kteroukoliv část přepisu si lze kdykoliv přehrát a v případě potřeby snadno opravit. Diktuje se interpunkce, program automaticky formátuje čísla, symboly a používané zkratky. Program můžete jednoduše naučit nová slova, celé věty,... Program můžete naučit rozpoznávat Váš hlas (nadiktovat 120 předepsaných vět) Diktovat lze do libovolného místa v textu, text i audio záznam lze libovolně kopírovat, mazat přesouvat. Program nadiktovaný záznam průběžně ukládá. Diktovat můžete také do libovolného programu, diktuje se na pozici kurzoru. Program umí přepisovat audio nahrávky z diktafonů Jak dosahovat nejlepších výsledků při diktováni aneb boj o každé procento Hlavní problémy rozpoznávání řeči Komunikace řečí - pro člověka přirozená věc, pro počítač velmi komplikovaná úloha Systém pro rozpoznávání hlasu se stále učí 1. HLAS - Variabilita hlasového projevu, každý člověk mluví jinak (výška hlasu, podoba hlásek, intonace, výslovnost, volba slov, momentální stav, prostředí ...) 2. SLOVNÍK - Rozsáhlost slovní zásoby (Angličtina 50 tis. slov, Čeština > 1 milion) Systém rozpoznává jednotlivá slova, mnoho stejně znějících slov („byly“, „bily“, „Billy“ …), 250 000 příjmení v ČR, místopisné názvy apod. V současnosti systém rozpozná 500.000 slov, slovo které není ve slovníku systém nikdy nepřepíše Hlavní problémy rozpoznávání řeči 3. KONTEXT - Volba nejpravděpodobnější sekvence po sobě jdoucích slov (odlišná témata) chybí oddělovače (pauzy) mezi slovy, dochází ke koartikulaci, asimilaci, Text: Až se vrátíš, zavolej jako včera na linku pět šest sedm. Text bez mezer: ažsevrátíšzavolejjakovčeranalinkupětšestsedm Foneticky: ašsevrátížzavolejakofčeranalinkupěčesedum 4. PROSTŘEDÍ - Vliv prostředí a přenosové cesty – degradace signálu hluk okolí, vlastnosti přenosové linky (mikrofon/diktafon), další mluvící osoby, ruchy, šumy… Princip rozpoznávání řeči Co bylo řečeno a v jakých časových okamžicích? |-| zavolá |-| premiéra | - | za | vola | premiéra |-| | prima | éra zvolá |-| zavolej | |-| zavolá |-| premiéra | předseda | | předsedá | | premiér | a | | - | - | před | sebou | předsedo předseda | - | | - | | Při rozpoznávání spojité řeči není apriori známo: - Kolik slov bylo řečeno? Jaká sekvence slov byla řečena? Byla všechna vyřčená slova ze slovníku? Byla to skutečně jenom řeč nebo i další zvuky a hluky? V jakých časových okamžicích začínala jednotlivá slova? Zkušenosti Zkušenosti s programem • Program na každého reaguje jinak, ale obecný právní text přepíše bez větších chyb. • Pokud tomu tak není je někde problém (mikrofon, charakteristika hlasu, nastavení (muž/žena), slovník) • Nelze program jen zapnout a mluvit (existují vyjímky), je potřeba nalézt správný způsob diktování (intonace, plynulost,...) . • Naučit se ideální způsob diktování trvalo zkušeným soudcům a advokátům několik hodin. Tato časová investice se však velmi rychle vrátila v úspoře času. • Některá slova (věty) program nemá šanci rozpoznat • Nejčastější chyba - my čekáme co program napíše, program čeká co řekneme • Pro první seznámení doporučujeme přečíst známý text (nedívat se na monitor) Budoucnost Systém pro rozpoznávání hlasu se stále učí Na vylepšení programu nepřetržitě pracujeme • Vaše zpětná vazba je pro nás velmi důležitá, své náměty přípomínky zasílejte na mail [email protected]. • Každé další rozpoznané procento šetří čas. (stále vylepšujeme, HLAS, SLOVNÍK, VAZBY SLOV) • Anonymizované texty zvýší úspěšnost rozpoznávání (místopisné názvy, často používané formulace, apod.) • Úspěšnost rozpoznávání zvýší také doslovně přepsané audio nahrávky REFERENCE Ministerstvo spravedlnosti - projekt pro všechny soudy a státní zastupitelství v ČR (přes 1.600 licencí) Inspekce životního prostředí – celostátní projekt pro všechny inspektoráty inspekce Česká národní banka - implementace systému přepisovacího pracoviště NEWTON Media, a.s. - projekt přepisu rozhlasového a televizního vysílání, titulkování TV Ministerstvo vnitra 1. a 3. Lékařská fakulta Univerzita Karlova Všeobecná fakultní nemocnice v Praze IKEM - Institut Klinické a Experimentální Medicíny Oblastní nemocnice Mladá Boleslav, a.s. Masarykova nemocnice v Ústí nad Labem Mammacentrum, Praha Nemocnice Prachatice, a.s ACHK - Ambulantní centrum pro choroby hlavy a krku, s.r.o. Gymnázium, ZŠ a MŠ pro sluchově postižené, Praha Metropolitní univerzita Praha Manlomka, s.r.o., chráněná dílna Česká zemědělská univerzita Masarykova univerzita v Brně EU-Media - EURActiv.cz Poliklinika Budějovická Poliklinika Prosek Revmatologický ústav MEDICON, a.s. Děkuji za pozornost www.diktovani.cz Ing. Petr Herian Ing. Magdaléna Nekolná