През-я "Автоматическое стенографирование речи..."

Download Report

Transcript През-я "Автоматическое стенографирование речи..."

Автоматическое стенографирование речи:
состояние и перспективы
Пилипенко В.В.
Международный
научно-учебный центр
информационных технологий и
систем
29.01.2013
Стенографирование
Стенографирование vs речевой диалог
Стенографирование — получение текстов из записанных речевых
файлов при помощи автоматического распознавания речи
Особенности:
Нет непосредственной обратной связи от говорящего
Слитная речь с большим объемом словаря
Много дикторов разного стиля произношения, акценты
Слабо контролируемые условия записи
Преимущества:
Можно анализировать в несколько проходов
Можно легко задействовать много компьютеров
Область применения:
Новости
Парламент
Телевизионные шоу
Суды
Научные доклады
29.01.2013
Стенографирование
Парламентская речь
Спонтанная речь. Иногда встречаются доклады, зачитываемые по
заранее подготовленному тексту.
Публичные дикторы.
Быстрый темп.
Часто эмоционально окрашена.
Непрерывные выступления дикторов.
Качество записи достаточно высокое, поскольку каждое депутатское
место оснащено микрофоном.
29.01.2013
Стенографирование
Стенографирование в парламентах
Стенографист набирает текст в 3-5 раз медленнее темпа речи.
Обычно допускает в тексте 2-5% ошибок.
6-7 стенографистов набирают текст порциями по 3 минуты.
Черновая стенограмма готова на следующее утро.
Отдел редактирования (около 20 человек) готовит официальную
стенограмму обычно в течение двух недель. Отличается от сказанного.
29.01.2013
Стенографирование
Наша цель
Автоматизированное стенографирование.
Один стенографист прослушивает речь и устраняет ошибки в
темпе поступления речи.
Точность автоматического распознавания не менее 85%.
29.01.2013
Распознавание речи
Пилипенко В.В.
Схема распознавания речи
29.01.2013
Распознавание речи
Пилипенко В.В.
Спектральный анализ сигнала
29.01.2013
Распознавание речи
Анализ сигнала
29.01.2013
Распознавание речи
Пилипенко В.В.
Задача распознавания речи
последовательность векторов наблюдений
29.01.2013
Распознавание речи
Пилипенко В.В.
Задача распознавания речи
последовательность векторов наблюдений
29.01.2013
Распознавание речи
Пилипенко В.В.
Задача распознавания речи
последовательность векторов наблюдений
правило Байеса
акустическая часть
лингвистическая часть
29.01.2013
Распознавание речи
Модель порождения речевого сигнала
Состояния
Наблюдаемая последовательность
Поиск кратчайшего пути
при помощи алгоритма
динамического программирования
29.01.2013
Распознавание речи
Пилипенко В.В.
Вероятность порождения речи моделью
Распознавание речи
29.01.2013
Пилипенко В.В.
Лингвистическая модель
K



P
w

P
w
,...,
w

i|w
i

1
1
wi1,...,w1 - история
i

1
K



P
w

P
w

(
w
,...,
w
)

i|
i

1
1
Ф – класс эквивалентности
i

1
K




P
w

P
w
w
,
w
,...,
w

i|
i

1
i

2
i

N

1
N-граммная модель
i

1


C
w
,...,
w
,
w
i

N

1
i

1
i




P
w
|
w
,
w
,...,
w

f
w
|
w
,
w
,...,
w

ii

1
i

2i

N

1 ii

1
i

2i

N

1


C
w
,...
w
i

N

1
i

1

 


P
w
|
w
,
w
,

f
(
w
|
w
,
w
)

f
(
w
|
w
)

f
(
w
)
3
1
2
3
3
1
2
2
3
2
1
3






1
,


0
,


0
,


0
- коэффициенты сглаживания
1 2 3
1
2
3
29.01.2013
Распознавание речи
Пилипенко В.В.
Виды моделей при распознавании
29.01.2013
Стенографирование
Корпуса речи и текстов
Радуцкий Александр, SRS
Верховная Рада
65 часов
Телевизиные передачи
280 часов
Новости телеканала NewsOne700 часов
300 дикторов
3000 дикторов
Запись из телевизионного канала
Застенографировано и размечено экспертами на фразы
Текстовый корпус из Интернета больше 600 миллионов слов
29.01.2013
Стенографирование
Причины понижения точности
Людовик Татьяна
Влияние каналов связи и шумов
Разнообразие голосов дикторов
Неизвестные слова от 2 до 20% словаря
Построение лингвистических моделей по текстам
Собственные имена от 5 до 20% словаря
Экстралингвистические явления от 2 до 15% случаев
Редукция и быстрый темп
Суржик и другое неправильное произношение
29.01.2013
Стенографирование
Многодикторное распознавание
29.01.2013
Стенографирование
Адаптация к голосу диктора
Юхименко Александр
Для адаптации необходимо 2 минуты речи диктора
Для известных дикторов (которые вошли в обучающий корпус) 2% улучшения точности распознавания
Для неизвестных дикторов — от 5 до 20% улучшения
Разработана технология адаптации без участия эксперта для
транскрибирования адаптационного образца речи
Стенографирование
29.01.2013
Варианты транскрипций словоформ,
индивидуальные для дикторов
Робейко Валентина
Словоформа
Обычная
транскрипция
Спонтанная
фонетическая
транскрипция
шанОвни
шановний
шанОвний
коли
колИ
колИ
кОли
коли
доброго
дОброго
дОбро
Около 3% улучшения точности распознавания
29.01.2013
Стенографирование
Моделирование незнакомых слов
29.01.2013
Стенографирование
Пример ответа распознавания при
наличии незнакомых слов
провадження !B ж о к' І х !E санкцій проти !B т й х' І т р !E на
провайдерів які не відключають !B н е !E законні комітети
провадження * санкцій проти * на провайдерів які не
відключають * законні комітети
29.01.2013
Стенографирование
Экстралингвистические явления
Ладошко Ольга, Гузиенко Ирина
Экстралингвистические явления от 2 до 15% случаев
Улучшение точности распознавания от 2 до 6%
Стенографирование
29.01.2013
Распознавание многоязычной речи
без идентификации языка
Людовик Татьяна
Набор фонем — украинский
Для русских фонем замены: «и» на «і», «э» на «е», «г» на «ґ»
Словарь - 56753 украинские словоформы и 58058 русских словоформ
Украинский
Русский
Укр + Рус
украинские 1693
85.17
10.99
83.70
русские
13.83
85.80
73.54
61.82
35.36
80.37
Речевые
сегменты
Количество
слов
823
украинские 2516
+ русские
29.01.2013
Стенографирование
Обучение на корпусе с неточным
текстовым сопровождением
Селюх Руслан
Для обучения необходимо точное соответствие звука и текста
Обычно стенограмма имеет от 5 до 20% несовпадений
Для точной разметки эксперт тратит в 8 раз больше времени звучания
Исходный корпус 100 часов речи — несовпадение 15%
Размеченный корпус 60 часов
Улучшение точности распознавания на 5%
29.01.2013
Стенографирование
Примеры ответов распознавания
29.01.2013
Стенографирование
Примеры ответов распознавания
Суд над Тимошенко 67%
29.01.2013
Стенографирование
Достигнутое состояние
Средняя точность распознавания — 77%
Для отдельных дикторов - 89%
29.01.2013
Стенографирование
Лингвистические модели
Сажок Николай
Семинар ”Образный компьютер”
12 февраля 2013
Спасибо за внимание !