Resumen de la web en PPT
Download
Report
Transcript Resumen de la web en PPT
Análisis y síntesis de voz mediante
ordenador
Objetivos
Aprender como “se forma” la voz y sus características
principales.
Tener una idea básica sobre en que se basa el reconocimiento
del habla y que técnicas son utilizadas para llevarlo a cabo.
Conocer el estado actual de tecnologías de interacción como la
síntesis o el reconocimiento de voz.
Ver las aplicaciones actuales de esta tecnología.
Contenidos
Historia de estas tecnologías
El concepto de voz
Procesamiento digital
Reconocimiento de voz
Introducción
Modelado del tracto vocal
Preprocesado de la señal de voz
Procesamiento mediante LPC
Alineamiento temporal (DTW)
Cuantificación vectorial
…
Contenidos
Síntesis de la voz
Introducción
Sistemas de respuesta oral Vs convertidores
texto-voz
Conversión texto-voz
Aplicaciones
Aplicaciones
Contenidos
Historia de estas tecnologías
El concepto de voz
Procesamiento digital
Reconocimiento de voz
Introducción
Modelado del tracto vocal
Preprocesado de la señal de voz
Procesamiento mediante LPC
Alineamiento temporal (DTW)
Cuantificación vectorial
…
Historia del reconocimiento
Los inicios: años 50
•Bell Labs .... Reconocimiento de dígitos aislados monolocutor
Los fundamentos: años 60
•Comienzo en Japón (NEC labs)
Las primeras soluciones: años 70, el mundo
probabilístico
•Reconocimiento de palabras aisladas
•LPC, programación dinámica
•IBM: inicio proyecto reconocimiento de grandes vocabularios
•Gran inversión en los USA: proyectos DARPA
Historia del reconocimiento
Reconocimiento del Habla Continua: años 80, expansión
•Explosión de los métodos estadísticos: Modelos Ocultos de Markov
•Introducción de las Redes Neuronales en el reconocimiento de voz
Empieza el negocio: años 90, primeras aplicaciones
•Ordenadores y procesadores baratos y rápidos
•Sistemas de dictado
Actualidad, integración en el S.O.
•VoiceXML standard
•Sistema V2C (interacción voz-radio, voz-teléfono, voz-navegador)
Historia de la síntesis
Síntesis del Habla: Comienzos tempranos
•El Papa Silvestre II (1003), Alberto Magno (1198-1280) y Roger Bacon (12141294) crearon ejemplos tempranos de 'cabezas parlantes'.
Fijación de las bases: siglo XIX, modelado de la voz
•En 1779, el científico danés Christian Gottlieb Kratzenstein, construyó modelos
del tracto vocal que podían producir las cinco vocales largas (a, e, i, o, u).
Y por fin: siglo XX, síntesis mediante computador
•En los años 30, los laboratorios Bell Labs desarrollaron el VOCODER, un
analizador y un sintetizador del habla operado por teclado.
•Años 90 grandes avances en la síntesis debido principalmente al rápido
desarrollo de los ordenadores.
Contenidos
Historia de estas tecnologías
El concepto de voz
Procesamiento digital
Reconocimiento de voz
Introducción
Modelado del tracto vocal
Preprocesado de la señal de voz
Procesamiento mediante LPC
Alineamiento temporal (DTW)
Cuantificación vectorial
…
El concepto de voz
Sistema fonador humano
Onda de presión acústica.
Los distintos sonidos se producen al pasar
el aire emitido por los pulmones, a través
de todo el sistema de producción.
El concepto de voz
Clasificación de sonidos
Sonidos sonoros En ellos las cuerdas
vocales vibran y el aire pasa a través del
tracto vocal sin impedimentos importantes.
Sonidos sordos En ellos las cuerdas
vocales no vibran y existen restricciones
importantes al paso del aire que proviene
de los pulmones, por lo que son de
amplitud menor y normalmente de
naturaleza más ruidosa que los sonoros.
El concepto de voz
Análisis frecuencial (I)
La mayor parte de la información de la señal de voz se encuentra en los
primeros 4 kHz.
Sonido sordo
Sonido sonoro
Contenidos
Historia de estas tecnologías
El concepto de voz
Procesamiento digital
Reconocimiento de voz
Introducción
Modelado del tracto vocal
Preprocesado de la señal de voz
Procesamiento mediante LPC
Alineamiento temporal (DTW)
Cuantificación vectorial
…
Procesamiento digital
El procesamiento digital de señal mediante un DSP, ordenador, etc.
Fase 1ª - Digitalización de voz
Etapas de digitalización:
Recogida de información mediante un transductor.
Filtrado antialiasing.
Muestreo (Teorema de Nyquist).
Procesamiento digital
Fase 2ª - Codificación de voz
Pretenden reducir el volumen de información necesario para almacenar o
transmitir una señal de voz.
Minimizar la pérdida de calidad de la señal decodificada respecto a la señal
original.
Tipos de codificación:
Codificación de forma de onda: intentan reproducir fielmente la forma
de la onda de la señal a codificar
Codificación paramétrica(*): se basan en un modelo de producción del
habla, e intentan reproducir en el proceso de decodificación una señal que
al escucharla se parezca a la original, aunque existan distorsiones en la
forma de onda generada.
• (*)Nota: en el reconocimiento de voz, la codificación paramétrica es
ampliamente utilizada.
Contenidos
Historia de estas tecnologías
El concepto de voz
Procesamiento digital
Reconocimiento de voz
Introducción
Modelado del tracto vocal
Preprocesado de la señal de voz
Procesamiento mediante LPC
Alineamiento temporal (DTW)
Cuantificación vectorial
…
Reconocimiento de voz
Introducción
El reconocimiento de la voz constituye una parte importante del tratamiento
del habla.
Técnicas de reconocimiento utilizadas:
Análisis de Predicción Lineal (LPC)
Alineamiento Temporal (DTW)
Modelos ocultos de Markov
Tipos de enfoque en el reconocimiento:
Reconocer palabras aislados
Reconocer palabras conectadas
Reconocer fonemas y difonos (reconocimiento continuo de voz)
Contenidos
Historia de estas tecnologías
El concepto de voz
Procesamiento digital
Reconocimiento de voz
Introducción
Modelado del tracto vocal
Preprocesado de la señal de voz
Procesamiento mediante LPC
Alineamiento temporal (DTW)
Cuantificación vectorial
…
Reconocimiento de voz
Modelado del tracto vocal (I)
Como ya se vio, existen dos tipos de
señales, que pueden describir el proceso
del habla:
Sonidos sonoros
• Alta energía
• 300-4000 Hz
• Cierta periodicidad
• Matemáticamente modelables como un
tren de impulsos
Sonidos sordos
• Baja energía
• Componente frecuencial uniforme
• Cierta aleatoriedad
• Matemáticamente modelables como un
ruido blanco
Reconocimiento de voz
Modelado del tracto vocal (II)
Teniendo presente la clasificación anterior y que el tracto vocal modelado se
manifiesta como un filtro variable en el tiempo, en el que únicamente
existen dos posibles señales de entrada (sonoras o sordas), se puede hacer
el siguiente sistema:
Contenidos
Historia de estas tecnologías
El concepto de voz
Procesamiento digital
Reconocimiento de voz
Introducción
Modelado del tracto vocal
Preprocesado de la señal de voz
Procesamiento mediante LPC
Alineamiento temporal (DTW)
Cuantificación vectorial
…
Reconocimiento de voz
Preprocesado de la señal de voz
1ª- Preénfasis
La etapa de preénfasis se realiza con el propósito de suavizar el espectro y reducir
las inestabilidades del cálculo asociadas con las operaciones aritméticas de precisión
finita.
Básicamente esta etapa consiste en un filtro digital de primer orden, cuya ecuación y
repuesta en frecuencia corresponde a:
Reconocimiento de voz
Preprocesado de la señal de voz
2ª- Segmentación y enventanado
La siguiente etapa del preprocesado, consiste en la segmentación de la señal de voz
en tramas de 20 ó 30 mseg, con un desplazamiento típico de 10 mseg.
Reconocimiento de voz
Preprocesado de la señal de voz
2ª- Segmentación y enventanado
Por último a cada trama generada se le aplica una ventana de Hamming, que elimina
los problemas causados por los cambios rápidos de la señal en los extremos de cada
trama de voz.
Contenidos
Historia de estas tecnologías
El concepto de voz
Procesamiento digital
Reconocimiento de voz
Introducción
Modelado del tracto vocal
Preprocesado de la señal de voz
Procesamiento mediante LPC
Alineamiento temporal (DTW)
Cuantificación vectorial
…
Reconocimiento de voz
Procesamiento mediante LPC
Permite parametrizar una señal con un número pequeño de patrones.
Coste computacional pequeño.
●Problema:
filtro
No sabemos como calcular los coeficientes ak del
Reconocimiento de voz
Procesamiento mediante LPC
Autocorrelación en combinación con algoritmo de LevinsonDurbin
Cálculo de los coeficientes del filtro FIR:
Contenidos
Historia de estas tecnologías
El concepto de voz
Procesamiento digital
Reconocimiento de voz
Introducción
Modelado del tracto vocal
Preprocesado de la señal de voz
Procesamiento mediante LPC
Alineamiento temporal (DTW)
Cuantificación vectorial
…
Reconocimiento de voz
Alineamiento temporal (DTW)
La siguiente etapa del análisis viene a ser la que se encarga de realizar la
comparación de patrones acústicos. Esta técnica tiene en cuenta la variación
en la escala de tiempo de dos palabras a comparar.
Que problema se intenta resolver con el DTW?
• El problema que se presenta cuando se pronuncia una palabra es que esta no siempre se
realiza a la misma velocidad, lo que produce importantes distorsiones.
Como resolverlo?
• La forma de resolver este problema se realiza mediante algoritmos de programación
dinámica.
Contenidos
Historia de estas tecnologías
El concepto de voz
Procesamiento digital
Reconocimiento de voz
Introducción
Modelado del tracto vocal
Preprocesado de la señal de voz
Procesamiento mediante LPC
Alineamiento temporal (DTW)
Cuantificación vectorial
…
Reconocimiento de voz
Cuantificación vectorial
Particionar el espacio vectorial en sectores, cada uno de los cuales será representado por
un solo vector que puede ser el centroide. El conjunto de centroides viene a ser el libro
índice (codebook) que conforman los niveles de cuantificación y a cada una se le asignará
una etiqueta o una dirección.
Decisión:
El funcionamiento básico de esta técnica se basa en la comparación de un vector de entrada, con
los vectores del codebook, intentando minimizar la distancia entre ambos vectores. La decisión se
toma según un umbral de distorsión. Si resulta mayor se vuelve a comparar hasta que la
de distancia total sea inferior al umbral.
Reconocimiento de voz
Esquema de un reconocedor de cuantificación vectorial
Contenidos
Síntesis de la voz
Introducción
Sistemas de respuesta oral Vs convertidores
texto-voz
Conversión texto-voz
Aplicaciones
Aplicaciones
Síntesis de la voz
Introducción
Características a tener en cuenta de un sintetizador:
Inteligibilidad: Está relacionada con la facilidad para comprender la
señal oral.
Calidad: Es un indicador de la “naturalidad” de los sonidos.
Contenidos
Síntesis de la voz
Introducción
Sistemas de respuesta oral Vs convertidores
texto-voz
Conversión texto-voz
Aplicaciones
Aplicaciones
Síntesis de la voz
Sistemas de respuesta oral vs convertidores texto-voz
Tipos:
Sistemas de respuesta oral
• Basados en la reproducción de segmentos de voz grabados previamente. Por ejemplo, en el
caso de información de telefónica.
Convertidores texto-voz
• Sistemas capaces de convertir cualquier cadena de texto de entrada a una señal de voz.
Ventajas/Desventajas
Los sistemas de respuesta oral solo permiten sintetizar un número muy limitado de
frases, mientras que los sintetizadores permiten un cualquier frase de entrada.
Los convertidores texto-voz son más complejos, pero ofrecen una mayor flexibilidad.
Los sistemas de respuesta oral requieren un menor gasto de memoria.
Contenidos
Síntesis de la voz
Introducción
Sistemas de respuesta oral Vs convertidores
texto-voz
Conversión texto-voz
Aplicaciones
Aplicaciones
Síntesis de la voz
Conversión texto-voz. Esquema del sintetizador
Síntesis de la voz
Conversión texto-voz. 1ª - Etapa: Análisis del texto
Función:
Realiza la conversión de los símbolos fonéticos que integran el texto escrito, usando
reglas gramaticales propias del lenguaje.
Síntesis de la voz
Conversión texto-voz. 2ª - Etapa: Generación de prosodia
Función:
Se divide en dos bloques:
• Control suprasegmental: Trata la entonación de la frase en su conjunto.
• Control segmental: controla la micromelodía, o fenómenos locales de coarticulación,
acentuación,...
Síntesis de la voz
Conversión texto-voz. 3ª - Etapa: Síntesis de la voz
Función:
Genera la señal acústica a partir de los parámetros extraídos en los bloques
anteriores.
Unidades lingüísticas
Contenidos
Síntesis de la voz
Introducción
Sistemas de respuesta oral Vs convertidores
texto-voz
Conversión texto-voz
Aplicaciones
Aplicaciones
Aplicaciones
Aplicaciones del reconocimiento de la voz:
Dictado automático
Control por comandos
Sistemas diseñados para discapacitados
etc
Aplicaciones
Aplicaciones de la síntesis:
Revisar grandes volúmenes de texto
Confirmación de órdenes y selecciones
Operar bajo condiciones en las que una visualización no es práctica
Oír el correo electrónico por teléfono
etc
Conclusiones
Obteniendo varios ejemplos de diferentes programas de
síntesis:
Software 2000-2001:
Software 2005-2006:
Universidad de Vigo:
• Basada en técnica de corpus:
• Basada en técnica de difonemas: