MASBE

Transcript MASBE

SSML
Speech Synthesys markup language
“Estado actual del estándar SSML para la síntesis del habla
dentro del ‘Speech Interface Framework’ desarrollado por el
grupo de trabajo ‘Voice Browser’ del W3C”
Autor: Mario Rodríguez Boya
Índice de Contenidos
•
•
•
•
•
•
•
Introducción
Proceso de Síntesis del Habla
Formato de un Documento SSML
Integración con otros Lenguajes
Implementaciones Actuales
Desafíos Futuros
Conclusiones
Introducción
• Lenguaje de marcas basado en XML
• Especificación desarrollada por el Voice
Browser Working Group
• Parte del W3C Speech Interface
Framework
• Método estándar para la pronunciación,
tono, volumen, velocidad …
• Generación automática (XSLT) o manual
Índice de Contenidos
•
•
•
•
•
•
•
Introducción
Proceso de Síntesis del Habla
Formato de un Documento SSML
Integración con otros Lenguajes
Implementaciones Actuales
Desafíos Futuros
Conclusiones
Proceso de Síntesis del Habla
•
•
•
•
•
•
Análisis Gramatical
Análisis de la Estructura
Normalización del Texto
Conversión del Texto a Fonemas
Análisis Prosódico
Generación de la Forma de Onda
Proceso de Síntesis del Habla
• Análisis Gramatical
– Se extraen las etiquetas del árbol
– La estructura, etiquetas y atributos extraídos
serán utilizados en las etapas posteriores
Proceso de Síntesis del Habla
• Análisis de la Estructura
– Markup Support: y <s>
– Non-Markup Behaviour: Procesador de
Sintesis (por defecto)
Proceso de Síntesis del Habla
• Normalización del Texto
– Construcciones especiales (1/2, 100 € …)
– Ambigüedad
– Markup Support: <say-as>
– Non-Markup Behaviour:
•
•
•
•
Procesador de síntesis
Múltiples posibilidades
Análisis del contexto
Errores muy probables en la transformación
Proceso de Síntesis del Habla
• Conversión del Texto a Fonemas
– Deducir la pronunciación de las palabras
– Distintos tipos de lenguajes  Distintos tipos
de conversiones (uno a uno, muchos a uno...)
– Markup Support: <phoneme>
– Non-Markup Behaviour: procesador de
síntesis (diccionario de pronunciación)
Proceso de Síntesis del Habla
• Análisis Prosódico
– Prosodia: conjunto de rasgos del habla
– Buena prosodia  Voz humana natural y
comprensible
– Markup Support: <emphasis>, <break> y
<prosody>
– Non-Markup Behaviour: procesador de
síntesis muy efectivo al establecer los rasgos
Proceso de Síntesis del Habla
• Generación de la Forma de Onda
– Llevada a cabo automáticamente por el
procesador de síntesis (Non-Markup
Behaviour)
– Se puede solicitar explícitamente (Markup
Suport) una voz con determinadas cualidades
(e.g. Voz de una mujer joven)
Índice de Contenidos
•
•
•
•
•
•
•
Introducción
Proceso de Síntesis del Habla
Formato de un Documento SSML
Integración con otros Lenguajes
Implementaciones Actuales
Desafíos Futuros
Conclusiones
Formato de un Documento SSML
• DOCTYPE
<!DOCTYPE speak PUBLIC "-//W3C//DTD SYNTHESIS 1.0//EN"
"http://www.w3.org/TR/speech-synthesis/synthesis.dtd">
• Elemento Raíz: <speak>
<?xml version="1.0"?>
<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis"
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://www.w3.org/2001/10/synthesis
http://www.w3.org/TR/speech-synthesis/synthesis.xsd"
xml:lang="en-US">
Formato de un Documento SSML
<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis"
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://www.w3.org/2001/10/synthesis
http://www.w3.org/TR/speech-synthesis/synthesis.xsd"
xml:lang="es">

<s> Tienes 4 mensajes.</s>
<s>
El primero es de Mario, recibido a las <break/> 3:45pm.
</s>
<s>
El asunto es <prosody rate="-20%">vacaciones</prosody>
</s>

</speak>
Formato de un Documento SSML
…

<voice gender="female">
La canción habla de dos personas
</voice>


<voice gender="male">
Aquí tiene una muestra
<audio src="http://www.example.com/music.wav"/>
¿Le gustaría comprar la canción?
</voice>

…
Índice de Contenidos
•
•
•
•
•
•
•
Introducción
Proceso de Síntesis del Habla
Formato de un Documento SSML
Integración con otros Lenguajes
Implementaciones Actuales
Desafíos Futuros
Conclusiones
Integración con otros Lenguajes
• Colabora con SMIL para descripción de
aplicaciones multimedia con salida de voz
• Complementa a ACSS
– Mayor funcionalidad que ACSS
– ACSS controla mejor el aspecto espacial
• Junto con VoiceXML permite el desarrollo
de navegadores de voz
Índice de Contenidos
•
•
•
•
•
•
•
Introducción
Proceso de Síntesis del Habla
Formato de un Documento SSML
Integración con otros Lenguajes
Implementaciones Actuales
Desafíos Futuros
Conclusiones
Implementaciones Actuales
• Loquendo TTS
• Microsoft Speeh Server: aplicaciones de
telefonía por voz
• OptimTalkv
• Voice Center
• Código Abierto: FreeTTS
Índice de Contenidos
•
•
•
•
•
•
•
Introducción
Proceso de Síntesis del Habla
Formato de un Documento SSML
Integración con otros Lenguajes
Implementaciones Actuales
Desafíos Futuros
Conclusiones
Desafíos Futuros
• Normalización del texto
– Homógrafos
– Abreviaturas
– Símbolos
• Implantación en navegadores Web
• Naturalización del habla
– Prosodia
– Comunicación fluida
Índice de Contenidos
•
•
•
•
•
•
•
Introducción
Proceso de Síntesis del Habla
Formato de un Documento SSML
Integración con otros Lenguajes
Implementaciones Actuales
Desafíos Futuros
Conclusiones
Conclusiones
• Estándares del W3C Voice Browser Group
sirven para interacción hombre-máquina
de forma natural
• SSML ofrece control de la prosodia por
parte del autor o automático
• Problemas en la inferencia de significado
de símbolos y abreviaturas en distintos
contextos
Fin
Hola estudiantes del curso de
doctorado “Tecnologías,
estándares y servicios
Web”, espero que les haya
gustado la presentación de
Mario
SSML
“Estado actual del estándar SSML
para la síntesis del habla dentro
del ‘Speech Interface Framework’
desarrollado por el agrupo de
trabajo ‘Voice Browser’ del W3C”
Autor: Mario Rodríguez Boya

MASBE

Transcript MASBE

Directory