voici la présentation

Download Report

Transcript voici la présentation

Bouquet de démos et d'outils
technologiques pour les langues peu
dotées ou en danger
Laurent Besacier & Hadrien Gelas
Laboratoire d’Informatique de Grenoble (LIG)
& Laboratoire Dynamique du Langage (DDL)
Plan

1. Outils pour la reconnaissance automatique
de la parole
– Laurent

- 30mn
2. Exemple d’utilisation pour l’annotation
d’un langue en danger (Punu)
– Hadrien - 30mn

3. Démonstration d’un outil de segmentation
et regroupement en locuteurs
– Laurent – 30mn
Plan

1. Outils pour la reconnaissance automatique
de la parole
– Laurent

- 30mn
2. Exemple d’utilisation pour l’annotation
d’un langue en danger (Punu)
– Hadrien - 30mn

3. Démonstration d’un outil de segmentation
et regroupement en locuteurs
– Laurent – 30mn
Boites à outils open-source (1)

HTK (Cambridge)
– htk.eng.cam.ac.uk

SPHINX (CMU)
– http://cmusphinx.sourceforge.net

JULIUS (Japon)
– http://julius.sourceforge.jp/

RWTH (Aachen, Allemagne)
– http://www-i6.informatik.rwth-aachen.de/rwth-asr/
Boites à outils open-source (2)

HTK et SPHINX très utilisés et
documentés
– Livre htk
• http://htk.eng.cam.ac.uk/docs/docs.shtml
– Workshop sphinx
• http://www.cs.cmu.edu/~sphinx/Sphinx2010/index.html


Julius permet l’utilisation de grammaires, en
plus des modèles de langage n-grammes
RASR est le plus à jour du point de vue des
technologies avancées pour la RAP
Boites à outils open-source (3)


Outils de paramétrisation,
d’apprentissage et de décodage
Modèles acoustiques disponibles pour
certaines langues
– Exemples jouets
– http://www.speech.cs.cmu.edu/sphinx/models/
– Voir aussi http://www.voxforge.org/
Exemple de sphinx

Voir fichiers séparés
Plan

1. Outils pour la reconnaissance automatique
de la parole
– Laurent

- 30mn
2. Exemple d’utilisation pour l’annotation
d’un langue en danger (Punu)
– Hadrien - 30mn

3. Démonstration d’un outil de segmentation
et regroupement en locuteurs
– Laurent – 30mn
Plan

1. Outils pour la reconnaissance automatique
de la parole
– Laurent

- 30mn
2. Exemple d’utilisation pour l’annotation
d’un langue en danger (Punu)
– Hadrien - 30mn

3. Démonstration d’un outil de segmentation
et regroupement en locuteurs
– Laurent – 30mn
Autres outils autour de la
reconnaissance automatique de la
parole

MISTRAL
– http://mistral.univ-avignon.fr/
– Plateforme open source d’authentification
biométrique
– Exemple : outil de segmentation et
regroupement en locuteurs
• http://mistral.univavignon.fr/svn/LIA_RAL/branches/MISTRAL_SEG/
Segmentation et Regroupement en
Locuteurs
Système de segmentation
L0
L1
L2
L1

Qui parle et quand ? découper un document en
segments homogènes appartenant à un seul locuteur
et étiqueter ces segments selon chaque locuteur.

Hypothèses
– aucune connaissance a priori sur le document
– le nombre de locuteurs est inconnu, pas de données
de référence disponibles pour les locuteurs, etc.
Architecture du système
Fichier
non-segmenté
Découper un document en segments
homogènes appartenant à un seul locuteur ou
une classe acoustique.
Identification les zones paroles/musique en
utilisant les GMMs parole/musique/mélange
Détection de changements acoustiques
Détection parole/musique
Recombiner les petits segments adjacents en
segments plus grands
Recombinaison de segments adjacents
Regrouper hiérarchiquement les segments
selon chaque locuteur (1er passe)
Regroupement hiérarchique en locuteurs
à base de BIC
Raffiner la frontière des segments en utilisant
un décodage Viterbi
Regrouper les segments selon chaque
locuteur (2ème passe) :
Ré-segmentation Viterbi
Regroupement en locuteurs à base d’une
identification du locuteur (SID)
+ Modèle GMM du monde UBM
+ Distance : NCLR
S0
S2
S0
S1
S2
Un document audio segmenté sur
Transcriber
Aller vers la démo…