Ahots Parametrizazioa
Download
Report
Transcript Ahots Parametrizazioa
Análisis y modelado de
sistemas. Predicción lineal.
Mecanismos de producción de la voz
Análisis LPC
Hizketaren inguruko oinarrizko kontzeptuak
Teoría de producción de la voz
Estudio científico
Modelo ingenieril
Análisis LPC
Predecir una muestra a partir de las anteriores
Calcular la mejor Combinación Lineal Predictora
Invertir=Síntesis desde señal error sin información
Parámetros equivalentes
Conceptos básicos sobre voz
Producción de voz
Voz
Es la onda acustica radiada
cuando una constricción del
tracto vocal perturba el flujo
de aire expulsado por los
pulmones
Conceptos básicos sobre voz
Teoría de la producción de voz
Sonidos sonoros:
El flujo de aire procedente de los pulmones es periódicamente
interrumpido por la apertura y cierre de las cuerdas vocales.
Flujo periódico, frecuencia fundamental F0 -> pitch
Sonidos sordos:
No vibran las cuerdas vocales
El flujo de aire encuentra un
Estrechamiento toma gran velocidad forma turbulencias
Tracto vocal + Tracto nasal:
Actúan como cavidades resonantes
Frecuencias de resonancia Formantes
Los formantes dependen de la forma y dimensiones del TV El
espectro de la voz varía con el tiempo al varíar el TV
Conceptos básicos sobre voz
Teoría de la producción de voz
Excitación
Cavidad
resonante
g(t Pulso de Rosenberg
)
G(f)
Conceptos básicos sobre voz
Radiación
en los labios
Teoría de la producción de voz
Modelo de Fuente y Tracto vocal:
Separa las características de la fuente y del tracto
vocal.
Funciona mejor con parametros que varían
lentamente.
Filtro V(z) todo polos: solo tiene resonancias no,
modela las nasales.
Separa fuente sonora y sorda
no vale para todos los sonidos
Cambio repentino de tipo de fuente: no es realista
Conceptos básicos sobre voz
Teoría de la producción de voz
Tracto vocal tubo de sección variante y no
uniforme
A(x)
A(x)
Glotis
Glotis
Labios
A(x)
x=0
Labios
Ak(x)
x=l
x=0
Aproximación: concatenación de tubos de
secciones Ak constantes
Conceptos básicos sobre voz
x=l
Teoría de la producción de voz
Longitud de onda mayor que la longitud del tubo:
f≤5000Hz
l≥340m/s/5000Hz=6’8cm
Aproximación de onda plana aceptable
Además se supone:
No hay pérdidas por rozamiento ni por conducción
de calor
Las secciones Ak no cambión con el tiempo
Conceptos básicos sobre voz
Teoría de la producción de voz
Con estas suposiciones, las ondas en el tubo
cumplen estas ecuaciones:
u
p
A
x
t
u
1 pA A
2
x c
t
t
p=p(x,t)
u=u(x,t)
:
c:
A=A(x,t)
Variación de la presion
Variación del flujo de aire
Densidad del aire
Velocidad del sonido
Función de área
Puesto que el área en una sección es constante:
p u
x A t
u
A p
2
x c t
Conceptos básicos sobre voz
Teoría de la producción de voz
Analogía electrica: línea de transmisión uniforme y
sin pérdidas
v: tensión
i: corriente
L: inductancia
C: capacidad
x
i t
c
vx, t
x
i t
c
p: presión
u: velocidad
/A: inductancia acústica
A/c2: capacidad acústica
v
i
L
x
t
i
v
C
x
t
Conceptos básicos sobre voz
Teoría de la producción de voz
Solución de las ecuaciones diferenciales:
p k
u k
x
Ak t
u k
A p
k2
x
c t
x
u k t
c
x
u k t
c
x
x
u k x, t u k t u k t
c
c
pk x, t
A1
c
x x
uk t uk t
Ak c
c
Onda que avanza
Onda que retrocede
A3
u k t
u k t
x=0
Conceptos básicos sobre voz
A2
x=lk
An-1 An An+1
Teoría de la producción de voz
u k 1 t u k 1 t k 1
u k t
u k t
u k t k
u k t k
u k 1 t u k 1 t k 1
lk
k
lk
c
Tiempo de recorrido de una sección
Condiciones de continuidad:
pk l k , t pk 1 0, t
u k l k , t u k 1 0, t
lk+1
Se obtienen las ecuaciones:
u k1 t 1 rk u k t k rk u k1 t
rk
u k t k rk u k t k 1 rk u k1 t
A k 1 Ak
Ak 1 Ak
Coeficiente de reflexión
|rk|<1
Diagrama de flujo que corresponde a estas ecuaciones:
Retardo
k
u k t k
1+rk
tubo késimo -rk
u k t
Retardo
k
uk
+
t k 1-rk
+
u k t
u k 1 t
Retardo
k+1
u k 1 t k 1
tubo (k+1)ésimo
rk
u k 1 t
Conceptos básicos sobre voz
Retardo
k+1
u k 1 t k 1
Teoría de la producción de voz
Condiciones de contorno:
En los labios
En la glotis
Para modelar los labios:
Pantalla acústica esférica
Difícil de modelar
Pantalla acústica plana
Conceptos básicos sobre voz
Teoría de la producción de voz
Condiciones de contorno en los labios:
c
u t N rLu t N
N
N
ZL
AN
rL
c
ZL
AN
rL coeficiente de reflexión en los labios
ZL impedancia de radiación en los labios
Velocidad de partícula, en los labios:
u N l N , t 1 rL u N t N
Diagrama de flujo que corresponde a esta
ecuación:
u N t
Retardo
N
u N t N
1+rL
tubo Nsimo
u N t
Retardo
N
-rL
+
u N t N
Conceptos básicos sobre voz
u N lN , t
Teoría de la producción de voz
Condiciones de contorno en la glotis:
u1 t
1 rG
uG t rG u1 (t )
2
rG
ZG
c
A1
c
ZG
A1
rG coeficiente de reflexión en la glotis
ZG impedancia de la glotis
Diagrama de flujo que corresponde a esta
ecuación :
uG t
+
1 rG
2
u1 t
rG
u1 t
Retardo
1
u1 t 1
1er tubo
Retardo
1
u1 t 1
Conceptos básicos sobre voz
Teoría de la producción de voz
Modelo de tubo sin pérdidas completo:
+
rG
u1 t
Retardo
1
u1 t 1
1+r1
1er tubo
Retardo
1
+
1 rG
2
u1 t
-r1
Retardo
2
2º tubo
r1
+
u t 1 1-r1
1
u 2 t
u2 t
Retardo
2
u2 t 2
1+r2
+
uG t
-r2
+
u2 t 2 1-r2
Conceptos básicos sobre voz
u3 t
r2
u3 t
Retardo
3
3er tubo
Retardo
3
u3 t 3
u L t
1+rL
-rL
+
u3 t 3
Teoría de la producción de voz
Modelo de tubo sin pérdidas completo:
+
rG
u1 t
Retardo
1
u1 t 1
1+r1
1er tubo
Retardo
1
+
1 rG
2
u1 t
-r1
Retardo
2
2º tubo
r1
+
u t 1 1-r1
1
u 2 t
u2 t
Retardo
2
U ( z ) 1 rG
H ( z) L
U G ( z)
2
z
N
2
u2 t 2
1+r2
+
uG t
-r2
+
u2 t 2 1-r2
N
(1 r )
i
i 1
N
1 a i z i
i 1
Conceptos básicos sobre voz
u3 t
r2
u3 t
Retardo
3
3er tubo
Retardo
3
u3 t 3
u L t
1+rL
-rL
+
u3 t 3
Teoría de la producción de voz
Modelo de tubo sin pérdidas completo:
+
rG
u1 t
Retardo
1
u1 t 1
1+r1
1er tubo
Retardo
1
+
1 rG
2
u1 t
-r1
Retardo
2
u2 t 2
1+r2
2º tubo
r1
+
u t 1 1-r1
1
u 2 t
u2 t
Retardo
2
U ( z ) 1 rG
H ( z) L
U G ( z)
2
z
N
2
+
uG t
-r2
u3 t
Retardo
3
r2
+
u2 t 2 1-r2
3er tubo
Retardo
3
u3 t
N
(1 r )
i
i 1
N
1 a i z i
i 1
Todos los tubos de igual longitud:
Dx
N
l
Longitud de los tubos
Número de tubos
Longitud del tracto vocal
Retardo en un tubo
Dx
l
N
Dx
c
l
A1
Dx
A2
Dx
A3
A4
A6
A7
Dx
Dx
Conceptos básicos sobre voz
A5
A8
Dx
Dx Dx
Dx
u3 t 3
u L t
1+rL
-rL
+
u3 t 3
Teoría de la producción de voz
Sistema discreto equivalente:
1+r1
+
rG
+
1 rG
2
z-1/2
-r1
z-1/2
z-1/2
1+r2
r1
+ 1-r
1
+
uG nT
-r2
z-1/2
1+rL
r2
+ 1-r
2
u N nT
z-1/2
-rL
+
z-1/2
Sistema discreto equivalente con retardos
+
1 rG
2
rG
z-1
1+r1
+
G
-r1
r1
+ 1-r
1
z-1
1+r2
+
enteros:
u nT
-r2
+ 1-r
2
Conceptos básicos sobre voz
r2
z-1
(1+rL) z3/2
-rL
+
u N nT
Teoría de la producción de voz
Línea continua:
terminación en
cortocircuito
Conceptos básicos sobre voz
Teoría de la producción de voz
uG(n)
Modelo de tubo
sin pérdidas
Función de área
(coeficientes de
reflexión)
uL(n)
uG(n)
Sistema lineal
V(z)
parámetros
Conceptos básicos sobre voz
uL(n)
Teoría de la producción de voz
uG(n)
uL(n)
Modelo de tubo
sin pérdidas
uG(n)
Función de área
(coeficientes de
reflexión)
uG(n)
plano Z
parámetros
uL(n)
V ( z)
G
N
1 ak z k
k 1
G
+
uL(n)
z-1
x
Jk
Sistema lineal
V(z)
a1
uG(n)
+
G1
+
G2
+
z-1
z-1
GM
+
z-1
z-1
x
2|z1|cosJ1
a2
2|z2|cosJ2
+
+
z-1
aN-1
-|z1|2
+
2|zM|cosJM
+
+
z-1
aN
+
Conceptos básicos sobre voz
z-1
z-1
-|z2|2
-|zM|2
uL(n)
Análisis LPC
Análisis por Predicción Lineal (Linear Predictive Analysis)
Técnica eficaz para analizar la voz
Estima el espectro de la voz de forma
Precisa
Eficiente
Idea básica: una combinación lineal de muestras
de voz pasadas es buena aproximación de la
muestra siguiente
Conceptos básicos sobre voz
Análisis LPC
El análisis LPC (Linear Predictive Coding):
Predice los polos que modelan el tracto vocal
Mediante pocos párametros
Obtenidos por cálculos sencillos
Conceptos básicos sobre voz
Análisis LPC
Sean {s(n)} las muestras de voz tomadas cada Ts seg.
Ts<1/2m, m: frecuencia máxima de la señal
s(n)
s(n-p)
P+1
Formamos una combinación lineal de P muestras:
a1·s(n-1)+a2·s(n-2)+…+ap·s(n-p)= ŝ(n)
e(n) = s(n) - ŝ(n)
Conceptos básicos sobre voz
Análisis LPC
Si {e(n)} es una variable estadística incorrelada
(media 0 y varianza s2)
Conceptos básicos sobre voz
Análisis LPC
Si {e(n)} es una variable estadística incorrelada
(media 0 y varianza s2)
p
sˆ(n) ai s(n i )
i 1
ŝ(n) es una buena
aproximación de s(n)
Conceptos básicos sobre voz
Análisis LPC
Si {e(n)} es una variable estadística incorrelada
(media 0 y varianza s2)
p
sˆ(n) ai s(n i )
i 1
ŝ(n) es una buena
aproximación de s(n)
Error cometido en la predicción, residuo:
e(n) s(n) sˆ(n)
Conceptos básicos sobre voz
Análisis LPC
P(z) filtro predictor
p
sˆ(n) ai s(n i)
Transformada
Z
p
Sˆ ( z ) ai z i S ( z )
i 1
i 1
Sˆ ( z ) P( z ) S ( z )
s (n)
P(z)
p
P( z ) ai ·z i
i 1
Conceptos básicos sobre voz
sˆ( n)
Análisis LPC
A(z)
e(n)
s (n)
+_ +
sˆ( n)
Error de
predicción
P(z)
transformada
Z
A(z)
Conceptos básicos sobre voz
Análisis LPC
Sintesis LPC
H(z)=1/A(z)
e(n)
s (n)
+
sˆ( n)
P(z)
p
P( z ) ai ·z i
i 1
H(z): modela la respuesta del tracto vocal
e(n): es la excitación, la fuente de sonido
Conceptos básicos sobre voz
Análisis LPC: ejemplos E
Segmento de una e, enventanado hamming
FFT de la señal y espectro LPC de orden 14
Error de predicción
Espectro del error
Conceptos básicos sobre voz
Análisis LPC: ejemplos S
Segmento de una s, enventanado hamming
FFT de la señal y espectro LPC de orden 14
Error de predicción
Espectro del error
Conceptos básicos sobre voz
Cálculo de los coeficientes LPC
Criterio para calcular los coeficientes del filtro
predictor P(z) :
Minimizar el error cuadrático medio
2
n1
e
n n0
2
i cij 0 j 1... p
j i 0
0 1
p
2
( n)
mínimo
cij
n1
s (n i ) s (n j )
n n0
Conceptos básicos sobre voz
Cálculo de los coeficientes LPC
2
i cij 0 j 1... p
j i 0
p
Sistema de ecuaciones lineales
p ecuaciones
p incógnitas
Para calcular la solución en el intervalo [n0 n1] son
necesarias la muestras de la señal del intervalo [n0-p n1]
Basandose en un conjunto de N muestras se han
investigado dos métodos de resolución:
Método de las autocorrelaciones
Método de las covarianzas
Conceptos básicos sobre voz
Cálculo de los coeficientes LPC
Método de las autocorrelaciones:
El error se minimiza en el intervalo [-∞ ∞]
Se supone señal nula en n<0 y n>N-1
Muestras usadas
s(m+i-j)
s(m)
i-j
E minimo en [n0 n1]
Conceptos básicos sobre voz
Cálculo de los coeficientes LPC
Método de las autocorrelaciones:
cij
El error se minimiza en el intervalo [-∞ ∞]
Se supone señal nula en n<0 y n>N-1
N 1( i j )
s(n i)s(n j) s(m)s(m i j ) R(i j)
n
m 0
n-i=m
Muestras usadas
s(m+i-j)
s(m)
i-j
E minimo en [n0 n1]
Conceptos básicos sobre voz
Autocorrelación
de s(n)
Cálculo de los coeficientes LPC
Método de las autocorrelaciones:
R(k )
N 1 k
s ( m) s ( m k )
m 0
R(i j ) R(| i j |) cij
R(k) es par
p
Las ecuaciones a resolver son
R ( 0)
R (1)
...
R ( p 1)
R (1)
...
R ( 0)
...
...
...
R ( p 2) ...
R(| i j |) 0
i 0
i
R ( p 1) 1 R (1)
R ( p 2) 2 R (2)
...
...
...
R (0) p R ( p )
[R]
Conceptos básicos sobre voz
j 1... p
Ecuaciones de
Yule-Walker
Cálculo de los coeficientes LPC
La matriz [R] es Toepliz:
Simétrica
Los elementos en las diagonales paralelas a la
diagonal principal son iguales
El
método de Durbin aprovecha estas
propiedades de la matriz [R]
Como s(n)=0 para n<0 y n>N-1, e(n) será grande
en 0<n<p pues la predicción se basa en muestras
que han sido puestas a cero.
Ocurre lo mismo en el intervalo final N<n<N+p-1
Para reducir este efecto se enventana la señal
Conceptos básicos sobre voz
LPC koefizienteak
Hasiera
Para obtener la
solución:
algoritmo de LevisonDurbin
E(0) = R(0)
i:1
p
ki = 1/E(i-1) { R(i)+j(i-1)R(i-j) }
K
i(i) = -ki
j:1
i-1
j(i) = j(i-1) - kii-j(i-1)
j
E(i) = (1-ki2)E(i-1)
i
Conceptos básicos sobre voz
Bukaera
Cálculo de los coeficientes LPC
Método de las covarianzas:
Se minimiza el error en el intervalo [p, N-1]
Se utilizan todas las muestras de la señal
Muestras usadas
s(m+i-j)
s(m)
i-j
E minimo en [n0 n1]
Conceptos básicos sobre voz
Cálculo de los coeficientes LPC
Método de las covarianzas:
Se minimiza el error en el intervalo [p, N-1]
Se utilizan todas las muestras de la señal
N 1
N 1i
n p
m p i
cij s(n i) s(n j )
s(m)s(m i j) (i, j )
n-i=m
Muestras usadas
s(m+i-j)
s(m)
i-j
E minimo en [n0 n1]
Conceptos básicos sobre voz
Cálculo de los coeficientes LPC
Método de las covarianzas:
Las ecuaciones a resolver
p
c
i 0
i
ij
p
N 1i
i 0
m p i
0 i
s ( m) s ( m i j )
p
(i, j ) (0, j )
i 1
i
j 1... p
La matriz :
Es definida positiva
Se puede resolver por métodos eficientes
(descomposición de Cholesky)
Conceptos básicos sobre voz
Análisis LPC
Sonido del residuo
A(z)
e(n)
s (n)
+_ +
sˆ( n)
P(z)
Conceptos básicos sobre voz
Residuo de un segmento sonoro
Análisis LPC
Conceptos básicos sobre voz
Residuo de un segmento sordo
Análisis LPC
Conceptos básicos sobre voz
Señal original
Análisis LPC
Conceptos básicos sobre voz
Análisis LPC
Conceptos básicos sobre voz
Residuo
Análisis LPC
Conceptos básicos sobre voz
Análisis LPC: ejemplos
y (n)
Análisis LPC
…{ak,Gi}i {ak,Gi}i +1…
Ruido blanco, G=100%
s (n)
x
Gi
y (n)
+
Ruido blanco, G=50%
Tren de deltas G=100%
yˆ (n)
P(z)
Tren de deltas G=50%
p
P( z ) ak ·z k
k 1
Conceptos básicos sobre voz
Parametrización de la voz
Análisis de la señal de voz
Análisis LPC
Análisis PARCOR
Análisis CEPSTRUM
Vocoder LPC
Análisis por síntesis
Conceptos básicos sobre voz
Análisis PARCOR
PARtial CORrelation coefficients
ei(n) es el error de predicción del método
Levinson-Durbin en el paso i
forward prediction error
i
e ( n) s ( n) a s ( n k )
i
k 1
i
k
s(n) se predice como
combinación lineal de i muestras
anteriores
bi(n) se define de forma similar
backward prediction error
i
b ( n) s ( n i ) a s ( n k i )
i
k 1
i
k
s(n-i), se predice como
combinación lineal de i muestras
posteriores
Conceptos básicos sobre voz
Análisis PARCOR
s(n)
Sistema predictor
s(n-i)
de orden i:
i
A ( z ) 1 a ki ·z k
i
i muestras usadas en
una predicción de
orden i
k 1
Relación entre coeficientes de sistemas
predictores de distinto orden
a ki a ki 1 k i aii1k
Ai ( z) Ai 1 ( z) ki z i Ai 1 ( z 1 )
Si la entrada al sistema predictor es s(n), la salida
es ei(n)
E i ( z) Ai ( z)S ( z) Ai 1 ( z)S ( z) ki z i S ( z) Ai 1 ( z 1 )
Conceptos básicos sobre voz
Análisis PARCOR
s(n)
Sistema predictor
s(n-i)
de orden i:
i
A ( z ) 1 a ki ·z k
i
i muestras usadas en
una predicción de
orden i
k 1
Relación entre coeficientes de sistemas
predictores de distinto orden
Ai ( z) Ai 1 ( z) ki z i Ai 1 ( z 1 )
a ki a ki 1 k i aii1k
Si la entrada al sistema predictor es s(n), la salida
es ei(n)
E i ( z) Ai ( z)S ( z) Ai 1 ( z)S ( z) ki z i S ( z) Ai 1 ( z 1 )
E i1 ( z )
Conceptos básicos sobre voz
Análisis PARCOR
s(n)
Sistema predictor
s(n-i)
de orden i:
i
A ( z ) 1 a ki ·z k
i
i muestras usadas en
una predicción de
orden i
k 1
Relación entre coeficientes de sistemas
predictores de distinto orden
Ai ( z) Ai 1 ( z) ki z i Ai 1 ( z 1 )
a ki a ki 1 k i aii1k
Si la entrada al sistema predictor es s(n), la salida
es ei(n)
E i ( z) Ai ( z)S ( z) Ai 1 ( z)S ( z) ki z 1 z (i 1) S ( z) Ai 1 ( z 1 )
E i1 ( z )
B i1 ( z)
Conceptos básicos sobre voz
Análisis PARCOR
E i ( z) Ai 1 ( z)S ( z) ki z 1 z (i 1) S ( z) Ai 1 ( z 1 ) E i 1 ( z) ki z 1 B i 1 ( z)
Transformada inversa
e i (n) e i 1 (n) ki b i 1 (n 1)
Ai ( z) Ai 1 ( z) ki z i Ai 1 ( z 1 )
i
1
B ( z) z A ( z )S ( z)
i
i
B i ( z) z 1 B i 1 ( z) ki E i 1 ( z)
Transformada inversa
b i (n) b i 1 (n 1) ki e i 1 (n)
e0(n)
-k1
s(n)
+
e1(n)
ep-1(n)
-k2
-k1
b0(n)
z-1
+
-kp
-k2
+
b1(n)
z-1
+
ep(n)
-kp
+
bp-1(n)
z-1
+
Conceptos básicos sobre voz
Estas ecuaciones
recursivas
corresponden a un filtro
lattice
Análisis PARCOR
Cálculo de los coeficientes ki:
N 1
ki
e
i 1
(n)b i 1 (n 1)
e(n) eta b(n) seinaleen
arteko korrelazio
normalizatua
n 0
e
N 1
n 0
i 1
( n)
b
2
N 1
i 1
(n 1)
2
n 0
Estos coeficientes se pueden usar para generar
voz
puesto que
s(n)=e0(n), se puede
generar la señal de
voz usando ep(n)
ep(n)
ep-1(n)
+
+
e1(n)
+
e0(n)
+
-kp
-k2
-k1
-kp
-k2
-k1
z-1
bp-1(n)
+
z-1
Conceptos básicos sobre voz
b1(n)
+
z-1
b0(n)
s(n)
Análisis PARCOR
Usando la configuración Lattice se han
desarrollado otros métodos de síntesis:
Método de Burg: minimiza la suma de los errores
forward y backward
E (e (m)) (b (m))
Se llega a esta ecuación para los coef. PARCOR
2
N 1
i
i
2
i
2
m 0
N 1
k 'i
2 e i 1 (m)b i 1 (m 1)
m 0
e
N 1
m 0
i 1
N 1
(m) b i 1 (m 1)
2
2
Con esta expresión se
cumple siempre |k’i|<1.
m 0
Se garantiza la estabilidad
del filtro
Conceptos básicos sobre voz
Comparación de métodos
Memoria
Datos
Matriz correl.
Ventana
Productos
Enventanado
Correlación
Solución
Estabilidad
Covarianzas
Cholesky
Autocorrelaciones
Durbin
Lattice
Burg
N1
N2
3N3
p2/2
p
--
--
N2
--
--
N2
--
N 1p
N 2p
--
p3
p2
5N3p
Puede ser
inestable
Estable si R(i) se
calcula con
suficiente
precisión
Estable
Conceptos básicos sobre voz
Bibliografía
Huang, X., Acero, A., Hon, H.
Spoken Language Processing
Prentice Hall, 2001
Rabiner, L.R., Schafer, R.W.
Digital Processing of Speech Signals
Prentice Hall, 1978
O’Shaughnessy, D.
Speech Communications Human and Machine
IEEE Press, 2000
Dutoit, T.
An introduction to Text-to-Speech Synthesis
Kluwer Academic Publishers, 1997
J. Makhoul
Linear Prediction: A tutorial review
Proc. of the IEEE, 1975
Conceptos básicos sobre voz