Continuous Speech Recognition Using Hidden Markov Modeling

Download Report

Transcript Continuous Speech Recognition Using Hidden Markov Modeling

음성인식이론
통계적 패턴매칭에 의한 음성인식 방법
Test pattern
speech
analysis
Filter bank
LPCC
MFCC
Pattern
training
Templates
or
models
Reference
pattern
Pattern
classifier
Recognized
speech
Decision
logic
Dynamic time warping
Search algorithm
2
통계적 패턴매칭에 의한 음성인식 방법
공통문제: 음성특징 벡터열 X가 주어졌을 때, 그에 해
당하는 단어열 W를 찾는 것
해결책: argmaxW P(W|X)=argmaxW P(X|W)P(W)
– Bayes 결정이론 (Bayes decision theory)
• 만일 P(X|W)와 P(W)를 구할 수 있다면, 최대 사후 추정확률 방
법(Maximum A Posteriori (MAP) decoder )이 최소 인식오류를
보장함
통계적 패턴인식 과정
– 훈련과정: 훈련용 특징벡터열 X와 특징벡터열 및 단어열의 발
생확률분포의 형태 P가 주어졌을 때, 각 단어(class) W에 대
한 확률분포 P(X|W)의 파라메터들과 각 단어열 W의 확률분
포 P(W)의 파라메터들을 추정하는 것
– 인식과정: MAP decoding over the recognition network
3
HMM 기반 음성인식
기본특성
– 확률모델을 이용한 통계적 패턴인식 방법
장점
– 소어휘 고립단어인식에서 불특정화자 대어휘 연속
음성인식까지 일관된 방법으로 구현 가능하여 폭 넓
게 사용됨
– 우수한 성능, 유연한 구조, 탁월한 확장성
단점
– 다량의 훈련용 음성 DB 필요
– 특화된 하드웨어로 구현하기가 어려움
4
마코프 프로세스 (Markov Process)
이산시간(Discrete-time), 1차(first-order) Markov chain
– 어떤 상태에서 다음 상태로의 천이확률은 현재 상태에 의해서만 결정됨:
P[qt=j|qt-1=i, qt-2=k,…] = P[qt=j|qt-1=i]
– 상태 천이확률은 시간에 무관함:
aij = P[qt=j|qt-1=i]
– 관찰되는 이벤트가 각 상태에 해당함
a11
a22
a12
1
2
a21
a32
a13
a23
a31
3
a33
5
마코프 프로세스의 예
날씨 추정 문제
– State 1: rain or snow
– State 2: cloudy
– State 3: sunny
0.4
0.3
Rain
1
or
snow
문제: Probability of “sunsun-sun-rain-rain-suncloudy-sun”?
해결책:
P(O|M)=P[3,3,3,1,1,3,2,3|M]
=P[3]P[3|3]2P[1|3]P[1|1]P[3|1
]P[2|3]P[3|2]
=1.536x10-4
0.6
2
Cloudy
0.2
0.1
0.1
0.3
0.2
3
Sunny
0.8
 0. 4 0. 3 0. 3
A  {aij }  0.2 0.6 0.2
 0.1 0.1 0.8
6
히든 마코프 모델
(Hidden Markov Model: HMM) 이론
이중 랜덤 프로세스
b1(x)
– Hidden probabilistic state
transition process
– Observable probabilistic
output process
상태 천이확률(State
transition probability),
aij=p(sj|si)
출력 확률분포(Output
probability distribution),
bi(x)=p(x|si)
aii
s1
A B C D
aij
ajj
b2(x)
A B C D
s2
s3
b3(x)
A B C D
State seq.: s1 s3 s1 s2 s2 s3
Observed seq. (X): A C D B A C
7
히든 마코프 모델링 예제:
Urn-and-Ball Model
각 항아리에는 4가지색의
공들이 들어 있음.
임의의 항아리를 선택하고,
그 항아리에서 임의의 공
을 집어서 그 색을 불러줌.
그 공은 다시 원래 항아리
에 집어 넣음.
위 과정을 반복하여 공의
색을 불러줌.
이러한 공의 색들의 나열
을 보고, 원래 어떤 순서로
항아리를 선택했는지를 찾
는 문제.
Urn 3
Urn 1
Urn 2
Veil
Observed
Ball Sequence
8
HMM을 정의하는 파라메터들
파라메터
의미
예제
N
Number of states
Number of urns
M
Number of distinct
observation symbols
A
State-transition
probability distribution
Number of distinct
colors
Random procedure to
select a new urn
B
Observation symbol
probability distribution
Color distribution of
each urn
p
Initial state distribution
Probability of selecting
an urn initially
9
HMM으로부터 관측 이벤트열을
발생시키는 과정
1.
2.
3.
4.
5.
초기상태확률 p에 따라 첫 상태 q1=i 가 결정
된다.
시간이 t=1로 부여된다.
상태 i에서 이벤트 출력확률분포 bi(k)에 따라
하나의 출력 이벤트 ot=vk가 출력된다.
상태 i에 대한 상태천이확률분포 aij에 따라 다
음 상태 qt+1=j로의 천이가 일어난다.
시간을 하나 증가시키고 (t=t+1), 만일 최종 시
간에 도달하지 못했으면 (t<T) 3번 과정으로
돌아가고, 도달했으면 이벤트 발생을 종료한
다.
10
HMM의 3가지 기본 문제와 해결방법
HMM을 실제 문제에 적용하기 위해서는 다음의 세가지
문제에 대한 해결방법이 제시되어야 함.
관측된 이벤트열 X가 발생될 확률 계산법 (Evaluation
problem)
– 전향 알고리즘 (Forward algorithm) 혹은 후향 알고리즘
(Backward algorithm)
관측된 이벤트열 X가 어떤 상태천이를 거쳐 발생되었
는지를 추정하는 방법(Decoding problem)
– 비터비 알고리즘 (Viterbi algorithm)
훈련과정을 통해 HMM 파라메터들을 추정하는 방법
(Estimation problem)
– Forward-backward algorithm (or Baum-Welch algorithm)
11
Forward Algorithm
관측 이벤트열 X와 모델 파라메터 set l가 주어졌을 때,
확률 P(X|l)를 효율적으로 계산하는 방법.
Direct computation
– 계산량: TNT
Pr(x | l ) 
T
1
T
  p( s | s
t
t 1
) p( xt | st )
all possible S t 1
Forward algorithm
–
–
–
–
–
Define
Initialization
Recursion
Termination
계산량 : N2T
t ( j)  Pr(x1t , st  j | l)
1 (i)  p ibi ( x1 )
t1 ( N )
t ( j )  t 1 (i)aijb j ( xt )
t1 (i) i
b j ( xt )
j
aij
t ( j)
i
Pr(x | l )  T ( j )
T
1
j
t 1 (1)
12
Backward Algorithm
역방향으로 확률 P(X|l)를 효율적으로 계산
하는 방법.
Define
 t (i )  P r(xtT , st  i | l )
Recursion
 t (i )    t 1 ( j )aijbi ( xt )
j
Pr(x1T | l )   1 (i)
i
bi ( xt )
t1 ( N )
i
 t (i)
aij
j
 t1 ( j )
 t 1 (1)
13
Viterbi Algorithm
관측 이벤트열 X와 모델 파라메터 set l가 주어졌을 때,
모델이 이 관측열을 발생시킬 최적 상태열을 찾는 것.
Viterbi algorithm
Define:
 t (i)  max P[q1q2 ...qt 1 , qt  i, x1t | l ]
 t ( j)
q1 , q2 ,...qt 1
Initialization:
1 (i)  p i bi ( x1 )
T ermination :
P*  max{ T (i)}
 t1 ( N )
j
aij
i
s  arg max{ T (i )}  t 1 (i) i
1 (i)  0
i
Recursion :
Backtracki ng :
st*  t 1 ( st*1 )
 t ( j )  max{ t 1 (i )aij }b j ( xt )
 t 1 (1)
*
T
i
t ( j )  arg max{ t 1 (i )aij }
i
Computation in log domain
– 계산량: N2T additions
14
Baum-Welch Algorithm (I)
훈련용 관측열 X와 주어진 초기 모델 파라메터 set l(A,B,p)로 구
할 수 있는 확률 P(X|l)를 최대화 할 수 있도록 새로운 모델 파라메
터 set을 구하는 것.
lˆ  arg max P( X | l )
l
Maximum likelihood (ML) estimation
Define prob.of st at e t ransit ionfromi t o j given observat ion and modell
 t (i, j )  P( st  i, st 1  j | X , l )
 t (i )aijb j ( xt 1 )  t 1 ( j )
 N N
 t (i)aijb j ( xt 1 )  t 1 ( j )
i 1 j 1
N
 t (i )    t (i, j )
j 1
T 1

t 1
T 1
t
(i )  expect ednumber of t ransit ions from st at e i
  (i, j )  expect ednumber of t ransit ions fromst at ei t o j
t 1
t
(continued)
15
Baum-Welch Algorithm (II)
Reestimate:
expectedcount of transitions fromi to j
aˆij 
expectedcount of staysat i
t t (i, j )

t (i, j)
t
j
expectednumber of times in state j and observing symbol k
bˆ j (k ) 
expectednumber of times in state j
 t ( j)

t , x k
 t
  t ( j)
t
l  lˆ
Repeat until P( X | l ) converges
P( X | lˆ)  P( X | l)
16
HMM 구조의 종류
Ergodic model
– Every aij is positive.
– Every transition is possible.
s1
s2
s3
Left-to-right (Bakis) model
– aij = 0, j<i
– Cannot go backward
– Good to model temporal structure of speech signals
17
HMM 출력확률분포의 종류
Discrete HMM:
– Discrete symbols
bj(k)
Continuous HMM: one
codebook per state
– Mixture Gaussian pdf
b j ( xt )   w jm N ( xt ;  jm ,  )
2
jm
m
M
w
m 1
bj(x)
jm
 1, w jm  0
Semi-continuous HMM:
globally shared codebook
b j ( xt )   w jk N ( xt ;  k ,  k2 )
k
bj(x)
codebook
18
연속밀도(Continuous) HMM
Re-estimation formula
T
wˆ jm 

t 1
T M
T
t
( j , m)
 
t 1 m 1
ˆ jm 
t
( j , m)

t 1
T
T
t

t 1
( j , m) xt
t
( j , m)
ˆ 2jm 

t 1
t
( j , m)(xt   jm ) 2
T

t 1
t
( j , m)
where
 t ( j , m)  prob.of state j at timet with m - th mixturecomponentaccountingfor xt
t ( j)t ( j)

 t ( j)  t ( j)
j
w jm N ( xt ;  jm ,  2jm )
M
2
w
N
(
x
;

,

 jm t jm jm )
m 1
 (prob.of state j at timet ) (prob.of m - th mixturecomponent)
19
음성인식에 유용한 HMM의 변형
Null Transition
– Produces no output
– Jumps from one state to another
that produce no observation
– Makes network simple
f
f
Explicit State Duration
Modeling
– State duration of a state with selftransition probability aii has
exponential distribution:
pi(d)=aiid-1(1-aii)
– Actual state duration has Gamma
distribution
20
HMM 파라메터 추정 방법들
Maximum likelihood estimation (BaumWelch algorithm based on EM algorithm)
l’ = argmaxl P(X|l)
Maximum mutual information estimation
l’ = argmaxl Il(W;X), W: word
Discriminative training for minimum
classification error
– Minimum recognition error training
– Generalized probabilistic descent
– Corrective training
21
Part II
HMM을 이용한 음성인식기 구현 시 실제
고려사항
HMM에 의한 단어모델 훈련과정
단어단위 HMM에 의한 고립단어 인식과
정
음소모델 훈련 및 고립단어 인식 개요
음소모델 훈련과정
22
HMM을 이용한 음성인식기 구현 시 실제
고려사항 (I)
ˆ t (i )  ct t (i )
Scaling
ct 
– To prevent underflow
– Use normalized 
– Same recursion
1
N
 (i)
i 1
t
Use same recursion formulae
T
log P ( X | l )   log ct
t 1
Multiple observation
– Re-estimation with L observations
L
aˆij 
 (i, j )
t
l 1
t
L
 (i, j )
l 1
t
t
j
L
bˆ j (k ) 
 
t
( j)
 
t
( j)
l 1 t , xt  k
L
l 1
t
23
HMM을 이용한 음성인식기 구현 시 실제
고려사항 (II)
Initial estimates of HMM parameters
– HMM converges to local maximum and
therefore good initial parameter estimates are
necessary for rapid and proper convergence.
– p, A: random or uniform
– B: Essential
• Manual segmentation of observation sequence into
states and get average of observations within states
• Maximum likelihood segmentation of observations
and averaging
• Segmental k-means segmentation with clustering
24
HMM을 이용한 음성인식기 구현 시 실제
고려사항 (III)
Size of Training Data
– Small data may cause under-estimation problem
– Solution:
• Increase training data: The more, the better
• Reduce the model size or parameter tying (sharing)
• Enhance reliability of parameter estimates: Deleted
interpolation
Choice of Model
–
–
–
–
Task-dependency
Number of states
HMM type: Ergodic or left-to-right
Observation densities: Discrete or continuous, single or
mixture Gaussian
25
HMM과 음성신호의 대응관계
Assume speech signals are generated by HMM
Find model parameters from training data
Compute probability of test speech using the HMM and select the
model having maximum likelihood
Left-to-right model: easy to model signal whose properties change
over time in a successive manner – e.g., speech
s1
HMM
s2
ㅕ
s3
ㄹ
ㅓ
b j ( xt )
Features
x1 x2 x3
xt
frame
Frame shift
Speech signals
time
26
HMM에 의한 단어모델 훈련과정
waveform
feature
il
i
chil
Speech
database
Feature
Extraction
Baum-Welch
Re-estimation
Converged?
Yes
end
No
l1
Word
HMM
l2
l7
27
훈련 전에 미리 정의해야 하는
모델 파라메터들
Number of states (N)
– Number of phones in a word
• Digit recognition: English N=9, Korean N=6
– Average number of observations in a spoken
word
Feature
– LPC-cepstrum or MFCC
– Derivatives
Observation density
– Discrete: M=512-1024 codewords
– Continuous: M=1-64, Diagonal covariance
28
단어단위 HMM에 의한
고립단어 인식과정
l1
Seoul
HMM for
word 1
Likelihood
computation
Speech
Feature
extraction
P(X|l1)
.
.
.
lV
HMM for
word V
Likelihood
computation
Select
maximum
Recognized
word
P(X|lV)
29
단어단위 HMM 인식 성능평가 예
Training data: 10 digit x 100 speakers
Test data: 10 digit x 100 speakers
Results (Error rates):
– Speaker-dependent test
• LPC/DTW 1.6%
• CD/HMM 1.6%
LPC/VQ/DTW (discrete) 3.5%
VQ/HMM (discrete) 3.7%
– Speaker-independent test
• LPC/DTW 1.6%
• CD/HMM 1.6%
Discussion:
– When using VQ, performance degrades.
– DTW and CHMM are comparable
Ref: Rabiner & Juang, Fundamentals of Speech Recognition
30
음소모델 훈련 및 고립단어 인식 개요
Test
word
일
Feature
extraction
Likelihood
computation
Recognized
word
Decision
rule
i
Word model
generation
l
i
s
a
HMM “일”
HMM “이”
m
HMM “삼”
“i”
“s”
“l”
“a”
…
Training
words
subword
model
lexicon
일il
이i
삼sam
Subword
model
generation
31
음소모델 훈련과정
waveform
feature
il
i
chil
Speech
database
Feature
Extraction
Baum-Welch
Re-estimation
Word model
generation
Yes
end
Converged?
No
li
lexicon
subword
model
ll
lch
32
Segmental K-means 훈련방법
Labeled utterance/
Unlabeled Transcriptions
feature
i l
i
ch i
l
Feature
Extraction
Speech
database
i
Viterbi
segmentation
c( s1 , s2 )  3
c( s1 )  12
Build word model
i
i
sumik 
sqsumik
x
 x
t
tsi , xt mk
2
t
tsi , xt mk
l
Phone model
Model P arameters
A : transit ionmat rix
w : mixture weight
 : mean vector
 2 : covariance
ch
K-means clustering,
accumulate statistics
l
i
ch
l
il
i
chil
il
i
chil
lexicon
i
A, w,  , 
l
A, w,  ,  2
ch
A, w,  , 
2
2
ii
il i l
chil ch i l
No
Model update
c ( s1 , s1 )
sum / N
 0.75  
u
c ( s1 )
 2   sqsum /( N  1)   2
c ( s1 , s2 )
u
a12 
 0.25
c ( s1 )
a11 
Termination
condition
Yes
end
33
음향모델 단위 비교
Word unit
–
–
–
–
A word consists of an HMM
High accuracy for small vocabulary
A large number of parameters
Should retrain models if vocabulary changes
Word:
일 il
이i
삼 sam
칠 chil
Subword unit
– A word HMM consists of combination of
smaller units than word
– Can build a new word model by combining
subword models
– Can build vocabulary-independent systems
– Needs small training data because units are
shared among words
Phoneme:
일il
이i
삼sam
칠 ch i l
34
Part III
연속음성인식의 학제간 연구 필요성
HMM 기반 연속음성인식
강인한 음향모델링을 위한 파라메터 공유
연속음성인식을 위한 검색 알고리즘
연속음성인식의 성능평가 방법
연속숫자음 인식 예
35
연속음성인식의 학제간 연구 필요성
음성학: relationship between speech signal and
human vocal tract & hearing mechanisms
언어학: phonology, syntax, semantics
통신이론 및 정보이론: parameter estimation,
coding and decoding algorithms (stack decoding,
Viterbi decoding), Information-theoretic distance
measures
신호처리: spectral analysis, feature extraction,
time-varying signal modeling, noise-robust
features
패턴인식: cluster speech patterns and match,
Bayesian learning
전산학: efficient search algorithms, etc
36
HMM 기반 연속음성인식 이론
Continuous speech recognition can be
formulated as:
음성 특징벡터열 X가 주어져 있을 때, 아래의 사후
확률을 최대화 시키는 단어열 W를 찾는 것.
W’ = argmaxw P(W|X)
= argmaxw P(X|W) P(W)
– P(X|W): Acoustic model (ML probability)
P(W): Language model (a priori probability)
결국, 어떤 검색 알고리즘을 이용하여 모든 가능한
인식가능 공간에서 최고의 확률을 가지는 단어열
을 찾는 것.
37
HMM 기반 연속음성인식 과정
Speech
signals
Word sequence
Feature
extraction
Search
one
One two three.
Network
construction
two
oh
Speech
database
Text
corpora
HMM
estimation
Acoustic
model
Vocabulary
Dictionary
Language
model
one
two
LM estimation
nine
oh
38
대표적인 특징추출 방법
x(n)
Hamming
window
Mel-scale
filter bank
FFT
log |.|
DCT
1
0
1
2
3
4
freq(kHz)
MFCC Filters
39
음향모델링
Subword Units
– Context-independent
• Phoneme
• Syllable
• Small number of parameters
– Context-dependent
•
•
•
•
•
•
Diphone
Triphone
Quinphone
High accuracy
Large number of units
Large training data
Diphone:
일 sil-i i-l l-sil
이 sil-I I-sil
삼 sil-s s-a a-m m-sil
Triphone:
일 sil-i+l i-l+sil
이 sil-i+sil
삼 sil-s+a s-a+m a-m+sil
40
음향모델 훈련용 네트워크 구성
Sentence model = (word1 word2 … wordN)
Word model = (phone1 phone2 … phoneM)
Phone model = (state1 state2 state3)
ONE
Sentence HMM
TWO
THREE
AH
N
ONE
ONE TWO THREE ONE
Word HMM
ONE
Phone HMM
W
W
1
2
3
41
강인한 음향모델링을 위한
파라메터 공유 (I)
Share parameters (mean, variance, transition
probabilities) if two states have similar
distributions
– Data-driven clustering
t-ih+n
t-ih+ng
f-ih+l
s-ih+l
(continued)
42
강인한 음향모델링을 위한
파라메터 공유 (II)
– Decision tree-based clustering
• For large vocabulary system
• Can handle unseen triphones
• How can we get model for an unseen triphone t-aw+ih?
s-aw+n
Cluster center states
of phone /aw/
t-aw+n
s-aw+t
R=consonant?
n
L=nasal?
n
y
y
R=nasal?
y
L=stop?
n
y
n
2
3 4 5
1
States in each leaf node are tied
43
언어모델링
Reduces search space within
plausible word sequences
Finite state network (FSN),
Context Free Grammar (CFG)
– Small vocabulary system
Stochastic grammar (N-gram)
– Estimate probability of a word
from previous n-1 words
– Bigram P(w2|w1)
– Trigram P(w3|w1,w2)
– Word-pair: p(w2|w1) = 1 or 0
– Medium and Large
vocabulary system
서울
부산
에서
출발
세시
네시
출발
대구
대전
하는
기차
버스
도착
$time = 세시|네시;
$city = 서울|부산|대구|대전;
$trans = 기차|버스;
sent-start $city (에서 $time 출발 |
출발 $city 도착) 하는 $trans sent-end
P(에서|서울)=0.2 P(세시|에서)=0.5
P(출발|세시)=1.0 P(하는|출발)=0.5
P(출발|서울)=0.5 P(도착|대구)=0.9
…
44
인식용 문법 네트워크 구성
P(w2 | w1 )
P(w2 | w1 )
P(w2 | w1 )
one
call
John
Tom
two
one
START
nine
START
two
oh
nine
One
One two one three
Seven oh two five
…
oh
Call John
Call Tom
One
One two one three
Seven oh two five
…
45
인식용 전체 네트워크 상세구조
I
start
Intra-word
transition
Word
transition
end
이
P(이
|x)
LM is
applied
P(일
|x)
I
L
일
S
A
P(사|x)
Between-word
transition
사
S
A
M
P(삼|x)
삼
46
모델간 연결 규칙
Intra-word transitions
log P( x1t | s)  log P( xt | s)  max{logP( x1t 1 | s 1)  as1,s , log P( x1t 1 | s)  ass }
Between-word transitions
– Add LM score and word insertion penalty
Acoustic loglikelihood
LM score
Word
insertion
penalty
score( x1t | s)  log P( x1t | s)  l log P(w | h)  penalty
h : word history
47
연속음성인식을 위한 검색 알고리즘
Search is a problem for finding the optimal
path from search network.
One-Pass (One-Stage) dynamic
programming algorithm
– Extension of dynamic programming (DP)
strategies for connected pattern matching
– Fast, Simple, Efficient, Small memory
– Frame synchronous
– Widely used for continuous speech
recognition
48
DTW와 Viterbi 알고리즘 비교
DTW v.s. Viterbi algorithm
– Reference template  State
– Path constraint  Transition prob
– Local distance  Observation prob
Reference
state
5
4
3
4
3
2
s2
2
1
s1
s3
5
1
0
0
1 2 3
4 5
6
Frame
(time)
D (t , j )  d ( xt , x j ) 
min{ D(t  1, j ), D (t  1, j  1), D (t , j  1)}
1 2 3
4 5
6
Frame
(time)
log P( x1t , j )  log P( xt , j ) 
max{logP( x1t 1 , j )  a jj , log P( x1t 1 , j  1)  a j 1, j }
49
One-Pass DP 알고리즘
Representation in lattice
Word State
index index
공
V
구
k
S(k)
(t,i,k)
i
1
Between-word
transition
이
2
Intra-word
transition
S(1)
일
1
1
1
t
T
50
대어휘 처리를 위한 검색공간 최적화
g
a
g
a
g
yv
g
g
a
g
yv
g
d
ae
가격대
g
a
g
yv
g
i
n
h
g
a
g
u
가
가격
a
가격인하
가구
Flat lexicon
g
a
가
g
g
yv
u
g
가격
d
ae
가격대
i
n
h
a
가격인하
가구
Tree lexicon
51
연속음성인식의 성능평가 방법
Errors in continuous speech recognition
–
–
–
–
Insertion (I)
Deletion (D)
Substitution (S)
Number of test words (N)
Word error rate (E)=(I+D+S)/N
Word correct (C)=1-(D+S)/N
Word accuracy=1-E
REF: 일 이 칠 구 오 일 삼
HYP: 일 칠 구 오 이 일 사
After aligning
REF: 일 이 칠 구 오 * 일 삼
HYP: 일 * 칠 구 오 이 일 사
Results
S=1 I=1 D=1 E=3 N=7
Correct=71% Accuracy=57%
52
연속숫자음 인식 예 (I)
Feature extraction
–
–
–
–
–
–
–
Sampling rate = 6.67 kHz
Window size = 300 samples (45 ms)
Window shift = 100 samples (15 ms)
LPC order = 8
Cepstrum order = 12
Delta and delta-delta cepstrum = 12 and 12
Cepstral window: raised sine-like window
Acoustic modeling
–
–
–
–
N-state word model (N varied from 5 to 10 for different digits)
Continuous mixture density, M=64
Log-energy probability density within state
State duration density
Post-processing
– A single Gaussian digit duration density
53
연속숫자음 인식 예 (II)
TIDIGITS
–
–
–
–
Training: 77 strings x 112 speakers (length 1-5 or 7 digits)
Test: 77 strings x 113 speakers
Low-pass filtered to telephone bandwidth
String error rates (%) of speaker independent test results
• Unknown length (UL)
• Known length (KL)
Mode
SI
Training data
Testing data
UL
KL
UL
KL
0.3
0.05
1.4
0.8
f
start
Grammar Network
f
0
sil
1
digit
f
2
end
3
sil
54
결 론 (I)
Statistical approach to speech recognition is
successful.
Double random processes are in HMM: state
transition and observation probabilities.
Three basic problems for HMM to be applied in realworld applications have been solved.
HMM is good for modeling temporal structure of
speech signals.
Reviewed HMM types and observation probability
distributions for speech recognition.
HMM-based speech recognizers have great flexibility
and good accuracy.
55
결 론 (II)
Advantages of HMM-based CSR
– Simple algorithmic structure
– Flexibility: Easily changeable and extendible to
another vocabulary
– Solid theoretical background
– Usefulness has been proved by real products
Disadvantages
– Requires large training data
– Weak discrimination power (ML estimation)
– Does not match real speech characteristics
56
참고문헌
X. Huang, et al., Spoken Language Processing, Prentice Hall,
2001.
L. R. Rabiner and B.-H. Juang, Fundamentals of Speech
Recognition, Prentice Hall, 1993.
H. Ney, “The use of a one-stage dynamic programming
algorithm for connected word recognition, “ IEEE Trans. ASSP,
vol. 32, no. 2, pp. 263-271, Apr. 1984.
J.-C. Junqua and R. Kuhn, “Adaptive Methods for Speech and
Speaker Recognition,” ICSLP2002 Tutorial, 2002.
S. Young, D. Kershaw, J. Odell, D. Ollason, V. Valtchev, and P.
Woodland, The HTK Book Version 3.0, Microsoft, 2000.
B. I. Pawate and P. D. Robinson, “Implementation of an HMMBased speaker-independent speech recognition system on the
TMS320C2x and TMS320C5x,” Texas Instruments Inc.,
Application Report. 1996.
57