Transcript 슬라이드 1
대화체 연속음성 인식을 위한
국어 대화음성 특성 분석
한
Analysis of Korean Spontaneous Speech
Characteristics for Spoken Dialogue
Recognition
서강대학교
Spoken Language Processing Lab.
박 영희
Introduction
Goal : 낭독체와 얼마나 다른가?
대화체 연속음성의 특징 파악
음성인식 측면에서 대화현상의 분류
각 대화현상에 대한 해결방안 모색
낭독체 연속음성인식 기법을 이용한 기본 인식률
낭독체 연속음성인식 기법을 이용할 때의 문제점 및
논의사항
대화 특징
Disfluencies(DFs): filled pause, repetition, substitution,
insertion, deletion, speech error
발음 변이(Pronunciation variation)
Spoken Language Lab.
2
대화체 음성 DB
여행계획 영역
Simulated conversations
여행사 직원과 고객
대화 현상 전사
TP #1 (98년)
TP #2 (99년)
발화 조
25조
25조
시나리오
25개 시나리오
15개 시나리오
1조 발화
4개 시나리오
5개 시나리오
TOTAL
총 100대화
총 125대화
잡음 : 입술소리, 쩝소리, …
발음 변이: 표준 발음이 아니면 표준발음전사
간투어, 수정 또는 잘못 발화, …
숫자는 각기 한 어절
전사 예
Spoken Language Lab.
갑:예/ 안녕하십니까? h/ 월드 와이드 여행사 김철숩니다/김철수입니다.
을:ls/ 아/ 예/ 제가 시월/10월 이/2 일부터 육/6 일까지 신혼여행을 가려/ 가려고 하는데요 . 어/
h/ 항공편이나 뭐/ 호텔 예약 같은 걸 하고 싶습니다 .
갑:예/ 어/ 오후 다섯/5 시 경에 지금 어/ h/ 예약 가능한 항/ 항공편이요 어/ h/ 아시아나 항공
편이 지금 두/2 편 남아 있습니다 . h/ 어/ 하나/1 가 오후 네/4 시 이십/20 분에 출발하고 h/ 하
나/1 가 오후 다섯/5 시 이십/20 분에 출발합니다 . 어/ 오후 네/4 시 오십/50 분 편도 있었는데
방금 매진 됐습니다 . h/ 어/ 일/1 인당 요금이 오만/50000 구천/9000 원인데요 h/ 어떤 것으로
예약하시겠습니까 ? ls/
을:예/ 다섯/5 시 이십/20 분에 비행기가 있다고 하셨죠?
갑:예.
3
데이터베이스의 특징
음성 DB 가공
1 turn = 1 file = 1 utterance
잡음 제거, 표준전사 변환 후 형태소 분석
DFs 포함
크기
Utterances
문장
어절
형태소
Uniq형태소
TP #1
6,006
9,108
62,946
103,406
1,994
TP #2
5,491
6,639
36,084
69,421
1,174
Utterance Length
Spoken Language Lab.
Avg 어절
Max 어절
Avg 형태소
Max 형태소
TP #1
10.5
170
17.2
320
TP #2
6.6
59
12.6
108
4
Probability of a fluent sentence by sentence length
ICSLP96, Shriberg
y C *bL
L : lengthof the sentence, C : was closeto 1.0
b : per - word fluency rate
1.0
Probability of a Fluent Sentence
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
5
10
15
20
25
30
Sentence Length (Efficient Words)
Corpus
ATIS
AMEX
SWBD
TP#1
TP#2
b
0.9922
0.9453
0.9447
0.940
0.985
Spoken Language Lab.
5
대화 특성의 분류
대화현상 분포
분류 I
분류
잡음
(Noise)
간투어
(Filled pause)
DFs
반복/수정 발화
(Repeat/repair)
발음 변이
(표준전사와 틀린 발음)
- 분류 II
Spoken Language Lab.
DFs
발음변이
백분율
TP#1
7,022 (11.2%)
4,400 (7 %)
11,422 (18.2%)
TP#2
1,712 (4.7%)
1,520 (4.2%)
3,232 (8.9%)
예
N/ ls/ 예
(예정입 ls/ 니까)/예정입니까
비고
음향 모델
- noise modeling
예/ 저/ 어/ 어/ 기차가
예/ 혹시 뭐/ 예약
예약/ 예약하신다구요
연회장이/ 대연회장이
맞/ 맞습니까
예약하시/ 예약하셨습니다
(호텔 아/ 에는)/호텔에는
TP#1 : 약 690회
Tp#2 : 약 170회
했구여/했고요
알겠슴다/알겠습니다
그르구/그리고
어트게/어떻게
그러믄/그러면
기타 :
-‘요’의 빈번한 출현
-‘과/와’보다 ‘하고’를 더
많이 사용
6
묵음 구간
분류 I에 포함되지 않음
낭독체와 달리 한 발화 안에서 묵음 구간이 빈번히 나타나고, 길
어지는 현상을 보인다.
낭독체의 음향모델 학습시 short pause로 처리되던 부분
많은 삽입오류 유발
비지도 학습 수행
낭독체 사전 구성
대화체 사전 구성
ㄴ
NQ
ㄴ가 N G AA Q
ㄴ가요 N G AA JO Q
ㄴ가요 N G AA JX Q
ㄴ
ㄴ
ㄴ가
ㄴ가
NQ
N sil
N G AA sil
N G AA Q
텍스트
ls/ h/ 예/ 제 사업상 회의참석을 할려고/하려고 제/ 제주도+에 가려고 하는데요. ls/
Force alignment
수행 후의 레이블
파일
sil gbm gbm je Q Z EY sil S AA AX PQ SS AA NX sil HH WE WI Q
CH AA M S AX G Q WW R Q HH AA Q L L JX G OW sil Z EY sil Z
EY ZH UW D OW Q EY Q K AA R JX Q G OW Q HH AA Q N WW
N D EY JO sil gbm sil
Spoken Language Lab.
7
간투어 (Filled Pause)
기존 연구
비언어적인 요소로 분류되기도 했음
언어적인 경계정보
발화 위치에 따른 다음 단어의 예측 기능
음성 분할에 이용 : 문장의 시작부분에 많이 나타나는 특성
특징
분포
TP#1
TP#2
DFs
7,022어절 (11.2%)
1,712 어절 (4.7%)
간투어
Top 10개 : DFs의 80.1%
Top 10개 : DFs의 89.9%
분포
예(29.4%), 어(26.4%), 아(9.2%), 음
(3.8%), 그(3.1%), 좀(2.9%), 네(2.1%)
예(61%), 네(11%), 어(7%), 아
(6%) : 84.9%
대화이므로 (의미없는) 응답성의 “예”가 가장 많이 나타남
발화의 자유도에 따라 나타나는 간투어의 분포가 다르다.
TP#1 : ‘어/음’과 같이 발화 도중 생각하거나 ‘아’와 같이 발화 수정
을 위한 간투어들이 많은 부분을 차지
TP#2 : ‘예/네’와 같이 응답성이 대부분을 차지
Spoken Language Lab.
8
음향모델 : 다른 PLU 사용 여부
“어”, “음”과 같이 발화 도중 머뭇거리거나 생각할 때 나타나는
간투어는 어절 안의 같은 음절보다 길게 발화
빈도수가 높은 “예(je)”, “어(ax)”, “아(aa)”만 다른 PLU 사용
어(ax) : 어절 안은 짧고, 간투어는 길게 발화
예(je) : 어절 안에서 잘 나타나지 않음
아(aa) : 길이 차이가 없음
base
“어(ax)”만 간투어 모델링
어휘모델 : “예 어” “예_어”
언어모델
70.43
아(aa)
68.35
어(ax)
71.05
예(je)
66.92
다른 단어와 구별하지 않고 똑같이 취급
평가 : WER 계산에 포함 시킬지 여부
Spoken Language Lab.
9
반복/수정 발화
기존 연구
현상이 많이 나타나지 않음
Prediction 기능이 있음
Word fragments
반복/수정을 위해 이전 단어를 제대로 발화하지 않고 중간에 중단
예: 아시/ 아시아나, 투/ 투숙하실
TP#1
690회 (전체 어절의 1%)
모델링에서 제외
분포 및 특징
170회
한국어에서는 대부분이 word fragment
형태소 분석시 문제 : “예약하셨” “예약+하+셨”
TP#2
형태소 분석을 어떻게 할 것인가?
언어모델에서 모두 무시할 것인가?
논문에서는 특별히 고려하지 않고 다른 단어와 같이 취급
Spoken Language Lab.
10
발음 변이
분류 II (TP#1)
TP#1만 대상 : 4400회 (전체 어절의 7%)
분류
예
TP #1
TP #2
빈도수
백분율
빈도수
백분율
3,164
71.8%
387
38.1%
양성음의 음성음 발화
~구여, ~구요, ~고여
데여, 알구, 하구
음운축약 / 탈락
했슴다, 주십쇼, 일임다
예맬/예매를
오심/오시면
김철숩니다/김철수입니다
까집니다/까지입니다
317
7.2%
85
8.4%
패턴화된 발음변이
그르구/그리고
어트케/어떻게
그러믄/그러면
518
11.8%
277
27.3%
발화 오류
오우/오후
예양하고/예약하고
405
9.2%
266
26.2%
4,404
전체어절
의 7%
1,015
전체어절
의 3%
총 합
Spoken Language Lab.
11
대화체에 적용 방안: 형태소 분석된 것을 기준으로
발음 사전에 다중 발음으로 추가
변형이 심하면: 전사 파일을 수정 → 언어모델 변화
양성음의 음성음화
자연스럽게 발화할 때 흔하게 나타나는 현상
어미 변형 : 발음 사전에 추가, 37(23) 추가
음운축약 / 탈락
전사 파일 수정
형태소가 없어질 때 : ‘이’ 탈락 (김철숩니다/김철수+이+ㅂ니다)
변형이 심하고, 표준처럼 사용될 때 : 근데/그런데, 담에/다음에, …
발음사전에 추가 : ~슴다/~습니다, ~ㅁ다/~ㅂ니다, ~십쇼/~십시요
패턴화된 대화현상
발음 사전에 추가: 24(13) 추가
그리고(그르고/그리구) , 어떻게(어트케/어뜨케/어더케), …
전사 파일 수정
‘ㄹ’ 삽입(대부분) : 할려고/하려고, 걸로/거로
그러며는/그러면, 써비스/서비스, 렌터카/렌터카, 달라/달러, …
Spoken Language Lab.
12
인식 실험
인식기 : HTK, 6 Gaussian mixtures
학습 및 테스트 DB
학습
테스트
TP #1 (약 10시간)
21조, 84 대화, 5,021 발화
4조, 16 대화, 834 발화
TP #2 (약 7.5시간)
21조, 105 대화, 4,621 발화
4조, 20 대화, 870 발화
언어모델
Backoff bigram
Low coverage, 데이터 부족 문제가 크다.
Perplexity & MER(Morpheme Error Rate)
학습 데이타
Perplexity
MER(%)
TP#1
TP#2
TP#1
TP#2
TP#1 / TP#2
262.03
98.86
34.77
20.75
ALL( + other)
93.81
54.94
41.18
23.57
Other : 7M 형태소, 방송뉴스, 신문
이질 텍스트 추가시 PP는 감소하지만, 인식 성능은 떨어짐
Spoken Language Lab.
13
음향모델
낭독체와 대화체 음향모델 결합
낭독체 음향모델 → 대화체로 adaptation
대화체 특성 반영 모델 추가
SILENCE, Short pause, 잡음 모델(gbm), 간투어 모델(aa)
대화특성 반영에 따른 형태소 에러율
분
류
MER(%)
Baseline
31.65
Base + Sil
30.65
Base + Sil + GBM
29.57
Base + Sil + GBM + FP
28.84
Base + Sil + GBM + P1
28.99
Base + Sil + GBM + P2
29.33
Base + Sil + GBM + P1 + P2
28.73
Base + Sil + GBM + FP + P1 + P2
27.92
전체 감소율 (절대치)
Spoken Language Lab.
감소율
2.08
Sil : 묵음 모델
0.73
GBM : 잡음
FP : 간투어
0.92
P1 : 양성음의 음
성음화
P2: 축약, 패턴화
된 발음변이
3.73 %
14
결론 및 향후 과제
결론
대화체 연속음성 인식을 위한 베이스라인 구축
향후과제
자세한 분석을 위해서는 텍스트에 세부적 annotation 필요
각각에 대한 세부적인 연구 필요
인식 대상이 되는 utterance가 너무 길다.
대화체에 적합한 음향모델에 대한 연구 필요
언어모델
Noise, 간투어(예, 어_예, …), …
텍스트 수집 방안
Noise, 간투어, fragment words 처리 방안
대화체에 적합한 언어모델 연구
발음사전
평가 방법 검증
Spoken Language Lab.
15