슬라이드 1

Download Report

Transcript 슬라이드 1

대화체 연속음성 인식을 위한
국어 대화음성 특성 분석
한
Analysis of Korean Spontaneous Speech
Characteristics for Spoken Dialogue
Recognition
서강대학교
Spoken Language Processing Lab.
박 영희
Introduction
 Goal : 낭독체와 얼마나 다른가?
대화체 연속음성의 특징 파악
 음성인식 측면에서 대화현상의 분류
 각 대화현상에 대한 해결방안 모색
 낭독체 연속음성인식 기법을 이용한 기본 인식률
 낭독체 연속음성인식 기법을 이용할 때의 문제점 및
논의사항

 대화 특징


Disfluencies(DFs): filled pause, repetition, substitution,
insertion, deletion, speech error
발음 변이(Pronunciation variation)
Spoken Language Lab.
2
대화체 음성 DB
 여행계획 영역


Simulated conversations
여행사 직원과 고객
 대화 현상 전사




TP #1 (98년)
TP #2 (99년)
발화 조
25조
25조
시나리오
25개 시나리오
15개 시나리오
1조 발화
4개 시나리오
5개 시나리오
TOTAL
총 100대화
총 125대화
잡음 : 입술소리, 쩝소리, …
발음 변이: 표준 발음이 아니면 표준발음전사
간투어, 수정 또는 잘못 발화, …
숫자는 각기 한 어절
 전사 예
Spoken Language Lab.
갑:예/ 안녕하십니까? h/ 월드 와이드 여행사 김철숩니다/김철수입니다.
을:ls/ 아/ 예/ 제가 시월/10월 이/2 일부터 육/6 일까지 신혼여행을 가려/ 가려고 하는데요 . 어/
h/ 항공편이나 뭐/ 호텔 예약 같은 걸 하고 싶습니다 .
갑:예/ 어/ 오후 다섯/5 시 경에 지금 어/ h/ 예약 가능한 항/ 항공편이요 어/ h/ 아시아나 항공
편이 지금 두/2 편 남아 있습니다 . h/ 어/ 하나/1 가 오후 네/4 시 이십/20 분에 출발하고 h/ 하
나/1 가 오후 다섯/5 시 이십/20 분에 출발합니다 . 어/ 오후 네/4 시 오십/50 분 편도 있었는데
방금 매진 됐습니다 . h/ 어/ 일/1 인당 요금이 오만/50000 구천/9000 원인데요 h/ 어떤 것으로
예약하시겠습니까 ? ls/
을:예/ 다섯/5 시 이십/20 분에 비행기가 있다고 하셨죠?
갑:예.
3
데이터베이스의 특징
 음성 DB 가공

1 turn = 1 file = 1 utterance
 잡음 제거, 표준전사 변환 후 형태소 분석
 DFs 포함
 크기
Utterances
문장
어절
형태소
Uniq형태소
TP #1
6,006
9,108
62,946
103,406
1,994
TP #2
5,491
6,639
36,084
69,421
1,174
 Utterance Length
Spoken Language Lab.
Avg 어절
Max 어절
Avg 형태소
Max 형태소
TP #1
10.5
170
17.2
320
TP #2
6.6
59
12.6
108
4
 Probability of a fluent sentence by sentence length


ICSLP96, Shriberg
y  C *bL
L : lengthof the sentence, C : was closeto 1.0
b : per - word fluency rate
1.0
Probability of a Fluent Sentence
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
5
10
15
20
25
30
Sentence Length (Efficient Words)
Corpus
ATIS
AMEX
SWBD
TP#1
TP#2
b
0.9922
0.9453
0.9447
0.940
0.985
Spoken Language Lab.
5
대화 특성의 분류
 대화현상 분포
 분류 I
분류
잡음
(Noise)
간투어
(Filled pause)
DFs
반복/수정 발화
(Repeat/repair)
발음 변이
(표준전사와 틀린 발음)
- 분류 II
Spoken Language Lab.
DFs
발음변이
백분율
TP#1
7,022 (11.2%)
4,400 (7 %)
11,422 (18.2%)
TP#2
1,712 (4.7%)
1,520 (4.2%)
3,232 (8.9%)
예
N/ ls/ 예
(예정입 ls/ 니까)/예정입니까
비고
음향 모델
- noise modeling
예/ 저/ 어/ 어/ 기차가
예/ 혹시 뭐/ 예약
예약/ 예약하신다구요
연회장이/ 대연회장이
맞/ 맞습니까
예약하시/ 예약하셨습니다
(호텔 아/ 에는)/호텔에는
TP#1 : 약 690회
Tp#2 : 약 170회
했구여/했고요
알겠슴다/알겠습니다
그르구/그리고
어트게/어떻게
그러믄/그러면
기타 :
-‘요’의 빈번한 출현
-‘과/와’보다 ‘하고’를 더
많이 사용
6
묵음 구간
 분류 I에 포함되지 않음




낭독체와 달리 한 발화 안에서 묵음 구간이 빈번히 나타나고, 길
어지는 현상을 보인다.
낭독체의 음향모델 학습시 short pause로 처리되던 부분
많은 삽입오류 유발
비지도 학습 수행
낭독체 사전 구성
대화체 사전 구성
ㄴ
NQ
ㄴ가 N G AA Q
ㄴ가요 N G AA JO Q
ㄴ가요 N G AA JX Q
ㄴ
ㄴ
ㄴ가
ㄴ가
NQ
N sil
N G AA sil
N G AA Q
텍스트
ls/ h/ 예/ 제 사업상 회의참석을 할려고/하려고 제/ 제주도+에 가려고 하는데요. ls/
Force alignment
수행 후의 레이블
파일
sil gbm gbm je Q Z EY sil S AA AX PQ SS AA NX sil HH WE WI Q
CH AA M S AX G Q WW R Q HH AA Q L L JX G OW sil Z EY sil Z
EY ZH UW D OW Q EY Q K AA R JX Q G OW Q HH AA Q N WW
N D EY JO sil gbm sil
Spoken Language Lab.
7
간투어 (Filled Pause)
 기존 연구




비언어적인 요소로 분류되기도 했음
언어적인 경계정보
발화 위치에 따른 다음 단어의 예측 기능
음성 분할에 이용 : 문장의 시작부분에 많이 나타나는 특성
 특징


분포
TP#1
TP#2
DFs
7,022어절 (11.2%)
1,712 어절 (4.7%)
간투어
Top 10개 : DFs의 80.1%
Top 10개 : DFs의 89.9%
분포
예(29.4%), 어(26.4%), 아(9.2%), 음
(3.8%), 그(3.1%), 좀(2.9%), 네(2.1%)
예(61%), 네(11%), 어(7%), 아
(6%) : 84.9%
대화이므로 (의미없는) 응답성의 “예”가 가장 많이 나타남
발화의 자유도에 따라 나타나는 간투어의 분포가 다르다.


TP#1 : ‘어/음’과 같이 발화 도중 생각하거나 ‘아’와 같이 발화 수정
을 위한 간투어들이 많은 부분을 차지
TP#2 : ‘예/네’와 같이 응답성이 대부분을 차지
Spoken Language Lab.
8
 음향모델 : 다른 PLU 사용 여부


“어”, “음”과 같이 발화 도중 머뭇거리거나 생각할 때 나타나는
간투어는 어절 안의 같은 음절보다 길게 발화
빈도수가 높은 “예(je)”, “어(ax)”, “아(aa)”만 다른 PLU 사용
어(ax) : 어절 안은 짧고, 간투어는 길게 발화
 예(je) : 어절 안에서 잘 나타나지 않음
 아(aa) : 길이 차이가 없음
base
 “어(ax)”만 간투어 모델링

 어휘모델 : “예 어”  “예_어”
 언어모델

70.43
아(aa)
68.35
어(ax)
71.05
예(je)
66.92
다른 단어와 구별하지 않고 똑같이 취급
 평가 : WER 계산에 포함 시킬지 여부
Spoken Language Lab.
9
반복/수정 발화
 기존 연구



현상이 많이 나타나지 않음
Prediction 기능이 있음
Word fragments



반복/수정을 위해 이전 단어를 제대로 발화하지 않고 중간에 중단
예: 아시/ 아시아나, 투/ 투숙하실
TP#1
690회 (전체 어절의 1%)
모델링에서 제외
 분포 및 특징


170회
한국어에서는 대부분이 word fragment
형태소 분석시 문제 : “예약하셨”  “예약+하+셨”



TP#2
형태소 분석을 어떻게 할 것인가?
언어모델에서 모두 무시할 것인가?
논문에서는 특별히 고려하지 않고 다른 단어와 같이 취급
Spoken Language Lab.
10
발음 변이
 분류 II (TP#1)
TP#1만 대상 : 4400회 (전체 어절의 7%)

분류
예
TP #1
TP #2
빈도수
백분율
빈도수
백분율
3,164
71.8%
387
38.1%
양성음의 음성음 발화
~구여, ~구요, ~고여
데여, 알구, 하구
음운축약 / 탈락
했슴다, 주십쇼, 일임다
예맬/예매를
오심/오시면
김철숩니다/김철수입니다
까집니다/까지입니다
317
7.2%
85
8.4%
패턴화된 발음변이
그르구/그리고
어트케/어떻게
그러믄/그러면
518
11.8%
277
27.3%
발화 오류
오우/오후
예양하고/예약하고
405
9.2%
266
26.2%
4,404
전체어절
의 7%
1,015
전체어절
의 3%
총 합
Spoken Language Lab.
11
 대화체에 적용 방안: 형태소 분석된 것을 기준으로


발음 사전에 다중 발음으로 추가
변형이 심하면: 전사 파일을 수정 → 언어모델 변화
 양성음의 음성음화


자연스럽게 발화할 때 흔하게 나타나는 현상
어미 변형 : 발음 사전에 추가, 37(23) 추가
 음운축약 / 탈락

전사 파일 수정



형태소가 없어질 때 : ‘이’ 탈락 (김철숩니다/김철수+이+ㅂ니다)
변형이 심하고, 표준처럼 사용될 때 : 근데/그런데, 담에/다음에, …
발음사전에 추가 : ~슴다/~습니다, ~ㅁ다/~ㅂ니다, ~십쇼/~십시요
 패턴화된 대화현상

발음 사전에 추가: 24(13) 추가


그리고(그르고/그리구) , 어떻게(어트케/어뜨케/어더케), …
전사 파일 수정


‘ㄹ’ 삽입(대부분) : 할려고/하려고, 걸로/거로
그러며는/그러면, 써비스/서비스, 렌터카/렌터카, 달라/달러, …
Spoken Language Lab.
12
인식 실험
 인식기 : HTK, 6 Gaussian mixtures
 학습 및 테스트 DB
학습
테스트
TP #1 (약 10시간)
21조, 84 대화, 5,021 발화
4조, 16 대화, 834 발화
TP #2 (약 7.5시간)
21조, 105 대화, 4,621 발화
4조, 20 대화, 870 발화
 언어모델

Backoff bigram


Low coverage, 데이터 부족 문제가 크다.
Perplexity & MER(Morpheme Error Rate)
학습 데이타


Perplexity
MER(%)
TP#1
TP#2
TP#1
TP#2
TP#1 / TP#2
262.03
98.86
34.77
20.75
ALL( + other)
93.81
54.94
41.18
23.57
Other : 7M 형태소, 방송뉴스, 신문
이질 텍스트 추가시 PP는 감소하지만, 인식 성능은 떨어짐
Spoken Language Lab.
13
 음향모델



낭독체와 대화체 음향모델 결합
낭독체 음향모델 → 대화체로 adaptation
대화체 특성 반영 모델 추가

SILENCE, Short pause, 잡음 모델(gbm), 간투어 모델(aa)
 대화특성 반영에 따른 형태소 에러율
분
류
MER(%)
Baseline
31.65
Base + Sil
30.65
Base + Sil + GBM
29.57
Base + Sil + GBM + FP
28.84
Base + Sil + GBM + P1
28.99
Base + Sil + GBM + P2
29.33
Base + Sil + GBM + P1 + P2
28.73
Base + Sil + GBM + FP + P1 + P2
27.92
전체 감소율 (절대치)
Spoken Language Lab.
감소율
2.08
Sil : 묵음 모델
0.73
GBM : 잡음
FP : 간투어
0.92
P1 : 양성음의 음
성음화
P2: 축약, 패턴화
된 발음변이
3.73 %
14
결론 및 향후 과제
 결론

대화체 연속음성 인식을 위한 베이스라인 구축
 향후과제




자세한 분석을 위해서는 텍스트에 세부적 annotation 필요
각각에 대한 세부적인 연구 필요
인식 대상이 되는 utterance가 너무 길다.
대화체에 적합한 음향모델에 대한 연구 필요


언어모델





Noise, 간투어(예, 어_예, …), …
텍스트 수집 방안
Noise, 간투어, fragment words 처리 방안
대화체에 적합한 언어모델 연구
발음사전
평가 방법 검증
Spoken Language Lab.
15