슬라이드 제목 없음 - Brain Science Research Center

Download Report

Transcript 슬라이드 제목 없음 - Brain Science Research Center

음운변화현상을 반영한
한국어 발음열 자동생성
2002. 2. 19
서강대 컴퓨터학과
이경님
Sogang University
SLP Laboratory
차례

서론

한국어의 발음 변화

관련연구

한국어 음운변화 현상 분석

발음열 자동 생성 시스템
– 형태음운론적 분석에 기반한 문자열-발음열
자동변환

결론 및 향후 과제
2
Sogang University
SLP Laboratory
한국어의 발음 변화

발음 변화 예제
–
–
–
–
–
–
학생 [학쌩], 학문 [항문], 법학 [버팍]
신라 [실라], 음운론 [음운논]
감기 (명사) [감기], 감기 (어간 + 어미) [감끼]
겨울나그네 [겨울라그네]
너는 산을, 나는 바다를 [너는 사늘, 나는 바다를]
사적 (史蹟) [사적], 사적 (史的) [사쩍]
문자열
감기
솜이불
솜이
(음소 문맥:ㅁ+ㄱ)
(음소 문맥:ㅁ+ㅇ)
발음열
감기
(형태소:명사)
감끼
(형태소:어간+어미)
솜니불
(형태소:복합명사)
소미
(형태소:명사+조사)
3
Sogang University
SLP Laboratory
발음열 자동 생성의 필요성
음성 인식기
– 학습용 말뭉치 생성
– 인식용 발음 사전 생성
 음성 합성기
– 입력 문장에 대해 발음열로 자동 변환 필요
 수작업으로 인한 소비 시간의 절약
 시스템 확장시 일관성 유지

4
Sogang University
SLP Laboratory
관련 연구

서강대 (규칙 기반 발음열 생성)
– 전재훈, 위선희, 정민화, “Generating Pronunciation
Dictionary by Analyzing Phonological Variations
Frequently Found in Spoken Korean”, International
Conference on Speech Processing, 1997.
– 전재훈, 차선화, 정민화, 박준, 황규웅, “Generating
Korean Pronunciation Variants by Multistage
Applications of Phonological Rules”, International
Conference on Spoken Language Processing, 1998.
– 차선화, 정민화, “TTS 시스템을 위한 한국어 발음열 자동
생성”, 음성통신 및 신호처리 워크샵 , 1998.
– 이경님, 전재훈, 정민화, “한국어 연속음성 인식을 위한
발음열 자동 생성”, 한국 음향학회지, 2001.
5
Sogang University
SLP Laboratory

독일어 영역
– M.-B. Wesenick , “Automatic Generation of German
Pronunciation Variants”, International Conference
on Spoken Language Processing, 1996.
• 독일어에서 약 1500 개의 변이음 규칙을 이용하여 문자열
을 발음열로 변환

한국어 영역
– 김병창, 이원일, 이근배, 이종혁, “한국어 TTS를 위
한 무제한 단어 자소열-음소열 변환”, HCI’98 학술대
회, 1998.
• 형태소-음소열 말뭉치  CCV 음운변화 규칙  형태소 내
부의 발음열 생성
• 형태소-음소열 메타사전  형태소 경계의 발음열 생성
• 영역 전환시, 새로운 영역의 형태소-음소열 말뭉치 필요
6
Sogang University
SLP Laboratory
한국어의 음운 변화 과정
입력
학교
(문자열)
ㄱ+ㄱ (음소 문맥)
필수 규칙
학꾜 (ㄱ+ㄲ)
음소 변동 규칙
수의 규칙
ㄱ+ㄲ (음소 문맥)
학꾜 (ㄱ+ㄲ)
하꾜 (Ø+ㄲ)
변이음 규칙
출력
(발음열)
HH AA KQ KK J OW
HH AA KK J OW
7
Sogang University
SLP Laboratory
음운 변화 규칙

음소 변동 규칙
– 필수 음소 변동 규칙
• 반드시 적용되어야 하는 음운 변화 규칙
• 형태소 내부/복합어 경계/어절 내부/형태소간/동사 어간 어미 경계
/어절 경계에 적용되는 음소 변동 규칙 틀
– 수의적 음소 변동 규칙
• 발화의 형태에 따라 선택적으로 적용되는 규칙

변이음 규칙
– 음소가 발화되는 위치에 따른 변이음 실현

음소 문맥에 따른 규칙 적용
– 음절경계에서 규칙이 적용될 앞 음절 초성과 뒷 음절 종성의 음
소 쌍을 음소 문맥으로 정의
8
Sogang University
SLP Laboratory
음소 변동 규칙
규칙
번호
규칙의 종류
예제
세부
규칙수
1
음절말 중화
앞압 (ㅍㅂ)
179
2
자음군 단순화
흙흑 (ㄺㄱ)
256
3
격음화(기식음화)
좋던조턴 (ㅎ+ㄷd+ㅂ)
21
4
연음규칙
밥이바비 (ㅂ+ㅇd+ㅂ)
42
5
유음화
난로날로 (ㄴ+ㄹㄹ+ㄹ)
10
6
장애음의 비음화
국물궁물 (ㄱ+ㅁㅇ+ㅁ)
34
7
유음의 비음화
담력담녁 (ㅁ+ㄹㅁ+ㄴ)
19
8
구개음화
굳이구지 (ㄷ+ㅇd+ㅈ)
3
9
경음화
국밥국빱 (ㄱ+ㅂㄱ+ㅃ)
136
10
종성 ㅎ-탈락
좋은조은 (ㅎ+ㅇd+ㅇ)
1
11
ㄴ-첨가
솜이불솜니불 (ㅁ+ㅇ ㅁ+ㄴ)
30
12
동일 조음위치 자음탈락
주먹코주머코 (ㄱ+ㅋd+ㅋ)
7
13
중복 자음화
재빨리잽빨리 (Φ+ㅃㅂ+ㅃ)
6
14
변자음화
감기강기 (ㅁ+ㄱㅇ+ㄱ)
17
15
초성 ㅎ-탈락
시험시엄 (Φ+ㅎ Φ+d)
5
16
자음 첫소리 ‘의’ 모음화
희망히망 (ㅢㅣ)
18
17
용언의 활용형 ‘져,쪄,쳐’의 모음화
가져가저 (ㅕㅓ)
3
• 필수음운변동 규칙
- 1~11번 규칙
- 16~17번 규칙
• 수의적 음운변동 규칙
- 12~15번 규칙
상태전이 형태 규칙틀 사용
9
Sogang University
SLP Laboratory
세부 음소 변동 규칙 표현

예: 장애음의 비음화 규칙 일부 (총 34 중 3개 )
음소문맥
L3
R1
ㄱ
ㄴ
ㄱ
ㅁ
ㄲ
ㄴ





변환코드
L3
R1
ㅇ
ㄴ
ㅇ
ㅁ
ㅇ
ㄴ
규칙
번호
6
세부규칙
번호
1
2
3
적용범위
어/형/복/내/수/다
111100
001100
111100
형태소 내부 음소 변동 규칙 틀의 일부 예제
27 개의
가능한 종성
ㄹ
n
ㅇ
p
8.1
0.0
n
ㄺ
d
2.40
2.52
d
2.42
2.53
ㄷ
ㅆ
n
ㅈ
s
9.30
d
9.35
9.100
19개의
가능한 초성
적용 플래그
n
적용 규칙 번호
10
Sogang University
SLP Laboratory
발음열 자동 생성 알고리즘
텍스트 입력
형태음운론적 분석에 기반한
문자열-발음열 자동변환
텍스트 분석 및 전처리
(형태소 분석 결과 이용)
예외사전 검색
조합형
예외사전
형태소 태그?
명사
(default)
프로세서
복합어
조사
어간
어미
프로세서
프로세서
프로세서
프로세서
필수음소
변동규칙
• 음소 문맥별 세부 규칙수
총 787개
(필수 752 + 수의 35)
1차 변형된 음소열
수의적 음소변동 적용
변이음 규칙 적용
최종 결과 출력
(Phonetic Transcription)
• 다중 발음열 생성
• 적용된 변이음 규칙 - 유성음화, 무파화, 구개음화
11
Sogang University
SLP Laboratory
음소 변동 규칙 적용 과정
입력 : 신발을 신고 걸어 간다
신발/ncn
을/jco
S IY N B AA R
(신바ㄹ)
신/pvg
걷/pvg
어/ecs 가/pvg
ㄴ다/ef
SS IY N
(씬)
WW L
(을)
S IY M B AA R
(심바ㄹ)
변자음화
고/ecc
KK OW
(꼬)
G AX R
(거ㄹ)
AX
(어)
경음화
ㄷ-불규칙
처리
연음
G AA
(가)
N D AA
(ㄴ다)
S IY NX
(싱)
연음
변자음화
12
Sogang University
SLP Laboratory
입출력 예제
단위
출력형태
입력형태
(디코딩 & 사전표제어 단위)
단어
하한가
에
백칠십
주
를
매수
하
겠습니다
[하한까]
[에]
[백칠씹]
[주]
[를]
[매수]
[하]
[겓씀니다]
어절
하한가에
백칠십주를
매수하겠습니다
[하한까에]
HH AA HI AA N KK AA EY
[백칠씹쭈를] P EH KQ CH IY PQ ZZ UW
[매수하겓씀니다] M EH S UW HI G EY TQ SS WW M N IY D AA
태깅된
어절
하한가/ncn+에/jca
170/nnn+주/nbu+를/jco
매수/ncpa+하/xsv+겠/ep습니다/ef
[하한까]
[에]
[백]
[칠씹]
[쭈]
[를]
[매수]
[하]
[겓씀니다]
전처리기 동작후 입력
하한가/ncn+에/jca
백/nnc+칠십/nnc+주/nbu+를/jco
매수/ncpa+하/xsv+겠습니다/ef

문장
하한가에 백칠십주를 매수하겠습니다
HH AA HI AA N KK AA
EY
P EH KQ CH IY L SS IY PQ
Z UW
R WW L
M EH S UW
HH AA
K EY TQ SS WW M N IY D AA
HH AA HI AA N KK AA
EY
P EH KQ CH IY
CH IY L SH IY PQ
ZZ UW
R WW L
M EH S UW
HI AA
G EY TQ SS WW M N IY D AA
[하한가에]
HH AA HI AA N KK AA EH
[백칠씹쭈를] B EH KQ CH IY L SS IY PQ ZZ UW R WW L
[매수하겓씀니다] M EH S UW HI G EY TQ SS WW M N IY D AA 13
Sogang University
SLP Laboratory
결론

발음열 생성 시스템의 장점
– 어절, 언절, 문장 등 다양한 입력에 대해 발음열로 변환
– 형태소 경계 및 어절 경계에서의 음운 변화 현상 반영
– 음성 인식 및 합성에 유용

요약
–
–
–
–
–
형태음운론을 반영한 발음열 자동 생성
형태소 분석기 통합을 통한 사용자 편의성 도모
불규칙 처리를 통한 오류 감소
실험을 통한 예외 사전 축소, 규칙 안정화
최적의 발음 사전 구축
14
Sogang University
SLP Laboratory
결론

향후 과제
– 생략과 축약이 빈번한 대화체의 음운 변이를
위한 형태소 분석 필요
– 발음열 학습을 통한 최적 발음열 생성
• 발음열 변환기를 통한 표준 발음열 생성
• 음성 데이터 전사 수작업을 통한 실제 발화 발음
열 획득
• 표준 발음열과 실제 발화 발음열을 사용한 학습
• 학습 결과를 음성 사전에 반영
15