음성합성을 이용한 영어억양학습

Download Report

Transcript 음성합성을 이용한 영어억양학습

음성합성을 이용한 영어운율학습
Learning English prosody through speech synthesis
경남대학교 영어학부 윤규철
나사렛 대학교 교양영어 춘계학술행사 특강
2007. 4.20
1
순서
•
•
•
•
•
•
•
•
•
퀴즈..........................................3
운율이란.....................................5
제2외국어 학습과 운율습득...............7
예전엔 이랬죠...............................8
문제점......................................10
이런 건 어떨까요..........................11
음성합성을 이용한 운율복제합성.......14
Technical details............................16
활용분야...................................29
2
퀴즈
• 말소리는 자음과 모음으로 구성되어 있다?
맞다
틀리다
3
정답
• 말소리는 자음과 모음으로 구성되어 있다?
틀리다
•
말소리는 자음과 모음 말고도 운율이라는
것이 있어야 “소리”가 된다.
4
운율이란?
• 자음과 모음이 말소리가 되려면
•
음높낮이
음강도
음길이
•
이 세가지 운율 구성요소가 있어야만 합니다.
운율이 없다면 말소리 자체를 낼 수 없습니다!
5
운율이란?
• 이들 구성요소들은 음성학적으로 다음과 같이 불립니다
•
Fundamental frequency (F0, Pitch), Hz
Intensity (Loudness), dB
Duration (Length), msec
6
제2외국어 학습과 운율습득
• 제2외국어를 학습할 때도 운율요소들은 중요합니다.
•
음높낮이의 변화  인토네이션
음강도의 변화
 강세변화
음길이의 변화
 문장속도
박자, 리듬
•
7
예전엔 이랬죠
• 어쩌면 지금도...
Listen and repeat!
•
8
예전엔 이랬죠
• 어쩌면 지금도...
Repeat after me!
•
9
문제점
• 주로 원어민/한국인 선생님의 목소리를 듣고
따라하는 방식을 취했다.
• 즉, 타인의 목소리를 듣고 모방해야 했다.
• 더 큰 문제점은 학생의 부족한 운율 요소만을
선별하여 집중적으로 고쳐줄 기술/기법이
없었다.
10
이런 건 어떨까요
• 부족한 운율 요소만을 선별하여 고치는 것은,
교사가 학생의 말했던 문장을 학생 목소리로 그대로 흉내내면서,
1. 원어민의 인토네이션만 그대로 모방해서 다시 들려준다.
2. 원어민의 강세변화만을 그대로 모방해서 다시 들려준다.
3. 원어민의 문장속도만을 그대로 모방해서 다시 들려준다.
는 것을 의미합니다. 혹은 경우에 따라
1,2를 동시에 1,3을 동시에 2,3을 동시에 아니면 1,2,3을
모두 동시에 할 수도 있는 것을 의미합니다.
11
이런 건 어떨까요
• 학생의 입장에서는,
자신이 말했던 것을 다시 듣되, 각 운율 요소를 수정한 상태로
듣게 되는 것입니다. 즉,
1. 원어민의 인토네이션만 제대로 모방했을때,
2. 원어민의 강세변화만을 제대로 모방했을때,
3. 원어민의 문장속도만을 제대로 모방했을때
혹은 둘씩의 조합 아니면 셋 모두를 완벽하게 습득했을 때의
자신의 목소리를 미리 들어볼 수 있다는 것입니다.
12
이런 건 어떨까요
• 그렇다면, <퀴즈>
과연 이런 선생님/원어민을 어디서 구할 수 있을까요?
1. 꿈 속
2. 상상 속
3. 음성합성/음성인식의 세계
13
음성합성을 이용한 운율복제합성
• 새롭고 독창적인 방식
원어민의 운율 요소를 선별적으로 학습자의 녹음목소리에
복제합성을 하여 다시 학습자에게 들려줌.
• 가상 시나리오 (소프트웨어)
1.
2.
3.
4.
원어민의 말문장을 학습자가 재생
학습자가 따라 읽는 것을 녹음
소프트웨어가 원어민의 운율을 선별적으로 복제합성
학습자가 복제합성된 자신의 목소리를 재생
14
음성합성을 이용한 운율복제합성
웹인터페이스 실행
15
Technical details
• Manipulation of
1. segmental durations, including phrase breaks
2. F0 contours
3. intensity contours
• For 1 and 2
PSOLA (Pitch Synchronous OverLap and Add),
developed by Moulines & Charpentier, 1990 [1]
implemented in Praat [2]
• For 3
Intensity swap in Praat
16
Technical details
Moulines & Charpentier, 1990 [1]
original waveform
windowed waveform
1
2
3 4
5 6
7
8
9 10 11 12 13 14 15 16 17 18 19
shortened waveform
1
1
4
7
3
10 13 16 19
5
7
9
waveform with lower F0
11
13
15
17
19
17
Technical details 1
Segmental durations
• Segment alignment & PSOLA processing of durations
: Alignment can be manual
or automatic (with the help of speech recognition)
k eI m i
native
non-native
k
eI
m
“…came in…”
n
i
n
18
Technical details 1+2
Segmental durations + F0 contour
• PSOLA processing of F0 on duration-treated utterance
native F0
native
k eI m i
n
non-native
k eI m i
n
non-native F0
19
Technical details 1+2+3
Segmental durations + F0 contour + intensity contour
• Mathematically “neutralize” non-native speaker’s intensity
contour and transfer native speaker’s intensity contour
in Praat – Holger Miterer (personal communication)
native intensity
native
k eI m i
n
non-native
k eI m i
n
non-native intensity
20
Technical details 1+3
Segmental durations + intensity contour
• Segment alignment & PSOLA processing of
duations followed by intensity contour transfer
native intensity
k eI m i
native
non-native
k
eI
m
n
i
n
non-native intensity
21
Technical details 2+3
F0 contour + intensity contour
• “Reverse” segment alignment & PSOLA processing
of F0 followed by intensity contour transfer
native F0
native intensity
k eI m i
native
non-native
k
eI
m
n
i
n
non-native F0
non-native intensity
22
Technical details
• Weakness
1. Voiceless segments can be made “voiced” in the
windowing process (pitch-synchronous technique)
2. Excessive handling results in unnatural synthesis
(One solution; pitch rescaling [3])
• Segment alignment
should be fine-tuned according to the voiced/voicless
status of the (sub-)segments for better results
23
Technical details
Examples
native utterance
non-native utterance
synthetic non-native
(durations+F0+intensity)
synthetic non-native
(durations+intensity)
synthetic non-native
(F0+intensity)
24
Technical details
Comparison before synthesis – duration, F0 & intensity
(blue & yellow)
native utterance
non-native utterance
25
Technical details
Comparison after synthesis – duration, F0 & intensity
(blue & yellow)
native utterance
synthetic non-native
26
Technical details
Comparison after synthesis – duration & intensity
(blue & yellow)
native utterance
synthetic non-native
27
Technical details
Comparison after synthesis –F0 & intensity
(blue & yellow)
native utterance
synthetic non-native
28
활용분야
• The technique could be used
(1) In second language education
to facilitate/motivate acquisition of the target language prosody
to emphasize the importance of prosody in achieving native speaker fluency
(2) For patients with vocal disorders
to help achieve the prosody of a normal voice
• Auto-segmentation via ASR (Automatic Speech
Recognition) or DTW (Dynamic Time Warping) [3]
can be employed to automate the segment alignment.
29
References
[1] E. Moulines and F. Charpentier (1990) “Pitch synchronous waveform
processing techniques for text-to-speech synthesis using
diphones” Speech Communication 9, 453-467.
[2] P. Boersma (2005) “Praat, a system for doing phonetics by computer”,
Glot International, Vol.5(9/10), pp. 341-345.
[3] S. Yi (2007) “Perception of English prosody by Americans and
Koreans and its pedagogical implications”, Ph.D. Dissertation,
Busan: Pusan National University.
[4] K. Yoon (2006) “Imposing native speakers’ prosody on non-native
speakers’ utterances”, Proceedings of the 9th Western Pacific
Acoustics Conference (WESPAC9), Seoul, South Korea.
30