Praatを用いた日本語 イントネーションの知覚研究

Download Report

Transcript Praatを用いた日本語 イントネーションの知覚研究

Praatを用いた日本語
イントネーションの知覚研究
新谷 敬人 (Shinya, Takahito)
マサチューセッツ大学アマースト校大学院
上智大学大学院
日本英語学会第24回大会
2006年11月5日
1
はじめに


目的-Praatを用いた知覚実験の一例を示す
研究事例-日本語イントネーションのプロミネ
ンス知覚(Shinya 2005, 2006, 2007に基づく)


語アクセントがプロミネンスに与える影響を知
覚面から検討
刺激音となる合成音を作成する際の手順と実
験実施に焦点を当てる
2
アウトライン



動機と主張
背景(プロミネンス、語アクセント)
実験方法
刺激音作成
 実験実施



実験結果
結論
3
動機

プロミネンス知覚の研究(Gussenhoven et al.
1997、Pierrehumbert 1979、Terken 1991、1994
など)

発話のmetrical/prosodic structureとの関係

発話中のピッチアクセントの基本周波数(F0)
ピーク値を様々に変化させ、プロミネンス知
覚への影響を検討

イントネーション言語(英語とオランダ語)に
ついてのデータのみ
4
動機

Lexical toneはプロミネンスの知覚に影響しな
いのか

日本語イントネーションは単語のアクセント型
(有核 vs. 無核)により大きく影響を受ける
(Poser 1984, Pierrehumbert & Beckman 1988,
Kubozono 1993)

有核語と無核語の区別はプロミネンスレベル
の区別ではない
5
主張

アクセント型の違いはプロミネンスを知覚する
上で正規化される

有核語のプロミネンスが実際よりも低く算定さ
れる
→ 有核語と無核語が同じF0ピーク値を持つ場
合、無核語の方がより大きなプロミネンスを
持って知覚される
6
主張
Accentual boost normalization
physical
P1
perceived
P1
P2
accented
accented
accented
P2
unaccented
7
背景-プロミネンス

「プロミネンス」という用語はさまざまに使わ
れる
構造的 (音韻論、統語論-強勢, トーン)
音響的(F0、時間長、強さ)
知覚的
パラ言語的(感情、声質、性差など)
8
背景-プロミネンスの知覚に影
響を与える要因

高いF0ピークは大きなプロミネンスの知覚
を生み出す (Gussenhoven & Rietveld 1988,
1998, Terken 1991, 1994, Gussenhoven et al.
1997)
a
b
<
知覚されるプロミネンス
9
背景-日本語のアクセント

日本語における語は有核(accented)か無核
(unaccented)のどちらかに属する

音声学的特性-有核語は無核語よりF0ピー
クが高く、大きな下降を伴う

音韻論的特性-有核語はlexiconに何らかの
音韻的指定を持つが無核語は持たない
(Haraguchi 1977, Pierrehumbert & Beckman
1988)
10
背景-日本語のアクセント

有核語と無核語の音声学的な相違を考える
と、アクセントを知覚的に同定する場合、F0
パターンと語彙指定情報の両方が利用可能

Shinya (2005, 2007)はF0パターンに基づくプ
ロミネンス知覚の正規化を報告

ここでは、アクセントの語彙指定情報が同様
の正規化をもたらすかどうかを検討(Shinya
2006)
11
刺激音作成
12
刺激音作成の概要

3語からなる4つの文 [N1-の N2-が V]
aa
au
ua
uu

稲森の兄嫁がいない
稲森のお土産が消えた
稲村の兄嫁がいない
稲村のお土産が消えた
赤-有核
緑-無核
N1-F0形状を有核から無核へ連続的に変化
(6段階)

F0形状が曖昧な時、アクセント知覚に語彙指定
情報が利用されると予測
13
刺激音作成の概要




N2-F0形状を元のまま保ち、ピーク値だけ
を変化(6段階、14Hz間隔)
日本語母語話者24名
実験課題-文を聞いて、N1とN2のどちらが
より強調されて聞こえるかを判断
プロビット分析(回帰分析の一種)を用いて、
N1とN2が同じプロミネンスを持つときの第1
ピーク(P1)・第2ピーク(P1)の値を推定
14
刺激音作成
(手動)
15
作成する刺激音1
16
実演
17
刺激音作成(手動)

利点
操作が比較的容易

欠点
多くの刺激音を作るには手順が煩雑
 ミスが出る


解決策

スクリプトを用いて刺激音作成を半自動化
18
刺激音作成
(半自動)
19
1 outdir$ = “output\”
2 for x from 0 to 5
3 select Manipulation aa
1段階でのF0の変化幅
4 Extract pitch tier
を変数f0として定義
5 Remove point... 5
6 f0 = 10*x
Pitch pointを追加
7 Add point... 0.7931 200-f0
Time pointをあらかじ
8 select Manipulation aa
め知っておく必要あり
9 plus PitchTier untitled
10 Replace pitch tier
11 select Manipulation aa
12 Get resynthesis (PSOLA)
13 Write to WAV file... ‘outdir$’aa‘x’.wav
14 select PitchTier untitled
15 Remove
16 endfor
図1 スクリプト1
20
実演
21
作成された刺激音1
22
作成する刺激音2
Point 3
Point 5
Point 2
23
2 for x from 0 to 5
25 for y from 0 to 5
3 select Manipulation aa
26
select Manipulation aa
4 Extract pitch tier
27
Extract pitch tier
F0に加え、タイミングに
5 Remove point... 2
28
Remove point... 5
ついても変化幅を指定
6 align_point2 = 0.0026667*x
29
f0_point5 = 14*y
7 f0_point2 = 2.833333*x
30
Add point... 0.7931 120+f0_point5
8 Add point... 0.213-align_point2 196-f0_point2 31
select Manipulation aa
9 select Manipulation aa
32
plus PitchTier untitled
Point 5
10 plus PitchTier untitled
33 Pitch
Replacepointを指定したF0
pitch tier
Point 2
11 Replace pitch tier
34 値とタイミングで追加
select Manipulation aa
12 select PitchTier untitled
35
Get resynthesis (PSOLA)
13 Remove
36
Write to WAV file... 'outdir$'aa'x''y'.wav
14 select Manipulation aa
37
select PitchTier untitled
15 Extract pitch tier
38
Remove
16 Remove point... 3
39 endfor
17 align_point3 = 0.0085*x
40 endfor
18 f0_point3 = 4.83333*x
19 Add point... 0.428+align_point3 122+f0_point3
Point 2とPoint3の各々の
20 select Manipulation aa
21 plus PitchTier untitled
処理についてPoint5の処
Point
3
22 Replace pitch tier
理を6回繰り返す
23 select PitchTier untitled
24
24 Remove
実演
25
作成された刺激音2
26
実験の実施


Praat Experiment MFC (Multiple Forced
Choice)
Experiment file
テキストファイルに必要なパラメータを入力
し、Object windowでReadから読み込んで使
用する
27
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
pauseText = “End of block of
“ooTextFile”
trials. Have a short break. Click to
“ExperimentMFC 2” ファイルの形 25
26
proceed.”
“stimuli/”
式を指定
27
endText = “The practice session is
“.wav”
28 各刺激音の前に1.5
over.”
carrierBefore = “”
29
“Tell experimenter you're done.”
carrierAfter =“”
秒の無音を挿入
30
numberOfResponseCategories = 2
initialSilenceDuration = 1.5 seconds
31
0.1 0.4 0.35 0.65 "1" "1"
interStimulusInterval = 0
刺激音の数(直後にリストした
32 0.6 0.9 0.35 0.65 "2" "2“
numberOfDifferentStimuli = 36
刺激音の数と同数)
33 numberOfGoodnessCategories = 0
“aa11”
34 0.25 0.35 0.10 0.20 “1 (poor)“
“aa12”
刺激音のファイルをリスト
35 0.35 0.45 0.10 0.20 “2”
“aa13”
36 0.45 0.55 0.10 0.20 “3“
…中略…
37 0.55 0.65 0.10 0.20 “4“
“aa64”
38 繰り返しの数
0.65 0.75 0.10 0.20 “5 (good)”
“aa65”
“aa66”
小休憩をいくつめの刺激
numberOfReplicationsPerStimulus = 2
breakAfterEvery = 0
音の後に入れるか
randomize = <PermuteAll>
すべてをランダムに再生する
startText = “Click to start.”
runText = “Which of the two words is
実験課題-実験の際に画面上に表
given more importance by the
28
speaker?”
示される文
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
“ooTextFile”
“ExperimentMFC 2”
小休憩時に表示
“stimuli/”
“.wav” される指示
carrierBefore = “”
carrierAfter =“”
実験終了時に表
initialSilenceDuration
= 1.5 seconds
interStimulusInterval
=0
示される指示
numberOfDifferentStimuli = 36
“aa11”
“aa12”回答の選択肢の
“aa13”数
…中略…
“aa64”
“aa65”
回答用の画面上に作成する
“aa66”
イメージ(4角形)のサイズ
numberOfReplicationsPerStimulus = 2
0.0(左)から1.0(右)
breakAfterEvery
=0
randomize
= <PermuteAll>
0.0(下)から1.0(上)
startText = “Click to start.”
runText = “Which of the two words is
given more importance by the
speaker?”
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
pauseText = “End of block of
trials. Have a short break. Click to
proceed.”
endText = “The practice session is
over.”
“Tell experimenter you're done.”
numberOfResponseCategories = 2
0.1 0.4 0.35 0.65 "1" "1"
0.6 0.9 0.35 0.65 "2" "2“
numberOfGoodnessCategories = 0
0.25 0.35 0.10 0.20 “1 (poor)“
0.35 0.45 0.10 0.20 “2”
0.45 0.55 0.10 0.20 “3“
0.55 0.65 0.10 0.20 “4“
0.65 0.75 0.10 0.20 “5 (good)”
Exp. Fileに関する情報
Help: Experiment MFC
2.1 The Experiment File
を参照
29
実演
30
ua>aa, uu>au (ux>ax)
N1とN2が同等の知覚プロミ
ネンスを持つとき、P1に対
するP2の値は、N1が有核
のときの方がより低い(=
P1-P2の差はN1=有核でよ
り大きい)
→アクセントの語彙指定情
報に基づく知覚の正規化を
示唆する
P2 (Same perceived prom as P1, Hz)
実験結果
200
195
190
185
180
175
170
165
160
155
150
145
140
y=x
ua
aa
au
uu
179
182
unaccented
186
P1
189
193
196
accented
31
実験結果
Accentual boost normalization
physical
perceived
P1
u
P2
x
P1
a
P2
x
聞き手が有核型の語が無核型の語よりもF0変動
幅が大きいことを知識として持っていて、そのプロミ
ネンスを実際よりも低く見積る
32
ua>uu, aa>au (xa>xu)
P2はN2が有核のときの方
がより高い(=P1-P2の差
はN2=有核でより小さい)
→知覚的正規化の効果は
F0パターンの情報が伴って
いるときの方が大きい
P2 (Same perceived prom as P1, Hz)
実験結果
200
195
190
185
180
175
170
165
160
155
150
145
140
y=x
ua
aa
au
uu
179
182
unaccented
186
P1
189
193
196
accented
33
実験結果
Accentual boost normalization
physical
P1
x
perceived
P1
P2
a
x
P2
u
34
まとめ

Praatを使うことにより、音声合成を用いた
知覚実験を容易に行うことができる

一例として、日本語イントネーションのプロ
ミネンス知覚に関する実験を紹介した

アクセント型の違いはプロミネンスを算定
するとき、正規化される

プロミネンス知覚の研究に際して lexical tone
を考慮に入れる必要性がある
35