有声部分をorgからbfrに変えると/s/音節の知覚率が減少する。

Transcript 有声部分をorgからbfrに変えると/s/音節の知覚率が減少する。

機械学習系勉強会発表
10/05/07(Fri.)
近山・田浦研究室
M1 針谷航
2010/5/7
1
kiwiの
/home/hariya/100507.pdf
/home/hariya/100507.ppt
が発表資料です。
2010/5/7
2
本日の発表予定
• 卒業論文
ひどい内容です。
• 今後の方針
ほぼ無しです。やってみたいことの列挙。
2010/5/7
3
卒業論文
摩擦音節知覚における聴覚ストリーム
形成に関する研究
10/03/15(Mon.)
東北大学工学部
電気通信研究所矢野研究室
B4 針谷航
2010/5/7
4
音を聞き分ける
電光掲示板
の音
ティッシュ配り
の人の声
車のクラクションの音
実環境では様々な音が至るところに存在している。
→しかし人はそれらを聞き分けることができる。
2010/5/7
カクテルパーティー効果
5
音を聞き分ける
言葉
口笛
拍手
鼓膜に音波が入るとき
一つの波として進入
聴覚系で三つの音として
分離して知覚
聞き分ける仕組みはどのようになっているのか。
6
聴覚の情景分析
(Auditory Scene Analysis)
◎Bregman(1990)
物理的特性が似た音の集合は一つの音のまとまり(ストリーム)と知
覚される。
周
波
数
１つのストリーム
時間
周
波
数
２つのストリームに分離
時間
周波数差が小さい、時間間隔が等間隔
周波数差が大きい、時間間隔が非等間隔
ストリームの形成
(原始的)分凝(Segregation)
これでカクテルパーティー効果は全て説明可能？
2010/5/7
7
音声認識における情景分析
・無声摩擦音節において無声(子音)部分と有声(母音)部分の物理的特
性は異なる。(例)音源、スペクトル形状
→人は一つのストリームと知覚する。
/s/
せ
/e/
乱流(雑音)が音源
一つのストリーム
高調波を重畳したものが音源
男性話者”せ”の時間波形(上)とスペクトログラム(下)
•物理的特性の類似性以外も分凝に関与する。
これは学習により獲得される。(スキーマ依存型[Schema-based]分凝)
2010/5/7
8
子音の種類
•子音と母音のストリーム形成の仕組みを考えたい。
→まず子音、母音それぞれの特徴を見る。
◎子音
調音点（調音位置）、調音様式、（有声or無声）により分類される。
2010/5/7
子音の種類
9
母音の種類
◎母音
母音は調音位置、調音の高さで分類される。
調音位置
前舌
後舌
狭(高)
調
音
の口蓋垂側
高
さ
唇側
広(低)
2010/5/7
母音の種類
10
母音における特徴量
◎ Peterson & Barney(1952)
母音によりスペクトルの共振ピーク(フォルマント)の位置が決まって
いる。
代表的なフォルマント周波数[Hz]
F1
F0
F2
F3
F4
-
F1
F2
/a/
800
1300
/i/
250
2100
/u/
250
1400
/e/
450
1900
/o/
450
900
スペクトル包絡とフォルマント
→同じ母音は同じフォルマント周波数を持つ（同一話者限定）。
ちなみにF1は調音の高さ、F2は調音位置に対応すると言われる。
2010/5/7
11
遷移部分の関わり
•とりあえず子音と母音が隣接すればストリーム形成？
◎Kewley-Port ,D.(1982)
有声破裂音(b,d,g)において母音部分のオンセットのフォルマント
周波数は前に存在する子音により異なる。
母音のオンセット（子音から母音への遷移部分）もストリーム形成に
関与する？
2010/5/7
12
摩擦音節形成に関する先行研究
◎Ito &Yano (2004)
無声破裂音(p,t,k)、または単一母音(V)の有声部分(母音部分)の前
方に無声摩擦音(s)の無声部分(子音部分)を結合させると無声摩擦音
節と知覚される。
被験者ごとの/s/音節と知覚した割合
KH
LM
US
TD
100
100
99.9
96.7
摩擦音と母音が隣接すると摩擦音節を形成する。
2010/5/7
13
摩擦音節形成に関する先行研究
◎Ito &Yano (2004)
先で作成した刺激の前後に摩擦音
/s/を配置して呈示する。このとき
①全体として/s/音節と知覚される割
合が減少する。
②/s/音節と知覚される割合が元の
無声部分により異なり、/s/>/t/>/p/>
/k/>Vとなる。
→遷移部分が/s/音節形成に関与し
、/s/と/t/は遷移部分が類似する。
元の無声部分(例):刺激s(a)+(k)aの場合→/k/
2010/5/7
元が単一母音の場合→V
14
無声子音/s/と/t/との類似点
・/s/と/t/は調音位置が等しい。
無声摩擦音と有声部分との結合力は遷移部分、また調音位置により
説明がつくかもしれない。→遷移部分と調音位置は関係がある。
2010/5/7
15
研究目的
無声摩擦音節のストリーム形成と調音位
置、遷移部分との関係を明らかにする。
2010/5/7
16
実験１:ストリーム形成の確認
◎方法
元音声：収録した音声。
計30音声(１５音節[下表]×２話者[rtw,ktm])。
刺激：①元音声の有声部分に無声部分sを結合させた刺激。30刺激。
･･･sgl
②①の刺激の前後に、sを６個ずつ配置した刺激。30刺激。
･･･plr
計60刺激。
元音声の音節
実験：各刺激１２応答。被験者4名。
無声部分
被験者は知覚した音声の子音部を回答
s V k t p
(V,k,s,t,p,g,d,b,f,hより選択)。
有 a さあかたぱ
声
部 e せえけてぺ
分 o そおことぽ
2010/5/7
※緑字の無声部分を刺激で使用。
17
さ
刺激例s(a)+(k)a
か
(k)a
s(a)
刺激sgl
s(a)+(k)a
s(a)を前後に配置
刺激plr
s(a)+(k)a
2010/5/7
18
実験１-結果
1
0.8
知 0.6
覚
率 0.4
/a/
/e/
/o/
0.2
0
sgl
plr
/s/
sgl
plr
/t/
sgl
plr
sgl
/p/
plr
/k/
sgl
plr
/V/
元の無声部分(sgl-plr別)
/s/音節の知覚率
・元の無声部分により知覚率が異なる。
・sglとplrの間に大きな知覚率の差がある。
・母音間ではあまり差がない。
2010/5/7
19
実験１-結果
1
◎データをまとめなおす。
• 元の無声部分により知覚
率が異なる。
• sglとplrの間に大きな知覚
率の差がある。(/s/を除く)
0.8
知 0.6
覚
率 0.4
sgl
plr
0.2
0
/ s/
/t/
/ p/
/ k/
V
元音声の無声部分
/s/音節の知覚率(bfr)
→遷移部分はストリーム形成に関与する。
しかし知覚率は/s/と/t/の間にかなりの差が見られる。
→調音位置は関係しない。
2010/5/7
20
実験2
•実験１より遷移部分の重要性は示唆されたように思える。しかし母音
部分で異なるのはオンセット情報のみなのか(オフセットの影響は存在
しないのか)。
→有声部分を50[ms]以前または以後のみ残し、前方部分の影響を調
べる。
◎方法
元音声：実験１に同じ。
刺激：基本的に実験１に同じ。
①各刺激で用いる有声部分は前方50[ms]のみ。
･･･実験bfr
②各刺激で用いる有声部分は50[ms]以降。
･･･実験aft
各60刺激。
実験：実験１に同じ。但し被験者は３名。
2010/5/7
21
刺激例:s(a)+(k)a
白字:無声部分と有声部分の境界
橙字:境界から50[ms]後の位置
波形の切り出し
s(V)と結合
2010/5/7
bfr
aft
22
実験2-結果
1
1
0.8
0 .8
知 0.6
覚
率 0.4
sgl
plr
知 0 .6
覚
率 0 .4
0.2
sgl
plr
0 .2
0
0
/ s/
/t/
/ p/
/ k/
V
/ s/
/ t/
/ p/
/ k/
元音声の無声部分
元音声の無声部分
/s/音節の知覚率(bfr)
/s/音節の知覚率(aft)
V
1
0.8
知
覚
率
0.6
sgl
plr
0.4
0.2
0
/s/
2010/5/7
/t/
/p/
/k/
元の無声部分
/s/音節の知覚率(org)
V
23
実験2-結果
1
◎データをプロットしなお
す。
• bfrの結果はaftの結果
よりもorgに近い。
知覚率
0.8
/s/
0.6
/t/
0.4
/p/
0.2
/k/
V
0
org
bfr
aft
刺激の種類
実験２
→bfrの方に/s/音節形成のための重要な手がかりが存在す
る。つまり遷移部分は重要である。
2010/5/7
24
まとめ
・/s/摩擦音節の形成と元の無声部分の調音位置は無関係
である。
・/s/摩擦音節形成の手がかりとして遷移部分は重要である
。
2010/5/7
25
今後の課題
・先行研究と相違点が生じた原因の解明。
・遷移部分から結合に関与する情報を抽出する方法の考案
。
2010/5/7
26
メル周波数ケプストラム係数
(Mel-Frequency Cepstrum Coefficient)
• 音声分析においてよく使われる。
手順
• ある時間幅(フレーム)で時間波形を切り取りフーリ
エ変換
• 周波数を対数に、振幅Aを変換2log|A|に変換
• フィルタバンクで情報圧縮した後コサイン展開
コサイン展開で得た係数がMFCC
2010/5/7
27
MFCCと音声分析
• MFCCの値は音素、音源の特徴を表す。
↓
MFCCの値で音素の分類、話者特定が可能
(機械学習が用いられたりする。)
• 音声→テキスト変換、声紋認識で使われる。
2010/5/7
28
今後の方針
2010/5/7
29
今後の方針
• 入力された音声信号を分析し、誤りを検出、
そして正しい音声へ再合成する手法の考案。
-雑音、誤発音
日本人が発話した英語を流暢な英語に。
歯がない、または呼吸器が弱っている人な
ど発話に不自由を持つ人への補助器。
2010/5/7
30
今後の方針
• 音素の情報を学習させ音声信号から音素に
分類する研究は多数ある。
→音素がどのくらいあり、どのようなものかを学
習することはできないか。
ex)日本語、英語、未知の部族、動物の鳴き声
2010/5/7
31
今後の方針
• 音声からどんな情報がとれるのかを調べる。
(認知されてるものは話者、音素、感情、etc…)
• 流行る音楽の予測、今の環境に最適な音楽
の予測。
• 音楽における誤り訂正。
2010/5/7
32
Thank you for your attention!
2010/5/7
33
Appendix
2010/5/7
34
元音声実験
1
V
k
s
t
p
h
0.8
知 0.6
覚
率 0.4
0.2
0
V
k
s
t
p
無声部分
知覚された音節(元音声)
・被験者４名
・どの音節も意図した子音と認識されている。
2010/5/7
35
Ito & Yano(2004)の刺激での実験
1
0.8
sgl
plr
知 0.6
覚
率 0.4
0.2
0
/s/
/t/
/p/
/k/
V
元音声の無声部分
/s/音節の知覚率
・被験者１名
・Vのsylでの知覚率が低い。
・sglでの/s/音節知覚率:64.5％
2010/5/7
36
摩擦音節形成に関する先行研究
2010/5/7
37
実験１-結果
・実験データをANOVAを用いて検定する。
(/s/のデータを除いて検定にかける。)
要因
A.元の無声部分
B.呈示方法(sglかplrか)
C.刺激の有声部分
1
0.8
/s/
0.6
/t/
/p/
0.4
/k/
V
0.2
0
sgl
・有意差あり
plr
/s/音節の知覚率(A-B)
元の無声部分(p<<0.001)、呈示方法(p<<0.001)
呈示方法をsglからplrに変更すると知覚率が大きく減少する。
元の無声部分により知覚率が変化する。
2010/5/7
38
実験１と先行研究との比較
-過去の知見と不一致
・sglの刺激でも摩擦音節と知覚されないことがある。
→被験者によってsglにおいても/s/音節と知覚されない。
今回の実験
S1
S2
S3
sglでの/s/音節知覚率
S4
94.7 87.8 67.8 52.8
先行研究
KH
LM
US
TD
100
100
99.9
96.7
1
0.8
・/t/の知覚率は/s/よりも/p/や/k/に近い。知覚
率
→調音位置では説明が付かない。
0.6
sgl
plr
0.4
0.2
0
/s/
/t/
/p/
/k/
V
元の無声部分
/s/音節の知覚率
2010/5/7
39
実験2-結果
-次のものを比較する。
Ⅰ、実験org(実験１)と実験bfr
Ⅱ、実験orgと実験aft
Ⅲ、実験bfrと実験aft
Ⅰ、実験orgと実験bfrとの比較
・sglの方がplrより知覚率が高い。(/s/を除く)→実験１でも見られた。
・全体としてorgの方が知覚率が高い。(Vは除く)
Ⅱ、実験orgと実験aftとの比較
・全体としてorgの方が知覚率が高い。(Vは除く)
Ⅱ、実験bfrと実験aftとの比較
・bfr、aftで知覚率に差が見られない。(/s/、Vは除く)
2010/5/7
40
実験2bfr-結果
・Ⅰで有意差あり
X(p<<0.01)
Y(p<<0.01)
X-Y(p=0.002) →実験１と同じ。
1
/s/
/t/
/p/
/k/
V
0.8
0.6
0.4
0.2
0
X-Z(p=0.01)
→Vグループのみ有声部分がorgからbfrに
変わると知覚率が上昇する。
sgl
plr
/s/音節の知覚率(X-Y)
1
/s/
/t/
0.8
-Vのグループのデータを除いて解析。
Zに有意差あり(p=0.020)、X-Zに有意差
なし。
0.6
/p/
0.4
/k/
0.2
V
0
org
bfr
/s/音節の知覚率(X-Z)
有声部分をorgからbfrに変えると/s/音節の知覚率が減少する。
2010/5/7
41
実験2after-結果
1
・Ⅱで有意差あり
X(p<<0.001)
Y(p<<0.004)
X-Y(p=0.002) →実験１と同じ。
/s/
/t/
/p/
/k/
V
0.8
0.6
0.4
0.2
0
X-Z(p=0.025)
→orgからaftに変わるときの知覚率の減少
率が/s/グループのみ異なる。
sgl
plr
/s/音節の知覚率(X-Y)
1
/s/
/t/
/p/
/k/
/V/
0.8
0.6
-/s/のグループのデータを除いて解析。
Zに有意差あり(p=0.005)、X-Zに有意差
なし。
0.4
0.2
0
org
aft
/s/音節の知覚率(X-Z)
有声部分をorgからaftに変えると/s/音節の知覚率が減少する。
2010/5/7
42
実験org/bfr-結果
・ANOVAを用いて検定する。
-要因
X.元の無声部分
Y.呈示方法(sglかplrか)
Z.有声部分の種類(Ⅰ:bfr or not、Ⅱ:aft or not、Ⅲ:bfr or aft)
・比較Ⅰ
-Vのグループのデータを除いて検定。
有声部分の種類に有意差あり(p=0.020)
1
/s/
/t/
0.8
0.6
/p/
0.4
/k/
0.2
有声部分をorgからbfrに変えると/s/音節
の知覚率が減少する。
2010/5/7
V
0
org
bfr
/s/音節の知覚率(X-Z)
43
実験org/aft-結果
・比較Ⅱ
-/s/のグループのデータを除いて検定。
有声部分の種類に有意差あり(p=0.005)
有声部分をorgからaftに変えると/s/音節
の知覚率が減少する。
1
/s/
/t/
/p/
/k/
/V/
0.8
0.6
0.4
0.2
0
org
aft
/s/音節の知覚率(X-Z)
・比較Ⅲ
-V,/s/のグループのデータを除いて検定。
呈示方法のみに有意差あり(p<<0.001)
任意の有声部分は摩擦音とある程度は
結合する。
bfrのほうがaftより知覚率が近い。
→bfrのほうが摩擦音節形成に重要。
2010/5/7
1
0.8
/s/
0.6
/t/
0.4
/p/
0.2
/k/
0
bfr
aft
/s/音節の知覚率(X-Z)
44
実験2-結果
・bfr、aftでの結果はorgに比べ、共に/s/音節の知覚率が減少。
→有声部分の前方部分、後方部分どちらも重要なのか。
Ⅲ、実験2bfr、aftのセットで結果を解析(Vのグループは除く)。
(要因Z:bfrかaftか)
・有意差あり
X(p<<0.001)
Z(p<<0.001)
1
Y(p=0.002)
X-Z(p<<0.001)
→bfrでは/s/グループのみ異なる知覚を示
し、aftでは全てのグループで同様の知覚
を示す。
0.8
/s/
0.6
/t/
/p/
0.4
/k/
0.2
0
bfr
aft
/s/音節の知覚率(X-Z)
有声部分前方には/s/音節形成の重要な手がかりが存在する。
2010/5/7
45
線形予測符号化
(Linear Predictive Coding:LPC)
• スペクトルの包絡線を求めるために用いる。
yˆ ( n )
• 出力 y ( n ) 、出力の予測値
p
yˆ ( n )   
i 1
 i y (n  i)
• 出力と予測値との誤差  ( n )
 ( n )  y ( n )  yˆ ( n )  y ( n ) 
1

p
i 1
 i y (n  i)

( i ) を最小にするように  i を決定する。

i0
N
この  i をフィルタ次数とする全極型ARフィルタ
n
2
がスペクトル包絡となる。
Y (z)  H (z) X (z) 
2010/5/7
1

1
p
i 1
iz
i
X (z)
46