知識を用いた音声認識による 野球実況中継の構造化

Download Report

Transcript 知識を用いた音声認識による 野球実況中継の構造化

単語共起に注目した野球実況中継の構造化
神戸大学 佐古,滝口,有木
状況推定音声認識
(空振り 三振)
2S
(投げ ストライク) 2B
1S
2B
Out
2S
3B
0S
0B
三
振
1S
2B
S: ストライク
B: ボール
発話に応じて状況を推定
ストライ
ク
ボール
2S
2B
2S
3B
カウント2&2
状況に応じて言語モデルを切替え
状況の制約を用いることにより認識誤りを改善
同時に野球実況中継の構造化
単語と状況の関係



状況によって発話されやすい単語
状況(状態)を遷移させる単語
野球の場合
状況を遷移させる単語
ストライク
1S
2B
カウント1&2
ボール
2S
2B
2S
3B
三振
状況に依存して発話されやすい単語
フォアボール
状況依存言語モデル



状況に応じた言語モデルを作成
状況によって確率の高い/低い単語が存在
推定誤りを防ぐ効果
三振
1S
2B
カウント1&2
カウント1&2
確率: 低
2S
2B
2S
3B
三振
確率: 高
フォアボール
単語共起に注目した
野球実況中継の構造化
神戸大学
佐古淳 滝口哲也 有木康雄
背景・目的

背景
– マルチメディアコンテンツの増大
– 検索を容易にするための情報が必要
– ハイライトシーンを配信
野球実況中継の構造化
– 状況推定音声認識

目的
– 状況推定精度の向上 → 構造化精度の向上
– 音声認識精度の向上
音声認識の問題点



音声認識結果を利用して構造化
認識誤りが問題
野球実況中継タスクの場合
– 音響モデル・言語モデル適応を行ってWER: 70%程度
– 正解「ファールボール…(次の投球)…投げた、空振り三振」
誤り「フォアボール…(次の投球)…投げた、空振り三振」
尤度
空振り三振!
投げた…
…
フォアボール
空振り三振!
投げた…
…
ファールボール
…
時間
認識結果のみを用いた構造化
尤度
空振り三振!
認識結果
投げた…
…
フォアボール
空振り三振!
投げた…
…
ファールボール
…
時間

構造の推定を間違う
– フォアボール → 次のバッター
– 次のバッター → (1球目で)空振り三振
試合の状況に注目
おかしい
状況を推定する音声認識の枠組み

単純な認識結果を用いて状況を推定すると……
単語認識誤りを修正できない


正解単語はワードグラフ(候補単語)内に存在する可能性
状況依存を考慮することで正解単語を選択
状況を推定する音声認識の枠組み
単語認識誤りを修正
正しい状況推定
状況に注目した音声認識

単語は状況に依存して発話
状況
単語
音声
認識単語から状況を推定


状況がもつ制約
単語と状況の関係
状況が持つ制約

野球の場合
– ストライクカウント3は存在しない
– ボールカウント3以外からのフォアボールはない
Out
0S
0B
2S
3B
S: ストライク
B: ボール
2S
2B
1S
2B
1S
3B
4B
0S
0B
単語と状況の関係



状況によって発話されやすい単語
状況(状態)を遷移させる単語
野球の場合
状況を遷移させる単語
ストライク
1S
2B
カウント1&2
ボール
2S
2B
2S
3B
三振
状況に依存して発話されやすい単語
フォアボール
状況推定音声認識の定式化

観測音声Oから単語系列Wと状況系列Sを同時に推定
P(O | W , S ) P(W , S )
ˆ
ˆ
( S ,W )  arg max P(W , S | O)  arg max
P(O)
( S ,W )
( S ,W )

i 1 i 1
i 1 i 
ˆ
ˆ
(S ,W )  arg maxP(O | W , S )   P(si | s1 w1 ) P(wi | w1 s1 )
( S ,W ) 
i

近似


ˆ
ˆ
(S ,W )  arg maxP(O | W , S )   P(si | si 1wi 1wi  N ) P(wi | wi 1si )
( S ,W ) 
i

状況依存
音響モデル
状況遷移
モデル
状況依存
言語モデル
状況を推定しない音声認識との比較

状況推定しない


ˆ
W  arg maxP(O | W )   P(Wi | Wi 1 )
W
i


音響モデル

言語モデル
W: 単語系列
O: 音響特徴系列
S: 状況系列
状況推定音声認識


ˆ
ˆ
(S ,W )  arg maxP(O | W , S )   P(si | si 1wi 1wi  N ) P(wi | wi 1si )
( S ,W ) 
i

状況依存
音響モデル
状況遷移
モデル
状況依存
言語モデル
状況を推定する音声認識
状況毎に
推定される
単語が異なる
尤度
状況Z
単語I
…
単語G
単語A
…
尤度 状況D
尤度
単語H
単語B
尤度 状況C
尤度 状況B
単語J
…
状況
時間
状況A
単語E
…
単語C
単語A
単語F
…
単語D
時間
時間
単語B
…
時間
時間
野球実況中継の構造化

映像と音声のシーケンスに階層のある情報を付与
映像・音声のシーケンス
イニング
1st top
0 out
ストライクカウント
ボールカウント
0S
0B
1S
1B
1 out
2S
0S
0B
1S
構造情報
アウトカウント
1B
構造=刻々と変化する試合の状況のシーケンス
状況依存音響モデル

状況に応じた音響モデルを作成
興奮していない区間のデータをベースライン
アナウンサーが興奮している区間のデータで教師あり適応

認識時


– P(O|W,平常)とP(O|W,興奮)を比較
– P(O|W, 興奮)の方が高い → 興奮するような状況と推定
状況推定モデル


発話から状況遷移を推定
野球の場合
– 「投げた直球ストライク」のようにキーワードが離れる場合がある
– 単一のキーワードでなく付随する単語もセット
P(si | si 1wi 1wi  N )
(空振り 三振)
(投げた ストライク)
(打ち ファールボール)
0S
0B
2S
3B
S: ストライク
B: ボール
2S
2B
1S
2B
(投げた ボール)
Out
1S
3B
4B
(ボール フォアボール)
0S
0B
状況依存言語モデル



状況に応じた言語モデルを作成
状況によって確率の高い/低い単語が存在
推定誤りを防ぐ効果
三振
1S
2B
カウント1&2
カウント1&2
確率: 低
2S
2B
2S
3B
三振
確率: 高
フォアボール
実験



状況推定音声認識を用いて野球中継の構造化実験
タスク: 2003年 9月 7日 阪神・ヤクルト戦
状況
–
–
–
–

アウトカウント×3
ストライクカウント×3
ボールカウント×4
興奮/平常
72状態
状況モデル・状況依存言語モデル
– 試合の書き起こしテキストから学習
実験

音響モデル
音
響
分
析
条
件
H
M
M


サンプリング周波数
特徴パラメータ
フレーム長
フレーム周期
窓タイプ
16KHz
MFCC(25次元)
20ms
10ms
ハミング窓
タイプ
混合数
244音節
32混合
母音(V)
子音+母音(CV)
5状態3ループ
7状態5ループ
MLLR+MAPにより教師あり適応(興奮・平常別)
言語モデル
– Webコーパス(57万形態素)
– 約1時間文の実況中継書き起こし文書を言語モデル融合
実験結果

評価
– キーワード:
 ストライク・ボール・ファール・フォアボール
アウト・三振・空振り
– 構造化正解率: 投球毎のSBOの正解率

結果
ベースライン
キーワード正解精度
構造化正解率
提案手法
66.8%
69.1%
-
73.3%
(音響・言語モデル
適応は行ったもの)
まとめ

まとめ
– 状況の制約を用いることで認識誤りを回避
– 単語の共起から状況遷移を推定することで誤りが改善
– 現状では、まだ状況の制約を持つ場面が少ない

今後の課題
– 状況の制約を増やす必要性

豊富な“状況”の定義
– “状況”構築の自動化