話題遷移を考慮した言語モデル
Download
Report
Transcript 話題遷移を考慮した言語モデル
トピックモデルとタスクの知識を用いた
言語モデルによる野球実況中継の構造化
神戸大学大学院 自然科学研究科
佐古淳,滝口哲也,有木康雄
背景・目的
背景
– マルチメディアコンテンツの増大
– 検索や要約のための情報が必要
– スポーツが扱いやすくニーズも存在
野球実況中継の構造化
– 音声認識を利用
– ラジオ中継音声を利用
TV中継よりも情報が多い
システム概要
ラジオ音声
音声認識
投げました。ボール。ファールボール。
……。投げた、空振り三振。……
構造化
1st top
0S
0B
1S 2S
1B
1 out
0S
0B
1S
1B
構造情報
0 out
問題点
ラジオ音声
音声認識
投げました。ボール。ファールボール。
……。投げた、空振り三振。……
– 音声認識性能
音響・言語モデル適応済み
単語正解精度65.0%
フォアボール
誤認識
音声認識性能の向上
誤認識への対応(タスクの知識を利用)
が必要
提案手法
従来の提案
– 状況と単語を同時推定する音声認識
タスク知識を利用
状況の推定により構造化可能
単語誤りの改善はキーワードのみに限定
– 話題遷移を考慮した言語モデル
全体的な単語誤りの改善
構造化のための仕組みなし
従来の2手法の統合
従来手法
状況と単語を同時推定する音声認識
話題遷移を考慮した言語モデル
状況と単語を同時推定する音声認識
単語系列Wと状況系列Sを同時推定
※観測音声O
P(O | W , S ) P(W , S )
ˆ
ˆ
( S ,W ) arg max P(W , S | O) arg max
P(O)
( S ,W )
( S ,W )
i 1 i 1
i 1 i
ˆ
ˆ
( S ,W ) arg max P(O | W , S ) P( si | s1 w1 ) P( wi | w1 s1 )
( S ,W )
i
近似
ˆ
ˆ
( S ,W ) arg max P(O | W , S ) P( si | si 1wi 1wi N ) P( wi | wi 1si )
( S ,W )
i
状況依存
音響モデル
状況遷移
モデル
状況依存
言語モデル
状況と単語を同時推定する音声認識
単語系列Wと状況系列Sを同時推定
ˆ
ˆ
( S ,W ) arg max P(O | W , S ) P( si | si 1wi 1wi N ) P( wi | wi 1si )
( S ,W )
i
状況依存言語モデル
wi 1
wi
wi 1
si 1
si
si 1
状況遷移の制約
(ルール等)
状況と単語を同時推定する音声認識
ファールボール
をフォアボール
と誤認識
三振!
– 「三振」と認識
遷移確率0
– 「阪神」と認識
言語尤度低下
wi 1
wi
wi 1
si 1
si
si 1
次のバッター
状況と単語を同時推定する音声認識
利点
– タスク知識を利用して誤認識を回復
– 状況を推定する機構(構造化可能)
欠点
– 改善はキーワードに限定
(フォアボール・ファールボール・三振など)
– 人手によるラベルの付与が必要
従来手法
状況と単語を同時推定する音声認識
話題遷移を考慮した言語モデル
話題遷移を考慮した言語モデル
目的
– 話題毎の特徴を表現した言語モデル
– 話題間の遷移確率
野球中継
発話内容がある程度固定
発話順序に偏り
話題のクラスタリング
クラスター間の遷移確率
Ergodic HMM
言語
モデル
話題遷移を考慮した言語モデル
従来手法
– Stochastic Switching N-gram [長野ら,02]
言語
モデル
– EMアルゴリズムを用いて学習
– 複数言語モデル
– 言語モデル間の遷移確率
– 出現単語ベースで学習
潜在的な話題を考慮した
モデルを提案
Ergodic HMM
話題遷移を考慮した言語モデル
PLSA [hoffman,1999]
– 文書を構成する潜在トピックを学習
– 潜在トピック毎の単語unigram確率を学習
例:W杯、経済効果、Webサイトについての記事
P( w | d ) P( w | z ) P( z | d )
情報
zZ
d: 文書
w: 単語
z: 潜在トピック
サッカー
経済
P(w | z )
:潜在トピックにおけるunigram確率
P( z | d )
:文書に含まれる潜在トピックの割合
話題遷移を考慮した言語モデル
話題モデルの学習
学習コーパス
P( z1 | d1 ) P( z2 | d1 )
P( zT | d1 )
P( z1 | d 2 ) P( z2 | d2 )
P( zT | d 2 )
P( z1 | di ) P( z2 | d i )
文書
(発話)
P( zT | di )
文書iにおける
特徴ベクトル
P ( z1 | d i )
xi
P( z | d )
T
i
話題遷移を考慮した言語モデル
Topic HMM
P ( z1 | d i )
xi
P( z | d )
T
i
特徴ベクトル:
pLSAにより分析した
各文書の潜在トピック
HMM:
P( x1 xN ) P( x1 xN s1 s N )
S
N
P( s1 ) P( x1 | s1 ) P( si | si 1 ) P( xi | si )
S
1イニングの表裏を
1サンプルとして学習
i 2
話題遷移確率
潜在トピック
出力確率
話題遷移を考慮した言語モデル
潜在トピック出力確率
zT 話題1
P( z | d i )
z2
話題2
P( xi | s2 )
話題K
z1
各話題における出力確率は
平均の出力確率で代表
1 , xi ( si ) (平均)
P( xi | si )
0 , otherwise
( si )は
T
P ( z1 | si )
xi
P( z | s )
T
i
P( z
t 1
t
| si ) 1
となるよう正規化
話題遷移を考慮した言語モデル
言語モデル適応
P (W ) P ( w1 wt , s1 st )
S
t
P ( s1 ) P ( w1 | s1 ) P ( si | s1i 1w1i 1 ) P( wi | w1i 1s1i )
i2
S
t
max P ( si | si 1 ) P ( wi | wi 1wi 2 si )
S
i 1
unigram rescaling [gildea,99]
P( wi | si )
P( wi | wi 1wi 2 , si )
P( wi | wi 1wi 2 )
P( wi )
pLSA
P( w | d ) P( w | z ) P( z | d )
zZ
P( w | si ) P( w | z ) P( z | si )
zZ
pLSA
Topic HMM
話題遷移を考慮した言語モデル
unigram rescaling
P( wi | si )
P( wi | wi 1 , si )
P( wi | wi 1 )
P( wi )
wi 1
wi
P ( wi | si )
T
P( w | z ) P( z
t 1
si 1
i
t
t
| si )
si
話題遷移確率
潜在トピック
P ( z1 | si )
xi
P( z | s )
T
i
話題遷移を考慮した言語モデル
利点
– 多くの単語について認識誤りが改善
– ラベルの付与が必要ない
欠点
– 知識を用いないため構造化不可能
提案手法
従来の2手法を統合
– 定式化
P(W , S ) P( w1 wt , s1 st , k1 kt )
K
P( s1 ) P(k1 | s1 ) P( w1 | s1k1 )
K
t
P( si | s1i 1w1i 1k1i 1 ) P(ki | w1i 1s1i k1i 1 ) P( wi | w1i 1s1i k1i )
i 2
t
max P( si | si 1wii1M 1 ) P(ki | ki 1si ) P( wi | wii12 si ki )
K
i 1
提案手法
従来の2手法の統合
wi 1
wi
ki 1
ki
si 1
si
– 状況毎に話題遷移
モデルを作成
– 近似
w:単語
k:話題
s:状況
提案手法
認識の手順
通常の音声認識
N-Best出力
話題毎にunigram rescaling
状況毎にリスコアリング
実験
4手法での比較
– 通常の音声認識
– 状況と単語を同時推定する音声認識
– 話題遷移を考慮した言語モデル
– 2手法を統合した音声認識
評価
– 単語正解精度
– キーワード検出のF値
– 構造化正解率(投球毎に判定)
実験条件
音響分析条件・HMM
音
響
分
析
条
件
H
M
M
サンプリング周波数
特徴パラメータ
フレーム長
フレーム周期
窓タイプ
タイプ
混合数
母音(V)
子音+母音(CV)
16KHz
MFCC(25次元)
20ms
10ms
ハミング窓
244音節
32混合
5状態3ループ
7状態5ループ
実験条件
音響モデル: CSJベースに話者適応
言語モデル: 書き起こしから学習
– 未知語なし
音声データ
– ラジオ実況中継音声
– 発話時間:1時間半
– 異なり単語数:約3000
潜在トピック数:70
トピックHMM状態数:30
実験結果
単語Acc.
Key F値
構造化
通常音声認識
65.0%
74.4%
-
状況音声認識
65.1%
74.9%
70.3%
話題遷移
65.7%
75.2%
-
統合手法
65.7%
75.5%
72.8%
考察
改善例
– 話題依存言語モデルの効果?
従来:浅井 に 六 の その が 出 まし た
提案:浅井 に 六 号 ソロ が 出 まし た
– 話題遷移確率の効果?
前発話:バッター 多村 に 一 球 目 を 投げ まし た
従来:多村 厘
提案:空振り
まとめ
野球中継の構造化
– 構造化正解率:72.8%
従来の2手法を統合
– 状況と単語を同時推定する音声認識
– 話題遷移を考慮した言語モデル
– 統合により構造化正解率が改善