Transcript 1 - 神戸大学
ブースティングを用いた
野球実況中継に対するメタデータの作成
神戸大学大学院 自然科学研究科
佐古淳,滝口哲也,有木康雄
背景・目的
背景
– マルチメディアコンテンツの増大
– 検索や要約のための情報が必要
– スポーツが扱いやすくニーズも存在
野球実況中継のメタデータ生成
– 音声認識を利用
– ラジオ中継音声を利用
TV中継よりも情報が多い
目的
詳細なメタデータを生成
– 例)実況 or 解説者との会話
実況の中身(イベントの種類)など
– ラベルを付与し教師あり学習
認識結果からメタタグの種別を推定
– テキスト分類問題
– 認識誤りを含むテキスト
テキスト分類問題
分類手法
– Naïve Bayes
– Support Vector Machines など
– AdaBoostを用いたシステム要求識別
タスク:雑談を行いながら時々システムへ要求
適合率・再現率:ともに0.9以上
ブースティングを用いてメタデータ作成
ブースティング
ブースティングの概要
– 複数の識別器を組み合わせる手法
– 重み付き投票により識別
弱識別器
A > 0.5
Bがある
Bがない
…
true
0.5
false
C<5
…
クラス +1
クラス -1
用いる弱識別器と重みを学習
ブースティング
ブースティングによるテキスト分類
– Decision Stumps [Schapire 98]
単純・高速な手法
単語Aがある
true
単語Aがない
false
クラス +1
クラス -1
注目する単語と投票重みを学習
ブースティング
識別器の学習
+ AB
- CD
重み付き
分類誤り
最小化
+ ACE
+ AB
- CD
+ ACE
+ BC
Aがある
+
+ BC
- CE
を選択
- CE
コーパス
繰り返し
ブースティング
基本的には2値分類手法
マルチクラスに拡張 (one-vs-rest)
識別器A
識別器B
識別器C
クラスA以外
クラスB以外
クラスC以外
クラスA
クラスB
クラスC
得票が最大のクラスを選択
比較手法
Support Vector Machines (SVM)
– 文章ベースによる判別
(入力とSVの特徴ベクトル全体の内積ベース)
x2
マージン最大化
+
x1
コーパス
仕様
– ラジオ実況中継音声
– 約2200発話(句点で分割)
– 発話時間:1時間半
– 異なり単語数:約3000
– メタタグ情報の種類:21種類
主なタグ:実況一般,会話,投球,イベント
コーパス具体例
実況一般
– ヤクルト二十三回戦、この甲子園球場…
– 先頭バッターを打ち取りました
会話
– 速いですか
– 文句なしの立ち上がりですね
投球
– 第一球を投げた
イベント
– 打ちました
– 一、二塁間破った
実験
クリーン(書き起こし)テキストの識別
音声認識結果に対する識別
クリーンテキストの判別
AdaBoost
– 弱識別器:unigram、bi-gramを素性
AdaBoostにより選択された素性例
タグ種別
実況一般
素性例 (unigram)
の
ます
!ね
まし
会話
ええ
!た
はい
!球
投球
第
目
投げ
!ね
打ち
た
!まし
ごろ
イベント
約450/3000語が識別に関与 キーワード
クリーンテキストの判別
SVM
– カーネル:2次の多項式カーネル
– 特徴量:単語の頻度ベクトル
例)「第一球、投げました」
… 第一球 … 投げ … ました …
0
1
0
1
0
1
0
クリーンテキストの識別
10Foldの交差検定により評価
1
0.9
0.8
0.7
F
値
0.6
Ada(uni)
0.5
Ada(bi)
0.4
SVM
0.3
0.2
0.1
0
全体正解率
会話
実況一般
イベント
投球
実験
クリーン(書き起こし)テキストの判別
音声認識結果に対する判別
音声認識結果の識別
音響分析条件・HMM
サンプリング周波数
特徴パラメータ
フレーム長
フレーム周期
窓タイプ
タイプ
H 混合数
M
母音(V)
M
子音+母音(CV)
音
響
分
析
条
件
16KHz
MFCC(25次元)
20ms
10ms
ハミング窓
244音節
32混合
5状態3ループ
7状態5ループ
音声認識結果の識別
実験条件
– 音響モデル: CSJベースに話者適応
– 言語モデル: 書き起こしから学習
未知語なし
言語モデル
音
響
モ
デ
ル
Open
Closed
Open
0.65/0.80 73.4/0.85
Closed
70.4/0.84
78.3/0.88
単語正解精度 / キーワードF値
音声認識結果の識別
10Foldの交差検定により評価
1
0.9
0.8
0.7
F
値
0.6
Ada(uni)
0.5
Ada(bi)
0.4
SVM
0.3
0.2
0.1
0
全体正解率
会話
実況一般
イベント
投球
考察
メタタグ識別率
– 音声認識結果でも高い性能
– ただし、実況イベントでは大きく性能低下
音声認識性能が著しく低下するため
– ブースティング・SVMは同程度の性能
学習はブースティングが高速
音声認識結果の識別
頑健性に対する評価実験
– 認識性能の低下に対する頑健性
音響・言語モデルのOpen/Closedを利用
– 未知語に対する頑健性
音声認識辞書からランダムに単語を削除
ただし、識別に関連しない単語に限定
識別には「未知語なし」のモデルを使用
音声認識結果の識別
単語正解精度とメタタグ正解率
0.9
0.8
0.7
0.6
0.5
認識結果で学習
0.4
クリーンテキストで学習
0.3
0.2
0.1
0
78.3%
0.88
73.4%
0.85
70.4%
0.84
65.0%
0.80
単語正解精度
キーワードF値
音声認識結果の識別
未知語率とメタタグ正解率・未知語適合率
0.90
0.80
適合率 / 正解率
0.70
0.60
0.50
未知語適合率
メタタグ正解率
0.40
0.30
0.20
0.10
0.00
10%
20%
30%
未知語率
40%
50%
考察
頑健性
– 単語正解精度の低下に頑健
キーワードのF値は高い
– 未知語に対しても頑健
識別に関与しない単語がガベージの役割
キーワードに誤認識されても重みが低い
まとめ
ブースティングを用いてメタデータを作成
音声認識結果を利用
– 単語認識精度:65.0%において
– メタタグ識別率0.84、個別タグのF値0.8~0.9
– 認識性能低下・未知語に対して頑健
今後の課題
– 実況イベント識別性能の改善
– 音声認識精度改善への適用
ネットワーク文法との比較
受理できないケース
– ふふふ、こっちに来て
– こっちに来てちょうだい
– こっちに来てよ
– こっちに来て……あれ?
– こっちに、えーと、来て
素性ベースでは判別可能
ブースティングとSVMの比較
識別関数
– AdaBoost
ください がある
1 とか
がない
T
f ( x)
t
ht ( x )
t 1
素性の有無で投票
ht ( x )
がある
1 とか
ください がない
– SVM
N
f ( x)
i yi xi x
T
i 1
i :重み
y i :ラベル
x i :SVの特徴ベクトル
文章全体との類似度(内積)で投票
ブースティングとSVMの比較
SVM
– 未知:「写真を撮ってとか」を識別したい
…
こっち
0
0
に 来て …
0
0
0
写真 を 撮って … とか …
1
1
1
0
1
0
– 学習:「こっちに来てとか」 雑談
…
こっち
0
1
に 来て …
1
1
0
写真 を 撮って … とか …
0
0
0
0
1
0
類似度
1
– 学習:「写真を撮って」 システム要求
…
こっち
0
0
に 来て …
0
0
0
写真 を 撮って … とか …
1
1
1
0
システム要求と誤識別
0
0
類似度
3
ブースティングとSVMの比較
素性ベースの場合
– 学習:「こっちに来てとか」
素性
来て
投票先
システム要求
重み
中
とか
雑談
大
– 未知:「写真を撮ってとか」
素性
写真
とか
投票先
システム要求
雑談
重み
中
大
ブースティングによる素性の学習
弱識別器
– Decision Stumps [Schapire’98]
– 素性(単語・bi-gramなど)の有無で識別
例)「ください」がある システム要求
「とか」がない システム要求
「とか」がある 雑談
AdaBoostによる学習方法
– 最も精度のよい弱識別器を選択
– 識別誤りデータの重みを増やす
繰り返す
学習例
初期状態
ラベル
-1
-1
+1
-1
+1
-1
+1
発話内容
こっち 、 こっち で よかっ た っけ
こっち に 来 て 、 とか 言う と
こっち に 来 て ください
ふふふ 来 た
こっち おいでー
あと 写真 を 撮っ て が ある なあ
写真 を 撮っ て
重み
0.14
0.14
0.14
0.14
0.14
0.14
0.14
学習例
「ください」がある +1
ラベル
-1
-1
+1
-1
+1
-1
+1
h1 ( x )
1 0 . 46
発話内容
重み
こっち 、 こっち で よかっ た っけ 0.1
こっち に 来 て 、 とか 言う と
0.1
こっち に 来 て ください
0.1
ふふふ 来 た
0.1
こっち おいでー
0.25
あと 写真 を 撮っ て が ある なあ
0.1
写真 を 撮っ て
0.25
学習例
「た」がない +1
ラベル
-1
-1
+1
-1
+1
-1
+1
h2 ( x )
2 0 . 69
発話内容
こっち 、 こっち で よかっ た っけ
こっち に 来 て 、 とか 言う と
こっち に 来 て ください
ふふふ 来 た
こっち おいでー
あと 写真 を 撮っ て が ある なあ
写真 を 撮っ て
重み
0.06
0.25
0.06
0.06
0.16
0.25
0.16
学習例
「おいでー」がある +1
ラベル
-1
-1
+1
-1
+1
-1
+1
h3 ( x )
3 0 . 64
発話内容
こっち 、 こっち で よかっ た っけ
こっち に 来 て 、 とか 言う と
こっち に 来 て ください
ふふふ 来 た
こっち おいでー
あと 写真 を 撮っ て が ある なあ
写真 を 撮っ て
重み
0.04
0.16
0.14
0.04
0.1
0.16
0.36
学習例
「とか」がない +1
ラベル
-1
-1
+1
-1
+1
-1
+1
h4 ( x )
4 0 . 58
発話内容
こっち 、 こっち で よかっ た っけ
こっち に 来 て 、 とか 言う と
こっち に 来 て ください
ふふふ 来 た
こっち おいでー
あと 写真 を 撮っ て が ある なあ
写真 を 撮っ て
重み
0.08
0.11
0.09
0.08
0.07
0.33
0.23