slides - 京都大学 河原研究室
Download
Report
Transcript slides - 京都大学 河原研究室
ドメイン外発話の検出における
対話コンテキストと
トピッククラスタリングの効果
Effect of Dialogue Context and Topic Clustering on
Out-of-Domain Detection
Ian R. Lane
†,‡
、河原 達也†,‡ 、中村 哲‡
†
京都大学情報学研究科
‡
ATR音声言語コミュニケーション研究所
1
研究の背景
現在の音声言語システムは限られたドメインしか扱えない
ユーザが明確にドメインの知識を持っていない場合
システムが扱えない発話を試みる
このドメイン外発話を検出して、ユーザに適切に
フィードバックする必要
システムのフィードバックにより、ユーザは
現在のタスクをやり直すか、
ドメイン外のタスクならば、取り止めることが可能
2
ドメイン外検出の例
例: 音声翻訳システム
(旅行対話ドメイン)
A)ドメイン内発話が正しく翻訳できない場合
ユーザ:
「すみませんが、お手洗いはどこにあるか
教えてくれませんか」
システム: もう一回言い直してください
ユーザ: 「お手洗いはどこですか」
B) OODの発話が得られた場合
ユーザ:
「分類手法について、もっと詳しく説明して
ください」
システム: 注意: 旅行と関係ない発話は翻訳できません…3
研究の経緯
以前、OOD発話の検出の枠組みを提案 [2004]
– システムのドメインは複数のトピックから構成される
– OOD検出を以下の二つのステップで行う
1. トピック分類の信頼度を求める
2. ドメイン内検証モデルを用いて検証を行う
検証モデルはドメイン内データの削除補間に
基づいて学習
ドメイン外の実データを必要としない、
汎用性の高いアルゴリズム
4
システム概要 [2004]
入力発話 (X)
単語ベクトル空間への写像
単語ベクトル (W)
複数トピックへの分類 (1~m)
(Support Vector Machines)
トピック分類の信頼度
(C(t1|W), ... ,C(tm|W))
ドメイン内検証 Vin-domain(X)
(線形判別モデル)
閾値( )と比較
検出の判定
(ドメイン内/OOD)
ドメイン内検証のスコア
Vin-domain(X)
5
本研究の位置づけ
従来:OOD発話検出は単一発話のタスクに限られている
– コール・ルーティング [Gorin ’02, Haffner ’03]
– 音声入力を用いた Phrasebook [Lane ‘04]
本研究:自然な音声対話に適用
ATRの音声翻訳システムを介した自然な対話
6
自然な音声対話に対処するための
OOD検出の枠組みの拡張
単一発話タスクと比べると、発話とトピックの関係が
明確ではない
–
–
–
1.
2.
複数の発話でタスクが行われる
発話は言語的な文と異なる
一つの発話の中で複数のトピックが存在する可能
性がある
対話コンテクストを導入
トピッククラスタリング
により、トピック分類の頑健性を向上
7
対話のコンテクストの導入
連続する
n 発話 (X1,…,Xn) に対して以下の3段階で結合
入力発話 (X1,…,Xn)
単語ベクトル空間への変換
複数トピックへの分類 (1~m)
(Support Vector Machines)
ドメイン内検証 V(X)
(線形判別モデル)
閾値()と比較
検出の判定
単語ベクトル (WRD)
j n
W[1,...n] W j
j 1
トピック分類の信頼度 (TOP)
1 j n
Cavg ti | W1,...,Wn Cti | Wj
n j 1
ドメイン内検証のスコア (VER)
1 j n
Vavg X1,...,X n V X j
n j 1
8
トピッククラスタリング
“Agglomerative hierarchical clustering”により、複数のトピック
を含むメタ・トピックを自動的に作成
クラスタリングで扱うトピック間の距離 dist(ti,tj)
distti , t j averagedist W , t j averagedist W , t j
W Si
W S j
averagedist W , ti averagedist W , ti
W S j
Si
W Si
: トピック i の学習セット
dist W , ti : 入力文(W)からトピック i のSVM超平面までの垂直距離
正しい単独トピックが判別できない場合でも、
メタ・トピックの信頼度が高い ドメイン内発話
9
トピッククラスタリングの例
トピック間の距離が
大きくなる
6
5
4
自動的に求めた
メタ・トピック
3
1
2
クラスタリング
停止の閾値
(ドメイン外に設定されたトピック: sightseeing)
contact
shopping
exchange
a snack
restaurant
drink
airplane
basic
communication
trouble
airport
transport
accommodation
10
トピッククラスタリングの例
(ドメイン外に設定されたトピック: sightseeing)
6
「 すみません、市内のホテルまで行
5
1
2
3
contact
11
trouble
airport
transport
accommodation
2%
shopping
exchange
a snack
restaurant
drink
airplane
basic
communication
33%
92%
4
きたいですが、どうやって行ったら
よいですか。 」
評価実験のシステム
音声翻訳システムを介した自然対話
ATR音声翻訳システム
機械翻訳のバックエンド (JE / EJ)
音声認識のフロントエンド
OOD検出モジュールを導入する
ユーザへのフィードバック
ASR
モジュール
OOD
ドメイン内
OOD検出
モジュール
機械翻訳の
バックエンド
JE / EJ
ユーザ
12
評価実験
学習コーパス: ATR-BTEC
– ドメイン:
– 学習データ:
– 辞書サイズ:
旅行会話
14 個のトピック、 400k文 (accom, shopping …)
20k (日本語) / 10k (英語)
評価セット: 305 対話
評価シナリオ: 5
– 一つのトピックをOODに設定する
– 残りのドメイン内データで、LMとOOD検出モジュールを学習
評価測度: EER (Equal-Error-Rate)
– FAR, FRRが同じになるようにドメイン内検証の閾値を設定
– FAR: OODの対話がドメイン内と判別された率
– FRR: ドメイン内の対話がOODと判別された率
13
トピッククラスタリングの評価
対話の最初の発話を用いてOOD検出
開始話者
OODに設定
されたトピック
対話の数
(書き起こし利用)
OOD検出 EER (%)
OOD
ID
単独トピック
クラスタリング
44
111
27.6
20.6
airport
9
144
11.1
11.1
restaurant
8
144
12.5
12.5
shopping
22
132
23.1
13.6
sightseeing
20
134
28.4
24.8
103
670
22.1
17.3
日本語話者 accommodation
Total
トピッククラスタリングを用いることで検出性能が大きく向上
英語話者でも EER 減少 (18.4% 14.9%)
14
発話の結合の評価
対話の最初のn 発話を用いてOOD検出
5つの評価シナリオの平均
開始話者
日本人話者
OOD検出 EER (%)
結合の手法
n=1
n=2
n=3
22.1
21.8
21.6
TOP
20.8
20.2
VER
24.4
24.7
WRD
WRD:
TOP:
VER:
(書き起こし利用)
単語ベクトル
トピック分類の信頼度
ドメイン内検証のスコア
[結合]
[平均]
[平均]
WRD: n 発話中のトピックの変化を一つの単語ベクトルで表せない
VER: ダイナミックレンジが大きいため, 平均では不適切
TOP: 検出性能を改善
15
英語話者でも EER 減少 (18.8% 16.5%)
対話コンテクストとクラスタリングの統合
トピッククラスタリングと発話結合 (TOP) の手法を用いる
ASRの単語誤り率: ドメイン内: 11.8% OOD: 15.5%
OOD検出 EER (%)
書き起こし
音声認識結果
20%
10%
0%
単独トピック
(n=1)
クラスタリング クラスタリング クラスタリング
(n=1)
(n=2)
(n=3)
2つの手法を組み合わせることで、検出性能が向上
音声認識の場合でも効果を確認
16
まとめ
自然な音声対話に対応したドメイン外検出手法
– 対話コンテクストを導入
複数の発話を3段階で結合
– 単語ベクトル、トピック分類の信頼度、ドメイン内検証のスコア
– トピッククラスタリング
• 正しい単独トピックが判別できない場合ても、
メタ・トピックの信頼度が高い ドメイン内
音声翻訳システムを介した自然な対話で評価
– 2つの手法を組み合わせると
OOD検出性能を向上することができた
17