発話意図を考慮した部分観測マルコフ決定過程を用い

Transcript 発話意図を考慮した部分観測マルコフ決定過程を用い

階層的強化学習を適用したPOMDPに
よるカーナビゲーションシステムの
音声対話制御
神戸大学大学院工学研究科
情報知能学専攻
CS17 有木研究室
091T517T 岸本康秀
研究背景・目的
カーナビの音声認識システムが普及していない
 特定のコマンドを話さなければならない
○コンビニ検索 ×検索コンビニ
 誤認識を避けられない
ユーザの自由な発話に対しても頑健
誤認識からの回復が可能
www.***.com
従来の音声対話システム
マルコフ決定過程（MDP）を用いた音声対話システム
MDPの利点
 確率モデルで表現することにより、方策を自動で学習
オートマトン的に手作業で設定を行う必要がない
 明確な基準で評価を行うことが出来る
報酬の設定により定量的な評価を行える
www.***.com
MDPの欠点
状態を完全観測出来ると仮定している
 音声対話においては、雑音環境下や発話誤りなどによって
観測誤りが起こりやすい
 ユーザの状態を確実に決定するのは難しい
誤認識からの回復が難しい
s1
a1
FMを聞きたい
s2
s3
www.***.com
部分観測マルコフ決定過程（POMDP）
MDPのモデルを拡張し、状態観測に不確実性を付加
したモデル
状態を確率分布（信念）で推測する。
 MDPでは一意的にユーザの状態を決定していた
www.***.com
ベイジアンネットワーク
b’(s’)
b(s)
Bayesian Network
s
?
s
old belief
s
s’
new belief
action
a
o’
data
b ' ( s ' )  k  P ( o ' | s ' , a )  P ( s ' | s , a )b ( s )
s S
www.***.com
ダイナミックベイジアンネットワーク
r
s
o
r'
S’
am
RL
o'
am
RL
www.***.com
学習
ある状態における信念×報酬で期待報酬が計算で
きる
tターン後に得られる利得
t
Vt 

 1
 1
 b ( s ) r ( s , a )
s
上式を最大にするような方策を求める
方策は、将来獲得出来る報酬を最大にするアクショ
ンaを信念分布ｂのみから選択できる
www.***.com
Value Iteration
動的計画法
全ての状態と行動の遷移を考慮
方策評価と方策改善を繰り返す
S0
a0
S1
・・・
・・・
・・・
・・・・・・・
at
・・・・
S t 1
・・・
・・・
・・・
www.***.com
状態 A,B
行動 a 1 （-1,-1）、 a 2 (+5,-10)、 a 3 (-10,+5)
value
10
a2
a1
a3
5
0
-5
-10
-15
s=A
b=(1,0)
b
s=B
b=(0,1)
www.***.com
value
10
a2
a1
a3
5
0
-5
-10
-15
-20
-25
s=A
b=(1,0)
s=B
b=(0,1)
www.***.com
問題点
大量のベクトルが列挙される
計算量が膨大になる
状態空間または行動空間が大きい場合には、計算
不可能
www.***.com
Point-based Value Iteration
状態空間のいくつかの代表点でのみ最適な方策を
探索
任意の状態に対して、定数個の方策の中から最も良
いものを選ぶ
www.***.com
10
5
0
-5
-10
-15
b1
b2
b3
www.***.com
階層的強化学習
状態空間が巨大で複雑な時、大域的な方策を一度
に求めるのは困難
状態数が多いと信念更新が煩雑になる
タスクを階層的に分解し、各部分問題に対して、局所
的な方策を学習。
それらを統合することによって、大きなタスクの実現
が可能。
www.***.com
階層的強化学習
サブタスクを選択する層
ユーザのゴールを求めるサブタスクを実行する層
ルートはサブタスクをゴールに設定し、PBVIで最適化
を行う
ルート
店舗検索
オーディオ
エアコン
www.***.com
対話例１
POMDP
従来システム
navi:{
goal:<empty>
}
初期状態
ホテル学校銀行病院コンビニ
navi:{
goal:<empty>
}
U:銀行に行きたい。
[銀行]~0.4
ホテル学校銀行病院コンビニ
S:すみません、
どこですか？
U:銀行です。
[銀行]~0.42
navi:{
goal:<empty>
}
ホテル学校銀行病院コンビニ
www.***.com
対話例２
POMDP
従来システム
navi:{
goal:<empty>
}
初期状態
ホテル学校銀行病院コンビニ
navi:{
goal:<empty>
}
U:病院に行きたい。
[銀行]~0.4
ホテル学校銀行病院コンビニ
S:すみません、
どこですか？
U:病院です。
[病院]~0.9
navi:{
goal:<病院>
}
ホテル学校銀行病院コンビニ
www.***.com
実験
POMDPの方策とユーザシミュレーションの対話を
1000回繰り返して平均利得、平均ターン数、正答率
を計算する。
手動で作ったHC１、HC2と比較
 HC1：従来のカーナビを想定
 HC2：ユーザの発話に毎回確認をとる
コンセプト誤り率を変えて実験
www.***.com
報酬の設定
Corret answer
Uncorrect answer
ask
-2
-2
confirm
-0.5
-3
submit
+7
-10
www.***.com
実験結果
15
Average return
10
5
POMDP
HC1
HC2
0
-5
-10
0
0.2
0.4
Perr
0.6
0.8
www.***.com
実験結果２
10
average turn
8
6
POMDP
HC1
HC2
4
2
0
0
0.2
0.4
Perr
0.6
0.8
www.***.com
実験結果３
correct answer rate（％）
100
90
80
70
POMDP
HC1
HC2
60
50
40
30
0
0.2
0.4
Perr
0.6
0.8
www.***.com
まとめ
カーナビにPOMDPを適用
 不確実性に対処
階層的強化学習を適用
 従来よりも大きなタスクの実現が可能
シミュレーション実験により頑健性を確認
www.***.com
Future Work
構音障害者のための環境制御装置
 発話が曖昧
 信頼度が低い
シーンごとにタスクを階層化して最適化を行う
ルート
テレビ操作
チャンネル操作
オーディオ操作
メニュー操作
照明操作
番組表操作
www.***.com
ご清聴ありがとうございました
www.***.com
強化学習、利点
目標までの行動を人間が知らなくて良い。
タスク遂行のためのプログラミング強化学習で自動
化することにより、設計者の負担の軽減が期待でき
る。
人間以上の行動を見つけ出す可能性がある。
Agent
観測値o
アクションa 報酬r
Environment
(POMDP)
www.***.com
強化学習
Bellman方程式

V k  1 ( b )  max E r ( b , a )   V k ( b ' )
*
*

a
Reward= r (b1 , a 1 ) + r (b 2 , a 2 ) + … + r (b T 1 a T 1 ) + r (b T , a T )
s1

s2
b1
sT-1
b2
o1
a1
Policy  (b1 )  a 1
o2



bT-1
a2
oT-1
 (b 2 )  a 2
sT
aT-1
 (b T 1 )  a T 1
oT
bT
aT
 (b T )  a T
強化学習




www.***.com
対話システムの構造
Control module
Input module
Au
user
Speech recognition &
Language understanding
~
Au
Sm
(Su , Sd )
~
Am
Dialog
model
Language generation
Am
Dialog
manager
Output module
www.***.com
問題点？？
なぜタスク変更するか
PBVIの収束条件
 平均利得が収束していく確認したい
ユーザシミュレーション
 １０００回の対話
 信頼度の付与コンセプト誤りが生じた時は、０．６以下の
ランダムの信頼度を付与
www.***.com

発話意図を考慮した部分観測マルコフ決定過程を用い

Transcript 発話意図を考慮した部分観測マルコフ決定過程を用い

Directory