ベイジアンネット混合モデルによる強化学習エージェントの方策改善

Download Report

Transcript ベイジアンネット混合モデルによる強化学習エージェントの方策改善

1
ベイジアンネット混合モデルによる
強化学習エージェントの方策改善
発表者 北越 大輔
室蘭工業大学
2003年12月19日
2
背景
強化学習(RL) ・・・ 外界からの報酬を手がかりに環境に適応する
ため、方策(policy)を最適化することを目的
エージェントの方策学習の過程
状態と行動のペア(ルール)の
系列と報酬からなるデータ生成
データから構造決定したベイジアンネット(BN)を、エージェント
の確率的知識として利用した方策改善システムを提案
(北越ら 2003)
・BNから得られる情報 ・・・ 方策に対する教師信号的な役割
・システムによる方策改善 ・・・ 情報を用いたある種の教師有り学習
5th WINGS
3
背景
過去に提案した方策改善システム
・ BN ・・・ 環境を特徴付ける確率的知識表現
・ ルール重みの更新にBNを利用することで、より良い方策を獲得可能
・ 環境を静的なものと仮定
BN
(
)
New BN
(
)
環境 A (EA )
新規環境 B (EB )
動的な環境への適応が課題
5th WINGS
4
背景
本研究では
・ 動的、未知環境へエージェントを適応させるべく、過去の
システムを改良
・ BN混合モデルを用いたRLエージェント の方策改善システム
(IPMBN)を提案
BN 1
環境 A (EA )
BN 2
…
BN混合モデル
新規環境 B (EB )
BN n
BN混合モデルが新規環境に対応
過去のBNを用いて未知環境に対応可能
5th WINGS
5
背景
IPMBNにおいて
エージェント : 利益共有法によって自身の方策を学習
BN混合モデル : エージェントの確率的知識として導入
IPMBNの環境変化への適応可能性を計算機実験によって検証
以降の発表のながれ
2. 準備 (利益共有法、ベイジアンネット)
3. IPMBNの構成
4. 適用例(エージェントナビゲーション問
題)
5. 実験結果・考察
5th WINGS
6
2.1 利益共有法(1)
利益共有法 ・・・ 経験強化型学習法の一つ
方策 : 関数 w によって与えられる
w: S  A  R
S: 取りうる状態の集合
A: 出力する行動の集合
状態、行動の対 (s, a) ( s  S , a  A ) : ルール
w(s, a) : ルール (s, a) の重み
5th WINGS
7
2.1 利益共有法(2)
利益共有法では
エージェントの選択した初期ルール(もしくは報酬獲得時のルール)
から次に報酬が得られるまでのルール系列をエピソード
 = {(s1, a1), …, (sC, aC)}
として保存(C:  中のルール数)
エージェントが状態 sC において行動 aC を選択した結果、報酬 r
を得た時、エピソード中のルール系列の重みを更新
f(i) : 強化関数
γ : 減衰率 (0 <γ ≤ 1)
5th WINGS
8
2.2 ベイジアンネット (1)
IPMBNにおいて
ベイジアンネット(BN) : 方策改善用の確率的知識表現として利用
BNの構造
エージェントの方策学習を通じて得られるルール系列と報酬をサン
プルデータ D として、MDL(minimum description length)基準によっ
て決定

d log N
MDL ( , d )   log p ( D) 
2
N

N
 : サンプルデータ数
 : パラメータ
d : パラメータ数
MDL基準を最小化するネットワーク構造を、焼きなまし法によって探索
5th WINGS
3.1 過去に提案した方策改善システム
9
確率的知識表現(BN)部を除き、
IPMBNと同様の構成
単一のBNを用いる代わりに、
BN混合モデルを利用
図: 過去の方策改善システムの枠組み
5th WINGS
10
3.2 IPMBNの構成 (1)
観測状態ノード ・・・ エージェントのセンサ入力の
全体集合 S の各要素に対応
Xs1 ,…., Xsm ( m = |S| )
確率変数値 :
ルール集合 Rs1  {( s1, a) | a  A}
における行動 a に割り当てた整数値
(以降 と表す)
報酬ノード
正の報酬の有無に対応
・・・
Xr
(確率変数値は{1,0})
5th WINGS
11
3.2 IPMBNの構成 (2)
環境変化が生じた際 : BN混合モデル生成のため、各環境において
構造決定されたBNを蓄積
: 各BNに対応する確率分布
M : BNの数
5th WINGS
12
3.2 IPMBNの構成 (3)
1. エージェントの方策
学習と同時にサンプル
データ D を収集
2. BNの構造決定
3. p( X r  1 | X s j  x) を最大化
する行動 x 'r , sr jを選択
サンプルデータ : ルール系列 {(s1 , a1), …, (sL , aL)}
と報酬 r を蓄積
L : 系列中のルール数
Xr および特定数の状態ノードを有するBNの
構造を、サンプルデータをもとに決定
i
r
4. ルール重み w( sr j , x'r , sr j )
を更新
: BNi においてXr とのリンクが存在する状態ノード
が
BNi
において
Xr
とリンクしている場合
それ以外の場合
rimp : 定数
5th WINGS
13
4 適用例(1)
エージェントナビゲーション問題
目的:エージェントが初期位置
からゴールまで到達すること
環境 EC : EA と EB を重ね合わ
せたものと等しいと見なせる
Environment A (EA)
Environment B (EB)
ゴールへの到達
=
ゴール領域 (G) への
エージェントの接触.
Environment C (EC)
図: 実験環境
5th WINGS
14
4 適用例(2)
エージェントの設定
1. 半径Vr 内の壁・ゴールを感知可能
2. 8方向への移動、および停止のいずれかの行動を出力
3. 初期エネルギ E0 を有し、移動時、壁接触時には E- 、停止時
には Estay を消費
1試行:エージェントがゴールへ到達 or 全エネルギーを消費
成功試行
報酬
失敗試行
エージェントがゴールを感知もしくは
ゴールへ到達 した場合・・・ rp (> 0)
5th WINGS
15
4 適用例(3)
Table 1: The settings of each variable
: ルール重みの初期値
: 最小値
: 最大値
1.環境 EA(EB)において、エージェントが利益共有法によって1000試行の方策
学習を行った後、環境についての
の構造を決定
2.環境を EC へと切り替え、
のみ、
のみ、および
による
混合モデルを用いた3種類によって方策改善し、再び1000試行の方策学習を行う
5th WINGS
16
4 適用例(4)
4種類の方策改善法
1000試行
Mix-a : IPMBNにより方策改善
(Mix-b)
利益共有法
1000試行
利益共有法
の混合率
EA を EC へと切り替え
(EB)
1000試行
Uni-a :
(Uni-b)
により方策改善
利益共有法
1000試行
利益共有法
• BNの有するノード数 = 6
( 報酬ノードXr、およびXr=1の時サンプルデータ中に含まれる頻度の高い
5 状態ノード)
• 実験回数:各混合率における4種類の方策改善法について10回づつ実施
5th WINGS
5 実験結果・考察 (1)
17
Xr : 報酬ノード
Xs1~Xs81 : 状態ノード ( s1 : 何も感知しない, s2 : 壁の位置情報, …)
図: 構造決定されたBNの例
5th WINGS
5 実験結果・考察 (2)
18
環境 EA → EC 、および
方策改善後における、
100試行あたりの成功試行
の割合(成功率) の推移
図: Mix-a および Uni-a における
成功率の推移
各βにおける Mix-a の成功率 > Uni-a における成功率
5th WINGS
19
5 実験結果・考察 (4)
EB → EC 、方策改善後に
おける成功率の推移
図: Mix-b および Uni-b における
成功率の推移
1000試行の前半:全ての場合
における成功率は同程度
後半:Mix-b (
= 0.2 , 0.5 ) の
成功率 > Uni-b の成功率
5th WINGS
20
5 実験結果・考察 (5)
※ : 成功率の値は3種類の
における平均値
表: 方策改善後100試行での成功率※
方策改善法
成功率
Mix-a Mix-b Uni-a Uni-b
66.6 ≫ 19.9 64.9 ≫ 16.4
Mix(Uni)-a の成功率 ≫
Mix(Uni)-b の成功率
方策、確率的知識 (BN)の面
で、 EA は EB より EC と類似
環境切り替え前に、 EA ほど EC と類似していない EB
についての方策学習を行った Mix-b では、
EB
低
大
EC
成功率
混合率
高
小
対照的に、 EA についての方策学習を行った Mix-a では、
全ての混合率における Mix-a の成功率 > Uni-a の成功率
5th WINGS
21
5 実験結果・考察 (6)
適当な混合率の値が推定可能ならば
エージェントは環境変化に適応しながら方策を学習可能
適用例で用いた単純な環境設定を用いても
変化後の環境に対する適切
な混合率の設定は困難
混合率の推定法
の検討が必要
BNの構造決定に要する時間 = 1.5時間
過去の方策改善システム
環境変化ごとに新たなBNの
構造決定の必要性
IPMBN
多くの場合、環境変化後も
過去のBNを利用可能なため、
構造決定に要する時間は減少
5th WINGS
22
6.1 まとめ
本稿では
• BN混合モデルを用いたエージェントの方策改善システム
(IPMBN) を提案
• エージェントナビゲーション問題を適用例として、その環境変化
への適応可能性を検証する計算機実験を実施
実験の結果
• BN混合モデルの導入により、環境の変化(切り替わり)に適応して
効率的にエージェントの方策を改善可能
• BN混合モデルは、BN単体を用いるより適切に環境の特徴を表現
可能
• BN構築のための計算時間の減少を実現
5th WINGS
23
6.2 今後の展望
今後の展望
• 蓄積されたBNを用いた環境変化の認識手法の実装、および
その有効性の検証
• 適切な混合率の設定方法の提案
5th WINGS