受動強化学習

Transcript 受動強化学習

エージェントアプローチ
人工知能 21章
B4 片渕聡
1
目次

第２１章強化学習
2
２１章：強化学習
目次






強化学習
受動強化学習
能動強化学習
強化学習における一般化
政策の探索法
まとめ
3
強化学習とは

現在の状態からエージェントが取るべき方策を学習

何を学習するかはエージェントにより異なる
－効用に基づくエージェント：効用Uπ(s)
－Q学習エージェント：行動-価値関数(Q関数)
・状態sにおいて行動aを起こした際の期待効用
－反射エージェント：方策(政策)π
4
例題：４×３問題（再掲）
-0.04
(報酬)
-0.04
S
-0.04
-0.04
-0.04
-0.04
-0.04
-0.04
G
+1
G
-1
-0.04
意図した方向
0.8
0.1
0.1
環境：完全観測可能
環境全体及び自分の位置を知ることができる
5
２１章：強化学習
目次






強化学習
受動強化学習
能動強化学習
強化学習における一般化
政策の探索法
まとめ
6
受動強化学習

エージェントの政策πが固定の場合における学習

受動強化学習のアプローチ法
－直接的な効用推定法
－適応動的計画法(ADP)
－時間的差分学習(TD)
7
直接的な効用推定法

Bellman方程式(17章)に従った効用の更新
－Uπ(s)=R(s)+γΣT(s,a,s’)Uπ(s’)
s’
8
適応動的計画法
(Adaptive Dynamic Programming:ADP)

観測から遷移モデルTや報酬Rを学習
－その値をBellman方程式に適用

例:(1,3)において「右に進む」を３回実行
－うち２回の実行結果が(2,3)の場合
T((1,3),Right,(2,3))=2/3 と推定
9
時間的差分学習
(Temporal-Difference:TD)

Bellman(制約)方程式を使わない効用の更新・近似
例:(1,3)(2,3)の遷移(100%遷移すると仮定)
・Uπ(1,3)=0.84 Uπ(2,3)=0.92 とすると
Bellman方程式(γ=1の場合)より
U’π(1,3)=-0.04+Uπ(2,3)=0.88 となる
これはUπ(1,3)と違うので更新しないとならない
Uπ(s) Uπ(s)+α(R(s)+γUπ(s’)-Uπ(s))
α:学習率(パラメータの１つ)
10
２１章：強化学習
目次






強化学習
受動強化学習
能動強化学習
強化学習における一般化
政策の探索法
まとめ
11
能動強化学習

政策πをエージェントが決定しないといけない
－Uπ(s)=R(s)+γmaxΣT(s,a,s’)Uπ(s’)
a
s’
・最適な政策の決定
12
行為-価値関数の学習(Q学習)

行動-価値表現Q(a,s)を使用
－可能な行動の中で比較を行うことが可能
Uπ(s’)の値を知る必要が無い
・Q(a,s)=R(s)+γΣT(s,a,s’)maxQ(a’,s’)
a’

a’
Q関数の更新は時間的差分学習と同様
Q(a,s) Q(a,s)+α(R(s)+γmaxQ(a’,s’)-Q(a,s))
a’
13
２１章：強化学習
目次






強化学習
受動強化学習
能動強化学習
強化学習における一般化
政策の探索法
まとめ
14
強化学習における一般化

巨大な状態空間を扱うために近似の必要がある
＾
－Uθ(s)=θ0+θ1f1(s)+θ2f2(s)+・・・
θ：パラメータ(重み)(人間が設定)
f(s)：ベース関数(人間が設定)
・パラメータθ(方策)の学習

例：4×3問題の場合：x座標とy座標
Uθ(x,y)=θ0+θ1x+θ2y
15
パラメータθの更新

θiの更新に誤差関数Ej(s)を利用
＾
－Ej(s)=(Uθ(s)-uj(s))2/2
uj(s):状態sにおけるj回の試行までの合計報酬

パラメータθiの更新:
－θiθi-α
＾
әEj(s)
=θ -α(Uθ(s)-uj(s))
әθi i
誤差の変化率
＾
әUθ(s)
әθi
16
２１章：強化学習
目次






強化学習
受動強化学習
能動強化学習
強化学習における一般化
政策の探索法
まとめ
17
政策の探索

効率（効用）が改善される間政策を更新し続ける
＾
－π(s)=maxQθ(a,s)
a

ソフトマックス関数を用いた政策の探索
＾
＾
－πθ(s,a)=exp(Qθ(a,s))/∑exp(Qθ(a’,s)
a’
18
２１章：強化学習
目次






強化学習
受動強化学習
能動強化学習
強化学習における一般化
政策の探索法
まとめ
19
まとめ

強化学習：効用やQ関数、政策の学習
－ADP法
－TD法

パラメータθを用いた近似関数の表現

政策の探索
20

受動強化学習

Transcript 受動強化学習

Directory