強化学習のスライド

Download Report

Transcript 強化学習のスライド

強化学習
RT
強化学習とは…
きっかけAに対して行動Bをおこす
ごほうびをあたえる
上記を繰り返しすることで、きっかけAに対し
行動Bを起こしやすくなる
強化学習の枠組み
環境
行動a
状態S
強化信号(報酬)r
学習者
学習者は強化信号(報酬)が
よりたくさんもらえるように行動を最適化していく
Monkey and Banana Problem
• Initial Situation: at(monkey,a) at(bananas,b) at(box,C)
height(monkey,low) height(banana,high)
height(box,low) !grasp(monkey,bananas) path(a,b)
path(b,a) path(a,c) path(c,a) path(b,c) path(c,b)
• Final Situation: has(monkey,bananas).
• Four Actions
– GO monkey from location x to location y
IF at(monkey,x) path(x,y)
ADD go(monkey,y) at(monkey,y)
DELETE at(monkey,x)
– GRASP monkey bananas
IF at(monkey,x) at(bananas,x) height(monkey,y) height(bananas,y)
ADD grasp(monkey,bananas) has(monkey,bananas)
– CLIMB monkey on top of box
IF at(monkey,x) at(box,x) height(monkey,low) height(box,low)
ADD climb(monkey,box) height(monkey,high)
DELETE height(monkey,low)
– PUSH monkey box from location x to location y
IF at(monkey,x) at(box,x) height(monkey,low) height(box,low)
path(x,y)
ADD push(monkey,box,y) at(monkey,y) at(box,y)
DELETE at(monkey,x) at(box,x)
Monkey and Banana Problem
• Initial Situation:
at(monkey,a) at(bananas,b) at(box,c)
height(monkey,low) height(banana,high)
height(box,low)
!grasp(monkey,bananas)
path(a,b) path(b,a) path(a,c)
path(c,a) path(b,c) path(c,b)
• Final Situation:
has(monkey,bananas)
Four Actions
– GO monkey from location x to location y
IF at(monkey,x) path(x,y)
ADD go(monkey,y) at(monkey,y)
DELETE at(monkey,x)
– GRASP monkey bananas
IF at(monkey,x) at(bananas,x)
height(monkey,y) height(bananas,y)
ADD grasp(monkey,bananas) has(monkey,bananas)
– CLIMB monkey on top of box
IF at(monkey,x) at(box,x)
height(monkey,low) height(box,low)
ADD climb(monkey,box) height(monkey,high)
DELETE height(monkey,low)
– PUSH monkey box from location x to location y
IF at(monkey,x) at(box,x)
height(monkey,low) height(box,low) path(x,y)
ADD push(monkey,box,y) at(monkey,y) at(box,y)
DELETE at(monkey,x) at(box,x)
強化学習の枠組み(その2)
エージェント
状態の同定
観測入力
状態
ルール集合
強化
学習器
ルール
環
ルール候補の選択
ルール候補
行為選択
報酬
行為の実行
境
補足
1. 環境認識の際、十分な情報を認識できる
1.が十分でないと、同じ状態のものを
違う状態と誤認し、学習してしまう、
エイリアシンと呼ばれる問題生じる
マルコフ決定過程
状態遷移図であらわす
報酬、状態、行為を示す
状態遷移確率は現在の状態のみに依存する
状態遷移確率は時間的に変動しない
0.8
1
b
0.2
S1
a
0.6
遷移確率
S2
S3
0.4
行為
c
報酬
行動決定
各状態から行為を選ぶことを政策(Policy )という
環境
状態S
行動a
b
d
行為
c
a
e
状態sは政策πに従って将来得られるだろう報酬
を割り引いた割引期待報酬によって評価される
V(s,π) = r(s, π(s)) + γ∑P(s,π(s),s´)V(s´,π)
Vを最大にする政策πを最適政策という
ただ、マルコフ決定過程があらかじめ、
完全に記述できるとは限らない。
多くの場合、状態空間や取りえる行動は
既知だが、遷移確率は未知
Q学習
Q学習
• 遷移確率がわからなくても、
学習可能
• 評価値としてQ値を用いる
• 実際の試行探索過程を通して
学習
• 状態と行為をペアとして考える
Q学習法のながれ
Q値の初期化
現在の状況をsとする
政策に従い行動決定
Q値の最大ルールの選択
状態がs´になる
選択したルールのQ値の変更
Q値の更新式
Q(s,a)
(1-α) Q(s,a) + α (r(s,a) +γmaxQ(s´,a´) )
a´
αは学習率(0≦α≦1)
r(s,a)は報酬
γは割引率(0≦γ≦1)
やってみようQ学習
行動はup,down,left,right
S
1
2
3
4
5
6
7
8
9
G
10
Q(1,down)
(1,right)
0++0.5(1
0.5(0 +
+ 0.1
0.1×
×00--0)
0)
Q
(9,right)
(2,down)
0
QQ
Q
(7,right)
(9,right)
(8,right)
(6,right) 0.5
0.5(0
0 0+++0.5(0
0.5(1 +
+
+ 0.1
0.1
0.1×
×
×0.5
00-–-0)
-0.5)
0)
0)
Q(s,a)
Q(s,a) + α(r + γmaxQ(s´,a´) – Q(s,a))
a´
r = 1か0 α = 0.5 γ = 0.1
参考文献
• 「インテリジェントシステム」
• 「人工知能の基礎」
• 「強化学習」
福田敏男 編著
馬場口登、山田誠二 共著
三上貞旁、皆川雅章 共訳