Transcript 輪講0614

輪講用資料6/14
B4 森貴之
前回まで
• ロジスティクスの数理
– 久保幹雄
– 第3章 経済発注量の数理 の続き
•
•
•
•
2のべき乗方策
容量を考慮した複数品目モデル
生産を考慮したモデル
価格を考慮した経済発注量モデル
– 第5章 在庫の数理
• 新聞売り子問題
• 基在庫方策(多段階モデル)
今回の内容
• 第5章 在庫の数理 続き
– 動的計画(DP)
動的計画(DP)とは
• 動的システムに対する最適化手法の一つ
• 意思決定が段階ごとになされる
• 段階は離散化された時間軸を表すことに用い
られる
離散時間動的システム
•
•
•
•
Descrete time dynamic system
𝑡 : 離散的な時刻, 𝑡 ∈ 0,1, ⋯ , 𝑇
𝑥𝑡 : 𝑡期におけるシステムの状態, 𝑥𝑡 ∈ 𝑆𝑡
𝑢𝑡 : 𝑡期における意思決定変数, 𝑢𝑡 ∈ 𝐶𝑡
– 𝑢𝑡 は𝑡期の状態で決まる𝑈𝑡 𝑥𝑡 ⊆ 𝐶𝑡 から選ばれる
• 𝑤𝑡 : 𝑡期におけるランダム性, 𝑤𝑡 ∈ 𝑊𝑡
– 𝑤𝑡 ~𝑃𝑡 ∙ 𝑥𝑡 , 𝑢𝑡
離散時間動的システム
𝑥𝑡+1 ≔ 𝑓𝑡 𝑥𝑡 , 𝑢𝑡 , 𝑤𝑡 , 𝑡 = 0,1, ⋯ , 𝑇 − 1
• 費用は下式
𝐸 𝑔𝑇 𝑥 𝑇 +
𝑇−1
𝑡=0
𝑔𝑡 𝑥𝑡 , 𝑢𝑡 , 𝑤𝑡
= 𝐽𝜋 𝑥0
– 𝑔𝑡 (𝑥𝑡 , 𝑢𝑡 , 𝑤𝑡 ) : 𝑡期における費用
– 𝑔𝑇 𝑥𝑇 : 最終回における費用(確定値)
• 𝜋 = 𝜇0 , ⋯ , 𝜇 𝑇−1 : 方策(Policy)
– 𝑢𝑡 = 𝜇𝑡 (𝑥𝑡 )
• 𝜋が許容(admissible)である
⇔∀𝑥𝑡 ∈ 𝑆𝑡 𝑡 = 0, ⋯ , 𝑇 − 1に対して𝜇𝑡 𝑥𝑡 ∈ 𝑈𝑡 (𝑥𝑡 )
離散時間動的システム
• 許容方策𝜋を与えると、𝑥𝑡+1 =
𝑓(𝑥𝑡 , 𝜇𝑡 𝑥𝑡 , 𝑤𝑡 )によって𝑥𝑡 , 𝑤𝑡 の確率分布が
定まり、T期の総費用の期待値𝐽𝜋 (𝑥0 )が一意
に定まる。
• DPの目的は𝑥0 と許容方策の集合Πが与えら
れたとき、𝑱𝝅∗ 𝒙𝟎 = 𝐦𝐢𝐧 𝑱𝝅 𝒙𝟎 なる𝝅∗ をみ
つけること
𝝅∈𝚷
– 𝐽𝜋∗ 𝑥0 : 最適値や最適目的関数という
DPアルゴリズム
• 最適性の原理(principle of optimality)
– ある期𝑖において状態𝑥𝑖 が起こる確率を正と仮定
し、𝑖期から最終期までの費用の期待値を最小に
するDP問題を考える
– この時、𝜋𝑖∗ の𝑖期以降の部分 𝜇𝑖∗ , ⋯ , 𝜇∗𝑇−1 からな
る方策が最適
• ある期𝑡 ∈ 0, ⋯ , 𝑇 の𝑥𝑡 から始めて、最終期
まで𝜋 ∗ で運用した時の総費用の期待値を
𝐽𝑡 𝑥𝑡 とする。(到達費用関数)
DPアルゴリズム
• 𝑡 = 𝑇の時、𝐽𝑇 𝑥𝑇 = 𝑔𝑇 (𝑥𝑇 )は自明
• 𝑡 = 𝑡、𝐽𝑡+1 𝑥𝑡+1 が既知の時、 𝐽𝑡 𝑥𝑡 は、そ
の期に発生する費用と𝐽𝑡+1 𝑥𝑡+1 の和を最小
化する𝑢𝑡 を選択すればよい
• 以降𝑇, 𝑇 − 1, ⋯ , 1,0の順に 𝐽𝑡 𝑥𝑡 を計算する
𝐽𝑡 𝑥𝑡
= min 𝐸 𝑔𝑡 𝑥𝑡 , 𝑢𝑡 , 𝑤𝑡
𝑢𝑡 ∈𝑈𝑡 (𝑥𝑡 )
確定的DP問題
• ランダム性𝑤𝑡 をふくまない
• 𝑆𝑡 (とりうるシステムの状態)は有限と仮定
• 期ごとに意思決定するのと最初にすべて意
思決定する方策に差がない
• 状態変化は𝑥𝑡 から𝑥𝑡+1 までの有向枝
• 𝑡期の費用𝑔𝑡 (𝑥𝑡 , 𝑢𝑡 )は有向枝に付随する費
用
• ダミー点0,n+1を追加
システムイメージ図
http://msirocoder.blog35.fc2.com/ から引用
確定的DP問題
𝑡
• 𝑐𝑖𝑗
: t期に状態が𝑖 ∈ 𝑆𝑡 から𝑗 ∈ 𝑆𝑡+1 に移動す
る意思決定をした時の費用
𝑇
• 𝑐𝑖,𝑛+1
: T期において𝑖でいるときの費用
=𝑔𝑇 𝑖
𝑡
– 𝐽𝑡 𝑖 = min 𝑐𝑖𝑗
+ 𝐽𝑡+1 𝑗 , ∀𝑖 ∈ 𝑆𝑇
𝑗∈𝑆𝑡+1
• 初期条件𝑔𝑇 𝑖 からスタートするアルゴリズム
を後退型DPアルゴリズムという
– 前進型も存在する
無限期間DP問題
• Infinite horizon
• 𝑇 → ∞とする
𝑇−1
𝛼 𝑡 𝑔𝑡 𝑥𝑡 , 𝜇𝑡 𝑥𝑡 , 𝑤𝑡
min 𝐽𝜋 𝑥0 = lim 𝐸
𝑇→∞
𝑡=0
• 𝐽𝜋 𝑥0 は初期状態𝑥0 , 𝜋,割引率𝛼での費用
– 将来の費用を現在価値に割り引く必要がある
Markov連鎖の応用
• 状態が有限の時に用いることができる
• Markov決定問題と呼ばれる
–
–
–
–
有向グラフを用いる
𝑝𝑖𝑗 (𝑢) : 推移確率(transition probability)
𝑖の時に可能なコントロールの集合が𝑈 𝑖
𝑔 𝑖, 𝑢, 𝑗 : 𝑖でコントロール𝑢を行い𝑗に推移した時の費
用
– 𝑔 𝑖, 𝑢 : 𝑖で𝑢を行った時の期待費用
𝑔 𝑖, 𝑢 ≔
𝑝𝑖𝑗 𝑢 𝑔 𝑖, 𝑢, 𝑗
𝑗
Markov連鎖の応用
• 初期状態𝑖, 𝜋を与えた時の𝐽𝜋 (𝑖)は
𝑇−1
𝛼 𝑡 𝑔 𝑥𝑡 , 𝜇𝑡 𝑥𝑡 |𝑥0 = 𝑖
𝐽𝜋 𝑖 = lim 𝐸
𝑇→∞
𝑡=0
• 上式を最小にする許容方策を𝜋 ∗ (最適方策)
と書く
• 無限期間DP問題では期に依存しない定常方
策を求めることが多い(𝜇と書く)
確率的最短経路問題
• 𝑆 : 状態の集合で有限。各々の状態には
1,2, ⋯ , 𝑛の番号を付ける
• 𝑥𝑡 = 𝑖 で𝑢𝑡 の時の𝑥𝑡+1 = 𝑗 に推移する確率
𝑝𝑖𝑗 𝑢 = Pr 𝑥𝑡+1 = 𝑗 𝑥𝑡 = 𝑖, 𝑢𝑡 = 𝑢 より
𝑔 𝑖, 𝑢 = 𝑗 𝑝𝑖𝑗 𝑢 ∙ 𝑔 𝑖, 𝑢, 𝑗 (有限を仮定)
• 終端状態を0で表し、𝑝00 𝑢 = 1, ∀𝑢を仮定
• 目的は最小の期待費用で終端状態に到達す
ること
確率的最短経路問題
• 𝑚期の移動後に終端状態に達する確率が0より
大きくなる有限な正数𝑚の存在を仮定
• すると以下が成立
– 再帰方程式の収束性
• 期待費用は発散しない
• 𝐽𝑡+1 𝑖 = min 𝑔 𝑖, 𝑢 +
𝑢∈𝑈(𝑖)
式
𝑛
𝑗=1 𝑝𝑖𝑗
𝑢 𝐽𝑡 𝑗 , ∀𝑖 : 再帰方程
– 最適値に対するベルマン方程式
• 最適値𝐽∗ 𝑖 , 𝑖 ∈ 1,2, ⋯ , 𝑛 は以下の方程式を満たす
• 𝐽∗ 𝑖 = min 𝑔 𝑖, 𝑢 +
𝑢∈𝑈(𝑖)
𝑛
𝑗=1 𝑝𝑖𝑗
𝑢 𝐽∗ 𝑗 , ∀𝑖
• この方程式はベルマン方程式と呼ばれる
確率的最短経路問題
• 前頁𝑚存在の仮定の下で初期状態𝑖と定常方策
𝜇を与えた確率的最短経路問題に対し、以下が
成立
– 定常方策に対するベルマン方程式
• 𝜇に対する𝐽𝜇 (𝑖)は以下の方程式の唯一解である
• 𝐽𝜇 𝑖 = 𝑔 𝑖, 𝜇 𝑖
+
𝑛
𝑗=1 𝑝𝑖𝑗
𝜇 𝑖 𝐽𝜇 𝑗 , ∀𝑖
– 定常方策の収束性
• 定常方策は𝐽𝜇 𝑖 を収束させる
– 𝜇が最適である⇔𝜇がBellman’s eqにおける最小値を
達成している
価値反復法
(value iteration method)
• 再帰方程式から最適値を算出するアルゴリ
ズム
• 初期条件𝐽0 𝑖 = 0, ∀𝑖 = 1, ⋯ , 𝑛の下で以下
の反復を行う
𝐽𝑡+1 𝑖 = min 𝑔 𝑖, 𝑢 +
𝑢∈𝑈(𝑖)
• 無限の反復が必要に…
𝑛
𝑗=1
𝑝𝑖𝑗 𝑢 𝐽𝑡 𝑗 , ∀𝑖
方策反復法
(policy iteration method)
• 第𝑡反復における方策を𝜇𝑡 と書く
• 初期条件: 𝐽0 𝑖 = 0, ∀𝑖 = 1, ⋯ , 𝑛および𝜇0 を
任意の許容な定常方策から出発し、すべて
の𝑖に対して𝐽𝜇𝑡+1 𝑖 = 𝐽𝜇𝑡 となるまで以下の
2stepsをくりかえす。
– 方策評価ステップ
– 方策改善ステップ
方策反復法
• 方策評価ステップ
– 𝐽 𝑖 , 𝑖 = 1, ⋯ , 𝑛を未知変数とした以下の線型方程式
系を解き、その解を𝐽𝜇𝑡 𝑖 (𝑖)とする
𝐽 𝑖 = 𝑔 𝑖, 𝜇𝑡 𝑖
+
𝑛
𝑗=1
𝑝𝑖𝑗 𝜇𝑡 𝑖 𝐽 𝑗 , ∀𝑖
• 方策改善ステップ
– 上で得た𝐽𝜇𝑡 𝑖 (𝑖)を元に、𝑡 + 1反復目の方策𝜇𝑡+1 𝑖
を以下の式から求める
𝜇𝑡+1 𝑖 = argmin 𝑔 𝑖, 𝑢 +
𝑢∈𝑈 𝑖
𝑛
𝑗=1
𝑝𝑖𝑗 𝑢 𝐽𝜇𝑡
𝑗
方策反復法の有限収束性も前述の𝒎存在仮定から証明できる
𝑗
, ∀𝑖
方策反復法
• 線型方程式を解くにはガウスの消去法などの標
準的アルゴリズムを用いる
• しかし、状態の数𝑛が大きいときには以下の反復
法が用いられる
– 𝐽0 𝑖 = 𝐽𝜇𝑡 𝑖 𝑖 , ∀𝑖 = 1, ⋯ , 𝑛を初期条件とし、𝑘 =
0,1,2, ⋯に対して
𝐽𝑘+1 𝑖 = 𝑔 𝑖, 𝜇𝑡 𝑖
+
𝑛
𝑗=1
𝑝𝑖𝑗 𝜇𝑡 𝑖 𝐽𝑘 𝑗 , ∀𝑖
を計算する。適当な𝑘に対する𝐽𝑘 (𝑖)を方程式系の解の
近似として用いる
次週までの予定
• 基在庫方策への動的計画の応用
– 次週までに終わりそう
• マルコフ過程をもっと詳しく…?