Transcript 輪講0614
輪講用資料6/14 B4 森貴之 前回まで • ロジスティクスの数理 – 久保幹雄 – 第3章 経済発注量の数理 の続き • • • • 2のべき乗方策 容量を考慮した複数品目モデル 生産を考慮したモデル 価格を考慮した経済発注量モデル – 第5章 在庫の数理 • 新聞売り子問題 • 基在庫方策(多段階モデル) 今回の内容 • 第5章 在庫の数理 続き – 動的計画(DP) 動的計画(DP)とは • 動的システムに対する最適化手法の一つ • 意思決定が段階ごとになされる • 段階は離散化された時間軸を表すことに用い られる 離散時間動的システム • • • • Descrete time dynamic system 𝑡 : 離散的な時刻, 𝑡 ∈ 0,1, ⋯ , 𝑇 𝑥𝑡 : 𝑡期におけるシステムの状態, 𝑥𝑡 ∈ 𝑆𝑡 𝑢𝑡 : 𝑡期における意思決定変数, 𝑢𝑡 ∈ 𝐶𝑡 – 𝑢𝑡 は𝑡期の状態で決まる𝑈𝑡 𝑥𝑡 ⊆ 𝐶𝑡 から選ばれる • 𝑤𝑡 : 𝑡期におけるランダム性, 𝑤𝑡 ∈ 𝑊𝑡 – 𝑤𝑡 ~𝑃𝑡 ∙ 𝑥𝑡 , 𝑢𝑡 離散時間動的システム 𝑥𝑡+1 ≔ 𝑓𝑡 𝑥𝑡 , 𝑢𝑡 , 𝑤𝑡 , 𝑡 = 0,1, ⋯ , 𝑇 − 1 • 費用は下式 𝐸 𝑔𝑇 𝑥 𝑇 + 𝑇−1 𝑡=0 𝑔𝑡 𝑥𝑡 , 𝑢𝑡 , 𝑤𝑡 = 𝐽𝜋 𝑥0 – 𝑔𝑡 (𝑥𝑡 , 𝑢𝑡 , 𝑤𝑡 ) : 𝑡期における費用 – 𝑔𝑇 𝑥𝑇 : 最終回における費用(確定値) • 𝜋 = 𝜇0 , ⋯ , 𝜇 𝑇−1 : 方策(Policy) – 𝑢𝑡 = 𝜇𝑡 (𝑥𝑡 ) • 𝜋が許容(admissible)である ⇔∀𝑥𝑡 ∈ 𝑆𝑡 𝑡 = 0, ⋯ , 𝑇 − 1に対して𝜇𝑡 𝑥𝑡 ∈ 𝑈𝑡 (𝑥𝑡 ) 離散時間動的システム • 許容方策𝜋を与えると、𝑥𝑡+1 = 𝑓(𝑥𝑡 , 𝜇𝑡 𝑥𝑡 , 𝑤𝑡 )によって𝑥𝑡 , 𝑤𝑡 の確率分布が 定まり、T期の総費用の期待値𝐽𝜋 (𝑥0 )が一意 に定まる。 • DPの目的は𝑥0 と許容方策の集合Πが与えら れたとき、𝑱𝝅∗ 𝒙𝟎 = 𝐦𝐢𝐧 𝑱𝝅 𝒙𝟎 なる𝝅∗ をみ つけること 𝝅∈𝚷 – 𝐽𝜋∗ 𝑥0 : 最適値や最適目的関数という DPアルゴリズム • 最適性の原理(principle of optimality) – ある期𝑖において状態𝑥𝑖 が起こる確率を正と仮定 し、𝑖期から最終期までの費用の期待値を最小に するDP問題を考える – この時、𝜋𝑖∗ の𝑖期以降の部分 𝜇𝑖∗ , ⋯ , 𝜇∗𝑇−1 からな る方策が最適 • ある期𝑡 ∈ 0, ⋯ , 𝑇 の𝑥𝑡 から始めて、最終期 まで𝜋 ∗ で運用した時の総費用の期待値を 𝐽𝑡 𝑥𝑡 とする。(到達費用関数) DPアルゴリズム • 𝑡 = 𝑇の時、𝐽𝑇 𝑥𝑇 = 𝑔𝑇 (𝑥𝑇 )は自明 • 𝑡 = 𝑡、𝐽𝑡+1 𝑥𝑡+1 が既知の時、 𝐽𝑡 𝑥𝑡 は、そ の期に発生する費用と𝐽𝑡+1 𝑥𝑡+1 の和を最小 化する𝑢𝑡 を選択すればよい • 以降𝑇, 𝑇 − 1, ⋯ , 1,0の順に 𝐽𝑡 𝑥𝑡 を計算する 𝐽𝑡 𝑥𝑡 = min 𝐸 𝑔𝑡 𝑥𝑡 , 𝑢𝑡 , 𝑤𝑡 𝑢𝑡 ∈𝑈𝑡 (𝑥𝑡 ) 確定的DP問題 • ランダム性𝑤𝑡 をふくまない • 𝑆𝑡 (とりうるシステムの状態)は有限と仮定 • 期ごとに意思決定するのと最初にすべて意 思決定する方策に差がない • 状態変化は𝑥𝑡 から𝑥𝑡+1 までの有向枝 • 𝑡期の費用𝑔𝑡 (𝑥𝑡 , 𝑢𝑡 )は有向枝に付随する費 用 • ダミー点0,n+1を追加 システムイメージ図 http://msirocoder.blog35.fc2.com/ から引用 確定的DP問題 𝑡 • 𝑐𝑖𝑗 : t期に状態が𝑖 ∈ 𝑆𝑡 から𝑗 ∈ 𝑆𝑡+1 に移動す る意思決定をした時の費用 𝑇 • 𝑐𝑖,𝑛+1 : T期において𝑖でいるときの費用 =𝑔𝑇 𝑖 𝑡 – 𝐽𝑡 𝑖 = min 𝑐𝑖𝑗 + 𝐽𝑡+1 𝑗 , ∀𝑖 ∈ 𝑆𝑇 𝑗∈𝑆𝑡+1 • 初期条件𝑔𝑇 𝑖 からスタートするアルゴリズム を後退型DPアルゴリズムという – 前進型も存在する 無限期間DP問題 • Infinite horizon • 𝑇 → ∞とする 𝑇−1 𝛼 𝑡 𝑔𝑡 𝑥𝑡 , 𝜇𝑡 𝑥𝑡 , 𝑤𝑡 min 𝐽𝜋 𝑥0 = lim 𝐸 𝑇→∞ 𝑡=0 • 𝐽𝜋 𝑥0 は初期状態𝑥0 , 𝜋,割引率𝛼での費用 – 将来の費用を現在価値に割り引く必要がある Markov連鎖の応用 • 状態が有限の時に用いることができる • Markov決定問題と呼ばれる – – – – 有向グラフを用いる 𝑝𝑖𝑗 (𝑢) : 推移確率(transition probability) 𝑖の時に可能なコントロールの集合が𝑈 𝑖 𝑔 𝑖, 𝑢, 𝑗 : 𝑖でコントロール𝑢を行い𝑗に推移した時の費 用 – 𝑔 𝑖, 𝑢 : 𝑖で𝑢を行った時の期待費用 𝑔 𝑖, 𝑢 ≔ 𝑝𝑖𝑗 𝑢 𝑔 𝑖, 𝑢, 𝑗 𝑗 Markov連鎖の応用 • 初期状態𝑖, 𝜋を与えた時の𝐽𝜋 (𝑖)は 𝑇−1 𝛼 𝑡 𝑔 𝑥𝑡 , 𝜇𝑡 𝑥𝑡 |𝑥0 = 𝑖 𝐽𝜋 𝑖 = lim 𝐸 𝑇→∞ 𝑡=0 • 上式を最小にする許容方策を𝜋 ∗ (最適方策) と書く • 無限期間DP問題では期に依存しない定常方 策を求めることが多い(𝜇と書く) 確率的最短経路問題 • 𝑆 : 状態の集合で有限。各々の状態には 1,2, ⋯ , 𝑛の番号を付ける • 𝑥𝑡 = 𝑖 で𝑢𝑡 の時の𝑥𝑡+1 = 𝑗 に推移する確率 𝑝𝑖𝑗 𝑢 = Pr 𝑥𝑡+1 = 𝑗 𝑥𝑡 = 𝑖, 𝑢𝑡 = 𝑢 より 𝑔 𝑖, 𝑢 = 𝑗 𝑝𝑖𝑗 𝑢 ∙ 𝑔 𝑖, 𝑢, 𝑗 (有限を仮定) • 終端状態を0で表し、𝑝00 𝑢 = 1, ∀𝑢を仮定 • 目的は最小の期待費用で終端状態に到達す ること 確率的最短経路問題 • 𝑚期の移動後に終端状態に達する確率が0より 大きくなる有限な正数𝑚の存在を仮定 • すると以下が成立 – 再帰方程式の収束性 • 期待費用は発散しない • 𝐽𝑡+1 𝑖 = min 𝑔 𝑖, 𝑢 + 𝑢∈𝑈(𝑖) 式 𝑛 𝑗=1 𝑝𝑖𝑗 𝑢 𝐽𝑡 𝑗 , ∀𝑖 : 再帰方程 – 最適値に対するベルマン方程式 • 最適値𝐽∗ 𝑖 , 𝑖 ∈ 1,2, ⋯ , 𝑛 は以下の方程式を満たす • 𝐽∗ 𝑖 = min 𝑔 𝑖, 𝑢 + 𝑢∈𝑈(𝑖) 𝑛 𝑗=1 𝑝𝑖𝑗 𝑢 𝐽∗ 𝑗 , ∀𝑖 • この方程式はベルマン方程式と呼ばれる 確率的最短経路問題 • 前頁𝑚存在の仮定の下で初期状態𝑖と定常方策 𝜇を与えた確率的最短経路問題に対し、以下が 成立 – 定常方策に対するベルマン方程式 • 𝜇に対する𝐽𝜇 (𝑖)は以下の方程式の唯一解である • 𝐽𝜇 𝑖 = 𝑔 𝑖, 𝜇 𝑖 + 𝑛 𝑗=1 𝑝𝑖𝑗 𝜇 𝑖 𝐽𝜇 𝑗 , ∀𝑖 – 定常方策の収束性 • 定常方策は𝐽𝜇 𝑖 を収束させる – 𝜇が最適である⇔𝜇がBellman’s eqにおける最小値を 達成している 価値反復法 (value iteration method) • 再帰方程式から最適値を算出するアルゴリ ズム • 初期条件𝐽0 𝑖 = 0, ∀𝑖 = 1, ⋯ , 𝑛の下で以下 の反復を行う 𝐽𝑡+1 𝑖 = min 𝑔 𝑖, 𝑢 + 𝑢∈𝑈(𝑖) • 無限の反復が必要に… 𝑛 𝑗=1 𝑝𝑖𝑗 𝑢 𝐽𝑡 𝑗 , ∀𝑖 方策反復法 (policy iteration method) • 第𝑡反復における方策を𝜇𝑡 と書く • 初期条件: 𝐽0 𝑖 = 0, ∀𝑖 = 1, ⋯ , 𝑛および𝜇0 を 任意の許容な定常方策から出発し、すべて の𝑖に対して𝐽𝜇𝑡+1 𝑖 = 𝐽𝜇𝑡 となるまで以下の 2stepsをくりかえす。 – 方策評価ステップ – 方策改善ステップ 方策反復法 • 方策評価ステップ – 𝐽 𝑖 , 𝑖 = 1, ⋯ , 𝑛を未知変数とした以下の線型方程式 系を解き、その解を𝐽𝜇𝑡 𝑖 (𝑖)とする 𝐽 𝑖 = 𝑔 𝑖, 𝜇𝑡 𝑖 + 𝑛 𝑗=1 𝑝𝑖𝑗 𝜇𝑡 𝑖 𝐽 𝑗 , ∀𝑖 • 方策改善ステップ – 上で得た𝐽𝜇𝑡 𝑖 (𝑖)を元に、𝑡 + 1反復目の方策𝜇𝑡+1 𝑖 を以下の式から求める 𝜇𝑡+1 𝑖 = argmin 𝑔 𝑖, 𝑢 + 𝑢∈𝑈 𝑖 𝑛 𝑗=1 𝑝𝑖𝑗 𝑢 𝐽𝜇𝑡 𝑗 方策反復法の有限収束性も前述の𝒎存在仮定から証明できる 𝑗 , ∀𝑖 方策反復法 • 線型方程式を解くにはガウスの消去法などの標 準的アルゴリズムを用いる • しかし、状態の数𝑛が大きいときには以下の反復 法が用いられる – 𝐽0 𝑖 = 𝐽𝜇𝑡 𝑖 𝑖 , ∀𝑖 = 1, ⋯ , 𝑛を初期条件とし、𝑘 = 0,1,2, ⋯に対して 𝐽𝑘+1 𝑖 = 𝑔 𝑖, 𝜇𝑡 𝑖 + 𝑛 𝑗=1 𝑝𝑖𝑗 𝜇𝑡 𝑖 𝐽𝑘 𝑗 , ∀𝑖 を計算する。適当な𝑘に対する𝐽𝑘 (𝑖)を方程式系の解の 近似として用いる 次週までの予定 • 基在庫方策への動的計画の応用 – 次週までに終わりそう • マルコフ過程をもっと詳しく…?