輪講用資料 6/14

23
輪輪輪輪輪 6/14 B4 輪輪輪

Upload: nonnie

Post on 06-Feb-2016

68 views

Category:

Documents


0 download

DESCRIPTION

輪講用資料 6/14. B4 森貴之. 前回まで. ロジスティクスの 数理 久保 幹雄 第3章 経済発注量の数理 の続き 2のべき乗方策 容量を考慮した複数品目モデル 生産を考慮したモデル 価格を考慮した経済発注量モデル 第5章 在庫の数理 新聞売り子問題 基在庫方策(多段階モデル). 今回の内容. 第5章 在庫の数理 続き 動的 計画 (DP). 動的計画 (DP) とは. 動的システムに 対する最適化手法の一つ 意思決定 が段階ごとになされる 段階 は離散化された時間軸を表すことに用いられる. 離散 時間動的システム. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: 輪講用資料 6/14

輪講用資料 6/14

B4 森貴之

Page 2: 輪講用資料 6/14

前回まで• ロジスティクスの数理– 久保幹雄– 第3章 経済発注量の数理 の続き• 2のべき乗方策• 容量を考慮した複数品目モデル• 生産を考慮したモデル• 価格を考慮した経済発注量モデル

– 第5章 在庫の数理• 新聞売り子問題• 基在庫方策(多段階モデル)

Page 3: 輪講用資料 6/14

今回の内容• 第5章 在庫の数理 続き– 動的計画 (DP)

Page 4: 輪講用資料 6/14

動的計画 (DP) とは• 動的システムに対する最適化手法の一つ• 意思決定が段階ごとになされる• 段階は離散化された時間軸を表すことに

用いられる

Page 5: 輪講用資料 6/14

離散時間動的システム• Descrete time dynamic system• : 離散的な時刻 , • : 期におけるシステムの状態 , • : 期における意思決定変数 , – は期の状態で決まるから選ばれる

• : 期におけるランダム性 ,

Page 6: 輪講用資料 6/14

離散時間動的システム

• 費用は下式

– : 期における費用– : 最終回における費用(確定値)

• : 方策 (Policy)

• が許容 (admissible) である ⇔

Page 7: 輪講用資料 6/14

離散時間動的システム• 許容方策を与えると、によっての確率分布

が定まり、 T 期の総費用の期待値が一意に定まる。

• DP の目的はと許容方策の集合が与えられたとき、なるをみつけること– : 最適値や最適目的関数という

Page 8: 輪講用資料 6/14

DP アルゴリズム• 最適性の原理 (principle of optimality)– ある期において状態が起こる確率を正と仮定

し、期から最終期までの費用の期待値を最小にする DP 問題を考える

– この時、の期以降の部分からなる方策が最適• ある期のから始めて、最終期までで運用

した時の総費用の期待値をとする。(到達費用関数)

Page 9: 輪講用資料 6/14

DP アルゴリズム• の時、は自明• の時、 は、その期に発生する費用との和

を最小化するを選択すればよい• 以降の順に を計算する

Page 10: 輪講用資料 6/14

確定的 DP 問題• ランダム性をふくまない• (とりうるシステムの状態)は有限と仮

定• 期ごとに意思決定するのと最初にすべて意

思決定する方策に差がない• 状態変化はからまでの有向枝• 期の費用は有向枝に付随する費用• ダミー点 0,n+1 を追加

Page 11: 輪講用資料 6/14

システムイメージ図

http://msirocoder.blog35.fc2.com/ から引用

Page 12: 輪講用資料 6/14

確定的 DP 問題• : t 期に状態がからに移動する意思決定を

した時の費用• : T 期においてでいるときの費用

=

• 初期条件からスタートするアルゴリズムを後退型 DP アルゴリズムという– 前進型も存在する

Page 13: 輪講用資料 6/14

無限期間 DP 問題• Infinite horizon• とする

• は初期状態割引率での費用– 将来の費用を現在価値に割り引く必要がある

Page 14: 輪講用資料 6/14

Markov 連鎖の応用• 状態が有限の時に用いることができる• Markov 決定問題と呼ばれる– 有向グラフを用いる– : 推移確率 (transition probability)– の時に可能なコントロールの集合が– : でコントロールを行いに推移した時の費用– : でを行った時の期待費用

Page 15: 輪講用資料 6/14

Markov 連鎖の応用• 初期状態を与えた時のは

• 上式を最小にする許容方策を(最適方策)と書く

• 無限期間 DP 問題では期に依存しない定常方策を求めることが多い(と書く)

Page 16: 輪講用資料 6/14

確率的最短経路問題• : 状態の集合で有限。各々の状態にはの

番号を付ける• での時のに推移する確率

 より(有限を仮定)

• 終端状態を 0 で表し、を仮定• 目的は最小の期待費用で終端状態に到達

すること

Page 17: 輪講用資料 6/14

確率的最短経路問題• 期の移動後に終端状態に達する確率が 0 よ

り大きくなる有限な正数の存在を仮定• すると以下が成立– 再帰方程式の収束性

• 期待費用は発散しない• : 再帰方程式

– 最適値に対するベルマン方程式• 最適値は以下の方程式を満たす

• この方程式はベルマン方程式と呼ばれる

Page 18: 輪講用資料 6/14

確率的最短経路問題• 前頁存在の仮定の下で初期状態と定常方策

を与えた確率的最短経路問題に対し、以下が成立– 定常方策に対するベルマン方程式

• に対するは以下の方程式の唯一解である

– 定常方策の収束性• 定常方策はを収束させる

– が最適である⇔が Bellman’s eq における最小値を達成している

Page 19: 輪講用資料 6/14

価値反復法(value iteration method)

• 再帰方程式から最適値を算出するアルゴリズム

• 初期条件の下で以下の反復を行う

• 無限の反復が必要に…

Page 20: 輪講用資料 6/14

方策反復法(policy iteration method)

• 第反復における方策をと書く• 初期条件: およびを任意の許容な定常方

策から出発し、すべてのに対してとなるまで以下の 2steps をくりかえす。– 方策評価ステップ– 方策改善ステップ

Page 21: 輪講用資料 6/14

方策反復法• 方策評価ステップ– を未知変数とした以下の線型方程式系を解き、

その解をとする

• 方策改善ステップ– 上で得たを元に、反復目の方策を以下の式か

ら求める

方策反復法の有限収束性も前述の存在仮定から証明できる

Page 22: 輪講用資料 6/14

方策反復法• 線型方程式を解くにはガウスの消去法などの標準的アルゴリズムを用いる

• しかし、状態の数が大きいときには以下の反復法が用いられる– を初期条件とし、に対して

を計算する。適当なに対するを方程式系の解の近似として用いる

Page 23: 輪講用資料 6/14

次週までの予定• 基在庫方策への動的計画の応用–次週までに終わりそう

• マルコフ過程をもっと詳しく…?