learning in a small world
TRANSCRIPT
発表論文
出展:AAMAS ’12
著者:
Arun Tejasvi Chaganty, Prateek Gaur, Balaraman Ravindran
Indian Institute of Technology Madras
論文概要抽象化
+
-> Small World Network を利用して効率的に定義
状態 行動
• 離散的な状態
• 近い状態のクラスタリング
• オプションを導入→高次元な行動を定義
探索空間を削減
既存手法だと…“ドメインに対する知識”が必
要
例:タクシー問題
• グリッドワールドの一種
– 空間的抽象化
• 問題
– タクシー(t):どこか
– 客(p):駅(R, G, B, Y) / タクシーの中
– 目的地(d):駅(R, G, B, Y)
-> 最短経路で客を拾って目的地へ
状態:(Pos t, Pos p, d)
行動:移動(上下左右),客を拾う/下す
オプション:最寄りの駅に行ってみる
関連研究
• 空間的抽象化– 状態の相似性に着目L. Li, T. J. Walsh, and M. L. Littman. Towards a United Theory of State Abstraction for MDPs, 2006
• 時間的抽象化– オプションを用いて行動を高次元化R. S. Sutton, D. Precup, and S. Singh. Between MDPs and Semi-MDPs : Learning , Planning , and Representing Knowledge at Multiple Temporal Scales at Multiple Temporal Scales, 1999
• グラフ理論を用いたもの– betweenness centralityの高いでノードを分割O. Simsek and A. G. Barto. Skill characterization based on betweenness in NIPS, 2008
強化学習
• マルコフ決定過程状態:S 行動:A
状態遷移確率:P S×A×S → [0, 1]
報酬:R S×A → ℝ
未来の報酬の重み付け用パラメタ:γ
• 行動計画– 状態価値関数V(s)
– 行動価値関数Q(s,a)
価値関数を最大化する行動を選ぶ
強化学習におけるオプション
タスクをサブタスクに分割
ex.)タクシー問題なら迎えに行く+送り届ける
オプションのタプル:<τ, π, β>
τ:オプションに従う状態の条件
π:オプションの間従う方策
β:オプションの終了時に満たすべき状態の状況
ex.)迎えに行く時のオプション:
<客:¬(in Taxi), 近くの駅に行く, 客:(in Taxi)>
オプションの問題点
• ドメインに対する知識が必要
– MDPの知識が必要
– 軌跡からモデルを作るのはサンプリングが大変
• 複数のオプションが考えられうる
– 状態と一対一対応しているわけではない
– 場合によっては全体の実行が遅くなることも……
-> MDPの知識は出来るだけ使わない
各状態には一つしかオプションを追加しない
オプションを作るアルゴリズム
1. タスクを解いてみる
->行動価値関数Qを出力
2. 各状態sにオプションを追加別の状態s’を選ぶ。
Q(s’, π(s’)) > Q(S, π(S))なら
s → s’のオプションを追加。
*Qは目的地で最大
s’のサンプリングでしかMDPの知識は使っていない
実験設定(1/2)
• 比較したアルゴリズム– None:オプションを使わない強化学習
– Random:ランダムにノードをつないだオプション
– Betweenness:ボトルネックを探索するアルゴリズム
– Small World:反比例する確率でオプションを生成
• 試行内容– ドメインにつき10個のランダムなタスク
– 40,000エピソードで探索打ち切り
– 20のAgentで試行し,その平均を利用
試行回数に対する頑健性
• 試行回数が限られているとき
→ Small Worldのオプションは強いはず
追加実験• 試行回数を変えた
• Roomsドメイン
結果• 多オプションなのに勝利
• エピソード数が多いものにも勝利
まとめ
• オプション生成の新しい枠組みを考案
– サブタスクは再利用可能という直観に忠実
– MDPのモデルを必要としない
– ドメイン探索を行うものに比べ、コストが低い
• 実験によってその性能を評価
– 基本的な複数のドメインにおいて性能向上
– 試行回数が限られているような場合にも有効