learning in a small world

Learning in a Small World

2012 / 12 / 7

M2 堀内新吾

発表論文

出展：AAMAS ’12

著者：

Arun Tejasvi Chaganty, Prateek Gaur, Balaraman Ravindran

Indian Institute of Technology Madras

本論文におけるAgent

学習するAgent：

– 経験し学習する主体

– 未知のドメインを与えられ，評価関数を持つ

– 行動計画を学習

論文概要抽象化

＋

-> Small World Network を利用して効率的に定義

状態行動

• 離散的な状態

• 近い状態のクラスタリング

• オプションを導入→高次元な行動を定義

探索空間を削減

既存手法だと…“ドメインに対する知識”が必

要

例：タクシー問題

• グリッドワールドの一種

– 空間的抽象化

• 問題

– タクシー(t)：どこか

– 客(p)：駅(R, G, B, Y) / タクシーの中

– 目的地(d)：駅(R, G, B, Y)

-> 最短経路で客を拾って目的地へ

状態：(Pos t, Pos p, d)

行動：移動(上下左右)，客を拾う/下す

オプション：最寄りの駅に行ってみる

関連研究

• 空間的抽象化– 状態の相似性に着目L. Li, T. J. Walsh, and M. L. Littman. Towards a United Theory of State Abstraction for MDPs, 2006

• 時間的抽象化– オプションを用いて行動を高次元化R. S. Sutton, D. Precup, and S. Singh. Between MDPs and Semi-MDPs : Learning , Planning , and Representing Knowledge at Multiple Temporal Scales at Multiple Temporal Scales, 1999

• グラフ理論を用いたもの– betweenness centralityの高いでノードを分割O. Simsek and A. G. Barto. Skill characterization based on betweenness in NIPS, 2008

目次

• 定式化– 強化学習とオプション

• 提案手法– タスクのグラフ化

– Small World Network

• 評価実験– 実験設定とその結果

• 考察– 結論とFuture Works

定式化

強化学習

• マルコフ決定過程状態：S 行動：A

状態遷移確率：P S×A×S → [0, 1]

報酬：R S×A → ℝ

未来の報酬の重み付け用パラメタ：γ

• 行動計画– 状態価値関数V(s)

– 行動価値関数Q(s,a)

価値関数を最大化する行動を選ぶ

強化学習におけるオプション

タスクをサブタスクに分割

ex.)タクシー問題なら迎えに行く＋送り届ける

オプションのタプル：<τ, π, β>

τ：オプションに従う状態の条件

π：オプションの間従う方策

β：オプションの終了時に満たすべき状態の状況

ex.)迎えに行く時のオプション：

<客：￢(in Taxi), 近くの駅に行く, 客:(in Taxi)>

オプションの問題点

• ドメインに対する知識が必要

– MDPの知識が必要

– 軌跡からモデルを作るのはサンプリングが大変

• 複数のオプションが考えられうる

– 状態と一対一対応しているわけではない

– 場合によっては全体の実行が遅くなることも……

-> MDPの知識は出来るだけ使わない

各状態には一つしかオプションを追加しない

提案手法

提案手法の概要

1. 強化学習問題をグラフ化

2. 問題のグラフをSmall World Networkに

3. 頑健なオプションを導入する

Small World Network

強化学習問題のグラフ化

オプションを作るアルゴリズム

1. タスクを解いてみる

->行動価値関数Qを出力

2. 各状態ｓにオプションを追加別の状態s’を選ぶ。

Q(s’, π(s’)) > Q(S, π(S))なら

s → s’のオプションを追加。

＊Qは目的地で最大

s’のサンプリングでしかMDPの知識は使っていない

評価実験

実験設定(1/2)

• 比較したアルゴリズム– None：オプションを使わない強化学習

– Random：ランダムにノードをつないだオプション

– Betweenness：ボトルネックを探索するアルゴリズム

– Small World：反比例する確率でオプションを生成

• 試行内容– ドメインにつき１０個のランダムなタスク

– 40,000エピソードで探索打ち切り

– 20のAgentで試行し，その平均を利用

実験設定(2/2)

• 用いたドメイン

Arbitrary Navigation: 障害物のないグリッドワールド

Rooms: 4つの部屋に区切るような障害物あり

Taxi: 例で説明したドメイン

実験結果

Arbt. Navi, Roomsドメインでは圧勝

TaxiドメインではBetweennessに負けている

-> 終状態がちょうど中間最大値にあるため？

試行回数に対する頑健性

• 試行回数が限られているとき

→ Small Worldのオプションは強いはず

追加実験• 試行回数を変えた

• Roomsドメイン

結果• 多オプションなのに勝利

• エピソード数が多いものにも勝利

考察

まとめ

• オプション生成の新しい枠組みを考案

– サブタスクは再利用可能という直観に忠実

– MDPのモデルを必要としない

– ドメイン探索を行うものに比べ、コストが低い

• 実験によってその性能を評価

– 基本的な複数のドメインにおいて性能向上

– 試行回数が限られているような場合にも有効

Future Work

• 今回用いたパラメタの設定を一般化したい

• 連続値のドメインにも拡張

• タスクを解きながら動的にオプションを生成

• 得られたオプションを解析

私見

○

– グラフ理論で強化学習を効率化

– 数学的に最短経路に近づくことを保証

– 問題に対して一般性は高そう

×

– アルゴリズム自体の説明が簡素

– 複雑な問題で勝てなかった点

– もっと特殊なドメインだとどうなるのか見たかった

learning in a small world

Documents