learning in a small world

25
Learning in a Small World 2012 / 12 / 7 M2 堀内 新吾

Upload: shingo-horiuchi

Post on 16-Jul-2015

418 views

Category:

Documents


3 download

TRANSCRIPT

Learning in a Small World

2012 / 12 / 7

M2 堀内 新吾

発表論文

出展:AAMAS ’12

著者:

Arun Tejasvi Chaganty, Prateek Gaur, Balaraman Ravindran

Indian Institute of Technology Madras

本論文におけるAgent

学習するAgent:

– 経験し学習する主体

– 未知のドメインを与えられ,評価関数を持つ

– 行動計画を学習

論文概要抽象化

-> Small World Network を利用して効率的に定義

状態 行動

• 離散的な状態

• 近い状態のクラスタリング

• オプションを導入→高次元な行動を定義

探索空間を削減

既存手法だと…“ドメインに対する知識”が必

例:タクシー問題

• グリッドワールドの一種

– 空間的抽象化

• 問題

– タクシー(t):どこか

– 客(p):駅(R, G, B, Y) / タクシーの中

– 目的地(d):駅(R, G, B, Y)

-> 最短経路で客を拾って目的地へ

状態:(Pos t, Pos p, d)

行動:移動(上下左右),客を拾う/下す

オプション:最寄りの駅に行ってみる

関連研究

• 空間的抽象化– 状態の相似性に着目L. Li, T. J. Walsh, and M. L. Littman. Towards a United Theory of State Abstraction for MDPs, 2006

• 時間的抽象化– オプションを用いて行動を高次元化R. S. Sutton, D. Precup, and S. Singh. Between MDPs and Semi-MDPs : Learning , Planning , and Representing Knowledge at Multiple Temporal Scales at Multiple Temporal Scales, 1999

• グラフ理論を用いたもの– betweenness centralityの高いでノードを分割O. Simsek and A. G. Barto. Skill characterization based on betweenness in NIPS, 2008

目次

• 定式化– 強化学習とオプション

• 提案手法– タスクのグラフ化

– Small World Network

• 評価実験– 実験設定とその結果

• 考察– 結論とFuture Works

定式化

強化学習

• マルコフ決定過程状態:S 行動:A

状態遷移確率:P S×A×S → [0, 1]

報酬:R S×A → ℝ

未来の報酬の重み付け用パラメタ:γ

• 行動計画– 状態価値関数V(s)

– 行動価値関数Q(s,a)

価値関数を最大化する行動を選ぶ

強化学習におけるオプション

タスクをサブタスクに分割

ex.)タクシー問題なら迎えに行く+送り届ける

オプションのタプル:<τ, π, β>

τ:オプションに従う状態の条件

π:オプションの間従う方策

β:オプションの終了時に満たすべき状態の状況

ex.)迎えに行く時のオプション:

<客:¬(in Taxi), 近くの駅に行く, 客:(in Taxi)>

オプションの問題点

• ドメインに対する知識が必要

– MDPの知識が必要

– 軌跡からモデルを作るのはサンプリングが大変

• 複数のオプションが考えられうる

– 状態と一対一対応しているわけではない

– 場合によっては全体の実行が遅くなることも……

-> MDPの知識は出来るだけ使わない

各状態には一つしかオプションを追加しない

提案手法

提案手法の概要

1. 強化学習問題をグラフ化

2. 問題のグラフをSmall World Networkに

3. 頑健なオプションを導入する

Small World Network

強化学習問題のグラフ化

オプションを作るアルゴリズム

1. タスクを解いてみる

->行動価値関数Qを出力

2. 各状態sにオプションを追加別の状態s’を選ぶ。

Q(s’, π(s’)) > Q(S, π(S))なら

s → s’のオプションを追加。

*Qは目的地で最大

s’のサンプリングでしかMDPの知識は使っていない

評価実験

実験設定(1/2)

• 比較したアルゴリズム– None:オプションを使わない強化学習

– Random:ランダムにノードをつないだオプション

– Betweenness:ボトルネックを探索するアルゴリズム

– Small World:反比例する確率でオプションを生成

• 試行内容– ドメインにつき10個のランダムなタスク

– 40,000エピソードで探索打ち切り

– 20のAgentで試行し,その平均を利用

実験設定(2/2)

• 用いたドメイン

Arbitrary Navigation: 障害物のないグリッドワールド

Rooms: 4つの部屋に区切るような障害物あり

Taxi: 例で説明したドメイン

実験結果

Arbt. Navi, Roomsドメインでは圧勝

TaxiドメインではBetweennessに負けている

-> 終状態がちょうど中間最大値にあるため?

試行回数に対する頑健性

• 試行回数が限られているとき

→ Small Worldのオプションは強いはず

追加実験• 試行回数を変えた

• Roomsドメイン

結果• 多オプションなのに勝利

• エピソード数が多いものにも勝利

考察

まとめ

• オプション生成の新しい枠組みを考案

– サブタスクは再利用可能という直観に忠実

– MDPのモデルを必要としない

– ドメイン探索を行うものに比べ、コストが低い

• 実験によってその性能を評価

– 基本的な複数のドメインにおいて性能向上

– 試行回数が限られているような場合にも有効

Future Work

• 今回用いたパラメタの設定を一般化したい

• 連続値のドメインにも拡張

• タスクを解きながら動的にオプションを生成

• 得られたオプションを解析

私見

– グラフ理論で強化学習を効率化

– 数学的に最短経路に近づくことを保証

– 問題に対して一般性は高そう

×

– アルゴリズム自体の説明が簡素

– 複雑な問題で勝てなかった点

– もっと特殊なドメインだとどうなるのか見たかった