山口大学大学院 理工学研究科 m2  兼平 龍

18
A layered approach to learning coordination knowledge in multiagent environments ( マママママママママママママママママママママママママママママママ ) マママママママ ママママママ M2 ママ マ 1 2010/10/15 ママママママママ

Upload: quynn-dickson

Post on 31-Dec-2015

37 views

Category:

Documents


3 download

DESCRIPTION

2010/10/15 先端論文紹介ゼミ. 「 A layered approach to learning coordination knowledge in multiagent environments 」 ( マルチエージェント環境で知識を調整学習するレイヤー型アプローチ ). 山口大学大学院 理工学研究科 M2  兼平 龍. 1. イントロダクション -Introduction-. かつては強化学習についての研究は主にシングルエージェントでのシステムに集中していました . - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: 山口大学大学院 理工学研究科 M2  兼平 龍

「 A layered approach to learning coordination knowledgein multiagent environments 」

( マルチエージェント環境で知識を調整学習するレイヤー型アプローチ )

山口大学大学院 理工学研究科M2  兼平 龍

1

2010/10/15  先端論文紹介ゼミ

Page 2: 山口大学大学院 理工学研究科 M2  兼平 龍

1. イントロダクション -Introduction-

かつては強化学習についての研究は主にシングルエージェントでのシステムに集中していました .

しかし、自律的シミュレーションなどの複雑なアプリケーションが増えていく中マルチエージェントシステムが重要になり様々な研究が行われてきました .

本論文では追跡問題において新しいマルチエージェント学習アルゴリズムを提案した .

アプローチの独創性として…   ・ 2 レベル学習アルゴリズム   ・ハンター間における潜在的コミュニケーショ

ン   がありま

す .

2

Page 3: 山口大学大学院 理工学研究科 M2  兼平 龍

2. 強化学習 -Reinforcement learning-

強化学習とは環境からの試行錯誤的なインタラクションにより最適な行動を学ぶ事です . 一般的なものとして Q 学習・ Sarsaがあります .

Q 学習は Q 値を政策を用いて行動決定に利用します .Q 学習において状態-行動の組の価値は Q テーブルに置かれ、以下の公式に従い更新されます .

3

・行動選択メカニズム  今回使用するボルツマン選択は各々の行動を選ぶ可能性を計算します . 温度tは可能性を調整するパラメータで、徐々に減少させます .

Page 4: 山口大学大学院 理工学研究科 M2  兼平 龍

2. 強化学習 -Reinforcement learning-

マルチエージェント強化学習   シングルエージェント強化学習を複数のエージェント

に広げたものです . しかし、ロボティクスやネット上のソフトウェアのような現実問題に Q 値 ( 状態-行動の組 ) を適応させる事は困難です .

階層型強化学習 (HRL)  そこで、状態空間が階層的に構築される強化学習の研

究がされてきました .HRL 方法はより早く政策を学びますが、現在はシングルエージェントでの研究であり、マルチエージェントの様な複雑な問題では実用されていません .

4

Page 5: 山口大学大学院 理工学研究科 M2  兼平 龍

3. 問題設定 -Problem domain-

追跡問題の解説 ・ 2 種類 ( ハンター・獲物 ) のエージェント ・ エージェントは視覚の深さ d で観測することが出来ます ・ ハンターと獲物は別々のステップで行動します ・ ハンターが獲物の周りを囲んだ時、終了 ( 捕獲 ) とします 獲物 ・ 獲物は大小 2 つのタイプがある . 大きい獲物 [P] : 2 体以上のハンターで捕まえる  小さい獲物 [p]: 1体のハンターで捕まえる ・ 獲物の観測範囲内にハンターがいる場合、最も近いハンターのマンハッタ

ン距離が最大になるように動く ( ハンターから逃げる ) ハンター ・ ハンターは観測範囲内で獲物・最も近いハンターを観測する ( 状態空間節約

のため )5

図 .2  深さ 3 のハンター H1 の観測範囲

Page 6: 山口大学大学院 理工学研究科 M2  兼平 龍

4. コミュニケーションによる 2 レベル強化学習 -Two-level reinforcement learning with communication-

開発したアルゴリズム .4.1 利己的ハンター (SRL,NRL ハンター ) SRL ハンター : 他のハンターを考慮しない  ハンターは環境として大小の獲物を観測し行動し

ます .

NRL ハンター : 近いハンターを状態空間の1部に含む

  行動を選ぶ際に近いハンターの位置情報も観測します .

 

6

協力するハンターがいるにも関わらず小さい獲物に続いたり .反対に誰もいないのに大きい獲物を選んでしまう事がある .

他ハンターと大小の獲物を含むため状態空間は大きく、学習は遅くなるが潜在的な協調行動を示すようになるかもしれない .

Page 7: 山口大学大学院 理工学研究科 M2  兼平 龍

4. コミュニケーションによる 2 レベル強化学習  -Two-level reinforcement learning with communication-

4.2 2 レベル強化学習コミュニケーションエージェント

 ・第1レベル:協力的 (隣のハンターの後を追う )か、自己的 ( 自身が大きい獲物を捕まえる ) かの決定を行う .

 ・第2レベル:第1での決定により行動を選ぶ .

7

2LRL-1 「 1: 大きい獲物のみの環境」

2LRL-2 「 2 :大小の獲物がいる環境」

2

レベル強化学習法

・ 2LRL-1.1 「 1 :レベル 1 の学習無し」・ 2LRL-1.2 「 2 :レベル 1 の学習あり」

・ 2LRL-2.1 「 1 :レベル 1 の学習無し」・ 2LRL-2.2 「 2 :レベル 1 の学習あり」

※コミュニケーションとして隣にいるハンターは近い大きい獲物の距離を送ります .

Page 8: 山口大学大学院 理工学研究科 M2  兼平 龍

4.2.1 大きい獲物のみの環境の 2LRL-1 アルゴリズム

8

第1レベル

第 2 レベル

・ Qfollow( 状態 : 観測 [位置 ]情報×送られた獲物位置 , 行動 : あとに続くor続かない )・ QOwn( 状態 : 大きい獲物の位置 , 行動 : 上下左右止の 5 行動 )・ QOther( 状態 : 観測情報× 大きな獲物の距離 , 行動 : 上下左右止の 5 行動 )

Q

テー

ブル

A の観測情報

B からの獲物の位置

Page 9: 山口大学大学院 理工学研究科 M2  兼平 龍

4.2.1 大きい獲物のみの環境の 2LRL-1 アルゴリズム

2LRL-1.1:バージョン 1( レベル 1 の学習なく、指示がある )

 ・ 隣のハンターの後に続く、続かないという決定はない . ・ 自己の観測情報とコミュニケーション情報が与えられる . ・ 2 ハンター間 ( 自己、隣 ) で獲物までの距離を比較し、自

己の距離が遠い場合 QOther より後を追うようになる .

2LRL-1.2:バージョン 2( レベル 1 の学習あり、指示が無い )

 ・ 隣のハンターに続くかどうか学習をする . ・ このバージョンでは自己と隣の大獲物の距離を比較して…

                         を学習します .

9

・自分の距離が小さいなら : 自身に従い行動する

・自分の距離が大きいなら :隣のハンターの後を追う行動をする

Page 10: 山口大学大学院 理工学研究科 M2  兼平 龍

4.2.2 大小の獲物のいる環境の 2LRL-2 アルゴリズム

10

大きい獲物を追いかける

小さい獲物を追いかける

・ Qfollow :ハンターの後に続くか、獲物を追うかの選択に使用 .・ Qprey: 大小どちらの獲物を選ぶかの選択に使用 .・ QOwnp :獲物を追う場合での小さい獲物を追いかける際の行動に使用 .・ QOwnP: 獲物を追う場合での大きい獲物を追いかける際の行動に使用 .・ Qother: ハンターの後に続く場合での行動に使用 .

※ハンターの観測情報や隣との情報は省略

こちらもレベル 1 の学習ありなしで2LRL-2.1( レベル 1 なし )2LRL-2.2( レベル 1 あり )       …分けられる .

大小の獲物の選択に使用

Page 11: 山口大学大学院 理工学研究科 M2  兼平 龍

4.2.2 2LRL-2 アルゴリズムでの行動選択例

11

5 マス

3 マス

Lv1   A:3 マス< B:5 マス・・・ Lv2   A に続く :↓ 行動

Lv1   A:3 マス< B:5 マス・・・獲物を追う

4 マス

Lv2   p:4 マス< P1:3 マス・・・ P 1を追う :↓ 行動

Page 12: 山口大学大学院 理工学研究科 M2  兼平 龍

4.3 2 レベル強化学習アルゴリズムの利点

1. 状態空間のサイズがエージェントタイプ ( ハンター , 大小の獲物 )ごとに異なる Q テーブルを用いているため大幅に減少される .

2. ハンターの行動選択の第 1 レベルにおいて目標を学び、第 2 レベルにおいて目標を追いかけます .つまり、小さい獲物を追いかけるハンターは大きい獲物の観測情報を考慮しないで済むという事です .

3. アルゴリズムに関しては多くの獲物が存在する環境にも適用できる .

12

Page 13: 山口大学大学院 理工学研究科 M2  兼平 龍

5. シミュレーション結果

今回実装したアルゴリズム・ SRL( 利己的 ) ハンター・ NRL(隣の情報もある ) ハンター・ 2LRL-1( 大きい獲物だけの 2 レベル RL) - 2LRL-1.1( レベル1なし )   - 2LRL-1.2( レベル1あり )・ 2LRL-2( 大小の獲物がいる 2 レベル RL) - 2LRL-2.1( レベル1なし )   - 2LRL-2.2( レベル1あり )

13

表 .入力セット

sg: グリッド (sg×sg) の一辺のサイズH: ハンター数p: 小さい獲物の数P: 大きい獲物の数

※Q 値が収束するまでトレーニングを行い  のちにテストを行う .

Page 14: 山口大学大学院 理工学研究科 M2  兼平 龍

5.1 温度定数の決定

14

異なる温度で入力セット In1 を使用した SRL の結果 .

Ntest :テスト期間でゴールまでのステップ数

t を 1 から 0.3へ減少させる事にした .

Page 15: 山口大学大学院 理工学研究科 M2  兼平 龍

5.2.1~各アルゴリズムの比較結果

SRL と NRL の比較

SRL と 2LRL-1.1 の比較(小さいグリッド)

15

⇒NRL の方が悪い結果となった .原因としてはエージェントが Qテーブルを切り離す方法では全ての組を探索できなかった事がある .

⇒結果として、 SRL と 2LRL-1.1との違いはあまり表れなかった .しかし 2LRL-1.1 がわずかに良かった点として SRL には見られなかった協調行動が確認できた事です .

Page 16: 山口大学大学院 理工学研究科 M2  兼平 龍

5.2.1~各アルゴリズムの比較結果

SRL と 2LRL-1.1 の比較(大きいグリッド)

2LRL-1.1 と 2LRL-1.2 の比較

16

⇒協調行動の重要性を強調するために大きいグリッドでテストした . また、有利に働く初期位置の場合も行い 2LRL-1.1 はさらに良い結果を示した .

⇒2LRL-1.2 では Q テーブルが多いため学習までに時間がかかったが、 2LRL-1.1 と同等の結果となった .

Page 17: 山口大学大学院 理工学研究科 M2  兼平 龍

5.2.1~各アルゴリズムの比較結果

SRL と 2LRL-2.1 の比較

2LRL-2.1 と 2LRL-2.2 の比較

17

⇒2LRL-2.1 は SRL と比較して良い結果となった .

⇒2LRL-2.2 では、隣のハンターに続くか続かないという正しい行動はできたが、 Qprey テーブルが収束することが出来ず大小の獲物を決め追いかける学習が出来なかった .

Page 18: 山口大学大学院 理工学研究科 M2  兼平 龍

6.結論と今後 マルチエージェント学習における、コミュニケーショ

ンによる 2 レベル決定メカニズムを開発しました .

2 つの階層的なレベルに分ける事でハンターの観測範囲内での全て状態を考慮する代わりに、状態空間のサイズを一定にすることを可能にしました .

しかしハンター間での協調行動は確認できたが、きちんと近い獲物を追いかける学習はできませんでした .

今回は特定の問題設定であったが、使用の修正により多くのハンターのいる集団行動のメカニズムでも良い結果を示すかもしれません .

18