accumulatorを用いた動的抑制モデルと物理シミュレータを用い … ·...

前頭前野Accumulatorを用いた動的抑制モデルと物理シミュレータを用いた強化学習

- Noh, Gazebo, ROS, Gymの統合 -

慶應大大澤正彦

電通大芦原佑太

法政大島田大樹

メンター：倉重先生

前頭前野Accumulatorを用いた動的脱抑制モデルと物理シミュレータを用いた強化学習

0. Abstract1

提案

[すごい] 新しい [環境] [アルゴリズム]

[プラットフォーム] のすべてをセットアップ[おもろい] エージェントの気持ちを考えてみたら

今の強化学習が生物的に不自然だと気付いた[脳っぽい] 前頭前野の[役割]や[生理学的知見]を

総合的に踏まえてモデル化

特長

1. Introduction2

1. Introduction3

LIS (3人称視点)

1. Introduction4

Lisの気持ちになるですよ

Created by Kotone Itaya

LIS (1人称視点)

1. Introduction5

LISがかわいそう・・・

1. Introduction6

Pong

小刻みに上下する挙動が頻発

1. Introduction

LISやPongがかわいそうな要因

– 環境的要因

• 行動が離散

• 1回の行動選択が大きな影響

– アルゴリズム的要因

• 毎フレームごとに異なる行動選択

7

“脳っぽく” “今後を見越した”改善したい

1. Introduction

アプローチ

– 環境

• 物理シミュレータ Gazebo +

ロボットミドルウェア ROS + 強化学習環境 Gym

– アルゴリズム：

• 前頭前野Accumulatorを用いた動的抑制モデル

– プラットフォーム

• Noh

8

前頭前野Accumulatorを用いた動的抑制モデルと物理シミュレータを用いた強化学習

提案

認知アーキテクチャ学習プラットフォーム Noh

1. Introduction

アプローチ

9

Environment Agent

学習器学習器学習器

抑制Accumulator

State

Reward

Action

Gym, ROSを結合した物理シミュレータGazebo

複数の学習器を調停する抑制モデル

2. ENVIRONMENT

Noh + Gazebo + ROS + Gym

10

2. Environment11

2. Environment12

2. Environment

Gazeboの利点

– リアルタイム物理シミュレータ

• シミュレータ環境で学習したモデルを実世界のロボットに適用可能

– 連続的でなめらかなデータセットを取得可能

• PredNetのような時系列学習と相性◎

– ROSとの連携

• 多くのロボットのためのライブラリが使用可能

• E.g. 地図の作成, ナビゲーション

13

2. Environment14

Gazebo + ROS + Gym + Q learning の学習例

今回のハッカソンではGazebo上の学習はしません！

3. ALGORITHMアルゴリズム編

15

3. Algorithm

脳の意思決定

1. 実行できる行動を列挙

2. そのほとんどを抑制

3. とるべき行動に対して脱抑制

⇒複数モジュール間で抑制/脱抑制がベース♡

近年の強化学習の意思決定

– 多くは単一モジュールでEnd-to-End Learning

– 抑制/脱抑制の考え方は一般的ではない

16

複数モジュールで抑制/脱抑制を用いた強化学習

3. Algorithm

抑制/脱抑制を担う代表的な脳領域

– 大脳基底核

• 脳損傷例:

–パーキンソン病、ハンチントン病

• どちらかといえば低レイヤー

– 前頭前野

• 脳損傷例:

–利他的(倫理的)行動ができない、

–実行できると認識した行動を無意識に実行

• どちらかといえば高レイヤー

17

前頭前野損傷患者の症例≒現在の強化学習

⇒前頭前野に着目したモデル改良に期待

3. Algorithm

Accumulator モデル– ある意思決定をする場合に

• 毎回その意思決定のための “証拠” を ”累積証拠”

• ある閾値を超えたら, その行動を実行

– [Mazurek-Shadlen 2003 Cereb Cortex] [Hanks-Brody 2015 Nature]

• Accumulatorとして動作するニューロンを脳のさまざまな部位で発見

– [Schurger-Dehaene 2012 PNAS]

• 自発的な運動の開始がAccumulator モデルを用いてモデル化可能

– [Soon-Haynes 2008 Nat Neurosci]

• 自発的な運動選択の開始部位は前頭前野

18

Accumulatorは前頭前野のモデルとして妥当！！今回は”抑制”をAccumulatorでモデル化

認知アーキテクチャ学習プラットフォーム Noh

Agent

3. Algorithm

提案手法

19

State

Reward

停止上下 DQNC C C C

Accumulator GA閾値

C: 各モジュールが独自に計算した自信度

累積証拠

Action

＊Accumulatorをモデル化する際に頻繁に用いられるランジュマン方程式を利用した。ただしここでa(x,

t)=mu,b(x, t)=1, R(t)を平均0,分散sigmaのホワイトノイズを仮定する。また、ランジュマン方程式を伊藤の方式で式変形したフォッカープランク方程式と等価であり、そのふるまいを式から想定（できる人には）できる

3. Algorithm

提案手法の性質と工学的利点

– 学習器と抑制器が階層的

• Accumulatorの時定数が長い

• 証拠が蓄積するまで同じ方策

⇒フラフラしない！生物としては妥当！

• 学習器が学習した行動をその時の報酬環境にしたがって、柔軟に切り替え可能

⇒強化学習の探索空間の制限

• 報酬環境の切り替えを、確率微分方程式のパラメタを変えるだけで実現可能

⇒モデルがシンプル！

20

工学的な話はここまで。個々からはスコア向上を目指さない

3. Algorithm21

1世代目

3. Algorithm22

2世代目

3. Algorithm23

3世代目

従来法と3世代目との比較

24

なし提案手法

かわいい・・・

前頭前野Accumulatorを用いた動的脱抑制モデルと物理シミュレータを用いた強化学習

Conclusion25

提案

[すごい] 新しい [環境] [アルゴリズム]

[プラットフォーム] のすべてをセットアップ[おもろい] エージェントの気持ちを考えてみたら

今の強化学習が生物的に不自然だと気付いた[脳っぽい] 前頭前野の[役割]や[生理学的知見]を

総合的に踏まえてモデル化

特長

構築したアルゴリズムをGazebo上で動作

展望

Appendix

3. Algorithm27

3. Algorithm

0

0.5

1

1.5

2

2.5

3

3.5

0 0.5 1 1.5 2 2.5 3

Y の値

Y の値

28

0

0.1

0.2

0.3

0.4

0.5

0.6

1 6 11 16

行動の継続しにくさ

世代

generation - μ (DQN module)

3. Algorithm29

4世代目

3. Algorithm

実験1: Suppression Boostingなし VS あり

30

なしあり

結果: SBによって無駄な動きが軽減

従来法と4世代目との比較

31

32

5世代目

33

6世代目

3. Algorithm34

36世代目

35

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0 2 4 6 8 10 12 14 16 18

generation - μ (All module)

DQN

Stop

Up

"Down"

3. Algorithm

Accumulator モデル


• <ヒト>

• 自発的運動の開始がaccumulatorモデルで説明できる．

– [Kelly-O'Connell 2013 JNS]

• <ヒト>

• ランダムドットの知覚的意思決定．

• accumulationっぽいEEG活動が見られる．

– [Hanks-Brody 2015 Nature]

• <ラット>

• 知覚的意思決定．accumulator的な活動は頭頂葉と前頭前野で見られる．

• なんかよくわからん解析をした結果，前者は実際にaccumulator的だが前頭前野はカテゴリー的

36

サーベイ



• <ヒト>

• 自発的運動の開始がaccumulatorモデルで説明できる．

– [Soon-Haynes 2013 PNAS]

• <ヒト>

• 自由選択（足し算をするか引き算をするか）が，意思決定の数秒前に内側前頭前野と内側側頭皮質の活動から予測できる．

37


– [Soon-Haynes 2008 Nat Neurosci]

– [Bode-Haynes 2011 Plos One]

• <ヒト>

• 自由選択（ボタン押し）が，意思決定の数秒前に脳活動から予測できる．

• 2008で前頭極が時間的に一番先行することが示され，2011は前頭極に絞った解析．

38


– [Polania 2014 Neuron]

• <ヒト>

• accumulatorによる意思決定を，知覚的意思決定と価値的意思決定で比較．

• 前頭前野は価値的意思決定のみ，頭頂葉は両方に関与．

– [Kelly-O'Connell 2013 JNS]

• <ヒト>

• ランダムドットの知覚的意思決定．

• accumulationっぽいEEG活動が見られる．

39


– [Bode 2012 JNS]

• <ヒト>

• 知覚的意思決定（ノイジー画像の知覚）の解析

• accumulatorモデルを用いたもの．

40


– [Mazurek-Shadlen 2003 Cereb Cortex]

– [Gold-Shadlen 2007 Annu Rev Neurosci]

• <サル>

• 知覚的意思決定をaccumulatorモデルで説明した古典的論文と，その総説．

– [Hanks-Brody 2015 Nature]

• <ラット>

• 知覚的意思決定．accumulator的な活動は頭頂葉と前頭前野で見られる．

• なんかよくわからん解析をした結果，前者は実際にaccumulator的だが前頭前野はカテゴリー的

41

accumulatorを用いた動的抑制モデルと 物理シミュレータを用い … ·...

Documents

accumulatorを用いた動的抑制モデルと物理シミュレータを用い … ·...