accumulatorを用いた動的抑制モデルと 物理シミュレータを用い … ·...
TRANSCRIPT
![Page 1: Accumulatorを用いた動的抑制モデルと 物理シミュレータを用い … · •どちらかといえば低レイヤー –前頭前野 •脳損傷例: –利他的(倫理的)行動ができない、](https://reader033.vdocuments.pub/reader033/viewer/2022052104/603f8b17d8ec9c230e290e20/html5/thumbnails/1.jpg)
前頭前野Accumulatorを用いた動的抑制モデルと物理シミュレータを用いた強化学習
- Noh, Gazebo, ROS, Gymの統合 -
慶應大大澤正彦
電通大芦原佑太
法政大島田大樹
メンター: 倉重先生
![Page 2: Accumulatorを用いた動的抑制モデルと 物理シミュレータを用い … · •どちらかといえば低レイヤー –前頭前野 •脳損傷例: –利他的(倫理的)行動ができない、](https://reader033.vdocuments.pub/reader033/viewer/2022052104/603f8b17d8ec9c230e290e20/html5/thumbnails/2.jpg)
前頭前野Accumulatorを用いた動的脱抑制モデルと物理シミュレータを用いた強化学習
0. Abstract1
提案
[すごい] 新しい [環境] [アルゴリズム]
[プラットフォーム] のすべてをセットアップ[おもろい] エージェントの気持ちを考えてみたら
今の強化学習が生物的に不自然だと気付いた[脳っぽい] 前頭前野の[役割]や[生理学的知見]を
総合的に踏まえてモデル化
特長
![Page 3: Accumulatorを用いた動的抑制モデルと 物理シミュレータを用い … · •どちらかといえば低レイヤー –前頭前野 •脳損傷例: –利他的(倫理的)行動ができない、](https://reader033.vdocuments.pub/reader033/viewer/2022052104/603f8b17d8ec9c230e290e20/html5/thumbnails/3.jpg)
1. Introduction2
![Page 4: Accumulatorを用いた動的抑制モデルと 物理シミュレータを用い … · •どちらかといえば低レイヤー –前頭前野 •脳損傷例: –利他的(倫理的)行動ができない、](https://reader033.vdocuments.pub/reader033/viewer/2022052104/603f8b17d8ec9c230e290e20/html5/thumbnails/4.jpg)
1. Introduction3
LIS (3人称視点)
![Page 5: Accumulatorを用いた動的抑制モデルと 物理シミュレータを用い … · •どちらかといえば低レイヤー –前頭前野 •脳損傷例: –利他的(倫理的)行動ができない、](https://reader033.vdocuments.pub/reader033/viewer/2022052104/603f8b17d8ec9c230e290e20/html5/thumbnails/5.jpg)
1. Introduction4
Lisの気持ちになるですよ
Created by Kotone Itaya
![Page 6: Accumulatorを用いた動的抑制モデルと 物理シミュレータを用い … · •どちらかといえば低レイヤー –前頭前野 •脳損傷例: –利他的(倫理的)行動ができない、](https://reader033.vdocuments.pub/reader033/viewer/2022052104/603f8b17d8ec9c230e290e20/html5/thumbnails/6.jpg)
LIS (1人称視点)
1. Introduction5
LISがかわいそう・・・
![Page 7: Accumulatorを用いた動的抑制モデルと 物理シミュレータを用い … · •どちらかといえば低レイヤー –前頭前野 •脳損傷例: –利他的(倫理的)行動ができない、](https://reader033.vdocuments.pub/reader033/viewer/2022052104/603f8b17d8ec9c230e290e20/html5/thumbnails/7.jpg)
1. Introduction6
Pong
小刻みに上下する挙動が頻発
![Page 8: Accumulatorを用いた動的抑制モデルと 物理シミュレータを用い … · •どちらかといえば低レイヤー –前頭前野 •脳損傷例: –利他的(倫理的)行動ができない、](https://reader033.vdocuments.pub/reader033/viewer/2022052104/603f8b17d8ec9c230e290e20/html5/thumbnails/8.jpg)
1. Introduction
LISやPongがかわいそうな要因
– 環境的要因
• 行動が離散
• 1回の行動選択が大きな影響
– アルゴリズム的要因
• 毎フレームごとに異なる行動選択
7
“脳っぽく” “今後を見越した”改善したい
![Page 9: Accumulatorを用いた動的抑制モデルと 物理シミュレータを用い … · •どちらかといえば低レイヤー –前頭前野 •脳損傷例: –利他的(倫理的)行動ができない、](https://reader033.vdocuments.pub/reader033/viewer/2022052104/603f8b17d8ec9c230e290e20/html5/thumbnails/9.jpg)
1. Introduction
アプローチ
– 環境
• 物理シミュレータ Gazebo +
ロボットミドルウェア ROS + 強化学習環境 Gym
– アルゴリズム:
• 前頭前野Accumulatorを用いた動的抑制モデル
– プラットフォーム
• Noh
8
前頭前野Accumulatorを用いた動的抑制モデルと物理シミュレータを用いた強化学習
提案
![Page 10: Accumulatorを用いた動的抑制モデルと 物理シミュレータを用い … · •どちらかといえば低レイヤー –前頭前野 •脳損傷例: –利他的(倫理的)行動ができない、](https://reader033.vdocuments.pub/reader033/viewer/2022052104/603f8b17d8ec9c230e290e20/html5/thumbnails/10.jpg)
認知アーキテクチャ学習プラットフォーム Noh
1. Introduction
アプローチ
9
Environment Agent
学習器 学習器 学習器
抑制Accumulator
State
Reward
Action
Gym, ROSを結合した物理シミュレータGazebo
複数の学習器を調停する抑制モデル
![Page 11: Accumulatorを用いた動的抑制モデルと 物理シミュレータを用い … · •どちらかといえば低レイヤー –前頭前野 •脳損傷例: –利他的(倫理的)行動ができない、](https://reader033.vdocuments.pub/reader033/viewer/2022052104/603f8b17d8ec9c230e290e20/html5/thumbnails/11.jpg)
2. ENVIRONMENT
Noh + Gazebo + ROS + Gym
10
![Page 12: Accumulatorを用いた動的抑制モデルと 物理シミュレータを用い … · •どちらかといえば低レイヤー –前頭前野 •脳損傷例: –利他的(倫理的)行動ができない、](https://reader033.vdocuments.pub/reader033/viewer/2022052104/603f8b17d8ec9c230e290e20/html5/thumbnails/12.jpg)
2. Environment11
![Page 13: Accumulatorを用いた動的抑制モデルと 物理シミュレータを用い … · •どちらかといえば低レイヤー –前頭前野 •脳損傷例: –利他的(倫理的)行動ができない、](https://reader033.vdocuments.pub/reader033/viewer/2022052104/603f8b17d8ec9c230e290e20/html5/thumbnails/13.jpg)
2. Environment12
![Page 14: Accumulatorを用いた動的抑制モデルと 物理シミュレータを用い … · •どちらかといえば低レイヤー –前頭前野 •脳損傷例: –利他的(倫理的)行動ができない、](https://reader033.vdocuments.pub/reader033/viewer/2022052104/603f8b17d8ec9c230e290e20/html5/thumbnails/14.jpg)
2. Environment
Gazeboの利点
– リアルタイム物理シミュレータ
• シミュレータ環境で学習したモデルを実世界のロボットに適用可能
– 連続的でなめらかなデータセットを取得可能
• PredNetのような時系列学習と相性◎
– ROSとの連携
• 多くのロボットのためのライブラリが使用可能
• E.g. 地図の作成, ナビゲーション
13
![Page 15: Accumulatorを用いた動的抑制モデルと 物理シミュレータを用い … · •どちらかといえば低レイヤー –前頭前野 •脳損傷例: –利他的(倫理的)行動ができない、](https://reader033.vdocuments.pub/reader033/viewer/2022052104/603f8b17d8ec9c230e290e20/html5/thumbnails/15.jpg)
2. Environment14
Gazebo + ROS + Gym + Q learning の学習例
今回のハッカソンではGazebo上の学習はしません!
![Page 16: Accumulatorを用いた動的抑制モデルと 物理シミュレータを用い … · •どちらかといえば低レイヤー –前頭前野 •脳損傷例: –利他的(倫理的)行動ができない、](https://reader033.vdocuments.pub/reader033/viewer/2022052104/603f8b17d8ec9c230e290e20/html5/thumbnails/16.jpg)
3. ALGORITHMアルゴリズム編
15
![Page 17: Accumulatorを用いた動的抑制モデルと 物理シミュレータを用い … · •どちらかといえば低レイヤー –前頭前野 •脳損傷例: –利他的(倫理的)行動ができない、](https://reader033.vdocuments.pub/reader033/viewer/2022052104/603f8b17d8ec9c230e290e20/html5/thumbnails/17.jpg)
3. Algorithm
脳の意思決定
1. 実行できる行動を列挙
2. そのほとんどを抑制
3. とるべき行動に対して脱抑制
⇒複数モジュール間で抑制/脱抑制がベース♡
近年の強化学習の意思決定
– 多くは単一モジュールでEnd-to-End Learning
– 抑制/脱抑制の考え方は一般的ではない
16
複数モジュールで抑制/脱抑制を用いた強化学習
![Page 18: Accumulatorを用いた動的抑制モデルと 物理シミュレータを用い … · •どちらかといえば低レイヤー –前頭前野 •脳損傷例: –利他的(倫理的)行動ができない、](https://reader033.vdocuments.pub/reader033/viewer/2022052104/603f8b17d8ec9c230e290e20/html5/thumbnails/18.jpg)
3. Algorithm
抑制/脱抑制を担う代表的な脳領域
– 大脳基底核
• 脳損傷例:
–パーキンソン病、ハンチントン病
• どちらかといえば低レイヤー
– 前頭前野
• 脳損傷例:
–利他的(倫理的)行動ができない、
–実行できると認識した行動を無意識に実行
• どちらかといえば高レイヤー
17
前頭前野損傷患者の症例≒現在の強化学習
⇒前頭前野に着目したモデル改良に期待
![Page 19: Accumulatorを用いた動的抑制モデルと 物理シミュレータを用い … · •どちらかといえば低レイヤー –前頭前野 •脳損傷例: –利他的(倫理的)行動ができない、](https://reader033.vdocuments.pub/reader033/viewer/2022052104/603f8b17d8ec9c230e290e20/html5/thumbnails/19.jpg)
3. Algorithm
Accumulator モデル– ある意思決定をする場合に
• 毎回その意思決定のための “証拠” を ”累積証拠”
• ある閾値を超えたら, その行動を実行
– [Mazurek-Shadlen 2003 Cereb Cortex] [Hanks-Brody 2015 Nature]
• Accumulatorとして動作するニューロンを脳のさまざまな部位で発見
– [Schurger-Dehaene 2012 PNAS]
• 自発的な運動の開始がAccumulator モデルを用いてモデル化可能
– [Soon-Haynes 2008 Nat Neurosci]
• 自発的な運動選択の開始部位は前頭前野
18
Accumulatorは前頭前野のモデルとして妥当!!今回は”抑制”をAccumulatorでモデル化
![Page 20: Accumulatorを用いた動的抑制モデルと 物理シミュレータを用い … · •どちらかといえば低レイヤー –前頭前野 •脳損傷例: –利他的(倫理的)行動ができない、](https://reader033.vdocuments.pub/reader033/viewer/2022052104/603f8b17d8ec9c230e290e20/html5/thumbnails/20.jpg)
認知アーキテクチャ学習プラットフォーム Noh
Agent
3. Algorithm
提案手法
19
State
Reward
停止 上 下 DQNC C C C
Accumulator GA閾値
C: 各モジュールが独自に計算した自信度
累積証拠
Action
*Accumulatorをモデル化する際に頻繁に用いられるランジュマン方程式を利用した。ただしここでa(x,
t)=mu,b(x, t)=1, R(t)を平均0,分散sigmaのホワイトノイズを仮定する。また、ランジュマン方程式を伊藤の方式で式変形したフォッカープランク方程式と等価であり、そのふるまいを式から想定(できる人には)できる
![Page 21: Accumulatorを用いた動的抑制モデルと 物理シミュレータを用い … · •どちらかといえば低レイヤー –前頭前野 •脳損傷例: –利他的(倫理的)行動ができない、](https://reader033.vdocuments.pub/reader033/viewer/2022052104/603f8b17d8ec9c230e290e20/html5/thumbnails/21.jpg)
3. Algorithm
提案手法の性質と工学的利点
– 学習器と抑制器が階層的
• Accumulatorの時定数が長い
• 証拠が蓄積するまで同じ方策
⇒フラフラしない!生物としては妥当!
• 学習器が学習した行動をその時の報酬環境にしたがって、柔軟に切り替え可能
⇒強化学習の探索空間の制限
• 報酬環境の切り替えを、確率微分方程式のパラメタを変えるだけで実現可能
⇒モデルがシンプル!
20
工学的な話はここまで。個々からはスコア向上を目指さない
![Page 22: Accumulatorを用いた動的抑制モデルと 物理シミュレータを用い … · •どちらかといえば低レイヤー –前頭前野 •脳損傷例: –利他的(倫理的)行動ができない、](https://reader033.vdocuments.pub/reader033/viewer/2022052104/603f8b17d8ec9c230e290e20/html5/thumbnails/22.jpg)
3. Algorithm21
1世代目
![Page 23: Accumulatorを用いた動的抑制モデルと 物理シミュレータを用い … · •どちらかといえば低レイヤー –前頭前野 •脳損傷例: –利他的(倫理的)行動ができない、](https://reader033.vdocuments.pub/reader033/viewer/2022052104/603f8b17d8ec9c230e290e20/html5/thumbnails/23.jpg)
3. Algorithm22
2世代目
![Page 24: Accumulatorを用いた動的抑制モデルと 物理シミュレータを用い … · •どちらかといえば低レイヤー –前頭前野 •脳損傷例: –利他的(倫理的)行動ができない、](https://reader033.vdocuments.pub/reader033/viewer/2022052104/603f8b17d8ec9c230e290e20/html5/thumbnails/24.jpg)
3. Algorithm23
3世代目
![Page 25: Accumulatorを用いた動的抑制モデルと 物理シミュレータを用い … · •どちらかといえば低レイヤー –前頭前野 •脳損傷例: –利他的(倫理的)行動ができない、](https://reader033.vdocuments.pub/reader033/viewer/2022052104/603f8b17d8ec9c230e290e20/html5/thumbnails/25.jpg)
従来法と3世代目との比較
24
なし 提案手法
かわいい・・・
![Page 26: Accumulatorを用いた動的抑制モデルと 物理シミュレータを用い … · •どちらかといえば低レイヤー –前頭前野 •脳損傷例: –利他的(倫理的)行動ができない、](https://reader033.vdocuments.pub/reader033/viewer/2022052104/603f8b17d8ec9c230e290e20/html5/thumbnails/26.jpg)
前頭前野Accumulatorを用いた動的脱抑制モデルと物理シミュレータを用いた強化学習
Conclusion25
提案
[すごい] 新しい [環境] [アルゴリズム]
[プラットフォーム] のすべてをセットアップ[おもろい] エージェントの気持ちを考えてみたら
今の強化学習が生物的に不自然だと気付いた[脳っぽい] 前頭前野の[役割]や[生理学的知見]を
総合的に踏まえてモデル化
特長
構築したアルゴリズムをGazebo上で動作
展望
![Page 27: Accumulatorを用いた動的抑制モデルと 物理シミュレータを用い … · •どちらかといえば低レイヤー –前頭前野 •脳損傷例: –利他的(倫理的)行動ができない、](https://reader033.vdocuments.pub/reader033/viewer/2022052104/603f8b17d8ec9c230e290e20/html5/thumbnails/27.jpg)
Appendix
![Page 28: Accumulatorを用いた動的抑制モデルと 物理シミュレータを用い … · •どちらかといえば低レイヤー –前頭前野 •脳損傷例: –利他的(倫理的)行動ができない、](https://reader033.vdocuments.pub/reader033/viewer/2022052104/603f8b17d8ec9c230e290e20/html5/thumbnails/28.jpg)
3. Algorithm27
![Page 29: Accumulatorを用いた動的抑制モデルと 物理シミュレータを用い … · •どちらかといえば低レイヤー –前頭前野 •脳損傷例: –利他的(倫理的)行動ができない、](https://reader033.vdocuments.pub/reader033/viewer/2022052104/603f8b17d8ec9c230e290e20/html5/thumbnails/29.jpg)
3. Algorithm
0
0.5
1
1.5
2
2.5
3
3.5
0 0.5 1 1.5 2 2.5 3
Y の値
Y の値
28
0
0.1
0.2
0.3
0.4
0.5
0.6
1 6 11 16
行動の継続しにくさ
世代
generation - μ (DQN module)
![Page 30: Accumulatorを用いた動的抑制モデルと 物理シミュレータを用い … · •どちらかといえば低レイヤー –前頭前野 •脳損傷例: –利他的(倫理的)行動ができない、](https://reader033.vdocuments.pub/reader033/viewer/2022052104/603f8b17d8ec9c230e290e20/html5/thumbnails/30.jpg)
3. Algorithm29
4世代目
![Page 31: Accumulatorを用いた動的抑制モデルと 物理シミュレータを用い … · •どちらかといえば低レイヤー –前頭前野 •脳損傷例: –利他的(倫理的)行動ができない、](https://reader033.vdocuments.pub/reader033/viewer/2022052104/603f8b17d8ec9c230e290e20/html5/thumbnails/31.jpg)
3. Algorithm
実験1: Suppression Boostingなし VS あり
30
なし あり
結果: SBによって無駄な動きが軽減
![Page 32: Accumulatorを用いた動的抑制モデルと 物理シミュレータを用い … · •どちらかといえば低レイヤー –前頭前野 •脳損傷例: –利他的(倫理的)行動ができない、](https://reader033.vdocuments.pub/reader033/viewer/2022052104/603f8b17d8ec9c230e290e20/html5/thumbnails/32.jpg)
従来法と4世代目との比較
31
![Page 33: Accumulatorを用いた動的抑制モデルと 物理シミュレータを用い … · •どちらかといえば低レイヤー –前頭前野 •脳損傷例: –利他的(倫理的)行動ができない、](https://reader033.vdocuments.pub/reader033/viewer/2022052104/603f8b17d8ec9c230e290e20/html5/thumbnails/33.jpg)
32
5世代目
![Page 34: Accumulatorを用いた動的抑制モデルと 物理シミュレータを用い … · •どちらかといえば低レイヤー –前頭前野 •脳損傷例: –利他的(倫理的)行動ができない、](https://reader033.vdocuments.pub/reader033/viewer/2022052104/603f8b17d8ec9c230e290e20/html5/thumbnails/34.jpg)
33
6世代目
![Page 35: Accumulatorを用いた動的抑制モデルと 物理シミュレータを用い … · •どちらかといえば低レイヤー –前頭前野 •脳損傷例: –利他的(倫理的)行動ができない、](https://reader033.vdocuments.pub/reader033/viewer/2022052104/603f8b17d8ec9c230e290e20/html5/thumbnails/35.jpg)
3. Algorithm34
36世代目
![Page 36: Accumulatorを用いた動的抑制モデルと 物理シミュレータを用い … · •どちらかといえば低レイヤー –前頭前野 •脳損傷例: –利他的(倫理的)行動ができない、](https://reader033.vdocuments.pub/reader033/viewer/2022052104/603f8b17d8ec9c230e290e20/html5/thumbnails/36.jpg)
35
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0 2 4 6 8 10 12 14 16 18
generation - μ (All module)
DQN
Stop
Up
"Down"
![Page 37: Accumulatorを用いた動的抑制モデルと 物理シミュレータを用い … · •どちらかといえば低レイヤー –前頭前野 •脳損傷例: –利他的(倫理的)行動ができない、](https://reader033.vdocuments.pub/reader033/viewer/2022052104/603f8b17d8ec9c230e290e20/html5/thumbnails/37.jpg)
3. Algorithm
Accumulator モデル
– [Schurger-Dehaene 2012 PNAS]
• <ヒト>
• 自発的運動の開始がaccumulatorモデルで説明できる.
– [Kelly-O'Connell 2013 JNS]
• <ヒト>
• ランダムドットの知覚的意思決定.
• accumulationっぽいEEG活動が見られる.
– [Hanks-Brody 2015 Nature]
• <ラット>
• 知覚的意思決定.accumulator的な活動は頭頂葉と前頭前野で見られる.
• なんかよくわからん解析をした結果,前者は実際にaccumulator的だが前頭前野はカテゴリー的
36
![Page 38: Accumulatorを用いた動的抑制モデルと 物理シミュレータを用い … · •どちらかといえば低レイヤー –前頭前野 •脳損傷例: –利他的(倫理的)行動ができない、](https://reader033.vdocuments.pub/reader033/viewer/2022052104/603f8b17d8ec9c230e290e20/html5/thumbnails/38.jpg)
サーベイ
Accumulator モデル
– [Schurger-Dehaene 2012 PNAS]
• <ヒト>
• 自発的運動の開始がaccumulatorモデルで説明できる.
– [Soon-Haynes 2013 PNAS]
• <ヒト>
• 自由選択(足し算をするか引き算をするか)が,意思決定の数秒前に内側前頭前野と内側側頭皮質の活動から予測できる.
37
![Page 39: Accumulatorを用いた動的抑制モデルと 物理シミュレータを用い … · •どちらかといえば低レイヤー –前頭前野 •脳損傷例: –利他的(倫理的)行動ができない、](https://reader033.vdocuments.pub/reader033/viewer/2022052104/603f8b17d8ec9c230e290e20/html5/thumbnails/39.jpg)
Accumulator モデル
– [Soon-Haynes 2008 Nat Neurosci]
– [Bode-Haynes 2011 Plos One]
• <ヒト>
• 自由選択(ボタン押し)が,意思決定の数秒前に脳活動から予測できる.
• 2008で前頭極が時間的に一番先行することが示され,2011は前頭極に絞った解析.
38
![Page 40: Accumulatorを用いた動的抑制モデルと 物理シミュレータを用い … · •どちらかといえば低レイヤー –前頭前野 •脳損傷例: –利他的(倫理的)行動ができない、](https://reader033.vdocuments.pub/reader033/viewer/2022052104/603f8b17d8ec9c230e290e20/html5/thumbnails/40.jpg)
Accumulator モデル
– [Polania 2014 Neuron]
• <ヒト>
• accumulatorによる意思決定を,知覚的意思決定と価値的意思決定で比較.
• 前頭前野は価値的意思決定のみ,頭頂葉は両方に関与.
– [Kelly-O'Connell 2013 JNS]
• <ヒト>
• ランダムドットの知覚的意思決定.
• accumulationっぽいEEG活動が見られる.
39
![Page 41: Accumulatorを用いた動的抑制モデルと 物理シミュレータを用い … · •どちらかといえば低レイヤー –前頭前野 •脳損傷例: –利他的(倫理的)行動ができない、](https://reader033.vdocuments.pub/reader033/viewer/2022052104/603f8b17d8ec9c230e290e20/html5/thumbnails/41.jpg)
Accumulator モデル
– [Bode 2012 JNS]
• <ヒト>
• 知覚的意思決定(ノイジー画像の知覚)の解析
• accumulatorモデルを用いたもの.
40
![Page 42: Accumulatorを用いた動的抑制モデルと 物理シミュレータを用い … · •どちらかといえば低レイヤー –前頭前野 •脳損傷例: –利他的(倫理的)行動ができない、](https://reader033.vdocuments.pub/reader033/viewer/2022052104/603f8b17d8ec9c230e290e20/html5/thumbnails/42.jpg)
Accumulator モデル
– [Mazurek-Shadlen 2003 Cereb Cortex]
– [Gold-Shadlen 2007 Annu Rev Neurosci]
• <サル>
• 知覚的意思決定をaccumulatorモデルで説明した古典的論文と,その総説.
– [Hanks-Brody 2015 Nature]
• <ラット>
• 知覚的意思決定.accumulator的な活動は頭頂葉と前頭前野で見られる.
• なんかよくわからん解析をした結果,前者は実際にaccumulator的だが前頭前野はカテゴリー的
41