落合 wba hackathon2_成果報告_最終版

56
Attention Control WBA hackathon 第第 第第

Upload: koji-ochiai

Post on 06-Apr-2017

24 views

Category:

Science


0 download

TRANSCRIPT

Page 1: 落合 Wba hackathon2_成果報告_最終版

Attention Control

第2回 WBA hackathon落合、都築

Page 2: 落合 Wba hackathon2_成果報告_最終版

やったこと

Page 3: 落合 Wba hackathon2_成果報告_最終版

やったことFree Energy Principle のニューラルネットによる実装

Page 4: 落合 Wba hackathon2_成果報告_最終版

Free Energy Principle ?

Page 5: 落合 Wba hackathon2_成果報告_最終版

Free Energy Principle by K.Friston

Page 6: 落合 Wba hackathon2_成果報告_最終版

Free Energy =精度 + 複雑度¿−𝐸𝑞(𝑧∨𝑥 )[ log𝑝𝜃 (𝑥|𝑧 )]+𝐷𝐾𝐿 [𝑞(𝑧∨𝜇)∨¿𝑝𝜃 (𝑧 )]𝐹 (𝑥 ,𝜇 )

𝑧𝑥𝜇

: Hidden or external states: Sensory states: Internal states(ex. z の平均、分散 )

精度 複雑度

Page 7: 落合 Wba hackathon2_成果報告_最終版

Internal state

𝜇=argmin𝐹 (𝑥 ,𝜇)予測誤差を最小化するよう内部パラメータを学習(通常の生成モデル学習)

𝜇

Page 8: 落合 Wba hackathon2_成果報告_最終版

Internal state

Action(Attention)

𝜇=argmin𝐹 (𝑥 ,𝜇)

𝑎=argmin𝐹 (𝑥 ,𝜇)

予測誤差を最小化するよう内部パラメータを学習(通常の生成モデル学習)予測誤差を最小化する行動を生成予測=注目

(Active Inference)

𝜇

𝑎

Page 9: 落合 Wba hackathon2_成果報告_最終版

実装

Page 10: 落合 Wba hackathon2_成果報告_最終版

Free Energy Principle = Variational Autoencoder• Variational Autoencoder(VAE) は変分ベイズをニューラルネットで表現したもの•変分ベイズでは Free Energy を最小化している• Free Energy を内部パラメータ調節で最小化する Network= Variational Autoencoder•今回の目標: Active Inferenceを VAEに追加• Active Inference=Free Energyを最小化する動きを生成すること

Page 11: 落合 Wba hackathon2_成果報告_最終版

𝑒𝑛

𝐼

𝑥𝑧 𝑑𝑒FC

𝑎

𝑒𝑛

𝐼

𝑥𝑧 𝑑𝑒FC

𝑎loss

RL

𝑥 ′ 𝑥 ′

𝑒𝑛 𝑧 𝑑𝑒FC 𝑥 ′𝑎𝑥

𝑒𝑛 𝑧 𝑑𝑒FC 𝑥 ′𝑎𝑥

lossRL

t=0 t=1

layer=0

layer=1

Active Inference Network

𝑎𝑧𝑥

FC

𝑑𝑒𝑒𝑛

𝑥 ′

Action

Hidden state

State(Bottom up)

State(expect)

Action Network

Encoder Network

Decoder Network

Probabilistic

Page 12: 落合 Wba hackathon2_成果報告_最終版

𝑒𝑛

𝐼

𝑥𝑧 𝑑𝑒FC

𝑎

𝑒𝑛

𝐼

𝑥𝑧 𝑑𝑒FC

𝑎loss

RL

𝑥 ′ 𝑥 ′

𝑒𝑛 𝑧 𝑑𝑒FC 𝑥 ′𝑎𝑥

𝑒𝑛 𝑧 𝑑𝑒FC 𝑥 ′𝑎𝑥

lossRL

t=0 t=1

layer=0

layer=1

Active Inference Network

𝑎𝑧𝑥

FC

𝑑𝑒𝑒𝑛

𝑥 ′

Action

Hidden state

State(Bottom up)

State(expect)

Action Network

Encoder Network

Decoder Network

Probabilistic

今回作成範囲

Page 13: 落合 Wba hackathon2_成果報告_最終版

𝑒𝑛

𝐼

𝑥𝑧 𝑑𝑒FC

𝑎

𝑒𝑛

𝐼

𝑥𝑧 𝑑𝑒FC

𝑎loss

RL

𝑥 ′ 𝑥 ′

𝑒𝑛 𝑧 𝑑𝑒FC 𝑥 ′𝑎𝑥

𝑒𝑛 𝑧 𝑑𝑒FC 𝑥 ′𝑎𝑥

lossRL

t=0 t=1

layer=0

layer=1

Active Inference Network

𝑎𝑧𝑥

FC

𝑑𝑒𝑒𝑛

𝑥 ′

Action

Hidden state

State(Bottom up)

State(expect)

Action Network

Encoder Network

Decoder Network

Probabilistic

Variational Autoencoder

Page 14: 落合 Wba hackathon2_成果報告_最終版

𝑒𝑛

𝐼

𝑥𝑧 𝑑𝑒FC

𝑎

𝑒𝑛

𝐼

𝑥𝑧 𝑑𝑒FC

𝑎loss

RL

𝑥 ′ 𝑥 ′

𝑒𝑛 𝑧 𝑑𝑒FC 𝑥 ′𝑎𝑥

𝑒𝑛 𝑧 𝑑𝑒FC 𝑥 ′𝑎𝑥

lossRL

t=0 t=1

layer=0

layer=1

Active Inference Network

𝑎𝑧𝑥

FC

𝑑𝑒𝑒𝑛

𝑥 ′

Action

Hidden state

State(Bottom up)

State(expect)

Action Network

Encoder Network

Decoder Network

Probabilistic

Action

Page 15: 落合 Wba hackathon2_成果報告_最終版

学習環境

Page 16: 落合 Wba hackathon2_成果報告_最終版

環境 エージェント

MNIST 画像を並べた56x56 ピクセルの空間( トーラス状に回り込み )

着目領域 28x28 ピクセル

着目領域内の画像

着目領域の相対移動方向

𝑒𝑛

𝐼

𝑥𝑧 𝑑𝑒FC

𝑎

𝑥 ′

dx = -1 or 1, dy=-1 or 1

ピクセル単位の移動

Page 17: 落合 Wba hackathon2_成果報告_最終版

結果

Page 18: 落合 Wba hackathon2_成果報告_最終版

Step 0 ~ 100予測画像 軌跡

スタート

Page 19: 落合 Wba hackathon2_成果報告_最終版

Step 4000 ~ 4100予測画像 軌跡

スタート

Page 20: 落合 Wba hackathon2_成果報告_最終版

Step 4000 ~ 4100予測画像 軌跡

スタート

Page 21: 落合 Wba hackathon2_成果報告_最終版

Step 8000 ~ 8100予測画像 軌跡

スタート

Page 22: 落合 Wba hackathon2_成果報告_最終版

Step 8000 ~ 8100予測画像 軌跡

スタート

Page 23: 落合 Wba hackathon2_成果報告_最終版

Step 12000 ~ 12100予測画像 軌跡

スタート

Page 24: 落合 Wba hackathon2_成果報告_最終版

Step 16000 ~ 16100予測画像 軌跡

スタート

Page 25: 落合 Wba hackathon2_成果報告_最終版

Step 20000 ~ 20100予測画像 軌跡

スタート

Page 26: 落合 Wba hackathon2_成果報告_最終版

loss

Epoch(1Epoch = 100Step)

Page 27: 落合 Wba hackathon2_成果報告_最終版

LSTM を追加: Step 16000 ~ 16100予測画像 軌跡

スタート

Page 28: 落合 Wba hackathon2_成果報告_最終版

LSTM を追加: Step 16000 ~ 16100予測画像 軌跡

スタート

Page 29: 落合 Wba hackathon2_成果報告_最終版

LSTM を追加: Step 16000 ~ 16100予測画像 軌跡

スタート

Page 30: 落合 Wba hackathon2_成果報告_最終版

考察•予測誤差を最小化するため一箇所で振動•理由•環境が固定、かつ行動の外乱なし•予測誤差は最小化ではなく一定の値になるよう行動を決めるべき?• 予測誤差が少なすぎる⇨退屈• 予測誤差が高すぎる⇨不安

•報酬、トップダウン信号が必要

Page 31: 落合 Wba hackathon2_成果報告_最終版

•すごい: Free Energy Principle を大規模化可能な     形で実装•おもろい:制御への応用可能性(後述)•脳っぽい: Free Energy Principle は脳の実験      データによる裏付けも出始めている

Page 32: 落合 Wba hackathon2_成果報告_最終版

Future Work

Page 33: 落合 Wba hackathon2_成果報告_最終版

•探索行動の継続を矯正•多層化•トップダウンでの行動生成

Page 34: 落合 Wba hackathon2_成果報告_最終版

•探索行動の継続を矯正•多層化•トップダウンでの行動生成

Page 35: 落合 Wba hackathon2_成果報告_最終版

𝑒𝑛

𝐼

𝑥𝑧 𝑑𝑒FC

𝑎

𝑒𝑛

𝐼

𝑥𝑧 𝑑𝑒FC

𝑎loss

RL

𝑥 ′ 𝑥 ′

𝑒𝑛 𝑧 𝑑𝑒FC 𝑥 ′𝑎𝑥

𝑒𝑛 𝑧 𝑑𝑒FC 𝑥 ′𝑎𝑥

lossRL

t=0 t=1

layer=0

layer=1

Active Inference Network

𝑎𝑧𝑥

FC

𝑑𝑒𝑒𝑛

𝑥 ′

Action

Hidden state

State(Bottom up)

State(expect)

Action Network

Encoder Network

Decoder Network

Probabilistic

作成予定範囲

Page 36: 落合 Wba hackathon2_成果報告_最終版

柔軟な行動生成・マップ上でのナビゲーション課題

← こいつを探したいある特定の画像を,マップ上で探し出す

Page 37: 落合 Wba hackathon2_成果報告_最終版

𝑒𝑛

𝐼

𝑥𝑧 𝑑𝑒FC

𝑎

𝑒𝑛

𝐼

𝑥𝑧 𝑑𝑒FC

𝑎loss

RL

𝑥 ′ 𝑥 ′

𝑒𝑛 𝑧 𝑑𝑒FC 𝑥 ′𝑎𝑥

𝑒𝑛 𝑧 𝑑𝑒FC 𝑥 ′𝑎𝑥

lossRL

t=0 t=1

layer=0

layer=1

Active Inference Network

𝑎𝑧𝑥

FC

𝑑𝑒𝑒𝑛

𝑥 ′

Action

Hidden state

State(Bottom up)

State(expect)

Action Network

Encoder Network

Decoder Network

Probabilistic

探索対象の画像を入力、ボトムアップ計算

Page 38: 落合 Wba hackathon2_成果報告_最終版

𝑒𝑛

𝐼

𝑥𝑧 𝑑𝑒FC

𝑎

𝑒𝑛

𝐼

𝑥𝑧 𝑑𝑒FC

𝑎loss

RL

𝑥 ′ 𝑥 ′

𝑒𝑛 𝑧 𝑑𝑒FC 𝑥 ′𝑎𝑥

𝑒𝑛 𝑧 𝑑𝑒FC 𝑥 ′𝑎𝑥

lossRL

t=0 t=1

layer=0

layer=1

Active Inference Network

𝑎𝑧𝑥

FC

𝑑𝑒𝑒𝑛

𝑥 ′

Action

Hidden state

State(Bottom up)

State(expect)

Action Network

Encoder Network

Decoder Network

Probabilistic

上位層の z を固定し、ボトムアップとトップダウン信号を流す

Page 39: 落合 Wba hackathon2_成果報告_最終版

Active Inference Network のイメージ

layer0

layer1

layer2

layer3

In Brain

World sensor

ゴム紐

Page 40: 落合 Wba hackathon2_成果報告_最終版

Active Inference Network のイメージ

layer0

layer1

layer2

layer3

In Brain

World sensor

Page 41: 落合 Wba hackathon2_成果報告_最終版

Active Inference Network のイメージ

layer0

layer1

layer2

layer3

In Brain

World sensor

Page 42: 落合 Wba hackathon2_成果報告_最終版

Active Inference Network のイメージ

layer0

layer1

layer2

layer3

In Brain

World sensor

Page 43: 落合 Wba hackathon2_成果報告_最終版

Active Inference Network のイメージ

layer0

layer1

layer2

layer3

In Brain

World sensor

Page 44: 落合 Wba hackathon2_成果報告_最終版

Active Inference Network のイメージ

layer0

layer1

layer2

layer3

In Brain

World sensor

Page 45: 落合 Wba hackathon2_成果報告_最終版

Active Inference Network のイメージ

layer0

layer1

layer2

layer3

In Brain

World sensor

Page 46: 落合 Wba hackathon2_成果報告_最終版

Active Inference Network のイメージ

layer0

layer1

layer2

layer3

In Brain

World sensor

Page 47: 落合 Wba hackathon2_成果報告_最終版

END

Page 48: 落合 Wba hackathon2_成果報告_最終版

以降付録

Page 49: 落合 Wba hackathon2_成果報告_最終版

キーワード• Free Energy Principle• Predictive Coding• Policy Gradient(action の強化学習で使用 )• Variational Autoencoder• 変分ベイズ• 変分下界• エントロピー

Page 50: 落合 Wba hackathon2_成果報告_最終版

環境、ライブラリ• Python 2.7• Chainer 1.15.0.1

Page 51: 落合 Wba hackathon2_成果報告_最終版

Variational Autoencoder の式

参考: http://qiita.com/skitaoka/items/64eab1d6c09a189d5841

log 𝑃 𝜃 (𝑥 )

𝑝𝜃 (𝑧∨𝑥) :真の潜在変数の事後分布𝑞 (𝑧∨𝑥 ) :の近似分布( Neural Network で表現)log 𝑃 𝜃 (𝑥 ) :対数尤度。これを最大化する見つけ出したい

下界 = 真の分布と近似誤差の差

𝐿 (𝑥 )・・・①

Page 52: 落合 Wba hackathon2_成果報告_最終版

Free Energy の式

¿−𝐸𝑞(𝑧∨𝑥 )[ log𝑝𝜃 (𝑥|𝑧 )]+𝐷𝐾𝐿 [𝑞(𝑧∨𝜇)∨¿𝑝𝜃 (𝑧 ) ]

𝐹 (𝑥 ,𝜇 )¿𝐸𝑞( 𝑧∨𝑥)¿

参考: https://en.wikipedia.org/wiki/Free_energy_principle

Energy Entropy

・・・②

𝑧𝑥𝜇

: Hidden or external states: Sensory states: Internal states 𝑧𝑥

𝜇𝑎

World In Brain

Page 53: 落合 Wba hackathon2_成果報告_最終版

両者は同じもの𝐿 (𝑥 )=𝐸𝑞(𝑧∨𝑥) [ log𝑝𝜃 (𝑥|𝑧 )]−𝐷𝐾𝐿 [𝑞 (𝑧∨𝑥)∨¿𝑝𝜃 (𝑧 )]

① より ② より𝐹 (𝑠 ,𝜇)=−𝐸𝑞(𝑧∨𝑥 )¿

−𝐿 (𝑥 )=−𝐸𝑞 (𝑧|𝑥 ) [ log𝑝𝜃 (𝑥|𝑧 ) ]+𝐷𝐾𝐿 [𝑞(𝑧∨𝑥)∨¿𝑝 𝜃 (𝑧 )]

−𝐿 (𝑥 )=−𝐸𝑞 (𝑧|𝑥 ) [ log𝑝𝜃 (𝑥|𝑧 ) ]+𝐷𝐾𝐿 [𝑞(𝑧∨𝜇)∨¿𝑝 𝜃 (𝑧 )]

観測された値で Internal states を代用

正規分布と仮定

• Free Energy は最小化、変分下界は最大化。やっていることも同じ。• の確率関数はニューラルネットによる近似

Page 54: 落合 Wba hackathon2_成果報告_最終版

Free Energy Principle = Variational Autoencoder• Variational Autoencoder(VAE) は変分ベイズをニューラルネットで表現したもの ( http://www.asahi-net.or.jp/~fb8t-ysok/docs/vae/ )• 変分ベイズでは Free Energy を最小化している ( http://

nktmemoja.github.io/jekyll/update/2016/08/20/variational-bayes.html )• Free Energy を内部パラメータ調節で最小化する Network= Variational Autoencoder•今回の目標: Active Inferenceを VAEに追加• Active Inference=Free Energyを最小化する動きを生成すること

Page 55: 落合 Wba hackathon2_成果報告_最終版

1枚ものスライド

Page 56: 落合 Wba hackathon2_成果報告_最終版

Free Energy Principle by Friston

implement

“Active Inference Network”

・ある状態を実現するための,行動を生成するネットワークの提案

Test

・マップ上でのナビゲーション課題

← こいつを探したいある特定の画像を,マップ上で探し出す