icml2017 参加報告会 山本康生

50
ICML 2017参加報告会 D&S サイエンス4部 山本 康生 yasuo yamamoto

Upload: yahoo

Post on 21-Jan-2018

212 views

Category:

Technology


0 download

TRANSCRIPT

Page 1: ICML2017 参加報告会 山本康生

ICML 2017参加報告会

D&S サイエンス4部山本 康生

yasuo yamamoto

Page 2: ICML2017 参加報告会 山本康生

ICML とは

2

ICML: International Conference on Machine Learning

NIPSと並ぶ機械学習のトップカンファレンス

今年で34回目

開催期間:8/6〜8/11

場所:シドニー、オーストラリア

Page 3: ICML2017 参加報告会 山本康生

シドニー・ダーリング・ハーバー

3

Page 4: ICML2017 参加報告会 山本康生

前年度との比較

4

ICML 2016

• 4 Invited Talk

• 322 accepted papers

• 23 workshops

• 9 tutorials

• 3,200 attendees

ICML 2017

• 4 Invited Talk

• 434 out of 1676 accepted papers

• 22 workshops

• 9 tutorials

• - attendees(未発表)

Page 5: ICML2017 参加報告会 山本康生

会議の基本情報

5

チュートリアル(8/6)

本会議(8/7-8/9):

• 9パラレルセッション+1パラレルポスターセッション

• 発表者は口頭発表とポスターの両方を行う(前年同様)

ワークショップ(8/10-8/11)

アワード&招待講演:

• 本会議中にアワードおよび4つの招待講演を開催

Page 6: ICML2017 参加報告会 山本康生

採択論文のトピック別状況

6

深層学習:115 Talks強化学習:78 Talks

継続学習:50 Talks

ベイズ推定:43 Talks

オンライン学習:34 Talks

教師あり学習:33 Talks

・・・・

(各トピックで重複を含みます。)

Page 7: ICML2017 参加報告会 山本康生

アワード

7

テストオブタイム賞(この10年で重要な発表)

• Combining Online and Offline Knowledge in UCT”Alpha Go”のブレイクスルーのもととなった研究

https://www.youtube.com/watch?v=Bm7zah_LrmE

ベストオブペーパー

• Understanding Black-box Predictions via Influence Functions後ほどご紹介

Page 8: ICML2017 参加報告会 山本康生

注目したキーノート

8後ほどご紹介

Page 9: ICML2017 参加報告会 山本康生

注目したチュートリアル

9

• Deep Reinforcement Learning, Decision Making, and ControlSergey Levine, Chelsea Finn (UC Berkeley)

https://sites.google.com/view/icml17deeprl

強化学習の基礎から最新の応用まで紹介

• Real World Interactive LearningAlekh Agarwal, John Langford (Microsoft Research)

http://hunch.net/~rwil/

継続的学習の重要性とマルチ・アームド・バンディッドで紹介

Page 10: ICML2017 参加報告会 山本康生

所感

10

• 深層学習の勢力が衰えない

• Deep Mind, Google, Microsoftなど主要なプレーヤーの存在が際立っている

• ジョージア工科大など北米の大学の存在も際立っている

• AIに対する過剰な期待とはことなり、理論系では堅実に近似、最適化、行列分解など基礎的な課題に取り組んでいる

Page 11: ICML2017 参加報告会 山本康生

1

Understanding Black-box Predictions via Influence Functions

ICML 2017@Sydney

Page 12: ICML2017 参加報告会 山本康生

背景・提案Understanding Black-box Predictions via Influence Functions

12

背景:

• 深層学習を始めとして、予測精度は高いがその予測結果を説明することが難しい。

提案:

• 評価用データではなく学習データを用いてモデルの評価を行う。

• 各学習データ・ポイントがモデルに与える影響を定式化する。

• 従来の統計手法 influence functions (Cook & Weisberg, 1980) を現在のデータ規模に拡張する

Page 13: ICML2017 参加報告会 山本康生

“influence functions”Understanding Black-box Predictions via Influence Functions

13

影響関数 “influence functions”:• モデル𝑭𝟎における統計量𝑻 = 𝒕(𝑭𝒏)の影響関数は観測値𝒙の関数とし

て、次のように定義される。( 1.4 頑健統計学概説 p.59)

“influence functions” 導入の障壁:• 計算コストの高い二次微分計算を必要とする。• モデルの微分可能性と凸性を仮定している。• しばしば、モデルが非微分可能で非凸で高次元である場合が多い。

推定量T[𝐹0]が、観測点𝑥の追加で、どれだけ変化するかを微小量として評価

Page 14: ICML2017 参加報告会 山本康生

推定Understanding Black-box Predictions via Influence Functions

14

• 通常のパラメータの推定

• 学習データ・ポイント𝒛 = (𝒙, 𝒚)で重み付けした推定

• 損失関数𝓛が二次微分計算可能でかつ凸関数の場合”influence functions”は、

テスト学習データポイント𝑧𝑡𝑒𝑠𝑡の勾配 学習データ𝑧の勾配

ヘッセ行列

Page 15: ICML2017 参加報告会 山本康生

テスト学習データの影響比較Understanding Black-box Predictions via Influence Functions

15

ImageNet学習データで学習を行った、予測精度が同一のモデルについて、それぞれの学習モデルが学習データをどのように扱っているか比較する。

比較対象

• RBF SVM

• Inception-v3 モデル

予測

• 二値分類(魚vs犬)

学習データのプロット:

• 緑:魚、赤:犬

Page 16: ICML2017 参加報告会 山本康生

各モデルの特徴Understanding Black-box Predictions via Influence Functions

16

RBF SVMの特徴

①. Pixel間のユークリッド距離の差が識別に関

与していない。

②. 同一ラベルの学習データが均等に識

別に関与している。

Inceptionの特徴

③. テスト学習データに近い学習データが

識別に大きな貢献している。

④. 犬の背中も識別に貢献をしている。

② ①

Page 17: ICML2017 参加報告会 山本康生

スケーリングの課題Understanding Black-box Predictions via Influence Functions

17

• Influence functionsが発表された時代はデータが少なかった。

• 現代は学習データが膨大で、ヘッセ行列𝑯 𝜽の計算コストが非常に高い。

• ヘッセ行列𝑯 𝜽を計算するのではなく、𝑯 𝜽−𝟏𝒗を計算する

𝑯 𝜽 𝑯 𝜽−𝟏𝒗𝑯 𝜽𝑣[1] “Pearlmutter trick”,

Pearlmutter, 1994

[2] “CG”,

Martens, 2010

[3] “Taylor”,

Agarwal, Bullins, Hazan, 2016

Page 18: ICML2017 参加報告会 山本康生

微分不可能な場合への対処Understanding Black-box Predictions via Influence Functions

18

・微分不可能な損失関数ℒはどのよに扱うの?

滑らかさを考慮したヒンジ損失関数𝑺𝒎𝒐𝒐𝒕𝒉𝑯𝒊𝒏𝒈𝒆(𝒔, 𝒕)を使用する。

𝒔: 𝒄𝒂𝒍𝒄𝒖𝒍𝒂𝒕𝒆𝒅 𝓘𝒖𝒑,𝒍𝒐𝒔𝒔, 𝒕: 𝒔𝒎𝒐𝒐𝒕𝒉𝒏𝒆𝒔𝒔

Page 19: ICML2017 参加報告会 山本康生

経験損失最小化 “empirical risk minimization”Understanding Black-box Predictions via Influence Functions

19

経験損失最小化の問題

・損失関数ℒ(𝒛, 𝜽)と学習データ𝒛𝒕𝒆𝒔𝒕で求めた経験損失𝓘𝒖𝒑,𝒍𝒐𝒔𝒔を最小化すること

で決定している。ただし、経験損失を最小化しても、期待損失が小さくなるとは限

らない。非凸性の問題。

局所最適化パラメータ 𝜽を利用する。 𝜽で再学習を行う。

i.e.)

𝝀: 𝒂 𝒅𝒂𝒎𝒑𝒊𝒏𝒈 𝒕𝒆𝒓𝒎We checked the behavior of Iup,loss in a non-convergent, non-

convex setting by training a convolutional neural net-work for

500k iterations.5 The model had not converged and H˜θ was not

PD, so we added a damping term with λ = 0.01.

Page 20: ICML2017 参加報告会 山本康生

まとめUnderstanding Black-box Predictions via Influence Functions

20

• 学習モデルの振る舞いを学習データ・ポイントから判別するこ

とができた。

• Influence functionsを効果的に使えるようになった。

• 学習モデルによい影響のある学習データを取捨ことが可能と

なった。

• 手法を様々なBlack-box学習モデルへ適応することができる。

Page 21: ICML2017 参加報告会 山本康生

2

Risk Bounds for Transferring Representations With and Without Fine-Tuning

ICML 2017@Sydney

Page 22: ICML2017 参加報告会 山本康生

背景・提案Risk Bounds for Transferring Representations With and Without Fine-Tuning

22

背景:

• 深層学習をはじめ、学習パラメータの再利用が盛んにお行われて

いる。ただし、ソース・タスクとターゲット・タスク間での転移を保証

する尺度がない。

提案:

• ソース・タスクの学習が完了している場合、ターゲット・タスクへの

転移リスクの上界値をVC次元基準で計算する。

Page 23: ICML2017 参加報告会 山本康生

PAC学習Risk Bounds for Transferring Representations With and Without Fine-Tuning

23

PAC学習:

• ”Probably Approximately Correct” 確率的近似学習。

• 仮説集合(モデルの候補)が有限の場合の学習可能性を扱う。

• ある程度よい学習をするために必要なデータ数を定式化。

• 危険率𝜹、汎化誤差𝝐、訓練データ数𝓵、仮説集合𝑯とした場合、

• 訓練データ数𝓵、仮説集合𝑯を固定した場合、危険率𝜹、汎化誤差𝝐の上界値

が求まる。

Page 24: ICML2017 参加報告会 山本康生

VC次元Risk Bounds for Transferring Representations With and Without Fine-Tuning

24

VC次元:

• ”Vapnik-Cherbonenkis” 。

• Vladimir Vapnik :VC次元、統計学習、SVM考案者の一人。

• PAC学習が扱っていた有限の仮説集合𝑯を無限とし、それをVC次元とする。

• VC次元とは、仮説集合𝑯に含まれる仮説を細分(shatter)できる点の数。

VC dimension (From Wiki)

VC次元=3

Page 25: ICML2017 参加報告会 山本康生

用語Risk Bounds for Transferring Representations With and Without Fine-Tuning

25

仮説集合

入力の確率:𝑷𝑺, 𝑷𝑻 𝑺: 𝒔𝒐𝒖𝒓𝒄𝒆 𝒕𝒂𝒔𝒌, 𝑻: 𝒕𝒂𝒓𝒈𝒆𝒕 𝒕𝒂𝒔𝒌

損失の期待値:

経験損失(学習時):

データ点:𝒎𝑺,𝒎𝑻

仮説集合𝑯のVC次元:𝒅𝑯

𝑋 𝑍 𝑌 = {−1,1}

𝑓 𝑔

Page 26: ICML2017 参加報告会 山本康生

ソース・ドメイン・データの活用Risk Bounds for Transferring Representations With and Without Fine-Tuning

26

転移学習の扱う状況

• ラベル付きソース・ドメインのデータが大量にある。

• ラベル付きターゲット・ドメインのデータが少ない。

ラベル付きソース・ドメイン・データの学習で 𝒇を獲得する。

ソース・ドメインで得た 𝒇からターゲット・ドメインの 𝒈𝑻を獲得するする。

ターゲット・ドメインの損失の上界値は𝟏 − 𝜷の確率のもとで「定理1」に従う。

定理1

𝜔:問題設定により決まる転移性の指標

Page 27: ICML2017 参加報告会 山本康生

低層レイヤの有用性Risk Bounds for Transferring Representations With and Without Fine-Tuning

27

低層レイヤの学習パラメータは両方のドメインで利用可能

転移性𝝎 𝑹 が汎化誤差𝜺と𝑐 ≥ 𝟏で定義される場合、

最小化したターゲット・ドメインの損失はソース・ドメインの転移性より小さくなる

定理2

Page 28: ICML2017 参加報告会 山本康生

Fine-TuningRisk Bounds for Transferring Representations With and Without Fine-Tuning

28

学習で得た 𝑭が十分小さい場合、PAC-Bayesバウンドを仮説 𝒉の汎化誤差に適応できる。

ターゲット・ドメインの損失𝑹𝑻( 𝒉)は𝟏 − 𝜷の確率のもとで「定理3」に従う。

定理3

全体の仮説とソースドメインの仮説のKLはソースドメインの転移性より小さい

Page 29: ICML2017 参加報告会 山本康生

損失の上界値とデータ数Risk Bounds for Transferring Representations With and Without Fine-Tuning

29

Fine-Tunedなし

Fine-Tunedあり

• ターゲット・ドメインの期待損失がデータ数とともに減少している。

• 転移を行った場合とそうでない場合の違いも明確に表れている。

Page 30: ICML2017 参加報告会 山本康生

まとめRisk Bounds for Transferring Representations With and Without Fine-Tuning

30

• 転移の保証をFine-tunedのある・なし両方で評価することに可能と

なった。

• ソース・タスクの重みからの逸脱にペナルティを課し、より低層の

重みに対して厳格な正則化を提案した。(割愛)

課題

• CNNなどより深く複雑な構造のネットワークに対しての適応。

Page 31: ICML2017 参加報告会 山本康生

3

Towards Reinforcement Learning in the Real World

Keynote Speaker: Raia Hadsell (Deep Mind)

Page 32: ICML2017 参加報告会 山本康生

About SpeakerTowards Reinforcement Learning in the Real World

32

Raia Hadsell

• シニア・リサーチ・サイエンティスト(Deep Mind)

• 深層学習およびロボティクスの研究10年以上

• 多様体(manihold)学習、不変性学習を研究

• Yann LeCunのもとでPh.Dを取得

• Self-Supervised Deep Learningを研究

• Deep Mind(2014年〜)

• AIエジェントおよびロボティクスの継続的学習の研究(現在)

Page 33: ICML2017 参加報告会 山本康生

深層強化学習が拡大するAIの可能性Towards Reinforcement Learning in the Real World

33

• 自律的に学習を行うことが可能

• 複雑なタスクをこなすことが可能

• ATARI gamesなどでは人間のエキスパートを超えている

• Fintechや広告の意思決定において応用がはじまっている

深層強化学習は、現時点で非常に高い性能を持っている!

しかし、課題は多い= Deep Mindの取組み

Page 34: ICML2017 参加報告会 山本康生

深層強化学習Deep Mindの8つの課題Towards Reinforcement Learning in the Real World

34

FeUdal Networks for

Hierarchical RL,

2017

Overcoming

catastrophic

forgetting in NNs,

2016

Progressive Neural

Networks,

2016

Distral: Robust

Multitask RL,

2017

Learning to navigate

in complex

environments,

2017

RL with unsupervised

auxiliary tasks,

2017

Learning and transfer

of modulated

locomotor controllers,

2016

Emergence of

Locomotion

Behaviours

in Rich Environments,

2017

Page 35: ICML2017 参加報告会 山本康生

“FeUdal Networks for Hierarchical RL, 2017“Towards Reinforcement Learning in the Real World

35

FeUdal Networks for

Hierarchical RL,

2017

Overcoming

catastrophic

forgetting in NNs,

2016

Progressive Neural

Networks,

2016

Distral: Robust

Multitask RL,

2017

Learning to navigate

in complex

environments,

2017

RL with unsupervised

auxiliary tasks,

2017

Learning and transfer

of modulated

locomotor controllers,

2016

Emergence of

Locomotion

Behaviours

in Rich Environments,

2017

Page 36: ICML2017 参加報告会 山本康生

“FeUdal Networks for Hierarchical RL, 2017“Towards Reinforcement Learning in the Real World

36

背景:

• 現実世界では短期的報酬と長期的報酬のバランスを考慮しなければな

らない問題へ対処する必要がある。

提案:

• マネージャとワーカーによる階層的強化学習のフレームワーク

著者:

• Alexander Sasha Vezhnevets, Simon Osindero, Tom Schaul, Nicolas

Heess, Max Jaderberg, David Silver, Koray Kavukcuoglu

Page 37: ICML2017 参加報告会 山本康生

“Overcoming catastrophic forgetting in NNs, 2016“Towards Reinforcement Learning in the Real World

37

FeUdal Networks for

Hierarchical RL,

2017

Overcoming

catastrophic

forgetting in NNs,

2016

Progressive Neural

Networks,

2016

Distral: Robust

Multitask RL,

2017

Learning to navigate

in complex

environments,

2017

RL with unsupervised

auxiliary tasks,

2017

Learning and transfer

of modulated

locomotor controllers,

2016

Emergence of

Locomotion

Behaviours

in Rich Environments,

2017

Page 38: ICML2017 参加報告会 山本康生

“Overcoming catastrophic forgetting in NNs, 2016“ Towards Reinforcement Learning in the Real World

38

背景:

• 現実世界では逐次的に発生する複数のタスクをこなす必要があるが、AIは一つのタスクを学習すると他のタスクに関する情報を破滅的忘却 “catastrophic forgetting”してしまう。

提案:

• Elastic Weight Consolidation(EWC)という手法で、以前のタスクで重要であった特定の重みの学習を遅くし忘却を防ぐ。

著者:

• James Kirkpatrick, Razvan Pascanu, Neil Rabinowitz, Joel Veness, Guillaume Desjardins, Andrei A. Rusu, Kieran Milan, John Quan, Tiago Ramalho, Agnieszka Grabska-Barwinska, Demis Hassabis, Claudia Clopath, Dharshan Kumaran, Raia Hadsell

Page 39: ICML2017 参加報告会 山本康生

“Progressive Neural Networks, 2016“Towards Reinforcement Learning in the Real World

39

FeUdal Networks for

Hierarchical RL,

2017

Overcoming

catastrophic

forgetting in NNs,

2016

Progressive Neural

Networks,

2016

Distral: Robust

Multitask RL,

2017

Learning to navigate

in complex

environments,

2017

RL with unsupervised

auxiliary tasks,

2017

Learning and transfer

of modulated

locomotor controllers,

2016

Emergence of

Locomotion

Behaviours

in Rich Environments,

2017

Page 40: ICML2017 参加報告会 山本康生

“Progressive Neural Networks, 2016“Towards Reinforcement Learning in the Real World

40

背景:

• 現実世界では知識の積み重ねにより複雑な一連のタスクを処理する必要がある。

提案:

• 知識の転用を活用し、致命的な忘却を回避する。具体的にはプレトレーニング・ネットワークを別途保持し、ファインチューニングで得た重みを足し合わせネットワークを用意する。

著者:

• Andrei A. Rusu, Neil C. Rabinowitz, Guillaume Desjardins, Hubert Soyer, James Kirkpatrick, Koray Kavukcuoglu, Razvan Pascanu, Raia Hadsell

Page 41: ICML2017 参加報告会 山本康生

“Distral: Robust Multitask RL, 2017“Towards Reinforcement Learning in the Real World

41

FeUdal Networks for

Hierarchical RL,

2017

Overcoming

catastrophic

forgetting in NNs,

2016

Progressive Neural

Networks,

2016

Distral: Robust

Multitask RL,

2017

Learning to navigate

in complex

environments,

2017

RL with unsupervised

auxiliary tasks,

2017

Learning and transfer

of modulated

locomotor controllers,

2016

Emergence of

Locomotion

Behaviours

in Rich Environments,

2017

Page 42: ICML2017 参加報告会 山本康生

“Distral: Robust Multitask RL, 2017“Towards Reinforcement Learning in the Real World

42

背景:

• 現実世界から情報を潤沢に得ることが可能であった場合、AIは非効率的にすべての情報を処理する深層学習ネットワークを個別に構成してしまう。さらに個別に構成されたネットワーク間では勾配計算が干渉しあってパラメータの共有も不可能。

提案:

• Distral = Distill”蒸留”とTransfer Learning”転移学習”と呼ばれる複数のタスクの共同訓練のためのフレームワークを提案。具体的には、個別タスクに共通する挙動を蒸留モデルに抽出。蒸留モデルが規範となり、転移学習を促進する。

著者:

• Yee Whye Teh, Victor Bapst, Wojciech Marian Czarnecki, John Quan, James Kirkpatrick, Raia Hadsell, Nicolas Heess, Razvan Pascanu

Page 43: ICML2017 参加報告会 山本康生

“Learning to navigate in complex environments, 2017“Towards Reinforcement Learning in the Real World

43

FeUdal Networks for

Hierarchical RL,

2017

Overcoming

catastrophic

forgetting in NNs,

2016

Progressive Neural

Networks,

2016

Distral: Robust

Multitask RL,

2017

Learning to navigate

in complex

environments,

2017

RL with unsupervised

auxiliary tasks,

2017

Learning and transfer

of modulated

locomotor controllers,

2016

Emergence of

Locomotion

Behaviours

in Rich Environments,

2017

Page 44: ICML2017 参加報告会 山本康生

“Learning to navigate in complex environments, 2017“Towards Reinforcement Learning in the Real World

44

背景:

• 人間は動的に変化する状況下でも、環境を把握して目的を達成することができる。しかしAIは、ゴール位置が頻繁に変わる迷路などでは、その変化を把握することが困難となり目的を達成できない。

提案:

• 人間がマルチモーダルな知覚入力を利用するように、追加の補助タスクを利用する。特に、迷路などでは補助深度予測やループ閉包分類タスクを利用する。

著者:

• Piotr Mirowski, Razvan Pascanu, Fabio Viola, Hubert Soyer, Andrew J. Ballard, Andrea Banino, Misha Denil, Ross Goroshin, Laurent Sifre, Koray Kavukcuoglu, Dharshan Kumaran, Raia Hadsell

Page 45: ICML2017 参加報告会 山本康生

“RL with unsupervised auxiliary tasks, 2017“Towards Reinforcement Learning in the Real World

45

FeUdal Networks for

Hierarchical RL,

2017

Overcoming

catastrophic

forgetting in NNs,

2016

Progressive Neural

Networks,

2016

Distral: Robust

Multitask RL,

2017

Learning to navigate

in complex

environments,

2017

RL with unsupervised

auxiliary tasks,

2017

Learning and transfer

of modulated

locomotor controllers,

2016

Emergence of

Locomotion

Behaviours

in Rich Environments,

2017

Page 46: ICML2017 参加報告会 山本康生

“RL with unsupervised auxiliary tasks, 2017“Towards Reinforcement Learning in the Real World

46

背景:

• 深層強化学習のエージェントは、累積報酬を直接最大化することで結果を達

成している。しかし、環境には多様な学習に使える情報が含まれている。

提案:

• 多くの疑似報酬関数を定義し、それらを同時に最大化するエージェントを提案。

著者:

• Max Jaderberg, Volodymyr Mnih, Wojciech Marian Czarnecki, Tom Schaul, Joel Z

Leibo, David Silver, Koray Kavukcuoglu

Page 47: ICML2017 参加報告会 山本康生

“Learning and transfer of modulated locomotor controllers, 2016“Towards Reinforcement Learning in the Real World

47

FeUdal Networks for

Hierarchical RL,

2017

Overcoming

catastrophic

forgetting in NNs,

2016

Progressive Neural

Networks,

2016

Distral: Robust

Multitask RL,

2017

Learning to navigate

in complex

environments,

2017

RL with unsupervised

auxiliary tasks,

2017

Learning and transfer

of modulated

locomotor controllers,

2016

Emergence of

Locomotion

Behaviours

in Rich Environments,

2017

Page 48: ICML2017 参加報告会 山本康生

“Learning and transfer of modulated locomotor controllers, 2016“Towards Reinforcement Learning in the Real World

48

背景:

• 環境からすべての情報を得て学習を行う場合、膨大な探索が必要となる。

提案:

• 移動作業タスクにおいて、事前に簡単なタスク(センサーモーター・プリミティ

ブ)を学習させる。この事前学習されたモジュールにより、疎な報酬から学ぶ

ために必要な効果的な探索が可能となる。

https://www.youtube.com/watch?v=sboPYvhpraQ&feature=youtu.be

著者:

• Nicolas Heess, Greg Wayne, Yuval Tassa, Timothy Lillicrap, Martin Riedmiller, David

Silver

Page 49: ICML2017 参加報告会 山本康生

“Emergence of Locomotion Behavioursin Rich Environments,2017“Towards Reinforcement Learning in the Real World

49

FeUdal Networks for

Hierarchical RL,

2017

Overcoming

catastrophic

forgetting in NNs,

2016

Progressive Neural

Networks,

2016

Distral: Robust

Multitask RL,

2017

Learning to navigate

in complex

environments,

2017

RL with unsupervised

auxiliary tasks,

2017

Learning and transfer

of modulated

locomotor controllers,

2016

Emergence of

Locomotion

Behaviours

in Rich Environments,

2017

Page 50: ICML2017 参加報告会 山本康生

“Emergence of Locomotion Behavioursin Rich Environments,2017“Towards Reinforcement Learning in the Real World

50

背景:

• 強化学習は、複雑な動作を簡単な信号報酬から直接学習することになっているが現実の問題への適応時には報酬関数を手作業で設計している。

提案:

• 豊かな環境が複雑な行動の学習を促進するためにどのように役立つのかを探索する。具体的には、さまざまな環境の中でエージェントを訓練し、これにより、一連のタスクを効率的に実行する堅牢な振る舞いの出現を促す。https://www.youtube.com/watch?v=hx_bgoTF7bs&feature=youtu.be

著者:

• Nicolas Heess, Dhruva TB, Srinivasan Sriram, Jay Lemmon, Josh Merel, Greg Wayne, Yuval Tassa, Tom Erez, Ziyu Wang, S. M. Ali Eslami, Martin Riedmiller, David Silver