「これからの強化学習」サンプルページ · 南泰浩...

「これからの強化学習」

サンプルページ

この本の定価・判型などは，以下の URL からご覧いただけます．

http://www.morikita.co.jp/books/mid/088031

※このサンプルページの内容は，初版 1 刷発行時のものです．

http://www.morikita.co.jp/books/mid/088031

main : 2016/10/4(15:54)

　

main : 2016/10/4(15:54)

i

はじめに

強化学習は，経験をもとに試行錯誤しながら最適な行動を獲得するための理論的枠組みである．近年，強化学習が注目を集めているのは，それがヒトや動物が環境に適応して行動を獲得するプロセスの本質を捉えているからである．生物が行動を獲得するときには，「正解」すなわち，各々の場面でとるべき行動が外部から与えられないことが多い．しかし，何度も試行しながら修正していくことで，何らかのハイレベルな目的を達成するような行動を自ら発見することができる．また，環境が変化して従来の方法が通用しなくなっても，誰からも教えてもらわなくても別の方法を見つけ出すことができる．このような，単なる知識の獲得では解けない問題を対象とするのが強化学習である．たとえば，ヒトが自転車を練習して乗れるようになるのは，何度も練習することで，感

覚と操作を対応づけることができるからである．また，最初から料理が上手な人はいないが，ある調理手順を試してみて，その結果とかかった時間を振り返る，という試行錯誤のプロセスを経ることで，次第に美味しい料理を短時間でつくれるようになるであろう．自転車を運転するプログラムの設計は一筋縄ではいかないが，強化学習を利用すると，コンピュータが自ら行動ルールを獲得できるようになる．あるいは，シェフが料理する手順を分析するために強化学習を利用することも考えられるだろう．一般的には，強化学習は，機械学習とよばれる研究分野の一分野として捉えられること

が多い．機械学習は，データから自動的に規則を獲得する枠組みであり，音声認識や自動識別など，すでに多くの分野で利用されている技術である．しかし，強化学習とそれ以外の機械学習では，決定的に違う点が一つある．それは，強化学習においては，アルゴリズムの出力によって，収集されるデータそのものが変化することである．ある操作に対して自転車の状態がどう変化するかは，その操作をすることではじめて知ることができるし，ある材料の組み合わせでつくった料理がどんな味になるかも，その材料で調理してみなければデータが得られない．通常の機械学習では扱えない，「データの足りない対象」に対して，試行することでデータを収集していくことが求められるのである．強化学習においては，この問題を，探索と利用のトレードオフとよんでいる．これまで収集したデータから単に最適なものを選ぶだけでは，まだ試していない領域についての知識が得られない．一方，新たな領域のデータを収集するためには，最適ではないかもしれない行動を試してみなければならないため，コストがかかる．別の言い方をすると，「十分なデータをもっておらず，データの収集にコストがかかる

世界において，データをどのように収集するか」が強化学習である，とみることもできる．その意味で，強化学習は，いわゆるビッグデータとよばれるような，データが与えられることが前提とされる他の機械学習とは，本質的に異なる問題に取り組んでいる．むしろ，

main : 2016/10/4(15:54)

ii

データがない領域に対してどのように最適化するか，あるいは，どのようにデータをつくり出すかという，ビッグデータの次に必要となる技術であると言っても過言ではない．また，動物やヒトの脳を理解するための理論的道具としても，強化学習は重要な役割を

果たしている．脳内のさまざまな伝達物質やホルモンのはたらきを強化学習の概念と結びつけることで，脳のはたらきや疾患についての新たな見方を得ることが可能になった．ヒトのメカニズムを再現することでヒトを理解する，構成論的アプローチによる研究も進んでいる．とはいえ，大きく広がった強化学習研究の全貌を把握することは容易ではない．これま

で教科書とされてきた Sutton と Barto の『強化学習』†も発行から 20年近く経過し，これだけで最新の研究を理解することは難しくなってきている．

本書の目的は，そのような強化学習の現在の研究を俯瞰することである．これから研究を始める大学院生や研究者が，研究分野の全貌の見取り図を知ることで，最新の研究を理解する手がかりになるものを目指した．

・第 1章では，強化学習の基礎的概念を，最新の見方をもとに簡潔に整理する．探索と利用のトレードオフや，方策の最適化のための反復法といった，他の強化学習の研究を理解するために必要となる項目を，初学者でも理解しやすい形で提示することを目指した．

・第 2章では，最新の研究に取り組んでいる研究者の方々による，最先端の理論をまとめる．最近の研究論文を読むときの手がかりとして，また，新たな研究テーマを探す手がかりとして役立てていただきたい．

・第 3章は，強化学習を実際に応用に取り組んだ例について，具体的な事例を紹介する．どのような問題が強化学習で解けるのか，また，どのように強化学習を適用できるのかがわかる，大変興味深い内容である．

・第 4章では，ヒトの理解という面における，強化学習の関連研究を紹介する．強化学習がどのように脳のはたらきと対応づけられているのか，また，内発的動機付けなど，脳の研究から強化学習にもたらされた新しい概念についてもわかる，大きく広がる内容である．

本書は，計測自動制御学会の学会誌『計測と制御』において掲載されたリレー解説「強化学習の最近の発展」をもとに，主に第 1章を加筆する形で構成された．本書が，これから強化学習の研究を志す方々への道標となれば幸いである．

編　者　

† Richard S. Sutton and Andrew G. Barto. Reinforcement Learning: An Introduction.

MIT Press, Cambridge, MA, 1998. 邦訳『強化学習』（三上貞芳, 皆川雅章（訳），森北出版，2000）．

main : 2016/10/4(15:54)

iii

目　次

第1 章強化学習の基礎的理論 1

1.1 強化学習とは 2

1.2 強化学習の構成要素 14

1.3 価値反復に基づくアルゴリズム 29

1.4 方策勾配に基づくアルゴリズム 42

1.5 部分観測マルコフ決定過程と強化学習 56

第2 章強化学習の発展的理論 71

2.1 統計学習の観点から見た TD 学習 72

2.2 強化学習アルゴリズムの理論性能解析とベイズ統計による強化学習のモデル化 112

2.3 逆強化学習 (Inverse Reinforcement Learning) 127

2.4 試行錯誤回数の低減を指向した手法：経験強化型学習 XoL 136

2.5 群強化学習法 148

2.6 リスク考慮型強化学習 165

2.7 複利型強化学習 177

第3 章強化学習の工学応用 189

3.1 高次元・実環境における強化学習 190

3.2 連続的な状態・行動空間への拡張：マルチロボットシステムへの適用 199

3.3 対話処理における強化学習 214

3.4 マルチエージェント系の報酬設計 225

3.5 自然言語処理における逆強化学習・模倣学習の適用 237

3.6 医療臨床データ分析への応用 249

3.7 深層学習を用いた Q 関数の学習：Atari 2600 と囲碁への応用 257

第4 章知能のモデルとしての強化学習 283

4.1 脳の意思決定機構と強化学習 284

4.2 内発的動機付けによるエージェントの学習と発達 295

おわりに 309

索　引 311

main : 2016/10/4(15:54)

iv

執筆者一覧

■編著者牧野貴樹グーグル株式会社（はじめに，1.1～1.3 節，2.2 節，3.5 節，おわりに）

澁谷長史筑波大学大学院システム情報工学研究科（1.2節，1.3節，1.5節，おわりに）

白川真一横浜国立大学大学院環境情報研究院（1.4 節，おわりに）

■著者（50 音順）浅田稔大阪大学大学院工学研究科（4.2 節）

麻生英樹産業技術総合研究所（3.6 節）

荒井幸代千葉大学大学院工学研究科（2.3 節，3.4 節）

飯間等京都工芸繊維大学（2.5 節）

伊藤真沖縄科学技術大学院大学（4.1 節）

大倉和博広島大学大学院工学研究院（3.2 節）

黒江康明京都工芸繊維大学（2.5 節）

杉本徳和情報通信研究機構脳情報通信融合研究センター（3.1 節）

坪井祐太日本 IBM 東京基礎研究所（3.5 節）

銅谷賢治沖縄科学技術大学院大学（4.1 節）

前田新一京都大学大学院情報学研究科（2.1 節，3.7 節）

松井藤五郎中部大学生命健康科学部（2.7 節）

南泰浩電気通信大学大学院情報システム学研究科（3.3 節）

宮崎和光独立行政法人大学改革支援・学位授与機構（2.4 節）

目黒豊美 NTT コミュニケーション科学基礎研究所（3.3 節）

森村哲郎日本 IBM 東京基礎研究所（1.4 節，2.6 節）

森本淳 ATR 脳情報研究所（3.1 節）

保田俊行広島大学大学院工学研究院（3.2 節）

吉本潤一郎奈良先端科学技術大学院大学情報科学研究科（4.1 節）

所属は 2016 年 5 月現在のものです．

main : 2016/10/4(15:54)

第1 章

強化学習の基礎的理論

この章では，強化学習の基本的概念について概説する． 1.1

節では，強化学習がどのような問題を対象にしており，一般的な機械学習と何が異なるのかについて，できるだけ専門用語を使わずに解説する． 1.2節では，強化学習の理論を数式的に表す道具であるマルコフ決定過程 (MDP) を紹介する． 1.3節では，強化学習で最もよく使われる解法である，価値反復法について解説する．ここまで読むことで，最も簡単な強化学習の実装方法を知ることができるだろう． 1.4節では，価値反復法に代わって最近注目を集めている解法である方策勾配に基づくアルゴリズムを紹介する．また， 1.5節では，より複雑な強化学習問題を表現する基盤となる部分観測可能マルコフ決定過程 (POMDP)

について紹介する．第 2 章で扱うような先進的な強化学習理論を学ぶためには本章に目を通しておくことが望ましい．

main : 2016/10/4(15:54)

1.1 第 1 章強化学習の基礎的理論

強化学習とは牧野貴樹

強化学習とは試行錯誤しながら行動を最適化する理論的枠組みである，などという説明を聞くだけでは，強化学習とは何かを理解することは難しい．ここでは，強化学習がどのような問題を対象にしているのか，そこではどのような困難があるのか，ということを，まずは数式を使わず，例に基づいて説明したい．

1.1.1 強化学習の考え方強化学習問題 (reinforcement-learning problem)とは，対象について不完全な知識しかなく，また，対象へのはたらきかけによって観測できることが変わってくる場合に，最適なはたらきかけ方の系列を発見するような問題である．最も典型的なケースは，自律的に動く主体が，周囲にはたらきかける場合であるので，強化学習では，行動する主体をエージェント (agent)とよび，はたらきかけられる対象を環境 (environment)

とよぶ．たとえば，嵐で船が遭難し，無人の海辺に流れ着いた人を考えよう（図 1.1.1）．目が覚めたら知らない場所にいて，どこに何があるかもわからない．もしかしたら，危険な場所や，人を襲う動物が周囲にいるかもしれない．しかし，飲み水や食べ物を手に入れなければ，死んでしまうのはわかっている．こうした状況において，どのようにすればよいかを考えるためには，歩きまわったり，いろいろなもののにおいをかいでみたり，食べてみたり，などの環境へのはたらきかけを通して，探索しながら生き延びる方法を探さなければいけない．これは，強化学習問題の一例である．この例では，流れ着いた人がエージェントであり，流れ着いた浜辺の周囲が環境となる．エージェントが環境に行うはたらきかけを，行動 (action) とよぶ．エージェントは，いろいろな行動をとることができるが，どの行動をとるかによって，その後に何が起きるかが変わってくる．たとえば，歩いていける方向はいくつもあるだろうが，どちらに行くかでその次に見るものは大きく変わるだろう．エージェントが行動することで，変化する環境の要素を，状態 (state)とよぶ．この例では，エージェントがいまどこにいるか，何を持っているか，といったことが状態に相当する．同じ行動でも，どの状態でとるかによって，結果が大きく変わってくる．たとえば，同じ「水を飲む」という行動でも，手にしている水が海水であれば身体にダメージがあ

main : 2016/10/4(15:54)


図 1.1.1 無人島で生き残る方法を探すことは，強化学習問題の一例である．

る一方，きれいな湧き水を飲めば元気が出てくるだろう．あるいは，砂浜を歩くと別の場所に移動できるが，岩場を歩けば転倒して怪我をするかもしれない．強化学習では，未知の環境で発生するいろいろなことを統一的に比較する指標として，報酬 (reward)

とよばれるスカラー値で行動の結果の良さを表す．きれいな水を飲むなど，エージェントにとって良いことに対しては大きな報酬を，海水を飲むなど悪いことには少ない報酬を割り当てる（負値を使うことも多い）．報酬は，経済学では利得 (utility)とよばれ，制御工学では符号を反転して損失 (loss)またはコスト (cost)とよばれるが，強化学習の文脈では同じものと思ってよい．強化学習問題とは，置かれた環境のなかで，行動の選択を通して得られる報酬の総和を最大化する問題である．強化学習では，多くの場合，行動の結果や与えられる報酬は確率的に変化するもの

として与えられるため，一連の行動を最初に決定しておくよりも，行動の結果を観測してから次の行動を決めるほうが，より良い行動を選択できる．そこで，エージェントの行動決定の方策 (policy)を，観測の結果（現在の環境の状態）を入力として，行動を出力とする関数の形で表す．強化学習では，ありうる数多くの方策のなかから，最適な方策，すなわち，最も多くの報酬をもたらす方策を選択することが目的となる．単純には，エージェントはより多くの報酬につながる行動を選べばよいわけだが，あ

る行動をとった直後の報酬値（これを即時報酬 (immediate reward)とよぶ）だけに

main : 2016/10/4(15:54)

4 第 1 章 ▼ 強化学習の基礎的理論

注目していると，局所的な解に落ち込んでしまう．たとえば，歩いて周囲を探索すると体力を消耗するので，流れ着いた浜辺で動かずにじっとしているほうが即時報酬が高い，という状況が考えられる．しかし，いつまでもじっとしていても状況はそれ以上良くなることはない．逆に，探索を始めたばかりのときには何も報酬が得られなくても，そのあとに別の行動を組み合わせることで，はじめて大きな報酬が得られるかもしれない（食べ物を見つけるなど）．これを遅延報酬 (delayed reward)とよぶ．強化学習においては，即時報酬と遅延報酬を合わせ，得られる長期的な報酬を最大化するような行動を選ぶことが必要になる．遅延報酬の扱いは，強化学習における本質的な問題の一つである．遅延報酬を考慮に入れて考えようとすると，即時報酬だけでなく，その後に得られる報酬すべてを含めた結果，すなわち収益 (return, income)を最大化することが必要になる．報酬は外部から与えられるものであるのに対し，収益は最大化したい目標としてはエージェントが自ら設定するものであるので，エージェントの考え方に応じて計算式が変わってくる．たとえば，より遠くの未来の報酬を割引 (discount)した報酬和として収益を計算することも多い．しかし，収益は，まだ起きていない未来の出来事に依存する確率変数であるので，エージェントの現在の状態，使う方策などを固定した場合の条件つき期待値として，価値 (value)を計算する．価値には遅延報酬も含まれているため，価値が大きくなる条件を探すことができれば学習ができることになる．方策が変わると価値も変わるため，あくまである方策をとった場合の価値しか計算することはできない．しかし，エージェントは，価値を計算することで，どう方策を変えればより多くの価値が得られるかを知ることができる．試行錯誤を通してデータを収集し，価値を計算しながら方策を改善していくことが，強化学習における基本的な戦略となる．この例の状況であれば，岩場は歩きにくい（=報酬が少ない）ため，ほかに何もなければ行く意味がない（=この人にとって価値が低い）ので，岩場には行かない（=岩場に向かう行動を避けるような方策を選ぶ）．しかし，岩場の奥まで行ってみると，洞窟があり，雨風をしのげる（=報酬が多い）ことがわかったとすれば，岩場を通る行動に変えるかもしれない（岩場を通って洞窟に向かう方策を選ぶ）．行動をとることで得られる情報を通じて，方策を改善し続けていけば，だんだん得られる報酬が増えていくだろう．とはいえ，もしもいま置かれた環境について完全にわかっているならば，試行錯誤によらなくても，価値を計算したり，最適な方策を求めたりすることは可能である．たとえば，東側にきれいな湧き水があると知っていれば，そこに行けば水が手に入ることがわかる．西側の浜に空き瓶が流れ着いているのを知っていれば，飲み水を汲むという一連の行動を計画することもできるだろう．

main : 2016/10/4(15:54)


実際，最適行動決定の問題は，制御工学においても多く扱われているが，古典的な問題設定では，エージェントはノイズ項以外は環境について完全な知識があると仮定されている．あるいは，オペレーションズ・リサーチやミクロ経済学においても，他の行動主体は常に理性的な行動を選択するという強い仮定があり，また全エージェントが行動を選択した後の結果については完全な知識があると仮定されている．しかし，このような仮定をおくと，解ける問題は限定されてしまう．強化学習の問題では，ほとんどの場合，エージェントが環境に関して事前の知識を

もっていない，あるいは知識が不完全であると仮定する．すなわち，観測できるのは，現在の状態だけであり，どの行動をとると，どのように状態が変化するかはわかっていない．不完全な知識の上で，知識を収集しながら最適な行動を計画するためはどうすればよいかを考えることが，強化学習における中心的な課題となる．このことは，探索と利用のトレードオフ (exploration-exploitation tradeoff)とい

う，もう一つの強化学習の本質的な問題を引き起こす．単純な期待値だけを考えれば，これまで試したなかで最も良さそうな選択肢を選べばよいのだが，そうしていると，そのほかの選択肢がどの程度良い結果をもたらすか知ることができない．もしかすると，海にはたまに船が通るので，そのとき海辺にいれば助けを求めることができるかもしれないが，何もないのに何度も行っても手間がかかるだけである．かといって，一度行って船がいなかったので二度と行かないと決めてしまうと，チャンスを逃してしまうかもしれない．これまでの学習結果を利用 (exploitation) しようとすると，探索 (exploration)が減ってしまい，機会損失が増えてしまう．一方，探索を増やせば，学習した最良の行動とは異なる行動をとることが増えるため，得られる報酬が減ってしまう．学習した最良の行動との差が，探索のコストということになる．ここでは簡単のために極端な例をあげたが，環境の不完全な知識しかない状況で，

学習結果により観測が変化する場合には，常に成り立つことに注意されたい．たとえば，どこに釣り針を垂らすと魚が釣れるか，どう自転車を操作すると転ばないか，どうWeb広告を出すと一番クリックされるか，といったようなことは，どれも強化学習問題の例であり，遅延報酬や探索と利用のトレードオフが問題になる例である．この節では，最も簡単な強化学習問題の例として，多腕バンディット問題を例に考

える．多腕バンディット問題は，行動によって状態が変化しないので，遅延報酬や価値といった道具なしでも解ける，強化学習のなかでは非常に単純な状況設定と言える．しかし，その単純な例においても，強化学習の困難である探索と利用のトレードオフが発生する．以下では多腕バンディット問題を通して，探索と利用のトレードオフがなぜ発生するのか，そしてどのように克服するのか，を見ていきたい．

main : 2016/10/4(15:54)

1.4 第 1 章強化学習の基礎的理論

方策勾配に基づくアルゴリズム白川真一，森村哲郎

前節までの価値反復に基づく強化学習では，方策 (policy)は行動価値関数Q を通して表現されていた．すなわち，方策は行動価値関数から導出されるものとして定義され，エージェントは行動価値関数を試行錯誤を通して学習することで，最適な方策を求めていた．しかし，これとは異なるアプローチとして，方策を行動価値関数とは別のパラメータで表現することも考えられる．ここでは，確率的方策を，あるパラメータベクトル θによってパラメタライズされた確率モデル πθ(a|s)と考え，これを θについて最適化することで強化学習問題を解く方法を「方策勾配に基づく強化学習アルゴリズム」とよぶことにする．アルゴリズムの目的は，収益Gを最大化するような方策のパラメータ θ∗ を求めることして捉えることができる．方策勾配に基づく強化学習アルゴリズムでは，前節までに出てきた Q-learning や

Sarsaなどの行動価値関数を更新していくタイプのアルゴリズムとは異なり，方策 π

を明示的に更新していくことになる．本節では，この方策勾配に基づく強化学習アルゴリズムの考え方と代表的なアルゴリズムを概説する．

1.4.1 概要ここでは，方策勾配に基づく強化学習の概念を次のような 1次元のゴルフ問題の例題を通して説明してみよう．

ゴルフ問題・エージェントは状態として，ボールとカップの距離と風の強さを連続値として観測できる・各ステップでエージェントはスイングの速さを連続値で設定できる・エージェントはボールとカップまでの距離に応じて報酬を得る

この問題の概要図を図 1.4.1に示す．このゴルフ問題のように，状態 sや行動 aの取りうる値が連続である場合，前節のように行動価値関数Q(s, a)の学習を通して行動を選択しようとすると，いくつかの問題に遭遇する．まず，状態 sや行動 aが連続の場合，それらの値をすべて数え上げることは不可能であるため，行動価値関数をテーブルとして保持するためには，状態や

main : 2016/10/4(15:54)


図 1.4.1 ゴルフ問題の概念図

行動の離散化が必要となる．状態や行動の離散化についてはさまざまな方法が存在するが，問題によっては適切な離散化方法をあらかじめ知ることは困難である．ゴルフ問題の状態を離散化する場合でも，何メートル刻みで離散化すればよいのか，等間隔な離散化でよいのかなど考えるべき項目を種々あげることができ，即座に最適な離散化方法を設定することは難しい．一般に，状態や行動の離散化が粗すぎるとエージェントが認識できる情報が減ってしまったり，緻密な行動ができなくなってしまったりする．一方，離散化が細かすぎると，行動価値関数のテーブルが膨大になり，莫大な量の試行が必要になったり，大量のメモリ空間が必要になったりする問題がある．それでは，行動価値関数 Q(s, a)を何かしらの関数近似器で近似する方法はどうだ

ろうか（関数近似器については 2.1節に詳しい説明がある）．行動価値関数Q(s, a)を状態と行動を入力とする何かしらの関数 f(s, a)で近似したとすると，状態や行動を離散化せずに連続値のまま扱うことができる．しかしながら，行動が連続値である場合，行動価値関数 Q(s, a)が最大となるような行動を選択することはそれほど容易ではない．通常は，ある状態で行動価値関数Q(s, a)が最大となる行動 a∗ を解析的に求めることは困難であるため，探索的に求めることが必要となる．たとえば，連続版ゴルフ問題の場合，行動は打つ強さの 1変数であるので，行動 aの値を 0.01刻みで変えて行動価値関数 Q(s, a)の値を取得し，最大となる行動を全探索的に探すことが考えられる．この方法は，1変数であればそれほどコストがかからないかもしれないが，行動として出力すべきものが，スイングの速さだけでなく，エージェントの立つ位置，グリップの強さ，グラブの種類など行動の自由度（次元）が増えていくと探索数も指数関数的に増大し，行動選択に必要な計算量が爆発してしまう．とくに問題空間が連続であるような場合には，行動価値関数を計算機上で効率的に取り扱うために何かしらの工夫が必要になってしまう．1.2節で登場した ε-greedy法では，行動価値関数 Q(s, a)に基づいて確率的方策が

main : 2016/10/4(15:54)


表現されており，方策関数自体には学習により調整されるパラメータが存在していない†．このような場合，試行錯誤によって得られたデータを利用して行動価値関数の更新（価値反復）を行うことで方策が更新される．この行動価値関数 Q(s, a)と方策π(a|s)の更新のイメージを図 1.4.2に示す．図中のある方策に従って行動した後には，行動価値関数が更新され最適な行動価値関数に近づいていくことをイメージしている．価値反復に基づく強化学習アルゴリズムでは，行動価値関数を更新していき，方策を明示的に更新することはしない．ただし，行動価値関数に応じて方策が決まるため，行動価値関数の更新によって方策は変化する．図中では方策が行動価値関数に付随して決まることを水平の矢印で表現している．価値反復に基づく強化学習アルゴリズムでは，行動価値関数によって方策がパラメタライズされ，行動価値関数を更新していくことがアルゴリズムの中心であった．強化学習本来の目的が最適な方策 π を求めることであったことを思い出すと，行動価値関数 Q(s, a)を用いて方策を定める必要性はなく，方策関数を別のパラメータベクト

図 1.4.2 価値反復に基づく強化学習アルゴリズムの行動価値関数と方策の更新イメージ方策が行動価値関数だけ表現される場合，行動価値関数が決まるとそれに応じて自動的に方策が決定するため，図中で Q から π への矢印は水平線とした．ある方策に従って行動した後には，行動価値関数が更新され最適な行動価値関数 Q∗ に近づいていくことをイメージしている．

† ε-greedy 法やボルツマン方策では，パラメータとして選択確率 ε や温度パラメータ T が存在するが，これらはアルゴリズム使用者が事前に設定する外部パラメータであり，学習の対象にはなっていないため，方策パラメータとはみなさない．

main : 2016/10/4(15:54)


ル θによってパラメタライズすることも考えられる．方策勾配に基づく強化学習アルゴリズムでは，このように行動価値関数に着目するのではなく，方策そのものをパラメータ表現し，直接方策を求めることに重きを置く．さて，方策をパラメータベクトル θでパラメタライズするとはどういうことだろう

か？ここでは，ゴルフ問題を例に方策表現を考えてみよう．ボールとカップの距離を s1，風の強さを s2 として，この二つの状態変数 s = [s1, s2]

T を入力とし，行動としてスイングの速さ aを決定する関数 f(s)を考える．この関数が次のような線形関数であるとすれば，この方策モデルのパラメータは w1 と w2 である．

f(s) = w1s1 + w2s2 (1.4.1)

アルゴリズムの表現を簡単にするために，この二つのパラメータをまとめて 2次元ベクトルの θ = [w1, w2]

T と表すことにすると，fθ(s)はパラメータベクトル θ でパラメタライズされた方策ということができる．このベクトルを構成する二つのパラメータを調整することで，方策を変化させることができ，これを調整することが方策勾配に基づく強化学習アルゴリズムの目的になる．方策勾配に基づく強化学習では，これまでの行動価値関数を通した方策表現とは異なり，方策モデルに行動価値関数を用いる必要はなく，方策のパラメータを試行錯誤を通して直接学習できればよいと考える．単純な方策モデルとして，式 (1.4.1)の線形関数を例にあげたが，この関数に従って

行動を決定した場合，エージェントの行動はある状態に対して決定的なものとなり，確率的な要素は入らない．環境に対しての知識を仮定しない強化学習の場合，エージェントがさまざまな状態，行動を経験し試行するために，確率的な方策モデルを導入するのが有効である．ゴルフ問題の例で，式 (1.4.1)を方策関数として説明を行ったが，これを拡張して行動（スイングの速さ）は平均 f(s)，分散 σ2の正規分布N (f(s), σ2)

に従って決定されるとしよう．こうすることで，同じ状態観測でも正規分布に基づくゆらぎが行動に与えられ，確率的な方策を表現することができる．ここで，方策のパラメータに新たに σが導入されていることに注意していただきたい．すなわち，この場合の確率的な方策モデルのパラメータは θ = {w1, w2, σ}の三つとなり，これらを学習することが目的となる．本項の例では，方策表現として単純な線形モデルと正規分布モデルを紹介したが，ニューラルネットワークなどのより複雑なモデルを採用することも可能である．ここまでで概説したように，方策勾配に基づく強化学習では，方策を何かしらの確

率モデルで表現し，そのパラメータを試行錯誤を通じて学習する．通常は，方策モデルのパラメータ学習には勾配法が用いられる．エージェントの目的は期待収益を最大化することなので，適当なパラメータから始めて，期待収益が大きくなる方向にこのパラメータを更新していくという手順を踏むことになる．方策勾配に基づく強化学習

main : 2016/10/4(15:54)


では，行動価値関数を明示的に使うことなく方策モデルを直接表現し，パラメータの学習を通して方策の改善を繰り返す．方策を確率モデルで直接表現することで，状態や行動が離散の場合でも連続の場合でも，モデルを変更するだけで同じようにアルゴリズムを適用することができる．実際にエージェントの行動を実現する場合にも，確率モデルである方策からのサンプリングによって行動を決定するため，サンプリングが容易な確率モデルであれば，連続の行動を決定することも容易である．端的に言ってしまえば，前節までの強化学習アルゴリズムと本節の方策勾配に基づく強化学習アルゴリズムの違いは，アルゴリズムの主眼が行動価値関数の推定にあるのか，方策を直接推定することになるのかの違いである．図 1.4.3は方策勾配に基づく強化学習アルゴリズムの方策更新のイメージ図である．この図では方策の評価に基づいて方策パラメータが更新され，最適な方策に近づいていくことをイメージしている．どちらのアプローチが良いかは，対象となる問題に応じて変わってしまうため，解きたい強化学習問題の特性を使用者が見極め，適切なアルゴリズムを選択する必要がある．さきに述べたように，一般には，連続の状態，行動空間を取り扱いたい場合は，方策勾配に基づく強化学習アルゴリズムを選択する利点が大きいと言える．一方，方策勾配に基づく強化学習アルゴリズムは方策モデルとは別に方策モデルを更新するための推定値が必要となるため，一般にアルゴリズムが煩雑になりやすく，調整パラメータの数も多い．

図 1.4.3 方策勾配に基づく強化学習アルゴリズムの方策更新のイメージ通常は，ある方策に対する評価方法は変わらないため，方策の評価への矢印は水平線とした．方策の評価に基づいて方策パラメータが更新され最適な方策 πθ∗ に近づいていくことをイメージしている．

main : 2016/10/4(15:54)

3.7第 3 章強化学習の工学応用

深層学習を用いたQ関数の学習：Atari 2600と囲碁への応用

前田新一

本節では，関数近似器として deep neural networkを用いてQ関数を学習させたことでこれまでにない性能を発揮させることに成功した研究について紹介する．ニューラルネットワークなど非線形関数を用いた強化学習アルゴリズムで，収束性

を保証できるアルゴリズムは限られている．しかし，応用においては，収束の保証されない強化学習アルゴリズムであっても成功を収めている例（バックギャモン[30, 31]，エレベータ運行計画問題[10]，ジョブショップスケジューリング問題[39]）が存在する．とくに近年，非線形関数近似器である多層ニューラルネットワークの表現能力の高

さを，大量のデータによる学習とアーキテクチャと学習則の工夫によって引き出すことが可能であることが示されるようになり，大規模な状態行動空間をもつ問題に対して行動価値関数の学習が成功を収めることが示された．ここでは，昔の家庭用ゲーム機Atari 2600の多くのゲームを人間のプレイヤー以上の成績で解けるような学習に成功したことで注目された研究と，囲碁のプロ棋士の Fan Hui氏に 5戦全勝し，後にプロの中でもトップ棋士の一人と目される Lee Sedol氏に 5戦中 4勝したことで注目された研究について紹介する．

3.7.1 Deep Q-Network (DQN)によるAtari 2600のゲームの学習これまでバックギャモン[30, 31] やオセロ[18], チェス[2] などのゲームの学習に強化学

習が利用され成果を上げてきたが，人手で構築された特徴を用いることで，性能が向上することが示されることが多かった．しかし，Deep Q-Network (DQN)は，入力として画面のデータそのものを用いて，同じ学習アルゴリズムを適用するだけで，さまざまなゲームにおいて人間並みあるいは人間以上の高得点が達成できるようになったことで注目を集めた[20, 21]．ただし，恣意的な特徴抽出を行わない手法も古くから試されてはきていた．バックギャモン[31] やオセロ[7, 16]，将棋[3, 41] では，単純な盤面上のパターンを入力とした機械学習が行われている．とくに将棋では，機械学習による盤面の状態価値の学習がうまくはたらき，プロ棋士に劣らない実力を得るまでにいたっている．このように機械学習はゲームの学習に利用されてきていたが，それでもDQNは，既存研究が扱ってきたボードゲームのとりうる状態数より大きな状態数を表現可能な画面の画素情報を入力とし，ゲームによらずほぼ同じ構造をもつニューラ

main : 2016/10/4(15:54)

258 第 3 章 ▼ 強化学習の工学応用

ルネットワークでさまざまなゲームの状態価値の学習ができることを示したことは，注目に値する．DQN の論文は，NIPS という機械学習の国際会議のなかの深層学習ワークショップで 2013年 12月に発表された論文[20]と，2015年 2月の Nature誌に掲載された論文[21]の二つが存在する．これらを区別する際には，それぞれ NIPS版DQNと Nature版 DQNとよぶこととする．

3.7.2 DQNのネットワーク構造DQNは，その名が示すように，Q関数とよばれる行動価値関数を推定するための多層ニューラルネットワークである．多層ニューラルネットワークは，入力変数を n(0)

次元のベクトル x，入力層から直接入力を受ける 1 層目の中間層のユニットを n(1)

次元のベクトル h(1) で，2層目以降の中間層のユニットを n(l) 次元のベクトル h(l)

(2 ≤ l ≤ L− 1), 出力を n(L) 次元ベクトル yで表すと，

h(1) = sig(W(1)x+ b(1)) (3.7.1)

h(l+1) = sig(W(l)h(l) + b(l)) (3.7.2)

y = o(W(l)h(L) + b(L)) (3.7.3)

と書けるような関数を指す．ここで，関数 sig(x)，o(x) はそれぞれシグモイド関数1/(1 + exp(−x))などの活性化関数を表し，入力変数がベクトル xの場合，各要素それぞれに活性化関数を作用させるものとする．関数 o(x) には非線形関数が使われない場合があったり，出力の総和が 1となるように制約されたりすることがあるため，それ以外の活性化関数 sig(x) と区別した．W(l)，b(l) はそれぞれ n(l+1) × n(l) 行列，n(l+1) 次元ベクトルのパラメータであり，これらをまとめてパラメータ θ と表記する．また，関数 Q(s, a)がパラメータ θ で特徴づけられることを明示する際にはQ(s, a; θ)と表記する．多層ニューラルネットワークの層の数 Lが多いことをもって深層ニューラルネットワーク (deep neural network)とかその学習を深層学習 (deep

learning)†などとよぶ．深層ニューラルネットワークは，表現できる関数の自由度が高い一方で，過学習が問題になるため，その関数を適切に学習させることは困難であった．DQNもその例外ではなく，過度な自由度の高さを抑える工夫が施されている．一つ目は，畳み込みニューラルネットワークの利用，二つ目は，中間層のユニットの共有，である．

畳み込みニューラルネットワーク畳み込みニューラルネットワークは，画像認識などの画像処理でよく用いられる構

† 最近の深層学習に関しては，簡単な理論から実践的な内容は[42] で，広範な理論や技術内容は[40], 個別の技術的な詳細は[43] でそれぞれ述べられている．

main : 2016/10/4(15:54)

3.7 深層学習を用いた Q 関数の学習：Atari 2600 と囲碁への応用 259

図 3.7.1 畳み込みニューラルネットワークの構造上位層のユニットが受け取る下位層のユニットからの入力は空間的に近いユニットからの入力に限られ，またその重みのパターンは上位層の位置によらず，同じパターンをとる．こういった重みパターン（フィルタ）が複数，利用される．

造であり，入力される画像の画素の幾何的な位置情報を利用した構造をもつ．本来のニューラルネットワークは，隣接する層間のユニットの間の結合を全結合とするが，畳み込みニューラルネットワークでは，図 3.7.1に示すように上位層の隠れユニットは，空間的に近いユニットからの結合しかもたないように制約される．さらに，その重みのパターンは空間的な位置によらないよう制約される．この場合，重み行列W

と下位層のユニットの入力 hとの間の行列演算Whは，下位層のユニットの入力に対するフィルタによる畳み込み演算と同じ演算となるため，重み行列Wを構成する重みのパターンはしばしばフィルタとよばれ，こういった構造をもつネットワークは畳み込みネットワークとよばれる．通常，複数のフィルタが学習される．この畳み込みネットワークは，もともとの全結合するニューラルネットワークからみれば大幅に自由度が制限されているものの，空間的な位置に依存しない特徴や，空間的に近い状態間に強い相関をもつ入力データの学習は可能であり，そういった性質をもつ画像などの入力データを学習するのに適した構造となっている．

中間層のユニットの共有DQN は，状態 s，行動 a に対する行動価値関数 Q(s, a) を学習する．これは，状

態行動対を入力とし，スカラーの行動価値を出力する関数と考えることができるが，DQNではその関数の複雑さを限定するために，多値関数として扱う．いま，行動 a のとりうる種類が a ∈ {a1, . . . , aN} の N 通り†であったとすると，

DQNは N 通りの出力をもつ多値関数を一つのニューラルネットワークで表現する．すなわち，DQNの i番目の出力を fi(s)とすると，関数 fi(s)が表すものは i番目の行動をとったときの Q関数 fi(s) = Q(s, ai)となる．この N 通りの関数を，独立な別のニューラルネットワークとして学習させると，ニューラルネットワークの自由度は高くなってしまうが，DQNでは入力や中間層を共通なものとし，中間層の最終段から出力層への重みのみを行動ごとに異なるものとすることで，ニューラルネットワー

† とりうる行動の種類 N はゲームごとに異なり，4 から 18 の間の値をとる．

main : 2016/10/4(15:54)

260 第 3 章 ▼ 強化学習の工学応用

図 3.7.2 DQN のアーキテクチャ

クの自由度を抑制し，過学習を防いでいる．また，このような構造をとると，行動ごとに関数を評価し直す必要がないため，高速に Q関数を評価するのに役立つ．このネットワーク構造を図 3.7.2に示す．図 3.7.2にあるとおり，DQNには四つのフレームの画面の情報が入力されている．ただし，実際の画面のフレームレートは 60Hzであり，Nature版DQNではそのうち連続する 4フレームのうち 3フレーム目と 4フレーム目のピクセルの最大値をとって一つのフレームとしている†．また，その 4フレームの間，行動は同じものを選択し続けるものとする．また，既存の深層学習フレームワークにおいて GPU計算機が効率的に畳み込み演算できるのが正方形の入力であったため，前処理において 210× 160

の画面サイズをダウンサンプリングし，84× 84正方形の画面に整形している．RGB

のカラーは，グレースケールの輝度値に変換される．

3.7.3 DQNの学習アルゴリズムDQNの学習は，基本的に以下の目的関数 J(θ)の最小化を意図してパラメータ更新がなされる．

J(θ) = E[(yt −Q(st, at; θ))2] (3.7.4)

ここで，yt は，Q(st, at; θ)が出力するべきターゲットを表す．この目的関数のパラメータ θ に関する微分は，

† NIPS 版 DQN では 4 フレームおきのフレームをとっている．ただし，スペースインベーダーの場合，見えない弾が生じてしまうため 3 フレームおきのフレームとしている．

main : 2016/10/4(15:54)

311

索　引

□英数字α-ベクトル 61

ε-greedy アルゴリズム 9, 27, 113

accumulating trace 83

ACh → アセチルコリンaction 2

Actor-Critic アルゴリズム 50

Actor-Critic 法 155, 290

agent 2

AlphaGo 265

apprenticeship learning 128, 226

BG → 大脳基底核BRM: Bellman Residual Minimization

89

CDR → 認知発達ロボティクスclassical conditioning 285

cost 3

Credit Assignment Problem → 信用割当問題DA → ドーパミンDBN: Dynamic Bayesian Networks 218

deep learning → 深層学習delayed reward 4, 127

discount 4

double Q-learning 263

double sampling 89

DQN: Deep Q-Network 145, 257

DQN with PS 146

effectance → イフェクタンスEM → 外発的動機付けenvironment 2

experience replay 79, 261

exploitation 5

exploration 5

exploration-exploitation tradeoff 5

fitted Q 99

GA: Genetic Algorithm 130

GAIRL 131

Gaussian Process 226

GQ: Gradient Q-learning 99

Gradient Temporal Difference (GTD) アルゴリズム 88

greedy GQ 99

greedy アルゴリズム 6

greedy 方策 27

Hip → 海馬IM → 内発的動機付けimitation learning → 模倣学習immediate reward 3

income 4

incremental pruning 63

instrumental conditioning 285

instrumental variable method 90

intracranial self-stimulation 286

inverse reinforcement learning → 逆強化学習law of effect 285

LEM → 易しいタスクからの学習loss 3

LSPE(Least-Squares Policy Evaluation) 法96

LSPI(Least-Squares Policy Iteration) 法98

LSTD(Least-Squares TD) 法 91

MDP: Markov Decision Process → マルコフ決定過程

mirror neuron system → ミラーニューロンシステム

multi-agent → マルチエージェントM 推定量 103

N-Persons Iterated Prisoner’s Dilemma

160

NAC: Natural Actor-Critic 221

natural policy gradient → 自然方策勾配法NE → ノルアドレナリンneuromodulator → 神経修飾物質NLP → 自然言語処理OnPS 183

operant conditioning 285

optimal learning policy → 最適訓練方策optimal learning trajectory → 最適訓練行動列Pavlov’s dog 284

PBVI: Point-Based Value Iteration 60,

216, 219

policy 3

POMDP → 部分マルコフ決定過程prioritized experience replay 263

Profit Sharing (PS) の合理性定理 137

PS: Profit Sharing 137, 182

PSO: Particle Swarm Optimization 153

Q-learning（Q 学習） 37, 87, 150

QoL: Quality of Life 249

Q 値 150

regret 112

reinforcement 285

reinforcement signal 285

reinforcement-learning problem 2

reinforcer 285

REINFORCE アルゴリズム 52

return 4

reward 3

RoboCup → ロボカップ

main : 2016/10/4(15:54)

312 索　引

R 学習 177

Sarsa 33, 85

Sarsa(0) 288

Skinner box 285

state 2

state-action space → 状態行動空間structured prediction → 構造化予測TD(0) 286

TD 学習 81, 109, 230

TD 誤差 34, 81

Thompson サンプリング 114

UCB1 アルゴリズム 113

UCT: Upper Confidence bounds on Trees

114

Upper Confidence Bound (UCB) アルゴリズム10, 113

utility 3

value 4

□あ　行アセチルコリン 301

安全な強化学習 177

アントコロニー最適化 154

遺伝的アルゴリズム 130

イフェクタンス 300

医療臨床データ分析 249

迂回系列 138

エージェント 2

エピソード 21, 137

エンパワーメント 302

オペラント条件付け 285

オンライン勾配法 184

□か　行海馬 301

外発的動機付け 295

ガウシアンプロセス 226

学習世界 149

価値 4, 22

環境 2

観測 56

関数近似法 155

完全協調問題 160

逆強化学習 128, 237, 242

強化 285

強化学習問題 2

強化関数 137

強化子 285

強化信号 285

教示 136

教師付き学習 127

グリーディ法 → greedy アルゴリズムグロス利益率 178

群強化学習法 148

群ロボット 162

経験強化型学習 136

効果の法則 285

構造化予測 238

行動 2, 15

行動価値 25

行動価値関数 25

行動空間 16

合理的政策 138

コスト 3

古典的条件付け 285

□さ　行最適訓練行動列 239

最適訓練方策 239

最適状態価値関数 25

最適方策 25

時間ステップ 21

自己最良 Q 値 153

指数関数型割引 180

自然言語処理 237

自然方策勾配法 220

収益 4, 21, 150

囚人のジレンマ問題 160

終端状態 127

状態 2, 14

状態価値 22

状態空間 16

状態行動価値関数 150

状態行動空間 296

状態遷移確率 16

情報交換による学習 149

情報交換法 152

初期状態分布 16

自律的 225

神経修飾物質 291, 300

深層学習 137, 145, 258

信用割当問題 296

推定関数 102

スキナーの箱 285

スタグハントゲーム 227

スティルフェースパラダイム 306

生活の質 → QoL

正規化ガウシアンネットワーク 156

政策 138

制約緩和法 131

セロトニン 291

線条体 287

全体最良 Q 値 153

操作変数法 90

即時報酬 3

損失 3

□た　行体験再生 79, 261

大脳基底核 287, 300

タイプ 2 の混同 138

多点探索型最適化法 148

多腕バンディット問題 6, 112, 178

探索 5

main : 2016/10/4(15:54)

索　引 313

探索と利用のトレードオフ 5

遅延報酬 4

道具的条件付け 285

投資比率 178

ドーパミン 286, 300

貪欲法 → greedy アルゴリズム

□な　行内発的動機付け 295

二重サンプル法 89

二重指数関数型割引 180

ニューロモジュレータ 291

認知発達ロボティクス 295

脳内自己刺激行動 286

ノルアドレナリン 301

□は　行罰ルール 139

パブロフの犬 284

バンディット問題 → 多腕バンディット問題評価値 152

フェロモン 154

フォーメーション制御 162

不完全知覚問題 56

複利型 Q 学習 181

複利型 Sarsa 182

複利型強化学習 177

複利利益率 178

不確かなときは楽観的に 9, 113

部分観測マルコフ決定過程 56, 214, 249

分布ベルマン方程式 172

平均報酬強化学習 177

ベイジアン強化学習 119

ベイズ環境モデル 118

ベルマン最適方程式 36

ベルマン残差最小化法 89

ベルマン方程式 31

方策 3, 15, 150

方策反復 86

報酬 3, 15, 150

報酬型 MDP 179

報酬関数 16

報酬の遅れ 127

ボルツマン方策 27

□ま　行マルコフ決定過程 16, 166, 214, 249

マルチエージェント 296

マルチエージェント学習 159

マルチエージェント群強化学習法 159

マルチスタート法 139

マルチロボット強化学習 200

マルチンゲール推定関数 104

見習い学習 128, 226

ミラーニューロンシステム 298

無効ルール 138

群れ行動 153

メタ学習 291

メタヒューリスティクス 163

目標状態 127

模倣学習 237

モンテカルロ木探索 266

□や　行易しいタスクからの学習 296

有効ルール 138

優先順位付き体験再生 263

□ら　行楽観主義原理 → 不確かなときは楽観的に楽観的初期価値法 115

楽観的初期値法 10

利益率 177

利益率型 MDP 180

利益率の複利効果 177

リグレット 112

リスク考慮型強化学習 165–175, 177

リターン分布 167, 170

リターン分布推定 165, 172–174

利得 3

利用 5

累積履歴 83

ルール 137

連続状態行動空間 155

連続状態行動空間学習問題 155

ロボカップ 295

□わ　行割引 4

割引収益 179

割引複利利益率 180

割引報酬和 22

okuzuke : 2016/9/23(11:5)

　編集担当　丸山隆一（森北出版）　編集責任　藤原祐介・石田昇司（森北出版）　組　　版　藤原印刷　印　　刷　　同　　製　　本　　同　　イラスト　有限会社ケイデザイン　北村裕子

これからの強化学習c⃝牧野貴樹／澁谷長史／白川真一／浅田稔／麻生英樹／荒井幸代／飯間等／伊藤真／大倉和博／黒江康明／杉本徳和／坪井祐太／銅谷賢治／前田新一／松井藤五郎／南泰浩／宮崎和光／目黒豊美／森村哲郎／森本淳／保田俊行／吉本潤一郎 2016

2016 年 10 月 31 日　第 1 版第 1 刷発行【本書の無断転載を禁ず】

編著者　牧野貴樹／澁谷長史／白川真一発行者　森北博巳発行所　森北出版株式会社

東京都千代田区富士見 1-4-11（〒102-0071）電話 03-3265-8341 ／ FAX 03-3264-8709http://www.morikita.co.jp/日本書籍出版協会・自然科学書協会　会員

＜（社）出版者著作権管理機構委託出版物＞

落丁・乱丁本はお取替えいたします．

Printed in Japan ／ ISBN978-4-627-88031-3

「これからの強化学習」 サンプルページ · 南泰浩...

Documents

「これからの強化学習」サンプルページ · 南泰浩...