ベイズ統計の数理と深層学習 @db analytics showcase sapporo 2017

57
ベイズ統計の数理と深層学習 株式会社Gunosy 米田 (@MATHETAKE) 2017.07.01

Upload: takeshiyoneda

Post on 21-Jan-2018

12.238 views

Category:

Technology


0 download

TRANSCRIPT

Page 1: ベイズ統計の数理と深層学習 @db analytics showcase Sapporo 2017

ベイズ統計の数理と深層学習

株式会社Gunosy米田 武 (@MATHETAKE)

2017.07.01

Page 2: ベイズ統計の数理と深層学習 @db analytics showcase Sapporo 2017

2©Gunosy Inc.

自己紹介

● 米田 武 ( マスタケ )

● Twitter : @MATHETAKE○ Twitter就活してました

● Blog : Obey Your MATHEMATICS.

● 学位:修士(純粋数学) - 2017年卒○ 微分幾何学, 複素幾何学, シンプレクティック幾何学

● 所属○ 株式会社Gunosy  開発本部 データ分析部 ロジック/研究開発

■ 推薦アルゴリズムの実験 / 精度検証 / バックエンドの実装

■ 釣り記事対策 & 記事の品質モデリング などなど

● 基本的に自然言語処理

● 最近の興味/研究対象○ 自然言語処理  ∩ 推薦システム○ 確率モデリング ∩ 深層学習

 

Page 3: ベイズ統計の数理と深層学習 @db analytics showcase Sapporo 2017

3©Gunosy Inc.

今日の目標

「ベイズ統計の基礎〜推定手法〜深層学習とベイズの融合まで理解する」

1. ベイズ統計の理論的お気持ちを理解する

2. ニューラルネットワークの複雑性を味わう

3. MCMCの基礎とアルゴリズムのお気持ちを理解する

4. ベイジアンニューラルネットワークとEdwardのお気持ちを理解する

Page 4: ベイズ統計の数理と深層学習 @db analytics showcase Sapporo 2017

4©Gunosy Inc.

今日の目標

「ベイズ統計の基礎〜推定手法〜深層学習とベイズの融合まで理解する」

1. ベイズ統計の理論的お気持ちを理解する

2. ニューラルネットワークの複雑性を味わう

3. MCMCの基礎とアルゴリズムのお気持ちを理解する

4. ベイジアンニューラルネットワークとEdwardのお気持ちを理解する

注意

※ “Gunosyにおける機械学習 ” 的な話ではありません

※ 特定のモデルやアーキテクチャに関する話はしません

※ 直接には役に立たないであろう話が多いです

※ ベイズと最尤どっちが良いとかそういう宗教戦争はやめましょう

※ 難しいです

Page 5: ベイズ統計の数理と深層学習 @db analytics showcase Sapporo 2017

5©Gunosy Inc.

もくじ

1. ベイズ統計の数理

1.1. ベイズ統計のキホンのキ

1.2. 汎化誤差と経験誤差

1.3. ベイズの状態方程式とWAIC

1.4. 正則モデルと特異モデル

2. DeepLearningの数理

2.1. 対称性と階層構造

2.2. 確率分布の空間と特異点

3. ビッグデータ時代のMCMC3.1. MCMCのキホンのキ

3.2. Metropolis-Hastings法とLangevin Dynamics

3.3. Stochatic Gradient Langevin Dynamic

3.4. 確率微分方程式とMCMC(おまけ)

4. Bayesian Neural NetworkとEdward

Page 6: ベイズ統計の数理と深層学習 @db analytics showcase Sapporo 2017

6©Gunosy Inc.

1.ベイズ統計の数理

Page 7: ベイズ統計の数理と深層学習 @db analytics showcase Sapporo 2017

7©Gunosy Inc.

1.1 ベイズ統計のキホンのキ

● n個のサンプル

● モチベーション : q(x)をモデリングしたい(真の分布を知りたい)

○ 統計モデルと事前分布を用意

● 事後分布 (β >0)

● 分配関数(周辺尤度)

Page 8: ベイズ統計の数理と深層学習 @db analytics showcase Sapporo 2017

8©Gunosy Inc.

1.1 ベイズ統計のキホンのキ

● 予測分布

● ベイズ推論 = 真の分布はだいたい p* ぐらいと推論すること

➔ この推論の正しさを定量的に評価できないか?

➔ サンプルを無限に取り続けていった時にどの程度qに近づくか?

Page 9: ベイズ統計の数理と深層学習 @db analytics showcase Sapporo 2017

9©Gunosy Inc.

1.2 汎化誤差と経験誤差

● 汎化誤差

■ S:真の分布のエントロピー

■ K:KLダイバージェンス

■ 汎化誤差が小さいほど予測分布は真の分布に”近い”

➔ 汎化誤差が計算できれば、モデルがどのくらい優れているか定量的に分かる

Page 10: ベイズ統計の数理と深層学習 @db analytics showcase Sapporo 2017

10©Gunosy Inc.

1.2 汎化誤差と経験誤差

● がしかし汎化誤差は計算不可能 ( ∵真の分布が未知)

➔ 計算可能な量で近似したい

➔ 経験誤差

で近似したい

● 経験誤差と汎化誤差はどの程度違う?一般的な関係式はある?

➔ ベイズの状態方程式

Page 11: ベイズ統計の数理と深層学習 @db analytics showcase Sapporo 2017

11©Gunosy Inc.

1.3 ベイズの状態方程式をWAIC

● 汎関数分散

● ベイズの状態方程式 ⇒ 汎化誤差と経験誤差に関する一般的な性質

● WAIC (Widely Applicable Information Criteria)

Page 12: ベイズ統計の数理と深層学習 @db analytics showcase Sapporo 2017

12©Gunosy Inc.

1.3 ベイズの状態方程式をWAIC

なぜ “Wiedly Applicable” か?

なにに対して “Wiedly Applicable” なのか?

Page 13: ベイズ統計の数理と深層学習 @db analytics showcase Sapporo 2017

13©Gunosy Inc.

1.3 ベイズの状態方程式をWAIC

なぜ “Wiedly Applicable” か?

なにに対して “Wiedly Applicable” なのか?

正則モデルと特異モデルの違い

Page 14: ベイズ統計の数理と深層学習 @db analytics showcase Sapporo 2017

14©Gunosy Inc.

1.4 正則モデルと特異モデル

● 平均対数損失 

➔ パラメータ毎の真の分布との “距離”

➔ これを最小にするパラメータ集合を W_0 ⊂ W とする

● 対数尤度比関数

● 経験誤差関数

● 経験誤差関数のゼロ点は重要

∵ K(w) = 0 ⇔ w = w_0 が成立する

Page 15: ベイズ統計の数理と深層学習 @db analytics showcase Sapporo 2017

15©Gunosy Inc.

1.4 正則モデルと特異モデル

● 古典的な統計学での仮定その1

K(w) = 0 となる wは一意に定まるパラメータと確率分布は一対一に対応する(identifiability)

● Fisher情報計量

● 古典的な統計学での仮定その2

フィッシャー情報計量はかならず正則行列

このような統計モデルを正則モデルという

Page 16: ベイズ統計の数理と深層学習 @db analytics showcase Sapporo 2017

16©Gunosy Inc.

1.4 正則モデルと特異モデル

● よく知られた情報量規準AICやBICの導出は正則性を仮定

● 一方今流行の統計モデルは特異点だらけ

○ ex) ニューラルネットワーク ⇒ 後で証明

● WAIC は特異モデルに対しても成立する一般論により導出

○ 代数幾何・代数解析・多変数函数論・特異点論・超関数論・確率過程など非

常に高度な数学が用いられる (測度論が〜レベルではない)

ref.

1. ベイズ統計の理論と方法 - 渡辺澄夫

2. Algebraic Geometry and Statistical Learning Theory - 渡辺澄夫

3. ベイズ統計の数理について−WAICとその数学− - 私のブログエントリ

4. Notes for a graduate-level course in asymptotics for statisticians

Page 17: ベイズ統計の数理と深層学習 @db analytics showcase Sapporo 2017

17©Gunosy Inc.

2. ディープラーニングの数理

Page 18: ベイズ統計の数理と深層学習 @db analytics showcase Sapporo 2017

18©Gunosy Inc.

2.1 対称性や階層構造

● ガウシアンノイズを加えた3層NN

● ニューロンの置換によって与えられる確率分布は等しい

○ ex.) w_1 ⇔ w_2, v_1 ⇔ v_2 の変換で出力関数fは変化しない

➔ 統計モデルとしてidentifiabilityを満たさない

ニューラルネットワークの対称性(3層の場合に限らない)

Page 19: ベイズ統計の数理と深層学習 @db analytics showcase Sapporo 2017

19©Gunosy Inc.

2.1 対称性や階層構造

● v_1 = 0 の場合を考えてみる

● この場合、2つの素子を持つニューラルネットが1つの素子を持つニューラル

ネットにより表現されてしまっている

● この時、w_1の値に依らず出力関数は等しい

➔ 統計モデルとしてidentifiabilityを満たさない

ニューラルネットワークの階層構造

Page 20: ベイズ統計の数理と深層学習 @db analytics showcase Sapporo 2017

20©Gunosy Inc.

2.2 確率分布の空間と特異点

対称性や階層構造のなにが問題なのか?

● NNが表現する確率分布の空間(⊂確率分布全体)を見てみる

                     

● 対称性と階層構造によりこの写像は一対一ではない。即ち

が成立しない。               

➔ identifiabilityを満たさない

➔ 学習が行われる空間が極めて複雑になっている(多様体にならない)

Page 21: ベイズ統計の数理と深層学習 @db analytics showcase Sapporo 2017

21©Gunosy Inc.

2.2 確率分布の空間と特異点

NNのidentifiabilityに関する重要な結果

フィールズメダリストである数学者Fefferman*が20代の頃に

NNのidentifiabilityに関する結果を得ている

*Charles Louis Fefferman, 1949年4月18日 -20歳で数学のPh.Dを取得, 22歳でシカゴ大学教授https://en.wikipedia.org/wiki/Charles_Fefferman

Theorem[Fefferman ‘93]

ある弱い条件下で、ニューラルネットワークの(重みだけで

なく層の数も含めた)構造はニューロン置換の対称性を除

き一意に決まる

Page 22: ベイズ統計の数理と深層学習 @db analytics showcase Sapporo 2017

22©Gunosy Inc.

2.2 確率分布の空間と特異点

対称性や階層構造のなにが問題なのか?

● 階層構造によりフィッシャー情報計量の特異点が発生

● 先の例でv_1=0の時、出力関数はw_1に依存しないので微分が消える

➔ 出力関数の線形独立ではない

Lemma[Fukumizu ‘96]

NNが定める確率分布のFisher情報計量が非特異である事と

NNの出力関数f(x, w) の微分が実数体上で線形独立であることは同値

Theorem[Fukumizu ‘96]

3層ニューラルネットワークのFisher情報計量の特異点は全て階層構造により引

き起こされる

Page 23: ベイズ統計の数理と深層学習 @db analytics showcase Sapporo 2017

23©Gunosy Inc.

2.2 確率分布の空間と特異点

● 一般のNNに対しても階層構造により特異点が発生するのは簡単に分かる

➔ 逆に全ての特異点は階層構造により特異点は引き起こされるのか?

● 一般のdeepなニューラルネットワークに関しては未解決

○ 出力にノイズを加えただけで難解....

● 階層構造は損失関数のランドスケープにも関係がある

ref) Dynamics of learning near singularities in layered networks

ref) Resolution of Singularities Introduced by Hierarchical Structure in Deep Neural Networks

Page 24: ベイズ統計の数理と深層学習 @db analytics showcase Sapporo 2017

24©Gunosy Inc.

3. ビッグデータ時代のMCMC

Page 25: ベイズ統計の数理と深層学習 @db analytics showcase Sapporo 2017

25©Gunosy Inc.

3.1 MCMCのキホンのキ

● MCMC = Markov Chain Monte Carlo

● 一般の確率分布からサンプリングするためのアルゴリズム群

○ 理論的には目的の分布を不変分布とする、エルゴード性を満たすマルコフ

過程(確率変数の列)を構成

➔ 極限分布が目的の分布に収束

○ 理論的に構成される確率変数列からサンプリングするアルゴリズム

● 正規化定数が分からない分布からサンプリング出来る

ex.) 事後分布 ⇒ サンプルの平均を取ることで予測分布を近似

??

Page 26: ベイズ統計の数理と深層学習 @db analytics showcase Sapporo 2017

26©Gunosy Inc.

3.1 MCMCのキホンのキ

● 離散値確率変数列       

Page 27: ベイズ統計の数理と深層学習 @db analytics showcase Sapporo 2017

27©Gunosy Inc.

3.1 MCMCのキホンのキ

● 斉時的離散値マルコフ連鎖       

MCMCの目標は遷移行列 T を上手く設計し

目的の分布に収束するような斉時的なマルコフ連鎖を構成する事

Page 28: ベイズ統計の数理と深層学習 @db analytics showcase Sapporo 2017

28©Gunosy Inc.

3.1 MCMCのキホンのキ

● サンプリングしたい離散値確率分布       

Page 29: ベイズ統計の数理と深層学習 @db analytics showcase Sapporo 2017

29©Gunosy Inc.

3.1 MCMCのキホンのキ

       

 *4 これらの条件の事をエルゴード性と呼びます。

Page 30: ベイズ統計の数理と深層学習 @db analytics showcase Sapporo 2017

30©Gunosy Inc.

3.1 MCMCのキホンのキ

連続値の場合

● 推移核

● πを不変分布に持つ⇔

Page 31: ベイズ統計の数理と深層学習 @db analytics showcase Sapporo 2017

31©Gunosy Inc.

3.2 Metropolis-Hastings法とLangevin Dynamics

Metropolis-Hastings法・・・最も基本的なMCMCアルゴリズム

● 提案分布:

● 採択確率:

● 推移核:

➔ この推移核によって与えられるマルコフ連鎖からサンプリングするMCMCを

Metropolis-Hastings法と呼ぶ

正規化定数が不明でも問題なし

Page 32: ベイズ統計の数理と深層学習 @db analytics showcase Sapporo 2017

32©Gunosy Inc.

3.2 Metropolis-Hastings法とLangevin Dynamics

Page 33: ベイズ統計の数理と深層学習 @db analytics showcase Sapporo 2017

33©Gunosy Inc.

3.2 Metropolis-Hastings法とLangevin Dynamics

● M-H法の例 : Langevin Dynamics

● 対数尤度の勾配*の計算を使う事で収束が速い

● ガウシアンノイズ入りの勾配法と解釈できる(練習問題)

● Stanで有名になったHamiltonian Monte Carlo法の特別なケース

➔ [1206.1901] MCMC using Hamiltonian dynamics

* 正規化定数が不明でもOK

Page 34: ベイズ統計の数理と深層学習 @db analytics showcase Sapporo 2017

34©Gunosy Inc.

3.2 Metropolis-Hastings法とLangevin Dynamics

● M-H法の例 : Langevin Dynamics

● 対数尤度の勾配*の計算を使う事で収束が速い

● ガウシアンノイズ入りの勾配法と解釈できる(練習問題)

● Stanで有名になったHamiltonian Monte Carlo法の特別なケース

➔ [1206.1901] MCMC using Hamiltonian dynamics

計算量大 ⇒ 確率勾配を用いたい

* 正規化定数が不明でもOK

Page 35: ベイズ統計の数理と深層学習 @db analytics showcase Sapporo 2017

35©Gunosy Inc.

3.3 Stochastic Gradient Langevin Dynamics

● Stochastic Gradient Langevin Dynamics

➔ LD法の勾配を確率勾配にしてサンプリングしていく

➔ その上でM-Hステップを排除する

● 確率勾配によりもはや斉時的なマルコフ連鎖ではない

➔ 事後分布に収束するのか?

Page 36: ベイズ統計の数理と深層学習 @db analytics showcase Sapporo 2017

36©Gunosy Inc.

3.3 Stochastic Gradient Langevin Dynamics

● 事後分布に収束するか?

➔ 弱収束はする [Sato+ 2014]

➔ サンプルパスのレベルでは収束しないが、平均的には収束する

➔ 予測分布の近似には弱収束で十分

● どう証明するのか?

➔ 確率微分方程式を解析

◆ 伊藤の公式

◆ Fokker-Plank方程式(密度関数の時間発展)

● SGLDにかぎらずStochastic GradientHamiltonian Monte Carloなども同様に

確率微分方程式を通して解析されている

伊藤 清(いとう きよし、1915年9月7日 - 2008年11月10日)https://ja.wikipedia.org/wiki/%E4%BC%8A%E8%97%A4%E6%B8%85

Page 37: ベイズ統計の数理と深層学習 @db analytics showcase Sapporo 2017

37©Gunosy Inc.

3.4 確率微分方程式とMCMC(おまけ)

● 確率微分方程式(SDE) … 確率的なダイナミクスを記述する微分方程式

● 拡散過程

● サンプリング = SDEのシミュレーション

● すべてのMCMCは確率微分方程式で記述できる [Ma+ 2015]

➔ Stochastic Gradient Nose-Hoover thermostat [Ding+ 2014]

➔ Stochastic Gradient Hamiltonian Monte Carlo[Chen+ 2014]

● 近似誤差の解析 [Chen+ 2015]

←ブラウン運動

↑対数尤度勾配

Page 38: ベイズ統計の数理と深層学習 @db analytics showcase Sapporo 2017

38©Gunosy Inc.

4. Baysian Neural NetworkとEdward

Page 39: ベイズ統計の数理と深層学習 @db analytics showcase Sapporo 2017

39©Gunosy Inc.

4. Bayesian Neural Network とEdward

● Bayesian Neural Network … NNをベイズ的に扱うモデル

○ 歴史長い since then [Neal 1995] ← 引用2000+

● 去年のNIPSからワークショップが開催されるほどのトピック

○ 推定アルゴリズムの発展が要因?

Page 40: ベイズ統計の数理と深層学習 @db analytics showcase Sapporo 2017

40©Gunosy Inc.

4. Bayesian Neural Network とEdward

● Bayesian Neural Network … NNをベイズ的に扱うモデル

○ 歴史長い since then [Neal 1995] ← 引用2000+

● Yarin Gal(Cambridge)さんのComprehensiveなサーベイ(博士論文)➔ http://mlg.eng.cam.ac.uk/yarin/blog_2248.html

※http://mlg.eng.cam.ac.uk/yarin/index.html

Page 41: ベイズ統計の数理と深層学習 @db analytics showcase Sapporo 2017

41©Gunosy Inc.

Why “Bayes” + “DEEP” ?

● 勾配法による点推定(最尤推定)はツライ

○ 局所解に捕まってしまう

○ 得られた推定結果どのぐらい信用してよいのか分からない

■ “不確実性” を上手く扱いたい

● 基本的に現時点までで実用化されている深層学習の手法は点推定

○ 例外:Dropoutはベイズ的解釈が可能 [Yarin+ 2016]

● 一方でMCMCは “Global” は推定

● 深層学習のUniversalityとベイジアンモデリングのFlexibilityを組み合

わせたい

4. Bayesian Neural Network とEdward

Page 42: ベイズ統計の数理と深層学習 @db analytics showcase Sapporo 2017

42©Gunosy Inc.

Why “Bayes” + “DEEP” ?

4. Bayesian Neural Network とEdward

http://bayesiandeeplearning.org/ より

Page 43: ベイズ統計の数理と深層学習 @db analytics showcase Sapporo 2017

43©Gunosy Inc.

Why “Bayes” + “DEEP” ?

深層学習とは独立に開発される手法で精度UP

今までと違う視点で深層学習が発展する期待

4. Bayesian Neural Network とEdward

Uncertainity in Deep Learning, p77より

Page 44: ベイズ統計の数理と深層学習 @db analytics showcase Sapporo 2017

44©Gunosy Inc.

4. Bayesian Neural Network とEdward

超基本モデル

● ニューラルネットのパラメータに事前分布を定義し推定

➔ パラメータ数は数千数億 & データ数も膨大

➔ 従来のMCMC手法では推定不可能

◆ Stochastic Gradient MCMC ← 今日の話

◆ Stochastic Gradient Variational Inference

● 簡単にBNNを構築&スケーラブルに推定できるライブラリ

➔ PyMC3 … Theanoベース & SGMCMC実装なし(現時点)

➔ Edward … Tensorflowベース & SGMCMC実装あり

Page 45: ベイズ統計の数理と深層学習 @db analytics showcase Sapporo 2017

45©Gunosy Inc.

4. Bayesian Neural Network とEdward

Edward (http://edwardlib.org/)● 2016年3月に公開されたばかりの新しいPPL (確率的プログラミング言語))

● Dustin Tran(Columbia University ⇒ Open AI)氏が開発リード

● Blei研を中心に開発

Google Cloud Next'17 Tokyoでの柏野さん(@yutakashino)の発表スライドがかなり良さげだったのでオススメです⇒ https://www.slideshare.net/yutakashino/edward-76955025

Page 46: ベイズ統計の数理と深層学習 @db analytics showcase Sapporo 2017

46©Gunosy Inc.

Why Edward?

● GPUサポートが充実 (∵ Tensorflowベース)

● Blei研 & Google Brain & Google Researchによるサポート*

● 明快なworkflow:

4. Bayesian Neural Network とEdward

* http://edwardlib.org/ より

Page 47: ベイズ統計の数理と深層学習 @db analytics showcase Sapporo 2017

47©Gunosy Inc.

Why Edward?

4. Bayesian Neural Network とEdward

http://dustintran.com/papers/TranHoffmanMurphyBrevdoSaurousBlei2017_poster.pdf より

Page 48: ベイズ統計の数理と深層学習 @db analytics showcase Sapporo 2017

48©Gunosy Inc.

Example 1. Bayesian Neural Network Regression

● モデル

● 事前分布

4. Bayesian Neural Network とEdward

http://edwardlib.org/tutorials/bayesian-neural-network より

Page 49: ベイズ統計の数理と深層学習 @db analytics showcase Sapporo 2017

49©Gunosy Inc.

Example 2. Bayesian Recurrent Neural Network

4. Bayesian Neural Network とEdward

http://dustintran.com/#publications より

Page 50: ベイズ統計の数理と深層学習 @db analytics showcase Sapporo 2017

50©Gunosy Inc.

Example 3. 深層ベータ分布モデル

● 先週末個人ブログで紹介したモデル

● 特徴量に対して[0,1]区間上の連続値が与

えられているような問題設定を考える

○ 例えばユーザーによるレーティング予

測、CTR予測などなど

● ベータ分布のパラメータがニューラルネット

により出力され、最終的なスコアがそのパラ

メータの定めるベータ分布からサンプリング

されているようなモデル

http://mathetake.hatenablog.com/entry/2017/06/24/141938

4. Bayesian Neural Network とEdward

Page 51: ベイズ統計の数理と深層学習 @db analytics showcase Sapporo 2017

51©Gunosy Inc.

Example 3. 深層ベータ分布モデル

4. Bayesian Neural Network とEdward

Page 52: ベイズ統計の数理と深層学習 @db analytics showcase Sapporo 2017

52©Gunosy Inc.

Example 3. 深層ベータ分布モデル

4. Bayesian Neural Network とEdward

SGMCMCのIteration毎にデータを食わせるための tf.placeholder

ニューラルネットの出力をベータ分布に入れる

Page 53: ベイズ統計の数理と深層学習 @db analytics showcase Sapporo 2017

53©Gunosy Inc.

Example 3. 深層ベータ分布モデル

4. Bayesian Neural Network とEdward

Page 54: ベイズ統計の数理と深層学習 @db analytics showcase Sapporo 2017

54©Gunosy Inc.

今日のまとめ

1. ベイズ統計の理論(特異学習理論)は難しいが美しい

a. 汎化誤差はある意味で近似計算可能

2. 統計モデルとしてのニューラルネットワークは難しい&未解決問題だらけ

a. 対称構造・階層構造による特異点

3. ベイズ統計の基本的な推定アルゴリズムであるMCMCの数学的基礎

a. MCMCは確率変数列からのサンプリング

4. ビックデータ時代のMCMC:Stochastic Gradient MCMC

a. ビッグデータにスケールするMCMC

5. ベイジアンモデリング ∩ 深層学習 の時代が来ている

a. Tensorflow User GroupのコアメンバーでEdward分科会発足の話が上がりました

6. Edwardを用いる事でフレキシブルかつ簡単にベイジアンなニューラルネット

ワークでモデリング出来る

Page 55: ベイズ統計の数理と深層学習 @db analytics showcase Sapporo 2017

55©Gunosy Inc.

宣伝

● 「Gunosy データ分析ブログ」http://data.gunosy.io/

➔ データ分析部のテックブログ

● 「Gunosy データマイニング研究会」https://gunosy-dm.connpass.com/

➔ 隔週開催で輪読 + 論文紹介する会 @弊社オフィス (六本木ヒルズ森タワー 25F)

● 来月発売のソフトウェアデザイン8月号に「機械学習エンジニアになるには」的な記事を寄稿

しているのでもしよろしければ

Page 56: ベイズ統計の数理と深層学習 @db analytics showcase Sapporo 2017

56©Gunosy Inc.

References

1. ベイズ統計の理論と方法

2. Algebraic Geometry and Statistical Learning Theory

3. ベイズ統計の数理について −WAICとその数学−

4. Notes for a graduate-level course in asymptotics for statisticians

5. Fukumizu K.,A regularity condition of the information matrix of a multilayer perceptron network. Neural Networks,

9(5), 871-879, 1996

6. Fefferman, C. Reconstructing a neural net from its output. Revista MathematicaI beroamerica, 10(3), 507–555, 1994

7. A. M. Chen H.Lu, R.Hecht-Nielsen. On the geometry of feedforward neural network error surfaces. Neural

Computation5:910-927, 1993

8. Nitta T., Resolution of Singularities Introduced by Hierarchical Structure in Deep Neural Networks, 2016

9. S. Amari, H.Park and T. Ozeki, Singularities Affect Dynamics of Learning in Neuromanifolds, Neural Computation, 18,

1007-1065, 2006.

10. NEAL, Radford M., et al. MCMC using Hamiltonian dynamics. Handbook of Markov Chain Monte Carlo, 2011.

11. Welling, Max, and Yee W. Teh. "Bayesian learning via stochastic gradient Langevin dynamics." Proceedings of the 28th

International Conference on Machine Learning (ICML-11). 2011.

12. SATO, Issei; NAKAGAWA, Hiroshi. Approximation analysis of stochastic gradient langevin dynamics by using

fokker-planck equation and ito process. In: Proceedings of the 31st International Conference on Machine Learning

(ICML-14). 2014. p. 982-990.

13. Gal, Yarin, and Zoubin Ghahramani. "Dropout as a Bayesian approximation: Representing model uncertainty in deep learning."

international conference on machine learning. 2016.

14. Tran, Dustin, et al. "Deep probabilistic programming." arXiv preprint arXiv:1701.03757 (2017).

15. Uncertainty in Deep Learning

16. 【Edward】MCMCの数学的基礎から Stochastic Gradient Langevin Dynamicsの実装まで

Page 57: ベイズ統計の数理と深層学習 @db analytics showcase Sapporo 2017

57©Gunosy Inc.

ご清聴ありがとうございました