【dbda勉強会2013】doing bayesian data analysis chapter 9: bernoulli likelihood with...

44
Doing Bayesian Data Analysis 輪輪輪 Chapter 9 Gunosy Inc. Coffee Yoshida 2013/08/24

Upload: coffee-yoshida

Post on 20-Aug-2015

752 views

Category:

Documents


8 download

TRANSCRIPT

Page 1: 【DBDA勉強会2013】Doing Bayesian Data Analysis Chapter 9: Bernoulli Likelihood with Hierarchical Prior

Doing Bayesian Data Analysis 輪読会Chapter 9

Gunosy Inc.Coffee Yoshida

2013/08/24

Page 2: 【DBDA勉強会2013】Doing Bayesian Data Analysis Chapter 9: Bernoulli Likelihood with Hierarchical Prior

9 章 Bernoulli Likelihood with Hierarchical Prior

• 目次– 9.1 A Single Coin from a Single Mint– 9.2 Multiple Coins from a Single Mint– 9.3 Multiple Coins from Multiple Mints– 9.4 Summary– 9.5 R Code– 9.6 Exercises

– ( mint = 造幣局)

2013/08/24

Page 3: 【DBDA勉強会2013】Doing Bayesian Data Analysis Chapter 9: Bernoulli Likelihood with Hierarchical Prior

8 章の内容と 9 章の内容

• 8 章では、独立な 2 個のパラメータを推定する問題について考えた– Ex) コインの表裏の確率に関するパラメータは、コイ

ン間で影響し合わない

• 9 章では、従属な 2 個以上のパラメータを推定する問題について考える– Ex) あるコインの表裏の確率に関するパラメータは、

コイン工場のパラメータを通して、別のコインの表裏の確率に関するパラメータに影響を与える

2013/08/24

Page 4: 【DBDA勉強会2013】Doing Bayesian Data Analysis Chapter 9: Bernoulli Likelihood with Hierarchical Prior

パラメータとハイパーパラメータ

• 2 種類のパラメータ– パラメータ : データに直接的に影響を与えるパラ

メータ• Ex) コインのパラメータ

– ハイパーパラメータ:別のパラメータに影響をあたえることで、間接的にデータに影響を与えるパラメータ• Ex) コイン工場のパラメータ

2013/08/24

Page 5: 【DBDA勉強会2013】Doing Bayesian Data Analysis Chapter 9: Bernoulli Likelihood with Hierarchical Prior

ハイパーパラメータの利点

• パラメータ間の従属関係を考えることの 2 つの利点– 1. 同時事後確率を考えるときに、モデルの構造を変

更しないで良い– 2. 従属関係は、その事後分布から、比較的効率的な

モテカルロサンプリングをモチベートする

2013/08/24

Page 6: 【DBDA勉強会2013】Doing Bayesian Data Analysis Chapter 9: Bernoulli Likelihood with Hierarchical Prior

9.1 A SINGLE COIN FROM A SINGLE MINT

• コインが 1 個の場合の尤度と事前確認を復習する

• コインの表裏の確率は、ベルヌーイ分布を用いて、以下の式で表せる

  p ( y | θ ) = bern ( y | θ ) = θy ( 1 – θ ) 1- y

( 表 : y = 1 、裏 : y = 0 )( θ : コインの表が出る確率に関するパラメータ )

2013/08/24

Page 7: 【DBDA勉強会2013】Doing Bayesian Data Analysis Chapter 9: Bernoulli Likelihood with Hierarchical Prior

パラメータの独立性

• 試行(コイン投げ)ごとに、表裏が出るパラメータは独立と仮定した

• N 回の試行中、 z 回表が出る同じ確率は、以下の式で表せる p ( y1, y1, …, | θ1, θ2, …, ) = Π p ( yi |θi )

= θz ( 1 - θ )N-z

– N = 1 の場合は、前ページの以下の式と同じ p ( y | θ ) = bern ( y | θ ) = θy ( 1 – θ ) 1- y

2013/08/24

Page 8: 【DBDA勉強会2013】Doing Bayesian Data Analysis Chapter 9: Bernoulli Likelihood with Hierarchical Prior

パラメータ θ の事前確率

• パラメータ θ の事前確率 p(θ) について考える• コイン投げの例では、 p(θ) として、ベータ分布を

仮定していた• ベータ分布

beta ( θ | a, b ) = θa-1 ( 1 - θ )b-1 / B(a, b)

– a, b は、ベータ分布のパラメータ、 B(*, *) はベータ関数– 平均 μ 、サンプルサイズ Z を用いて、 a, b は以下のよう

に表せるa = μ Kb = (1-μ) K

2013/08/24

Page 9: 【DBDA勉強会2013】Doing Bayesian Data Analysis Chapter 9: Bernoulli Likelihood with Hierarchical Prior

パラメータ θ の事前確率

• サンプルサイズ K は、 confidence に影響を与える

• ここでは、 K は定数だと考え、事前分布は以下の式で表す

p( θ | μ) = beta ( θ | μK, ( 1–μ)K )

2013/08/24

Page 10: 【DBDA勉強会2013】Doing Bayesian Data Analysis Chapter 9: Bernoulli Likelihood with Hierarchical Prior

hierachical models

• μ を定数ではなく、 0 ~ 1 の値をとる確率変数と考える hierachical models の領域に入っていく…

– μ を定数ではなく、 0 ~ 1 の値をとる確率変数と考える→ コイン工場のコイン作りに対する信念の不確かさを表す

p ( μ ) = beta( μ | Aμ, Bμ ) ( Aμ, Bμ は定数)

Ex) 大きい μ → 表が出やすいコイン作りばかりする工場 小さい μ → 裏が出やすいコイン作りばかりする工

2013/08/24

Page 11: 【DBDA勉強会2013】Doing Bayesian Data Analysis Chapter 9: Bernoulli Likelihood with Hierarchical Prior

hierachical models• 変数間の関係を表した hierachial

models の図

– i 番目のコイン投げの表裏 yi は、パラメータ θ のベルヌーイ分布から生成される

– θ は、パラメータ a, b のベータ分布から生成される

– a, b は、それぞれ μK, (1-μ)K に等しい– μ は、パラメータ Aμ, Bμ のベータ分布

から生成される

2013/08/24

Page 12: 【DBDA勉強会2013】Doing Bayesian Data Analysis Chapter 9: Bernoulli Likelihood with Hierarchical Prior

hierachical models へのベイズルールの適用

• ベイズルールを適用する

p ( θ, μ | y ) = p ( y | θ, μ ) p ( θ, μ ) / p ( y ) = p ( y | θ ) p ( θ | μ )

p (μ) / p ( y )

2013/08/24

Page 13: 【DBDA勉強会2013】Doing Bayesian Data Analysis Chapter 9: Bernoulli Likelihood with Hierarchical Prior

9.1.1 Posterior via Grid Approximation

• 事後分布を Grid Approximation する– θ と μ の値域は、 [0, 1] で有限なので、 Grid

Approximation は tractable で、グラフも簡単に作れる

2013/08/24

Page 14: 【DBDA勉強会2013】Doing Bayesian Data Analysis Chapter 9: Bernoulli Likelihood with Hierarchical Prior

Posterior via Grid Approximation 事前分布• 事前分布の図– p ( μ ) = beta( μ | 2, 2 )– p( θ | μ ) = beta( θ | μ100, (1-μ)100)

2013/08/24

Page 15: 【DBDA勉強会2013】Doing Bayesian Data Analysis Chapter 9: Bernoulli Likelihood with Hierarchical Prior

Posterior via Grid Approximation 事前分布• μ は、 0.5 付近をとる確率が大きいが、 uncertainty は大

きい(右上の図)• θ は、 μ と同じくらいの値を取りやすい(真ん中上と右

下の図)

2013/08/24

Page 16: 【DBDA勉強会2013】Doing Bayesian Data Analysis Chapter 9: Bernoulli Likelihood with Hierarchical Prior

Posterior via Grid Approximation 尤度• 尤度の図– データ D : 表 9 回、裏 3 回– 尤度 : p ( D | θ ) = θ9 ( 1 – θ )3

2013/08/24

Page 17: 【DBDA勉強会2013】Doing Bayesian Data Analysis Chapter 9: Bernoulli Likelihood with Hierarchical Prior

Posterior via Grid Approximation 事後確率• 事後確率の図

2013/08/24

Page 18: 【DBDA勉強会2013】Doing Bayesian Data Analysis Chapter 9: Bernoulli Likelihood with Hierarchical Prior

Posterior via Grid Approximation 事後確率

• 事後確率 = 尤度 × 事前確率

=             ×

2013/08/24

Page 19: 【DBDA勉強会2013】Doing Bayesian Data Analysis Chapter 9: Bernoulli Likelihood with Hierarchical Prior

certainty の大きな μ の場合の事前分布• μ の certainty を 0.5 周辺で大きくする– p ( μ ) = beta( μ | 20, 20 )– p ( θ | μ ) = beta( θ | μ6, (1-μ)6 )

2013/08/24

Page 20: 【DBDA勉強会2013】Doing Bayesian Data Analysis Chapter 9: Bernoulli Likelihood with Hierarchical Prior

certainty の大きな μ の場合の尤度

• さっきと同じデータ– データ D : 表 9 回、裏 3 回– 尤度 : p ( D | θ ) = θ9 ( 1 – θ )3

2013/08/24

Page 21: 【DBDA勉強会2013】Doing Bayesian Data Analysis Chapter 9: Bernoulli Likelihood with Hierarchical Prior

certainty の大きな μ の場合の事後分布• 事後確率の図– μ は、 certainty 高かったので、あまり変わらず、 θ

だけとんがる

2013/08/24

Page 22: 【DBDA勉強会2013】Doing Bayesian Data Analysis Chapter 9: Bernoulli Likelihood with Hierarchical Prior

certainty の大きな μ の場合の事後分布

• 事後確率 = 尤度 × 事前確率

=             ×

2013/08/24

Page 23: 【DBDA勉強会2013】Doing Bayesian Data Analysis Chapter 9: Bernoulli Likelihood with Hierarchical Prior

9.2 MULTIPLE COINS FROM A SINGLE MINT

• 9.1– コインは 1 個で、複数回の試行でパラメータ θ は同じも

のだった• 9.2

– コインは複数個で、それぞれ異なるパラメータ θj を持つ– コインは複数個あるけど、同じ mint (工場)で作られて

るとする– 同じ mint で作られてるので、パラメータ μ は複数個の

コインで同一とする– コインは独立に作られてるので、 θj は μ に関して条件付

き独立とする

2013/08/24

Page 24: 【DBDA勉強会2013】Doing Bayesian Data Analysis Chapter 9: Bernoulli Likelihood with Hierarchical Prior

9.2 MULTIPLE COINS FROM A SINGLE MINT

9.1 では θ, yi → 9.2 では θj, yij

2013/08/24

Page 25: 【DBDA勉強会2013】Doing Bayesian Data Analysis Chapter 9: Bernoulli Likelihood with Hierarchical Prior

9.1.2 Posterior via Grid Approximation

• 9.1.1 の内容を、コインが 2 個( θ1, θ2 )の場合で行う

2013/08/24

Page 26: 【DBDA勉強会2013】Doing Bayesian Data Analysis Chapter 9: Bernoulli Likelihood with Hierarchical Prior

Posterior via Grid Approximation 事前確率

• 事前確率

2013/08/24

Page 27: 【DBDA勉強会2013】Doing Bayesian Data Analysis Chapter 9: Bernoulli Likelihood with Hierarchical Prior

Posterior via Grid Approximation 尤度

• 尤度– データ D1 : 表 3 回、裏 13 回– データ D2 : 表 4 回、裏 1 回– 尤度 : p ( D1 | θ1 ) = θ1

3 ( 1 – θ1 )13

– 尤度 : p ( D1 | θ2 ) = θ24 ( 1 – θ2 )1

2013/08/24

Page 28: 【DBDA勉強会2013】Doing Bayesian Data Analysis Chapter 9: Bernoulli Likelihood with Hierarchical Prior

Posterior via Grid Approximation 事後確率

• 事後確率– データ数の大きかった 1 の方がデータの平均値に事

後確率も集まりやすい

2013/08/24

Page 29: 【DBDA勉強会2013】Doing Bayesian Data Analysis Chapter 9: Bernoulli Likelihood with Hierarchical Prior

Posterior via Grid Approximation 事前確率μ と θ の依存関係が強い場合

• 事前確率– μ と θ の依存関係が強い場合

2013/08/24

Page 30: 【DBDA勉強会2013】Doing Bayesian Data Analysis Chapter 9: Bernoulli Likelihood with Hierarchical Prior

Posterior via Grid Approximation 事前確率μ と θ の依存関係が強い場合

• 尤度、データはさっきと同じ– データ D1 : 表 3 回、裏 13 回– データ D2 : 表 4 回、裏 1 回– 尤度 : p ( D1 | θ1 ) = θ1

3 ( 1 – θ1 )13

– 尤度 : p ( D1 | θ2 ) = θ24 ( 1 – θ2 )1

2013/08/24

Page 31: 【DBDA勉強会2013】Doing Bayesian Data Analysis Chapter 9: Bernoulli Likelihood with Hierarchical Prior

Posterior via Grid Approximation 事後確率μ と θ の依存関係が強い場合

• 事後確率– さっきよりも θ2 が θ1 の方によってる– μ と θ の依存関係が強いので、 μ を通して、データ

の影響が別のパラメータ θ への影響も強くなる

2013/08/24

Page 32: 【DBDA勉強会2013】Doing Bayesian Data Analysis Chapter 9: Bernoulli Likelihood with Hierarchical Prior

9.2.2 Posterior via Monte Carlo Sampling

• モデルをより現実的なものにするために、パラメータ K も導入する– サンプルサイズ K は、 9.2.1 まで定数だった– K が大 → θj は μ に近くなりやすい– K が小 → θj は μ からはなれて広がりやすい

– 実際には、 K の値を事前に知ることはできず、「異なるコインの試行結果が似かよってたら、 K は大きいだろう」、「異なるコインの試行結果があんまり似てなかったら、 K は小さいだろう」みたいにという証拠になる

2013/08/24

Page 33: 【DBDA勉強会2013】Doing Bayesian Data Analysis Chapter 9: Bernoulli Likelihood with Hierarchical Prior

9.2.2 Posterior via Monte Carlo Sampling

• パラメータ K (図中ではκ )は、定数ではなくて、事前分布から生じる(ここではガンマ分布を使用)

• パラメータは全部で J + 2 個– θ1 〜 θJ, μ, κ

2013/08/24

Page 34: 【DBDA勉強会2013】Doing Bayesian Data Analysis Chapter 9: Bernoulli Likelihood with Hierarchical Prior

ガンマ分布

– s: shape parameter, 分布のなだらかさを表す

– r: rate parameter, (=1/scale)– m: s / r– sd: √s / r

2013/08/24

Page 35: 【DBDA勉強会2013】Doing Bayesian Data Analysis Chapter 9: Bernoulli Likelihood with Hierarchical Prior

κ の事前分布にガンマ分布を用いた場合

• さっきは K=5 で固定してたのを、ガンマ分布の平均を5.0 、標準偏差を 0.01 にして同じような結果を出してみる

2013/08/24

Page 36: 【DBDA勉強会2013】Doing Bayesian Data Analysis Chapter 9: Bernoulli Likelihood with Hierarchical Prior

κ の事前分布にガンマ分布を用いた場合

2013/08/24

• ガンマ分布のサンプルサイズ κ を 75.0 に変えてみる• μ と θ1, θ2 の依存関係が強くなる

Page 37: 【DBDA勉強会2013】Doing Bayesian Data Analysis Chapter 9: Bernoulli Likelihood with Hierarchical Prior

κ の事前分布にガンマ分布を用いた場合• コイン 3 個の試行で、 3 個とも似たような結果だった場

合• コイン工場のパラメータ μ の推定の確かさは高い• κ の平均値が大きくなる

2013/08/24

Page 38: 【DBDA勉強会2013】Doing Bayesian Data Analysis Chapter 9: Bernoulli Likelihood with Hierarchical Prior

κ の事前分布にガンマ分布を用いた場合

2013/08/24

• コイン 3 個の試行で、 3 個ともバラバラな結果だった場合

• コイン工場のパラメータ μ の推定の確かさは低い• κ の平均値は小さくなる

Page 39: 【DBDA勉強会2013】Doing Bayesian Data Analysis Chapter 9: Bernoulli Likelihood with Hierarchical Prior

9.2.3 Outliers and Shrinkage of Individual Estimates

• 多くのコインが似たような結果を出すと、 κ は大きくなり、 θ と μ の依存関係も強くなる– 異なるコインの θ が同じような分布になる

2013/08/24

Page 40: 【DBDA勉強会2013】Doing Bayesian Data Analysis Chapter 9: Bernoulli Likelihood with Hierarchical Prior

Outliers and Shrinkage

• コイン 5 個投げて、 1 個変なコインがいた( Outliers )– κ が小さい時は、 θ5 は実際の分布に近づくが、 κ が

大きい時は、他のコインの θ の分布に近づく( Shrinkage )

2013/08/24

Page 41: 【DBDA勉強会2013】Doing Bayesian Data Analysis Chapter 9: Bernoulli Likelihood with Hierarchical Prior

9.2.5 Number of Coins and Flips per Coin

• データ増やすと、より certain にモデル推定が可能になる

• データの増やし方– コインごとの投げ数を増やす– コインの数を増やす

• ハイパーパラメータの推定が目的の場合はこっち• 個々のコインのバイアスではなくて、コイン工場のパラメー

タを推定したい時とか

2013/08/24

Page 42: 【DBDA勉強会2013】Doing Bayesian Data Analysis Chapter 9: Bernoulli Likelihood with Hierarchical Prior

9.3 MULTIPLE COINS FROM MULTIPLE MINTS

• コイン工場に関するパラメータ μ, κ が工場ごとにことなる場合

• 工場ごとのパラメータが独立な場合と従属な場合の 2 つを考える

2013/08/24

Page 43: 【DBDA勉強会2013】Doing Bayesian Data Analysis Chapter 9: Bernoulli Likelihood with Hierarchical Prior

9.3.1 Independent Mints• μc, κc は、コイン毎に異なるが、同じガンマ分布

から生成されるμ, κ が同じの場合 μc, κc

がバラバラの場合

2013/08/24

Page 44: 【DBDA勉強会2013】Doing Bayesian Data Analysis Chapter 9: Bernoulli Likelihood with Hierarchical Prior

9.3.2 Dependent Mints

• μc, κc が、コイン毎に異なり、異なるガンマ分布から生成される– ガンマ分布のパラメータ sc, rc は、

平均 μγ, 標準偏差 σγ で表される– μγ と σγ は一様分布から生じる

2013/08/24