統計モデリング 第九回...

56
2017年6月20日@統計モデリング 担当:田中冬彦 統計モデリング 第九回 配布資料 文献: a) A. J. Dobson and A. G. Barnett: An Introduction to Generalized Linear Models 3rd ed., CRC Press, 2008. 配布資料の一部は以下からもDLできます. 短縮URL http://tinyurl.com/lxb7kb8 b) J. J. Faraway: Extending the Linear Model with R: Generalized Linear, Mixed Effects and Nonparametric Regression Models., (Texts in Statistical Science), Chapman and Hall/CRC, Boca Raton, 2006.

Upload: others

Post on 10-Jul-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 統計モデリング 第九回 配布資料bayes.sigmath.es.osaka-u.ac.jp/ftanaka/T/modeling/... · Extending the Linear Model with R: Generalized Linear, Mixed Effects and Nonparametric

2017年6月20日@統計モデリング

担当:田中冬彦

統計モデリング 第九回 配布資料

文献: a) A. J. Dobson and A. G. Barnett: An Introduction to Generalized Linear Models 3rd ed., CRC Press, 2008.

配布資料の一部は以下からもDLできます. 短縮URL http://tinyurl.com/lxb7kb8

b) J. J. Faraway: Extending the Linear Model with R: Generalized Linear, Mixed Effects and Nonparametric Regression Models., (Texts in Statistical Science), Chapman and Hall/CRC, Boca Raton, 2006.

Page 2: 統計モデリング 第九回 配布資料bayes.sigmath.es.osaka-u.ac.jp/ftanaka/T/modeling/... · Extending the Linear Model with R: Generalized Linear, Mixed Effects and Nonparametric

ベイズ統計の基本と事後分布の数値的なサンプリング方法を学んだ

前回までの内容

ベイズ解析で再アプローチ

第八回と第九回では, これまでの知識を前提としてさまざまなモデルとベイズ解析の例をみていく

参考:

第十回 (6/27): 第二回 グループ発表

7/11: 基礎工入試で休講

1. Gibbs Sampling と 階層モデル

2. 線形モデルでのベイズ的なアプローチ

3. ベイズ予測分布 (時間があれば)

4. 一般化線形モデルでのベイズ的なアプローチ

第8,9 回でとりあげるテーマ

Page 3: 統計モデリング 第九回 配布資料bayes.sigmath.es.osaka-u.ac.jp/ftanaka/T/modeling/... · Extending the Linear Model with R: Generalized Linear, Mixed Effects and Nonparametric

今後の予定 第九回 一般化線形モデルのベイズ解析

第十回 グループ発表2

x

y

第十一回 スパースモデリング1・因子分析

第十二回 スパースモデリング2・GLM

Page 4: 統計モデリング 第九回 配布資料bayes.sigmath.es.osaka-u.ac.jp/ftanaka/T/modeling/... · Extending the Linear Model with R: Generalized Linear, Mixed Effects and Nonparametric

今日の内容

1.信用区間 2.線形モデルのベイズ分析 3.ロジスティック回帰モデル(ロジット回帰モデル) 4.一般化線形モデルのベイズ分析 5.3値以上のカウントデータ 6.ロジスティック回帰モデルの拡張

Page 5: 統計モデリング 第九回 配布資料bayes.sigmath.es.osaka-u.ac.jp/ftanaka/T/modeling/... · Extending the Linear Model with R: Generalized Linear, Mixed Effects and Nonparametric

1. 信用区間

Page 6: 統計モデリング 第九回 配布資料bayes.sigmath.es.osaka-u.ac.jp/ftanaka/T/modeling/... · Extending the Linear Model with R: Generalized Linear, Mixed Effects and Nonparametric

学部1年の教材から

例題:妖怪ウオッカの町内会視聴率

標本視聴率 ...2333.0307==

問:町内会全体での視聴率はどれくらい?

(30世帯だと不確実さが大きい)

とある町内会

日本のアニメ「妖怪ウオッカ」が子供に大人気

町内で子供がいる世帯(500世帯以上!) → ランダムに30世帯選んで調査 → 7世帯が視聴

Page 7: 統計モデリング 第九回 配布資料bayes.sigmath.es.osaka-u.ac.jp/ftanaka/T/modeling/... · Extending the Linear Model with R: Generalized Linear, Mixed Effects and Nonparametric

信頼区間【復習】

各モデルについて公式代入【学部1年の場合】

npppR )ˆ1(ˆ

96.1ˆ −+=

例:二項モデル( )の場合 ),(~ pnBinX

npppL )ˆ1(ˆ

96.1ˆ −−=

信頼区間 (Confidence Interval)

モデルのパラメータに幅をもたせた推定;

区間推定ともよぶ.

nXp =ˆ ← 単純平均で推定(第八回参照)

← 簡単のため 95% 信頼区間で固定

Page 8: 統計モデリング 第九回 配布資料bayes.sigmath.es.osaka-u.ac.jp/ftanaka/T/modeling/... · Extending the Linear Model with R: Generalized Linear, Mixed Effects and Nonparametric

信頼区間の問題点

次にベイズ統計の場合を見てみる

例:二項モデル( )の場合 ),(~ pnBinX

0086.0 <−=L

問題点

1. 二項モデル → n 大の近似式!

2. では問題あり!

3. 誤解が蔓延!

1;10 == Xn

0ˆ ≈p

Page 9: 統計モデリング 第九回 配布資料bayes.sigmath.es.osaka-u.ac.jp/ftanaka/T/modeling/... · Extending the Linear Model with R: Generalized Linear, Mixed Effects and Nonparametric

95%信用区間

パラメータの信用区間 (Credible Interval) 事後分布で確率 95% の区間

複数パラメータの信用域 (Credible Region)

事後分布で確率 95% となる領域

利点 (分析者による事前分布の設定は必要だが)

・ 正確な式!

・ でも問題なし!

・ 解釈が容易!

0ˆ ≈p

[ ]

* 説明しやすいように, 95% で固定(99%, 90% etc. でも全く同様)

Page 10: 統計モデリング 第九回 配布資料bayes.sigmath.es.osaka-u.ac.jp/ftanaka/T/modeling/... · Extending the Linear Model with R: Generalized Linear, Mixed Effects and Nonparametric

事後分布

これを

定義: 信用域と信用区間

{ }05.0)|(:: kxC ≥= θπθπ

)|( xθπ

)](),([ xRxLC πππ =

以下のパラメータ集合を HPD-95% 信用域という

95.0)|( =∈ xCπθπただし,

特に1次元パラメータで事後分布が単峰なら閉区間

HPD-95 % 信用区間という

HPD 95%信用区間

HPD = Highest Posterior Density

cf) 頻度論での95%信頼区間はパラメータが区間に入る確率95%という解釈ではなかった

Page 11: 統計モデリング 第九回 配布資料bayes.sigmath.es.osaka-u.ac.jp/ftanaka/T/modeling/... · Extending the Linear Model with R: Generalized Linear, Mixed Effects and Nonparametric

信用区間を分位点(quantile) を用いて求めるケース

)](~),(~[~ xRxLC =π

1次元パラメータで事後分布が単峰の場合, 上側 2.5%点, 下側 2.5% 点 を求めるケースもあり (求め方が簡単)

分位点を利用した95%信用区間

1. 単峰で対称な分布の場合, 両者は一致.

2.HPDは区間幅が最小 (ただし, 計算がめんどう.)

%5.2)|()(~ =∫

+∞θθπ dx

xR%5.2)|(

)(~

=∫ ∞−θθπ dx

xL

分位点(quantile) とHPDの違い

Page 12: 統計モデリング 第九回 配布資料bayes.sigmath.es.osaka-u.ac.jp/ftanaka/T/modeling/... · Extending the Linear Model with R: Generalized Linear, Mixed Effects and Nonparametric

二項分布+ベータ分布【再掲】

),(~ qnBinX統計モデル=二項モデル(n回の試行)

事前分布=ベータ分布【共役事前分布】

n回試行, x回成功した場合の事後分布

)1,1(~ Betaq

)1)(,1(~ +−+ xnxBetaq

n=10, x=1 の場合で95% 信用区間を見てみる

Page 13: 統計モデリング 第九回 配布資料bayes.sigmath.es.osaka-u.ac.jp/ftanaka/T/modeling/... · Extending the Linear Model with R: Generalized Linear, Mixed Effects and Nonparametric

0.0 0.2 0.4 0.6 0.8 1.0

01

23

4

Prior and Posterior

q

Den

sity

PriorPosterior

計算例 10回試行, 1回成功 の時の事後分布 (推定値 0.1)

91 )1()10,2(

1)1|( qqB

xq −==π

Page 14: 統計モデリング 第九回 配布資料bayes.sigmath.es.osaka-u.ac.jp/ftanaka/T/modeling/... · Extending the Linear Model with R: Generalized Linear, Mixed Effects and Nonparametric

理解度チェック:信用区間

95%信頼区間の公式は統計モデルの仮定や近似の下で導出されており、使用が適切でない場合もある

95%信頼区間が[0.1, 0.4] の場合, パラメータの真値が0.1から0.4に入っている確率が95%という意味である.

信用区間は、共役事前分布が存在する統計モデルでしか使えない

95%信用区間が[0.1, 0.4] の場合, パラメータの真値が0.1から0.4に入っている確率が95%という意味である.

Page 15: 統計モデリング 第九回 配布資料bayes.sigmath.es.osaka-u.ac.jp/ftanaka/T/modeling/... · Extending the Linear Model with R: Generalized Linear, Mixed Effects and Nonparametric

2. 線形モデルの ベイズ分析

Page 16: 統計モデリング 第九回 配布資料bayes.sigmath.es.osaka-u.ac.jp/ftanaka/T/modeling/... · Extending the Linear Model with R: Generalized Linear, Mixed Effects and Nonparametric

ここでの目標

線形モデルでのベイズ分析

→ その流れを整理・理解する!

注:数式の詳細な扱いには立ち入らない.

Page 17: 統計モデリング 第九回 配布資料bayes.sigmath.es.osaka-u.ac.jp/ftanaka/T/modeling/... · Extending the Linear Model with R: Generalized Linear, Mixed Effects and Nonparametric

回帰分析(B-2/C-2資料より)【第二回より】

O大学 新入生のみずほさんは賃貸情報をネットで検索. 以下のようなデータを得ました.

例題: みずほの部屋探し

最寄り駅からの距離 (徒歩): 3 5 6 10 11 17 一カ月の賃料 (万円): 8 7.3 6.2 4 4.2 3.5

豊中キャンパス近くの賃貸物件(1K)

Page 18: 統計モデリング 第九回 配布資料bayes.sigmath.es.osaka-u.ac.jp/ftanaka/T/modeling/... · Extending the Linear Model with R: Generalized Linear, Mixed Effects and Nonparametric

6,,2,1 =i

x: 最寄駅からの距離(分:徒歩換算), y:一か月の家賃 (万円)

線形モデル【第二回】

),0(~ vNiεiii xY εββ ++= 21

モデルのパラメータ, v;, 21 ββ

線形モデル(回帰モデル)

0 5 10 15 20

02

46

810

Kaiki

Min Walk

10^4

YE

N

ベイズ分析では これらに事前分布をいれる

Page 19: 統計モデリング 第九回 配布資料bayes.sigmath.es.osaka-u.ac.jp/ftanaka/T/modeling/... · Extending the Linear Model with R: Generalized Linear, Mixed Effects and Nonparametric

線形モデルの事前分布 (1/2) 設定例1

固定するパラメータ sa,,, 2*

1* ββ

),(~ 1−saIGv

【共役事前分布】

),(~| 1*

1 vNv ββ

← 逆ガンマ分布

vが十分大きくなるような場合, の値はきいてこないため, 0 としてよい.

),(~| 2*

2 vNv ββ

2*

1* ,ββ

事後分布がかなり煩雑な形になるので、簡単化した例で考える

vsa

a

evs

asaIG /

11

)(1),( −

+−

Γ↔

Page 20: 統計モデリング 第九回 配布資料bayes.sigmath.es.osaka-u.ac.jp/ftanaka/T/modeling/... · Extending the Linear Model with R: Generalized Linear, Mixed Effects and Nonparametric

設定例2(簡単バージョン)

注意

( )σ

σπσ 1~ =

( ) 1~ =jj βπβ

← スケールフリー

事前分布 → 積分発散! (確率になってない) 事後分布 → 確率分布

事後分布の公式を紹介; 細かい式は気にしなくて良い

2,1=j

線形モデルの事前分布 (2/2)

v=2σ

Page 21: 統計モデリング 第九回 配布資料bayes.sigmath.es.osaka-u.ac.jp/ftanaka/T/modeling/... · Extending the Linear Model with R: Generalized Linear, Mixed Effects and Nonparametric

同時確率密度(簡単バージョン)

線形モデルの事後分布(1/2)

( )( ) ( ) ESAn eeCyx

T2

12 2

1ˆˆ2

11,|, σ

ββββσσσβπ

−−−−+−

=

XXA T=− :1 XyA 1:ˆ −=β

ijxX =: [ ]

∑=

=−=p

jjiji xyyyES

1

2 ˆ:ˆ,ˆ: β

ni ,,2,1 =

),0(~ 2σε Ni

iippii xxY εββ +++= 11

線形モデル(回帰モデル)

εβ += XY ni ,,2,1 =pj ,,2,1 =

11 =ix

Page 22: 統計モデリング 第九回 配布資料bayes.sigmath.es.osaka-u.ac.jp/ftanaka/T/modeling/... · Extending the Linear Model with R: Generalized Linear, Mixed Effects and Nonparametric

積分公式

( ) ( ) ( ) 22

1 ˆˆ1',|

−−

−−+=

nT

ESACyx βββββπ

←多次元 t 分布

回帰係数の周辺確率密度

−Γ= +−∞ −

+−∫ 122

1 12/

0

1 2 nbde nb

n σσ σ

誤差分散の周辺確率密度

( ) 221,| σσσπES

np eDyx−

+−=

2σ=v とおくと

−−

ESpnIGv 2,2

2~ ← 逆ガンマ分布

線形モデルの事後分布(2/2)

Page 23: 統計モデリング 第九回 配布資料bayes.sigmath.es.osaka-u.ac.jp/ftanaka/T/modeling/... · Extending the Linear Model with R: Generalized Linear, Mixed Effects and Nonparametric

分析例

),|( 2 yxβπ

∑=

−=n

ii xxUV

1

222 )(/:

ii

n

iii xyyy

nU 21

1

22 ˆˆ:ˆ,)ˆ(2

1: ββ +=−−

= ∑=

← 自由度 n-2 のt 分布

一般の回帰分析でも同様 (MCMCは不要だが計算が煩雑)

21

222

/)ˆ(1'

−−

−+=

n

xxnSESC ββ

∑=

−=n

iixx xx

nS

1

2)(1:

21)2(

2

222 )ˆ()2(

+−−

+−=

n

VnC ββ

-0.5 -0.4 -0.3 -0.2 -0.1

02

46

810

12

Posterior of coefficient

beta_2

Pos

t.

回帰係数の推定値と95%信用区間

推定値: -0.34, 95%信用区間= [-0.43, -0.26]

iii xY εββ ++= 21

Page 24: 統計モデリング 第九回 配布資料bayes.sigmath.es.osaka-u.ac.jp/ftanaka/T/modeling/... · Extending the Linear Model with R: Generalized Linear, Mixed Effects and Nonparametric

3. ロジスティック回帰モデル (ロジット回帰モデル)

Page 25: 統計モデリング 第九回 配布資料bayes.sigmath.es.osaka-u.ac.jp/ftanaka/T/modeling/... · Extending the Linear Model with R: Generalized Linear, Mixed Effects and Nonparametric

-5 0 5 10 15 20 25 30

0.0

0.2

0.4

0.6

0.8

1.0

Fitted Curve by Logit Regress

Temperature(C)

Pro

b of

dam

age

23,,2,1 =i

気温(C)

Oリング破損数と気温の関係 (再掲)

破損数 破損率 摂氏温度 5 5/6 11.6 ・・・・ ・・・・ 0 0/6 27.2

Oリングの破損数 iyix

第一回で紹介したデータ (23件) ・Oリング: スペースシャトルに6つ搭載 ・毎回の打ち上げ時, 6つのうちいくつか破損 ・共変量は気温のみ

iq Oリングの破損率 23,,2,1 =i

iq

ix

Page 26: 統計モデリング 第九回 配布資料bayes.sigmath.es.osaka-u.ac.jp/ftanaka/T/modeling/... · Extending the Linear Model with R: Generalized Linear, Mixed Effects and Nonparametric

23,,2,1 =i

統計モデルの導入

),(~ iii qnBinY

目的変数 ( i 番目の打ち上げで破損するOリングの数)

最初のアイディア

→ 上限ありのカウントデータなので二項分布で表現

(今回は, )

各 i 番目の打ち上げにおける と説明変数(打ち上げ時気温)をどう結び付けるか??

工夫を要する点

iq

6=in

Page 27: 統計モデリング 第九回 配布資料bayes.sigmath.es.osaka-u.ac.jp/ftanaka/T/modeling/... · Extending the Linear Model with R: Generalized Linear, Mixed Effects and Nonparametric

ロジスティック回帰モデル

モデルのパラメータ, kββ ,,1

一般的な形

ni ,,2,1 =),(~ iii qnBinY

∑=

=−

k

jijj

i

i xq

q11

log β

オッズ比= 成功確率

失敗確率

∑=

k

jijj x

e 1β

i 番の説明変数, ( )ikii xxx ,,1 = 11 =ix

Page 28: 統計モデリング 第九回 配布資料bayes.sigmath.es.osaka-u.ac.jp/ftanaka/T/modeling/... · Extending the Linear Model with R: Generalized Linear, Mixed Effects and Nonparametric

Oリングの場合

モデルのパラメータ, 21,ββ

統計モデル

23,,2,1 =i),6(~ ii qBinY

ii

i xq

q211

log ββ +=−

事前分布の例 (共役事前分布はない)

)10,0(~),10,0(~ 62

61 NN ββ

気温(C) ix iq Oリングの破損率

Page 29: 統計モデリング 第九回 配布資料bayes.sigmath.es.osaka-u.ac.jp/ftanaka/T/modeling/... · Extending the Linear Model with R: Generalized Linear, Mixed Effects and Nonparametric

事後分布をMCMCで (a) MCMCサンプルの例

),( 21 ββ

(b) MCMCサンプルを用いたベイズ分析

-4.251900 -0.4722423 -4.251900 -0.4722423 -4.251900 -0.4722423 -3.967638 -0.4631124 -3.710819 -0.4088345 -3.710819 -0.4088345 -3.739178 -0.4965064 -3.455387 -0.3499806 .... -5.0 -4.5 -4.0 -3.5 -3.0 -2.5 -2.0

-0.7

-0.6

-0.5

-0.4

-0.3

-0.2

-0.1

Random Walk Monte Carlo

beta1be

ta2

・パラメータの推定値と信用区間(省略) ・曲線へのあてはめのよさの視覚化 ・摂氏 -0.56度での破損確率と信用区間

Page 30: 統計モデリング 第九回 配布資料bayes.sigmath.es.osaka-u.ac.jp/ftanaka/T/modeling/... · Extending the Linear Model with R: Generalized Linear, Mixed Effects and Nonparametric

プログラム例 plot(damage/6 ~ temp, orings_new_org, xlim=(c(25,85)-32)*5/9, ylim=c(0,1), xlab="Temperature(C)", ylab="Prob of damage", main="Fitted Curve by Logit Regression"); for( j in (Nsim-500):Nsim){ curve(ilogit(beta[j,1] + beta[j,2]*(x - mean_temp ) ), add=T, col=rgb(1,0,1, alpha=0.1)); } curve(ilogit(beta_mle[1] + beta_mle[2]*(x - mean_temp ) ), add=T, col="blue", lwd=3);

標準偏差 1, 0.2 でRW 青線: MLEでの推定値 ピンク(透過色): MCMC4000のうち最後の500サンプル

・気温が低い所 → データがないため曲線のばらつきが大きい ・気温が高い所 → データがあり、曲線のばらつきが小さい

曲線へのあてはめ

MLEでの推定値を太線; モンテカルロサンプルを透過色で重ねて書く

あてはめのよさの視覚化

視覚的にわかること

Page 31: 統計モデリング 第九回 配布資料bayes.sigmath.es.osaka-u.ac.jp/ftanaka/T/modeling/... · Extending the Linear Model with R: Generalized Linear, Mixed Effects and Nonparametric

(a) 摂氏 度で打ち上げる場合

C

C

x

x

eeq

21

21

1)( ββ

ββ

β +

+

+=

(b) 事後分布を用いたベイズ推定値は以下の積分でかける

56.0−=CxOリングの破損確率 を を用いてかくと q Cx,, 21 ββ

∫= 2)|()()(ˆ

RdDqq ββπββ

(c) MCMCサンプル(*) を用いた (b) の近似値は

∑=

≈M

ttq

Mq

1)( )(1)(ˆ ββ

)()2()1( ,,, Mβββ

摂氏 -0.56度での予測(1/2)

*前半のサンプルを捨てて, 番号を付けなおしている.

Page 32: 統計モデリング 第九回 配布資料bayes.sigmath.es.osaka-u.ac.jp/ftanaka/T/modeling/... · Extending the Linear Model with R: Generalized Linear, Mixed Effects and Nonparametric

プログラム例 (一部抜粋) L_NUM <- 100; INTERVAL <- seq(from=0, to=1, length.out=L_NUM); L <- array(0, L_NUM); for (j in 1:(L_NUM-1) ){ L[j] <- sum( ( INTERVAL[j] < p_sample ) & (p_sample <= INTERVAL[j+1]) )/length(p_sample) ; } # L の要素を大きい順に並べ替えて逐次足していく → ぎりぎり95%となる最大の番号(MAX_INTE)を見つける MAX_INTE <- sum( cumsum(sort(L, decreasing=TRUE)) < 0.95 ); # 大きい順に 番号(MAX_INTE) の値以上の確率をもつLの番号を調べる(連続した値) which( L >= sort(L, decreasing=TRUE)[MAX_INTE]); # 大きい順に 番号(MAX_INTE) の値以上の確率をもつ Lに対応する INTERVAL(左端の値)を調べる INTERVAL[ L >= sort(L, decreasing=TRUE)[MAX_INTE] ];

*ベイズ推定値は40000サンプル発生して後半20000 を利用.3ケタ目以降は安定しないので, 2ケタで表示

破損確率と95%信用区間

ベイズ*: 破損確率: 0.98, 95%信用区間= [0.93, 1.00]

摂氏 -0.56度での予測(2/2)

Page 33: 統計モデリング 第九回 配布資料bayes.sigmath.es.osaka-u.ac.jp/ftanaka/T/modeling/... · Extending the Linear Model with R: Generalized Linear, Mixed Effects and Nonparametric

理解度チェック:線形モデルとロジット回帰

線形モデルでは、共役事前分布を用いて事後分布を計算できるが、

かなり煩雑な数式が出てくる

ロジット回帰モデルでベイズ分析を行うためには、MCMC法を用いる必要がある。

MCMC法によるモンテカルロサンプルを利用することで,

曲線へのあてはまりのよさを視覚的に(色の濃淡で)表現することも可能である.

MCMC法によるモンテカルロサンプルを利用することで,

回帰係数の推定値と信頼区間を構成できる.

Page 34: 統計モデリング 第九回 配布資料bayes.sigmath.es.osaka-u.ac.jp/ftanaka/T/modeling/... · Extending the Linear Model with R: Generalized Linear, Mixed Effects and Nonparametric

4. 一般化線形モデルの ベイズ分析

Page 35: 統計モデリング 第九回 配布資料bayes.sigmath.es.osaka-u.ac.jp/ftanaka/T/modeling/... · Extending the Linear Model with R: Generalized Linear, Mixed Effects and Nonparametric

ここでの目標

GLMのベイズ分析として, これまでの話を整理

一般化線形モデル

線形モデル

ポアソン回帰モデル (第三回)

ロジスティック回帰モデル

etc.

Page 36: 統計モデリング 第九回 配布資料bayes.sigmath.es.osaka-u.ac.jp/ftanaka/T/modeling/... · Extending the Linear Model with R: Generalized Linear, Mixed Effects and Nonparametric

一般化線形モデル【再掲】

1.目的変数Yの分布

iiY µ=][E

一般化線形モデル (Generalized Linear Model; GLM)

リンク関数

∑=

=p

jijji xg

1)( βµ

)(µg

←指数型分布族*

2.X, Yを結び付ける関係式 (モデルの解釈や計算の都合で設定)

*指数型分布族: 正規分布, 二項分布、ポアソン分布などを含む広い確率分布のクラス

Nelder and Wedderburn (1972)

ただし,

)|(~ iii ypY µ

Page 37: 統計モデリング 第九回 配布資料bayes.sigmath.es.osaka-u.ac.jp/ftanaka/T/modeling/... · Extending the Linear Model with R: Generalized Linear, Mixed Effects and Nonparametric

リンク関数の例

(1)

µµµ−

=1

log)(g

][E ii Y=µ

(← (絶対)連続確率変数の累積分布関数で狭義単調増加なら, 逆関数を利用可)

∞<<∞− iµ (実数全体)

を実数全体に1:1でうつすことがポイント

10 ≤≤ iµ

)(1 µ−Φ

ロジット関数

プロビット: 標準正規分布の累積分布関数の逆関数

(2) 0≥iµ

µµ log)( =g

(3)

µµ =)(g

Page 38: 統計モデリング 第九回 配布資料bayes.sigmath.es.osaka-u.ac.jp/ftanaka/T/modeling/... · Extending the Linear Model with R: Generalized Linear, Mixed Effects and Nonparametric

GLMのベイズ分析

および他のパラメータに事前分布を導入 βベイズによる方法

ベイズ解析の流れ【復習】

∑=

=p

jijji xg

1)( βµ

Step. 1: 統計モデルの設定

Step. 2: 事前分布の設定

Step. 3: 事後分布の計算 (MCMCサンプリング)

Step. 4: 事後分布 (MCMCサンプル)を用いた分析

ここが目標

グループワークなどで評価

Page 39: 統計モデリング 第九回 配布資料bayes.sigmath.es.osaka-u.ac.jp/ftanaka/T/modeling/... · Extending the Linear Model with R: Generalized Linear, Mixed Effects and Nonparametric

5. 3値以上のカウントデータ

Page 40: 統計モデリング 第九回 配布資料bayes.sigmath.es.osaka-u.ac.jp/ftanaka/T/modeling/... · Extending the Linear Model with R: Generalized Linear, Mixed Effects and Nonparametric

本日のデータ

アンケート調査:車の購入で何を重視するか 性別: 男・女 年代: 18-23, 24-40, 41- 回答: 「エアコンとパワステ」をセットにして, あまり重視しない, 重視, とても重視 (3段階)

・パワーステアリング(Power Steering)の略; 自動車の運転でハンドルを切るのを楽にする機構 (普通の車にはついてる)

パワステ

* M. McFadden, J. Powers, W. Brown, and M. Walker: Vehicle and driver attributes affecting distance from the steering wheel in motor vehicles. Human Factors, 42 (2000), 676—682.

エアコン ・エアコンディショナー(Air Conditioner) の略; ここでは自動車に搭載されているエアコンのこと(普通の車にはついてる)

Page 41: 統計モデリング 第九回 配布資料bayes.sigmath.es.osaka-u.ac.jp/ftanaka/T/modeling/... · Extending the Linear Model with R: Generalized Linear, Mixed Effects and Nonparametric

回答

性別 年齢層 重視 しない

重視 とても 重視

合計

女性 18-23 26 12 7 45 24-40 9 21 15 45 > 40 5 14 41 60

男性 18-23 40 17 8 65 24-40 17 15 12 44 > 40 8 15 18 41

全体 105 94 101 300

整理したデータ アンケート結果 (Dobson & Barnett (2008) 表8-1; オリジナルは文献(a) )

(a) M. McFadden, J. Powers, W. Brown, and M. Walker: Vehicle and driver attributes affecting distance from the steering wheel in motor vehicles. Human Factors, 42(2000), 676—682.

Page 42: 統計モデリング 第九回 配布資料bayes.sigmath.es.osaka-u.ac.jp/ftanaka/T/modeling/... · Extending the Linear Model with R: Generalized Linear, Mixed Effects and Nonparametric

エアコンとパワステ (1/2)

freq <- array(0, c(6,3)); freq[,1] <- c(26,9,5,40,17,8); freq[,2] <- c(12,21,14,17,15,15); freq[,3] <- c(7,15,41,8,12,18); rel_freq <- freq/apply(freq, 1, sum); # 男女別にする rel_freq_f <- rel_freq[1:3,]; rel_freq_m <- rel_freq[4:6,]; # 女性のプロット (男性も同様) plot(rel_freq_f[,1], type="b", ylim=c(0, 0.8), main="Car Preferences of Woman", xlab="Age", ylab="Proportion", xaxt="n"); points(rel_freq_f[,2], type="b", lty=2, col=3); points(rel_freq_f[,3], type="b", lty=3, col=4); axis(side=1, at = 1:3, labels=c("18-23", "24-40", "Over40"));

実線: 重視しない 緑点線: 重視 青点線: とても重視

0.0

0.2

0.4

0.6

0.8

Car Preferences of Woman

Age

Pro

porti

on

18-23 24-40 Over40

Page 43: 統計モデリング 第九回 配布資料bayes.sigmath.es.osaka-u.ac.jp/ftanaka/T/modeling/... · Extending the Linear Model with R: Generalized Linear, Mixed Effects and Nonparametric

エアコンとパワステ (2/2)

男女別に比較; 年齢が増えるとエアコンとパワステ重視の比率が増える傾向がみえる

実線: 重視しない 緑点線: 重視 青点線: とても重視

0.0

0.2

0.4

0.6

0.8

Car Preferences of Woman

Age

Pro

porti

on

18-23 24-40 Over40

0.0

0.2

0.4

0.6

0.8

Car Preferences of Man

Age

Pro

porti

on

18-23 24-40 Over40

左図:女性; 右図:男性

Page 44: 統計モデリング 第九回 配布資料bayes.sigmath.es.osaka-u.ac.jp/ftanaka/T/modeling/... · Extending the Linear Model with R: Generalized Linear, Mixed Effects and Nonparametric

分析の課題

男女・年齢層による、エアコン・パワステ重視度の違いを定量的に検討せよ(どのようなモデルを用いればよいか?)

統計モデリングの課題

Page 45: 統計モデリング 第九回 配布資料bayes.sigmath.es.osaka-u.ac.jp/ftanaka/T/modeling/... · Extending the Linear Model with R: Generalized Linear, Mixed Effects and Nonparametric

6. ロジスティック回帰 モデルの拡張

Page 46: 統計モデリング 第九回 配布資料bayes.sigmath.es.osaka-u.ac.jp/ftanaka/T/modeling/... · Extending the Linear Model with R: Generalized Linear, Mixed Effects and Nonparametric

→ ロジット回帰, ポアソン回帰など

今回のデータの難しさ

例: Oリングデータ(Oリングの1つ1つが破損, 破損してない) 二択アンケート(YES/NO)

例: 三択アンケート (YES/NO / どちらともいえない) 3種類のラーメンの注文数 (みそ/しお/とんこつ) Amazonの点数評価 (1,2,3,4,5)

目的変数が2値のカウントデータ

目的変数が3値以上のカウントデータ

これまでのGLMの方法は使えない!

Page 47: 統計モデリング 第九回 配布資料bayes.sigmath.es.osaka-u.ac.jp/ftanaka/T/modeling/... · Extending the Linear Model with R: Generalized Linear, Mixed Effects and Nonparametric

多項モデル【第二回】

ツボの中に k 色の小さいボールを大量に入れる (N個).

その比率は

多項モデル

意味:

kξξξ ,,, 21

121 =+++ kξξξ

m (<< N)個のボールを取り出す試行を考えるとき, 各色のボールの

個数を kXXX ,,, 21

とする.

),,;(~),,,( 121 kk mMXXX ξξ

),,;( 1 kmM ξξ

Page 48: 統計モデリング 第九回 配布資料bayes.sigmath.es.osaka-u.ac.jp/ftanaka/T/modeling/... · Extending the Linear Model with R: Generalized Linear, Mixed Effects and Nonparametric

考えてみよう 次の三択アンケートは、多項分布でモデル化できる. 問

車をもっているO大学の学生のうち100人を無作為抽出して、

車の購入でパワステ・エアコンをどれくらい重視するか三択で答えてもらった.

1.とても重視, 2. 重視, 3. 重視しない

1は30人, 2は25人、3は45人だった。

多項分布の各記号は、何に対応していると考えられるか?

k

m

kξξξ ,,, 21

選択肢の数 ( 3 )

無作為抽出された学生の数 ( 100 )

O大学の学生全体での真の比率

Page 49: 統計モデリング 第九回 配布資料bayes.sigmath.es.osaka-u.ac.jp/ftanaka/T/modeling/... · Extending the Linear Model with R: Generalized Linear, Mixed Effects and Nonparametric

多項分布を用いたモデル化

多項分布を用いたモデル

( ) ),,;(~~,~,~321321 iiiiiii mMYYY ξξξ

6,,2,1 =i

次に, 上の を説明変数と結びつける iξ

i 番目のグループのアンケート結果

調査対象の属性

性別:男・女 年代:18-23, 24-40, 41-

6種類の母集団と考える

Page 50: 統計モデリング 第九回 配布資料bayes.sigmath.es.osaka-u.ac.jp/ftanaka/T/modeling/... · Extending the Linear Model with R: Generalized Linear, Mixed Effects and Nonparametric

説明変数とのリンク

・名目尺度(Nominal scale) ・順序尺度(Ordinal scale)

3値以上の場合のカウントデータの分類

名目尺度 (Nominal Scale)データ k種類の値に順序はなくラベルを張り替えられるようなデータ ※今回は三段階評価だが簡単のため名目尺度で扱う.

→ ロジット回帰の拡張で対処

k種類の値に自然な順序がつけられるデータ (成績評価など)

順序尺度 (Ordinal Scale)データ

→ 潜在変数モデルの導入(難)

Page 51: 統計モデリング 第九回 配布資料bayes.sigmath.es.osaka-u.ac.jp/ftanaka/T/modeling/... · Extending the Linear Model with R: Generalized Linear, Mixed Effects and Nonparametric

名目尺度データの場合

各 i=1,2,...,n

∑=

=S

sissjij x

1)log( βφ

∑=

= k

jij

ijij

φξ

※今回は三段階評価だが簡単のため名目尺度で扱う.

説明変数と多項モデルパラメータとのリンク(一般の場合)

*他にも対数線形モデルなどがある (交互作用項をみる場合に使う)

kj ,,2,1 =

ijφ

11 ≡iφ

kj ,,2 =

Ssxis ,,2,1; = i 番目のグループの説明変数(年収、職業 etc.)

i 番目のグループが選択肢 j を選ぶ重みパラメータ (0以上)

(基準化)

Page 52: 統計モデリング 第九回 配布資料bayes.sigmath.es.osaka-u.ac.jp/ftanaka/T/modeling/... · Extending the Linear Model with R: Generalized Linear, Mixed Effects and Nonparametric

参考:順序尺度データの場合

分類を表す添え字 i は省略

]),(( 1 jjj CCZP −∈=ξ

潜在変数モデル (Latent Variable Model)

潜在変数Zの分布, カットポイントと説明変数Xの対応付けはGLMとは大きく異なるため今回は触れない.(累積ロジットモデルなどがある)

← 観測できない連続変数Z (潜在変数)によって決まる;

+∞=−∞= − kk CCCC ,,,, 110

← k-1個のカットポイントがパラメータ

*実際には(5段階評価でも)連続データとみなして解析することが多い 【← 理論的には望ましいとは限らないが】

例: S, A, B, C, F ))5.49,(( −∞∈= ZPFξ)),105[( ∞∈= ZPSξ

Page 53: 統計モデリング 第九回 配布資料bayes.sigmath.es.osaka-u.ac.jp/ftanaka/T/modeling/... · Extending the Linear Model with R: Generalized Linear, Mixed Effects and Nonparametric

カテゴリカル説明変数の扱い

・連続変数 ・順序つきカテゴリカル変数 ・順序なしカテゴリカル変数

一般の説明変数の分類

説明変数の例 (ダミー変数の使用例)

年代3通り → 2値変数を2つ用意 ( k通りの分類なら k-1個の2値変数)

=01

1ix

=01

2ix

男性

女性

24~40歳 41歳~

i 番目のグループの説明変数(共変量)は以下で設定 【今回の場合】

それ以外

=01

3ixそれ以外

Page 54: 統計モデリング 第九回 配布資料bayes.sigmath.es.osaka-u.ac.jp/ftanaka/T/modeling/... · Extending the Linear Model with R: Generalized Linear, Mixed Effects and Nonparametric

Bayesian Nominal Logistic Regression

(参照基準)

3322110)log( ijijijjij xxx ββββφ +++=

∑=

= 3

1jij

ijij

φ

φξ

Nominal Logistic Regression の式

3,2=j

11 =iφ

11 ≡iφ エ・パ重視しない (j=1)

2iφ3iφ

エ・パ重視 (j=2) エ・パとても重視 (j=3)

重み

【本来はいろいろ試すべき】

3,2=j)10,0(~,,, 43210 Njjjj ββββ

事前分布 (平坦)

WinBUGSを利用した結果を紹介 (詳細は別資料)

Page 55: 統計モデリング 第九回 配布資料bayes.sigmath.es.osaka-u.ac.jp/ftanaka/T/modeling/... · Extending the Linear Model with R: Generalized Linear, Mixed Effects and Nonparametric

オッズ比 推定値 (事後平均)

95%信用区間 (事後分布から計算)

0.70 (0.350,1.23) 3.32 (1.65,6.23) 5.35 (2.16,10.7)

0.457 (0.240,0.818) 4.90 (2.14,10.2) 21.6 (8.42,49.7)

分析結果 オッズ比の推定値と信用区間 (Dobson & Barnett (2008) 表14-4と似た結果)

32βe

22βe

12βe

33βe

23βe

13βe

分析結果について考察せよ. (結果は非ベイズでも同様になる.) たとえばエアコンとパワステを重視する度合いは、男女の違いと年齢の違い、どちらの影響が大きいだろうか.

Page 56: 統計モデリング 第九回 配布資料bayes.sigmath.es.osaka-u.ac.jp/ftanaka/T/modeling/... · Extending the Linear Model with R: Generalized Linear, Mixed Effects and Nonparametric

理解度チェック:ロジット回帰の拡張 ネット通販の商品のレビュー(5点満点評価)を, 商品の属性(メーカーや色、性能)で説明したい. この場合, レビューの点数は順序尺度データとして扱うべきである.

4種類の職業グループを説明変数にする場合 のように等間隔にとるのが望ましい.

消費者モニターにレトルトカレー5種類のブランドから1つ選んでもらった. 消費者モニターの年代や嗜好(辛いのが好き etc.)など4つの説明変数を用いて分析する場合, 4項分布を用いる.

3,2,1,0=x

O大学では, 学部で統計の授業を受講することが重要かどうか, 理学研究科の大学院生にアンケートをとった. 対象専攻は, 生物, 化学, 物理の 3つである. この場合, 専攻に関する説明変数は2つ用いて, 例えば以下のように設定する.

=01

1x 生物 化学

それ以外

=01

2xそれ以外