統計モデリング第九回...

２０１７年６月２０日＠統計モデリング

担当：田中冬彦

統計モデリング第九回配布資料

文献: a) A. J. Dobson and A. G. Barnett: An Introduction to Generalized Linear Models 3rd ed., CRC Press, 2008.

配布資料の一部は以下からもDLできます. 短縮URL http://tinyurl.com/lxb7kb8

b) J. J. Faraway: Extending the Linear Model with R: Generalized Linear, Mixed Effects and Nonparametric Regression Models., (Texts in Statistical Science), Chapman and Hall/CRC, Boca Raton, 2006.

ベイズ統計の基本と事後分布の数値的なサンプリング方法を学んだ

前回までの内容

ベイズ解析で再アプローチ

第八回と第九回では, これまでの知識を前提としてさまざまなモデルとベイズ解析の例をみていく

参考：

第十回 (6/27)：第二回グループ発表

7/11: 基礎工入試で休講

1. Gibbs Sampling と階層モデル

2. 線形モデルでのベイズ的なアプローチ

3. ベイズ予測分布 (時間があれば)

4. 一般化線形モデルでのベイズ的なアプローチ

第8,9 回でとりあげるテーマ

今後の予定第九回一般化線形モデルのベイズ解析

第十回グループ発表２

x

y

第十一回スパースモデリング１・因子分析

第十二回スパースモデリング２・GLM

今日の内容

１．信用区間２．線形モデルのベイズ分析３．ロジスティック回帰モデル（ロジット回帰モデル）４．一般化線形モデルのベイズ分析５．３値以上のカウントデータ６．ロジスティック回帰モデルの拡張

１. 信用区間

学部１年の教材から

例題：妖怪ウオッカの町内会視聴率

標本視聴率 ...2333.0307==

問：町内会全体での視聴率はどれくらい？

（３０世帯だと不確実さが大きい）

とある町内会

日本のアニメ「妖怪ウオッカ」が子供に大人気

町内で子供がいる世帯（５００世帯以上！） → ランダムに３０世帯選んで調査 → ７世帯が視聴

信頼区間【復習】

各モデルについて公式代入【学部１年の場合】

npppR )ˆ1(ˆ

96.1ˆ −+=

例：二項モデル( )の場合 ),(~ pnBinX

npppL )ˆ1(ˆ

96.1ˆ −−=

信頼区間 (Confidence Interval)

モデルのパラメータに幅をもたせた推定;

区間推定ともよぶ.

nXp =ˆ ← 単純平均で推定（第八回参照）

← 簡単のため 95% 信頼区間で固定

信頼区間の問題点

次にベイズ統計の場合を見てみる

例：二項モデル( )の場合 ),(~ pnBinX

0086.0 <−=L

問題点

１．二項モデル → n 大の近似式！

２．では問題あり！

３．誤解が蔓延！

1;10 == Xn

0ˆ ≈p

95%信用区間

パラメータの信用区間 (Credible Interval) 事後分布で確率９５％の区間

複数パラメータの信用域 (Credible Region)

事後分布で確率９５％となる領域

利点 (分析者による事前分布の設定は必要だが)

・正確な式！

・でも問題なし！

・解釈が容易！

0ˆ ≈p

[ ]

* 説明しやすいように, 95% で固定(99%, 90% etc. でも全く同様)

事後分布

これを

定義：信用域と信用区間

{ }05.0)|(:: kxC ≥= θπθπ

)|( xθπ

)](),([ xRxLC πππ =

以下のパラメータ集合を HPD-95% 信用域という

95.0)|( =∈ xCπθπただし,

特に１次元パラメータで事後分布が単峰なら閉区間

HPD-95 % 信用区間という

HPD 95%信用区間

HPD = Highest Posterior Density

cf) 頻度論での95%信頼区間はパラメータが区間に入る確率95%という解釈ではなかった

信用区間を分位点(quantile) を用いて求めるケース

)](~),(~[~ xRxLC =π

１次元パラメータで事後分布が単峰の場合, 上側 2.5%点, 下側 2.5% 点を求めるケースもあり (求め方が簡単)

分位点を利用した95%信用区間

１．単峰で対称な分布の場合, 両者は一致.

２．HPDは区間幅が最小 (ただし, 計算がめんどう.)

%5.2)|()(~ =∫

+∞θθπ dx

xR%5.2)|(

)(~

=∫ ∞−θθπ dx

xL

分位点(quantile) とHPDの違い

二項分布＋ベータ分布【再掲】

),(~ qnBinX統計モデル＝二項モデル（n回の試行）

事前分布＝ベータ分布【共役事前分布】

n回試行, x回成功した場合の事後分布

)1,1(~ Betaq

)1)(,1(~ +−+ xnxBetaq

n=10, x=1 の場合で95% 信用区間を見てみる

0.0 0.2 0.4 0.6 0.8 1.0

01

23

4

Prior and Posterior

q

Den

sity

PriorPosterior

計算例 10回試行, 1回成功の時の事後分布（推定値 0.1）

91 )1()10,2(

1)1|( qqB

xq −==π

理解度チェック：信用区間

９５％信頼区間の公式は統計モデルの仮定や近似の下で導出されており、使用が適切でない場合もある

９５％信頼区間が[0.1, 0.4] の場合, パラメータの真値が0.1から0.4に入っている確率が９５％という意味である.

信用区間は、共役事前分布が存在する統計モデルでしか使えない

９５％信用区間が[0.1, 0.4] の場合, パラメータの真値が0.1から0.4に入っている確率が９５％という意味である.

２. 線形モデルのベイズ分析

ここでの目標

線形モデルでのベイズ分析

→ その流れを整理・理解する！

注：数式の詳細な扱いには立ち入らない.

回帰分析（B-2/C-2資料より）【第二回より】

O大学新入生のみずほさんは賃貸情報をネットで検索. 以下のようなデータを得ました.

例題：みずほの部屋探し

最寄り駅からの距離 (徒歩)： 3 5 6 10 11 17 一カ月の賃料 (万円)： 8 7.3 6.2 4 4.2 3.5

豊中キャンパス近くの賃貸物件（１K）

6,,2,1 =i

x: 最寄駅からの距離(分：徒歩換算), y:一か月の家賃 (万円)

線形モデル【第二回】

),0(~ vNiεiii xY εββ ++= 21

モデルのパラメータ, v;, 21 ββ

線形モデル（回帰モデル）

0 5 10 15 20

02

46

810

Kaiki

Min Walk

10^4

YE

N

ベイズ分析ではこれらに事前分布をいれる

線形モデルの事前分布 (1/2) 設定例１

固定するパラメータ sa,,, 2*

1* ββ

),(~ 1−saIGv

【共役事前分布】

),(~| 1*

1 vNv ββ

← 逆ガンマ分布

vが十分大きくなるような場合, の値はきいてこないため, 0 としてよい.

),(~| 2*

2 vNv ββ

2*

1* ,ββ

事後分布がかなり煩雑な形になるので、簡単化した例で考える

vsa

a

evs

asaIG /

11

)(1),( −

+−

Γ↔

設定例２（簡単バージョン）

注意

( )σ

σπσ 1~ =

( ) 1~ =jj βπβ

← スケールフリー

事前分布 → 積分発散！（確率になってない）事後分布 → 確率分布

事後分布の公式を紹介；細かい式は気にしなくて良い

2,1=j

線形モデルの事前分布 (2/2)

v=2σ

同時確率密度（簡単バージョン）

線形モデルの事後分布(1/2)

( )( ) ( ) ESAn eeCyx

T2

12 2

1ˆˆ2

11,|, σ

ββββσσσβπ

−−−−+−

−

=

XXA T=− :1 XyA 1:ˆ −=β

ijxX =: [ ]

∑=

=−=p

jjiji xyyyES

1

2 ˆ:ˆ,ˆ: β

ni ,,2,1 =

),0(~ 2σε Ni

iippii xxY εββ +++= 11

線形モデル（回帰モデル）

εβ += XY ni ,,2,1 =pj ,,2,1 =

11 =ix

積分公式

( ) ( ) ( ) 22

1 ˆˆ1',|

−−

−

−−+=

nT

ESACyx βββββπ

←多次元 t 分布

回帰係数の周辺確率密度

−Γ= +−∞ −

+−∫ 122

1 12/

0

1 2 nbde nb

n σσ σ

誤差分散の周辺確率密度

( ) 221,| σσσπES

np eDyx−

+−=

2σ=v とおくと

−−

ESpnIGv 2,2

2~ ← 逆ガンマ分布

線形モデルの事後分布(2/2)

分析例

),|( 2 yxβπ

∑=

−=n

ii xxUV

1

222 )(/:

ii

n

iii xyyy

nU 21

1

22 ˆˆ:ˆ,)ˆ(2

1: ββ +=−−

= ∑=

← 自由度 n-2 のt 分布

一般の回帰分析でも同様（MCMCは不要だが計算が煩雑）

21

222

/)ˆ(1'

−−

−+=

n

xxnSESC ββ

∑=

−=n

iixx xx

nS

1

2)(1:

21)2(

2

222 )ˆ()2(

+−−

−

+−=

n

VnC ββ

-0.5 -0.4 -0.3 -0.2 -0.1

02

46

810

12

Posterior of coefficient

beta_2

Pos

t.

回帰係数の推定値と９５％信用区間

推定値: -0.34, ９５％信用区間= [-0.43, -0.26]

iii xY εββ ++= 21

３. ロジスティック回帰モデル (ロジット回帰モデル)

-5 0 5 10 15 20 25 30

0.0

0.2

0.4

0.6

0.8

1.0

Fitted Curve by Logit Regress

Temperature(C)

Pro

b of

dam

age

23,,2,1 =i

気温(C)

Oリング破損数と気温の関係 (再掲)

破損数破損率摂氏温度 5 5/6 11.6 ・・・・・・・・ 0 0/6 27.2

Oリングの破損数 iyix

第一回で紹介したデータ (23件) ・Oリング: スペースシャトルに６つ搭載・毎回の打ち上げ時, 6つのうちいくつか破損・共変量は気温のみ

iq Oリングの破損率 23,,2,1 =i

iq

ix

23,,2,1 =i

統計モデルの導入

),(~ iii qnBinY

目的変数 ( i 番目の打ち上げで破損するOリングの数)

最初のアイディア

→ 上限ありのカウントデータなので二項分布で表現

（今回は, ）

各 i 番目の打ち上げにおけると説明変数(打ち上げ時気温)をどう結び付けるか？？

工夫を要する点

iq

6=in

ロジスティック回帰モデル

モデルのパラメータ, kββ ,,1

一般的な形

ni ,,2,1 =),(~ iii qnBinY

∑=

=−

k

jijj

i

i xq

q11

log β

オッズ比＝成功確率

失敗確率

∑=

k

jijj x

e 1β

＝

i 番の説明変数, ( )ikii xxx ,,1 = 11 =ix

Oリングの場合

モデルのパラメータ, 21,ββ

統計モデル

23,,2,1 =i),6(~ ii qBinY

ii

i xq

q211

log ββ +=−

事前分布の例 (共役事前分布はない)

)10,0(~),10,0(~ 62

61 NN ββ

気温(C) ix iq Oリングの破損率

事後分布をMCMCで (a) MCMCサンプルの例

),( 21 ββ

(b) MCMCサンプルを用いたベイズ分析

-4.251900 -0.4722423 -4.251900 -0.4722423 -4.251900 -0.4722423 -3.967638 -0.4631124 -3.710819 -0.4088345 -3.710819 -0.4088345 -3.739178 -0.4965064 -3.455387 -0.3499806 .... -5.0 -4.5 -4.0 -3.5 -3.0 -2.5 -2.0

-0.7

-0.6

-0.5

-0.4

-0.3

-0.2

-0.1

Random Walk Monte Carlo

beta1be

ta2

・パラメータの推定値と信用区間（省略）・曲線へのあてはめのよさの視覚化・摂氏 -0.56度での破損確率と信用区間

プログラム例 plot(damage/6 ~ temp, orings_new_org, xlim=(c(25,85)-32)*5/9, ylim=c(0,1), xlab="Temperature(C)", ylab="Prob of damage", main="Fitted Curve by Logit Regression"); for( j in (Nsim-500):Nsim){ curve(ilogit(beta[j,1] + beta[j,2]*(x - mean_temp ) ), add=T, col=rgb(1,0,1, alpha=0.1)); } curve(ilogit(beta_mle[1] + beta_mle[2]*(x - mean_temp ) ), add=T, col="blue", lwd=3);

標準偏差 1, 0.2 でRW 青線： MLEでの推定値ピンク（透過色）： MCMC４０００のうち最後の５００サンプル

・気温が低い所 → データがないため曲線のばらつきが大きい・気温が高い所 → データがあり、曲線のばらつきが小さい

曲線へのあてはめ

MLEでの推定値を太線；モンテカルロサンプルを透過色で重ねて書く

あてはめのよさの視覚化

視覚的にわかること

(a) 摂氏度で打ち上げる場合

C

C

x

x

eeq

21

21

1)( ββ

ββ

β +

+

+=

(b) 事後分布を用いたベイズ推定値は以下の積分でかける

56.0−=CxOリングの破損確率をを用いてかくと q Cx,, 21 ββ

∫= 2)|()()(ˆ

RdDqq ββπββ

(c) MCMCサンプル(*) を用いた (b) の近似値は

∑=

≈M

ttq

Mq

1)( )(1)(ˆ ββ

)()2()1( ,,, Mβββ

摂氏 -0.56度での予測(1/2)

*前半のサンプルを捨てて, 番号を付けなおしている.

プログラム例 (一部抜粋) L_NUM <- 100; INTERVAL <- seq(from=0, to=1, length.out=L_NUM); L <- array(0, L_NUM); for (j in 1:(L_NUM-1) ){ L[j] <- sum( ( INTERVAL[j] < p_sample ) & (p_sample <= INTERVAL[j+1]) )/length(p_sample) ; } # L の要素を大きい順に並べ替えて逐次足していく → ぎりぎり９５％となる最大の番号(MAX_INTE)を見つける MAX_INTE <- sum( cumsum(sort(L, decreasing=TRUE)) < 0.95 ); # 大きい順に番号(MAX_INTE) の値以上の確率をもつLの番号を調べる（連続した値） which( L >= sort(L, decreasing=TRUE)[MAX_INTE]); # 大きい順に番号(MAX_INTE) の値以上の確率をもつ Lに対応する INTERVAL（左端の値）を調べる INTERVAL[ L >= sort(L, decreasing=TRUE)[MAX_INTE] ];

*ベイズ推定値は40000サンプル発生して後半20000 を利用.3ケタ目以降は安定しないので, 2ケタで表示

破損確率と９５％信用区間

ベイズ*: 破損確率: 0.98, ９５％信用区間= [0.93, 1.00]

摂氏 -0.56度での予測(2/2)

理解度チェック：線形モデルとロジット回帰

線形モデルでは、共役事前分布を用いて事後分布を計算できるが、

かなり煩雑な数式が出てくる

ロジット回帰モデルでベイズ分析を行うためには、MCMC法を用いる必要がある。

MCMC法によるモンテカルロサンプルを利用することで,

曲線へのあてはまりのよさを視覚的に(色の濃淡で)表現することも可能である.

MCMC法によるモンテカルロサンプルを利用することで,

回帰係数の推定値と信頼区間を構成できる.

4. 一般化線形モデルのベイズ分析

ここでの目標

GLMのベイズ分析として, これまでの話を整理

一般化線形モデル

線形モデル

ポアソン回帰モデル (第三回)

ロジスティック回帰モデル

etc.

一般化線形モデル【再掲】

１．目的変数Yの分布

iiY µ=][E

一般化線形モデル (Generalized Linear Model; GLM)

リンク関数

∑=

=p

jijji xg

1)( βµ

)(µg

←指数型分布族*

２．X, Yを結び付ける関係式 (モデルの解釈や計算の都合で設定)

*指数型分布族: 正規分布, 二項分布、ポアソン分布などを含む広い確率分布のクラス

Nelder and Wedderburn (1972)

ただし,

)|(~ iii ypY µ

リンク関数の例

(1)

µµµ−

=1

log)(g

][E ii Y=µ

(← （絶対）連続確率変数の累積分布関数で狭義単調増加なら, 逆関数を利用可)

∞<<∞− iµ (実数全体)

を実数全体に１：１でうつすことがポイント

10 ≤≤ iµ

)(1 µ−Φ

ロジット関数

プロビット：標準正規分布の累積分布関数の逆関数

(2) 0≥iµ

µµ log)( =g

(3)

µµ =)(g

GLMのベイズ分析

および他のパラメータに事前分布を導入 βベイズによる方法

ベイズ解析の流れ【復習】

∑=

=p

jijji xg

1)( βµ

Step. 1: 統計モデルの設定

Step. 2: 事前分布の設定

Step. 3: 事後分布の計算 (MCMCサンプリング)

Step. 4: 事後分布 (MCMCサンプル)を用いた分析

ここが目標

グループワークなどで評価

5. ３値以上のカウントデータ

本日のデータ

アンケート調査：車の購入で何を重視するか性別：男・女年代： 18-23, 24-40, 41- 回答：「エアコンとパワステ」をセットにして, あまり重視しない, 重視, とても重視（３段階）

・パワーステアリング(Power Steering)の略; 自動車の運転でハンドルを切るのを楽にする機構 (普通の車にはついてる)

パワステ

* M. McFadden, J. Powers, W. Brown, and M. Walker: Vehicle and driver attributes affecting distance from the steering wheel in motor vehicles. Human Factors, 42 (2000), 676—682.

エアコン・エアコンディショナー(Air Conditioner) の略; ここでは自動車に搭載されているエアコンのこと（普通の車にはついてる）

回答

性別年齢層重視しない

重視とても重視

合計

女性 18-23 26 12 7 45 24-40 9 21 15 45 > 40 5 14 41 60

男性 18-23 40 17 8 65 24-40 17 15 12 44 > 40 8 15 18 41

全体 105 94 101 300

整理したデータアンケート結果 (Dobson & Barnett (2008) 表8-1; オリジナルは文献(a) )

(a) M. McFadden, J. Powers, W. Brown, and M. Walker: Vehicle and driver attributes affecting distance from the steering wheel in motor vehicles. Human Factors, 42(2000), 676—682.

エアコンとパワステ (1/2)

freq <- array(0, c(6,3)); freq[,1] <- c(26,9,5,40,17,8); freq[,2] <- c(12,21,14,17,15,15); freq[,3] <- c(7,15,41,8,12,18); rel_freq <- freq/apply(freq, 1, sum); # 男女別にする rel_freq_f <- rel_freq[1:3,]; rel_freq_m <- rel_freq[4:6,]; # 女性のプロット (男性も同様) plot(rel_freq_f[,1], type="b", ylim=c(0, 0.8), main="Car Preferences of Woman", xlab="Age", ylab="Proportion", xaxt="n"); points(rel_freq_f[,2], type="b", lty=2, col=3); points(rel_freq_f[,3], type="b", lty=3, col=4); axis(side=1, at = 1:3, labels=c("18-23", "24-40", "Over40"));

実線: 重視しない緑点線：重視青点線：とても重視

0.0

0.2

0.4

0.6

0.8

Car Preferences of Woman

Age

Pro

porti

on

18-23 24-40 Over40

エアコンとパワステ (2/2)

男女別に比較；年齢が増えるとエアコンとパワステ重視の比率が増える傾向がみえる

実線: 重視しない緑点線：重視青点線：とても重視

0.0

0.2

0.4

0.6

0.8

Car Preferences of Woman

Age

Pro

porti

on

18-23 24-40 Over40

0.0

0.2

0.4

0.6

0.8

Car Preferences of Man

Age

Pro

porti

on

18-23 24-40 Over40

左図：女性；右図：男性

分析の課題

男女・年齢層による、エアコン・パワステ重視度の違いを定量的に検討せよ（どのようなモデルを用いればよいか？）

統計モデリングの課題

６. ロジスティック回帰モデルの拡張

→ ロジット回帰, ポアソン回帰など

今回のデータの難しさ

例： Oリングデータ(Oリングの１つ１つが破損, 破損してない) 二択アンケート(YES/NO)

例：三択アンケート (YES/NO / どちらともいえない) ３種類のラーメンの注文数 (みそ/しお/とんこつ) Amazonの点数評価 (1,2,3,4,5)

目的変数が2値のカウントデータ

目的変数が3値以上のカウントデータ

これまでのGLMの方法は使えない！

→

多項モデル【第二回】

ツボの中に k 色の小さいボールを大量に入れる (N個).

その比率は

多項モデル

意味：

kξξξ ,,, 21

121 =+++ kξξξ

m （<< N）個のボールを取り出す試行を考えるとき, 各色のボールの

個数を kXXX ,,, 21

とする.

),,;(~),,,( 121 kk mMXXX ξξ

),,;( 1 kmM ξξ

考えてみよう次の三択アンケートは、多項分布でモデル化できる. 問

車をもっているO大学の学生のうち１００人を無作為抽出して、

車の購入でパワステ・エアコンをどれくらい重視するか三択で答えてもらった.

１．とても重視, 2. 重視, 3. 重視しない

1は３０人, 2は２５人、3は４５人だった。

多項分布の各記号は、何に対応していると考えられるか？

k

m

kξξξ ,,, 21

選択肢の数 ( 3 )

無作為抽出された学生の数 ( 100 )

O大学の学生全体での真の比率

多項分布を用いたモデル化

多項分布を用いたモデル

( ) ),,;(~~,~,~321321 iiiiiii mMYYY ξξξ

6,,2,1 =i

次に, 上のを説明変数と結びつける iξ

i 番目のグループのアンケート結果

調査対象の属性

性別：男・女年代：18-23, 24-40, 41-

６種類の母集団と考える

説明変数とのリンク

・名目尺度(Nominal scale) ・順序尺度(Ordinal scale)

３値以上の場合のカウントデータの分類

名目尺度 (Nominal Scale)データ k種類の値に順序はなくラベルを張り替えられるようなデータ ※今回は三段階評価だが簡単のため名目尺度で扱う.

→ ロジット回帰の拡張で対処

k種類の値に自然な順序がつけられるデータ (成績評価など)

順序尺度 (Ordinal Scale)データ

→ 潜在変数モデルの導入（難）

名目尺度データの場合

各 i=1,2,...,n

∑=

=S

sissjij x

1)log( βφ

∑=

= k

jij

ijij

1φ

φξ

※今回は三段階評価だが簡単のため名目尺度で扱う.

説明変数と多項モデルパラメータとのリンク(一般の場合)

*他にも対数線形モデルなどがある (交互作用項をみる場合に使う)

kj ,,2,1 =

ijφ

11 ≡iφ

kj ,,2 =

Ssxis ,,2,1; = i 番目のグループの説明変数（年収、職業 etc.）

i 番目のグループが選択肢 j を選ぶ重みパラメータ（０以上）

(基準化)

参考：順序尺度データの場合

分類を表す添え字 i は省略

]),(( 1 jjj CCZP −∈=ξ

潜在変数モデル (Latent Variable Model)

潜在変数Zの分布, カットポイントと説明変数Xの対応付けはGLMとは大きく異なるため今回は触れない.(累積ロジットモデルなどがある）

← 観測できない連続変数Z (潜在変数)によって決まる;

+∞=−∞= − kk CCCC ,,,, 110

← k-1個のカットポイントがパラメータ

*実際には（５段階評価でも）連続データとみなして解析することが多い【← 理論的には望ましいとは限らないが】

例: S, A, B, C, F ))5.49,(( −∞∈= ZPFξ)),105[( ∞∈= ZPSξ

カテゴリカル説明変数の扱い

・連続変数・順序つきカテゴリカル変数・順序なしカテゴリカル変数

一般の説明変数の分類

説明変数の例 (ダミー変数の使用例)

年代３通り → 2値変数を2つ用意 ( k通りの分類なら k-1個の2値変数)

=01

1ix

=01

2ix

男性

女性

２４～４０歳４１歳～

i 番目のグループの説明変数（共変量）は以下で設定【今回の場合】

それ以外

=01

3ixそれ以外

Bayesian Nominal Logistic Regression

(参照基準)

3322110)log( ijijijjij xxx ββββφ +++=

∑=

= 3

1jij

ijij

φ

φξ

Nominal Logistic Regression の式

3,2=j

11 =iφ

11 ≡iφ エ・パ重視しない (j=1)

2iφ3iφ

エ・パ重視 (j=2) エ・パとても重視 (j=3)

重み

【本来はいろいろ試すべき】

3,2=j)10,0(~,,, 43210 Njjjj ββββ

事前分布（平坦）

WinBUGSを利用した結果を紹介 (詳細は別資料)

オッズ比推定値（事後平均）

95%信用区間（事後分布から計算）

0.70 (0.350,1.23) 3.32 (1.65,6.23) 5.35 (2.16,10.7)

0.457 (0.240,0.818) 4.90 (2.14,10.2) 21.6 (8.42,49.7)

分析結果オッズ比の推定値と信用区間 (Dobson & Barnett (2008) 表14-4と似た結果)

32βe

22βe

12βe

33βe

23βe

13βe

分析結果について考察せよ. (結果は非ベイズでも同様になる.) たとえばエアコンとパワステを重視する度合いは、男女の違いと年齢の違い、どちらの影響が大きいだろうか.

理解度チェック：ロジット回帰の拡張ネット通販の商品のレビュー(５点満点評価）を, 商品の属性（メーカーや色、性能）で説明したい. この場合, レビューの点数は順序尺度データとして扱うべきである.

４種類の職業グループを説明変数にする場合のように等間隔にとるのが望ましい.

消費者モニターにレトルトカレー５種類のブランドから１つ選んでもらった. 消費者モニターの年代や嗜好(辛いのが好き etc.)など４つの説明変数を用いて分析する場合, ４項分布を用いる.

3,2,1,0=x

O大学では, 学部で統計の授業を受講することが重要かどうか, 理学研究科の大学院生にアンケートをとった. 対象専攻は, 生物, 化学, 物理の３つである. この場合, 専攻に関する説明変数は2つ用いて, 例えば以下のように設定する.

=01

1x 生物化学

それ以外

=01

2xそれ以外

統計モデリング 第九回...

Documents

統計モデリング第九回...