統計モデリング 第九回...
TRANSCRIPT
2017年6月20日@統計モデリング
担当:田中冬彦
統計モデリング 第九回 配布資料
文献: a) A. J. Dobson and A. G. Barnett: An Introduction to Generalized Linear Models 3rd ed., CRC Press, 2008.
配布資料の一部は以下からもDLできます. 短縮URL http://tinyurl.com/lxb7kb8
b) J. J. Faraway: Extending the Linear Model with R: Generalized Linear, Mixed Effects and Nonparametric Regression Models., (Texts in Statistical Science), Chapman and Hall/CRC, Boca Raton, 2006.
ベイズ統計の基本と事後分布の数値的なサンプリング方法を学んだ
前回までの内容
ベイズ解析で再アプローチ
第八回と第九回では, これまでの知識を前提としてさまざまなモデルとベイズ解析の例をみていく
参考:
第十回 (6/27): 第二回 グループ発表
7/11: 基礎工入試で休講
1. Gibbs Sampling と 階層モデル
2. 線形モデルでのベイズ的なアプローチ
3. ベイズ予測分布 (時間があれば)
4. 一般化線形モデルでのベイズ的なアプローチ
第8,9 回でとりあげるテーマ
今後の予定 第九回 一般化線形モデルのベイズ解析
第十回 グループ発表2
x
y
第十一回 スパースモデリング1・因子分析
第十二回 スパースモデリング2・GLM
今日の内容
1.信用区間 2.線形モデルのベイズ分析 3.ロジスティック回帰モデル(ロジット回帰モデル) 4.一般化線形モデルのベイズ分析 5.3値以上のカウントデータ 6.ロジスティック回帰モデルの拡張
1. 信用区間
学部1年の教材から
例題:妖怪ウオッカの町内会視聴率
標本視聴率 ...2333.0307==
問:町内会全体での視聴率はどれくらい?
(30世帯だと不確実さが大きい)
とある町内会
日本のアニメ「妖怪ウオッカ」が子供に大人気
町内で子供がいる世帯(500世帯以上!) → ランダムに30世帯選んで調査 → 7世帯が視聴
信頼区間【復習】
各モデルについて公式代入【学部1年の場合】
npppR )ˆ1(ˆ
96.1ˆ −+=
例:二項モデル( )の場合 ),(~ pnBinX
npppL )ˆ1(ˆ
96.1ˆ −−=
信頼区間 (Confidence Interval)
モデルのパラメータに幅をもたせた推定;
区間推定ともよぶ.
nXp =ˆ ← 単純平均で推定(第八回参照)
← 簡単のため 95% 信頼区間で固定
信頼区間の問題点
次にベイズ統計の場合を見てみる
例:二項モデル( )の場合 ),(~ pnBinX
0086.0 <−=L
問題点
1. 二項モデル → n 大の近似式!
2. では問題あり!
3. 誤解が蔓延!
1;10 == Xn
0ˆ ≈p
95%信用区間
パラメータの信用区間 (Credible Interval) 事後分布で確率 95% の区間
複数パラメータの信用域 (Credible Region)
事後分布で確率 95% となる領域
利点 (分析者による事前分布の設定は必要だが)
・ 正確な式!
・ でも問題なし!
・ 解釈が容易!
0ˆ ≈p
[ ]
* 説明しやすいように, 95% で固定(99%, 90% etc. でも全く同様)
事後分布
これを
定義: 信用域と信用区間
{ }05.0)|(:: kxC ≥= θπθπ
)|( xθπ
)](),([ xRxLC πππ =
以下のパラメータ集合を HPD-95% 信用域という
95.0)|( =∈ xCπθπただし,
特に1次元パラメータで事後分布が単峰なら閉区間
HPD-95 % 信用区間という
HPD 95%信用区間
HPD = Highest Posterior Density
cf) 頻度論での95%信頼区間はパラメータが区間に入る確率95%という解釈ではなかった
信用区間を分位点(quantile) を用いて求めるケース
)](~),(~[~ xRxLC =π
1次元パラメータで事後分布が単峰の場合, 上側 2.5%点, 下側 2.5% 点 を求めるケースもあり (求め方が簡単)
分位点を利用した95%信用区間
1. 単峰で対称な分布の場合, 両者は一致.
2.HPDは区間幅が最小 (ただし, 計算がめんどう.)
%5.2)|()(~ =∫
+∞θθπ dx
xR%5.2)|(
)(~
=∫ ∞−θθπ dx
xL
分位点(quantile) とHPDの違い
二項分布+ベータ分布【再掲】
),(~ qnBinX統計モデル=二項モデル(n回の試行)
事前分布=ベータ分布【共役事前分布】
n回試行, x回成功した場合の事後分布
)1,1(~ Betaq
)1)(,1(~ +−+ xnxBetaq
n=10, x=1 の場合で95% 信用区間を見てみる
0.0 0.2 0.4 0.6 0.8 1.0
01
23
4
Prior and Posterior
q
Den
sity
PriorPosterior
計算例 10回試行, 1回成功 の時の事後分布 (推定値 0.1)
91 )1()10,2(
1)1|( qqB
xq −==π
理解度チェック:信用区間
95%信頼区間の公式は統計モデルの仮定や近似の下で導出されており、使用が適切でない場合もある
95%信頼区間が[0.1, 0.4] の場合, パラメータの真値が0.1から0.4に入っている確率が95%という意味である.
信用区間は、共役事前分布が存在する統計モデルでしか使えない
95%信用区間が[0.1, 0.4] の場合, パラメータの真値が0.1から0.4に入っている確率が95%という意味である.
2. 線形モデルの ベイズ分析
ここでの目標
線形モデルでのベイズ分析
→ その流れを整理・理解する!
注:数式の詳細な扱いには立ち入らない.
回帰分析(B-2/C-2資料より)【第二回より】
O大学 新入生のみずほさんは賃貸情報をネットで検索. 以下のようなデータを得ました.
例題: みずほの部屋探し
最寄り駅からの距離 (徒歩): 3 5 6 10 11 17 一カ月の賃料 (万円): 8 7.3 6.2 4 4.2 3.5
豊中キャンパス近くの賃貸物件(1K)
6,,2,1 =i
x: 最寄駅からの距離(分:徒歩換算), y:一か月の家賃 (万円)
線形モデル【第二回】
),0(~ vNiεiii xY εββ ++= 21
モデルのパラメータ, v;, 21 ββ
線形モデル(回帰モデル)
0 5 10 15 20
02
46
810
Kaiki
Min Walk
10^4
YE
N
ベイズ分析では これらに事前分布をいれる
線形モデルの事前分布 (1/2) 設定例1
固定するパラメータ sa,,, 2*
1* ββ
),(~ 1−saIGv
【共役事前分布】
),(~| 1*
1 vNv ββ
← 逆ガンマ分布
vが十分大きくなるような場合, の値はきいてこないため, 0 としてよい.
),(~| 2*
2 vNv ββ
2*
1* ,ββ
事後分布がかなり煩雑な形になるので、簡単化した例で考える
vsa
a
evs
asaIG /
11
)(1),( −
+−
Γ↔
設定例2(簡単バージョン)
注意
( )σ
σπσ 1~ =
( ) 1~ =jj βπβ
← スケールフリー
事前分布 → 積分発散! (確率になってない) 事後分布 → 確率分布
事後分布の公式を紹介; 細かい式は気にしなくて良い
2,1=j
線形モデルの事前分布 (2/2)
v=2σ
同時確率密度(簡単バージョン)
線形モデルの事後分布(1/2)
( )( ) ( ) ESAn eeCyx
T2
12 2
1ˆˆ2
11,|, σ
ββββσσσβπ
−−−−+−
−
=
XXA T=− :1 XyA 1:ˆ −=β
ijxX =: [ ]
∑=
=−=p
jjiji xyyyES
1
2 ˆ:ˆ,ˆ: β
ni ,,2,1 =
),0(~ 2σε Ni
iippii xxY εββ +++= 11
線形モデル(回帰モデル)
εβ += XY ni ,,2,1 =pj ,,2,1 =
11 =ix
積分公式
( ) ( ) ( ) 22
1 ˆˆ1',|
−−
−
−−+=
nT
ESACyx βββββπ
←多次元 t 分布
回帰係数の周辺確率密度
−Γ= +−∞ −
+−∫ 122
1 12/
0
1 2 nbde nb
n σσ σ
誤差分散の周辺確率密度
( ) 221,| σσσπES
np eDyx−
+−=
2σ=v とおくと
−−
ESpnIGv 2,2
2~ ← 逆ガンマ分布
線形モデルの事後分布(2/2)
分析例
),|( 2 yxβπ
∑=
−=n
ii xxUV
1
222 )(/:
ii
n
iii xyyy
nU 21
1
22 ˆˆ:ˆ,)ˆ(2
1: ββ +=−−
= ∑=
← 自由度 n-2 のt 分布
一般の回帰分析でも同様 (MCMCは不要だが計算が煩雑)
21
222
/)ˆ(1'
−−
−+=
n
xxnSESC ββ
∑=
−=n
iixx xx
nS
1
2)(1:
21)2(
2
222 )ˆ()2(
+−−
−
+−=
n
VnC ββ
-0.5 -0.4 -0.3 -0.2 -0.1
02
46
810
12
Posterior of coefficient
beta_2
Pos
t.
回帰係数の推定値と95%信用区間
推定値: -0.34, 95%信用区間= [-0.43, -0.26]
iii xY εββ ++= 21
3. ロジスティック回帰モデル (ロジット回帰モデル)
-5 0 5 10 15 20 25 30
0.0
0.2
0.4
0.6
0.8
1.0
Fitted Curve by Logit Regress
Temperature(C)
Pro
b of
dam
age
23,,2,1 =i
気温(C)
Oリング破損数と気温の関係 (再掲)
破損数 破損率 摂氏温度 5 5/6 11.6 ・・・・ ・・・・ 0 0/6 27.2
Oリングの破損数 iyix
第一回で紹介したデータ (23件) ・Oリング: スペースシャトルに6つ搭載 ・毎回の打ち上げ時, 6つのうちいくつか破損 ・共変量は気温のみ
iq Oリングの破損率 23,,2,1 =i
iq
ix
23,,2,1 =i
統計モデルの導入
),(~ iii qnBinY
目的変数 ( i 番目の打ち上げで破損するOリングの数)
最初のアイディア
→ 上限ありのカウントデータなので二項分布で表現
(今回は, )
各 i 番目の打ち上げにおける と説明変数(打ち上げ時気温)をどう結び付けるか??
工夫を要する点
iq
6=in
ロジスティック回帰モデル
モデルのパラメータ, kββ ,,1
一般的な形
ni ,,2,1 =),(~ iii qnBinY
∑=
=−
k
jijj
i
i xq
q11
log β
オッズ比= 成功確率
失敗確率
∑=
k
jijj x
e 1β
=
i 番の説明変数, ( )ikii xxx ,,1 = 11 =ix
Oリングの場合
モデルのパラメータ, 21,ββ
統計モデル
23,,2,1 =i),6(~ ii qBinY
ii
i xq
q211
log ββ +=−
事前分布の例 (共役事前分布はない)
)10,0(~),10,0(~ 62
61 NN ββ
気温(C) ix iq Oリングの破損率
事後分布をMCMCで (a) MCMCサンプルの例
),( 21 ββ
(b) MCMCサンプルを用いたベイズ分析
-4.251900 -0.4722423 -4.251900 -0.4722423 -4.251900 -0.4722423 -3.967638 -0.4631124 -3.710819 -0.4088345 -3.710819 -0.4088345 -3.739178 -0.4965064 -3.455387 -0.3499806 .... -5.0 -4.5 -4.0 -3.5 -3.0 -2.5 -2.0
-0.7
-0.6
-0.5
-0.4
-0.3
-0.2
-0.1
Random Walk Monte Carlo
beta1be
ta2
・パラメータの推定値と信用区間(省略) ・曲線へのあてはめのよさの視覚化 ・摂氏 -0.56度での破損確率と信用区間
プログラム例 plot(damage/6 ~ temp, orings_new_org, xlim=(c(25,85)-32)*5/9, ylim=c(0,1), xlab="Temperature(C)", ylab="Prob of damage", main="Fitted Curve by Logit Regression"); for( j in (Nsim-500):Nsim){ curve(ilogit(beta[j,1] + beta[j,2]*(x - mean_temp ) ), add=T, col=rgb(1,0,1, alpha=0.1)); } curve(ilogit(beta_mle[1] + beta_mle[2]*(x - mean_temp ) ), add=T, col="blue", lwd=3);
標準偏差 1, 0.2 でRW 青線: MLEでの推定値 ピンク(透過色): MCMC4000のうち最後の500サンプル
・気温が低い所 → データがないため曲線のばらつきが大きい ・気温が高い所 → データがあり、曲線のばらつきが小さい
曲線へのあてはめ
MLEでの推定値を太線; モンテカルロサンプルを透過色で重ねて書く
あてはめのよさの視覚化
視覚的にわかること
(a) 摂氏 度で打ち上げる場合
C
C
x
x
eeq
21
21
1)( ββ
ββ
β +
+
+=
(b) 事後分布を用いたベイズ推定値は以下の積分でかける
56.0−=CxOリングの破損確率 を を用いてかくと q Cx,, 21 ββ
∫= 2)|()()(ˆ
RdDqq ββπββ
(c) MCMCサンプル(*) を用いた (b) の近似値は
∑=
≈M
ttq
Mq
1)( )(1)(ˆ ββ
)()2()1( ,,, Mβββ
摂氏 -0.56度での予測(1/2)
*前半のサンプルを捨てて, 番号を付けなおしている.
プログラム例 (一部抜粋) L_NUM <- 100; INTERVAL <- seq(from=0, to=1, length.out=L_NUM); L <- array(0, L_NUM); for (j in 1:(L_NUM-1) ){ L[j] <- sum( ( INTERVAL[j] < p_sample ) & (p_sample <= INTERVAL[j+1]) )/length(p_sample) ; } # L の要素を大きい順に並べ替えて逐次足していく → ぎりぎり95%となる最大の番号(MAX_INTE)を見つける MAX_INTE <- sum( cumsum(sort(L, decreasing=TRUE)) < 0.95 ); # 大きい順に 番号(MAX_INTE) の値以上の確率をもつLの番号を調べる(連続した値) which( L >= sort(L, decreasing=TRUE)[MAX_INTE]); # 大きい順に 番号(MAX_INTE) の値以上の確率をもつ Lに対応する INTERVAL(左端の値)を調べる INTERVAL[ L >= sort(L, decreasing=TRUE)[MAX_INTE] ];
*ベイズ推定値は40000サンプル発生して後半20000 を利用.3ケタ目以降は安定しないので, 2ケタで表示
破損確率と95%信用区間
ベイズ*: 破損確率: 0.98, 95%信用区間= [0.93, 1.00]
摂氏 -0.56度での予測(2/2)
理解度チェック:線形モデルとロジット回帰
線形モデルでは、共役事前分布を用いて事後分布を計算できるが、
かなり煩雑な数式が出てくる
ロジット回帰モデルでベイズ分析を行うためには、MCMC法を用いる必要がある。
MCMC法によるモンテカルロサンプルを利用することで,
曲線へのあてはまりのよさを視覚的に(色の濃淡で)表現することも可能である.
MCMC法によるモンテカルロサンプルを利用することで,
回帰係数の推定値と信頼区間を構成できる.
4. 一般化線形モデルの ベイズ分析
ここでの目標
GLMのベイズ分析として, これまでの話を整理
一般化線形モデル
線形モデル
ポアソン回帰モデル (第三回)
ロジスティック回帰モデル
etc.
一般化線形モデル【再掲】
1.目的変数Yの分布
iiY µ=][E
一般化線形モデル (Generalized Linear Model; GLM)
リンク関数
∑=
=p
jijji xg
1)( βµ
)(µg
←指数型分布族*
2.X, Yを結び付ける関係式 (モデルの解釈や計算の都合で設定)
*指数型分布族: 正規分布, 二項分布、ポアソン分布などを含む広い確率分布のクラス
Nelder and Wedderburn (1972)
ただし,
)|(~ iii ypY µ
リンク関数の例
(1)
µµµ−
=1
log)(g
][E ii Y=µ
(← (絶対)連続確率変数の累積分布関数で狭義単調増加なら, 逆関数を利用可)
∞<<∞− iµ (実数全体)
を実数全体に1:1でうつすことがポイント
10 ≤≤ iµ
)(1 µ−Φ
ロジット関数
プロビット: 標準正規分布の累積分布関数の逆関数
(2) 0≥iµ
µµ log)( =g
(3)
µµ =)(g
GLMのベイズ分析
および他のパラメータに事前分布を導入 βベイズによる方法
ベイズ解析の流れ【復習】
∑=
=p
jijji xg
1)( βµ
Step. 1: 統計モデルの設定
Step. 2: 事前分布の設定
Step. 3: 事後分布の計算 (MCMCサンプリング)
Step. 4: 事後分布 (MCMCサンプル)を用いた分析
ここが目標
グループワークなどで評価
5. 3値以上のカウントデータ
本日のデータ
アンケート調査:車の購入で何を重視するか 性別: 男・女 年代: 18-23, 24-40, 41- 回答: 「エアコンとパワステ」をセットにして, あまり重視しない, 重視, とても重視 (3段階)
・パワーステアリング(Power Steering)の略; 自動車の運転でハンドルを切るのを楽にする機構 (普通の車にはついてる)
パワステ
* M. McFadden, J. Powers, W. Brown, and M. Walker: Vehicle and driver attributes affecting distance from the steering wheel in motor vehicles. Human Factors, 42 (2000), 676—682.
エアコン ・エアコンディショナー(Air Conditioner) の略; ここでは自動車に搭載されているエアコンのこと(普通の車にはついてる)
回答
性別 年齢層 重視 しない
重視 とても 重視
合計
女性 18-23 26 12 7 45 24-40 9 21 15 45 > 40 5 14 41 60
男性 18-23 40 17 8 65 24-40 17 15 12 44 > 40 8 15 18 41
全体 105 94 101 300
整理したデータ アンケート結果 (Dobson & Barnett (2008) 表8-1; オリジナルは文献(a) )
(a) M. McFadden, J. Powers, W. Brown, and M. Walker: Vehicle and driver attributes affecting distance from the steering wheel in motor vehicles. Human Factors, 42(2000), 676—682.
エアコンとパワステ (1/2)
freq <- array(0, c(6,3)); freq[,1] <- c(26,9,5,40,17,8); freq[,2] <- c(12,21,14,17,15,15); freq[,3] <- c(7,15,41,8,12,18); rel_freq <- freq/apply(freq, 1, sum); # 男女別にする rel_freq_f <- rel_freq[1:3,]; rel_freq_m <- rel_freq[4:6,]; # 女性のプロット (男性も同様) plot(rel_freq_f[,1], type="b", ylim=c(0, 0.8), main="Car Preferences of Woman", xlab="Age", ylab="Proportion", xaxt="n"); points(rel_freq_f[,2], type="b", lty=2, col=3); points(rel_freq_f[,3], type="b", lty=3, col=4); axis(side=1, at = 1:3, labels=c("18-23", "24-40", "Over40"));
実線: 重視しない 緑点線: 重視 青点線: とても重視
0.0
0.2
0.4
0.6
0.8
Car Preferences of Woman
Age
Pro
porti
on
18-23 24-40 Over40
エアコンとパワステ (2/2)
男女別に比較; 年齢が増えるとエアコンとパワステ重視の比率が増える傾向がみえる
実線: 重視しない 緑点線: 重視 青点線: とても重視
0.0
0.2
0.4
0.6
0.8
Car Preferences of Woman
Age
Pro
porti
on
18-23 24-40 Over40
0.0
0.2
0.4
0.6
0.8
Car Preferences of Man
Age
Pro
porti
on
18-23 24-40 Over40
左図:女性; 右図:男性
分析の課題
男女・年齢層による、エアコン・パワステ重視度の違いを定量的に検討せよ(どのようなモデルを用いればよいか?)
統計モデリングの課題
6. ロジスティック回帰 モデルの拡張
→ ロジット回帰, ポアソン回帰など
今回のデータの難しさ
例: Oリングデータ(Oリングの1つ1つが破損, 破損してない) 二択アンケート(YES/NO)
例: 三択アンケート (YES/NO / どちらともいえない) 3種類のラーメンの注文数 (みそ/しお/とんこつ) Amazonの点数評価 (1,2,3,4,5)
目的変数が2値のカウントデータ
目的変数が3値以上のカウントデータ
これまでのGLMの方法は使えない!
→
多項モデル【第二回】
ツボの中に k 色の小さいボールを大量に入れる (N個).
その比率は
多項モデル
意味:
kξξξ ,,, 21
121 =+++ kξξξ
m (<< N)個のボールを取り出す試行を考えるとき, 各色のボールの
個数を kXXX ,,, 21
とする.
),,;(~),,,( 121 kk mMXXX ξξ
),,;( 1 kmM ξξ
考えてみよう 次の三択アンケートは、多項分布でモデル化できる. 問
車をもっているO大学の学生のうち100人を無作為抽出して、
車の購入でパワステ・エアコンをどれくらい重視するか三択で答えてもらった.
1.とても重視, 2. 重視, 3. 重視しない
1は30人, 2は25人、3は45人だった。
多項分布の各記号は、何に対応していると考えられるか?
k
m
kξξξ ,,, 21
選択肢の数 ( 3 )
無作為抽出された学生の数 ( 100 )
O大学の学生全体での真の比率
多項分布を用いたモデル化
多項分布を用いたモデル
( ) ),,;(~~,~,~321321 iiiiiii mMYYY ξξξ
6,,2,1 =i
次に, 上の を説明変数と結びつける iξ
i 番目のグループのアンケート結果
調査対象の属性
性別:男・女 年代:18-23, 24-40, 41-
6種類の母集団と考える
説明変数とのリンク
・名目尺度(Nominal scale) ・順序尺度(Ordinal scale)
3値以上の場合のカウントデータの分類
名目尺度 (Nominal Scale)データ k種類の値に順序はなくラベルを張り替えられるようなデータ ※今回は三段階評価だが簡単のため名目尺度で扱う.
→ ロジット回帰の拡張で対処
k種類の値に自然な順序がつけられるデータ (成績評価など)
順序尺度 (Ordinal Scale)データ
→ 潜在変数モデルの導入(難)
名目尺度データの場合
各 i=1,2,...,n
∑=
=S
sissjij x
1)log( βφ
∑=
= k
jij
ijij
1φ
φξ
※今回は三段階評価だが簡単のため名目尺度で扱う.
説明変数と多項モデルパラメータとのリンク(一般の場合)
*他にも対数線形モデルなどがある (交互作用項をみる場合に使う)
kj ,,2,1 =
ijφ
11 ≡iφ
kj ,,2 =
Ssxis ,,2,1; = i 番目のグループの説明変数(年収、職業 etc.)
i 番目のグループが選択肢 j を選ぶ重みパラメータ (0以上)
(基準化)
参考:順序尺度データの場合
分類を表す添え字 i は省略
]),(( 1 jjj CCZP −∈=ξ
潜在変数モデル (Latent Variable Model)
潜在変数Zの分布, カットポイントと説明変数Xの対応付けはGLMとは大きく異なるため今回は触れない.(累積ロジットモデルなどがある)
← 観測できない連続変数Z (潜在変数)によって決まる;
+∞=−∞= − kk CCCC ,,,, 110
← k-1個のカットポイントがパラメータ
*実際には(5段階評価でも)連続データとみなして解析することが多い 【← 理論的には望ましいとは限らないが】
例: S, A, B, C, F ))5.49,(( −∞∈= ZPFξ)),105[( ∞∈= ZPSξ
カテゴリカル説明変数の扱い
・連続変数 ・順序つきカテゴリカル変数 ・順序なしカテゴリカル変数
一般の説明変数の分類
説明変数の例 (ダミー変数の使用例)
年代3通り → 2値変数を2つ用意 ( k通りの分類なら k-1個の2値変数)
=01
1ix
=01
2ix
男性
女性
24~40歳 41歳~
i 番目のグループの説明変数(共変量)は以下で設定 【今回の場合】
それ以外
=01
3ixそれ以外
Bayesian Nominal Logistic Regression
(参照基準)
3322110)log( ijijijjij xxx ββββφ +++=
∑=
= 3
1jij
ijij
φ
φξ
Nominal Logistic Regression の式
3,2=j
11 =iφ
11 ≡iφ エ・パ重視しない (j=1)
2iφ3iφ
エ・パ重視 (j=2) エ・パとても重視 (j=3)
重み
【本来はいろいろ試すべき】
3,2=j)10,0(~,,, 43210 Njjjj ββββ
事前分布 (平坦)
WinBUGSを利用した結果を紹介 (詳細は別資料)
オッズ比 推定値 (事後平均)
95%信用区間 (事後分布から計算)
0.70 (0.350,1.23) 3.32 (1.65,6.23) 5.35 (2.16,10.7)
0.457 (0.240,0.818) 4.90 (2.14,10.2) 21.6 (8.42,49.7)
分析結果 オッズ比の推定値と信用区間 (Dobson & Barnett (2008) 表14-4と似た結果)
32βe
22βe
12βe
33βe
23βe
13βe
分析結果について考察せよ. (結果は非ベイズでも同様になる.) たとえばエアコンとパワステを重視する度合いは、男女の違いと年齢の違い、どちらの影響が大きいだろうか.
理解度チェック:ロジット回帰の拡張 ネット通販の商品のレビュー(5点満点評価)を, 商品の属性(メーカーや色、性能)で説明したい. この場合, レビューの点数は順序尺度データとして扱うべきである.
4種類の職業グループを説明変数にする場合 のように等間隔にとるのが望ましい.
消費者モニターにレトルトカレー5種類のブランドから1つ選んでもらった. 消費者モニターの年代や嗜好(辛いのが好き etc.)など4つの説明変数を用いて分析する場合, 4項分布を用いる.
3,2,1,0=x
O大学では, 学部で統計の授業を受講することが重要かどうか, 理学研究科の大学院生にアンケートをとった. 対象専攻は, 生物, 化学, 物理の 3つである. この場合, 専攻に関する説明変数は2つ用いて, 例えば以下のように設定する.
=01
1x 生物 化学
それ以外
=01
2xそれ以外