【解答】固定効果分散分析1 -クロスオーバー試験の解析1-€¦ ·...
TRANSCRIPT
【解答】固定効果分散分析1-クロスオーバー試験の解析1-
H22年度 BioS継続勉強会:第3回
土居正明
【データセットの作成】
ではまず、データセットを作成します。最初に「問題1」の対応のある t検定用((i) のプロットは除く)のデータセット
です。なお、treat1:プラセボの検査値、treat2:実薬の検査値、とします。
data d1;
input patno treat1 treat2;
cards;
1 10 11
2 12 20
3 18 17
4 18 18
5 10 15
6 13 20
;
run;
です。次に、「問題 1」の (i) のプロットと、「問題2」「問題3」を全て扱うデータセットです。なお、treat = 1:プラセボ、
treat = 2:実薬です。
1
data d2;
input group patno period treat y;
label group = ’群’ patno = ’被験者番号’ period = ’時期’ ;
cards;
1 1 1 1 10
1 1 2 2 11
1 2 1 1 12
1 2 2 2 20
1 3 1 1 18
1 3 2 2 17
2 4 1 2 18
2 4 2 1 18
2 5 1 2 15
2 5 2 1 10
2 6 1 2 20
2 6 2 1 13
run;
です。
問題1:対応のある t検定
(i) プロットのプログラムは、
proc gplot data = d2;
plot y * period = patno;
by group;
run;
です(軸や symbolの設定等は略)。このとき、プロットは以下のようになります。
プラセボと実薬では、大体全員実薬の方が yが大きいようです。
2
(ii) 対応のある t検定の解析プログラムは以下の通りです。
proc ttest data = d1;
paired treat2 * treat1;
run;
これを実行すると、以下の出力が得られます。
3
paire
d-t:p
roc
ttest
TT
ES
Tプロシジャ
統計量
平均の
平均の
標準偏差の
標準偏差の
差N
信頼限界の下限
平均
信頼限界の上限
信頼限界の下限
標準偏差
信頼限界の上限
標準誤差
最小値
最大値
trea
t2-
trea
t16
-0.6
863.
3333
7.35
242.
3905
3.82
979.
3928
1.56
35-1
8
t検定
差自由度
t値
Pr
>|t|
trea
t2-
trea
t15
2.13
0.08
62
4
(iii) まずデータは
群 被験者番号 実薬投与後の値 プラセボ投与後の値 (実薬)−(プラセボ): difi
1 1 11 10 1
1 2 20 12 8
1 3 17 18 −1
2 4 18 18 0
2 5 15 10 5
2 6 20 13 7
となります。被験者番号 iの(実薬)−(プラセボ)のデータを difi とおき、
difi ∼ N(µ, σ2)
と仮定します(データは全て独立)。薬剤の効果をみる仮説は、両側で考えると
H0 : µ = 0H1 : µ 6= 0
となります。対応のある t検定とは、この差のデータに対して行う 1群の t検定のことです。
では、手計算を行いながら (ii) の結果と比較していきます。平均・分散の推定値はそれぞれ
µ =16(1 + 8 − 1 + 0 + 5 + 7) = 3.333
σ2 =15
{(1 − 3.333)2 + (8 − 3.333)2 + (−1 − 3.333)2 + (0 − 3.333)2 + (5 − 3.333)2 + (7 − 3.333)2
}= 14.667
となります。平均の推定値は、(ii) の平均の値に一致しています。次に、標準偏差の推定値は
σ =√
σ2 =√
14.667 = 3.8298
となり、(ii) の標準偏差の値にほぼ一致しています。では次に、平均の 95%信頼区間です。これは第1回「t検定・分散分
析とデザイン行列」の回でも見ました通り、[µ + t(5, 0.025) ·
√σ2
6, µ + t(5, 0.975) ·
√σ2
6
]=
[3.333 − 2.571 ·
√14.667
6, 3.333 + 2.571 ·
√14.667
6
]
= [−0.686, 7.353]
となりますので、表と大体一致しています。次に、平均の標準誤差ですが、
√V[µ] =
√σ2
6=
√14.667
6= 1.563
となり、これも表とほぼ一致しています。
では、以下検定に移ります。帰無仮説は H0 : µ = 0より、検定統計量 (t値)は
t =µ − 0√
bσ2
6
=3.333√14.667
6
= 2.132
5
となり、p値は SASのデータステップで
data pvalue;
p =2* (1 - cdf(’t’, 2.132, 5));
run;
としますと p = 0.0862となり、表と一致します。
問題2:薬剤と人を固定効果とした固定効果分散分析
(i) proc glmを用いた解析プログラムは以下の通りとなります。
proc glm data = d2;
class treat patano;
model y = treat patno/ ss3 solution p;
run;
解析結果は以下の通りです。
paierd-t : proc glm
GLM プロシジャ
従属変数: y
変動因 自由度 平方和 平均平方 F 値 Pr > F
Model 6 123.0000000 20.5000000 2.80 0.1396
Error 5 36.6666667 7.3333333
Corrected Total 11 159.6666667
変動因 自由度 Type III 平方和 平均平方 F 値 Pr > F
treat 1 33.33333333 33.33333333 4.55 0.0862
patno 5 89.66666667 17.93333333 2.45 0.1744
6
パラメータ 推定値 標準誤差 t 値 Pr > |t|
Intercept 18.16666667 B 2.06827894 8.78 0.0003
treat 1 -3.33333333 B 1.56347192 -2.13 0.0862
treat 2 0.00000000 B . . .
patno 1 -6.00000000 B 2.70801280 -2.22 0.0776
patno 2 -0.50000000 B 2.70801280 -0.18 0.8608
patno 3 1.00000000 B 2.70801280 0.37 0.7270
patno 4 1.50000000 B 2.70801280 0.55 0.6035
patno 5 -4.00000000 B 2.70801280 -1.48 0.1997
patno 6 0.00000000 B . . .
Note:X’X は特異行列です。正規方程式には、一般化逆行列が使用されています。文字 ’B’ が付けれられた推定値は、一
意的な推定値ではありません。
paierd-t : proc glm
GLM プロシジャ
オブザベーション 観測値 予測値 残差
1 10.00000000 8.83333333 1.16666667
2 11.00000000 12.16666667 -1.16666667
3 12.00000000 14.33333333 -2.33333333
4 20.00000000 17.66666667 2.33333333
5 18.00000000 15.83333333 2.16666667
6 17.00000000 19.16666667 -2.16666667
7 18.00000000 19.66666667 -1.66666667
8 18.00000000 16.33333333 1.66666667
9 15.00000000 14.16666667 0.83333333
10 10.00000000 10.83333333 -0.83333333
11 20.00000000 18.16666667 1.83333333
12 13.00000000 14.83333333 -1.83333333
(ii) 次に、統計モデルを考えます。薬剤の影響を di (i = 1 : プラセボ、i = 2 : 実薬)、個人の影響を pj (j = 1, 2, 3, 4, 5, 6)と
すると、
yij = µ + di + pj + εij (εij ∼ N(0, σ2)) (1)
7
となります。なお、データは全て独立とします。全員のデータを縦に並べると
y11 = µ + d1 + p1 + ε11
y21 = µ + d2 + p1 + ε21
y12 = µ + d1 + p2 + ε12
y22 = µ + d2 + p2 + ε22
y13 = µ + d1 + p3 + ε13
y23 = µ + d2 + p3 + ε23
y24 = µ + d2 + p4 + ε24
y14 = µ + d1 + p4 + ε14
y25 = µ + d2 + p5 + ε25
y15 = µ + d1 + p5 + ε15
y26 = µ + d2 + p6 + ε26
y16 = µ + d1 + p6 + ε16
(2)
となります。これをベクトル・行列を用いて表記します。まず、
y =
y11
y21
y12
y22
y13
y23
y24
y14
y25
y15
y26
y16
=
10
11
12
20
18
17
18
18
15
10
20
13
, X1 =
1 1 0 1 0 0 0 0 0
1 0 1 1 0 0 0 0 0
1 1 0 0 1 0 0 0 0
1 0 1 0 1 0 0 0 0
1 1 0 0 0 1 0 0 0
1 0 1 0 0 1 0 0 0
1 0 1 0 0 0 1 0 0
1 1 0 0 0 0 1 0 0
1 0 1 0 0 0 0 1 0
1 1 0 0 0 0 0 1 0
1 0 1 0 0 0 0 0 1
1 1 0 0 0 0 0 0 1
, β1 =
µ
d1
d2
p1
p2
p3
p4
p5
p6
, ε =
ε11
ε21
ε12
ε22
ε13
ε23
ε24
ε14
ε25
ε15
ε26
ε16
とおくと、
y = X1β1 + ε (ε ∼ N(0, σ2I12)) (3)
となります。ここで、SASは制約条件d2 = 0, p6 = 0を入れて考えます。このとき、(2)は
y11 = µ + d1 +p1 +ε11
y21 = µ +p1 +ε21
y12 = µ + d1 +p2 +ε12
y22 = µ +p2 +ε22
y13 = µ + d1 +p3 +ε13
y23 = µ +p3 +ε23
y24 = µ +p4 +ε24
y14 = µ + d1 +p4 +ε14
y25 = µ +p5 +ε25
y15 = µ + d1 +p5 +ε15
y26 = µ +ε26
y16 = µ + d1 +ε16
(4)
8
となり、
X11 =
1 1 1 0 0 0 0
1 0 1 0 0 0 0
1 1 0 1 0 0 0
1 0 0 1 0 0 0
1 1 0 0 1 0 0
1 0 0 0 1 0 0
1 0 0 0 0 1 0
1 1 0 0 0 1 0
1 0 0 0 0 0 1
1 1 0 0 0 0 1
1 0 0 0 0 0 0
1 1 0 0 0 0 0
, β11 =
µ
d1
p1
p2
p3
p4
p5
とおくと、(3)は
y + X11β11 + ε (ε ∼ N(0, σI12)) (5)
と書き直せます。
(iii) さて、これで準備が整いましたので、SASの出力を手計算で求めることとします。ただし、計算を自然に行う順番で見
ていきます。ですので、以後の解説は、SASのアウトプットの順番とは異なりますのでご注意ください。まずは、推定値か
らです。
パラメータ β11 の最小二乗推定値は
β11 = (X′11X11)−1X′
11y (6)
で得られます。これを少しずつ計算すると
X′11X11 =
1 1 1 1 1 1 1 1 1 1 1 1
1 0 1 0 1 0 0 1 0 1 0 1
1 1 0 0 0 0 0 0 0 0 0 0
0 0 1 1 0 0 0 0 0 0 0 0
0 0 0 0 1 1 0 0 0 0 0 0
0 0 0 0 0 0 1 1 0 0 0 0
0 0 0 0 0 0 0 0 1 1 0 0
1 1 1 0 0 0 0
1 0 1 0 0 0 0
1 1 0 1 0 0 0
1 0 0 1 0 0 0
1 1 0 0 1 0 0
1 0 0 0 1 0 0
1 0 0 0 0 1 0
1 1 0 0 0 1 0
1 0 0 0 0 0 1
1 1 0 0 0 0 1
1 0 0 0 0 0 0
1 1 0 0 0 0 0
=
12 6 2 2 2 2 2
6 6 1 1 1 1 1
2 1 2 0 0 0 0
2 1 0 2 0 0 0
2 1 0 0 2 0 0
2 1 0 0 0 2 0
2 1 0 0 0 0 2
9
となります。この逆行列を求めると、
(X′11X11)−1 =
12 6 2 2 2 2 2
6 6 1 1 1 1 1
2 1 2 0 0 0 0
2 1 0 2 0 0 0
2 1 0 0 2 0 0
2 1 0 0 0 2 0
2 1 0 0 0 0 2
−1
=
712 − 1
6 −12 −1
2 − 12 −1
2 −12
−16
13 0 0 0 0 0
−12 0 1 1
212
12
12
−12 0 1
2 1 12
12
12
−12 0 1
212 1 1
212
−12 0 1
212
12 1 1
2
−12 0 1
212
12
12 1
です。また、
X′11y =
1 1 1 1 1 1 1 1 1 1 1 1
1 0 1 0 1 0 0 1 0 1 0 1
1 1 0 0 0 0 0 0 0 0 0 0
0 0 1 1 0 0 0 0 0 0 0 0
0 0 0 0 1 1 0 0 0 0 0 0
0 0 0 0 0 0 1 1 0 0 0 0
0 0 0 0 0 0 0 0 1 1 0 0
10
11
12
20
18
17
18
18
15
10
20
13
=
10 + 11 + 12 + 20 + 18 + 17 + 18 + 18 + 15 + 10 + 20 + 13
10 + 12 + 18 + 18 + 10 + 13
10 + 11
12 + 20
18 + 17
18 + 18
15 + 10
=
182
81
21
32
35
36
25
10
となります。以上より (6)は、
β11 = (X′11X11)−1X′
11y
=
712 − 1
6 −12 −1
2 − 12 −1
2 − 12
−16
13 0 0 0 0 0
−12 0 1 1
212
12
12
−12 0 1
2 1 12
12
12
−12 0 1
212 1 1
212
−12 0 1
212
12 1 1
2
−12 0 1
212
12
12 1
182
81
21
32
35
36
25
=
712 · 182 − 1
6 · 81 − 12 · 21 − 1
2 · 32 − 12 · 35 − 1
2 · 36 − 12 · 25
− 16 · 182 + 1
3 · 81
−12 · 182 + 1 · 21 + 1
2 · 32 + 12 · 35 + 1
2 · 36 + 12 · 25
−12 · 182 + 1
2 · 21 + 1 · 32 + 12 · 35 + 1
2 · 36 + 12 · 25
−12 · 182 + 1
2 · 21 + 12 · 32 + 1 · 35 + 1
2 · 36 + 12 · 25
−12 · 182 + 1
2 · 21 + 12 · 32 + 1
2 · 35 + 1 · 36 + 12 · 25
−12 · 182 + 1
2 · 21 + 12 · 32 + 1
2 · 35 + 12 · 36 + 1 · 25
=
18.1667
−3.3333
−6
−0.5
1
1.5
−4
となります。これより、β11 の各成分と見比べると、
µ = 18.1667
d1 = −3.3333p1 = −6, p2 = −0.5, p3 = 1, p4 = 1.5, p5 = −4
となります。制約条件より、d2 = 0, p5 = 0より、全パラメータの最小二乗推定値は
µ = 18.1667 ← Intercept
d1 = −3.3333 ← treat1
d2 = 0 ← treat2
p1 = −6 ← patno1
p2 = −0.5 ← patno2
p3 = 1 ← patno3
p4 = 1.5 ← patno4
p5 = −4 ← patno5
p6 = 0 ← patno6
となり、それぞれ SASの出力と一致しています。また、これは β1 の各成分となります。
では次に、この推定値から予測値・残差を計算していきます。このモデルにおける予測値を y1 とおくと、
y1 = X1β1
11
=
1 1 0 1 0 0 0 0 0
1 0 1 1 0 0 0 0 0
1 1 0 0 1 0 0 0 0
1 0 1 0 1 0 0 0 0
1 1 0 0 0 1 0 0 0
1 0 1 0 0 1 0 0 0
1 0 1 0 0 0 1 0 0
1 1 0 0 0 0 1 0 0
1 0 1 0 0 0 0 1 0
1 1 0 0 0 0 0 1 0
1 0 1 0 0 0 0 0 1
1 1 0 0 0 0 0 0 1
µ
d1
d2
p1
p2
p3
p4
p5
p6
=
1 1 0 1 0 0 0 0 0
1 0 1 1 0 0 0 0 0
1 1 0 0 1 0 0 0 0
1 0 1 0 1 0 0 0 0
1 1 0 0 0 1 0 0 0
1 0 1 0 0 1 0 0 0
1 0 1 0 0 0 1 0 0
1 1 0 0 0 0 1 0 0
1 0 1 0 0 0 0 1 0
1 1 0 0 0 0 0 1 0
1 0 1 0 0 0 0 0 1
1 1 0 0 0 0 0 0 1
18.1667
−3.3333
0
−6
−0.5
1
1.5
−4
0
=
18.1667 − 3.3333 − 6
18.1667 + 0 − 6
18.1667 − 3.3333 − 0.5
18.1667 + 0 − 0.5
18.1667 − 3.3333 + 1
18.1667 + 0 + 1
18.1667 + 0 + 1.5
18.1667 − 3.3333 + 1.5
18.1667 + 0 − 4
18.1667 − 3.3333 − 4
18.1667 + 0 + 0
18.1667 − 3.3333 + 0
12
=
8.8334
12.1667
14.3334
17.6667
15.8334
19.1667
19.6667
16.3334
14.1667
10.8334
18.1667
14.8334
となります。これは表の値とほぼ一致しています。次に、このモデルにおける残差を e1 とおきますと、
e1 = y − y1 =
10
11
12
20
18
17
18
18
15
10
20
13
−
8.8334
12.1667
14.3334
17.6667
15.8334
19.1667
19.6667
16.3334
14.1667
10.8334
18.1667
14.8334
=
1, 16666
−1.1667
−2.3334
2.3333
2.1666
−2.1667
−1.6667
1.6666
0.8333
−0.8334
1.8333
−1.8334
となります。これも、表とほぼ一致しています。
(iv) では次に、分散分析表を求めます。そのためには、帰無仮説のもとでのモデルが必要となります。分散分析表における
帰無仮説・対立仮説は
H0 : d1 = d2 かつ p1 = p2 = p3 = p4 = p5 = p6(薬剤の影響も個人の影響も全くない)
H1 : それ以外
です。これより、帰無仮説のもとでのモデルを考えます。このモデルは、(1)から di と pj を除いたものであり、
yij = µ + εij
13
となります。全データを並べると、
y11 = µ + ε11
y21 = µ + ε21
y12 = µ + ε12
y22 = µ + ε22
y13 = µ + ε13
y23 = µ + ε33
y24 = µ + ε24
y14 = µ + ε14
y25 = µ + ε25
y15 = µ + ε15
y26 = µ + ε26
y16 = µ + ε16
となります。ベクトル・行列表記しますと、
y = µ112 + ε (ε ∼ N(0, σ2I12))
となります。これより、このモデルでの µの最小二乗推定値 µ0 は、
µ0 = (1′12112)−11′
12y (7)
となります。ここで、
1′12112 =
(1 1 1 1 1 1 1 1 1 1 1 1
)
1
1
1
1
1
1
1
1
1
1
1
1
= 12
より、(1′12112)−1 = 1
12 であり、
1′12y =
(1 1 1 1 1 1 1 1 1 1 1 1
)
10
11
12
20
18
17
18
18
15
10
20
13
14
= 10 + 11 + 12 + 20 + 18 + 17 + 18 + 18 + 15 + 10 + 20 + 13 = 182
となりますので、(7)は
µ0 = (1′12112)−11′
12y =112
· 182 = 15.1667
となります。これより、このモデルにおける予測値・残差 y10, e10 は
y10 = µ0112 =
15.1667
15.1667
15.1667
15.1667
15.1667
15.1667
15.1667
15.1667
15.1667
15.1667
15.1667
15.1667
(8)
e10 = y − y10 =
10
11
12
20
18
17
18
18
15
10
20
13
−
15.1667
15.1667
15.1667
15.1667
15.1667
15.1667
15.1667
15.1667
15.1667
15.1667
15.1667
15.1667
=
−5.1667
−4.1667
−3.1667
4.8333
2.8333
1.8333
2.8333
1.8333
−0.1667
−5.1667
4.8333
−2.1333
(9)
となります。以上より、線形モデルの一般論から
‖y − y10‖2︸ ︷︷ ︸Corrected Total
= ‖y − y1‖2︸ ︷︷ ︸Error
+ ‖y1 − y10‖2︸ ︷︷ ︸Model
となります*1。
そして、データの数・制約条件を入れたあとのパラメータ数は
y : データ 12個 → 12y10 : パラメータµのみ → 1y1 : 制約条件を入れた後のパラメータµ, d1, p1, · · · , p5 → 7
*1 意味は、「Corrected Total:H0 のモデルで説明できない部分」「Error:H1 のモデルで説明できない部分」「Model:H0 のモデルとH1 のモデルの説明能力の差」です。また、残差で書き直すと、
‖e10‖2 = ‖e1‖2 + ‖by1 − by0‖2
となります。
15
より、自由度は
(CorrectedTotal) ‖y − y10‖2 : 12 − 1 = 11(Error) ‖y − y1‖2 : 12 − 7 = 5(Model) ‖y1 − y10‖2 : 7 − 1 = 6
となります。数値を求めていきますと、各平方和は
(CorrectedTotal) ‖y − y10‖2 = ‖e10‖2
= (−5.1667)2 + (−4.1667)2 + (−3.1667) + 4.83332 + 2.83332 + 1.83332
+2.83332 + 2.83332 + (−0.1667)2 + (−5.1667)2 + 4.83332 + (−2.1333)2
= 159.5230
(Error) ‖y − y1‖2 = ‖e1‖2
= 1.16662 + (−1.1667)2 + (−2.3334) + 2.33332 + 2.16662 + (−2.1667)2
+(−1.6667)2 + 1.66662 + 0.83332 + (−0.8334)2 + 1.83332 + (−1.8334)2
= 36.6667
(Model) ‖y1 − y10‖2 =
∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥
8.8334
12.1667
14.3334
17.6667
15.8334
19.1667
19.6667
16.3334
14.1667
10.8334
18.1667
14.8334
−
15.1667
15.1667
15.1667
15.1667
15.1667
15.1667
15.1667
15.1667
15.1667
15.1667
15.1667
15.1667
∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥
2
=
∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥
−6.3333
−3
−0.8333
2.5
0.6667
4
4.5
1.1333
−1
−4.333
3
−0.3333
∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥
2
= (−6.3333)2 + (−3)2 + (−0.8333)2 + 2.52 + 0.66672 + 42
+4.52 + 1.13332 + (−1)2 + (−4.333)2 + 32 + (−0.3333)2
= 122.9199
となり、表とほぼ一致します。
次に、平均平方です。自由度で平方和を割ってやればよいですので、
(Error)15‖y − y1‖2 =
15· 36.6667 = 7.3334
(Model)16‖y1 − y10‖2 =
16· 122.9199 = 20.4867
となり、表の値とほぼ一致しています。では次に F 値です。平均平方の比をとってやれば
F =Modelの平均平方Errorの平均平方
=20.48677.3334
= 2.7936
となります。なお、分母の Error の平均平方には分散 σ2 の不偏推定値という意味もあります。つまり、
σ21 =
1Errorの自由度
‖e‖2 =15· 36.6667 = 7.3334 (10)
16
となります*2。これは、薬剤の影響の有無をみる検定をする際にも用います*3。
最後に p値です。分子の自由度が 6、分母の自由度が 5ですので、データステップで
data pvalue;
p = 1 - cdf(’F’, 2.7936, 6, 5);
run;
としてやりますと、p = 0.1397が得られ、表の値と大体一致しています。
(v)次に薬剤の影響を見る検定です。仮説は
H0d : d1 = d2
H1d : d1 6= d2
となります。以下、帰無仮説 H0d のもとでの統計モデルを考えていきましょう。モデルは (1)から di を除いた
yij = µ + pj + εij (εij ∼ N(0, σ2))
となります。データを全て並べますと、
y11 = µ + p1 + ε11
y21 = µ + p1 + ε21
y12 = µ + p2 + ε12
y22 = µ + p2 + ε22
y13 = µ + p3 + ε13
y23 = µ + p3 + ε23
y14 = µ + p4 + ε14
y24 = µ + p4 + ε24
y15 = µ + p5 + ε15
y25 = µ + p5 + ε25
y16 = µ + p6 + ε16
y26 = µ + p6 + ε26
*2bσ21 の下の添え字 1は、「問題2」(1つ目)のものという意味です。「問題3」でも別のモデルで同様に分散 σ2 の推定値を考え、それは bσ2
2 と書きます。
*3
F =15‖by1 − by10‖2
bσ21
という表現で理解しておくと、薬剤の影響を検討する際に便利です。
17
となります。ベクトル・行列表記を考えます。まず
X1d =
1 1 0 0 0 0 0
1 1 0 0 0 0 0
1 0 1 0 0 0 0
1 0 1 0 0 0 0
1 0 0 1 0 0 0
1 0 0 1 0 0 0
1 0 0 0 1 0 0
1 0 0 0 1 0 0
1 0 0 0 0 1 0
1 0 0 0 0 1 0
1 0 0 0 0 0 1
1 0 0 0 0 0 1
, β1d =
µ
p1
p2
p3
p4
p5
p6
とおきますと、
y = X1dβ1d + ε (ε ∼ N(0, σ2I12)) (11)
と書けます。ここで、SASは制約条件p6 = 0を入れます。このとき、
X1d1 =
1 1 0 0 0 0
1 1 0 0 0 0
1 0 1 0 0 0
1 0 1 0 0 0
1 0 0 1 0 0
1 0 0 1 0 0
1 0 0 0 1 0
1 0 0 0 1 0
1 0 0 0 0 1
1 0 0 0 0 1
1 0 0 0 0 0
1 0 0 0 0 0
, β1d1 =
µ
p1
p2
p3
p4
p5
とおきますと、(11)は
y = X1d1β1d1 + ε (ε ∼ N(0, σ2I12))
と書けます。これを用いて、β1d1 の最小二乗推定値を計算していきます。
β1d1 = (X′1d1X1d1)−1X′
1d1y (12)
18
となりますので、少しずつ計算していきます。まず、
X′1d1X1d1 =
1 1 1 1 1 1 1 1 1 1 1 1
1 1 0 0 0 0 0 0 0 0 0 0
0 0 1 1 0 0 0 0 0 0 0 0
0 0 0 0 1 1 0 0 0 0 0 0
0 0 0 0 0 0 1 1 0 0 0 0
0 0 0 0 0 0 0 0 1 1 0 0
1 1 0 0 0 0
1 1 0 0 0 0
1 0 1 0 0 0
1 0 1 0 0 0
1 0 0 1 0 0
1 0 0 1 0 0
1 0 0 0 1 0
1 0 0 0 1 0
1 0 0 0 0 1
1 0 0 0 0 1
1 0 0 0 0 0
1 0 0 0 0 0
=
12 2 2 2 2 2
2 2 0 0 0 0
2 0 2 0 0 0
2 0 0 2 0 0
2 0 0 0 2 0
2 0 0 0 0 2
です。これより、
(X′1d1X1d1)−1 =
12 2 2 2 2 2
2 2 0 0 0 0
2 0 2 0 0 0
2 0 0 2 0 0
2 0 0 0 2 0
2 0 0 0 0 2
−1
=
12 −1
2 −12 − 1
2 −12 −1
2
− 12 1 1
212
12
12
− 12
12 1 1
212
12
− 12
12
12 1 1
212
− 12
12
12
12 1 1
2
− 12
12
12
12
12 1
19
となります。次に、
X′1d1y =
1 1 1 1 1 1 1 1 1 1 1 1
1 1 0 0 0 0 0 0 0 0 0 0
0 0 1 1 0 0 0 0 0 0 0 0
0 0 0 0 1 1 0 0 0 0 0 0
0 0 0 0 0 0 1 1 0 0 0 0
0 0 0 0 0 0 0 0 1 1 0 0
10
11
12
20
18
17
18
18
15
10
20
13
=
10 + 11 + 12 + 20 + 18 + 17 + 18 + 18 + 15 + 10 + 20 + 13
10 + 11
12 + 20
18 + 17
18 + 18
15 + 10
=
182
21
32
35
36
25
です。これより、(12)は
β1d1 = (X′1d1X1d1)−1X′
1d1y
=
12 −1
2 −12 − 1
2 −12 − 1
2
− 12 1 1
212
12
12
− 12
12 1 1
212
12
− 12
12
12 1 1
212
− 12
12
12
12 1 1
2
− 12
12
12
12
12 1
182
21
32
35
36
25
=
12 · 182 − 1
2 · 21 − 12 · 32 − 1
2 · 35 − 12 · 36 − 1
2 · 25
− 12 · 182 + 1 · 21 + 1
2 · 32 + 12 · 35 + 1
2 · 36 + 12 · 25
− 12 · 182 + 1
2 · 21 + 1 · 32 + 12 · 35 + 1
2 · 36 + 12 · 25
− 12 · 182 + 1
2 · 21 + 12 · 32 + 1 · 35 + 1
2 · 36 + 12 · 25
− 12 · 182 + 1
2 · 21 + 12 · 32 + 1
2 · 35 + 1 · 36 + 12 · 25
− 12 · 182 + 1
2 · 21 + 12 · 32 + 1
2 · 35 + 12 · 36 + 1 · 25
20
=
16.5
−6
−0.5
1
1.5
−4
となります。ここで、
β1d1 =
µ
p1
p2
p3
p4
p5
であり、制約条件から p6 = 0となりますので、
µ = 16.5
p1 = −6
p2 = −0.5
p3 = 1
p4 = 1.5
p5 = −4
p6 = 0
となります。これが β1d の各成分となります。
これより、このモデルに基づく予測値 y1d は
y1d = X1dβ1d
=
1 1 0 0 0 0 0
1 1 0 0 0 0 0
1 0 1 0 0 0 0
1 0 1 0 0 0 0
1 0 0 1 0 0 0
1 0 0 1 0 0 0
1 0 0 0 1 0 0
1 0 0 0 1 0 0
1 0 0 0 0 1 0
1 0 0 0 0 1 0
1 0 0 0 0 0 1
1 0 0 0 0 0 1
16.5
−6
−0.5
1
1.5
−4
0
21
=
16.5 − 6
16.5 − 6
16.5 − 0.5
16.5 − 0.5
16.5 + 1
16.5 + 1
16.5 + 1.5
16.5 + 1.5
16.5 − 4
16.5 − 4
16.5 + 0
16.5 + 0
=
10.5
10.5
16
16
17.5
17.5
18
18
12.5
12.5
16.5
16.5
となります*4。TypeIIIの平方和の treatの部分は、要は「薬剤を入れないモデルH0d」と「入れるモデルH1d(H1 と一致)」
で、説明能力がどのくらい違うか、を見ています。そこで、この 2つのモデルの予測値 y1 と y1d の差を考えてやります。
*4 なお、このモデルでのパラメータの最小二乗推定値や予測値を SASで出力したい場合、プログラムは
proc glm data = d2; class patno; model y = patno / solution ss3 p;run;
となります。
22
具体的には、
‖y1 − y1d‖2 =
∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥
8.8334
12.1667
14.3334
17.6667
15.8334
19.1667
19.6667
16.3334
14.1667
10.8334
18.1667
14.8334
−
10.5
10.5
16
16
17.5
17.5
18
18
12.5
12.5
16.5
16.5
∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥
=
∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥
−1.6666
1.6667
−1.6666
1.6667
−1.6666
1.6667
−1.6666
1.6667
−1.6666
1.6667
−1.6666
1.6667
∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥
2
= (−1.6666)2 + (1.6667)2 + (−1.6666)2 + (1.6667)2 + (−1.6666)2 + (1.6667)2
+(−1.6666)2 + (1.6667)2 + (−1.6666)2 + (1.6667)2 + (−1.6666)2 + (1.6667)2
= 33.3327
となり、表の数値と大体一致しています。なお、パラメータ数は
y1 :制約条件を入れた後のパラメータ µ, d1, p1, · · · , p5 → 7y1d :制約条件を入れた後のパラメータ µ, p1, ·, p5 → 6
より、自由度は
‖y1 − y1d‖2 : 7 − 6 = 1
です。これより、平均平方は
11· ‖y1 − y1d‖2 = 33.3327
となります。F 統計量は、この平均平方を、上で求めました分散の推定値 σ21(全体の分散分析表の Error の平均平方)で
割ってやって
F =11 · ‖y1 − y1d‖2
σ21
=33.33277.3334
= 4.55
となります。p値は、分母の σ21 の自由度が 5であることを考慮して、
data pvalue;
p = 1 - cdf(’F’, 4.55, 1, 5);
run;
とおきますと、p = 0.8601が得られます。これは TypeIIIの表の Treatの部分の p値と大体一致しています。
(vi) では、(v)の結果と「問題1」の結果を比較していきます。まず最初に p値ですが、直前に求めました薬剤の影響を見
る検定の p値は 0.8601(表では 0.8602)でした。これは、「問題1」の対応のある t検定の p値と一致しています。
また、この際の対応のある t検定の t値と、TypeIIIの treatの部分の F 値の関係ですが、
(t値)2 = 2.1322 = 4.55 = (F 値)
23
という関係が成り立っています。
次に、分散の推定値について見ていきます。対応のある t検定では、標準偏差(の推定値)は 1.5635でしたので、
(対応のある t検定のモデルの分散の推定値) = 1.53652 = 14.6666
となります。一方、分散分析のモデルでの分散の推定値は (10)より、
σ21 =
1Errorの自由度
‖e‖ =15· 36.6667 = 7.3334
となりました。これより、対応のある t検定の分散は、分散分析モデルの分散の 2倍になっていることが分かります。詳し
い説明は補助資料2「対応のある t検定について」に回しますが、要は被験者番号 j の人の実薬・プラセボのデータ y1j , y2j
が独立で、分散がそれぞれ σ2 になりますので、difj = y1j − y2j の分散は
V [difj ] = V [y1j ] + V [y2j ] = σ2 + σ2 = 2σ2
となるのです。
最後に、薬剤の影響です。対応のある t検定の表での群間差の平均 3.3333は、「Treat2−Treat1」でした。一方、分散分
析の計算結果より、投与群の推定値は
・treat1: −3.3333
・treat2: 0
となっています。これより、「treat2− treat1=3.3333」となり、一致しています。
問題3
(i) 解析プログラムは
proc glm data = d2;
class treat patno period;
model y = treat patno period / solution p ss3;
run;
となり、出力は以下の通りです。
patno(fixed) + period
GLM プロシジャ
従属変数: y
変動因 自由度 平方和 平均平方 F 値 Pr > F
Model 7 124.3333333 17.7619048 2.01 0.2606
Error 4 35.3333333 8.8333333
Corrected Total 11 159.6666667
24
変動因 自由度 Type III 平方和 平均平方 F 値 Pr > F
treat 1 33.33333333 33.33333333 3.77 0.1240
patno 5 89.66666667 17.93333333 2.03 0.2562
period 1 1.33333333 1.33333333 0.15 0.7174
パラメータ 推定値 標準誤差 t 値 Pr > |t|
Intercept 17.83333333 B 2.42670330 7.35 0.0018
treat 1 -3.33333333 B 1.71593836 -1.94 0.1240
treat 2 0.00000000 B . . .
patno 1 -6.00000000 B 2.97209242 -2.02 0.1137
patno 2 -0.50000000 B 2.97209242 -0.17 0.8746
patno 3 1.00000000 B 2.97209242 0.34 0.7534
patno 4 1.50000000 B 2.97209242 0.50 0.6403
patno 5 -4.00000000 B 2.97209242 -1.35 0.2496
patno 6 0.00000000 B . . .
period 1 0.66666667 B 1.71593836 0.39 0.7174
period 2 0.00000000 B . . .
Note:X’X は特異行列です。正規方程式には、一般化逆行列が使用されています。文字 ’B’ が付けれられた推定値は、一意
的な推定値ではありません。
25
patno(fixed) + period
GLM プロシジャ
オブザベーション 観測値 予測値 残差
1 10.00000000 9.16666667 0.83333333
2 11.00000000 11.83333333 -0.83333333
3 12.00000000 14.66666667 -2.66666667
4 20.00000000 17.33333333 2.66666667
5 18.00000000 16.16666667 1.83333333
6 17.00000000 18.83333333 -1.83333333
7 18.00000000 20.00000000 -2.00000000
8 18.00000000 16.00000000 2.00000000
9 15.00000000 14.50000000 0.50000000
10 10.00000000 10.50000000 -0.50000000
11 20.00000000 18.50000000 1.50000000
12 13.00000000 14.50000000 -1.50000000
(ii) では次に、統計モデルを考えます。薬剤 di (i = 1 : プラセボ群、i = 2 : 実薬群)、個人の効果 pj (j = 1, 2, 3, 4, 5, 6)、時
期の効果を tk (k = 1, 2)とすると、
yijk = µ + di + pj + tk + εijk (εij ∼ N(0, σ2)) (13)
となります。なお、データは全て独立とします。全員のデータを縦に並べると
y111 = µ + d1 + p1 + t1 + ε111
y212 = µ + d2 + p1 + t2 + ε212
y121 = µ + d1 + p2 + t1 + ε121
y222 = µ + d2 + p2 + t2 + ε222
y131 = µ + d1 + p3 + t1 + ε131
y232 = µ + d2 + p3 + t2 + ε232
y241 = µ + d2 + p4 + t1 + ε241
y142 = µ + d1 + p4 + t2 + ε142
y251 = µ + d2 + p5 + t1 + ε251
y152 = µ + d1 + p5 + t2 + ε152
y261 = µ + d2 + p6 + t1 + ε261
y162 = µ + d1 + p6 + t2 + ε162
(14)
26
です。ここで、
y =
y111
y212
y121
y222
y131
y232
y241
y142
y251
y152
y261
y162
=
10
11
12
20
18
17
18
18
15
10
20
13
, X2 =
1 1 0 1 0 0 0 0 0 1 0
1 0 1 1 0 0 0 0 0 0 1
1 1 0 0 1 0 0 0 0 1 0
1 0 1 0 1 0 0 0 0 0 1
1 1 0 0 0 1 0 0 0 1 0
1 0 1 0 0 1 0 0 0 0 1
1 0 1 0 0 0 1 0 0 1 0
1 1 0 0 0 0 1 0 0 0 1
1 0 1 0 0 0 0 1 0 1 0
1 1 0 0 0 0 0 1 0 0 1
1 0 1 0 0 0 0 0 1 1 0
1 1 0 0 0 0 0 0 1 0 1
, β2 =
µ
d1
d2
p1
p2
p3
p4
p5
p6
t1
t2
, ε =
ε111
ε212
ε121
ε222
ε131
ε232
ε241
ε142
ε251
ε152
ε261
ε162
とおくと、
y = X2β2 + ε (ε ∼ N(0, σ2I12)) (15)
となります。
ここで、SASは制約条件d2 = 0, p6 = 0, t2 = 0を入れますので、
y111 = µ +d1 +p1 +t1 +ε111
y212 = µ +p1 +ε212
y121 = µ +d1 +p2 +t1 +ε121
y222 = µ +p2 +ε222
y131 = µ +d1 +p3 +t1 +ε131
y232 = µ +p3 +ε232
y241 = µ +p4 +t1 +ε241
y142 = µ +d1 +p4 +ε142
y251 = µ +p5 +t1 +ε251
y152 = µ +d1 +p5 +ε152
y261 = µ +t1 +ε261
y162 = µ +d1 +ε162
(16)
となります。このとき、
X21 =
1 1 1 0 0 0 0 1
1 0 1 0 0 0 0 0
1 1 0 1 0 0 0 1
1 0 0 1 0 0 0 0
1 1 0 0 1 0 0 1
1 0 0 0 1 0 0 0
1 0 0 0 0 1 0 1
1 1 0 0 0 1 0 0
1 0 0 0 0 0 1 1
1 1 0 0 0 0 1 0
1 0 0 0 0 0 0 1
1 1 0 0 0 0 0 0
, β21 =
µ
d1
p1
p2
p3
p4
p5
t1
27
とおくと、(15)は
y = X21β21 + ε (ε ∼ N(0, σ2I12))
となります。
(iii) ここで、β21 の最小二乗推定値は
β21 = (X′21X21)−1X′
21y (17)
となります。これを少しずつ計算していきます。
X′21X21 =
1 1 1 1 1 1 1 1 1 1 1 1
1 0 1 0 1 0 0 1 0 1 0 1
1 1 0 0 0 0 0 0 0 0 0 0
0 0 1 1 0 0 0 0 0 0 0 0
0 0 0 0 1 1 0 0 0 0 0 0
0 0 0 0 0 0 1 1 0 0 0 0
0 0 0 0 0 0 0 0 1 1 0 0
1 0 1 0 1 0 1 0 1 0 1 0
1 1 1 0 0 0 0 1
1 0 1 0 0 0 0 0
1 1 0 1 0 0 0 1
1 0 0 1 0 0 0 0
1 1 0 0 1 0 0 1
1 0 0 0 1 0 0 0
1 0 0 0 0 1 0 1
1 1 0 0 0 1 0 0
1 0 0 0 0 0 1 1
1 1 0 0 0 0 1 0
1 0 0 0 0 0 0 1
1 1 0 0 0 0 0 0
=
12 6 2 2 2 2 2 6
6 6 1 1 1 1 1 3
2 1 2 0 0 0 0 1
2 1 0 2 0 0 0 1
2 1 0 0 2 0 0 1
2 1 0 0 0 2 0 1
2 1 0 0 0 0 2 1
6 3 1 1 1 1 1 6
より、
(X′21X21)−1 =
12 6 2 2 2 2 2 6
6 6 1 1 1 1 1 3
2 1 2 0 0 0 0 1
2 1 0 2 0 0 0 1
2 1 0 0 2 0 0 1
2 1 0 0 0 2 0 1
2 1 0 0 0 0 2 1
6 3 1 1 1 1 1 6
−1
28
=
23 − 1
6 −12 − 1
2 −12 −1
2 − 12 −1
6
− 16
13 0 0 0 0 0 0
− 12 0 1 1
212
12
12 0
− 12 0 1
2 1 12
12
12 0
− 12 0 1
212 1 1
212 0
− 12 0 1
212
12 1 1
2 0
− 12 0 1
212
12
12 1 0
− 16 0 0 0 0 0 0 1
3
です。また、
X′21y =
1 1 1 1 1 1 1 1 1 1 1 1
1 0 1 0 1 0 0 1 0 1 0 1
1 1 0 0 0 0 0 0 0 0 0 0
0 0 1 1 0 0 0 0 0 0 0 0
0 0 0 0 1 1 0 0 0 0 0 0
0 0 0 0 0 0 1 1 0 0 0 0
0 0 0 0 0 0 0 0 1 1 0 0
1 0 1 0 1 0 1 0 1 0 1 0
10
11
12
20
18
17
18
18
15
10
20
13
=
10 + 11 + 12 + 20 + 18 + 17 + 18 + 18 + 15 + 10 + 20 + 13
10 + 12 + 18 + 18 + 10 + 13
10 + 11
12 + 20
18 + 17
18 + 18
15 + 10
10 + 12 + 18 + 18 + 15 + 20
=
182
81
21
32
35
36
25
93
となります。これより、β21 の最小二乗推定値 (17)は
β21 = (X′21X21)−1X′
21y
29
=
23 −1
6 − 12 −1
2 − 12 − 1
2 −12 − 1
6
−16
13 0 0 0 0 0 0
−12 0 1 1
212
12
12 0
−12 0 1
2 1 12
12
12 0
−12 0 1
212 1 1
212 0
−12 0 1
212
12 1 1
2 0
−12 0 1
212
12
12 1 0
−16 0 0 0 0 0 0 1
3
182
81
21
32
35
36
25
93
=
23 · 182 − 1
6 · 81 − 12 · 21 − 1
2 · 32 − 12 · 35 − 1
2 · 36 − 12 · 25 − 1
6 · 93
− 16 · 182 + 1
3 · 81
−12 · 182 + 1 · 21 + 1
2 · 32 + 12 · 35 + 1
2 · 36 + 12 · 25
−12 · 182 + 1
2 · 21 + 1 · 32 + 12 · 35 + 1
2 · 36 + 12 · 25
−12 · 182 + 1
2 · 21 + 12 · 32 + 1 · 35 + 1
2 · 36 + 12 · 25
−12 · 182 + 1
2 · 21 + 12 · 32 + 1
2 · 35 + 1 · 36 + 12 · 25
−12 · 182 + 1
2 · 21 + 12 · 32 + 1
2 · 35 + 12 · 36 + 1 · 25
− 16 · 182 + 1
3 · 93
=
17.8333
−3.3333
−6
−0.5
1
1.5
−4
0.6667
となります。これより、
β21 =
µ
d1
p1
p2
p3
p4
p5
t1
から、
µ = 17.8333, d1 = −3.3333,
p1 = −6, p2 = −0.5, p3 = 1, p4 = 1.5, p5 = −4,
t1 = 0.6667
30
となります。次に、制約条件より d2 = 0, p6 = 0, t2 = 0であることから、
β2 =
µ
d1
d2
p1
p2
p3
p4
p5
p6
t1
t2
の各成分は
µ = 17.8333 ← Intercept
d1 = −3.3333 ← treat1
d2 = 0 ← treat2
p1 = −6 ← patno1
p2 = −0.5 ← patno2
p3 = 1 ← patno3
p4 = 1.5 ← patno4
p5 = −4 ← patno5
p6 = 0 ← patno6
t1 = 0.6667 ← period1
t2 = 0 ← period2
で与えられます。これは、表の値とほぼ一致しています。
では次に、これを用いて予測値・残差を求めます。このモデルにおける予測値を y2 とおきますと、
y2 = X2β2
=
1 1 0 1 0 0 0 0 0 1 0
1 0 1 1 0 0 0 0 0 0 1
1 1 0 0 1 0 0 0 0 1 0
1 0 1 0 1 0 0 0 0 0 1
1 1 0 0 0 1 0 0 0 1 0
1 0 1 0 0 1 0 0 0 0 1
1 0 1 0 0 0 1 0 0 1 0
1 1 0 0 0 0 1 0 0 0 1
1 0 1 0 0 0 0 1 0 1 0
1 1 0 0 0 0 0 1 0 0 1
1 0 1 0 0 0 0 0 1 1 0
1 1 0 0 0 0 0 0 1 0 1
17.8333
−3.3333
0
−6
−0.5
1
1.5
−4
0
0.6667
0
31
=
17.8333 − 3.3333 − 6 + 0.6667
17.8333 − 6
17.8333 − 3.3333 − 0.5 + 0.6667
17.8333 − 0.5
17.8333 − 3.3333 + 1 + 0.6667
17.8333 + 1
17.8333 + 1.5 + 0.6667
17.8333 − 3.3333 + 1.5
17.8333 − 4 + 0.6667
17.8333 − 3.3333 − 4
17.8333 + 0.6667
17.8333 − 3.3333
=
9.1667
11.8333
14.6667
17.3333
16.1667
18.8333
20
16.0
14.5
10.5
18.5
14.5
となり、表の出力とほぼ一致します。次に残差e2 は、
e2 = y − y2
=
10
11
12
20
18
17
18
18
15
10
20
13
−
9.1667
11.8333
14.6667
17.3333
16.1667
18.8333
20
16.0
14.5
10.5
18.5
14.5
=
0.8333
−0.8333
−2.6667
2.6667
1.8333
−1.8333
−2
2
0.5
−0.5
1.5
−1.5
となり、これも表とほぼ一致します。
(iv) では次に分散分析表を求めます。そのためには、帰無仮説のもとでのモデルが必要となります。今回は、固定効果に
「薬剤」「個人」「時期」の3つがありますので、分散分析表の帰無仮説・対立仮説は、
H0 : d1 = d2 かつ p1 = p2 = p3 = p4 = p5 = p6 かつ t1 = t2
(薬剤の影響も個人の影響も時期の影響も全くない)
H1 : それ以外
となります。これより、帰無仮説のもとでのモデルは、(13)から di, pj , tk を除いた
yijk = µ + εijk
32
となります。データを全て縦に並べると、
y111 = µ + ε111
y212 = µ + ε212
y121 = µ + ε121
y222 = µ + ε222
y131 = µ + ε131
y232 = µ + ε332
y241 = µ + ε241
y142 = µ + ε142
y251 = µ + ε251
y152 = µ + ε152
y261 = µ + ε261
y162 = µ + ε162
となります。要は、どの要因もモデルに含めない、ということですので、「問題2」の分散分析表の帰無仮説のモデルと全く
同じです。すると、予測値・残差も全く同じになります。(8)、(9)からそれぞれ y10、e10 とおいていまして、
y10 =
15.1667
15.1667
15.1667
15.1667
15.1667
15.1667
15.1667
15.1667
15.1667
15.1667
15.1667
15.1667
, e10 =
−5.1667
−4.1667
−3.1667
4.8333
2.8333
1.8333
2.8333
1.8333
−0.1667
−5.1667
4.8333
−2.1333
と書けました。以上より、線形モデルの一般論から、
‖y − y10‖2 = ‖y − y2‖2 + ‖y2 − y10‖2
が成り立ちます。データ数・制約条件を入れたあとのパラメータ数は
y :データ 12個 → 12y10 :パラメータµのみ → 1y2 :制約条件を入れた後のパラメータµ, d1, p1, · · · , p5, t1 → 8
より、自由度は
(CorrectedTotal) ‖y − y10‖2 : 12 − 1 = 11(Error) ‖y − y2‖2 : 12 − 8 = 4(Model) ‖y2 − y10‖2 : 8 − 1 = 7
となります。数値を求めていきますと、各平方和は
(CorrectedTotal) ‖y − y10‖2 = ‖e10‖2
= (−5.1667)2 + (−4.1667)2 + (−3.1667) + 4.83332 + 2.83332 + 1.83332
+2.83332 + 2.83332 + (−0.1667)2 + (−5.1667)2 + 4.83332 + (−2.1333)2
33
= 159.5230
(Error) ‖y − y2‖2 = ‖e2‖2
= 0.83332 + (−0.8333)2 + (−2.6667)2 + 2.66672 + 1.83332 + (−1.8333)2
+(−2)2 + 22 + 0.52 + (−0.5)2 + 1.52 + (−1.5)2
= 35.3333
(Model) ‖y2 − y10‖2 =
∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥
9.1667
11.8333
14.6667
17.3333
16.1667
18.8333
20
16.0
14.5
10.5
18.5
14.5
−
15.1667
15.1667
15.1667
15.1667
15.1667
15.1667
15.1667
15.1667
15.1667
15.1667
15.1667
15.1667
∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥
2
=
∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥
−6
−3.3334
−0.5
2.1666
1
3.6666
4.8333
0.8333
−0.6667
−4.6667
3.3333
−0.6667
∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥
2
= (−6)2 + (−3.3334)2 + (−0.5)2 + 2.16662 + 12 + 3.66662
4.83332 + 0.83332 + (−0.6667)2 + (−4.6667)2 + 3.33332 + (−0.6667)2
= 124.331
となり、表の出力と大体一致します。
次に、平均平方です。自由度で平方和を割ってやればよいですので、
(Error)14‖y − y2‖2 =
14· 35.3333 = 8.8333
(Model)17‖y2 − y10‖2 =
17· 124.331 = 17.7616
となり、表とほぼ一致します。では、次に F 値です。平均平方の比をとってやれば
F =Modelの平均平方Errorの平均平方
=17.76168.8333
= 2.0108
となります。なお、問題 2と同様、分母の Errorの平均平方には分散 σ2 の不偏推定値という意味もあります。つまり、
σ22 =
1Errorの自由度
‖e2‖2 =14· 35.3333 = 8.8333 (18)
となります。ここでも、F 統計量を F =17‖by2−by10‖2
bσ22
と捉えておくと、薬剤の検討の際に役立ちます。
最後に p値です。分子の自由度が 7、分母の自由度が 4ですので、データステップで、
data pvalue;
p = 1 - cdf(’F’, 2.0108, 7, 4);
run;
としますと、p = 0.2606が得られ、表の値とほぼ一致します。
34
(v)次に、薬剤の影響をみる検定です。仮説は、「問題2」と同じく
H0d : d1 = d2
H1d : d1 6= d2
となります。以下、帰無仮説H0d のもとでの統計モデルを考えていきます。なお、最初のモデル自体が「問題2」と「問題
3」で異なりますので、H0d のもとでのモデルは、「問題2」とは異なっています。
まず、モデルは (13)から di を除いた
yijk = µ + pj + tk + εijk
となります。データを全て並べますと、
y111 = µ + p1 + t1 + ε11
y212 = µ + p1 + t2 + ε21
y121 = µ + p2 + t1 + ε12
y222 = µ + p2 + t2 + ε22
y131 = µ + p3 + t1 + ε13
y232 = µ + p3 + t2 + ε23
y141 = µ + p4 + t1 + ε14
y242 = µ + p4 + t2 + ε24
y151 = µ + p5 + t1 + ε15
y252 = µ + p5 + t2 + ε25
y161 = µ + p6 + t1 + ε16
y262 = µ + p6 + t2 + ε26
です。ベクトル・行列表記を考えますと、まず
X2d =
1 1 0 0 0 0 0 1 0
1 1 0 0 0 0 0 0 1
1 0 1 0 0 0 0 1 0
1 0 1 0 0 0 0 0 1
1 0 0 1 0 0 0 1 0
1 0 0 1 0 0 0 0 1
1 0 0 0 1 0 0 1 0
1 0 0 0 1 0 0 0 1
1 0 0 0 0 1 0 1 0
1 0 0 0 0 1 0 0 1
1 0 0 0 0 0 1 1 0
1 0 0 0 0 0 1 0 1
, β2d =
µ
p1
p2
p3
p4
p5
p6
t1
t2
とおきますと、
y = X2dβ2d + ε (ε ∼ N(0, σ2I12)) (19)
35
と書けます。ここで、SASは制約条件p6 = 0, t2 = 0を入れます。そして、
X2d1 =
1 1 0 0 0 0 1
1 1 0 0 0 0 0
1 0 1 0 0 0 1
1 0 1 0 0 0 0
1 0 0 1 0 0 1
1 0 0 1 0 0 0
1 0 0 0 1 0 1
1 0 0 0 1 0 0
1 0 0 0 0 1 1
1 0 0 0 0 1 0
1 0 0 0 0 0 1
1 0 0 0 0 0 0
, β2d1 =
µ
p1
p2
p3
p4
p5
t1
とおきますと、(19)は
y = X2d1β2d1 + ε (ε ∼ N(0, σ2I12))
と書けます。これを用いて、β2d1 の最小二乗推定値を計算していきます。
β2d1 = (X′2d1X2d1)
−1 X′2d1y (20)
となりますので、少しずつ計算していきます。まず、
X′2d1X2d1 =
1 1 1 1 1 1 1 1 1 1 1 1
1 1 0 0 0 0 0 0 0 0 0 0
0 0 1 1 0 0 0 0 0 0 0 0
0 0 0 0 1 1 0 0 0 0 0 0
0 0 0 0 0 0 1 1 0 0 0 0
0 0 0 0 0 0 0 0 1 1 0 0
1 0 1 0 1 0 1 0 1 0 1 0
1 1 0 0 0 0 1
1 1 0 0 0 0 0
1 0 1 0 0 0 1
1 0 1 0 0 0 0
1 0 0 1 0 0 1
1 0 0 1 0 0 0
1 0 0 0 1 0 1
1 0 0 0 1 0 0
1 0 0 0 0 1 1
1 0 0 0 0 1 0
1 0 0 0 0 0 1
1 0 0 0 0 0 0
=
12 2 2 2 2 2 6
2 2 0 0 0 0 1
2 0 2 0 0 0 1
2 0 0 2 0 0 1
2 0 0 0 2 0 1
2 0 0 0 0 2 1
6 1 1 1 1 1 6
36
です。これより、
(X′2d1X2d1)−1 =
12 2 2 2 2 2 6
2 2 0 0 0 0 1
2 0 2 0 0 0 1
2 0 0 2 0 0 1
2 0 0 0 2 0 1
2 0 0 0 0 2 1
6 1 1 1 1 1 6
−1
=
712 −1
2 − 12 −1
2 −12 − 1
2 −16
−12 1 1
212
12
12 0
−12
12 1 1
212
12 0
−12
12
12 1 1
212 0
−12
12
12
12 1 1
2 0
−12
12
12
12
12 1 0
−16 0 0 0 0 0 1
3
となります。次に、
X′2d1y =
1 1 1 1 1 1 1 1 1 1 1 1
1 1 0 0 0 0 0 0 0 0 0 0
0 0 1 1 0 0 0 0 0 0 0 0
0 0 0 0 1 1 0 0 0 0 0 0
0 0 0 0 0 0 1 1 0 0 0 0
0 0 0 0 0 0 0 0 1 1 0 0
1 0 1 0 1 0 1 0 1 0 1 0
10
11
12
20
18
17
18
18
15
10
20
13
=
10 + 11 + 12 + 20 + 18 + 17 + 18 + 18 + 15 + 10 + 20 + 13
10 + 11
12 + 20
18 + 17
18 + 18
15 + 10
10 + 12 + 18 + 18 + 15 + 20
=
182
21
32
35
36
25
93
37
です。これより、(20)は
β2d1 =
712 −1
2 −12 − 1
2 −12 − 1
2 − 16
− 12 1 1
212
12
12 0
− 12
12 1 1
212
12 0
− 12
12
12 1 1
212 0
− 12
12
12
12 1 1
2 0
− 12
12
12
12
12 1 0
− 16 0 0 0 0 0 1
3
182
21
32
35
36
25
93
=
712 · 182 − 1
2 · 21 − 12 · 32 − 1
2 · 35 − 12 · 36 − 1
2 · 25 − 16 · 93
− 12 · 182 + 1 · 21 + 1
2 · 32 + 12 · 35 + 1
2 · 36 + 12 · 25
− 12 · 182 + 1
2 · 21 + 1 · 32 + 12 · 35 + 1
2 · 36 + 12 · 25
− 12 · 182 + 1
2 · 21 + 12 · 32 + 1 · 35 + 1
2 · 36 + 12 · 25
− 12 · 182 + 1
2 · 21 + 12 · 32 + 1
2 · 35 + 1 · 36 + 12 · 25
− 12 · 182 + 1
2 · 21 + 1 · 32 + 12 · 35 + 1
2 · 36 + 1 · 25
−16 · 182 + 1
3 · 93
=
16.1667
−6
−0.5
1
1.5
−4
−22
0.6667
となります。ここで、
β2d1 =
µ
p1
p2
p3
p4
p5
t1
であり、制約条件から p6 = 0, t2 = 0となりますので、
µ = 16.1667
p1 = −6
p2 = −0.5
p3 = 1
p4 = 1.5
p5 = −4
p6 = 0
t1 = 0.6667
t2 = 0
となります。これが β2d の各成分です。
38
これより、このモデルに基づく予測値y2d は
y2d = X2dβ2d
=
1 1 0 0 0 0 0 1 0
1 1 0 0 0 0 0 0 1
1 0 1 0 0 0 0 1 0
1 0 1 0 0 0 0 0 1
1 0 0 1 0 0 0 1 0
1 0 0 1 0 0 0 0 1
1 0 0 0 1 0 0 1 0
1 0 0 0 1 0 0 0 1
1 0 0 0 0 1 0 1 0
1 0 0 0 0 1 0 0 1
1 0 0 0 0 0 1 1 0
1 0 0 0 0 0 1 0 1
16.1667
−6
−0.5
1
1.5
−4
0
0.6667
0
=
16.1667 − 6 + 0.6667
16.1667 − 6
16.1667 − 0.5 + 0.6667
16.1667 − 0.5
16.1667 + 1 + 0.6667
16.1667 + 1
16.1667 + 1.5 + 0.6667
16.1667 + 1.5
16.1667 − 4 + 0.6667
16.1667 − 4
16.1667 + 0.6667
16.1667
=
10.8334
10.1667
16.3334
15.6667
17.8333
17.1667
18.3334
17.6667
12.8334
12.1667
16.8334
16.1667
39
となります。これより、このモデルの残差e2d は、
e2d = y − y2d =
10
11
12
20
18
17
18
18
15
10
20
13
−
10.8334
10.1667
16.3334
15.6667
17.8333
17.1667
18.3334
17.6667
12.8334
12.1667
16.8334
16.1667
=
−0.8334
0.8333
−4.3334
4.3333
0.1667
−0.1667
−0.3334
0.3333
2.1666
−2.1667
3.1666
−3.1667
となります。以上より、薬剤群を入れるモデル H1d と入れないモデル H0d の予測性能の違いは
‖y2 − y2d‖2 =
∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥
9.1667
11.8333
14.6667
17.3333
16.1667
18.8333
20
16.0
14.5
10.5
18.5
14.5
−
10.8334
10.1667
16.3334
15.6667
17.8333
17.1667
18.3334
17.6667
12.8334
12.1667
16.8334
16.1667
∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥
2
=
∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥
−1.6667
1.6666
−1.6667
1.6666
−1.6666
1.6666
1.6666
−1.6667
1.6666
−1.6667
1.6666
−1.6667
∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥∥
2
= (−1.6667)2 + 1.66662 + (−1.6667)2 + 1.66662 + (−1.6666)2 + 1.66662
+1.66662 + (−1.6667)2 + 1.66662 + (−1.6667)2 + 1.66662 + (−1.6667)2
= 33.3323
となり、これが TypeIIIの表の平方和の部分にほぼ一致します。また、制約条件を入れた後のパラメータ数は
y2 : 制約条件を入れた後のパラメータµ, d1, p1, · · · , p5, t1 → 8y2d : 制約条件を入れた後のパラメータµ, p1, · · · , p5, t1 → 7
より、自由度は
‖y2 − y2d‖2 : 8 − 7 = 1
となります。これより、平均平方は
11· ‖y2 − y2d‖2 = 33.3323
です。ここで (18)より、分散の不偏推定値は σ22 = 8.8333で与えられますので、F 値は、
F =11 · ‖y2 − y2d‖2
σ22
=33.33238.8333
= 3.7735
40
となります。分母の自由度が 4、分子の自由度が 1であることから p値は
data pvalue;
p = 1 - cdf(’F’, 3.7735, 1, 4);
run;
とすれば、p = 0.1240となります。これは表の出力と一致します。
41