12 研究被検者数を決めよう ― 検出力分析 · 2018-06-26 · 12...

14
1 12 研究被検者数を決めよう 検出力分析 1 1 第二種の過誤 1. 実例から クリニックの助産師は独自の産後うつ病予防プログラムを作成し,この予防法の効果判定を試みた。このプ ログラムは妊娠期間中に 3 回のグループ面接を行い,担当助産師が精神分析理論に基づいた短期予防精神療法を 行うものであった。そして,クリニックを受診した妊婦 100 人を無作為に 2 群に分けた。一方の 50 人は実験 群として予防プログラムを実施した。もう一方の 50 人は対照群として,一般的ケアのみを行った。結果は産後 1 ヶ月健診時に全員を対象に SCID 診断面接を実施し,その第 5 軸の Global Assessment of Functioning (GAF) を用いて総合的機能を評価した。GAF は 1 点から 100 点の幅を取り,点数が低いほど不良な機能を示すもので ある。当然,彼女たちは,対照群に比べて実験群において産後1ヶ月の GAF 得点が有意に高い(良好である) ことをもって,産後うつ病予防プログラムの有効性が検証できると考えた。 さて実際の結果を見てみよう。幸いなことに両群とも 1 名の脱落者もいなかった。対照群および実験群の GAF 得点とその標準偏差は次のようであった(表 12-1)。標準偏差は両群で同じ値(20)であった 2 表 12-1. 産後うつ病予防プログラムの効果判定:対照群および実験群の GAF 得点 産後 1 ヶ月の GAF 平均値 標準偏差 対照群 (n = 50) 75 20 1 北村俊則著「臨床で働きながら研究をしよう:統計の裏わざと SPSS の使い方」改訂版原稿(未定稿) 2 もちろん,計算を容易にするために人為的に作成した。

Upload: others

Post on 03-Mar-2020

3 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 12 研究被検者数を決めよう ― 検出力分析 · 2018-06-26 · 12 研究被検者数を決めよう ― 検出力分析 2 実験群 (n = 50) 82 20 対照群に比べると実験群の

1

12 研究被検者数を決めよう

検出力分析1

1 第二種の過誤

1. 実例から

Aクリニックの助産師は独自の産後うつ病予防プログラムを作成し,この予防法の効果判定を試みた。このプ

ログラムは妊娠期間中に 3 回のグループ面接を行い,担当助産師が精神分析理論に基づいた短期予防精神療法を

行うものであった。そして,クリニックを受診した妊婦 100 人を無作為に 2 群に分けた。一方の 50 人は実験

群として予防プログラムを実施した。もう一方の 50 人は対照群として,一般的ケアのみを行った。結果は産後 1

ヶ月健診時に全員を対象に SCID 診断面接を実施し,その第 5 軸の Global Assessment of Functioning (GAF)

を用いて総合的機能を評価した。GAF は 1 点から 100 点の幅を取り,点数が低いほど不良な機能を示すもので

ある。当然,彼女たちは,対照群に比べて実験群において産後1ヶ月の GAF 得点が有意に高い(良好である)

ことをもって,産後うつ病予防プログラムの有効性が検証できると考えた。

さて実際の結果を見てみよう。幸いなことに両群とも 1 名の脱落者もいなかった。対照群および実験群の GAF

得点とその標準偏差は次のようであった(表 12-1)。標準偏差は両群で同じ値(20)であった2。

表 12-1. 産後うつ病予防プログラムの効果判定:対照群および実験群の GAF 得点

産後 1 ヶ月の GAF

平均値 標準偏差

対照群 (n = 50) 75 20

1 北村俊則著「臨床で働きながら研究をしよう:統計の裏わざと SPSS の使い方」改訂版原稿(未定稿) 2 もちろん,計算を容易にするために人為的に作成した。

Page 2: 12 研究被検者数を決めよう ― 検出力分析 · 2018-06-26 · 12 研究被検者数を決めよう ― 検出力分析 2 実験群 (n = 50) 82 20 対照群に比べると実験群の

12 研究被検者数を決めよう ― 検出力分析

2

実験群 (n = 50) 82 20

対照群に比べると実験群の GAF は (82-75=) 7 点高かった。図 12-1 で赤い線が対照群のヒストグラム,青

い破線が実験群のヒストグラムである。x 軸の値は対照群の平均値を 0 (ゼロ),標準偏差を 1 にした(標準

化した)値である。助産師たちは自分たちの予防プログラムが有効だと考え喜んだ。しかし,以前に習ったよう

に t 検定(第 6 章参照)を行うと p 値は 0.05 を上回っていた (p = 0.065)。図 12-1 を再度見てみよう。両側

検定を行っているので,対照群の平均から 2 標準偏差分高得点に位置している部分(緑の縦線)からさらに高い

ほうに対照群ケースの 2.5%が含まれている(第 2 章参照)。この部分に実験群の平均値がおさまってくれれば,

両群の GAF 平均値に有意(p < 0.05)の差がある ― 実験群の平均値のほうが高い ― といえる。しかし,今回

の結果では,実験群の GAF 得点の平均値は緑の縦線(p = 0.05)より左側(低得点側)に位置している。したが

って,両群の GAF 得点の平均値には有意の差がないのである。

図 12-1. 対照群と実験群における GAF 値の分布(N1 = 50, N2 = 50, α = 0.05)

研究成果の検討会で助産師たちは意見交換をおこなった。「両群の GAF 得点に有意の差がないのだから,私

たちの予防プログラムは効果がない。予防プログラムはあきらめるべきだ」という意見もあった。しかし,一方

で「有意の差がないといっても,実験群の GAF は絶対値で 7 点も良いのだから,臨床的意味がある。まったく

無効と決めつるのは早計だと思う。そもそも 50 名と 50 名という比較的少人数で研究したから結論が出ていな

いのだ」というコメントも出てきた。では,実験群と対照群の人数をいくつにして研究を始めればよかったので

あろう。これに答を出すのが検出力分析である。

2. 第二種の過誤から検出力まで

ここで第 5 章で勉強した母集団と標本における帰無仮説 (null hypothesis) と対立仮説 (alternative

hypothesis) の関係について再度見直してみよう。今回の例で述べれば,対照群と実験群で産後1ヶ月の GAF 得

点の平均値に差がないというのが帰無仮説である。両群の GAF 得点の平均に差があるというのが対立仮説であ

る。明らかな証明がない限り帰無仮説が正しいと暫定的にみなすというのが,自然科学研究における大前提であ

る。研究の結果,帰無仮説が否定(却下)された時,はじめてわれわれは対立仮説を証明できたと考えるのであ

る。図 12-1 のなかで,対照群のカーブが帰無仮説であり,介入群のカーブが対立仮説である。

ところで,われわれの調査や実験で扱う被検者(標本:sample)は母集団 (population) のごく一部である。

本来は古今東西の何億人という妊婦に対して介入を行ったときの予防効果が確認できるかを見るのが研究の目的

であった。しかし,それは現実的でない。そこで目の前にいる 100 人の妊婦を,標本として利用した。そこで得

られた結果を母集団に当てはめようとするのが統計であった。

Page 3: 12 研究被検者数を決めよう ― 検出力分析 · 2018-06-26 · 12 研究被検者数を決めよう ― 検出力分析 2 実験群 (n = 50) 82 20 対照群に比べると実験群の

3

したがって,一応,母集団を代表できるように無作為に標本を選び出している(あるいはそのように努力して

はいる)が、標本が母集団からズレてしまい、その結論が母集団での結論と一致しないこともある(表 12-2)。

母集団では両群に差がなく,標本でも両群に差がないのであれば,研究結果は問題がない。あるいは母集団で両

群に差があり,標本でも差を認めるのであっても問題はない。ところが,本当は(母集団では)差が ない のに

標本で差が ある とする(つまり帰無仮説を棄却することになる)のが第一種の過誤 (type I error) で,この確

立が α である。普通の研究で「有意水準」と呼ばれているのがこれである。一方,本当は(母集団では)差が あ

る のに標本では差が ない とする(帰無仮説を棄却できずに終わる)のが第二種の過誤 (type II error) で,この

確率が β である。

表 12-2. 第一種の過誤と第二種の過誤

見かけ上(標本調査では)

差がある 差はない

本当は

(母集団では)

差がある(対立仮説が正しい) 検出力

statistical power

第二種の過誤

type II (β) error

差はない(帰無仮説が正しい) 第一種の過誤

type I (α) error OK

今回の結果を図 12-1 で見てみよう。対照群の平均値から 2 標準偏差分高得点側に位置している点を走る緑の

縦線から右側で,対照群のカーブの下にある面積が(p < 0.05 の際の)α/2 である3。実験群の GAF 平均値がこ

の部分に落ちてくれれば「有意差あり!」といえた。しかし,今回のデータでは実験群の GAF 平均値は上記の

緑の縦線から左側(平均値に近い側)(低い値)に位置している。従って、対照群の GAF の平均値と介入群の

それとの差は存在するものの,(有意水準を α = 0.05 に設定すれば)有意の程度とはいえないのである。

次に,この「両群に差はない」という結論が,実は第二種の過誤(本当は両群の平均値に「差がある」のに「差

がない」としてしまう間違い)である確率はどれほどであるのか。これは同じ太い縦線から左側で,実験群のカ

ーブの下にある面積(青く塗りつぶしてある部分)である。これが β に相当する。ここで β は明らかに 0.5 を

超えていて,およそ 0.59 である。「母集団では両群に差がある(つまり,対立仮説が正しい)にも関わらず(お

そらく被検者数が少なすぎたため)標本では差がないと誤って結論している可能性」は 59%しかない。そこから,

本当は両群に差があると推論するのも強引であるといえよう。今回の結果は「両群に差がある」とはいえないが、

「両群は同じである」ともいえないという,ひどく歯切れの悪いものになってしまう。

正しく「両群間に有意の差がある」(つまり帰無仮説は棄却できる・対立仮説が正しい)といえる確立を考え

てみよう。これは 1 から β を引いた分に相当する。これを検出力 (statistical power あるいは単に power) と

いう。言葉で表現すれば、「本当に差があるときに正しく差があると言い切れる力」である。α と β の関係を図

12-1 で見てみよう。緑の縦線の右側で対照群のカーブの下にある薄い赤色部分が α/2 である。一方,緑の縦線の

左側で実験群のカーブの下にある薄い青色部分が β である。図 12-1 で β = 0.59 であったので,power = 1 -

0.59 = 0.41 と計算できる。つまり,緑の縦線で両群間の差の有意性を見るということは,「本当に差があるとき

に正しく差があると言い切れる力」が 41%しかないのである。

3 対照群のヒストグラムの左端の赤い部分(平均値から2標準偏差左に位置している緑の縦線の外側の部分)も同様に α/2 であ

る。

Page 4: 12 研究被検者数を決めよう ― 検出力分析 · 2018-06-26 · 12 研究被検者数を決めよう ― 検出力分析 2 実験群 (n = 50) 82 20 対照群に比べると実験群の

12 研究被検者数を決めよう ― 検出力分析

4

「両群間に差がない」という研究の結果が第二種の過誤でないことを確認するには検出力が高くなければなら

ない。検出力を高める(つまり β を低くする)にはどうすればよいだろうか。第一に考えられるのは,図 12-1 の

緑の縦線の位置を多少左にずらすことである。有意水準を α = 0.05 から α = 0.10 に移動したのが図 12-2 である。

α/2 の占める広さが増えるのに対応して β (= 0.32) の広さが減っている。そして検出力が 0.68 まで増えている。

ここでわかるように,α と β は trade-off の関係にあるといわれている。β が減少すれば検出力 (1 - β) が上

がるのだから,α を上げれば検出力もそれに応じて上がる。しかし,α を上げて(たとえば 0.20)「有意の差」

を対照群と実験群の間に見て,それで両群間に有意差が有ったと主張しても,研究として訴える力は弱い。

図 12-2. 対照群と実験群における GAF 値の分布(N1 = 50, N2 = 50, α = 0.10)

次に, 2 つの群のそれぞれの平均値の「離れ具合」に観点を移してみよう。図 12-1 や図 12-2 の対照群のカ

ーブと実験群のカーブが広く離れているほど,「両群の平均値に差がある」と確信が持てる。両群の離れ具合は

単に両群の平均値の絶対値の差だけでなく,両方のグループのカーブ(ヒストグラム)の裾野の広がり(標準偏

差)が関与してくる。t検定では 2 つの群の間である変数の平均値に差があり,それが統計学的に有意であるか

に焦点を当てた検討を行ってきた。そのため標本が大きければ絶対値がわずかな差でも,両群の平均値の差は有

意になる。有意水準から離れて,両群の平均値がどのくらい離れているかを示すのが効果量(effect size: ES) で

あった(第 6 章参照)。効果量(d)は次の式で求められる。𝑀𝐸 は実験群の平均値,𝑀𝐶は対照群の平均値,𝑆𝐷𝐸 は

実験群の標準偏差,𝑆𝐷𝐶 は対照群の標準偏差である。図 12-1 の効果量は 0.35 であった。

𝑑 = 𝑀𝐸 − 𝑀𝐶

√𝑆𝐷𝐸2 + 𝑆𝐷𝐶

2

2

つまり,効果量は両群の平均の差と両群の標準偏差の関数である。そこで効果量を上げれば検出力が上がる。

今回の研究では産後 1 ヶ月の GAF 値が対照群で 75,実験群で 82 であった。助産師たちが「臨床の腕」を向

上し,予防効果を上げることができれば効果量も上昇する。仮に,実験群の産後1ヶ月の GAF が 88 まで上昇

できたとしよう。標準偏差に変わりはない。すると,効果量は 0.65 になる。その場合,α = 0.05 に設定しても β

= 0.06 であり,検出力は 1 - 0.06 = 0.94 と飛びぬけて高くなる(図 12-3)。しかし,臨床でここまで効果量を

高めることは容易でないだろう。

Page 5: 12 研究被検者数を決めよう ― 検出力分析 · 2018-06-26 · 12 研究被検者数を決めよう ― 検出力分析 2 実験群 (n = 50) 82 20 対照群に比べると実験群の

5

図 12-3. 対照群と実験群における GAF 値の分布(効果量を上げた場合)

効果量の値の判断に絶対的基準はない。しかし,一般には Cohen4 にしたがって,small = 0.2, medium = 0.5,

large = 0.8 と考えられている。今回の助産師たちの予防効果はそれほど悪いものではなかったのであろう。これ

を ES = 0.8 を超えるまでに予防効果を上げることは大変である。

さて,検出力をあげる手段として次に考えられるのが標本の大きさを上げることである。つまり被検者の数

を増やすことである。ここで,効果量が変わらない状態で図 12-1 の被検者が 50 人から 100 人に増加したとし

よう(これも架空の計算である)。すると対照群のカーブと実験群のカーブはかなり離れ(図 12-4),両者の間

にはかなり広い谷が発生する。α = 0.05 であっても β = 0.31 となる。したがって解析力 (power) は 1 - 0.31 =

0.69 と際立って高い値になる。つまりこのデータで「対照群と実験群の産後1ヶ月の GAF 得点には有意の差があ

る」といった場合,それが正しく帰無仮説を却下する確立が 0.69 である。標本の大きさが大きくなることでカー

ブの裾野が狭くなり,「山頂」が高くなることでこうした結果が生まれるのである。

ここまでの検討を振り返ると,検出力,α,効果量,標本の大きさ(N)の 4 つの変数は相互に依存した関係

にあることがわかる。したがって,これら 4 つの変数のうち 3 つを固定すれば残りのひとつが計算できること

がわかる5。

図 12-4. 対照群と実験群における GAF 値の分布(N = 100, α = 0.05)

4 Cohen, H. (1977). Statistical power analysis for the behavioral scientists. (2nd ed.) New York: Academic Press.

水本篤, 竹内理 (2008). 研究論文における効果量の報告のために:基礎的概念と注意点. 関西英語教育学会紀要英語教育研究. 31,

57-66. 5 大垣俊一 (2005). Type II error と Power analysis. Argonauta, 11, 3-16. http://www.mus-nh.city.osaka.jp/iso/argo/nlindex.html

Hunt, A.: A researcher’s guide to power analysis. http://rgs.usu.edu/irb/files/uploads/A_Researchers_Guide_to_Power_Analysis_USU.pdf#search='anne+hunt%2C+OMDS'

Page 6: 12 研究被検者数を決めよう ― 検出力分析 · 2018-06-26 · 12 研究被検者数を決めよう ― 検出力分析 2 実験群 (n = 50) 82 20 対照群に比べると実験群の

12 研究被検者数を決めよう ― 検出力分析

6

2 検出力分析

1. 検出力分析の種類

検出力 (power),α,効果量 (SE),標本の大きさ(N)の 4 つの変数のうち 3 つを固定すれば残りのひとつ

が計算できる。そこで検出力分析には4つのタイプがある(表 12-3)。

表 12-3. 検出力分析

種類 ~から ~を計算する

A priori α, power, ES N

Post-hoc α, N, ES power

Criterion power, ES, N α

Sensitivity α, power, N ES

Aクリニックの助産師たちのようにすでに終了した研究成果をもって検出力を検討するのが post-hoc power

analysis である。α, N, ES を入力すれば自動的に power が計算できる。一方,これから研究をする場合に,どれ

ほどの標本にすればよいかを決めるのが a priori power analysis である6。α, power, ES を入力すれば自動的に必

要な N が求められる。

α は通常 0.05 に設定される。また power は 0.8 に設定されるが,α を 0.05 にするなら β も同様に 0.05 に

設定し,したがって power = 0.95 にせよとの意見もある7。

ES の設定についてはいくつかの考え方がある。まず,その専門領域の常識から考えてどれほどであれば意味の

ある差であるかを設定する方法である。2つ目はこれから行おうとする研究と類似の内容や方法で行われた先行

研究から推定する方法である。最後に Cohen の提案した提示した基準(small = 0.2, medium = 0.5, large = 0.8)に

したがって決定する方法もある。

ほとんどの場合,検出力分析は 2 つのグループの関連や差を検討する。この際に使用する統計法として t検定,

分散分析,相関係数,χ2 検定などがある。いずれも検出力分析が可能である。ただし,効果量(ES)の設定につ

いては異なる。

2. 検出力分析の実際

検出力分析にはソフトウエアがそろっている。SPSS には SamplePower というソフトウエアがある。別売り

で SPSS に搭載することができる8。一方,無料の検出力分析ソフトウエアとして G*Power がある。無料で,

かつ使いやすのでここでは G*Power を用いて,検出力分析を行ってみよう。G*Power には詳細なマニュアルが

無料で提供されている。

6 Uensch, K. (2009). Estimating the sample size necessary to have enough power. Power-N.doc 7 Wuensch, K. L. (2009). An overview of power analysis. PowerAnalysis_Overview.doc 8 Miles, J.: Getting the sample size right: A brief introduction to power analysis. http://www.jeremymiles.co.uk/misc/power/

Page 7: 12 研究被検者数を決めよう ― 検出力分析 · 2018-06-26 · 12 研究被検者数を決めよう ― 検出力分析 2 実験群 (n = 50) 82 20 対照群に比べると実験群の

7

3. G*Power のダウンロード

G*Power は Faul ら9によって開発された無料ソフトウエアである。Windows 版と Mac 版がある。いずれも以

下からダウンロードできる。自分のコンピュータに合わせて選択すればよい。

http://www.gpower.hhu.de/

4. 独立した 2 群の t 検定 a priori power analysis

Aクリニックの助産師たちは新規に予防プログラム効果判定の研究を再度行うに当たって,今度は必要な被検

者数を事前に G*Power を用いて計算しようとした10。まず G*Power をダウンロードし,クリックして次頁の

ようなパネルをアップさせる。これが G*Power の作業画面である。

今回は a priori analysis を行う。事前に次のように値を設定した。ES は自分たちの予備調査の結果から 0.35

とした。施行する統計法は t 検定である。

α = 0.05

power = 0.8

ES = 0.35

9 Faul, F., Erdfelder, E., Lang, A.-G., & Buchner, A. (2007). G*Power 3: A flexible statistical power analysis program for the social,

behavioral, and biomedical sciences. Behavior Research Methods,39, 175-191.

Faul, F., Erdfelder, E., Buchner, A., & Lang, A.-G. (2009). Statistical power analyses using G*Power 3.1: Tests for correlation and

regression analyses. Behavior Research Methods, 41, 1149-1160. 10 多くの研究者が必要としているのは,研究開始前に必要なサンプルサイズを求めることであろう。本書も a priori analysis に

ついてのみ述べる。

Windows

Mac

Page 8: 12 研究被検者数を決めよう ― 検出力分析 · 2018-06-26 · 12 研究被検者数を決めよう ― 検出力分析 2 実験群 (n = 50) 82 20 対照群に比べると実験群の

12 研究被検者数を決めよう ― 検出力分析

8

そこで Test family をクリックし,プルダウン・メニューから希望のテストの種類を選択する。実施予定の統

計法をここで指定する。ここでは t-tests を選びクリックする11。

11 Test family では,t tests で両群の差の検定,Exact が Fisher の直接確立検定,F tests が各種の分散分析,χ2 tests がカ

イ 2乗検定,z tests がノンパラメトリックテストを扱う。

Page 9: 12 研究被検者数を決めよう ― 検出力分析 · 2018-06-26 · 12 研究被検者数を決めよう ― 検出力分析 2 実験群 (n = 50) 82 20 対照群に比べると実験群の

9

次に Statistical test をクリックし,プルダウン・メニューから Means: Difference between two independent

means (two groups) を選びクリックする。これで,t 検定を用いて独立した 2 群の差の検定が目的であること

が指定できた。

次に Input parameters に向かう。ここではまず検定が両側検定か片側検定かを決める。帰無仮説(予防

プログラムは無効)に対して対立仮説は「プログラムは有効」だけを考えるのであれば片側検定を採用し,対立

仮説に「プログラムは有効」に加えて「プログラムは有害」(GAF 得点はかえって低い)も採用するなら両側検

定を採用する。両側検定より片側検定のほうが必要とする N は少ない。しかしこの場合,調査が終了して統計解

析をする場合も片側検定を行うことになる。論文投稿の際,片側検定で「予防プログラムは有効」といっても査

読で批判される可能性が高い。そこで,両側検定をしておくことが推奨される。G*Power では Tail(s) をクリッ

クし,プルダウン・メニューから Two を選びクリックする。

次に,Effect size d に 0.35 を,α error に 0.05 を,Power (1-β) に 0.8 を入力する。

Page 10: 12 研究被検者数を決めよう ― 検出力分析 · 2018-06-26 · 12 研究被検者数を決めよう ― 検出力分析 2 実験群 (n = 50) 82 20 対照群に比べると実験群の

12 研究被検者数を決めよう ― 検出力分析

10

ところで G*Power には従来のデータから自動的に ES を計算させる方法がある。Input parameter のす

ぐ下にある Determine というアイコンクリックすると,右側にプルダウン・メニューが現れる。

ここで n1 = n2 を選択する。そして mean group 1 に 75を,mean group 2 に 82を入力する。対照群と実

験群の平均値である。そして,SD σ group 1 と SD σ group 2 にそれぞれ 20 を入れる。これが標準偏差であ

る。そして Calculate というアイコンをクリックする。それまで ? となっていた Effect side d に回答である 0.35

が出現する。この値を Input parameters に移動するには Calculate and transfer to main window のアイコンを

クリックすればよい。

Page 11: 12 研究被検者数を決めよう ― 検出力分析 · 2018-06-26 · 12 研究被検者数を決めよう ― 検出力分析 2 実験群 (n = 50) 82 20 対照群に比べると実験群の

11

メインメニューに戻り,Impact Parameters の最終行にある Allocation ratio N2/N1 の比率を入力する。対

照群の人数と実験群の人数の比率を決定しておく。できるだけ少数の被検者で高い検出力を得るのは両群の人数

が同数である場合であることが知られている。そこでここの値は 1 に設定する。ここまで出来たら,右下の

Calculate をクリックする。すると答えが Output parameters に出てくる。

Output parameters の Sample size group 1 と Sample size group 2 は同一で 102 となっている。したが

って,全体では Total sample size = 204 となっている。この場合の本当の検出力は 0.801…… であるとの表示

もみられる。

この結果から,今回の調査では少なくとも 204名の被検者が必要であると考えられる。途中で脱落する

(attrition) 率を 20 %ほどと考えれば 255 名は必要であろう。予定通りの被患者が集まり,基準変数の標準偏差

も予定通りで,最終的に両群間に基準変数の有意の差がないときに,おそらくある程度の自信をもって「予防プ

ログラムは無効である」と結論することが出来るのであろう。

5. 2 群の比率の比較 a priori power analysis

Aクリニックの助産師たちは新規の予防プログラム効果判定の研究において,DSM の大うつ病の発生を抑える

ことを目標とした。産後の大うつ病エピソードは通常 5%ほどの罹患率である報告されている12。そこでこの率を

1%まで下げるようにしたいと考えた。この場合,どれほどの被検者が必要であろうか。

G*Power から,Test family の中で χ2 を,Statistical test から Goodness-of-fit tests: Contingency tables

を,そして Type of power analysis から A priori: Compute required sample size – given α, power, and effect

size を選択する。

12 Kitamura, T., Yoshida, K., Okano, T., Kinoshita, K., Hayashi, M., Toyoda, N., Ito, M., Kudo, N., Tada, K., Kanazawa, K., Sakumoto, K.,

Satoh, S., Furukawa, T., & Nakano, H. (2006). Multicentre prospective study of perinatal depression in Japan: Incidence and correlates. Archives of Women’s Mental Health, 9, 121-130.

Page 12: 12 研究被検者数を決めよう ― 検出力分析 · 2018-06-26 · 12 研究被検者数を決めよう ― 検出力分析 2 実験群 (n = 50) 82 20 対照群に比べると実験群の

12 研究被検者数を決めよう ― 検出力分析

12

次に効果量を計算するため Determine をクリックして右側にプルダウン・メニューを提示する。今回は 2X2 の

集計表になるから,Number of cells を 2 に設定する(1)。各マス(cell)に予想される割合を記入する。帰

無仮説(H0)では産後うつ病の出現率が 0.05,対立仮説(H1)ではそれが 0.01 なので,その値を入力し(2),

Calculate をクリックすると Effect size に 0.1835326 という答えが出てくる(3)。χ2 検定の効果量は small

= 0.1,medium = 0.3,large = 0.5 といわれている13。従って 0.18 という効果量はひどく低いものではない。

Calculate and transfer to main window をクリックすると,メインウインドウに Effect size 0.1835326 が

移動している(4)。ここで予定してように,α error = 0.05(5),Power = 0.080(6), Df = 1 (7)と

入力し,Calculate をクリックする。すると Total sample size に 234 という回答が現れる(8)。つまり,こ

の研究計画では少なくとも総計 234 名の被検者が必要になる。

13 Cohen, J. (1992). A power primer. Psychological Bulletin, 112, 155-159.

2

3

Page 13: 12 研究被検者数を決めよう ― 検出力分析 · 2018-06-26 · 12 研究被検者数を決めよう ― 検出力分析 2 実験群 (n = 50) 82 20 対照群に比べると実験群の

13

6. 検出力をあげるには

両群の間に平均値の有意の差を求めるには,標本を限りなく大きくすればよい(母集団に近似してゆくからで

ある)。しかし貴重な時間と人的労力,さらには研究費を費やすにも限度がある。しかし,仮に有意の差を見た

としても,それが臨床的に意味のある程度のものでなければ臨床研究としての価値はなくなる。

そこである程度の標本数で有意の所見を得たいと考えるのは当然である。教科書を見るといくつかの方法が列

記されている。まず α を上げることである(例:0.05 を 0.10 に上げる)。こうすれば β が下がり,結果とし

て検出力は上昇する。しかし「甘い有意水準」であれば結果解釈が批判される。次に考えられる対策は効果量を

上げることである。効果量を上げるには,平均値の絶対値の差を上げればよい。治療や予防の研究であれば,治

療の強さがより強くなればよい。しかし,現実的でないことも多々あるであろう。

そこで最後に考えることは従属変数の標準偏差を低下させることである。効果量は両群の標準偏差で両群の平

均値の差を割ったものである。従って,分母を小さくすれば効果量はおのずと大きくなる。従属変数の標準偏差

を小さくするには,その変数と強い相関を有する変数を共変量として加えることである(たとえば Analysis of

Covariance: ANCOVA)。こうすれば検出力を上げることができる。

表 12-4. 産後うつ病予防プログラムの効果判定:対照群および実験群の GAF 得点

妊娠初期の GAF 産後 1 ヶ月の GAF 妊娠初期と産後 1 ヶ月の

GAF の変化量

平均値 標準偏差 平均値 標準偏差 平均値 標準偏差

対照群 (n = 50) 85 20 75 20 10 5

実験群 (n = 50) 82 20 82 20 0 5

そこで当初のAクリニックの助産師たちが行った産後うつ病予防プログラムの効果について再考してみよう。

確かに産後1ヶ月目の GAF 得点の平均値は対照群と実験群でかなりの差があった。これが有意差に到らなかっ

たのは標準偏差が大きかったからである。ところで女性たちの GAF 得点が出発点,すなわち妊娠初期で一律で

5

6

7

8

Page 14: 12 研究被検者数を決めよう ― 検出力分析 · 2018-06-26 · 12 研究被検者数を決めよう ― 検出力分析 2 実験群 (n = 50) 82 20 対照群に比べると実験群の

12 研究被検者数を決めよう ― 検出力分析

14

あるはずはない。表 12-4 に見るように,対照群,実験群ともに妊娠初期の GAF は良好な値であった。ところ

が対照群では産後 1 ヶ月で GAF 得点が全体的に低下する一方,実験群では良好な GAF 得点が維持されている。

対照群では GAF が平均で 10 点低下していた。実験群では GAF 得点はほとんど前後で同じであった。そして

期間の前後での差の標準偏差は両群とも 5 であった(表 12-4)。

前回と同様に G*Power で入力をする。Effect size を Determine 経由で計算する。すると ES は 2.0 と大き

く上昇した。その結果,必要とする被検者数は 6 x 2 = 12 と激減したのである。

なお,その際の推定される対照群と実験群の(標準化された)ヒストグラムは次のようになる(図 12-5)。2 時

点で 2 群を比較するなら,各群における時点差を解析の対象としてみよう。

図 12-5. 対照群と実験群における GAF 値の変化量の分布(N = 100, α = 0.05)

開始時点の基準変数の値が結果に影響することは当然である。これ以外にも強く交絡する変数があればこれを

考慮することは重要な作業である。