20170225_sample size determination

2017/02/25 医療者教育・臨床研究ネットワーク量的研究WS

サンプルサイズ設計の理論と実際Sample size determination

12017/02/25 © 2017 TAKAORI HIROE; DEPARTMENT OF BIOSTATISTICS, KYOTO UNIVERSITY SCHOOL OF PUBLIC HEALTH

京都⼤学⼤学院医学研究科Kyoto University Graduate School of Medicine

医療統計学分野 / 医学教育推進センターDepartment of Biostatistics / Center for Medical Education

廣江貴則 Takanori Hiroe（t-hiroe[at]umin.ac.jp）

Outline1. Introduction2. 要約統計量と効果量◦ 分散・標準偏差ってなんでしたっけ？◦ 効果量と有意⽔準と検出⼒と

3. とりあえずソフトに慣れてみる◦ G*PowerとRと…

4. ソフトがあっても難しいわけです◦ 感度解析をやってみよう

2017/02/25 © 2017 TAKAORI HIROE; DEPARTMENT OF BIOSTATISTICS, KYOTO UNIVERSITY SCHOOL OF PUBLIC HEALTH 2

Introduction（1/2）•昔はいい時代があった（らしい）•「有意差が出ない？対象者を増やせ！」•いまはそんなことは許されない•増やせば精度が上がるので⼩さな差でも有意になる•現在は，事前に決めておくのがルール•事後的に検証することも（実際どうだったか？）•サンプルサイズが既に決まっていることも•決めるにはそれなりの根拠と度胸が必要•外したら…•てへぺろ☆(・ω<)


Introduction（2/2）•数式だけでどうにか…なりません•パラメータのいくつかは当該分野の専⾨家が判断•臨床的・倫理的妥当性を⽰す⽅程式はない•絶対的な「正解」は存在しない•サンプルサイズ設計は検定⼒分析の⼀⼿法• α（有意⽔準），1-β（検出⼒），効果量, n• 4つのうち3つが決まれば1つが決まる• 実際にはもう少し計算は⾯倒ですけど• α，β，効果量を決めればサンプルサイズは計算可能


結局どんなことしてるの？•結論から先にいえば…•（プライマリー・エンドポイントに着⽬した）•仮説検証のために必要な最低の数

を⾒積もりと計算によって求める作業• 予想的中ならα=p(=0.05)となる• 最近はMultiple Endpointにも対応するけれど

•複数のパラメータと統計的検定の⽅法に依存•検定統計量を求める式から逆算するイメージ• α，1-β，効果量がわかれば計算できる•効果量は期待される差や標準偏差を⽤いて計算


でも…

•あくまでも計算結果です！•計算しただけですから，そのまま使えません•必要最低限の数なので，積み増す必要あり•最終的な数は計算結果とは異なります！！

（念のため）


要約統計量•平均値と中央値•加重平均とか２乗平均平⽅根（RMS）とか•偶数個の場合の中央値はどう求める？•IQRは？•最近よく論⽂でみかけますが• Interquartile range•となりの⼈同⼠で説明してみてください•認識は⼀致しましたか？


さて，と；•ところで，標準偏差ってなに？•説明してみよう！•正規分布で±2σが95%なのは「特性」•標準偏差が10ってどういうこと？•x={1,3,5,7,9}の分散と標準偏差


さ、教えてっ！

効果量（1/4）•結構曖昧な概念（なので説明が難しい）•モノサシで測定可能な数字ではない•効果量そのものが意味を持つ場合はわずか• e.g. メタアナリシスの⼀部

•効果量：読んで字の如く，効果の⼤きさ• p値，信頼区間と並んで論⽂で報告が求められる• p値は効果の⼤きさを⽰さない！


効果量（2/4）•80種類以上が提案されている•しかも同じ記号でも計算⽅法や意味が違ったり…•とりうる範囲は0以上，上限なし•効果量は経験的な「⽬安」 Cohen(1969)

•誰の提唱したどの効果量なのか把握しておく•…と⾔いたいのだが，書いていないことも•効果量は「⼤」「中」「⼩」の３区分が多い•それぞれの場合の効果量がどこかに書いてある


効果量（3/4）•効果量って必要？•必要です（あると便利です）•あるテストをAクラスとBクラスで実施したところ20点の差がありました。•このテストが100点満点の場合と，1000点満点の場合では，20点の重みは全く違う

•p値だけではこの重みの違いを判断できない•標準化された指標が必要：そこで効果量を使う


効果量（4/4）•効果量は80種類以上あるといったが…•諸説あるものの，⼤まかな分類は可能1. d族

群間差（e.g.2変量の関係）に関する効果量Cohenʼs d や Hedgeʼs g が有名

2. r族変数間の関係の⼤きさに関する効果量相関係数rが代表的


Cohenʼs d•2標本の差の効果量•「平均値の差を⽣じさせる効果の⼤きさ」•記述統計に基づく標準偏差を⽤いる


Hedgeʼs g•2標本の差の効果量•推測統計に基づくPoolされた標準偏差•でもdと書いてある⽂献が多い



⽔本・⽵内(2008)より

αエラーとβエラーαエラー：Type Ⅰ errorとも◦ 帰無仮説が正しいときに棄却してしまう◦ ⼀般には研究実施側に有利◦ 研究を規制する側はこちらを⼩さくしたい

βエラー：Type Ⅱ errorとも◦ 帰無仮説が誤りなのに棄却できないと判定してしまう◦ ⼀般には研究実施側に不利◦ 研究者はこちらを⼩さくしたい◦ 1-βをとくに「検出⼒」と呼ぶ

2017/02/25 18© 2017 TAKAORI HIROE; DEPARTMENT OF BIOSTATISTICS, KYOTO UNIVERSITY SCHOOL OF PUBLIC HEALTH

表で⽰すとこうなる


αエラーの確率は有意水準を設定して制御◦一般的には5%がよく使われる◦違う数字を使う場合はそれなりの根拠が必要

1−βを検出力と呼ぶ◦帰無仮説が誤りのときに正しく棄却できる確率

検定の結果

帰無仮説採択帰無仮説棄却

実際の状態帰無仮説が正しい OK αエラー

帰無仮説が誤り βエラー（見落とし）１−β（検出力）

α → 0，1β → 1 は可能かα：帰無仮説が正しいのに（誤って）棄却する確率1β：帰無仮説が誤っているときに棄却できる確率

αを0にして，1βを1にできれば理想◦ そんなことは可能か◦ できなくとも近づけることはできないか有意⽔準αと検出⼒1-βの関係って？


有意⽔準αを0にするαを0にすることそのものは可能帰無仮説が正しいのに誤って棄却する確率を0に◦ 帰無仮説に関係なく，棄却しない（採択する）

問題が起きる帰無仮説が誤っていても棄却されない◦ βの値が1になるので，検出⼒（1β）は⼩さくなる◦ αを0にすると検出⼒が極端に低くなる


検出⼒1βを1にする1βを1にすることそのものは可能つまり，βを0にすればよい帰無仮説が誤っているのに採択してしまうのがβ◦ 帰無仮説に関係なく，とにかく棄却する

問題が起きる帰無仮説が正しくても棄却してしまう◦ 有意⽔準αの値が⼤きくなる◦ 検出⼒を上げることで，第⼀種の過誤確率が上がる


有意⽔準と検出⼒の関係有意⽔準を0にすると，検出⼒が下がる検出⼒を上げると，有意⽔準が1となる◦ 有意⽔準は⼩さい⽅がよい◦ 検出⼒は⼤きい⽅がよい

でも，結局トレードオフ◦ どちらかをとれば，どちらかが失われる◦ ⼀般に，αは5%でコンセンサスがとれている◦ 検出⼒には限界があると覚えておけばよい


ここでクイズ•検出⼒0.2（かなり低い）で統計的検定をしたところ，p=0.020で有意となった。•この結果の解釈のうち正しいものを全て選べ

1. 検出⼒が低いので結果の信⽤性は低い2. 検出⼒が低くても有意なら帰無仮説を棄却3. 検出⼒が低いのでα=0.01とすべき


それで…•ところで，標準偏差ってなんでしたっけ•説明してみよう！



計算に必要な情報たとえば２群⽐較をやってみる

1. 有意⽔準 α：0.05が⼀般的2. 検出⼒ 1β：0.7〜0.9が⼀般的（だが，場合による）3. ⽤いる検定の⽅法4. それぞれの集団で予測される平均値/割合など5. 効果量（必要な場合）【平均の⽐較の場合】（これで効果量を計算することも）◦ 検出したい差 δ：内容による◦ 共通の標準偏差 σ（いくつか計算⽅法がある）

【割合の⽐較の場合】◦ 推定される各群の割合◦ 症例数の⽐ m


数式は教科書にもあるが…実際の計算はかなり⾯倒◦ ソフトウェアに任せるのが吉◦ 統計解析ソフトのほかに，専⽤のものもある◦ 特殊なサンプルサイズ設計以外は⼿計算やプログラムを書いての計算はおすすめしない

◦ 分からなければ専⾨家に訊くとよい計算結果の読み⽅に注意◦ 2群でその数字か，1群あたりの数字か◦ 2群で154.3⼈という計算結果が得られた場合，端数処理はどうする？


たとえば差 δ臨床的に意味を⾒出せる差として扱うこともある薬の効果を確かめたい•⾎圧1mmHgの低下に意味がある？•たぶん20mmHgくらいないと意味がない• NRSが1下がることに意味は？（リ○カ®とか）開発した教材の効果を確かめたい•何点上昇すればいい？（10点，15点，20点…）•関連する研究などを参考に研究者が設定•情報の受け⼿が納得できる数字であること


たとえば群の割合どんな値をとるか予想する対照群の数字も（予想であっても）必要になる先⾏研究などを参考にして検討◦ 既に参考になる効果量がある場合などは利⽤

ソフトウェアによって⼊⼒させる項⽬が異なる◦ 計算しているものは同じ（ただし微妙に異なることも）

Windows版ならVanderbilt⼤学のPSが便利◦ Methodsのところにコピペできる⽂章を作ってくれる！

http://biostat.mc.vanderbilt.edu/wiki/Main/PowerSampleSize


G*Powerを使ってみる


Test Familyを選択1. Exact

Fisherʼs Exact test・McNemar test・相関係数など2. F testsANOVA・MANOVA・回帰分析など

3. t testst test・Wilcoxon testなど

4. χ^2 tests5. Z tests


Type of power analysis1. A priori：事前分析に⽤いる2. Post hoc：事後分析に⽤いる

主に２つを使うが，別のものを⽤いてもよい（⼊⼒するパラメータが異なるだけ）


例題１•同⼀⼈物に対する模試の点数変化•対応のある両側t検定• α=0.05•検出⼒1-β=0.8• Effect size d=0.5• Cohenʼs dの「中程度」• スライド17の表参照


こたえ１


例題２•e-Learning群と対⾯授業群の試験成績⽐較• e-Learning群：74点•対⾯授業群：+8点•標準偏差（両群のデータをpool）：25•対応のない両側t検定• α=0.05•検出⼒1-β=0.7•⼈数⽐ 1:1


こたえ２


例題３•クラス別の試験成績⽐較•効果量は中程度と⾒積もる•⼀元配置分散分析• α=0.05•検出⼒1-β=0.7• 3群⽐較（多重⽐較ではない）


こたえ３


Rを使ってみる


Rの基本的な操作•CUIっぽいからといって⼼配する必要はない•加減乗除はそのまま⼊⼒すると計算できる•代⼊は “<-” 記号を使う• x <- 5•複数のデータを⼊⼒する場合 c( )を使う• x <- c(1,2,3,4,5)•⾏列の場合• x <- matrix(c(1,2,3,4), ncol=2, byrow=T)• ncolは⾏の数，byrow=Tは横に埋めていく


ほら，できた


これだけできると…

•この表のデータを⼊⼒すると…•x <- matrix(c(10,15,20,20), ncol=2, byrow=T)• chisq.test(x)；カイ⼆乗検定• fisher.test(x)；Fisherの直接確率検定• （カイ⼆乗検定は直接確率検定の近似）


採用不採用計

男性 10 15 25

女性 20 20 40

計 30 35 65

ちょっと応⽤：CSVファイルの読み込み•作業ディレクトリの変更（確認）が必要•Windowsは「ファイル」，Macは「その他」•あとは取り込むだけ• x <- read.table(abc.csv, sep=”,”, header=TRUE)•別にxでなくてもよい•テキストファイル（.txt）でもよい• sep=“¥t”と書くとタブ（空⽩）を認識•最初の⾏に変数名がないならheader=FALSE•やり⽅はネットに転がっているので覚えなくてOK


さあ，サンプルサイズ計算•まずはRの標準機能から1. power.t.test( );t検定2. power.anova.test( )；ANOVA3. power.prop.test( )；割合の検定⼊⼒すると下に⼩さく⼊⼒例が出るので安⼼


power.t.test( )•対応のないt検定•例：power.t.test(n=NULL, delta=10, sd=20, sig.level=0.05, power=0.9)• n：サンプルサイズ• delta：2群の差• sd：（Poolされた）標準偏差• sig.level：有意⽔準α• power：検出⼒1-β

•このうち求めたい箇所を「=NULL」とする


power.prop.test( )•2群の割合の検定•例：power.prop.test(n=NULL, p1=0.1, p2=0.3, sig.level=0.05, power=0.9)• n：サンプルサイズ• p1：グループ1の割合• p2：グループ2の割合• sig.level：有意⽔準α• power：検出⼒1-β

•このうち求めたい箇所を「=NULL」とする


例題４•とある難関試験の対策講座•⾒積もり•受講したグループの合格割合: 30%•受講しなかったグループの合格割合：10%•２群の割合の両側検定• α=0.05•検出⼒1-β=0.8•受講したグループ：受講しないグループ=1:1•２群合計で必要なサンプルサイズは？


こたえ４•割合なので power.prop.test( )を使う•⼤⽂字・⼩⽂字の違いに注意•両側検定ではalternative以降は指定しなくてもOK


62×2=124

例題５•e-Learning群と対⾯授業群の試験成績⽐較• e-Learning群：74点•対⾯授業群：+8点•標準偏差（両群のデータをpool）：25•対応のない両側t検定• α=0.05•検出⼒1-β=0.7•⼈数⽐ 1:1•例題２と同じ問題をRで求めてみる


こたえ５•t検定なのでprop.t.testを使う


122×2=244

ライブラリを使ってみる•短いコマンドでひとまとめの処理ができる•新たにプログラムを組まなくてもよい•ただし⽟⽯混交•妥当性の確認がとれていないものも•かわりにSASなどの商⽤ソフトより採⽤は早い•予めlibrary( )で読み込んでおく•マニュアルがあるので確認する•指定すべきパラメータなどが全て書いてある


TrialSizeを使ってみる•Rを起動したら library(TrialSize) と⼊⼒•これで使⽤可能になる•インストールしていないライブラリ使えない•関数はマニュアルを参照•標準の関数よりも圧倒的に種類が多い•他にもpwrというライブラリもよく使われる

•例：OneSampleProportion.Equivalence•あとでやってみる


TrialSizeのマニュアルより•OneSampleProportion.Equivalence


決めうちはハイリスクパラメータの予測は予測でしかない◦ 正確に予測するのは困難（無理！）◦ 数字が動いたらどのくらい影響を受けるか

（if〜thenの考え⽅）予測を外した場合の影響の評価をする→感度解析（分析）◦ 影響が⼤きい場合は慎重に検討◦ 現実的な数（妥協できる数）との⽐較検討◦ 無理なら試験中⽌，デザインの⾒直しなども


感度解析（分析）とは決め打ちをせずに決められたらいい（？）条件が変化したときに最適解がどの程度変化するのかを計算して確認すること◦ 標準偏差や割合の差，検出⼒が変化した場合に必要なサンプルサイズがどの程度変化するか

◦ 統計解析が必要な様々な領域で利⽤される完全な予測は優秀な統計家でも無理◦ でも被害は最⼩限に抑えたい◦ ⽯橋を叩いて（時には壊れても）渡る図や表を作成して検討することが多い


台⾵の進路予測とか


感度解析の例複数のパターンで計算して，実現可能な数や検出⼒と折り合いをつけて最終的なサンプルサイズを決める


割合検出⼒

60% 70% 80%20% 250 314 39825% 126 158 20030% 78 98 12435% 54 68 8640% 40 50 6445% 32 38 48

例：2群の割合の⽐較，⽚⽅は10%固定で，1:1

パラメータはなんでもいいα，1-β，サンプルサイズ，効果量のうち3つを決めれば残りが決まるサンプルサイズの上限が初めからほぼ決まっている場合も少なくないが，この場合でも感度解析は有効

◦ 脱落が⽣じた時に検出⼒にどの程度影響するか◦ 効果量が想定していたほどでなかった場合または変化した場合に検出⼒にどう影響するか


ひとつひとつ計算していく•パラメータをひとつだけ段階的に変化させる•複数のパラメータは同時に動かさない•クロス集計表もしくはグラフを描く

•例題２を使って実践してみる•「感度解析の例」のようなスライドを作る•検出⼒(1-β)を0.6，0.7，0.8に変化•標準偏差(SD)を15，20，25，30，35に変化•クロス集計表を作ってみる


例題６（例題２改）•e-Learning群と対⾯授業群の試験成績⽐較• e-Learning群：74点•対⾯授業群の増加点数：+2，+4，+6，+8，+10•標準偏差（両群のデータをpool）：25•対応のない両側t検定• α=0.05•検出⼒(1-β)を0.6，0.7，0.8に変化•感度解析のためのクロス集計表を作成•複数のパラメータを同時に動かさない


こたえ６•Rによる計算のケース• power.t.test(n=NULL, delta=*, sd=25, sig.level=0.05, power=**)


増加点数*検出⼒**

60% 70% 80%+2 3062 3860 4908+4 768 968 1230+6 344 432 548+8 194 244 310+10 126 158 200

G*Powerだと…•PowerPlotですぐに図が描ける


例題７（例題４改）•サンプルサイズの上限が与えられている場合•減ったら検出⼒はどう変わるか•とある難関試験の対策授業•受講グループの合格割合: 20%, 30%, 40%と変化•受講しなかったグループの合格割合：10%•２群の割合の両側検定• α=0.05，検出⼒1-β=0.8•受講したグループ：受講しないグループ=1:1•２群で最⼤80名（75, 70, 65, 60と変化）


例題７（例題４改）•今度はG*Powerを使ってみる


それで…•ところで，標準偏差ってなんでしたっけ•説明してみよう！



まとめサンプルサイズは「はっきり」決まるものではない計算してからどうするかが重要◦ 数字が動いたらどのくらい影響を受けるか

→ 感度解析（分析）を必ず実施して評価

統計ソフトの利⽤◦ Rはコマンドに慣れてしまえばいろいろ便利◦ コマンドは憶えておく必要は（あまり）ない◦ 直感的に操作できるソフトウェアも併⽤するとよい


お疲れさまでした

2016/04/20 © 2016 TAKANORI HIROE; DEPARTMENT OF BIOSTATISTICS, KYOTO UNIVERSITY SCHOOL OF PUBLIC HEALTH 69

研究がんばれっ！

今⽇の質問や解析のお悩み相談に応じます。名刺が必要な⽅は声をおかけください。

hiroe.takanori.65w[at]kyoto-u.jpFacebook: takanorihiroe

までどうぞ。

20170225_sample size determination

Science