「測定の信頼性」 j. l. フライス、「臨床試験のデザインと解析」第一章...
DESCRIPTION
「測定の信頼性」 J. L. フライス、「臨床試験のデザインと解析」第一章 を下敷きに. 久留米大学バイオ統計センター 久留米大学大学院医学研究科バイオ統計学群 森川 敏彦 久留米大学バイオ統計センター公開セミナー 2005.7.2 久留米大学教育一号館 1501 号. J. L. フライス「臨床試験のデザインと解析」第一章より. いかに臨床研究のデザインが優れていたとしても、測定の信頼性が低く不正確であれば、そのことによる欠陥を克服することはできない。 データの質が高いことは、ランダム化や二重盲検化などと同じ位に重要な試験デザインの要素である。. - PowerPoint PPT PresentationTRANSCRIPT
1
「測定の信頼性」「測定の信頼性」J. L. J. L. フライス、「臨床試験のデザインと解析」第一章フライス、「臨床試験のデザインと解析」第一章
を下敷きにを下敷きに
久留米大学バイオ統計センター久留米大学バイオ統計センター久留米大学大学院医学研究科バイオ統計学群久留米大学大学院医学研究科バイオ統計学群
森川 敏彦森川 敏彦
久留米大学バイオ統計センター公開セミナー久留米大学バイオ統計センター公開セミナー2005.7.2 2005.7.2 久留米大学教育一号館久留米大学教育一号館 15011501 号号
2
J. L. J. L. フライス「臨床試験のデザフライス「臨床試験のデザインと解析」第一章よりインと解析」第一章より いかに臨床研究のデザインが優れていいかに臨床研究のデザインが優れてい
たとしても、測定の信頼性が低く不正たとしても、測定の信頼性が低く不正確であれば、そのことによる欠陥を克確であれば、そのことによる欠陥を克服することはできない。服することはできない。
データの質が高いことは、ランダム化データの質が高いことは、ランダム化や二重盲検化などと同じ位に重要な試や二重盲検化などと同じ位に重要な試験デザインの要素である。験デザインの要素である。
3
ICHICH E9E9 統計ガイドライン統計ガイドライン ガイドラインの目的はガイドラインの目的は
臨床試験から得られる結果の臨床試験から得られる結果の
偏りを最小に偏りを最小に、、精度を最大に精度を最大に(得られた結果・結論の科学的信憑性を最大に)(得られた結果・結論の科学的信憑性を最大に)
することすること
これはガイドラインがあろうとなかろうと科学研究これはガイドラインがあろうとなかろうと科学研究である限り、当然追求しなければならないことである限り、当然追求しなければならないこと
4
• ICH E9 Statistical Principles For Clinical Trials
– 2.2.2 Primary and Secondary Variables(主要変数及び副次変数)
"The use of a reliable and validated variable with which experience has been gained either in earlier studies or in published literature is recommended.”
”There should be sufficient evidence that the primary variable can provide a valid and reliable measure of some clinically relevant and important treatment benefit in the patient population described by the inclusion and exclusion criteria.”
5
2.2.3 Composite Variables(合成変数) "When a rating scale is used as a primary variable, it is especially important to address such factors as content validity (see Glossary), inter- and intra-rater reliability (see Glossary) and responsiveness for detecting change in the severity of disease.”
ex. ADAS-cog.(Alzheimer’s Disease Assessment Scale-cognitive subscale) Total Score
2.2.4 Global Assessment Variables(総合評価変数) "When a global assessment variable is used as a primary or secondary variable, further details of the scale should be included in the protocol with respect to:
1) the relevance of the scale to the objective of the trial
2) the basis for the validity and reliability of the scale ex. CIBIC (Clinician’s Interview Based Impression of Change)
6
GlossaryGlossary Content ValidityContent Validity(内容妥当性)(内容妥当性)
The extent to which a variable (e.g. a rating scale) The extent to which a variable (e.g. a rating scale) measures what it is supposed to measuremeasures what it is supposed to measure 測りたいも測りたいものが測れているかのが測れているか
Inter-Rater ReliabilityInter-Rater Reliability(評価者間信頼性)(評価者間信頼性) The property of The property of yielding equivalent resultsyielding equivalent results when used when used
by by different ratersdifferent raters on different occasions on different occasions 違った評価違った評価者間で結果が再現するのか者間で結果が再現するのか
Intra-Rater ReliabilityIntra-Rater Reliability(評価者内信頼性)(評価者内信頼性) The property of The property of yielding equivalent resultsyielding equivalent results when used when used
by the by the same ratersame rater on different occasions on different occasions 同じ評価者同じ評価者内で結果が再現するのか内で結果が再現するのか
7
一見客観的と思えるような種々の測定にも妥当一見客観的と思えるような種々の測定にも妥当性、信頼性の問題は潜んでいる。客観的な測定性、信頼性の問題は潜んでいる。客観的な測定だから妥当で信頼がおけると天下り的に考えるだから妥当で信頼がおけると天下り的に考えるのは危険。のは危険。
理想的な状態ではいい性能をもっている測定器理想的な状態ではいい性能をもっている測定器であても生体内の測定においては種々の乱れがであても生体内の測定においては種々の乱れが入ってくる。入ってくる。
外国で妥当性が確認された評価尺度であっても外国で妥当性が確認された評価尺度であっても日本で(あるいは適用しようとしている対象に日本で(あるいは適用しようとしている対象に対して)妥当かどうかは確認しなければ分から対して)妥当かどうかは確認しなければ分からないない
8
例例 骨密度の測定骨密度の測定 コレステロール値の測定コレステロール値の測定 血圧の測定血圧の測定 胃内p胃内p HH の測定の測定 血糖値の測定血糖値の測定 痴呆・リウマチ・脳血管障害・うつ・痴呆・リウマチ・脳血管障害・うつ・
不安などの評価尺度不安などの評価尺度
9
測定・評価の妥当性と信頼性測定・評価の妥当性と信頼性 妥当性: 測りたいものが測れているか妥当性: 測りたいものが測れているか
?? (物差しで熱は測れない) (物差しで熱は測れない)
信頼性: 測りたいものが精度よく測れ信頼性: 測りたいものが精度よく測れるか?(熱を測るのに体温計? おでこるか?(熱を測るのに体温計? おでことおでこをくっつける?) 結果の再現とおでこをくっつける?) 結果の再現性性
10
測定・評価の妥当性と信頼性測定・評価の妥当性と信頼性妥当性
信頼性
的を得た・・・・
的外れ・・・・・・
ピントがずれて・・・・
ムラがある・・・
再現性がよいからいい測定器だ・・
11
測定・評価の妥当性と信頼性測定・評価の妥当性と信頼性 正解(“的”;正解(“的”; gold standardgold standard )がわかっていれ)がわかっていれ
ば、それと付き合わせることにより、偏り(妥当ば、それと付き合わせることにより、偏り(妥当性)や精度(信頼性)がわかる。性)や精度(信頼性)がわかる。
正解がわからなくても精度は把握はできる。正解がわからなくても精度は把握はできる。 血圧などの測定値はほんとのところはわからない血圧などの測定値はほんとのところはわからない
が、が、 TT 社、社、 OO 社、社、 MM 社などの簡易測定器で測る社などの簡易測定器で測ると会社によって(機種によって?)高めや低めがと会社によって(機種によって?)高めや低めがあり、また何回か測り直すと、いくらでも違う数あり、また何回か測り直すと、いくらでも違う数値が表示される。妥当性・信頼性の両方の問題を値が表示される。妥当性・信頼性の両方の問題を含む(?)含む(?)
12
信頼性の尺度信頼性の尺度 連続データ:連続データ:信頼性係数(または信頼性係数(または ICC)ICC)
分類データ:分類データ: κκ 係数係数
13
信頼性の統計モデル信頼性の統計モデル 測定モデル測定モデル
222eTX
:e
:T
:X
eTX
誤差真値測定値
14
信頼性係数信頼性係数coefficient of reliabilitycoefficient of reliability(reliability coefficient)(reliability coefficient)
信頼性係数の定義信頼性係数の定義
22
2
2
2
22
2
2
2
111eT
e
X
e
eT
T
X
TR
測定値の分散誤差分散
測定値の分散真値の分散
15
級内相関係数級内相関係数intraclass correlation coefficientintraclass correlation coefficient (( ICIC
C)C) ICC:ICC: 同じものを同じものを 22 度測ったときの相関係数度測ったときの相関係数 先ほどの測定モデルの下で先ほどの測定モデルの下で
すなわち、いま考えている測定モデルの下ですなわち、いま考えている測定モデルの下でICCICC は信頼性係数に等しいは信頼性係数に等しい
)R(
)X(V
)T(V
)Y(V)X(V
)eT,eT(Cov
)Y(V)X(V
)Y,X(CovICC
X
T
YX
2
2
2
16
級内相関係数級内相関係数 ICCICC と相関係数と相関係数 ICCICC は同じ被験者(あるいは測定対象)をは同じ被験者(あるいは測定対象)を 22 回測った回測った
ときに測定結果ときに測定結果 XX とと YY が傾きが傾き 4545 度の直線の上に乗って度の直線の上に乗っている程度(測定の一致性・再現性)いる程度(測定の一致性・再現性)
一般の相関係数は単に直線の上に乗っている程度一般の相関係数は単に直線の上に乗っている程度
相関係数が高いからといって、相関係数が高いからといって、 ICCICC が高いとは限らなが高いとは限らないい
ICCICC が低くても相関係数が高いことはありうるが低くても相関係数が高いことはありうる 逆に逆に ICCICC が高ければ相関係数も高いし、相関が低けれが高ければ相関係数も高いし、相関が低けれ
ばば ICCICC も低いも低い
XY
baXY
17
級内相関係数と相関係数級内相関係数と相関係数級内相関と相関
0
20
40
60
80
100
120
0 20 40 60 80 100 120
X(一回目の観測値)
YZ
X Y Z
10 10 20
25 18 28
30 35 45
42 37 47
55 55 65
60 64 74
72 73 83
78 77 87
90 93 103
105 98 108
相関相関 ICCICC
XX ととYY
0.990.99 0.990.99
XX ととZZ
0.990.99 0.9540.954
18
信頼性が低いことがもたらす結信頼性が低いことがもたらす結果果 ①① 相関の低下~相関構造を崩す相関の低下~相関構造を崩す
520
607080
.
.R,.R,.
RR
fUY
eTX
XY
YXTU
YXTUXY
たとえば
19
信頼性が低いことがもたらす結信頼性が低いことがもたらす結果果 ②② サンプルサイズの増加サンプルサイズの増加
2群の患者からなる単純な2群比較試験2群の患者からなる単純な2群比較試験
は検出力):第2種の過誤率(の有意水準:両側検定を行うとき
ときの反応のバラつき測定による誤差がない
群間の平均反応の差)検出したい処理差
1
22
21
:
(:
T
20
信頼性が低いことがもたらす結信頼性が低いことがもたらす結果果 ②② サンプルサイズの増加サンプルサイズの増加
は信頼性係数ここに
とサンプルサイズはもし測定に誤差がある
りサンプルサイズ2標本t検定の1群当
RR
n)zz)((n
)zz(*n
*/eT
/T
2
22
22
2
22
2
2
2
21
信頼性が低いことがもたらす結信頼性が低いことがもたらす結果果 ②② サンプルサイズの増加サンプルサイズの増加
例ですむ。両群でであればもし例必要両群で1群
であれば、必要例数は数がしかし測定の信頼性係0例必要ゆえに両群合わせて8
より
として合の標準偏差を8測定誤差を含まない場ときでその差を検出したいその差を検出力80%
であればが5群間の平均変化量の差用し、両側有意水準5%を採
較するものとし、用いて独立な2群を比たとえば拡張期血圧を
10050804080
1206067040
670
405
8420961642
64858420961
2
2
2220002502
,./n.R
,./n
.R
)..)((*n
,,.zz,.zz
mmHG
mmHG
T../
22
信頼性が低いことがもたらす結信頼性が低いことがもたらす結果果 ③③ 臨床試験での標本選択の偏り臨床試験での標本選択の偏り
本来は真値本来は真値 TT が閾値が閾値 AA を上回る患者を試験の対象を上回る患者を試験の対象としたい。しかし測定値が誤差を含むために本来組としたい。しかし測定値が誤差を含むために本来組み入れるべきではないみ入れるべきではない T<AT<A なる患者もなる患者も X=T+e>AX=T+e>Aによって組み入れられる(偽陽性)。によって組み入れられる(偽陽性)。
このような患者は十分重症でないために反応を示このような患者は十分重症でないために反応を示すことができず、また選択された標本自体が想定すことができず、また選択された標本自体が想定している集団よりも広くなることにより比較の感している集団よりも広くなることにより比較の感度が鈍る。度が鈍る。
このような標本が偏る性質はいわゆる中心への回このような標本が偏る性質はいわゆる中心への回帰帰 regression to the meanregression to the mean の特別の場合の特別の場合
23
信頼性が低いことがもたらす結信頼性が低いことがもたらす結果果
③③ 臨床試験での標本選択の偏り臨床試験での標本選択の偏り
24
単純な繰り返し信頼性研究と単純な繰り返し信頼性研究と評価者内信頼性評価者内信頼性 intra-rater reliabilityintra-rater reliability
同一の測定者(測定器)・同一の条件同一の測定者(測定器)・同一の条件 N人の被験者N人の被験者 各被験者につき各被験者につき kk 回の測定の繰り返し回の測定の繰り返し 測定モデル測定モデル (( 一元配置ランダム効果モデ一元配置ランダム効果モデ
ル)ル)
25
データの形式データの形式 表1表1 .2’.2’ 一元配置デザインから得られるデータ 一元配置デザインから得られるデータ ―――――――――――――――――――――――――――――――――――――――――――――― 被験者 被験者 kk 回の繰り返しから得られる測定値回の繰り返しから得られる測定値 ―――――――――――――――――――――――――――――――――――――――――――――― 1 1 XX1111, X, X1212, , ・・・・・・・・ , X, X1k1k 2 2 XX2121, X, X2222, , ・・・・・・・・ , X, X2k2k
・・・・・・・・・・・ ・・・・・・・・・・・
N N XXN1N1, X, XN2N2, , ・・・・・・・・ , X , X NkNk ――――――――――――――――――――――――――――――――――――――――――――――
26
27
表1.3の元データ表1.3の元データ表1.3
患者 平均 分散 X1 X2
1 0.235 0.0265 0.397788 0.072212
2 0.115 0.0005 0.137361 0.092639
3 0.14 0.0008 0.168284 0.111716
4 0 0 0 0
5 0.385 0.0061 0.463102 0.306898
6 2.655 0.0005 2.677361 2.632639
7 0.065 0.0013 0.101056 0.028944
8 0.375 0.0085 0.467195 0.282805
9 0.58 0.0002 0.594142 0.565858
10 3.9 0.0338 4.083848 3.716152
28
表1.3の元データのプロッ表1.3の元データのプロットト
X2
0
0.5
1
1.5
2
2.5
3
3.5
4
4.5
5
0 1 2 3 4 5
X2
29
一元配置分散分析表一元配置分散分析表 (cf.(cf. 表表1.4)1.4)
分散分析表分散分析表変動変動 平方和平方和 平均平方平均平方 自由度自由度 平均平方平均平方
の期待値の期待値被験者間被験者間 BMSBMS N-1N-1
被験者内被験者内(誤差)(誤差)
WMSWMS (k-1)N (k-1)N
合計合計 kN-1kN-1
2e
22Te k
2)XX(k ii
2)XX( iijij
2)XX( ijij
30
31
分散分析分散分析 HH00: ならば: ならばE[E[ BBMS]=MS]=また仮説にかかわらずまた仮説にかかわらずE[E[WWMS]=MS]=
したがって帰無仮説 の下で、F=したがって帰無仮説 の下で、F= BBMMS/S/WWMSは自由度MSは自由度 N-1,(k-1)NN-1,(k-1)N のF分布に従うのF分布に従う。。
このF分布の上側このF分布の上側 αα点を として点を として
のときに帰無仮説を棄却する。のときに帰無仮説を棄却する。
e N2 1( )自由度
T2 0
,N)k(,NFWMS/BMSF 11 FN k N 1 1,( ) ,
T2 0
)N)k((e 12 自由度は
32
(参考)独立な平均平方の比(参考)独立な平均平方の比 平均平方をM,対応する自由度をf、Mの期待値平均平方をM,対応する自由度をf、Mの期待値
をE[M]で表すと、fMは平方和でをE[M]で表すと、fMは平方和でfM/E[M]は自由度fのfM/E[M]は自由度fの χχ 22分布に従う。分布に従う。
独立な二つの独立な二つの χχ 22変量を変量を χχ1122、、 χχ22
22とし対応する自とし対応する自由度をf由度をf11、f、f22とするととすると(χ(χ11
22 // ff11 )/(χ)/(χ2222 // ff 22)) は自由度fは自由度f11、f、f 22 のF分布のF分布
共通の期待値を持つ独立な二つの平均平方をM共通の期待値を持つ独立な二つの平均平方をM11
、M、M22とし対応する自由度をfとし対応する自由度をf11、f、f22とするとMとするとM
11/M/M22は自由度fは自由度f11、f、f 22 のF分布のF分布
33
信頼性係数に関する推測信頼性係数に関する推測 信頼性係数信頼性係数 ::
逆に信頼係数が与えられると逆に信頼係数が与えられると被験者間分散は被験者間分散は
の検定 の検定 と は同値なので、先ほどの分 と は同値なので、先ほどの分散分析がそのまま使える。散分析がそのまま使える。
0R
10222 R),/(R eTT
22
1 eT R
R
02 T0R
22
2
eT
TR
34
信頼性係数の推定値信頼性係数の推定値
22Te k)BMS(E
2e)WMS(E
755712
007805192322
.
..
k
WMSBMSˆ TT
の推定値
0078022 .WMSˆ ee の推定値
9960078051923
078051923
1.
..
..
WMS)k(BMS
WMSBMSR̂
R(R
入)の定義に上の推定値代の推定値信頼係数
35
RR の信頼区間の信頼区間
αのF分布の上側 点自由度
はににより得られる。ここ
の上側信頼区間はよって、のF分布に対して自由度とおくとFは所与の
の推定量。ゆえにとは独立な
はると、が与えられたものとすもし
NkN
F
FkWMSBMS
FWMSBMSR
R
NkNR
WMSR
RkBMSF
BMSEBMS
WMSR
RkWMSR
NkN
NkN
NkN
)1(,1
987.0
02.30078.0/5192.3
02.30078.0/5192.3
)1(/
/
)1(,1
]}1
)1(1/[{
)(
)1
(
,)1(,1
,)1(,1
,)1(,1
36
り得られる。組み合わせることによ上側信頼区間を信頼区間はこれと前の両側
により得られる。
を利用してあるいは
区間は同様に、Rの下側信頼
)(
)k(F)WMS/BMS(
F)WMS/BMS(R
F/F
F)k(WMS/BMS
FWMS/BMSR
,N,N)k(
,N,N)k(
,N,N)k(,N)k(,N
,N)k(,N
,N)k(,N
21
1
1
1
1
11
11
11111
111
111
Rの信頼区間(2):両側Rの信頼区間(2):両側
37
> > dd<-<-read.table("e:Tab1.3.txt",headerread.table("e:Tab1.3.txt",header=T)=T)
> d> d X1 X2X1 X2 1 0.3977882 0.072211791 0.3977882 0.07221179 2 0.1373607 0.092639322 0.1373607 0.09263932 3 0.1682843 0.111715733 0.1682843 0.11171573 4 0.0000000 0.000000004 0.0000000 0.00000000 5 0.4631025 0.306897505 0.4631025 0.30689750 6 2.6773607 2.632639326 2.6773607 2.63263932 7 0.1010555 0.028944497 0.1010555 0.02894449 8 0.4671954 0.282804568 0.4671954 0.28280456 9 0.5941421 0.565857869 0.5941421 0.56585786 10 4.0838478 3.7161522410 4.0838478 3.71615224
>i>icc(d,model="oneway",conf.level=cc(d,model="oneway",conf.level=0.9)0.9)
Single Score Intraclass CorrelationSingle Score Intraclass Correlation
Model: oneway Model: oneway Type : consistency Type : consistency
Subjects = 10 Subjects = 10 Raters = 2 Raters = 2 ICC(1) = ICC(1) = 0.9910.991
F-Test, H0: r0 = 0 F-Test, H0: r0 = 0 F(9,10) = 225 , p = 4.83e-10 F(9,10) = 225 , p = 4.83e-10
90%-Confidence Interval for ICC P90%-Confidence Interval for ICC Population Values:opulation Values:
0.974 < ICC < 0.9970.974 < ICC < 0.997
表1.3のデータ(元に戻したデータを用いた場合)による ICC(R の irr package による ; cf. 鍵村、 2005) )
38
信頼性試験の結果を利用した信頼性試験の結果を利用した次の臨床試験の例数設計次の臨床試験の例数設計
。群当りの例数が求まるなとして次の試験に必要
となるからるとを検出したいものとす
の差異回の期外収縮数(回とまた1時間当りが求まる。
からと得られた信頼性試験の結果から
1
150(0.43)
0.842)1.962(1.7635)(n
43.0)15.5ln()10.9ln(
VPD)5.50.97635.1ˆˆˆ
0078.0ˆ7557.1ˆ
2
2
222
22
eTX
eT
39
繰り返しによる信頼性の向上繰り返しによる信頼性の向上 一人の被験者に対し、m回測定を繰り返し、一人の被験者に対し、m回測定を繰り返し、
その平均値で測定値を代表させるものとすその平均値で測定値を代表させるものとすると、その平均値の信頼性係数はると、その平均値の信頼性係数は
この公式は求める信頼性を得るために必要この公式は求める信頼性を得るために必要なくり返し数を得るためにも使える。なくり返し数を得るためにも使える。
の公式BrownSpearman
R)m(
mRRm
11
40
繰り返しによる信頼性の向上繰り返しによる信頼性の向上
ある。回のくり返しが必要で達成するために、
をのとき式)。となる(オッズ比の形
はなくり返し測定数を達成するために必要とすると、を求める信頼性の程度
値、れる信頼性係数の推定を信頼性研究から得ら
3)10.0(75.0/)25.0(90.0
90.0*75.0ˆ
*)1(ˆ)ˆ1(*
*
*
ˆ
m
RR
RR
RRm
mR
R
R
41
評価者間信頼性研究:二元配評価者間信頼性研究:二元配置置
42
評価者間信頼性評価者間信頼性 N人の被験者:第N人の被験者:第 ii 被験者のスコア被験者のスコア kk人の評価者(測定器)人の評価者(測定器) :: 第第 jj 評価者の効果評価者の効果 各評価者はすべての被験者を判定(測定)各評価者はすべての被験者を判定(測定) ランダム化と盲検化ランダム化と盲検化 モデル①評価者が固定されている場合モデル①評価者が固定されている場合
(二元配置混合モデル)(二元配置混合モデル)
)e(e,T
),(N:e,),,(N:T
eTX
ijiji
eij
k
j jTi
ijjiij
は誤差それぞれは独立に分布
2
1
2 00
jiT
43
評価者間信頼性:二元配置モデ評価者間信頼性:二元配置モデルル ②② 評価者がランダムに選ばれている場評価者がランダムに選ばれている場
合合(二元配置ランダム効果モデル)(二元配置ランダム効果モデル)
)e(
),(N:e),,(N:),,(N:T
eTX
ij
eijrjTi
ijjiij
は誤差それぞれは独立に分布
222 00
44
評価者間信頼性:二元配置モデ評価者間信頼性:二元配置モデルル
45
多評価者間信頼性研究の例多評価者間信頼性研究の例
46
多評価者間信頼性研究の例多評価者間信頼性研究の例
47
二元配置の場合の級内相関係数二元配置の場合の級内相関係数 二元配置分散分析モデルで同じ被験者内の2つの測二元配置分散分析モデルで同じ被験者内の2つの測
定値間の相関をとると定値間の相関をとると
これも一元配置の場合と同様に R=真値の分散/これも一元配置の場合と同様に R=真値の分散/測定値の分散の形をとり、やはり信頼性係数とも呼測定値の分散の形をとり、やはり信頼性係数とも呼ばれる。測定者間差および測定誤差がなく、測定値ばれる。測定者間差および測定誤差がなく、測定値の再現性が高いとき、ICCないし信頼性係数の値の再現性が高いとき、ICCないし信頼性係数の値は大きくなり、完全に再現するときR=1は大きくなり、完全に再現するときR=1 , , 再現性再現性が乏しい極限でR=0。が乏しい極限でR=0。
)/(
)X(V)X(V/)X,X(Cov)X,X(CorrICC
)T(V)eT,eT(Cov)X,X(Cov
)e(V)(V)T(V)X(V
2e
22T
2T
'ijij'ijij'ijij
2Ti'ij'jiijji'ijij
2e
22Tijjiij
48
二元配置分散分析表二元配置分散分析表分散分析表(二元配置)分散分析表(二元配置)
変動変動 平方和平方和 平均平方平均平方 自由度自由度 平均平方平均平方の期待値の期待値
被験者被験者 PMSPMS N-1N-1
評価者評価者 RMSRMS k-1k-1
被験者内被験者内 EMSEMS (k-1)(N-1) (k-1)(N-1)
合計合計 kN-1kN-1
2)XX(k ii
2)XX(N jj
2)XX
XX(
j
iijij
2)XX( ijij
22Te k
22re N
2e
49
信頼係数(評価者間信頼係数信頼係数(評価者間信頼係数))
と呼ばれる。のはが必要付加的に評価すること
などをやのみならずの値が小さい場合はしたがって
小さくなることに注意が大きい場合にものみならずは
CCEbelR
RRRR
R
R
E
errreTTE
er
erT
T
I
)/()/( 222222
22
222
2
22Te k)PMS(E
22re N)RMS(E
2e)EMS(E
50
信頼係数 の推定値R
8130.210
7620.28917.30ˆ 22
N
EMSRMSrr の推定値
7463.554
762.27472.225ˆ 22
k
EMSPMSTT の推定値
7620.2ˆ 22 EMSee の推定値
9091.0)(
)(ˆ
EMSkNNkRMSkPMSN
EMSPMSNR
したがって
51
Rの信頼区間Rの信頼区間
Rの定義式からRの定義式から
R
)RkR(kRk]PMS[E
R
)(R
erTe
erT
1
1
122
22
222
52
従ってE[PMS]の別の推定量は、従ってE[PMS]の別の推定量は、R既知としてR既知として
により得られる。
EMS}N)R(
N)R()N(kR{RMS}
N)R(
kR{
R
EMS)RkR(N/)EMSRMS(kRR
ˆ)RkR(ˆkRV er
1
11
1
1
11
1 22
53
Satterthwaite(1946)Satterthwaite(1946) の近似の近似 分散成分の荷重和のF近似分散成分の荷重和のF近似 k個の独立な平均平方k個の独立な平均平方 (( 分散成分)分散成分)
}f/Ma{/}Ma{f̂
}f/]M[Ea{/]M[Ef
}f/]M[Ea{]M[Vaf/]M[E]M[V
f.f.d]M[E/fMM
MaM]M[Ea
f.f.d]M[E/Mf;k,..i,M
iiiii
iii
iiiii
iiiiii
iiiii
ii
i
ii
222
222
2222
2
2
22
1
したがって
分布に従うと仮定のがについても
の推定量分散成分分布のはここに
54
Satterthwaite(1946)Satterthwaite(1946) の近似の近似 k=1の場合k=1の場合
分布χの自由度
は正確にとすれば、
ゆえ、についてに従うとき、
分布χのが自由度これは
21
1
11
11
21111
11222
11 11
f
]M[E/fMff
]M[E/fM]M[E/fM
MaM
f]M[E/Mf
f}f/Ma/{}Ma{f̂
55
Satterthwaite(1946)Satterthwaite(1946) の近似の近似 k=2の場合k=2の場合
一般のkの場合:すべての係数をh倍一般のkの場合:すべての係数をh倍しても、しても、(Mのスケールによらない)(Mのスケールによらない)
}f/Maf/Ma/{}MaMa{f̂ 222
221
2222211 11
fは不変
56
Rの近似信頼区間Rの近似信頼区間
となる
の上側信頼区間はこれから分布のは近似的に自由度とすれば
を求めとおいて
したがって
757.0])([
)(
ˆ,1
})1(
)1()1({}
)1({
ˆ,
},)1(
)1()1({},
)1({
,ˆ,1
,ˆ,1
21
21
EMSkNNkRMSkFPMSN
EMSFPMSNR
RFfNF
EMSNR
NRNkRRMS
NRkR
PMSF
fEMSMRMSMNR
NRNkRa
NR
kRa
fN
fN
57
Rの近似信頼区間における自由Rの近似信頼区間における自由度度
}/})1(
)1()1({/}
)1({{
/}})1(
)1()1({}
)1({{ˆ
,
},)1(
)1()1({},
)1({
}///{}{ˆ
222
122
2
21
21
222
221
2222211 11
fEMSNR
NRNkRfRMS
NR
kR
EMSNR
NRNkRRMS
NR
kRf
EMSMRMSMNR
NRNkRa
NR
kRa
fMafMaMaMaf
を代入すると
に
58
表1.7データの表1.7データのICCICC
> > d<-read.table("e:Tab1.7.txt",header=T)d<-read.table("e:Tab1.7.txt",header=T) > d> d r1 r2 r3 r4r1 r2 r3 r4 1 8 7 11 71 8 7 11 7 2 13 11 15 132 13 11 15 13 3 0 0 2 13 0 0 2 1 4 3 6 9 64 3 6 9 6 5 13 13 17 105 13 13 17 10 6 19 23 27 186 19 23 27 18 7 0 0 1 07 0 0 1 0 8 2 0 4 58 2 0 4 5 9 18 20 22 169 18 20 22 16 10 5 3 8 310 5 3 8 3 > icc(d,model="twoway",type="agreeme> icc(d,model="twoway",type="agreeme
nt",conf.level=0.90)nt",conf.level=0.90) Single Score Intraclass CorrelationSingle Score Intraclass Correlation
Model: twoway Model: twoway Type : agreement Type : agreement
Subjects = 10 Subjects = 10 Raters = 4 Raters = 4 ICC(A,1) = ICC(A,1) = 0.9090.909
F-Test, H0: r0 = 0 F-Test, H0: r0 = 0 F(9,9.3) = 81.7 , p = 1.92e-07F(9,9.3) = 81.7 , p = 1.92e-07
90%-Confidence Interval for ICC P90%-Confidence Interval for ICC Population Values:opulation Values:
0.757 < ICC < 0.970.757 < ICC < 0.97 > icc(d,model="twoway",type="co> icc(d,model="twoway",type="co
nsistency",conf.level=0.90)nsistency",conf.level=0.90) Single Score Intraclass CorrelatiSingle Score Intraclass Correlati
onon
Model: twoway Model: twoway Type : consistency Type : consistency
Subjects = 10 Subjects = 10 Raters = 4 Raters = 4 ICC(C,1) =ICC(C,1) = 0.953 0.953
F-Test, H0: r0 = 0 F-Test, H0: r0 = 0 F(9,27) = 81.7 , p = 6.09e-17 F(9,27) = 81.7 , p = 6.09e-17
90%-Confidence Interval for ICC 90%-Confidence Interval for ICC Population Values:Population Values:
0.898 < ICC < 0.9830.898 < ICC < 0.983
59
評価者固定の場合評価者固定の場合
92.0)1)(1()1(
)(ˆ
EMSkNRMSkPMSN
EMSPMSNR
この場合の推測の方法は十分に発展していない
Fleiss(1986)
222
2
1ejT
T
k
R
60
720.0)2727/()6534666765(1
)2727/()6534666765(27/)53544(
10
e
e
p
ppk
κCoefficient ( κ 係数)
Rater B Rater A - ± + ++ +++ Total - 4 1 0 0 0 5± 2 4 1 0 0 7+ 0 1 5 0 0 6++ 0 0 0 3 1 4+++ 0 0 0 0 5 5
Total 6 6 6 3 6 27
•The indexes of reliability (for categorical data) :kappaThe indexes of reliability (for categorical data) :kappa
Morikawa and Sekine (2000) DIA, Tokyo
61
•The indexes of reliability (for categorical data) :kappaThe indexes of reliability (for categorical data) :kappa
kappa statistickappa statistic DefinitionDefinition
Here,we call it ‘simple‘ κ. And other κ statistic can be Here,we call it ‘simple‘ κ. And other κ statistic can be defined by giving various weights(‘weighted’ κ).defined by giving various weights(‘weighted’ κ).
Cohen (1960), Cohen (1968), Fleiss (1981)Cohen (1960), Cohen (1968), Fleiss (1981)
agreemet of rate expected the:pagreement of rate the:p
1p1
p1κ
p1
p
p1
ppκ
E
0
E
E
E
E
E
E0
62
Observed agreementObserved agreement
- ± + ++ +++
- p11
± p22
+ p33
++ p44 +++ p55
•The indexes of reliability (for categorical data) :kappaThe indexes of reliability (for categorical data) :kappa
63
Agreement by chanceAgreement by chance
- ± + ++ +++
- p1. p. 1
± p2. p. 2
+ p3. p. 3
++ p4. p. 4 +++ p5. p. 5
•The indexes of reliability (for categorical data) :kappaThe indexes of reliability (for categorical data) :kappa
64
Simple κ(unweighted κ)Simple κ(unweighted κ)
Simple κSimple κ
k
1iiiE
k
1iiiO
ppp
pp
E
EO
p1
pp
•The indexes of reliability (for categorical data) :kappaThe indexes of reliability (for categorical data) :kappa
65
Weighted κWeighted κ weighted κweighted κ
wE
wEwOw p1
ppκ
k
1i
k
1jjiijwE
k
1i
k
1jijijwO
ppwp
pwp
•The indexes of reliability (for categorical data) :kappaThe indexes of reliability (for categorical data) :kappa
66
Linear weightsLinear weights Cichetti and Allison(1971)Cichetti and Allison(1971)
- ± + ++ +++
- 1 0. 75 0. 5 0. 25 0
± 0. 75 1 0. 75 0. 5 0. 25
+ 0. 5 0. 75 1 0. 75 0. 5
++ 0. 25 0. 5 0. 75 1 0. 75+++ 0 0. 25 0. 5 0. 75 1
wij=1- |i- j|/ (c- 1)
•The indexes of reliability (for categorical data) :kappaThe indexes of reliability (for categorical data) :kappa
67
Quadratic weightsQuadratic weights Fleiss and Cohen(1973)Fleiss and Cohen(1973)
- ± + ++ +++
- 1 0. 9375 0. 75 0. 4375 0
± 0. 9375 1 0. 9375 0. 75 0. 4375
+ 0. 75 0. 9375 1 0. 9375 0. 75
++ 0. 4375 0. 75 0. 9375 1 0. 9375+++ 0 0. 4375 0. 75 0. 9375 1
wij=1- (i- j)2/ (c- 1)2
•The indexes of reliability (for categorical data) :kappaThe indexes of reliability (for categorical data) :kappa
68
0-th order weights0-th order weights :: simple simple κκ
- ± + ++ +++
- 1 0 0 0 0
± 0 1 0 0 0
+ 0 0 1 0 0
++ 0 0 0 1 0+++ 0 0 0 0 1
wij=δ ij
•The indexes of reliability (for categorical data) :kappaThe indexes of reliability (for categorical data) :kappa
69
- ± + ++ +++
- 1 1 0 0 0
± 1 1 1 0 0
+ 0 1 1 1 0
++ 0 0 1 1 1+++ 0 0 0 1 1
wij=1, |i- j|<=d =0, |i- j|>d
•The indexes of reliability (for categorical data) :kappaThe indexes of reliability (for categorical data) :kappa
70
κκ の漸近分散の漸近分散Fleiss, Fleiss, Levin, and Paik Levin, and Paik (2003)(2003)
κ
})]1([)pp(p)1()]1)(pp(1[p{n)1(
1)(V 22
j..ii i ij ij22
i..iii2
})]1([)]1)(ww(w[p{n)1(
1)(V 2
www2
wj..ii j ijij2w
w
)重み付き期待一致確率(,, ..... wewiji ijijj ji Pwpwwpw
Cohen の κ
重み付き κ
ここに
多評価者の場合は Schouten (1982)
は期待一致確率ここに eP
71
RR によるによる κκ の計算 の計算 cf.cf. 鍵村鍵村(2005)(2005) > grade<-> grade<-
read.table("e:5grade.txt",headread.table("e:5grade.txt",header=T)er=T)
> grade> grade x1 x2x1 x2 1 1 11 1 1 2 1 12 1 1 3 1 13 1 1 4 1 14 1 1 5 1 25 1 2 6 2 16 2 1 7 2 17 2 1 8 2 28 2 2 9 2 29 2 2 10 2 210 2 2 11 2 211 2 2 12 2 312 2 3 13 3 213 3 2
14 3 314 3 3 15 3 315 3 3 16 3 316 3 3 17 3 317 3 3 18 3 318 3 3 19 4 419 4 4 20 4 420 4 4 21 4 421 4 4 22 4 522 4 5 23 5 523 5 5 24 5 524 5 5 25 5 525 5 5 26 5 526 5 5 27 5 527 5 5
72
RR によるによる κκ の計算の計算 > library(irr)> library(irr) Warning message: Warning message: package irr was built under package irr was built under
R version 2.1.0 R version 2.1.0 > > kappa2(grade)kappa2(grade) Cohen's Kappa for 2 Raters Cohen's Kappa for 2 Raters
(Weights: unweighted)(Weights: unweighted)
Subjects = 27 Subjects = 27 Raters = 2 Raters = 2 Kappa = 0.72Kappa = 0.72
z = 7.42 z = 7.42 p-value = 1.20e-13 p-value = 1.20e-13 > > kappa2(grade,"equal")kappa2(grade,"equal") Cohen's Kappa for 2 Raters Cohen's Kappa for 2 Raters
(Weights: equal)(Weights: equal)
Subjects = 27 Subjects = 27 Raters = 2 Raters = 2 Kappa = 0.86Kappa = 0.86
z = 5.64 z = 5.64 p-value = 1.65e-08 p-value = 1.65e-08 > > kappa2(grade,"squared")kappa2(grade,"squared") Cohen's Kappa for 2 Cohen's Kappa for 2
Raters (Weights: squared)Raters (Weights: squared)
Subjects = 27 Subjects = 27 Raters = 2 Raters = 2 Kappa = 0.944Kappa = 0.944
z = 5.1 z = 5.1 p-value = 3.42e-07p-value = 3.42e-07
73
ICCICC とと κκ の関係:順序カテゴリーの関係:順序カテゴリーの場合の場合 (1)(1) 2次重みつき2次重みつき κκ で1,2,3、・・・のスコで1,2,3、・・・のスコアア
2評価者の場合:2評価者の場合: Fleiss and Cohen (1973)Fleiss and Cohen (1973)
2
2
w )1(
||1,
1
ICCESS)2RSS(PSSESS)/ -(PSS
ESS)}RSS (2/n)(- ESS)2RSS{(PSSESS)/ -(PSS2)EMS}-n-(2n2RMS{nPMS / EMS)-n(PMSR
c
jiw
Pew
PewPow
ICCR
ij
w
w
但しの一致推定量もκ
の一致推定量は者は一致、かつしたがって漸近的に両
一方
74
ICCICC とと κκ の関係:順序カテゴリーの関係:順序カテゴリーの場合の場合 (2)(2) 2次重みつき2次重みつき κκ で1,2,3、・・・のスコで1,2,3、・・・のスコアア
多評価者(多評価者( rr人)の場合:森川 人)の場合:森川 (2002,(2002, 未公未公表表 ))
の平均値期待一致率観測一致率に対する対は、それぞれ各評価者を定義したとき、
κに対して重み付き但し評価者対
定義されたもので、によりあるいははここに
一方
)'(),'(',
)'(1
)'()'('
)(1
)1982()1982(} RSS 1)TSS-(r ESS}/{-1)PSS-(r
ESS)} (r/n)(RSS-RSS 1)TSS-(r ESS}/{-1)PSS-{(r R
wkk'
w
w
w
kkPwekkPwokkwePwoP
kkPwe
kkPwekkPwokkweP
wePwoP
SchoutenFleissandDavies
75
ICCICC やや κκ を計算してくれるソを計算してくれるソフトフト RR のの irr Packageirr Package (解説:鍵村、200(解説:鍵村、200
5)5) SASSAS のの PROC FREQ PROC FREQ
κκ のみのみ この他にもこの他にも SASSAS にはには MAGREEMAGREE (( κκ 用用
)) 、、 INTRACCINTRACC (( ICCICC 用)のマクロが用)のマクロがあるある
76
文献(著書)文献(著書) 森川・熊澤監訳(森川・熊澤監訳( KRKR 研究会訳):臨研究会訳):臨
床試験のデザインと解析床試験のデザインと解析 (Fleiss, J. L., (Fleiss, J. L., The Design and Analysis of Clinical The Design and Analysis of Clinical Experiments, Wiley, 1986)Experiments, Wiley, 1986)
Fleiss, J. L., et al., Statistical Analysis of Fleiss, J. L., et al., Statistical Analysis of Rates and Proportions (3rd Ed.), Wiley, Rates and Proportions (3rd Ed.), Wiley, 2003. (Fleiss, J. L., 22003. (Fleiss, J. L., 2ndnd ed., 1981) ed., 1981)
77
文献(著書)文献(著書) Rao, P. S.R.S., Variance Components EstimaRao, P. S.R.S., Variance Components Estima
tion – Mixed models, methodologies and applition – Mixed models, methodologies and applications, Chapman&Hall, 1997.cations, Chapman&Hall, 1997.
Dunn, G., Statistical Evaluation of MeasuremDunn, G., Statistical Evaluation of Measurement Errors – Design and Analysis of Reliability ent Errors – Design and Analysis of Reliability Studies (2Studies (2ndnd Ed), Arnold, 2004. Ed), Arnold, 2004.
Shoukri, M. M., Measures of Interobserver AgShoukri, M. M., Measures of Interobserver Agreement, Chapman&Hall/CRC, 2004.reement, Chapman&Hall/CRC, 2004.
78
文献(著書)文献(著書) 上坂浩之・森川敏彦、3上坂浩之・森川敏彦、3 00.評価尺度の.評価尺度の
妥当性と信頼性、臨床試験ハンドブック妥当性と信頼性、臨床試験ハンドブック(丹後・上坂編)、朝倉書店、2005(丹後・上坂編)、朝倉書店、2005(出版予定))(出版予定))
楠正監修(楠正監修( SKETCHSKETCH 研究会)、臨床デ研究会)、臨床データの妥当性と信頼性、サイエンティスータの妥当性と信頼性、サイエンティスト社、 2005(出版予定)ト社、 2005(出版予定)