「測定の信頼性」 j. l. フライス、「臨床試験のデザインと解析」第一章...

1

「測定の信頼性」「測定の信頼性」J. L. J. L. フライス、「臨床試験のデザインと解析」第一章フライス、「臨床試験のデザインと解析」第一章

を下敷きにを下敷きに

久留米大学バイオ統計センター久留米大学バイオ統計センター久留米大学大学院医学研究科バイオ統計学群久留米大学大学院医学研究科バイオ統計学群

森川敏彦森川敏彦

久留米大学バイオ統計センター公開セミナー久留米大学バイオ統計センター公開セミナー2005.7.2 2005.7.2 久留米大学教育一号館久留米大学教育一号館 15011501 号号

2

J. L. J. L. フライス「臨床試験のデザフライス「臨床試験のデザインと解析」第一章よりインと解析」第一章よりいかに臨床研究のデザインが優れていいかに臨床研究のデザインが優れてい

たとしても、測定の信頼性が低く不正たとしても、測定の信頼性が低く不正確であれば、そのことによる欠陥を克確であれば、そのことによる欠陥を克服することはできない。服することはできない。

データの質が高いことは、ランダム化データの質が高いことは、ランダム化や二重盲検化などと同じ位に重要な試や二重盲検化などと同じ位に重要な試験デザインの要素である。験デザインの要素である。

3

ICHICH 　　 E9E9 統計ガイドライン統計ガイドラインガイドラインの目的はガイドラインの目的は

臨床試験から得られる結果の臨床試験から得られる結果の

偏りを最小に偏りを最小に、、精度を最大に精度を最大に（得られた結果・結論の科学的信憑性を最大に）（得られた結果・結論の科学的信憑性を最大に）

することすること

これはガイドラインがあろうとなかろうと科学研究これはガイドラインがあろうとなかろうと科学研究である限り、当然追求しなければならないことである限り、当然追求しなければならないこと

4

• ICH E9 Statistical Principles For Clinical Trials

– 2.2.2 Primary and Secondary Variables（主要変数及び副次変数）

"The use of a reliable and validated variable with which experience has been gained either in earlier studies or in published literature is recommended.”

”There should be sufficient evidence that the primary variable can provide a valid and reliable measure of some clinically relevant and important treatment benefit in the patient population described by the inclusion and exclusion criteria.”

5

2.2.3 Composite Variables（合成変数） "When a rating scale is used as a primary variable, it is especially important to address such factors as content validity (see Glossary), inter- and intra-rater reliability (see Glossary) and responsiveness for detecting change in the severity of disease.”

ex. ADAS-cog.(Alzheimer’s Disease Assessment Scale-cognitive subscale) Total Score

2.2.4 Global Assessment Variables（総合評価変数） "When a global assessment variable is used as a primary or secondary variable, further details of the scale should be included in the protocol with respect to:

1) the relevance of the scale to the objective of the trial

2) the basis for the validity and reliability of the scale ex. CIBIC (Clinician’s Interview Based Impression of Change)

6

GlossaryGlossary Content ValidityContent Validity（内容妥当性）（内容妥当性）

The extent to which a variable (e.g. a rating scale) The extent to which a variable (e.g. a rating scale) measures what it is supposed to measuremeasures what it is supposed to measure 測りたいも測りたいものが測れているかのが測れているか

Inter-Rater ReliabilityInter-Rater Reliability（評価者間信頼性）（評価者間信頼性） The property of The property of yielding equivalent resultsyielding equivalent results when used when used

by by different ratersdifferent raters on different occasions on different occasions 違った評価違った評価者間で結果が再現するのか者間で結果が再現するのか

Intra-Rater ReliabilityIntra-Rater Reliability（評価者内信頼性）（評価者内信頼性） The property of The property of yielding equivalent resultsyielding equivalent results when used when used

by the by the same ratersame rater on different occasions on different occasions 同じ評価者同じ評価者内で結果が再現するのか内で結果が再現するのか

7

一見客観的と思えるような種々の測定にも妥当一見客観的と思えるような種々の測定にも妥当性、信頼性の問題は潜んでいる。客観的な測定性、信頼性の問題は潜んでいる。客観的な測定だから妥当で信頼がおけると天下り的に考えるだから妥当で信頼がおけると天下り的に考えるのは危険。のは危険。

理想的な状態ではいい性能をもっている測定器理想的な状態ではいい性能をもっている測定器であても生体内の測定においては種々の乱れがであても生体内の測定においては種々の乱れが入ってくる。入ってくる。

外国で妥当性が確認された評価尺度であっても外国で妥当性が確認された評価尺度であっても日本で（あるいは適用しようとしている対象に日本で（あるいは適用しようとしている対象に対して）妥当かどうかは確認しなければ分から対して）妥当かどうかは確認しなければ分からないない

8

例例骨密度の測定骨密度の測定コレステロール値の測定コレステロール値の測定血圧の測定血圧の測定胃内ｐ胃内ｐ HH の測定の測定血糖値の測定血糖値の測定痴呆・リウマチ・脳血管障害・うつ・痴呆・リウマチ・脳血管障害・うつ・

不安などの評価尺度不安などの評価尺度

9

測定・評価の妥当性と信頼性測定・評価の妥当性と信頼性妥当性：　測りたいものが測れているか妥当性：　測りたいものが測れているか

？？　　　　　　（物差しで熱は測れない）　　　　　　（物差しで熱は測れない）

信頼性：　測りたいものが精度よく測れ信頼性：　測りたいものが精度よく測れるか？（熱を測るのに体温計？　おでこるか？（熱を測るのに体温計？　おでことおでこをくっつける？）　結果の再現とおでこをくっつける？）　結果の再現性性

10

測定・評価の妥当性と信頼性測定・評価の妥当性と信頼性妥当性

信頼性

的を得た・・・・

的外れ・・・・・・

ピントがずれて・・・・

ムラがある・・・

再現性がよいからいい測定器だ・・

11

測定・評価の妥当性と信頼性測定・評価の妥当性と信頼性正解（“的”；正解（“的”； gold standardgold standard ）がわかっていれ）がわかっていれ

ば、それと付き合わせることにより、偏り（妥当ば、それと付き合わせることにより、偏り（妥当性）や精度（信頼性）がわかる。性）や精度（信頼性）がわかる。

正解がわからなくても精度は把握はできる。正解がわからなくても精度は把握はできる。血圧などの測定値はほんとのところはわからない血圧などの測定値はほんとのところはわからない

が、が、 TT 社、社、 OO 社、社、 MM 社などの簡易測定器で測る社などの簡易測定器で測ると会社によって（機種によって？）高めや低めがと会社によって（機種によって？）高めや低めがあり、また何回か測り直すと、いくらでも違う数あり、また何回か測り直すと、いくらでも違う数値が表示される。妥当性・信頼性の両方の問題を値が表示される。妥当性・信頼性の両方の問題を含む（？）含む（？）

12

信頼性の尺度信頼性の尺度連続データ：連続データ：信頼性係数（または信頼性係数（または ICC)ICC)

分類データ：分類データ： κκ 係数係数

13

信頼性の統計モデル信頼性の統計モデル測定モデル測定モデル

222eTX

:e

:T

:X

eTX

誤差真値測定値

14

信頼性係数信頼性係数coefficient of reliabilitycoefficient of reliability(reliability coefficient)(reliability coefficient)

信頼性係数の定義信頼性係数の定義

22

2

2

2

22

2

2

2

111eT

e

X

e

eT

T

X

TR

測定値の分散誤差分散

測定値の分散真値の分散

15

級内相関係数級内相関係数intraclass correlation coefficientintraclass correlation coefficient （（ ICIC

C)C) ICC:ICC: 同じものを同じものを 22 度測ったときの相関係数度測ったときの相関係数先ほどの測定モデルの下で先ほどの測定モデルの下で

すなわち、いま考えている測定モデルの下ですなわち、いま考えている測定モデルの下でICCICC は信頼性係数に等しいは信頼性係数に等しい

)R(

)X(V

)T(V

)Y(V)X(V

)eT,eT(Cov

)Y(V)X(V

)Y,X(CovICC

X

T

YX

2

2

2

16

級内相関係数級内相関係数 ICCICC と相関係数と相関係数 ICCICC は同じ被験者（あるいは測定対象）をは同じ被験者（あるいは測定対象）を 22 回測った回測った

ときに測定結果ときに測定結果 XX とと YY が傾きが傾き 4545 度の直線の上に乗って度の直線の上に乗っている程度（測定の一致性・再現性）いる程度（測定の一致性・再現性）

一般の相関係数は単に直線の上に乗っている程度一般の相関係数は単に直線の上に乗っている程度

相関係数が高いからといって、相関係数が高いからといって、 ICCICC が高いとは限らなが高いとは限らないい

ICCICC が低くても相関係数が高いことはありうるが低くても相関係数が高いことはありうる逆に逆に ICCICC が高ければ相関係数も高いし、相関が低けれが高ければ相関係数も高いし、相関が低けれ

ばば ICCICC も低いも低い

XY

baXY

17

級内相関係数と相関係数級内相関係数と相関係数級内相関と相関

0

20

40

60

80

100

120

0 20 40 60 80 100 120

X(一回目の観測値）

YZ

X Y Z

10 10 20

25 18 28

30 35 45

42 37 47

55 55 65

60 64 74

72 73 83

78 77 87

90 93 103

105 98 108

相関相関 ICCICC

XX ととYY

0.990.99 0.990.99

XX ととZZ

0.990.99 0.9540.954

18

信頼性が低いことがもたらす結信頼性が低いことがもたらす結果果 ①① 相関の低下～相関構造を崩す相関の低下～相関構造を崩す

520

607080

.

.R,.R,.

RR

fUY

eTX

XY

YXTU

YXTUXY

たとえば

19

信頼性が低いことがもたらす結信頼性が低いことがもたらす結果果 ②② サンプルサイズの増加サンプルサイズの増加

２群の患者からなる単純な２群比較試験２群の患者からなる単純な２群比較試験

は検出力）：第２種の過誤率（の有意水準：両側検定を行うとき

ときの反応のバラつき測定による誤差がない

群間の平均反応の差）検出したい処理差

1

22

21

:

(:

T

20


は信頼性係数ここに

とサンプルサイズはもし測定に誤差がある

りサンプルサイズ２標本ｔ検定の１群当

RR

n)zz)((n

)zz(*n

*/eT

/T

2

22

22

2

22

2

2

2

21


例ですむ。両群でであればもし例必要両群で１群

であれば、必要例数は数がしかし測定の信頼性係０例必要ゆえに両群合わせて８

より

として合の標準偏差を８測定誤差を含まない場ときでその差を検出したいその差を検出力８０％

であればが５群間の平均変化量の差用し、両側有意水準５％を採

較するものとし、用いて独立な２群を比たとえば拡張期血圧を

10050804080

1206067040

670

405

8420961642

64858420961

2

2

2220002502

,./n.R

,./n

.R

)..)((*n

,,.zz,.zz

mmHG

mmHG

T../

22

信頼性が低いことがもたらす結信頼性が低いことがもたらす結果果 ③③ 臨床試験での標本選択の偏り臨床試験での標本選択の偏り

本来は真値本来は真値 TT が閾値が閾値 AA を上回る患者を試験の対象を上回る患者を試験の対象としたい。しかし測定値が誤差を含むために本来組としたい。しかし測定値が誤差を含むために本来組み入れるべきではないみ入れるべきではない T<AT<A なる患者もなる患者も X=T+e>AX=T+e>Aによって組み入れられる（偽陽性）。によって組み入れられる（偽陽性）。

このような患者は十分重症でないために反応を示このような患者は十分重症でないために反応を示すことができず、また選択された標本自体が想定すことができず、また選択された標本自体が想定している集団よりも広くなることにより比較の感している集団よりも広くなることにより比較の感度が鈍る。度が鈍る。

このような標本が偏る性質はいわゆる中心への回このような標本が偏る性質はいわゆる中心への回帰帰 regression to the meanregression to the mean の特別の場合の特別の場合

23

信頼性が低いことがもたらす結信頼性が低いことがもたらす結果果

③③ 臨床試験での標本選択の偏り臨床試験での標本選択の偏り

24

単純な繰り返し信頼性研究と単純な繰り返し信頼性研究と評価者内信頼性評価者内信頼性 intra-rater reliabilityintra-rater reliability

同一の測定者（測定器）・同一の条件同一の測定者（測定器）・同一の条件Ｎ人の被験者Ｎ人の被験者各被験者につき各被験者につき kk 回の測定の繰り返し回の測定の繰り返し測定モデル測定モデル (( 一元配置ランダム効果モデ一元配置ランダム効果モデ

ル）ル）

25

データの形式データの形式表１表１ .2’.2’ 　一元配置デザインから得られるデータ　一元配置デザインから得られるデータ ―――――――――――――――――――――――――――――――――――――――――――――― 被験者　　　　被験者　　　　 kk 回の繰り返しから得られる測定値回の繰り返しから得られる測定値 ―――――――――――――――――――――――――――――――――――――――――――――― １　　　１　　　　　　　　　　　 XX1111, X, X1212, , ・・・・・・・・ , X, X1k1k ２２　　　　　　　　 XX2121, X, X2222, , ・・・・・・・・ , X, X2k2k

　　　　　　　　　　　　・・・・・・・・・・・　　　　　　　　　　　　・・・・・・・・・・・

N N XXN1N1, X, XN2N2, , ・・・・・・・・ , X , X NkNk ――――――――――――――――――――――――――――――――――――――――――――――

27

表１．３の元データ表１．３の元データ表１．３

患者平均分散 X1 X2

1 0.235 0.0265 0.397788 0.072212

2 0.115 0.0005 0.137361 0.092639

3 0.14 0.0008 0.168284 0.111716

4 0 0 0 0

5 0.385 0.0061 0.463102 0.306898

6 2.655 0.0005 2.677361 2.632639

7 0.065 0.0013 0.101056 0.028944

8 0.375 0.0085 0.467195 0.282805

9 0.58 0.0002 0.594142 0.565858

10 3.9 0.0338 4.083848 3.716152

28

表１．３の元データのプロッ表１．３の元データのプロットト

X2

0

0.5

1

1.5

2

2.5

3

3.5

4

4.5

5

0 1 2 3 4 5

X2

29

一元配置分散分析表一元配置分散分析表 (cf.(cf. 表表1.4)1.4)

分散分析表分散分析表変動変動平方和平方和平均平方平均平方自由度自由度平均平方平均平方

の期待値の期待値被験者間被験者間 BMSBMS N-1N-1

被験者内被験者内（誤差）（誤差）

WMSWMS (k-1)N (k-1)N

合計合計 kN-1kN-1

2e

22Te k

2)XX(k ii

2)XX( iijij

2)XX( ijij

31

分散分析分散分析ＨＨ００：　ならば：　ならばＥ［Ｅ［ BBＭＳ］＝ＭＳ］＝また仮説にかかわらずまた仮説にかかわらずＥ［Ｅ［WWＭＳ］＝ＭＳ］＝

したがって帰無仮説　の下で、Ｆ＝したがって帰無仮説　の下で、Ｆ＝ BBＭＭＳ／Ｓ／WWＭＳは自由度ＭＳは自由度 N-1,(k-1)NN-1,(k-1)N のＦ分布に従うのＦ分布に従う。。

このＦ分布の上側このＦ分布の上側 αα点を　として点を　として

のときに帰無仮説を棄却する。のときに帰無仮説を棄却する。

e N2 1( )自由度

T2 0

,N)k(,NFWMS/BMSF 11 FN k N 1 1,( ) ,

T2 0

)N)k((e 12 自由度は

32

（参考）独立な平均平方の比（参考）独立な平均平方の比平均平方をＭ，対応する自由度をｆ、Ｍの期待値平均平方をＭ，対応する自由度をｆ、Ｍの期待値

をＥ［Ｍ］で表すと、ｆＭは平方和でをＥ［Ｍ］で表すと、ｆＭは平方和でｆＭ／Ｅ［Ｍ］は自由度ｆのｆＭ／Ｅ［Ｍ］は自由度ｆの χχ ２２分布に従う。分布に従う。

独立な二つの独立な二つの χχ ２２変量を変量を χχ11２２、、 χχ22

２２とし対応する自とし対応する自由度をｆ由度をｆ１１、ｆ、ｆ２２とするととすると(χ(χ11

２２ // ｆｆ１１ )/(χ)/(χ22２２ // ｆｆ 22)) は自由度ｆは自由度ｆ１１、ｆ、ｆ 22 のＦ分布のＦ分布

共通の期待値を持つ独立な二つの平均平方をＭ共通の期待値を持つ独立な二つの平均平方をＭ１１

、Ｍ、Ｍ２２とし対応する自由度をｆとし対応する自由度をｆ１１、ｆ、ｆ２２とするとＭとするとＭ

１１／Ｍ／Ｍ２２は自由度ｆは自由度ｆ１１、ｆ、ｆ 22 のＦ分布のＦ分布

33

信頼性係数に関する推測信頼性係数に関する推測信頼性係数信頼性係数 ::

逆に信頼係数が与えられると逆に信頼係数が与えられると被験者間分散は被験者間分散は

　　　の検定　　　の検定　　　とは同値なので、先ほどの分　　　とは同値なので、先ほどの分散分析がそのまま使える。散分析がそのまま使える。

0R

10222 R),/(R eTT

22

1 eT R

R

02 T0R

22

2

eT

TR

34

信頼性係数の推定値信頼性係数の推定値　　　　

22Te k)BMS(E

2e)WMS(E

755712

007805192322

.

..

k

WMSBMSˆ TT

の推定値

0078022 .WMSˆ ee の推定値

9960078051923

078051923

1.

..

..

WMS)k(BMS

WMSBMSR̂

R(R

入）の定義に上の推定値代の推定値信頼係数

35

RR の信頼区間の信頼区間

αのＦ分布の上側点自由度

はににより得られる。ここ

の上側信頼区間はよって、のＦ分布に対して自由度とおくとＦは所与の

の推定量。ゆえにとは独立な

はると、が与えられたものとすもし

NkN

F

FkWMSBMS

FWMSBMSR

R

NkNR

WMSR

RkBMSF

BMSEBMS

WMSR

RkWMSR

NkN

NkN

NkN

)1(,1

987.0

02.30078.0/5192.3

02.30078.0/5192.3

)1(/

/

)1(,1

]}1

)1(1/[{

)(

)1

(

,)1(,1

,)1(,1

,)1(,1

36

り得られる。組み合わせることによ上側信頼区間を信頼区間はこれと前の両側

により得られる。

を利用してあるいは

区間は同様に、Ｒの下側信頼

)(

)k(F)WMS/BMS(

F)WMS/BMS(R

F/F

F)k(WMS/BMS

FWMS/BMSR

,N,N)k(

,N,N)k(

,N,N)k(,N)k(,N

,N)k(,N

,N)k(,N

21

1

1

1

1

11

11

11111

111

111

Ｒの信頼区間（２）：両側Ｒの信頼区間（２）：両側

37

> > dd<-<-read.table("e:Tab1.3.txt",headerread.table("e:Tab1.3.txt",header=T)=T)

> d> d X1 X2X1 X2 1 0.3977882 0.072211791 0.3977882 0.07221179 2 0.1373607 0.092639322 0.1373607 0.09263932 3 0.1682843 0.111715733 0.1682843 0.11171573 4 0.0000000 0.000000004 0.0000000 0.00000000 5 0.4631025 0.306897505 0.4631025 0.30689750 6 2.6773607 2.632639326 2.6773607 2.63263932 7 0.1010555 0.028944497 0.1010555 0.02894449 8 0.4671954 0.282804568 0.4671954 0.28280456 9 0.5941421 0.565857869 0.5941421 0.56585786 10 4.0838478 3.7161522410 4.0838478 3.71615224

>i>icc(d,model="oneway",conf.level=cc(d,model="oneway",conf.level=0.9)0.9)

Single Score Intraclass CorrelationSingle Score Intraclass Correlation

Model: oneway Model: oneway Type : consistency Type : consistency

Subjects = 10 Subjects = 10 Raters = 2 Raters = 2 ICC(1) = ICC(1) = 0.9910.991

F-Test, H0: r0 = 0 F-Test, H0: r0 = 0 F(9,10) = 225 , p = 4.83e-10 F(9,10) = 225 , p = 4.83e-10

90%-Confidence Interval for ICC P90%-Confidence Interval for ICC Population Values:opulation Values:

0.974 < ICC < 0.9970.974 < ICC < 0.997

表１．３のデータ（元に戻したデータを用いた場合）による ICC(R の irr package による ; cf. 鍵村、 2005) ）

38

信頼性試験の結果を利用した信頼性試験の結果を利用した次の臨床試験の例数設計次の臨床試験の例数設計

。群当りの例数が求まるなとして次の試験に必要

となるからるとを検出したいものとす

の差異回の期外収縮数（回とまた１時間当りが求まる。

からと得られた信頼性試験の結果から

1

150(0.43)

0.842)1.962(1.7635)(n

43.0)15.5ln()10.9ln(

VPD)5.50.97635.1ˆˆˆ

0078.0ˆ7557.1ˆ

2

2

222

22

eTX

eT

39

繰り返しによる信頼性の向上繰り返しによる信頼性の向上一人の被験者に対し、ｍ回測定を繰り返し、一人の被験者に対し、ｍ回測定を繰り返し、

その平均値で測定値を代表させるものとすその平均値で測定値を代表させるものとすると、その平均値の信頼性係数はると、その平均値の信頼性係数は

この公式は求める信頼性を得るために必要この公式は求める信頼性を得るために必要なくり返し数を得るためにも使える。なくり返し数を得るためにも使える。

の公式BrownSpearman

R)m(

mRRm

11

40

繰り返しによる信頼性の向上繰り返しによる信頼性の向上

ある。回のくり返しが必要で達成するために、

をのとき式）。となる（オッズ比の形

はなくり返し測定数を達成するために必要とすると、を求める信頼性の程度

値、れる信頼性係数の推定を信頼性研究から得ら

3)10.0(75.0/)25.0(90.0

90.0*75.0ˆ

*)1(ˆ)ˆ1(*

*

*

ˆ

m

RR

RR

RRm

mR

R

R

41

評価者間信頼性研究：二元配評価者間信頼性研究：二元配置置

42

評価者間信頼性評価者間信頼性Ｎ人の被験者：第Ｎ人の被験者：第 ii 被験者のスコア被験者のスコア kk人の評価者（測定器）人の評価者（測定器） :: 第第 jj 評価者の効果評価者の効果各評価者はすべての被験者を判定（測定）各評価者はすべての被験者を判定（測定）ランダム化と盲検化ランダム化と盲検化モデル①評価者が固定されている場合モデル①評価者が固定されている場合

（二元配置混合モデル）（二元配置混合モデル）

)e(e,T

),(N:e,),,(N:T

eTX

ijiji

eij

k

j jTi

ijjiij

は誤差それぞれは独立に分布

2

1

2 00

jiT

43

評価者間信頼性：二元配置モデ評価者間信頼性：二元配置モデルル ②② 評価者がランダムに選ばれている場評価者がランダムに選ばれている場

合合（二元配置ランダム効果モデル）（二元配置ランダム効果モデル）

)e(

),(N:e),,(N:),,(N:T

eTX

ij

eijrjTi

ijjiij

は誤差それぞれは独立に分布

222 00

44

評価者間信頼性：二元配置モデ評価者間信頼性：二元配置モデルル

45

多評価者間信頼性研究の例多評価者間信頼性研究の例

46

多評価者間信頼性研究の例多評価者間信頼性研究の例

47

二元配置の場合の級内相関係数二元配置の場合の級内相関係数二元配置分散分析モデルで同じ被験者内の２つの測二元配置分散分析モデルで同じ被験者内の２つの測

定値間の相関をとると定値間の相関をとると

これも一元配置の場合と同様に　Ｒ＝真値の分散／これも一元配置の場合と同様に　Ｒ＝真値の分散／測定値の分散の形をとり、やはり信頼性係数とも呼測定値の分散の形をとり、やはり信頼性係数とも呼ばれる。測定者間差および測定誤差がなく、測定値ばれる。測定者間差および測定誤差がなく、測定値の再現性が高いとき、ＩＣＣないし信頼性係数の値の再現性が高いとき、ＩＣＣないし信頼性係数の値は大きくなり、完全に再現するときＲ＝１は大きくなり、完全に再現するときＲ＝１ , , 再現性再現性が乏しい極限でＲ＝０。が乏しい極限でＲ＝０。

)/(

)X(V)X(V/)X,X(Cov)X,X(CorrICC

)T(V)eT,eT(Cov)X,X(Cov

)e(V)(V)T(V)X(V

2e

22T

2T

'ijij'ijij'ijij

2Ti'ij'jiijji'ijij

2e

22Tijjiij

48

二元配置分散分析表二元配置分散分析表分散分析表（二元配置）分散分析表（二元配置）

変動変動平方和平方和平均平方平均平方自由度自由度平均平方平均平方の期待値の期待値

被験者被験者 PMSPMS N-1N-1

評価者評価者 RMSRMS k-1k-1

被験者内被験者内 EMSEMS (k-1)(N-1) (k-1)(N-1)

合計合計 kN-1kN-1

2)XX(k ii

2)XX(N jj

2)XX

XX(

j

iijij

2)XX( ijij

22Te k

22re N

2e

49

信頼係数（評価者間信頼係数信頼係数（評価者間信頼係数））

　　　　　　

と呼ばれる。のはが必要付加的に評価すること

などをやのみならずの値が小さい場合はしたがって

小さくなることに注意が大きい場合にものみならずは

CCEbelR

RRRR

R

R

E

errreTTE

er

erT

T

I

)/()/( 222222

22

222

2

22Te k)PMS(E

22re N)RMS(E

2e)EMS(E

50

信頼係数の推定値R

8130.210

7620.28917.30ˆ 22

N

EMSRMSrr の推定値

7463.554

762.27472.225ˆ 22

k

EMSPMSTT の推定値

7620.2ˆ 22 EMSee の推定値

9091.0)(

)(ˆ

EMSkNNkRMSkPMSN

EMSPMSNR

したがって

51

Ｒの信頼区間Ｒの信頼区間

Ｒの定義式からＲの定義式から

R

)RkR(kRk]PMS[E

R

)(R

erTe

erT

1

1

122

22

222

52

　　従ってＥ［ＰＭＳ］の別の推定量は、従ってＥ［ＰＭＳ］の別の推定量は、Ｒ既知としてＲ既知として

により得られる。

EMS}N)R(

N)R()N(kR{RMS}

N)R(

kR{

R

EMS)RkR(N/)EMSRMS(kRR

ˆ)RkR(ˆkRV er

1

11

1

1

11

1 22

53

Satterthwaite(1946)Satterthwaite(1946) の近似の近似分散成分の荷重和のＦ近似分散成分の荷重和のＦ近似ｋ個の独立な平均平方ｋ個の独立な平均平方 (( 分散成分）分散成分）

}f/Ma{/}Ma{f̂

}f/]M[Ea{/]M[Ef

}f/]M[Ea{]M[Vaf/]M[E]M[V

f.f.d]M[E/fMM

MaM]M[Ea

f.f.d]M[E/Mf;k,..i,M

iiiii

iii

iiiii

iiiiii

iiiii

ii

i

ii

222

222

2222

2

2

22

1

したがって

分布に従うと仮定のがについても

の推定量分散成分分布のはここに

54

Satterthwaite(1946)Satterthwaite(1946) の近似の近似ｋ＝１の場合ｋ＝１の場合

分布χの自由度

は正確にとすれば、

ゆえ、についてに従うとき、

分布χのが自由度これは

21

1

11

11

21111

11222

11 11

f

]M[E/fMff

]M[E/fM]M[E/fM

MaM

f]M[E/Mf

f}f/Ma/{}Ma{f̂

55

Satterthwaite(1946)Satterthwaite(1946) の近似の近似ｋ＝２の場合ｋ＝２の場合

一般のｋの場合：すべての係数をｈ倍一般のｋの場合：すべての係数をｈ倍しても、しても、（Ｍのスケールによらない）（Ｍのスケールによらない）

}f/Maf/Ma/{}MaMa{f̂ 222

221

2222211 11

fは不変

56

Ｒの近似信頼区間Ｒの近似信頼区間

となる

の上側信頼区間はこれから分布のは近似的に自由度とすれば

を求めとおいて

したがって

757.0])([

)(

ˆ,1

})1(

)1()1({}

)1({

ˆ,

},)1(

)1()1({},

)1({

,ˆ,1

,ˆ,1

21

21

EMSkNNkRMSkFPMSN

EMSFPMSNR

RFfNF

EMSNR

NRNkRRMS

NRkR

PMSF

fEMSMRMSMNR

NRNkRa

NR

kRa

fN

fN

57

Ｒの近似信頼区間における自由Ｒの近似信頼区間における自由度度

}/})1(

)1()1({/}

)1({{

/}})1(

)1()1({}

)1({{ˆ

,

},)1(

)1()1({},

)1({

}///{}{ˆ

222

122

2

21

21

222

221

2222211 11

fEMSNR

NRNkRfRMS

NR

kR

EMSNR

NRNkRRMS

NR

kRf

EMSMRMSMNR

NRNkRa

NR

kRa

fMafMaMaMaf

を代入すると

に

58

表１．７データの表１．７データのICCICC

> > d<-read.table("e:Tab1.7.txt",header=T)d<-read.table("e:Tab1.7.txt",header=T) > d> d 　　 r1 r2 r3 r4r1 r2 r3 r4 1 8 7 11 71 8 7 11 7 2 13 11 15 132 13 11 15 13 3 0 0 2 13 0 0 2 1 4 3 6 9 64 3 6 9 6 5 13 13 17 105 13 13 17 10 6 19 23 27 186 19 23 27 18 7 0 0 1 07 0 0 1 0 8 2 0 4 58 2 0 4 5 9 18 20 22 169 18 20 22 16 10 5 3 8 310 5 3 8 3 > icc(d,model="twoway",type="agreeme> icc(d,model="twoway",type="agreeme

nt",conf.level=0.90)nt",conf.level=0.90) Single Score Intraclass CorrelationSingle Score Intraclass Correlation

Model: twoway Model: twoway Type : agreement Type : agreement

Subjects = 10 Subjects = 10 Raters = 4 Raters = 4 ICC(A,1) = ICC(A,1) = 0.9090.909

F-Test, H0: r0 = 0 F-Test, H0: r0 = 0 F(9,9.3) = 81.7 , p = 1.92e-07F(9,9.3) = 81.7 , p = 1.92e-07

90%-Confidence Interval for ICC P90%-Confidence Interval for ICC Population Values:opulation Values:

0.757 < ICC < 0.970.757 < ICC < 0.97 > icc(d,model="twoway",type="co> icc(d,model="twoway",type="co

nsistency",conf.level=0.90)nsistency",conf.level=0.90) Single Score Intraclass CorrelatiSingle Score Intraclass Correlati

onon

Model: twoway Model: twoway Type : consistency Type : consistency

Subjects = 10 Subjects = 10 Raters = 4 Raters = 4 ICC(C,1) =ICC(C,1) = 0.953 0.953

F-Test, H0: r0 = 0 F-Test, H0: r0 = 0 F(9,27) = 81.7 , p = 6.09e-17 F(9,27) = 81.7 , p = 6.09e-17

90%-Confidence Interval for ICC 90%-Confidence Interval for ICC Population Values:Population Values:

0.898 < ICC < 0.9830.898 < ICC < 0.983

59

評価者固定の場合評価者固定の場合

92.0)1)(1()1(

)(ˆ

EMSkNRMSkPMSN

EMSPMSNR

この場合の推測の方法は十分に発展していない

Fleiss(1986)

222

2

1ejT

T

k

R

60

720.0)2727/()6534666765(1

)2727/()6534666765(27/)53544(

10

e

e

p

ppk

κCoefficient （ κ 係数）

Rater B Rater A － ± + ++ +++ Total － 4 1 0 0 0 5± 2 4 1 0 0 7+ 0 1 5 0 0 6++ 0 0 0 3 1 4+++ 0 0 0 0 5 5

Total 6 6 6 3 6 27

•The indexes of reliability (for categorical data) :kappaThe indexes of reliability (for categorical data) :kappa

Morikawa and Sekine (2000) DIA, Tokyo

61


kappa statistickappa statistic DefinitionDefinition

Here,we call it ‘simple‘ κ. And other κ statistic can be Here,we call it ‘simple‘ κ. And other κ statistic can be defined by giving various weights(‘weighted’ κ).defined by giving various weights(‘weighted’ κ).

Cohen (1960), Cohen (1968), Fleiss (1981)Cohen (1960), Cohen (1968), Fleiss (1981)

agreemet of rate expected the:pagreement of rate the:p

1p1

p1κ

p1

p

p1

ppκ

E

0

E

E

E

E

E

E0

62

Observed agreementObserved agreement

－ ± ＋ ++ +++

－ p11

± p22

＋ p33

++ p44 +++ p55


63

Agreement by chanceAgreement by chance

－ ± ＋ ++ +++

－ p1. p. 1

± p2. p. 2

＋ p3. p. 3

++ p4. p. 4 +++ p5. p. 5


64

Simple κ(unweighted κ)Simple κ(unweighted κ)

Simple κSimple κ

k

1iiiE

k

1iiiO

ppp

pp

E

EO

p1

pp


65

Weighted κWeighted κ weighted κweighted κ

wE

wEwOw p1

ppκ

k

1i

k

1jjiijwE

k

1i

k

1jijijwO

ppwp

pwp


66

Linear weightsLinear weights Cichetti and Allison(1971)Cichetti and Allison(1971)

－ ± ＋ ++ +++

－ 1 0. 75 0. 5 0. 25 0

± 0. 75 1 0. 75 0. 5 0. 25

＋ 0. 5 0. 75 1 0. 75 0. 5

++ 0. 25 0. 5 0. 75 1 0. 75+++ 0 0. 25 0. 5 0. 75 1

wij=1- |i- j|/ (c- 1)


67

Quadratic weightsQuadratic weights Fleiss and Cohen(1973)Fleiss and Cohen(1973)

－ ± ＋ ++ +++

－ 1 0. 9375 0. 75 0. 4375 0

± 0. 9375 1 0. 9375 0. 75 0. 4375

＋ 0. 75 0. 9375 1 0. 9375 0. 75

++ 0. 4375 0. 75 0. 9375 1 0. 9375+++ 0 0. 4375 0. 75 0. 9375 1

wij=1- (i- j)2/ (c- 1)2


68

0-th order weights0-th order weights ：： simple simple κκ

－ ± ＋ ++ +++

－ 1 0 0 0 0

± 0 1 0 0 0

＋ 0 0 1 0 0

++ 0 0 0 1 0+++ 0 0 0 0 1

wij=δ ij


69

－ ± ＋ ++ +++

－ 1 1 0 0 0

± 1 1 1 0 0

＋ 0 1 1 1 0

++ 0 0 1 1 1+++ 0 0 0 1 1

wij=1, |i- j|<=d =0, |i- j|>d


70

κκ の漸近分散の漸近分散Fleiss, Fleiss, Levin, and Paik Levin, and Paik (2003)(2003)

κ

})]1([)pp(p)1()]1)(pp(1[p{n)1(

1)(V 22

j..ii i ij ij22

i..iii2

})]1([)]1)(ww(w[p{n)1(

1)(V 2

www2

wj..ii j ijij2w

w

）重み付き期待一致確率(,, ..... wewiji ijijj ji Pwpwwpw

Cohen の κ

重み付き κ

ここに

多評価者の場合は Schouten (1982)

は期待一致確率ここに eP

71

RR によるによる κκ の計算の計算 cf.cf. 鍵村鍵村(2005)(2005) > grade<-> grade<-

read.table("e:5grade.txt",headread.table("e:5grade.txt",header=T)er=T)

> grade> grade x1 x2x1 x2 1 1 11 1 1 2 1 12 1 1 3 1 13 1 1 4 1 14 1 1 5 1 25 1 2 6 2 16 2 1 7 2 17 2 1 8 2 28 2 2 9 2 29 2 2 10 2 210 2 2 11 2 211 2 2 12 2 312 2 3 13 3 213 3 2

14 3 314 3 3 15 3 315 3 3 16 3 316 3 3 17 3 317 3 3 18 3 318 3 3 19 4 419 4 4 20 4 420 4 4 21 4 421 4 4 22 4 522 4 5 23 5 523 5 5 24 5 524 5 5 25 5 525 5 5 26 5 526 5 5 27 5 527 5 5

72

RR によるによる κκ の計算の計算 > library(irr)> library(irr) Warning message: Warning message: package irr was built under package irr was built under

R version 2.1.0 R version 2.1.0 > > kappa2(grade)kappa2(grade) Cohen's Kappa for 2 Raters Cohen's Kappa for 2 Raters

(Weights: unweighted)(Weights: unweighted)

Subjects = 27 Subjects = 27 Raters = 2 Raters = 2 Kappa = 0.72Kappa = 0.72

z = 7.42 z = 7.42 p-value = 1.20e-13 p-value = 1.20e-13 > > kappa2(grade,"equal")kappa2(grade,"equal") Cohen's Kappa for 2 Raters Cohen's Kappa for 2 Raters

(Weights: equal)(Weights: equal)


z = 5.64 z = 5.64 p-value = 1.65e-08 p-value = 1.65e-08 > > kappa2(grade,"squared")kappa2(grade,"squared") Cohen's Kappa for 2 Cohen's Kappa for 2

Raters (Weights: squared)Raters (Weights: squared)


z = 5.1 z = 5.1 p-value = 3.42e-07p-value = 3.42e-07

73

ICCICC とと κκ の関係：順序カテゴリーの関係：順序カテゴリーの場合の場合 (1)(1) ２次重みつき２次重みつき κκ で１，２，３、・・・のスコで１，２，３、・・・のスコアア

２評価者の場合：２評価者の場合： Fleiss and Cohen (1973)Fleiss and Cohen (1973)

2

2

w )1(

||1,

1

ICCESS)2RSS(PSSESS)/ -(PSS

ESS)}RSS (2/n)(- ESS)2RSS{(PSSESS)/ -(PSS2)EMS}-n-(2n2RMS{nPMS / EMS)-n(PMSR

c

jiw

Pew

PewPow

ICCR

ij

w

w

但しの一致推定量もκ

の一致推定量は者は一致、かつしたがって漸近的に両

一方

74

ICCICC とと κκ の関係：順序カテゴリーの関係：順序カテゴリーの場合の場合 (2)(2) ２次重みつき２次重みつき κκ で１，２，３、・・・のスコで１，２，３、・・・のスコアア

多評価者（多評価者（ rr人）の場合：森川人）の場合：森川 (2002,(2002, 未公未公表表 ))

の平均値期待一致率観測一致率に対する対は、それぞれ各評価者を定義したとき、

κに対して重み付き但し評価者対

定義されたもので、によりあるいははここに

一方

)'(),'(',

)'(1

)'()'('

)(1

)1982()1982(} RSS 1)TSS-(r ESS}/{-1)PSS-(r

ESS)} (r/n)(RSS-RSS 1)TSS-(r ESS}/{-1)PSS-{(r R

wkk'

w

w

w

kkPwekkPwokkwePwoP

kkPwe

kkPwekkPwokkweP

wePwoP

SchoutenFleissandDavies

75

ICCICC やや κκ を計算してくれるソを計算してくれるソフトフト RR のの irr Packageirr Package （解説：鍵村、２００（解説：鍵村、２００

５）５） SASSAS のの PROC FREQ PROC FREQ

κκ のみのみこの他にもこの他にも SASSAS にはには MAGREEMAGREE （（ κκ 用用

)) 、、 INTRACCINTRACC （（ ICCICC 用）のマクロが用）のマクロがあるある

76

文献（著書）文献（著書）森川・熊澤監訳（森川・熊澤監訳（ KRKR 研究会訳）：臨研究会訳）：臨

床試験のデザインと解析床試験のデザインと解析 (Fleiss, J. L., (Fleiss, J. L., The Design and Analysis of Clinical The Design and Analysis of Clinical Experiments, Wiley, 1986)Experiments, Wiley, 1986)

Fleiss, J. L., et al., Statistical Analysis of Fleiss, J. L., et al., Statistical Analysis of Rates and Proportions (3rd Ed.), Wiley, Rates and Proportions (3rd Ed.), Wiley, 2003. (Fleiss, J. L., 22003. (Fleiss, J. L., 2ndnd ed., 1981) ed., 1981)

77

文献（著書）文献（著書） Rao, P. S.R.S., Variance Components EstimaRao, P. S.R.S., Variance Components Estima

tion – Mixed models, methodologies and applition – Mixed models, methodologies and applications, Chapman&Hall, 1997.cations, Chapman&Hall, 1997.

Dunn, G., Statistical Evaluation of MeasuremDunn, G., Statistical Evaluation of Measurement Errors – Design and Analysis of Reliability ent Errors – Design and Analysis of Reliability Studies (2Studies (2ndnd Ed), Arnold, 2004. Ed), Arnold, 2004.

Shoukri, M. M., Measures of Interobserver AgShoukri, M. M., Measures of Interobserver Agreement, Chapman&Hall/CRC, 2004.reement, Chapman&Hall/CRC, 2004.

78

文献（著書）文献（著書）上坂浩之・森川敏彦、３上坂浩之・森川敏彦、３ 00．評価尺度の．評価尺度の

妥当性と信頼性、臨床試験ハンドブック妥当性と信頼性、臨床試験ハンドブック（丹後・上坂編）、朝倉書店、２００５（丹後・上坂編）、朝倉書店、２００５（出版予定））（出版予定））

楠正監修（楠正監修（ SKETCHSKETCH 研究会）、臨床デ研究会）、臨床データの妥当性と信頼性、サイエンティスータの妥当性と信頼性、サイエンティスト社、２００５（出版予定）ト社、２００５（出版予定）

「測定の信頼性」 j. l. フライス、「臨床試験のデザインと解析」第一章...

Documents