「測定の信頼性」 j. l. フライス、「臨床試験のデザインと解析」第一章...

78
1 測測測測測測測 「」 測測測測測測測 「」 J. L. J. L. 測測測測 測測測測測測測測測測測測測測測 測 、「」 測測測測 測測測測測測測測測測測測測測測 測 、「」 測測測測測 測測測測測 測測測測測測測測測測測測測測 測測測測測測測測測測測測測測 測測測測測測測測測測測測測測測測測測測測 測測測測測測測測測測測測測測測測測測測測 測測 測測 測測 測測 測測測測測測測測測測測測測測測測測測測測 測測測測測測測測測測測測測測測測測測測測 2005.7.2 2005.7.2 測測測測測測測 測測 測測測測測測測 測測 1501 1501 測

Upload: alaina

Post on 27-Jan-2016

84 views

Category:

Documents


0 download

DESCRIPTION

「測定の信頼性」 J. L. フライス、「臨床試験のデザインと解析」第一章 を下敷きに. 久留米大学バイオ統計センター 久留米大学大学院医学研究科バイオ統計学群 森川 敏彦 久留米大学バイオ統計センター公開セミナー 2005.7.2 久留米大学教育一号館 1501 号. J. L. フライス「臨床試験のデザインと解析」第一章より. いかに臨床研究のデザインが優れていたとしても、測定の信頼性が低く不正確であれば、そのことによる欠陥を克服することはできない。 データの質が高いことは、ランダム化や二重盲検化などと同じ位に重要な試験デザインの要素である。. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: 「測定の信頼性」 J. L.  フライス、「臨床試験のデザインと解析」第一章 を下敷きに

1

「測定の信頼性」「測定の信頼性」J. L. J. L. フライス、「臨床試験のデザインと解析」第一章フライス、「臨床試験のデザインと解析」第一章

を下敷きにを下敷きに

久留米大学バイオ統計センター久留米大学バイオ統計センター久留米大学大学院医学研究科バイオ統計学群久留米大学大学院医学研究科バイオ統計学群

森川 敏彦森川 敏彦

久留米大学バイオ統計センター公開セミナー久留米大学バイオ統計センター公開セミナー2005.7.2 2005.7.2 久留米大学教育一号館久留米大学教育一号館 15011501 号号

Page 2: 「測定の信頼性」 J. L.  フライス、「臨床試験のデザインと解析」第一章 を下敷きに

2

J. L. J. L. フライス「臨床試験のデザフライス「臨床試験のデザインと解析」第一章よりインと解析」第一章より いかに臨床研究のデザインが優れていいかに臨床研究のデザインが優れてい

たとしても、測定の信頼性が低く不正たとしても、測定の信頼性が低く不正確であれば、そのことによる欠陥を克確であれば、そのことによる欠陥を克服することはできない。服することはできない。

データの質が高いことは、ランダム化データの質が高いことは、ランダム化や二重盲検化などと同じ位に重要な試や二重盲検化などと同じ位に重要な試験デザインの要素である。験デザインの要素である。

Page 3: 「測定の信頼性」 J. L.  フライス、「臨床試験のデザインと解析」第一章 を下敷きに

3

ICHICH    E9E9 統計ガイドライン統計ガイドライン ガイドラインの目的はガイドラインの目的は

臨床試験から得られる結果の臨床試験から得られる結果の

偏りを最小に偏りを最小に、、精度を最大に精度を最大に(得られた結果・結論の科学的信憑性を最大に)(得られた結果・結論の科学的信憑性を最大に)

することすること

これはガイドラインがあろうとなかろうと科学研究これはガイドラインがあろうとなかろうと科学研究である限り、当然追求しなければならないことである限り、当然追求しなければならないこと

Page 4: 「測定の信頼性」 J. L.  フライス、「臨床試験のデザインと解析」第一章 を下敷きに

4

• ICH E9 Statistical Principles For Clinical Trials

– 2.2.2 Primary and Secondary Variables(主要変数及び副次変数)

"The use of a reliable and validated variable with which experience has been gained either in earlier studies or in published literature is recommended.”

”There should be sufficient evidence that the primary variable can provide a valid and reliable measure of some clinically relevant and important treatment benefit in the patient population described by the inclusion and exclusion criteria.”

Page 5: 「測定の信頼性」 J. L.  フライス、「臨床試験のデザインと解析」第一章 を下敷きに

5

2.2.3 Composite Variables(合成変数) "When a rating scale is used as a primary variable, it is especially important to address such factors as content validity (see Glossary), inter- and intra-rater reliability (see Glossary) and responsiveness for detecting change in the severity of disease.”

ex. ADAS-cog.(Alzheimer’s Disease Assessment Scale-cognitive subscale) Total Score

2.2.4 Global Assessment Variables(総合評価変数) "When a global assessment variable is used as a primary or secondary variable, further details of the scale should be included in the protocol with respect to:

1) the relevance of the scale to the objective of the trial

2) the basis for the validity and reliability of the scale ex. CIBIC (Clinician’s Interview Based Impression of Change)

Page 6: 「測定の信頼性」 J. L.  フライス、「臨床試験のデザインと解析」第一章 を下敷きに

6

GlossaryGlossary Content ValidityContent Validity(内容妥当性)(内容妥当性)

The extent to which a variable (e.g. a rating scale) The extent to which a variable (e.g. a rating scale) measures what it is supposed to measuremeasures what it is supposed to measure 測りたいも測りたいものが測れているかのが測れているか

Inter-Rater ReliabilityInter-Rater Reliability(評価者間信頼性)(評価者間信頼性) The property of The property of yielding equivalent resultsyielding equivalent results when used when used

by by different ratersdifferent raters on different occasions on different occasions 違った評価違った評価者間で結果が再現するのか者間で結果が再現するのか

Intra-Rater ReliabilityIntra-Rater Reliability(評価者内信頼性)(評価者内信頼性) The property of The property of yielding equivalent resultsyielding equivalent results when used when used

by the by the same ratersame rater on different occasions on different occasions 同じ評価者同じ評価者内で結果が再現するのか内で結果が再現するのか

Page 7: 「測定の信頼性」 J. L.  フライス、「臨床試験のデザインと解析」第一章 を下敷きに

7

一見客観的と思えるような種々の測定にも妥当一見客観的と思えるような種々の測定にも妥当性、信頼性の問題は潜んでいる。客観的な測定性、信頼性の問題は潜んでいる。客観的な測定だから妥当で信頼がおけると天下り的に考えるだから妥当で信頼がおけると天下り的に考えるのは危険。のは危険。

理想的な状態ではいい性能をもっている測定器理想的な状態ではいい性能をもっている測定器であても生体内の測定においては種々の乱れがであても生体内の測定においては種々の乱れが入ってくる。入ってくる。

外国で妥当性が確認された評価尺度であっても外国で妥当性が確認された評価尺度であっても日本で(あるいは適用しようとしている対象に日本で(あるいは適用しようとしている対象に対して)妥当かどうかは確認しなければ分から対して)妥当かどうかは確認しなければ分からないない

Page 8: 「測定の信頼性」 J. L.  フライス、「臨床試験のデザインと解析」第一章 を下敷きに

8

例例 骨密度の測定骨密度の測定 コレステロール値の測定コレステロール値の測定 血圧の測定血圧の測定 胃内p胃内p HH の測定の測定 血糖値の測定血糖値の測定 痴呆・リウマチ・脳血管障害・うつ・痴呆・リウマチ・脳血管障害・うつ・

不安などの評価尺度不安などの評価尺度

Page 9: 「測定の信頼性」 J. L.  フライス、「臨床試験のデザインと解析」第一章 を下敷きに

9

測定・評価の妥当性と信頼性測定・評価の妥当性と信頼性 妥当性: 測りたいものが測れているか妥当性: 測りたいものが測れているか

??      (物差しで熱は測れない)      (物差しで熱は測れない)

信頼性: 測りたいものが精度よく測れ信頼性: 測りたいものが精度よく測れるか?(熱を測るのに体温計? おでこるか?(熱を測るのに体温計? おでことおでこをくっつける?) 結果の再現とおでこをくっつける?) 結果の再現性性

Page 10: 「測定の信頼性」 J. L.  フライス、「臨床試験のデザインと解析」第一章 を下敷きに

10

測定・評価の妥当性と信頼性測定・評価の妥当性と信頼性妥当性

信頼性

的を得た・・・・

的外れ・・・・・・

ピントがずれて・・・・

ムラがある・・・

再現性がよいからいい測定器だ・・

Page 11: 「測定の信頼性」 J. L.  フライス、「臨床試験のデザインと解析」第一章 を下敷きに

11

測定・評価の妥当性と信頼性測定・評価の妥当性と信頼性 正解(“的”;正解(“的”; gold standardgold standard )がわかっていれ)がわかっていれ

ば、それと付き合わせることにより、偏り(妥当ば、それと付き合わせることにより、偏り(妥当性)や精度(信頼性)がわかる。性)や精度(信頼性)がわかる。

正解がわからなくても精度は把握はできる。正解がわからなくても精度は把握はできる。 血圧などの測定値はほんとのところはわからない血圧などの測定値はほんとのところはわからない

が、が、 TT 社、社、 OO 社、社、 MM 社などの簡易測定器で測る社などの簡易測定器で測ると会社によって(機種によって?)高めや低めがと会社によって(機種によって?)高めや低めがあり、また何回か測り直すと、いくらでも違う数あり、また何回か測り直すと、いくらでも違う数値が表示される。妥当性・信頼性の両方の問題を値が表示される。妥当性・信頼性の両方の問題を含む(?)含む(?)

Page 12: 「測定の信頼性」 J. L.  フライス、「臨床試験のデザインと解析」第一章 を下敷きに

12

信頼性の尺度信頼性の尺度 連続データ:連続データ:信頼性係数(または信頼性係数(または ICC)ICC)

分類データ:分類データ: κκ 係数係数

Page 13: 「測定の信頼性」 J. L.  フライス、「臨床試験のデザインと解析」第一章 を下敷きに

13

信頼性の統計モデル信頼性の統計モデル 測定モデル測定モデル

222eTX

:e

:T

:X

eTX

誤差真値測定値

Page 14: 「測定の信頼性」 J. L.  フライス、「臨床試験のデザインと解析」第一章 を下敷きに

14

信頼性係数信頼性係数coefficient of reliabilitycoefficient of reliability(reliability coefficient)(reliability coefficient)

信頼性係数の定義信頼性係数の定義

22

2

2

2

22

2

2

2

111eT

e

X

e

eT

T

X

TR

測定値の分散誤差分散

測定値の分散真値の分散

Page 15: 「測定の信頼性」 J. L.  フライス、「臨床試験のデザインと解析」第一章 を下敷きに

15

級内相関係数級内相関係数intraclass correlation coefficientintraclass correlation coefficient (( ICIC

C)C) ICC:ICC: 同じものを同じものを 22 度測ったときの相関係数度測ったときの相関係数 先ほどの測定モデルの下で先ほどの測定モデルの下で

すなわち、いま考えている測定モデルの下ですなわち、いま考えている測定モデルの下でICCICC は信頼性係数に等しいは信頼性係数に等しい

)R(

)X(V

)T(V

)Y(V)X(V

)eT,eT(Cov

)Y(V)X(V

)Y,X(CovICC

X

T

YX

2

2

2

Page 16: 「測定の信頼性」 J. L.  フライス、「臨床試験のデザインと解析」第一章 を下敷きに

16

級内相関係数級内相関係数 ICCICC と相関係数と相関係数 ICCICC は同じ被験者(あるいは測定対象)をは同じ被験者(あるいは測定対象)を 22 回測った回測った

ときに測定結果ときに測定結果 XX とと YY が傾きが傾き 4545 度の直線の上に乗って度の直線の上に乗っている程度(測定の一致性・再現性)いる程度(測定の一致性・再現性)

一般の相関係数は単に直線の上に乗っている程度一般の相関係数は単に直線の上に乗っている程度

相関係数が高いからといって、相関係数が高いからといって、 ICCICC が高いとは限らなが高いとは限らないい

ICCICC が低くても相関係数が高いことはありうるが低くても相関係数が高いことはありうる 逆に逆に ICCICC が高ければ相関係数も高いし、相関が低けれが高ければ相関係数も高いし、相関が低けれ

ばば ICCICC も低いも低い

XY

baXY

Page 17: 「測定の信頼性」 J. L.  フライス、「臨床試験のデザインと解析」第一章 を下敷きに

17

級内相関係数と相関係数級内相関係数と相関係数級内相関と相関

0

20

40

60

80

100

120

0 20 40 60 80 100 120

X(一回目の観測値)

YZ

X Y Z

10 10 20

25 18 28

30 35 45

42 37 47

55 55 65

60 64 74

72 73 83

78 77 87

90 93 103

105 98 108

相関相関 ICCICC

XX ととYY

0.990.99 0.990.99

XX ととZZ

0.990.99 0.9540.954

Page 18: 「測定の信頼性」 J. L.  フライス、「臨床試験のデザインと解析」第一章 を下敷きに

18

信頼性が低いことがもたらす結信頼性が低いことがもたらす結果果 ①① 相関の低下~相関構造を崩す相関の低下~相関構造を崩す

520

607080

.

.R,.R,.

RR

fUY

eTX

XY

YXTU

YXTUXY

たとえば

Page 19: 「測定の信頼性」 J. L.  フライス、「臨床試験のデザインと解析」第一章 を下敷きに

19

信頼性が低いことがもたらす結信頼性が低いことがもたらす結果果 ②② サンプルサイズの増加サンプルサイズの増加

2群の患者からなる単純な2群比較試験2群の患者からなる単純な2群比較試験

は検出力):第2種の過誤率(の有意水準:両側検定を行うとき

ときの反応のバラつき測定による誤差がない

群間の平均反応の差)検出したい処理差

1

22

21

:

(:

T

Page 20: 「測定の信頼性」 J. L.  フライス、「臨床試験のデザインと解析」第一章 を下敷きに

20

信頼性が低いことがもたらす結信頼性が低いことがもたらす結果果 ②② サンプルサイズの増加サンプルサイズの増加

は信頼性係数ここに

とサンプルサイズはもし測定に誤差がある

りサンプルサイズ2標本t検定の1群当

RR

n)zz)((n

)zz(*n

*/eT

/T

2

22

22

2

22

2

2

2

Page 21: 「測定の信頼性」 J. L.  フライス、「臨床試験のデザインと解析」第一章 を下敷きに

21

信頼性が低いことがもたらす結信頼性が低いことがもたらす結果果 ②② サンプルサイズの増加サンプルサイズの増加

例ですむ。両群でであればもし例必要両群で1群

であれば、必要例数は数がしかし測定の信頼性係0例必要ゆえに両群合わせて8

より

として合の標準偏差を8測定誤差を含まない場ときでその差を検出したいその差を検出力80%

であればが5群間の平均変化量の差用し、両側有意水準5%を採

較するものとし、用いて独立な2群を比たとえば拡張期血圧を

10050804080

1206067040

670

405

8420961642

64858420961

2

2

2220002502

,./n.R

,./n

.R

)..)((*n

,,.zz,.zz

mmHG

mmHG

T../

Page 22: 「測定の信頼性」 J. L.  フライス、「臨床試験のデザインと解析」第一章 を下敷きに

22

信頼性が低いことがもたらす結信頼性が低いことがもたらす結果果 ③③ 臨床試験での標本選択の偏り臨床試験での標本選択の偏り

本来は真値本来は真値 TT が閾値が閾値 AA を上回る患者を試験の対象を上回る患者を試験の対象としたい。しかし測定値が誤差を含むために本来組としたい。しかし測定値が誤差を含むために本来組み入れるべきではないみ入れるべきではない T<AT<A なる患者もなる患者も X=T+e>AX=T+e>Aによって組み入れられる(偽陽性)。によって組み入れられる(偽陽性)。

このような患者は十分重症でないために反応を示このような患者は十分重症でないために反応を示すことができず、また選択された標本自体が想定すことができず、また選択された標本自体が想定している集団よりも広くなることにより比較の感している集団よりも広くなることにより比較の感度が鈍る。度が鈍る。

このような標本が偏る性質はいわゆる中心への回このような標本が偏る性質はいわゆる中心への回帰帰 regression to the meanregression to the mean の特別の場合の特別の場合

Page 23: 「測定の信頼性」 J. L.  フライス、「臨床試験のデザインと解析」第一章 を下敷きに

23

信頼性が低いことがもたらす結信頼性が低いことがもたらす結果果

③③ 臨床試験での標本選択の偏り臨床試験での標本選択の偏り

Page 24: 「測定の信頼性」 J. L.  フライス、「臨床試験のデザインと解析」第一章 を下敷きに

24

単純な繰り返し信頼性研究と単純な繰り返し信頼性研究と評価者内信頼性評価者内信頼性 intra-rater reliabilityintra-rater reliability

同一の測定者(測定器)・同一の条件同一の測定者(測定器)・同一の条件 N人の被験者N人の被験者 各被験者につき各被験者につき kk 回の測定の繰り返し回の測定の繰り返し 測定モデル測定モデル (( 一元配置ランダム効果モデ一元配置ランダム効果モデ

ル)ル)

Page 25: 「測定の信頼性」 J. L.  フライス、「臨床試験のデザインと解析」第一章 を下敷きに

25

データの形式データの形式 表1表1 .2’.2’  一元配置デザインから得られるデータ 一元配置デザインから得られるデータ ―――――――――――――――――――――――――――――――――――――――――――――― 被験者    被験者     kk 回の繰り返しから得られる測定値回の繰り返しから得られる測定値 ―――――――――――――――――――――――――――――――――――――――――――――― 1   1             XX1111, X, X1212, , ・・・・・・・・ , X, X1k1k 2 2          XX2121, X, X2222, , ・・・・・・・・ , X, X2k2k

            ・・・・・・・・・・・            ・・・・・・・・・・・

N N XXN1N1, X, XN2N2, , ・・・・・・・・ , X , X NkNk ――――――――――――――――――――――――――――――――――――――――――――――

Page 26: 「測定の信頼性」 J. L.  フライス、「臨床試験のデザインと解析」第一章 を下敷きに

26

Page 27: 「測定の信頼性」 J. L.  フライス、「臨床試験のデザインと解析」第一章 を下敷きに

27

表1.3の元データ表1.3の元データ表1.3

患者 平均 分散 X1 X2

1 0.235 0.0265 0.397788 0.072212

2 0.115 0.0005 0.137361 0.092639

3 0.14 0.0008 0.168284 0.111716

4 0 0 0 0

5 0.385 0.0061 0.463102 0.306898

6 2.655 0.0005 2.677361 2.632639

7 0.065 0.0013 0.101056 0.028944

8 0.375 0.0085 0.467195 0.282805

9 0.58 0.0002 0.594142 0.565858

10 3.9 0.0338 4.083848 3.716152

Page 28: 「測定の信頼性」 J. L.  フライス、「臨床試験のデザインと解析」第一章 を下敷きに

28

表1.3の元データのプロッ表1.3の元データのプロットト

X2

0

0.5

1

1.5

2

2.5

3

3.5

4

4.5

5

0 1 2 3 4 5

X2

Page 29: 「測定の信頼性」 J. L.  フライス、「臨床試験のデザインと解析」第一章 を下敷きに

29

一元配置分散分析表一元配置分散分析表 (cf.(cf. 表表1.4)1.4)

分散分析表分散分析表変動変動 平方和平方和 平均平方平均平方 自由度自由度 平均平方平均平方

の期待値の期待値被験者間被験者間 BMSBMS N-1N-1

被験者内被験者内(誤差)(誤差)

WMSWMS (k-1)N (k-1)N

合計合計 kN-1kN-1

2e

22Te k

2)XX(k ii

2)XX( iijij

2)XX( ijij

Page 30: 「測定の信頼性」 J. L.  フライス、「臨床試験のデザインと解析」第一章 を下敷きに

30

Page 31: 「測定の信頼性」 J. L.  フライス、「臨床試験のデザインと解析」第一章 を下敷きに

31

分散分析分散分析 HH00:  ならば:  ならばE[E[ BBMS]=MS]=また仮説にかかわらずまた仮説にかかわらずE[E[WWMS]=MS]=

したがって帰無仮説  の下で、F=したがって帰無仮説  の下で、F= BBMMS/S/WWMSは自由度MSは自由度 N-1,(k-1)NN-1,(k-1)N のF分布に従うのF分布に従う。。

このF分布の上側このF分布の上側 αα点を  として点を  として

のときに帰無仮説を棄却する。のときに帰無仮説を棄却する。

e N2 1( )自由度

T2 0

,N)k(,NFWMS/BMSF 11 FN k N 1 1,( ) ,

T2 0

)N)k((e 12 自由度は

Page 32: 「測定の信頼性」 J. L.  フライス、「臨床試験のデザインと解析」第一章 を下敷きに

32

(参考)独立な平均平方の比(参考)独立な平均平方の比 平均平方をM,対応する自由度をf、Mの期待値平均平方をM,対応する自由度をf、Mの期待値

をE[M]で表すと、fMは平方和でをE[M]で表すと、fMは平方和でfM/E[M]は自由度fのfM/E[M]は自由度fの χχ 22分布に従う。分布に従う。

独立な二つの独立な二つの χχ 22変量を変量を χχ1122、、 χχ22

22とし対応する自とし対応する自由度をf由度をf11、f、f22とするととすると(χ(χ11

22 // ff11 )/(χ)/(χ2222 // ff 22)) は自由度fは自由度f11、f、f 22 のF分布のF分布

共通の期待値を持つ独立な二つの平均平方をM共通の期待値を持つ独立な二つの平均平方をM11

、M、M22とし対応する自由度をfとし対応する自由度をf11、f、f22とするとMとするとM

11/M/M22は自由度fは自由度f11、f、f 22 のF分布のF分布

Page 33: 「測定の信頼性」 J. L.  フライス、「臨床試験のデザインと解析」第一章 を下敷きに

33

信頼性係数に関する推測信頼性係数に関する推測 信頼性係数信頼性係数 ::

逆に信頼係数が与えられると逆に信頼係数が与えられると被験者間分散は被験者間分散は

   の検定   の検定   と は同値なので、先ほどの分   と は同値なので、先ほどの分散分析がそのまま使える。散分析がそのまま使える。

0R

10222 R),/(R eTT

22

1 eT R

R

02 T0R

22

2

eT

TR

Page 34: 「測定の信頼性」 J. L.  フライス、「臨床試験のデザインと解析」第一章 を下敷きに

34

信頼性係数の推定値信頼性係数の推定値      

22Te k)BMS(E

2e)WMS(E

755712

007805192322

.

..

k

WMSBMSˆ TT

の推定値

0078022 .WMSˆ ee の推定値

9960078051923

078051923

1.

..

..

WMS)k(BMS

WMSBMSR̂

R(R

入)の定義に上の推定値代の推定値信頼係数

Page 35: 「測定の信頼性」 J. L.  フライス、「臨床試験のデザインと解析」第一章 を下敷きに

35

RR の信頼区間の信頼区間

αのF分布の上側 点自由度

はににより得られる。ここ

の上側信頼区間はよって、のF分布に対して自由度とおくとFは所与の

の推定量。ゆえにとは独立な

はると、が与えられたものとすもし

NkN

F

FkWMSBMS

FWMSBMSR

R

NkNR

WMSR

RkBMSF

BMSEBMS

WMSR

RkWMSR

NkN

NkN

NkN

)1(,1

987.0

02.30078.0/5192.3

02.30078.0/5192.3

)1(/

/

)1(,1

]}1

)1(1/[{

)(

)1

(

,)1(,1

,)1(,1

,)1(,1

Page 36: 「測定の信頼性」 J. L.  フライス、「臨床試験のデザインと解析」第一章 を下敷きに

36

り得られる。組み合わせることによ上側信頼区間を信頼区間はこれと前の両側

により得られる。

を利用してあるいは

区間は同様に、Rの下側信頼

)(

)k(F)WMS/BMS(

F)WMS/BMS(R

F/F

F)k(WMS/BMS

FWMS/BMSR

,N,N)k(

,N,N)k(

,N,N)k(,N)k(,N

,N)k(,N

,N)k(,N

21

1

1

1

1

11

11

11111

111

111

Rの信頼区間(2):両側Rの信頼区間(2):両側

Page 37: 「測定の信頼性」 J. L.  フライス、「臨床試験のデザインと解析」第一章 を下敷きに

37

> > dd<-<-read.table("e:Tab1.3.txt",headerread.table("e:Tab1.3.txt",header=T)=T)

> d> d X1 X2X1 X2 1 0.3977882 0.072211791 0.3977882 0.07221179 2 0.1373607 0.092639322 0.1373607 0.09263932 3 0.1682843 0.111715733 0.1682843 0.11171573 4 0.0000000 0.000000004 0.0000000 0.00000000 5 0.4631025 0.306897505 0.4631025 0.30689750 6 2.6773607 2.632639326 2.6773607 2.63263932 7 0.1010555 0.028944497 0.1010555 0.02894449 8 0.4671954 0.282804568 0.4671954 0.28280456 9 0.5941421 0.565857869 0.5941421 0.56585786 10 4.0838478 3.7161522410 4.0838478 3.71615224

>i>icc(d,model="oneway",conf.level=cc(d,model="oneway",conf.level=0.9)0.9)

Single Score Intraclass CorrelationSingle Score Intraclass Correlation

Model: oneway Model: oneway Type : consistency Type : consistency

Subjects = 10 Subjects = 10 Raters = 2 Raters = 2 ICC(1) = ICC(1) = 0.9910.991

F-Test, H0: r0 = 0 F-Test, H0: r0 = 0 F(9,10) = 225 , p = 4.83e-10 F(9,10) = 225 , p = 4.83e-10

90%-Confidence Interval for ICC P90%-Confidence Interval for ICC Population Values:opulation Values:

0.974 < ICC < 0.9970.974 < ICC < 0.997

表1.3のデータ(元に戻したデータを用いた場合)による ICC(R の irr package による ; cf. 鍵村、 2005) )

Page 38: 「測定の信頼性」 J. L.  フライス、「臨床試験のデザインと解析」第一章 を下敷きに

38

信頼性試験の結果を利用した信頼性試験の結果を利用した次の臨床試験の例数設計次の臨床試験の例数設計

。群当りの例数が求まるなとして次の試験に必要

となるからるとを検出したいものとす

の差異回の期外収縮数(回とまた1時間当りが求まる。

からと得られた信頼性試験の結果から

1

150(0.43)

0.842)1.962(1.7635)(n

43.0)15.5ln()10.9ln(

VPD)5.50.97635.1ˆˆˆ

0078.0ˆ7557.1ˆ

2

2

222

22

eTX

eT

Page 39: 「測定の信頼性」 J. L.  フライス、「臨床試験のデザインと解析」第一章 を下敷きに

39

繰り返しによる信頼性の向上繰り返しによる信頼性の向上 一人の被験者に対し、m回測定を繰り返し、一人の被験者に対し、m回測定を繰り返し、

その平均値で測定値を代表させるものとすその平均値で測定値を代表させるものとすると、その平均値の信頼性係数はると、その平均値の信頼性係数は

この公式は求める信頼性を得るために必要この公式は求める信頼性を得るために必要なくり返し数を得るためにも使える。なくり返し数を得るためにも使える。

の公式BrownSpearman

R)m(

mRRm

11

Page 40: 「測定の信頼性」 J. L.  フライス、「臨床試験のデザインと解析」第一章 を下敷きに

40

繰り返しによる信頼性の向上繰り返しによる信頼性の向上

ある。回のくり返しが必要で達成するために、

をのとき式)。となる(オッズ比の形

はなくり返し測定数を達成するために必要とすると、を求める信頼性の程度

値、れる信頼性係数の推定を信頼性研究から得ら

3)10.0(75.0/)25.0(90.0

90.0*75.0ˆ

*)1(ˆ)ˆ1(*

*

*

ˆ

m

RR

RR

RRm

mR

R

R

Page 41: 「測定の信頼性」 J. L.  フライス、「臨床試験のデザインと解析」第一章 を下敷きに

41

評価者間信頼性研究:二元配評価者間信頼性研究:二元配置置

Page 42: 「測定の信頼性」 J. L.  フライス、「臨床試験のデザインと解析」第一章 を下敷きに

42

評価者間信頼性評価者間信頼性 N人の被験者:第N人の被験者:第 ii 被験者のスコア被験者のスコア kk人の評価者(測定器)人の評価者(測定器) :: 第第 jj 評価者の効果評価者の効果 各評価者はすべての被験者を判定(測定)各評価者はすべての被験者を判定(測定) ランダム化と盲検化ランダム化と盲検化 モデル①評価者が固定されている場合モデル①評価者が固定されている場合

(二元配置混合モデル)(二元配置混合モデル)

)e(e,T

),(N:e,),,(N:T

eTX

ijiji

eij

k

j jTi

ijjiij

は誤差それぞれは独立に分布

2

1

2 00

jiT

Page 43: 「測定の信頼性」 J. L.  フライス、「臨床試験のデザインと解析」第一章 を下敷きに

43

評価者間信頼性:二元配置モデ評価者間信頼性:二元配置モデルル ②② 評価者がランダムに選ばれている場評価者がランダムに選ばれている場

合合(二元配置ランダム効果モデル)(二元配置ランダム効果モデル)

)e(

),(N:e),,(N:),,(N:T

eTX

ij

eijrjTi

ijjiij

は誤差それぞれは独立に分布

222 00

Page 44: 「測定の信頼性」 J. L.  フライス、「臨床試験のデザインと解析」第一章 を下敷きに

44

評価者間信頼性:二元配置モデ評価者間信頼性:二元配置モデルル

Page 45: 「測定の信頼性」 J. L.  フライス、「臨床試験のデザインと解析」第一章 を下敷きに

45

多評価者間信頼性研究の例多評価者間信頼性研究の例

Page 46: 「測定の信頼性」 J. L.  フライス、「臨床試験のデザインと解析」第一章 を下敷きに

46

多評価者間信頼性研究の例多評価者間信頼性研究の例

Page 47: 「測定の信頼性」 J. L.  フライス、「臨床試験のデザインと解析」第一章 を下敷きに

47

二元配置の場合の級内相関係数二元配置の場合の級内相関係数 二元配置分散分析モデルで同じ被験者内の2つの測二元配置分散分析モデルで同じ被験者内の2つの測

定値間の相関をとると定値間の相関をとると

これも一元配置の場合と同様に R=真値の分散/これも一元配置の場合と同様に R=真値の分散/測定値の分散の形をとり、やはり信頼性係数とも呼測定値の分散の形をとり、やはり信頼性係数とも呼ばれる。測定者間差および測定誤差がなく、測定値ばれる。測定者間差および測定誤差がなく、測定値の再現性が高いとき、ICCないし信頼性係数の値の再現性が高いとき、ICCないし信頼性係数の値は大きくなり、完全に再現するときR=1は大きくなり、完全に再現するときR=1 , , 再現性再現性が乏しい極限でR=0。が乏しい極限でR=0。

)/(

)X(V)X(V/)X,X(Cov)X,X(CorrICC

)T(V)eT,eT(Cov)X,X(Cov

)e(V)(V)T(V)X(V

2e

22T

2T

'ijij'ijij'ijij

2Ti'ij'jiijji'ijij

2e

22Tijjiij

Page 48: 「測定の信頼性」 J. L.  フライス、「臨床試験のデザインと解析」第一章 を下敷きに

48

二元配置分散分析表二元配置分散分析表分散分析表(二元配置)分散分析表(二元配置)

変動変動 平方和平方和 平均平方平均平方 自由度自由度 平均平方平均平方の期待値の期待値

被験者被験者 PMSPMS N-1N-1

評価者評価者 RMSRMS k-1k-1

被験者内被験者内 EMSEMS (k-1)(N-1) (k-1)(N-1)

合計合計 kN-1kN-1

2)XX(k ii

2)XX(N jj

2)XX

XX(

j

iijij

2)XX( ijij

22Te k

22re N

2e

Page 49: 「測定の信頼性」 J. L.  フライス、「臨床試験のデザインと解析」第一章 を下敷きに

49

信頼係数(評価者間信頼係数信頼係数(評価者間信頼係数))

        

と呼ばれる。のはが必要付加的に評価すること

などをやのみならずの値が小さい場合はしたがって

小さくなることに注意が大きい場合にものみならずは

CCEbelR

RRRR

R

R

E

errreTTE

er

erT

T

I

)/()/( 222222

22

222

2

22Te k)PMS(E

22re N)RMS(E

2e)EMS(E

Page 50: 「測定の信頼性」 J. L.  フライス、「臨床試験のデザインと解析」第一章 を下敷きに

50

信頼係数 の推定値R

8130.210

7620.28917.30ˆ 22

N

EMSRMSrr の推定値

7463.554

762.27472.225ˆ 22

k

EMSPMSTT の推定値

7620.2ˆ 22 EMSee の推定値

9091.0)(

)(ˆ

EMSkNNkRMSkPMSN

EMSPMSNR

したがって

Page 51: 「測定の信頼性」 J. L.  フライス、「臨床試験のデザインと解析」第一章 を下敷きに

51

Rの信頼区間Rの信頼区間

Rの定義式からRの定義式から

R

)RkR(kRk]PMS[E

R

)(R

erTe

erT

1

1

122

22

222

Page 52: 「測定の信頼性」 J. L.  フライス、「臨床試験のデザインと解析」第一章 を下敷きに

52

   従ってE[PMS]の別の推定量は、従ってE[PMS]の別の推定量は、R既知としてR既知として

により得られる。

EMS}N)R(

N)R()N(kR{RMS}

N)R(

kR{

R

EMS)RkR(N/)EMSRMS(kRR

ˆ)RkR(ˆkRV er

1

11

1

1

11

1 22

Page 53: 「測定の信頼性」 J. L.  フライス、「臨床試験のデザインと解析」第一章 を下敷きに

53

Satterthwaite(1946)Satterthwaite(1946) の近似の近似 分散成分の荷重和のF近似分散成分の荷重和のF近似 k個の独立な平均平方k個の独立な平均平方 (( 分散成分)分散成分)

}f/Ma{/}Ma{f̂

}f/]M[Ea{/]M[Ef

}f/]M[Ea{]M[Vaf/]M[E]M[V

f.f.d]M[E/fMM

MaM]M[Ea

f.f.d]M[E/Mf;k,..i,M

iiiii

iii

iiiii

iiiiii

iiiii

ii

i

ii

222

222

2222

2

2

22

1

したがって

分布に従うと仮定のがについても

の推定量分散成分分布のはここに

Page 54: 「測定の信頼性」 J. L.  フライス、「臨床試験のデザインと解析」第一章 を下敷きに

54

Satterthwaite(1946)Satterthwaite(1946) の近似の近似 k=1の場合k=1の場合

分布χの自由度

は正確にとすれば、

ゆえ、についてに従うとき、

分布χのが自由度これは

21

1

11

11

21111

11222

11 11

f

]M[E/fMff

]M[E/fM]M[E/fM

MaM

f]M[E/Mf

f}f/Ma/{}Ma{f̂

Page 55: 「測定の信頼性」 J. L.  フライス、「臨床試験のデザインと解析」第一章 を下敷きに

55

Satterthwaite(1946)Satterthwaite(1946) の近似の近似 k=2の場合k=2の場合

一般のkの場合:すべての係数をh倍一般のkの場合:すべての係数をh倍しても、しても、(Mのスケールによらない)(Mのスケールによらない)

}f/Maf/Ma/{}MaMa{f̂ 222

221

2222211 11

fは不変

Page 56: 「測定の信頼性」 J. L.  フライス、「臨床試験のデザインと解析」第一章 を下敷きに

56

Rの近似信頼区間Rの近似信頼区間

となる

の上側信頼区間はこれから分布のは近似的に自由度とすれば

を求めとおいて

したがって

757.0])([

)(

ˆ,1

})1(

)1()1({}

)1({

ˆ,

},)1(

)1()1({},

)1({

,ˆ,1

,ˆ,1

21

21

EMSkNNkRMSkFPMSN

EMSFPMSNR

RFfNF

EMSNR

NRNkRRMS

NRkR

PMSF

fEMSMRMSMNR

NRNkRa

NR

kRa

fN

fN

Page 57: 「測定の信頼性」 J. L.  フライス、「臨床試験のデザインと解析」第一章 を下敷きに

57

Rの近似信頼区間における自由Rの近似信頼区間における自由度度

}/})1(

)1()1({/}

)1({{

/}})1(

)1()1({}

)1({{ˆ

,

},)1(

)1()1({},

)1({

}///{}{ˆ

222

122

2

21

21

222

221

2222211 11

fEMSNR

NRNkRfRMS

NR

kR

EMSNR

NRNkRRMS

NR

kRf

EMSMRMSMNR

NRNkRa

NR

kRa

fMafMaMaMaf

を代入すると

Page 58: 「測定の信頼性」 J. L.  フライス、「臨床試験のデザインと解析」第一章 を下敷きに

58

表1.7データの表1.7データのICCICC

> > d<-read.table("e:Tab1.7.txt",header=T)d<-read.table("e:Tab1.7.txt",header=T) > d> d    r1 r2 r3 r4r1 r2 r3 r4 1 8 7 11 71 8 7 11 7 2 13 11 15 132 13 11 15 13 3 0 0 2 13 0 0 2 1 4 3 6 9 64 3 6 9 6 5 13 13 17 105 13 13 17 10 6 19 23 27 186 19 23 27 18 7 0 0 1 07 0 0 1 0 8 2 0 4 58 2 0 4 5 9 18 20 22 169 18 20 22 16 10 5 3 8 310 5 3 8 3 > icc(d,model="twoway",type="agreeme> icc(d,model="twoway",type="agreeme

nt",conf.level=0.90)nt",conf.level=0.90) Single Score Intraclass CorrelationSingle Score Intraclass Correlation

Model: twoway Model: twoway Type : agreement Type : agreement

Subjects = 10 Subjects = 10 Raters = 4 Raters = 4 ICC(A,1) = ICC(A,1) = 0.9090.909

F-Test, H0: r0 = 0 F-Test, H0: r0 = 0 F(9,9.3) = 81.7 , p = 1.92e-07F(9,9.3) = 81.7 , p = 1.92e-07

90%-Confidence Interval for ICC P90%-Confidence Interval for ICC Population Values:opulation Values:

0.757 < ICC < 0.970.757 < ICC < 0.97 > icc(d,model="twoway",type="co> icc(d,model="twoway",type="co

nsistency",conf.level=0.90)nsistency",conf.level=0.90) Single Score Intraclass CorrelatiSingle Score Intraclass Correlati

onon

Model: twoway Model: twoway Type : consistency Type : consistency

Subjects = 10 Subjects = 10 Raters = 4 Raters = 4 ICC(C,1) =ICC(C,1) = 0.953 0.953

F-Test, H0: r0 = 0 F-Test, H0: r0 = 0 F(9,27) = 81.7 , p = 6.09e-17 F(9,27) = 81.7 , p = 6.09e-17

90%-Confidence Interval for ICC 90%-Confidence Interval for ICC Population Values:Population Values:

0.898 < ICC < 0.9830.898 < ICC < 0.983

Page 59: 「測定の信頼性」 J. L.  フライス、「臨床試験のデザインと解析」第一章 を下敷きに

59

評価者固定の場合評価者固定の場合

92.0)1)(1()1(

)(ˆ

EMSkNRMSkPMSN

EMSPMSNR

この場合の推測の方法は十分に発展していない

Fleiss(1986)

222

2

1ejT

T

k

R

Page 60: 「測定の信頼性」 J. L.  フライス、「臨床試験のデザインと解析」第一章 を下敷きに

60

720.0)2727/()6534666765(1

)2727/()6534666765(27/)53544(

10

e

e

p

ppk

κCoefficient ( κ 係数)

Rater B Rater A - ± + ++ +++ Total - 4 1 0 0 0 5± 2 4 1 0 0 7+ 0 1 5 0 0 6++ 0 0 0 3 1 4+++ 0 0 0 0 5 5

Total 6 6 6 3 6 27

•The indexes of reliability (for categorical data) :kappaThe indexes of reliability (for categorical data) :kappa

Morikawa and Sekine (2000) DIA, Tokyo

Page 61: 「測定の信頼性」 J. L.  フライス、「臨床試験のデザインと解析」第一章 を下敷きに

61

•The indexes of reliability (for categorical data) :kappaThe indexes of reliability (for categorical data) :kappa

kappa statistickappa statistic DefinitionDefinition

Here,we call it ‘simple‘ κ. And other κ statistic can be Here,we call it ‘simple‘ κ. And other κ statistic can be defined by giving various weights(‘weighted’ κ).defined by giving various weights(‘weighted’ κ).

Cohen (1960), Cohen (1968), Fleiss (1981)Cohen (1960), Cohen (1968), Fleiss (1981)

agreemet of rate expected the:pagreement of rate the:p

1p1

p1κ

p1

p

p1

ppκ

E

0

E

E

E

E

E

E0

Page 62: 「測定の信頼性」 J. L.  フライス、「臨床試験のデザインと解析」第一章 を下敷きに

62

Observed agreementObserved agreement

- ± + ++ +++

- p11

± p22

+ p33

++ p44 +++ p55

•The indexes of reliability (for categorical data) :kappaThe indexes of reliability (for categorical data) :kappa

Page 63: 「測定の信頼性」 J. L.  フライス、「臨床試験のデザインと解析」第一章 を下敷きに

63

Agreement by chanceAgreement by chance

- ± + ++ +++

- p1. p. 1

± p2. p. 2

+ p3. p. 3

++ p4. p. 4 +++ p5. p. 5

•The indexes of reliability (for categorical data) :kappaThe indexes of reliability (for categorical data) :kappa

Page 64: 「測定の信頼性」 J. L.  フライス、「臨床試験のデザインと解析」第一章 を下敷きに

64

Simple κ(unweighted κ)Simple κ(unweighted κ)

Simple κSimple κ

k

1iiiE

k

1iiiO

ppp

pp

E

EO

p1

pp

•The indexes of reliability (for categorical data) :kappaThe indexes of reliability (for categorical data) :kappa

Page 65: 「測定の信頼性」 J. L.  フライス、「臨床試験のデザインと解析」第一章 を下敷きに

65

Weighted κWeighted κ weighted κweighted κ

wE

wEwOw p1

ppκ

k

1i

k

1jjiijwE

k

1i

k

1jijijwO

ppwp

pwp

•The indexes of reliability (for categorical data) :kappaThe indexes of reliability (for categorical data) :kappa

Page 66: 「測定の信頼性」 J. L.  フライス、「臨床試験のデザインと解析」第一章 を下敷きに

66

Linear weightsLinear weights Cichetti and Allison(1971)Cichetti and Allison(1971)

- ± + ++ +++

- 1 0. 75 0. 5 0. 25 0

± 0. 75 1 0. 75 0. 5 0. 25

+ 0. 5 0. 75 1 0. 75 0. 5

++ 0. 25 0. 5 0. 75 1 0. 75+++ 0 0. 25 0. 5 0. 75 1

wij=1- |i- j|/ (c- 1)

•The indexes of reliability (for categorical data) :kappaThe indexes of reliability (for categorical data) :kappa

Page 67: 「測定の信頼性」 J. L.  フライス、「臨床試験のデザインと解析」第一章 を下敷きに

67

Quadratic weightsQuadratic weights Fleiss and Cohen(1973)Fleiss and Cohen(1973)

- ± + ++ +++

- 1 0. 9375 0. 75 0. 4375 0

± 0. 9375 1 0. 9375 0. 75 0. 4375

+ 0. 75 0. 9375 1 0. 9375 0. 75

++ 0. 4375 0. 75 0. 9375 1 0. 9375+++ 0 0. 4375 0. 75 0. 9375 1

wij=1- (i- j)2/ (c- 1)2

•The indexes of reliability (for categorical data) :kappaThe indexes of reliability (for categorical data) :kappa

Page 68: 「測定の信頼性」 J. L.  フライス、「臨床試験のデザインと解析」第一章 を下敷きに

68

0-th order weights0-th order weights :: simple simple κκ

- ± + ++ +++

- 1 0 0 0 0

± 0 1 0 0 0

+ 0 0 1 0 0

++ 0 0 0 1 0+++ 0 0 0 0 1

wij=δ ij

•The indexes of reliability (for categorical data) :kappaThe indexes of reliability (for categorical data) :kappa

Page 69: 「測定の信頼性」 J. L.  フライス、「臨床試験のデザインと解析」第一章 を下敷きに

69

- ± + ++ +++

- 1 1 0 0 0

± 1 1 1 0 0

+ 0 1 1 1 0

++ 0 0 1 1 1+++ 0 0 0 1 1

wij=1, |i- j|<=d =0, |i- j|>d

•The indexes of reliability (for categorical data) :kappaThe indexes of reliability (for categorical data) :kappa

Page 70: 「測定の信頼性」 J. L.  フライス、「臨床試験のデザインと解析」第一章 を下敷きに

70

κκ の漸近分散の漸近分散Fleiss, Fleiss, Levin, and Paik Levin, and Paik (2003)(2003)

κ

})]1([)pp(p)1()]1)(pp(1[p{n)1(

1)(V 22

j..ii i ij ij22

i..iii2

})]1([)]1)(ww(w[p{n)1(

1)(V 2

www2

wj..ii j ijij2w

w

)重み付き期待一致確率(,, ..... wewiji ijijj ji Pwpwwpw

Cohen の κ

重み付き κ

ここに

多評価者の場合は Schouten (1982)

は期待一致確率ここに eP

Page 71: 「測定の信頼性」 J. L.  フライス、「臨床試験のデザインと解析」第一章 を下敷きに

71

RR によるによる κκ の計算 の計算 cf.cf. 鍵村鍵村(2005)(2005) > grade<-> grade<-

read.table("e:5grade.txt",headread.table("e:5grade.txt",header=T)er=T)

> grade> grade x1 x2x1 x2 1 1 11 1 1 2 1 12 1 1 3 1 13 1 1 4 1 14 1 1 5 1 25 1 2 6 2 16 2 1 7 2 17 2 1 8 2 28 2 2 9 2 29 2 2 10 2 210 2 2 11 2 211 2 2 12 2 312 2 3 13 3 213 3 2

14 3 314 3 3 15 3 315 3 3 16 3 316 3 3 17 3 317 3 3 18 3 318 3 3 19 4 419 4 4 20 4 420 4 4 21 4 421 4 4 22 4 522 4 5 23 5 523 5 5 24 5 524 5 5 25 5 525 5 5 26 5 526 5 5 27 5 527 5 5

Page 72: 「測定の信頼性」 J. L.  フライス、「臨床試験のデザインと解析」第一章 を下敷きに

72

RR によるによる κκ の計算の計算 > library(irr)> library(irr) Warning message: Warning message: package irr was built under package irr was built under

R version 2.1.0 R version 2.1.0 > > kappa2(grade)kappa2(grade) Cohen's Kappa for 2 Raters Cohen's Kappa for 2 Raters

(Weights: unweighted)(Weights: unweighted)

Subjects = 27 Subjects = 27 Raters = 2 Raters = 2 Kappa = 0.72Kappa = 0.72

z = 7.42 z = 7.42 p-value = 1.20e-13 p-value = 1.20e-13 > > kappa2(grade,"equal")kappa2(grade,"equal") Cohen's Kappa for 2 Raters Cohen's Kappa for 2 Raters

(Weights: equal)(Weights: equal)

Subjects = 27 Subjects = 27 Raters = 2 Raters = 2 Kappa = 0.86Kappa = 0.86

z = 5.64 z = 5.64 p-value = 1.65e-08 p-value = 1.65e-08 > > kappa2(grade,"squared")kappa2(grade,"squared") Cohen's Kappa for 2 Cohen's Kappa for 2

Raters (Weights: squared)Raters (Weights: squared)

Subjects = 27 Subjects = 27 Raters = 2 Raters = 2 Kappa = 0.944Kappa = 0.944

z = 5.1 z = 5.1 p-value = 3.42e-07p-value = 3.42e-07

Page 73: 「測定の信頼性」 J. L.  フライス、「臨床試験のデザインと解析」第一章 を下敷きに

73

ICCICC とと κκ の関係:順序カテゴリーの関係:順序カテゴリーの場合の場合 (1)(1) 2次重みつき2次重みつき κκ で1,2,3、・・・のスコで1,2,3、・・・のスコアア

2評価者の場合:2評価者の場合: Fleiss and Cohen (1973)Fleiss and Cohen (1973)

2

2

w )1(

||1,

1

ICCESS)2RSS(PSSESS)/ -(PSS

ESS)}RSS (2/n)(- ESS)2RSS{(PSSESS)/ -(PSS2)EMS}-n-(2n2RMS{nPMS / EMS)-n(PMSR

c

jiw

Pew

PewPow

ICCR

ij

w

w

但しの一致推定量もκ

の一致推定量は者は一致、かつしたがって漸近的に両

一方

Page 74: 「測定の信頼性」 J. L.  フライス、「臨床試験のデザインと解析」第一章 を下敷きに

74

ICCICC とと κκ の関係:順序カテゴリーの関係:順序カテゴリーの場合の場合 (2)(2) 2次重みつき2次重みつき κκ で1,2,3、・・・のスコで1,2,3、・・・のスコアア

多評価者(多評価者( rr人)の場合:森川 人)の場合:森川 (2002,(2002, 未公未公表表 ))

の平均値期待一致率観測一致率に対する対は、それぞれ各評価者を定義したとき、

κに対して重み付き但し評価者対

定義されたもので、によりあるいははここに

一方

)'(),'(',

)'(1

)'()'('

)(1

)1982()1982(} RSS 1)TSS-(r ESS}/{-1)PSS-(r

ESS)} (r/n)(RSS-RSS 1)TSS-(r ESS}/{-1)PSS-{(r R

wkk'

w

w

w

kkPwekkPwokkwePwoP

kkPwe

kkPwekkPwokkweP

wePwoP

SchoutenFleissandDavies

Page 75: 「測定の信頼性」 J. L.  フライス、「臨床試験のデザインと解析」第一章 を下敷きに

75

ICCICC やや κκ を計算してくれるソを計算してくれるソフトフト RR のの irr Packageirr Package (解説:鍵村、200(解説:鍵村、200

5)5) SASSAS のの PROC FREQ PROC FREQ

κκ のみのみ この他にもこの他にも SASSAS にはには MAGREEMAGREE (( κκ 用用

)) 、、 INTRACCINTRACC (( ICCICC 用)のマクロが用)のマクロがあるある

Page 76: 「測定の信頼性」 J. L.  フライス、「臨床試験のデザインと解析」第一章 を下敷きに

76

文献(著書)文献(著書) 森川・熊澤監訳(森川・熊澤監訳( KRKR 研究会訳):臨研究会訳):臨

床試験のデザインと解析床試験のデザインと解析 (Fleiss, J. L., (Fleiss, J. L., The Design and Analysis of Clinical The Design and Analysis of Clinical Experiments, Wiley, 1986)Experiments, Wiley, 1986)

Fleiss, J. L., et al., Statistical Analysis of Fleiss, J. L., et al., Statistical Analysis of Rates and Proportions (3rd Ed.), Wiley, Rates and Proportions (3rd Ed.), Wiley, 2003. (Fleiss, J. L., 22003. (Fleiss, J. L., 2ndnd ed., 1981) ed., 1981)

Page 77: 「測定の信頼性」 J. L.  フライス、「臨床試験のデザインと解析」第一章 を下敷きに

77

文献(著書)文献(著書) Rao, P. S.R.S., Variance Components EstimaRao, P. S.R.S., Variance Components Estima

tion – Mixed models, methodologies and applition – Mixed models, methodologies and applications, Chapman&Hall, 1997.cations, Chapman&Hall, 1997.

Dunn, G., Statistical Evaluation of MeasuremDunn, G., Statistical Evaluation of Measurement Errors – Design and Analysis of Reliability ent Errors – Design and Analysis of Reliability Studies (2Studies (2ndnd Ed), Arnold, 2004. Ed), Arnold, 2004.

Shoukri, M. M., Measures of Interobserver AgShoukri, M. M., Measures of Interobserver Agreement, Chapman&Hall/CRC, 2004.reement, Chapman&Hall/CRC, 2004.

Page 78: 「測定の信頼性」 J. L.  フライス、「臨床試験のデザインと解析」第一章 を下敷きに

78

文献(著書)文献(著書) 上坂浩之・森川敏彦、3上坂浩之・森川敏彦、3 00.評価尺度の.評価尺度の

妥当性と信頼性、臨床試験ハンドブック妥当性と信頼性、臨床試験ハンドブック(丹後・上坂編)、朝倉書店、2005(丹後・上坂編)、朝倉書店、2005(出版予定))(出版予定))

楠正監修(楠正監修( SKETCHSKETCH 研究会)、臨床デ研究会)、臨床データの妥当性と信頼性、サイエンティスータの妥当性と信頼性、サイエンティスト社、 2005(出版予定)ト社、 2005(出版予定)