임상연구에 필요한 통계 분석

21
임상연구에 필요한 통계 분석 (2) - 범주형 자료에 대한 분석 - 순천향대 중앙의료원 의학통계상담실 이지성 [email protected] Categorical data: 그 변수가 가질 수 있는 값이 명목형(nomial) 척도 또는 순위형(ordinal) 척도인 경우 명목형 척도: 혈액형(A, B, AB, O), 성별(, )처럼 그 값들이 서로 다르 다는 것을 표현함. 순위형 척도: , , 하 또는 mild, moderate, severe 와 같은 증상이나 상 태의 심한 정도를 상대적으로 나타냄. 이러한 변수들이 갖는 각 값들을 범주(category)라고 함. 이들의 분포를 표현할 때에는, 각 범주에 속하는 상대적인 빈도(relative frequency) , 비율(proportion 혹은 rate)을 사용 분석방법: Chi-square test, Fisher’s exact test, McNemar’s Test, Kappa statistic, Linear trend test, Cochran-Mantel-Haenzel Test Introduction 2

Upload: mothersafe

Post on 24-Jun-2015

1.356 views

Category:

Documents


3 download

DESCRIPTION

순천향대 중앙의료원 의학통계상담실 이 지 성

TRANSCRIPT

Page 1: 임상연구에 필요한 통계 분석

임상연구에 필요한 통계 분석 (2)

- 범주형 자료에 대한 분석 -

순천향대 중앙의료원 의학통계상담실

이 지 성

[email protected]

Categorical data: 그 변수가 가질 수 있는 값이 명목형(nomial) 척도

또는 순위형(ordinal) 척도인 경우

명목형 척도: 혈액형(A, B, AB, O), 성별(남, 여)처럼 그 값들이 서로 다르

다는 것을 표현함.

순위형 척도: 상, 중, 하 또는 mild, moderate, severe 와 같은 증상이나 상

태의 심한 정도를 상대적으로 나타냄.

이러한 변수들이 갖는 각 값들을 범주(category)라고 함.

이들의 분포를 표현할 때에는, 각 범주에 속하는 상대적인 빈도(relative

frequency) 즉, 비율(proportion 혹은 rate)을 사용

분석방법: Chi-square test, Fisher’s exact test, McNemar’s Test, Kappa

statistic, Linear trend test, Cochran-Mantel-Haenzel Test 등

Introduction

2

Page 2: 임상연구에 필요한 통계 분석

동질성 검정(Homogeneity test) 표본 수가 한 변수의 각 수준에 대해 미리 정해지는 경우 이 때 보고자 하는 것은 다른 변수에 대한 위 변수의 각 수준별 반응 분포

가 동일한가?

(예) 각 병원별 외과수술환자들의 사망률은 모두 동일한가?

두 범주형 변수들간 연관성 검정

3

병원외과수술 결과

Total사망 생존

A 130 1970 2100

B 90 710 800

C 120 1380 1500

독립성 검정(Independence test) 전체 표본수가 정해지는 경우 이때 보고자 하는 것은 두 변수가 서로 관련이 없는가(즉, 서로 독립인가?)

(예) 교육수준과 소득수준은 서로 관련이 없는가, 즉, 서로 독립인가?

동질성 검정이든 독립성 검정이든 상관없이 모두 카이제곱 검정이라는 것을사용함.

귀무가설: 두 범주형 변수간에 관련성이 없다(즉, 두 변수는 서로 독립이다).

두 범주형 변수들간 연관성 검정

4

교육수준

소득수준

상 중 하

대졸 255 105 81

고졸 110 92 66

중졸 90 113 88

Page 3: 임상연구에 필요한 통계 분석

A 22 Contingency table : a table composed of two rows cross-classified by two columns

예:

예방접종여부와 인플루엔자 감염여부는 서로 독립적인가 아니면 서로 관련이 있는가?

만일 관련이 있다면, 예방접종을 받지 않으면 인플루엔자에 걸릴 위험이 증가하는가?

그렇다면 그 위험의 크기는 얼마나 되는가?

Pearson’s chi-square statistic

위의 검정통계량은 모든 칸에 대해서 기대빈도(mij)가 모두 5이상이어야 타당함. 각 칸의 관찰빈도(O)와 이에 해당하는 기대빈도 간의 차이가 크면 클수록 두 집

단의 비율은 다르다는 것을 의미.

1. Chi‐Square Test

5

예방접종(exposure)

인플루엔자

TotalCase(=걸림) Control(안 걸림)

맞지 않음 n11 n12 n1+

맞음 n21 n22 n2+

Total n+1 n+2 n

n

nnEwhere

E

En

E

EO

jiij

i j ij

ijij

i j

2

1

2

1

2

1

22

1

2

1

22 ~

6

H0: 예방접종 유무와 인플루엔자에 걸리게 될 사건은 독립이다.H1: 두 사건은 서로 관련이 있다.

(귀무가설이 사실이라는 가정하에서) 기대빈도 계산

카이제곱 검정통계량

기각역: Reject H0 if χ2 > 3.84 (p-value=<.001)결론: p-value = <.001 < = 0.05 reject H0 두 사건은 독립이 아니다.

예방접종(exposure)

인플루엔자TotalCase(=걸림) Control(안 걸림)

맞지 않음 80 140 220

맞음 20 220 240

Total 100 360 460

예방접종(exposure)

인플루엔자TotalCase(=걸림) Control(안 걸림)

맞지 않음 100×220/460=47.83 360×220/460=172.17 220

맞음 100×240/460=52.17 360×240/460=187.83 240

Total 100 360 460

21

22222 ~01.53

83.187

)83.187220(

17.52

)17.5220(

17.172

)17.172140(

83.47

)83.4780(

Page 4: 임상연구에 필요한 통계 분석

7

SPSS: Chi‐Square Test

8

행에는 ‘예방접종’을, 열에는 ‘인플루엔자’를 선택한다.통계량 버튼을 눌러서 카이제곱을 선택하고, 셀 버튼을 눌러서 퍼센트들을 선택한다.

Page 5: 임상연구에 필요한 통계 분석

9

관찰빈도(observed frequency)=80‐ 예방접종의 % = 36.4% = 80/220‐ 인플루엔자의 % = 80.0% = 80/100‐ 전체 % = 17.4% = 80/460를 각각 의미함

P‐value p‐값(유의확률) <.001은 유의수준()으로 설정된 0.05보다작으므로, 따라서 귀무가설기각. 즉, 예방접종 여부와 인플루엔자 여부는 관련이 있다고 볼 수 있다.

† P-value by Chi-square test

인플루엔자 걸림 인플루엔자 안 걸림

예방접종맞지않음맞음

n (%) n (%) P‐value†

8020

(36.4)(8.3)

140220

(63.6)(91.7)

<.001

카이제곱검정의 타당성 2×2 분할표의 경우 (n은 Total number of observation)

n > 40 또는 20 < n < 40이면서, 각 칸의 기대빈도(expected frequency)가 모두 5 이

상일 때 r×c 분할표의 경우:

기대빈도가 5이하인 칸이 전체 칸의 20%이하이고, 1보다 작은 기대빈도를 가지는 칸이 없을 때

자료가 위의 타당성 조건을 만족시키지 못할 때:

해당 행이나 열을 합하여 위의 조건들을 만족시키도록 함.

다음과 같은 경우에는 Fisher의 정확검정(Fisher’s exact test)을 사용함.

n < 20 또는 20 < n < 40이면서, 각 칸의 기대빈도 중 제일 작은 것이 5 이하일 때

카이제곱 검정의 타당성

10

Page 6: 임상연구에 필요한 통계 분석

Data concerning the possible association between high fat diet and the risk of coronary heart disease

기대빈도 E11=13(8)/23=4.52,  E21=10(8)/23=3.48

Two of the four cells have expected values less than 5. 즉, Data가 small 또는zero cell count를 포함하고 있는 경우, 카이제곱 검정은 타당하지 않음.

Fisher의 정확검정(Fisher’s exact test)을 사용

2. Fisher’s Exact Test

11

Exposure

Heart Disease

TotalYes No

High Cholesterol Diet 11 4 15

Low Cholesterol Diet 2 6 8

Total 13 10 23

SPSS : Fisher’s exact test

12

자료: FatComp.sav

Page 7: 임상연구에 필요한 통계 분석

13

Chi-square test

Fisher’s exact test

† P‐value by Fisher’s exact test

CHD=Yes CHD=No

DietHighLow

n (%) n (%) P‐value†

112

(73.3)(25.0)

46

(26.7)(75.0)

0.039

카이제곱검정 결과 유의한 차이가 있는 것으로 나타났으면 그 연관성의 강도(the strength of an association)을 평가할 필요가 있음.

Cohort study(prospective)의 경우, RR을 incidence rate(발생율)에 대한 relative risk measure로 사용

Case-control study(retrospective)의 경우, Interest outcome이 Rare disease인 경우에는 OR을 relative risk measure

로 사용 Common disease인 경우에는 relative risk measure의 계산이 불가능함.

이 경우 OR은 단지 measure of association으로 사용할 수 있을 뿐임.

노출여부와 질병여부 간 연관성 측정

3. The strength of an association

14

ExposureDisease

TotalYes No

Yes a b a+bno c d c+d

Total a+c b+d n

Page 8: 임상연구에 필요한 통계 분석

15

Ex) 460명 대상, 예방접종 여부(아니오/예), 인플루엔자(걸림/안 걸림)

예방접종인플루엔자

Total걸림 안 걸림

맞지 않음 80 140 220맞음 20 220 240Total 100 360 460

예방접종여부와 인플루엔자 감염여부는 서

로 독립적인가 아니면 서로 관련이 있는가?

만일 관련이 있다면, 예방접종을 받지 않으

면 인플루엔자에 걸릴 위험이 증가하는가?

그렇다면, 그 위험의 크기는 얼마나 되는가?

카이제곱검정 결과 p-value<.001 reject H0

결과적으로 예방접종을 받지 않은 사람이 예방접종을 받은 사람에 비해 더 자주 인플

루엔자에 걸리게 된다고 말할 수 있다 (36.4% vs. 8.3%)

어느 정도나 더 자주 걸리게 되는가?(즉, 몇 배나 더 위험한가?)

Odds Ratio(OR) vs. Risk Ratio (RR)

16

- Case-control study: OR=(80/140)/(20/220) = 6.286예방접종을 받지 않은 사람이 인플루엔자에 걸릴 odds는 예방접종을 받은 사람이 인플루엔자에 걸릴 odds의 6.286배이다.

- Cohort study: RR=(80/220)/(20/240)=4.364

예방접종을 받지 않은 사람이 인플루엔자에 걸릴 risk는 예방접종을 받은 사람이 인플

루엔자에 걸릴 risk의 4.364배이다.

Page 9: 임상연구에 필요한 통계 분석

전향적 연구의 경우

17

위험요인에 노출된 집단이 질병에 걸릴 Risk, R1=a/(a+b)

위험요인에 비노출된 집단이 질병에 걸릴 Risk, R2=c/(c+d)

비노출집단에 대한 노출집단이 질병에 걸릴 risk ratio, RR=R1/R2=a (c+d)/c(a+b)

노출집단이 질병에 걸릴 risk는 비노출집단이 질병에 걸릴 risk의 ‘RR’배이다.

ExposureDisease

TotalYes No

Yes a b a+bno c d c+d

Total a+c b+d n

질병의 발생률(incidence rate) 파악이가능한 연구설계

후향적 연구의 경우

18

질병에 걸린 집단이 위험에 노출될 odds, oddsD=a/c

정상인 집단이 위험에 노출될 odds, oddsND=b/d

정상집단에 대한 질병집단의 위험요인 노출 odds ratio, OR=oddsD/oddsND=ad/bc

질병집단이 위험요인에 노출된 odds는 정상집단이 위험요인에 노출된 odds의 ‘OR’배이다.

노출중심으로 해석해보면,• 위험요인에 노출된 집단이 질병에 걸릴 odds, oddsE=a/b

• 위험요인에 비노출된 집단이 질병에 걸릴 odds, oddsNE=c/d

• 비노출 집단에 대한 노출 집단의 질병에 걸릴 odds ratio, OR=oddsE/oddsNE=ad/bc

결국 OR은 같게 된다. 따라서 질병여부에 따라 설계된 연구이지만 해석은, odds의 개념을 이용해서, “노출집단이 질병에 걸릴 odds는 비노출집단이 질병에 걸릴 odds의 ‘OR’배이다”라고 해석

ExposureDisease

TotalYes No

Yes a b a+bno c d c+d

Total a+c b+d n

Page 10: 임상연구에 필요한 통계 분석

단면연구(cross‐sectional study)인 경우

19

단면연구에서는 노출여부와 질병여부간의 인과관계를 파악할 수 없음. 따라서 relative risk measure의 측정은 의미가 없다. 이 경우에는 질병의 발생률(incidence)가 아닌 유병률(prevalence)만이 파악될 수 있다.

즉, 유병률 비(prevalence ratio:PR)를 계산한다. 위험비(RR)을 계산한 뒤, 이 값을 PR 값으로 해석한다.

즉, ‘몇 배가 더 위험함’이 아닌 ‘몇 배 더 유병하고 있음’으로 해석한다.

ExposureDisease

TotalYes No

Yes a b a+bno c d c+d

Total a+c b+d n

전체 인원 수 n명을 대상으로 노출여부 및 질병여부를 파악한 연구설계

SPSS : 위험도분석

20

자료: 인플루엔자-coding1.sav

Page 11: 임상연구에 필요한 통계 분석

앞 예제의 분석결과에 대한 해석

21

‘예방접종=맞음’인 경우에 비해, ‘예방접종=맞지 않음’인 경우에 인플루엔자가걸릴 OR 및 해당 CI

‘예방접종=맞음’인 경우에 비해, ‘예방접종=맞지 않음’인 경우에 인플루엔자가걸릴 RR 및 해당 CI

‘예방접종=맞음’인 경우에 비해, ‘예방접종=맞지 않음’인 경우에 인플루엔자가걸리지 않을 RR 및 해당 CI

Matched case-control study

134 cases and 134 matched controls, for a total of 268 subjects. Concordant pair(=13 pairs, 92 pairs)

No information about the association between risk factor and disease

McNemar’ test uses only the number of discordant pairs.

4. 맥니마 검정(McNemar’s Test)

22

CaseControl

Total+ -+ 13 4 38- 25 92 96Total 17 117 134

21

22

2 ~79.13425

14251

SR

SR

결론: p-value = <.001 < =0.05 There is an association between risk factor and disease.

Page 12: 임상연구에 필요한 통계 분석

SPSS : McNemar’s test

23

24

P-value

H0: Case군의 양성률과 Control군의 양성률은 같다. H1: Case군의 양성률과 Control군의 양성률은 다르다.P-value=<.001 < =0.05 reject H0

Page 13: 임상연구에 필요한 통계 분석

일치성 척도 (Agreement measurement)

두 관찰자 간의 측정 범주값에 대한 일치성 정도를 측정하는 방법

두 관찰자의 평가가 우연히 일치할 가능성을 보정한 두 관찰자간의 일치도

5. Cohen’s Kappa

25

The Kappa Statistic의 이론적 배경

26

Cohen(1968)의 kappa 계수 Kappa, K = po – pe / 1 – pe po : “observed” agreement proportion

= (15 + 70)/100 = 0.85

pe : by chance alone (“expected” agreement proportion)

= [(n1/n)×(m1/n)]+[(n0/n)×(m0/n)]= [(25/100)×(20/100)]+[(75/100)×(80/100)]= 0.05 + 0.6 = 0.65

Kappa = (po ‐ pe)/(1 ‐ pe) 

= (0.85 – 0.65)/(1 – 0.65) = 0.57

Moderate agreement

Page 14: 임상연구에 필요한 통계 분석

두 산부인과 의사가 140명의 환자를 transvaginal ultrasonography를시행하여 난소암의 여부와 정도를 진단하였다.

두 의사의 난소암 판정정도는 일치하는가?

Kappa 계수(Kappa coefficient)로 평가

Example

27

Doctor A

Doctor B negative + ++ 전이

negative 32 3 2 0

+ 5 10 11 0

++ 0 4 42 0

전이 0 1 15 15

SPSS : Kappa 분석

28

자료: Kappa.sav

분석을 시작하기 전에 count를“가중설정”을 해 주어야 한다.

Page 15: 임상연구에 필요한 통계 분석

29

Kappa=0.592 Moderate agreement

SPSS output

30

Page 16: 임상연구에 필요한 통계 분석

예) Contingency Table Blood Pressure Data

In the form of 2×k contingency table, the rows have a distinct order(i.e.,time points, ages, or doses), this information is not used in the standardchi-square test.

The rows are ordered, and you may wish to ask whether there is alinear trend. That is, whether the prevalence of hypertension changes linearly with class.

Null hypothesis: There is no correlation between row (class) numberand the proportion of subjects who are hypertensive (in left row).

6. Chi‐Square Test for Trend

31

ClassBlood Pressure

High Not High

ⅠⅡⅢⅣ

5111214

25191916

SPSS : Trend Test

32

분석을 시작하기 전에 count를“가중설정”을 해 주어야 한다.

Page 17: 임상연구에 필요한 통계 분석

33

Chi-Square Test for Trend(선형 대 선형결합): p-value = 0.018 There is a significant linear trend among the ordered categories defining the rows and the proportion of subjects in the left column.

Chi-square test for trend uses more information and tests a narrower set of alternative hypotheses than does the chi-square test for independence.

Chi-Square Test : p-value = 0.091 The row and column variables are not significantly associated.

SPSS output

34

Page 18: 임상연구에 필요한 통계 분석

4개의 병원으로부터 호흡기 곤란 환자들을 기존 치료제와 새로운 치료제에 랜덤하게 할당한 후 호전의 유무를 조사한 자료임. 치료제에따라 호전도의 차이가 있는가이며, 병원의 효과를 제어하고 싶다

7. Cochran‐Mantel‐Haenzel Test

35

병원 치료제 호전 호전되지 않음

A기존치료제새로운 치료제

911

56

B기존치료제새로운 치료제

78

53

C기존치료제새로운 치료제

47

65

D기존치료제새로운 치료제

1826

114

독립된 K개의 그룹이 있을 때, 그룹의 효과를 제어한 반응률의 차이가있는지를 검정하는 방법 처리와 반응률의 자료가 독립된 여러 병원으로부터 얻어졌을 때, 병원을

하나의 층(strata)로 보고 이를 제어한 처리와 반응사이의 연관성을 알아보는 경우

병원을 층(strata)으로 두고 두 처리간 반응률의 차이를 조사하는 것은 병원에 따라 처리 간 반응률이 달라질 수 있기 때문임.

병원이라는 층변수(stratification variable)를 제어하면서 전체적인 반응률의 차이를 조사하는 방법

따라서 K개의 층이 있고 처리 1에서의 반응율을 p1, 처리 2에서의 반응율을 p2라고 두 처리 간에 전체적인 반응률의 차이가 있는지를 검정하고 함.

Cochran‐Mantel‐Haenzel (CMH) Test

36

Page 19: 임상연구에 필요한 통계 분석

SPSS: Cochran‐Mantel‐Haenzel Test

37

분석을 시작하기 전에 count를“가중설정”을 해 주어야 한다.

38

Page 20: 임상연구에 필요한 통계 분석

39

The significant p-value (=0.041) 병원을 통제한결과, 치료제에 따라 호전여부는 다르다는 것은 통계적으로 유의하다.

40

The Breslow-Day test : a method for the testing for homogeneity of the odds ratio over multiple strata Adjusted OR(=1.625) can be used.

The common OR(Mantel-Haenszel OR) = 2.14795% CI: 1.019 – 4.520

Page 21: 임상연구에 필요한 통계 분석

41

Thank you for your attention