장 로지스틱 회귀 - x (dichotomous: d- ) 다수의 변수와 하나의...

31
-1- 로지스틱 회귀 8 . 다수의 변수와 하나의 이진변수 종속변수 변수간 - X (Dichotomous: D- ) 의 관계를 나타내는 수리적 모형. 로지스틱 모형은 다음과 같은 경우에 사용될 수 있음 - . 추정치가 사이의 범위에 존재하는 경우 0 1 하나의 질병위험요소에 대해 다수의 위험인자의 결합 효과를 설명 하는데 곡선의 형태를 갖는 경우 S- .

Upload: others

Post on 08-Oct-2019

1 views

Category:

Documents


0 download

TRANSCRIPT

- 1 -

장 로지스틱 회귀8 .

다수의 변수와 하나의 이진변수 종속변수 변수간- X (Dichotomous: D- )

의 관계를 나타내는 수리적 모형.

로지스틱 모형은 다음과 같은 경우에 사용될 수 있음- .

추정치가 과 사이의 범위에 존재하는 경우0 1○

하나의 질병위험요소에 대해 다수의 위험인자의 결합 효과를 설명○

하는데 곡선의 형태를 갖는 경우S- .

- 2 -

예 질병조사의 경우)

환경요인(E) 질병(D)

변수 이진값을 갖음 질병에 걸리지 않음D : - 0 : .

질병에 걸림1 : .

변수 독립변수 흡연 여부 흡연 비흡연E : - ( : 1, :0)

통제변수 나이 성별 인종등C : - , , .

DE, C1, C2, C3

독립변수 종속변수

일반화⇒

X1, X2, , XK 인 다변량 변수와 D간의 연관성을 규명하는 모형.

- 3 -

로지스틱 함수 곡선: S-○

: f (z ) =1

1 + e − z

f(z)

0

0.2

0.4

0.6

0.8

1

1.2

-3 -2.4 -1.8 -1.2 -0.6 0 0.6 1.2 1.8 2.4 3

로지스틱 모형○

: z = α + 1X1 + 2X2 + + kXk

- 4 -

로지스틱 함수에 대입⇒

f (z ) = 11 + e − z

= 1

1 + e− (α+ Σ iXi )

⇒ P (D = 1 |X1, X2, , Xk ) =1

1 + e− (α + Σ iXi )

미지의 모수⇒ 와 를 추정.α β

- 5 -

예 명의 백인남성을 대상으로 년간 추적 조사한 결과를 바탕으로 해당 요인에 대한 질병) n=609 9

유무와의 연관성 연구.

D 질병에 걸림: CHD=1, .

질병에 걸리지 않음=0, .

X1 고: CAT=1 ,

저=0 ,

X2 : AGE

X3 정상: ECG=1,

비정상=0,

확률적 모형⇒

P (X ) =1

e − (α + 1CAT + 2AGE + 3ECG )

- 6 -

추정 예측 위험: (Predicted Risk)⇒

P̂ (X ) = 1e − (− 3.911 + 0.652CAT + 0.029AGE+ 0.342ECG )

만일 인 경우 예측 위험은 얼마인가CAT=1, AGE=40, ECG=0 ?⇒

P̂ (X ) = 0.1090

의 값이 높은 사람의 위험도는 약 임: CAT 11% .

만일 인 경우 예측 위험은 얼마인가CAT=0, AGE=40, ECG=0 ?⇒

P̂(X ) = 0.060

의 값이 낮은 사람의 위험도는 약 임: CAT 6% .

위험비(RR:Risk Ratio)⇒

RR =P̂ 1 (X)

P̂ 0 (X)=

0.10900.060

= 1.82

가 비정상이고 나이가 세인 사람 중 값이 높은 사람이 질병에 걸릴 위험도는: ECG , 40 CAT

가 낮은 사람에 비해 배정도 높다CAT 2 .

- 7 -

와§. Risk Ratio(RR) Odd Ratio(OR)

을 사용하여 결론을 도출하는 경우의 가정RR○

종류의 개인에 대해 을 구해 비교가 가능: 2 RR .

직접적인 방법과 간점적인 방법:

개인적인 위험도를 측정: .

직접적인 방법< >

가정 추적조사: -

모든 독립변수들에 대한 특정한 값을 갖는 요인에 대한 비교- .

간접적인 방법< >

앞의 직접적인 방법을 적용할 수 없는 경우:

를 사용- OR(Odd Ratio)

은 단지 연관성을 규명하는 값- OR .

추적조사 사례 대조연구 횡단면 연구- , - , .

- 8 -

연구설계§.

로지스틱 모형의 중요한 성질은 추적조사연구에 의해 정의됨- .

고정된 추적시점으로부터 독립변수값을 측정하여 관심질병을 미리 가정된 독립변수의 함수-

로 표현한 확률.

사례 대조 연구 횡단면 연구 에 적절한 모형인- - (case-control study), (cross-sectional study)

가? OK!

사례 대조 연구< - >

종속변수 질병발생: .

독립변수 질병노출상태 관심변수의 공변량: + .

데이터 추적조사로부터 얻은 자료: .

D E E D

<case-control study> <follow-up study>

- 9 -

사례 대조 연구와 횡단면 연구의 제한-※

특정한 독립변수값을 갖는 개인의 위험비 로 예측하지 않는다: (RR) .

승산비 오즈비를 사용한다: ( ) .

예 테이블) 2×2

E=1 E=0

D=1 a b

D=0 c d

follow-up study :⇒ OR̂ =adbc

case-control & cross-sectional :⇒ OR̂ =P̂(E = 1|D = 1)/P̂(E = 0|D = 1)

P̂(E = 1|D = 0)/P̂(E = 0|D = 0)

⇒ RR̂ = P̂(D = 1|E = 1)

P̂(D = 1|E = 0)Risk = P(D|E)⇔

- 10 -

로지스틱 회귀모형1.

로짓모형 : l o g i tP (X ) = ln

P(X )1 −P (X)

여기서, P (X ) =1

1 + e− (α + Σ iXi )

이다.

⇔ l o g i tP (X ) = ln

P (X )1 −P (X )

= α + Σ iXi

여기서P (X)

1−P (X)는 특정한 값에 대한 승산 이다X (odds) .

1) α에 대한 해석

모든○ Xi = 0인 경우 로그오즈=

: lo g i tP(X ) = α 모든⇔ Xi = 0인 개인에 대한 로그승산 이다(log-odds) .

⇔ P (X ) = 11+ e − α

- 11 -

모든○ Xi 값을 무시한 경우 또는= backgroud baseline odds

2) i에 대한 해석

예) l o g i tP (X ) = α+ 1CAT + 2AGE + 3ECG

값을 과 로 변화시키고 나머지 으로 고정시킴CAT 0 1 AGE=40, ECG=0 .

CAT=1, AGE=40, ECG=0⇒

l o g i tP (X ) = α+ 1 + 40 2

CAT=0, AGE=40, ECG=0⇒

l o g i tP (X ) = α+ 40 2

⇒ log i tP1 (X )− log i tP0 (X ) = 1

계수< 1에 대한 해석>

다른 변수들이 고정일때 변수 가 단위 변화함에 따라 로그오즈의 변동을 나타냄: , CAT 1 .

두 로짓함수의 차는 두 로그오즈의 차이와 같음: .

- 12 -

의 계산조정된3) ROR(Risk Odds Ratio) ( OR)

로지스틱 모형 : P (X ) =1

1 + e− (α + Σ iXi )

그룹 에 대한 오즈1 :⇒P (X1 )

1−P1 (X )

그룹 에 대한 오즈0 :P (X0 )

1−P0 (X )

로지스틱 모형에서 두 변수가 얼마나 오즈비에 기여하는가를 측정ROR : .⇒

RORX1,X0=

odds X1

odds X0

=P (X1 )/ (1−P (X1 ))P (X0 )/ (1−P (X0 ))

= exp

Σi = 1

k

i (X1i−X0i )

=∏ exp i (X1i−X0i )

예를 들어⇒ X2에 대한 오즈비가 이고3 , X5에 대한 오즈비가 라면 두변수가 오즈비에 기여하4 ,

는 정도는 이다3×4=12 .

- 13 -

상호작용이 포함된 로지스틱 모형2.

주효과 모형○

l o g i tP (X ) = α+ 1CAT + 2AGE + 3ECG

상호작용 모형○

l o g i tP (X ) = α+ 1CAT + 2AGE + 3ECG + 4AGE ECG

예) X1 =A , X2 라 하면=B ,

R⇒ AB 와 의 조건하에서= A B Risk

= P(D|A,B)

B=1 B=0

A=1 R11 R10

A=0 R01 R00

reference cell

- 14 -

odds ratios⇒

OR11 =R11/ (1−R11 )R00/ (1−R00 )

=R11 (1 −R00 )R00 (1 −R11 )

OR10 =R10/ (1−R10 )R00/ (1−R00 )

=R10 (1 −R00 )R00 (1 −R10 )

OR01 =R01/ (1−R01 )R00/ (1−R00 )

=R01 (1 −R00 )R00 (1 −R01 )

No interaction⇒

OR11 = OR10 OR01

와 의 동시 효과 의 효과 의 효과: (A B ) = (A ) ×(B )

상호작용 효과에 대한 검정○

l o g i tP (X ) = α+ 1A+ 2B + 3A B

여기서 A = X1, B = X2 로서 주효과 변수이고, X3 = AB는 상호작용 변수이다.

- 15 -

가설< >

H0 : OR11 = OR10 OR01

⇔OR11

OR10 OR01

= 1

⇔ ln

OR11

OR10 OR01

= ln 1 = 0

⇔ 3 = 0

H1 : not H0

검정결과< >

유의하지않다 ⇒ α+ 1A + 2B

유의하다 ⇒ α+ 1A + 2B + 3A B

- 16 -

모형의 선택 모형-E, V, W○

l o g i tP (X ) = α+ E + γ1V1 + γ2V2 + + γp1Vp1

+ 1EW1 + 2EW2 + + p2EWp2

= α+ E + Σi = 1

p1

γiVi + EΣj = 1

p2

jWj

여기서※ 변수Wj들은 변수 집합 Vi의 부분집합이 되도록 한다.

Vi 잠재적 교락효과변수 주효과: -

Wj 잠재적 상호작용효과변수:

- 17 -

추정과 검정3.

추정1)

선형회귀 최소제곱법- : (LS)

로지스틱 회귀 최대우도법- : (ML)

정규분포가정하에서 의 관계 성립ML = LS⇒

등 비조건부 최대 우도법을 적용- SPSS, SAS(LOGIST) : .

조건부와 비조건부의 선택 기준-

비조건부 방법(unconditional) ML▷

추정하고자 하는 모수의 수가 관찰치 수에 비해 상대적으로 적을때.

- 18 -

조건부 방법(conditional) ML▷

추정하고자 하는 모수의 수가 관찰치 수에 비해 상대적으로 많을때.

의심스러울 때 조건부 방법을 사용하라: ML !!!※

비조건부 우도▷

LU =

∏ exp

α + Σ iXil

∏ 1 + exp

α + Σ iXil

조건부 우도 는 추정하지 않음: .α▷

LC =

∏ exp

Σ iXil

Σ ∏ exp

Σ iXil

- 19 -

출력 결과의 해석< >

Variable ML coefficient S.E

Intercept α̂ s α̂X1 1̂ s

X2 2̂ s2̂

Xk k̂ sk̂

예 출력결과 일부)

variable ML coefficient S.E.Intercept -4.0474 1.2549CAT -12.6809 3.1042AGE 0.0349 0.0161CHL -0.0055 0.0042ECG 0.3665 0.3278SMK 0.7735 0.3727HPT 1.0468 0.3316CC -2.3299 0.7422CH 0.0691 0.0143

- 20 -

변수들V : AGE, CHL, ECG, SMK, HPT

변수들W : CC=CAT×CHL, CH=CAT×HPT

적합된 로짓모형으로부터 의 추정치를 얻기 위해 앞의 추정치를 어떻게 사용해야 하는가OR ?⇒

즉 만일, OR̂ 이 의 계수로 구성된다고 하면CAT, CC, CH ,

OR̂ = exp ( ˆ+ 1̂CHL + 2̂HPT )

⇒ OR̂ = exp (− 12.6809 + 0.0691CHL− 2.3299HPT )

HPT

0 1

CHL

200 3.12 0.30

220 12.44 1.21

240 49.56 4.82

CHL=200, HPT=0 :⇒ OR̂ = 3.12

CHL=220, HPT=1 : OR̂ = 1.21

- 21 -

각 셀에 나타난 값은 개의 공변량 에 대해 조정된 와 간5 AGE, CHL, ECG, SMK, HPT CAT CHD⇒

의 관계를 나타냄.

가지 추론2○

가설검정♤

우도비 검정 을 이용한 카이제곱 통계량- 2lnL①

검정 각 변량에 대한 검정Wald - Z②

구간추정 분산 공분산 행렬을 이용: .♤

- 22 -

검정2)

모형 축소모형 과 모형 완전모형- 1( ) 2( )

예 모형) 2: l o g i tP2 (X ) = α+ 1X1 + 2X2 + 3X3

모형1: l o g i tP1 (X ) = α+ 1X1 + 2X2

가설○

완전모형에 있는 모수H0: 3은 이다0 . H0:⇔ 3 = 0 ⇔ OR = e 0 = 1

검정 통계량○

< Likelihood Ratio TEST>

LR =−2 ln L̂ 1 − (− 2 ln L̂ 2 ) =−2 ln

L̂ 1L̂ 2∼ χ2

1

< Wald Z TEST>

Z =ˆ

sˆ∼N(0,1) ⇔ Z 2∼ χ2

1

- 23 -

예 자동차 마케팅 부서에서 새로운 차량의 구매의사를 조사하기 위해 명에 대해 구매태1) H 30

도를 조사함 설문항목은 다음과 같다. .

설문지

Y 귀하의 자동차 소유여부는 예 아니오: ? (1) (0)

X1 귀하의 가족수는 명: ? ( )

X2 귀하의 월평균 급여는 만원: ? ( )

X3 귀하의 월 평균 여행회수는 회: ? ( )

가설< >

연구가설 가족 수는 자동차 소유여부에 유의적인 영향을 준다1: .

연구가설 월 급여는 자동차 소유여부에 유의적인 영향을 준다2: .

연구가설 여행회수는 자동차 소유여부에 유의적인 영향을 준다3: .

- 24 -

분석 회귀분석 이분형로지스틱-> ->○

변수의 지정 종속변수 공변량: -Y , : X1, X2, X3○

- 25 -

범주형 변수의 정의 변수중 범주형 변수를 지정- X .○

새변수 저장 옵션○ ○

- 26 -

출력결과[ ]

우도-2 Log 계수반복계산 상수

단계0 1 41.455 -.1332 41.455 -.134

상수항만을 포함한 모형의 우도 값 이며 이때 상수항의 계수는 으로 추정됨-2lnL =41.455 -0.133⇒ .

분류표< >

예측값

자동차 소유여부 분류정확 %

관측 아니오 예단계0 자동차 소유여부 아니오 16 0 100.0

예 14 0 .0전체 % 53.3

방정식에 포함된 변수< >

B S.E. Wald 자유도 유의확률 Exp(B)단계0 상수 -.134 .366 .133 1 .715 .875

상수항만을 포함한 모형은 유의하지 않음.⇒

- 27 -

방정식에 포함되지 않은 변수< >

점수 자유도 유의확률

단계0 변수 X1 5.431 1 .020

X2 14.258 1 .000

X3 8.681 1 .003

전체 통계량 17.167 3 .001

전체 통계량 로서 유의확률 이므로 자동차 소유여부를 설명하는데 세변수를 포함한 모형은 유17.167 0.001<0.05⇒

의함.

회귀모형의 적합성 검정○

모형 계수 전체 테스트< >

카이제곱 자유도 유의확률단계1 단계 23.070 3 .000

블록 23.070 3 .000모형 23.070 3 .000

모형 요약< >

단계 우도-2 Log 와 의 제곱Cox Snell R- 제곱Nagelkerke R-

1 18.385 .537 .716

- 28 -

와 검정<Hosmer Lemeshow >

단계 카이제곱 자유도 유의확률

1 4.014 8 .856

모형에 대한 카이제곱 통계량 은 상수만 포함된 모형의 와 모형에 상수항을 포함한 완전= 23.070 -2lnL=41.454⇒

모형의 의 차이로부터 계산된 값임-2lnL=18.385 .

전체 모형의 적합도 검정에서 모형이 적합하다는 가설을 유의확률 로서 채택함H0 : =0.856>0.05 .⇒

와 검정에 대한 분할표<Hesmer Lemeshow >

자동차 소유여부 아니오= 자동차 소유여부 예= 전체관측 기대 관측 기대

단계1 1 3 2.991 0 .009 32 4 3.937 0 .063 43 3 2.829 0 .171 34 2 2.343 1 .657 35 2 1.972 1 1.028 36 1 .999 2 2.001 37 0 .560 3 2.440 38 1 .235 2 2.765 39 0 .107 3 2.893 310 0 .026 2 1.974 2

- 29 -

예측○

분류표< >

예측값

자동차 소유여부 분류정확 %

관측 아니오 예단계1 자동차 소유여부 아니오 14 2 87.5

예 2 12 85.7전체 % 86.7

자동차를 소유하지 않은 사람 명중 역시 자동차를 소유하지 않을 것이라고 옳게 예측할 확률 로 나타남(16 ) =87.5% .⇒

전체적으로 옳게 분류할 확률 로 나타남=86.7% .⇒

방정식에 포함된 변수< >

B S.E. Wald 자유도 유의확률 Exp(B)에 대한EXP(B)

신뢰구간95.0%하한 상한

단계1 X1 .670 .714 .880 1 .348 1.954 .482 7.919X2 .057 .027 4.393 1 .036 1.059 1.004 1.117X3 .992 .597 2.762 1 .097 2.697 .837 8.693상수 -16.055 5.870 7.481 1 .006 .000

의 계수 으로 추정되었으며 이때 유의확률 로서 유의하지 않음X1 =0.670 , =0.348>0.05 .⇒

의 계수 으로 추정되었으며 이때 유의확률 로서 유의함X2 =0.057 , =0.036<0.05 .

- 30 -

의 계수 으로 추정되었으며 이때 유의확률 로서 유의하지 않음X3 =0.992 , =0.097>0.05 .

상수항의 계수 로 추정되었으며 이때 유의확률 로서 유의함=-16.055 , =0.006<0.05 .

추정식⇒

l o g i tP̂ (X ) =− 16.055 + 0.67X1 + 0.057X2 + 0.992X3

X2 EXP(B)=1.059⇒

변수만 유의함으로 해당 변수에 대해서 설명하면 이며 다른 변수값을 고정시키고 월급이: X2 , EXP(0.057)=1.059 ,

단위 증가되면 자동차를 구매할 확률은 구매하지 않을 확률보다 배 증가된다1 , 1.059 .

의 계수에 대한 신뢰구간X2⇒

: 0.057± 1.96×0.027 = (0.004, 0.109)

(exp(0.004), exp(0.109)) =( 은 을 포함하지 않기 때문에 유의수준 하에서 귀무가설1.004, 1.117) 1 0.05 H0:

2 이라는 가설을 기각한다 이는 조정된 이라는 가설 을 기각하는 것과 같다=0 . “H0: OR=1 ” .

- 31 -

분류도표○

각각의 관측별로 를 기준으로 오른쪽의 값은 자동차 소유자들 을 나타내며 이때 명이 의 값을 갖는 것으로 잘못 분0.5 (1) , 4 0⇒

류된 사람들이며 왼쪽의 경우 자동차 미소유자들 을 나타내며 이 경우도 명이 의 값을 갖는 것으로 나타나 잘못 분류, (0) , 4 1

된 경우이다.