장 로지스틱 회귀 - x (dichotomous: d- ) 다수의 변수와 하나의...
TRANSCRIPT
- 1 -
장 로지스틱 회귀8 .
다수의 변수와 하나의 이진변수 종속변수 변수간- X (Dichotomous: D- )
의 관계를 나타내는 수리적 모형.
로지스틱 모형은 다음과 같은 경우에 사용될 수 있음- .
추정치가 과 사이의 범위에 존재하는 경우0 1○
하나의 질병위험요소에 대해 다수의 위험인자의 결합 효과를 설명○
하는데 곡선의 형태를 갖는 경우S- .
- 2 -
예 질병조사의 경우)
환경요인(E) 질병(D)
변수 이진값을 갖음 질병에 걸리지 않음D : - 0 : .
질병에 걸림1 : .
변수 독립변수 흡연 여부 흡연 비흡연E : - ( : 1, :0)
통제변수 나이 성별 인종등C : - , , .
DE, C1, C2, C3
독립변수 종속변수
일반화⇒
X1, X2, , XK 인 다변량 변수와 D간의 연관성을 규명하는 모형.
- 3 -
로지스틱 함수 곡선: S-○
: f (z ) =1
1 + e − z
f(z)
0
0.2
0.4
0.6
0.8
1
1.2
-3 -2.4 -1.8 -1.2 -0.6 0 0.6 1.2 1.8 2.4 3
로지스틱 모형○
: z = α + 1X1 + 2X2 + + kXk
- 4 -
로지스틱 함수에 대입⇒
f (z ) = 11 + e − z
= 1
1 + e− (α+ Σ iXi )
⇒ P (D = 1 |X1, X2, , Xk ) =1
1 + e− (α + Σ iXi )
미지의 모수⇒ 와 를 추정.α β
- 5 -
예 명의 백인남성을 대상으로 년간 추적 조사한 결과를 바탕으로 해당 요인에 대한 질병) n=609 9
유무와의 연관성 연구.
D 질병에 걸림: CHD=1, .
질병에 걸리지 않음=0, .
X1 고: CAT=1 ,
저=0 ,
X2 : AGE
X3 정상: ECG=1,
비정상=0,
확률적 모형⇒
P (X ) =1
e − (α + 1CAT + 2AGE + 3ECG )
- 6 -
추정 예측 위험: (Predicted Risk)⇒
P̂ (X ) = 1e − (− 3.911 + 0.652CAT + 0.029AGE+ 0.342ECG )
만일 인 경우 예측 위험은 얼마인가CAT=1, AGE=40, ECG=0 ?⇒
P̂ (X ) = 0.1090
의 값이 높은 사람의 위험도는 약 임: CAT 11% .
만일 인 경우 예측 위험은 얼마인가CAT=0, AGE=40, ECG=0 ?⇒
P̂(X ) = 0.060
의 값이 낮은 사람의 위험도는 약 임: CAT 6% .
위험비(RR:Risk Ratio)⇒
RR =P̂ 1 (X)
P̂ 0 (X)=
0.10900.060
= 1.82
가 비정상이고 나이가 세인 사람 중 값이 높은 사람이 질병에 걸릴 위험도는: ECG , 40 CAT
가 낮은 사람에 비해 배정도 높다CAT 2 .
- 7 -
와§. Risk Ratio(RR) Odd Ratio(OR)
을 사용하여 결론을 도출하는 경우의 가정RR○
종류의 개인에 대해 을 구해 비교가 가능: 2 RR .
직접적인 방법과 간점적인 방법:
개인적인 위험도를 측정: .
직접적인 방법< >
가정 추적조사: -
모든 독립변수들에 대한 특정한 값을 갖는 요인에 대한 비교- .
간접적인 방법< >
앞의 직접적인 방법을 적용할 수 없는 경우:
를 사용- OR(Odd Ratio)
은 단지 연관성을 규명하는 값- OR .
추적조사 사례 대조연구 횡단면 연구- , - , .
- 8 -
연구설계§.
로지스틱 모형의 중요한 성질은 추적조사연구에 의해 정의됨- .
고정된 추적시점으로부터 독립변수값을 측정하여 관심질병을 미리 가정된 독립변수의 함수-
로 표현한 확률.
사례 대조 연구 횡단면 연구 에 적절한 모형인- - (case-control study), (cross-sectional study)
가? OK!
사례 대조 연구< - >
종속변수 질병발생: .
독립변수 질병노출상태 관심변수의 공변량: + .
데이터 추적조사로부터 얻은 자료: .
D E E D
<case-control study> <follow-up study>
- 9 -
사례 대조 연구와 횡단면 연구의 제한-※
특정한 독립변수값을 갖는 개인의 위험비 로 예측하지 않는다: (RR) .
승산비 오즈비를 사용한다: ( ) .
예 테이블) 2×2
E=1 E=0
D=1 a b
D=0 c d
follow-up study :⇒ OR̂ =adbc
case-control & cross-sectional :⇒ OR̂ =P̂(E = 1|D = 1)/P̂(E = 0|D = 1)
P̂(E = 1|D = 0)/P̂(E = 0|D = 0)
⇒ RR̂ = P̂(D = 1|E = 1)
P̂(D = 1|E = 0)Risk = P(D|E)⇔
- 10 -
로지스틱 회귀모형1.
로짓모형 : l o g i tP (X ) = ln
P(X )1 −P (X)
여기서, P (X ) =1
1 + e− (α + Σ iXi )
이다.
⇔ l o g i tP (X ) = ln
P (X )1 −P (X )
= α + Σ iXi
여기서P (X)
1−P (X)는 특정한 값에 대한 승산 이다X (odds) .
1) α에 대한 해석
모든○ Xi = 0인 경우 로그오즈=
: lo g i tP(X ) = α 모든⇔ Xi = 0인 개인에 대한 로그승산 이다(log-odds) .
⇔ P (X ) = 11+ e − α
- 11 -
모든○ Xi 값을 무시한 경우 또는= backgroud baseline odds
2) i에 대한 해석
예) l o g i tP (X ) = α+ 1CAT + 2AGE + 3ECG
값을 과 로 변화시키고 나머지 으로 고정시킴CAT 0 1 AGE=40, ECG=0 .
CAT=1, AGE=40, ECG=0⇒
l o g i tP (X ) = α+ 1 + 40 2
CAT=0, AGE=40, ECG=0⇒
l o g i tP (X ) = α+ 40 2
⇒ log i tP1 (X )− log i tP0 (X ) = 1
계수< 1에 대한 해석>
다른 변수들이 고정일때 변수 가 단위 변화함에 따라 로그오즈의 변동을 나타냄: , CAT 1 .
두 로짓함수의 차는 두 로그오즈의 차이와 같음: .
- 12 -
의 계산조정된3) ROR(Risk Odds Ratio) ( OR)
로지스틱 모형 : P (X ) =1
1 + e− (α + Σ iXi )
그룹 에 대한 오즈1 :⇒P (X1 )
1−P1 (X )
그룹 에 대한 오즈0 :P (X0 )
1−P0 (X )
로지스틱 모형에서 두 변수가 얼마나 오즈비에 기여하는가를 측정ROR : .⇒
RORX1,X0=
odds X1
odds X0
=P (X1 )/ (1−P (X1 ))P (X0 )/ (1−P (X0 ))
= exp
Σi = 1
k
i (X1i−X0i )
=∏ exp i (X1i−X0i )
예를 들어⇒ X2에 대한 오즈비가 이고3 , X5에 대한 오즈비가 라면 두변수가 오즈비에 기여하4 ,
는 정도는 이다3×4=12 .
- 13 -
상호작용이 포함된 로지스틱 모형2.
주효과 모형○
l o g i tP (X ) = α+ 1CAT + 2AGE + 3ECG
상호작용 모형○
l o g i tP (X ) = α+ 1CAT + 2AGE + 3ECG + 4AGE ECG
예) X1 =A , X2 라 하면=B ,
R⇒ AB 와 의 조건하에서= A B Risk
= P(D|A,B)
B=1 B=0
A=1 R11 R10
A=0 R01 R00
reference cell
- 14 -
odds ratios⇒
OR11 =R11/ (1−R11 )R00/ (1−R00 )
=R11 (1 −R00 )R00 (1 −R11 )
OR10 =R10/ (1−R10 )R00/ (1−R00 )
=R10 (1 −R00 )R00 (1 −R10 )
OR01 =R01/ (1−R01 )R00/ (1−R00 )
=R01 (1 −R00 )R00 (1 −R01 )
No interaction⇒
OR11 = OR10 OR01
와 의 동시 효과 의 효과 의 효과: (A B ) = (A ) ×(B )
상호작용 효과에 대한 검정○
l o g i tP (X ) = α+ 1A+ 2B + 3A B
여기서 A = X1, B = X2 로서 주효과 변수이고, X3 = AB는 상호작용 변수이다.
- 15 -
가설< >
H0 : OR11 = OR10 OR01
⇔OR11
OR10 OR01
= 1
⇔ ln
OR11
OR10 OR01
= ln 1 = 0
⇔ 3 = 0
H1 : not H0
검정결과< >
유의하지않다 ⇒ α+ 1A + 2B
유의하다 ⇒ α+ 1A + 2B + 3A B
- 16 -
모형의 선택 모형-E, V, W○
l o g i tP (X ) = α+ E + γ1V1 + γ2V2 + + γp1Vp1
+ 1EW1 + 2EW2 + + p2EWp2
= α+ E + Σi = 1
p1
γiVi + EΣj = 1
p2
jWj
여기서※ 변수Wj들은 변수 집합 Vi의 부분집합이 되도록 한다.
Vi 잠재적 교락효과변수 주효과: -
Wj 잠재적 상호작용효과변수:
- 17 -
추정과 검정3.
추정1)
선형회귀 최소제곱법- : (LS)
로지스틱 회귀 최대우도법- : (ML)
정규분포가정하에서 의 관계 성립ML = LS⇒
등 비조건부 최대 우도법을 적용- SPSS, SAS(LOGIST) : .
조건부와 비조건부의 선택 기준-
비조건부 방법(unconditional) ML▷
추정하고자 하는 모수의 수가 관찰치 수에 비해 상대적으로 적을때.
- 18 -
조건부 방법(conditional) ML▷
추정하고자 하는 모수의 수가 관찰치 수에 비해 상대적으로 많을때.
의심스러울 때 조건부 방법을 사용하라: ML !!!※
비조건부 우도▷
LU =
∏ exp
α + Σ iXil
∏ 1 + exp
α + Σ iXil
조건부 우도 는 추정하지 않음: .α▷
LC =
∏ exp
Σ iXil
Σ ∏ exp
Σ iXil
- 19 -
출력 결과의 해석< >
Variable ML coefficient S.E
Intercept α̂ s α̂X1 1̂ s
1̂
X2 2̂ s2̂
Xk k̂ sk̂
예 출력결과 일부)
variable ML coefficient S.E.Intercept -4.0474 1.2549CAT -12.6809 3.1042AGE 0.0349 0.0161CHL -0.0055 0.0042ECG 0.3665 0.3278SMK 0.7735 0.3727HPT 1.0468 0.3316CC -2.3299 0.7422CH 0.0691 0.0143
- 20 -
변수들V : AGE, CHL, ECG, SMK, HPT
변수들W : CC=CAT×CHL, CH=CAT×HPT
적합된 로짓모형으로부터 의 추정치를 얻기 위해 앞의 추정치를 어떻게 사용해야 하는가OR ?⇒
즉 만일, OR̂ 이 의 계수로 구성된다고 하면CAT, CC, CH ,
OR̂ = exp ( ˆ+ 1̂CHL + 2̂HPT )
⇒ OR̂ = exp (− 12.6809 + 0.0691CHL− 2.3299HPT )
HPT
0 1
CHL
200 3.12 0.30
220 12.44 1.21
240 49.56 4.82
CHL=200, HPT=0 :⇒ OR̂ = 3.12
CHL=220, HPT=1 : OR̂ = 1.21
- 21 -
각 셀에 나타난 값은 개의 공변량 에 대해 조정된 와 간5 AGE, CHL, ECG, SMK, HPT CAT CHD⇒
의 관계를 나타냄.
가지 추론2○
가설검정♤
우도비 검정 을 이용한 카이제곱 통계량- 2lnL①
검정 각 변량에 대한 검정Wald - Z②
구간추정 분산 공분산 행렬을 이용: .♤
- 22 -
검정2)
모형 축소모형 과 모형 완전모형- 1( ) 2( )
예 모형) 2: l o g i tP2 (X ) = α+ 1X1 + 2X2 + 3X3
모형1: l o g i tP1 (X ) = α+ 1X1 + 2X2
가설○
완전모형에 있는 모수H0: 3은 이다0 . H0:⇔ 3 = 0 ⇔ OR = e 0 = 1
검정 통계량○
< Likelihood Ratio TEST>
LR =−2 ln L̂ 1 − (− 2 ln L̂ 2 ) =−2 ln
L̂ 1L̂ 2∼ χ2
1
< Wald Z TEST>
Z =ˆ
sˆ∼N(0,1) ⇔ Z 2∼ χ2
1
- 23 -
예 자동차 마케팅 부서에서 새로운 차량의 구매의사를 조사하기 위해 명에 대해 구매태1) H 30
도를 조사함 설문항목은 다음과 같다. .
설문지
Y 귀하의 자동차 소유여부는 예 아니오: ? (1) (0)
X1 귀하의 가족수는 명: ? ( )
X2 귀하의 월평균 급여는 만원: ? ( )
X3 귀하의 월 평균 여행회수는 회: ? ( )
가설< >
연구가설 가족 수는 자동차 소유여부에 유의적인 영향을 준다1: .
연구가설 월 급여는 자동차 소유여부에 유의적인 영향을 준다2: .
연구가설 여행회수는 자동차 소유여부에 유의적인 영향을 준다3: .
- 26 -
출력결과[ ]
우도-2 Log 계수반복계산 상수
단계0 1 41.455 -.1332 41.455 -.134
상수항만을 포함한 모형의 우도 값 이며 이때 상수항의 계수는 으로 추정됨-2lnL =41.455 -0.133⇒ .
분류표< >
예측값
자동차 소유여부 분류정확 %
관측 아니오 예단계0 자동차 소유여부 아니오 16 0 100.0
예 14 0 .0전체 % 53.3
방정식에 포함된 변수< >
B S.E. Wald 자유도 유의확률 Exp(B)단계0 상수 -.134 .366 .133 1 .715 .875
상수항만을 포함한 모형은 유의하지 않음.⇒
- 27 -
방정식에 포함되지 않은 변수< >
점수 자유도 유의확률
단계0 변수 X1 5.431 1 .020
X2 14.258 1 .000
X3 8.681 1 .003
전체 통계량 17.167 3 .001
전체 통계량 로서 유의확률 이므로 자동차 소유여부를 설명하는데 세변수를 포함한 모형은 유17.167 0.001<0.05⇒
의함.
회귀모형의 적합성 검정○
모형 계수 전체 테스트< >
카이제곱 자유도 유의확률단계1 단계 23.070 3 .000
블록 23.070 3 .000모형 23.070 3 .000
모형 요약< >
단계 우도-2 Log 와 의 제곱Cox Snell R- 제곱Nagelkerke R-
1 18.385 .537 .716
- 28 -
와 검정<Hosmer Lemeshow >
단계 카이제곱 자유도 유의확률
1 4.014 8 .856
모형에 대한 카이제곱 통계량 은 상수만 포함된 모형의 와 모형에 상수항을 포함한 완전= 23.070 -2lnL=41.454⇒
모형의 의 차이로부터 계산된 값임-2lnL=18.385 .
전체 모형의 적합도 검정에서 모형이 적합하다는 가설을 유의확률 로서 채택함H0 : =0.856>0.05 .⇒
와 검정에 대한 분할표<Hesmer Lemeshow >
자동차 소유여부 아니오= 자동차 소유여부 예= 전체관측 기대 관측 기대
단계1 1 3 2.991 0 .009 32 4 3.937 0 .063 43 3 2.829 0 .171 34 2 2.343 1 .657 35 2 1.972 1 1.028 36 1 .999 2 2.001 37 0 .560 3 2.440 38 1 .235 2 2.765 39 0 .107 3 2.893 310 0 .026 2 1.974 2
- 29 -
예측○
분류표< >
예측값
자동차 소유여부 분류정확 %
관측 아니오 예단계1 자동차 소유여부 아니오 14 2 87.5
예 2 12 85.7전체 % 86.7
자동차를 소유하지 않은 사람 명중 역시 자동차를 소유하지 않을 것이라고 옳게 예측할 확률 로 나타남(16 ) =87.5% .⇒
전체적으로 옳게 분류할 확률 로 나타남=86.7% .⇒
방정식에 포함된 변수< >
B S.E. Wald 자유도 유의확률 Exp(B)에 대한EXP(B)
신뢰구간95.0%하한 상한
단계1 X1 .670 .714 .880 1 .348 1.954 .482 7.919X2 .057 .027 4.393 1 .036 1.059 1.004 1.117X3 .992 .597 2.762 1 .097 2.697 .837 8.693상수 -16.055 5.870 7.481 1 .006 .000
의 계수 으로 추정되었으며 이때 유의확률 로서 유의하지 않음X1 =0.670 , =0.348>0.05 .⇒
의 계수 으로 추정되었으며 이때 유의확률 로서 유의함X2 =0.057 , =0.036<0.05 .
- 30 -
의 계수 으로 추정되었으며 이때 유의확률 로서 유의하지 않음X3 =0.992 , =0.097>0.05 .
상수항의 계수 로 추정되었으며 이때 유의확률 로서 유의함=-16.055 , =0.006<0.05 .
추정식⇒
l o g i tP̂ (X ) =− 16.055 + 0.67X1 + 0.057X2 + 0.992X3
X2 EXP(B)=1.059⇒
변수만 유의함으로 해당 변수에 대해서 설명하면 이며 다른 변수값을 고정시키고 월급이: X2 , EXP(0.057)=1.059 ,
단위 증가되면 자동차를 구매할 확률은 구매하지 않을 확률보다 배 증가된다1 , 1.059 .
의 계수에 대한 신뢰구간X2⇒
: 0.057± 1.96×0.027 = (0.004, 0.109)
(exp(0.004), exp(0.109)) =( 은 을 포함하지 않기 때문에 유의수준 하에서 귀무가설1.004, 1.117) 1 0.05 H0:
2 이라는 가설을 기각한다 이는 조정된 이라는 가설 을 기각하는 것과 같다=0 . “H0: OR=1 ” .