linear regression analysis

Linear Regression Analysis

서울아산병원임상의학연구소

이지성

[email protected]

변수의 종류 - 1변수의 종류 - 1

변수의 종류(Types of variables)

독립변수(independent variable), 설명변수(explanatory variable)

인과관계의 틀 안에서 원인(cause)에 해당하는 변수

종속변수(dependent variable), 반응변수(response variable)

인과관계의 틀 안에서 결과(outcome)에 해당하는 변수

변수의 종류 ‐ 2변수의 종류 ‐ 2

변수의 종류(Types of variables)

y x

결과(종속변수) 원인(독립변수)

xy

kk xxy 110

y x1 x2 xk…

결과(종속변수) 원인들(독립변수들)

이변수 분석(Bivariable analysis)

다변수 분석(multivariable analysis)

Type of outcome variable determines choice of multivariable analysis.

Descriptive : form the strength of the association between outcome and exposure of interest

Adjustment : for covariates/confounder

Predictors : to determine important risk factors affecting the outcome

Prediction : to quantify new cases

Multivariable Analysis를 사용하는 이유

Potential confounders of the relationship between Periodontitis and CAD (A prospective cohort study)

Hujoel, et al., JAMA 2000:284;1406‐1410

Crude HR: 2.66 (95% CI, 2.34‐3.03)

Adjusted HR: 1.21 (95% CI, 0.98‐1.50)

Periodontitis is not associated with CAD after adjustment for confounders

An example for multivariable analysis (1)

An example for multivariable analysis (2)

회귀식:

1. 회귀분석의 개념 및 선형회귀분석

회귀(Regress)의 원래 의미는 옛날 상태로 돌아가는 것을 의미

영국의 유전학자 Francis Galton(1822-1911)의 연구에 기인 부모의 신장과 자녀들의 신장 사이의 연관 관계를 연구 부모의 신장과는 관계없이 자녀들의 신장은 전체 평균 신장으로 회귀하는

특성을 발견

회귀분석(Regression analysis)의 기원

아들의 키 = 33.73+0.516×아버지의 키

회귀분석의 용어정리

용어정리Y: 종속(반응,결과)변수, X: 독립(설명,원인)변수

단순선형회귀모형(simple linear regression model)

다중선형회귀모형(multiple linear regression model)

iii XY 10종속변수

회귀계수오차항

독립변수

iippii XXY 110

종속변수회귀계수

오차항독립변수

선형회귀모형(Linear Regression Model)

SBP = 46.28 + 0.48×키

:절편(Intercept) :기울기(Slope)

독립변수

종속변수

Underlying assumptions of multiple linear regression

Type of outcome variable Interval/Continuous

Range of values for outcome variable Any positive or negative number

What is being modeled Mean

Distribution of outcome variable Normal distribution

Variance of outcome variable Equal around the mean

개별 회귀계수(기울기)의 해석 다른 독립변수(공변량)들의 효과가 통제된(Controlled) 또는 보정된

(Adjusted) 상태 하에서 순수하게 해당 독립변수가 종속변수에 미치는영향력의 크기

다른 독립변수(공변량)들이 일정(Constant)한 상태에서 해당 독립변수의 값이 1단위 증가할 때의 종속변수의 평균 증가량

표준화된 개별 회귀계수의 해석 모든 변수들을 표준화한 후의 회귀분석 결과 독립변수들의 상대적인 중요도를 평가

절편(Intercept)의 해석 독립변수가 0일 때 종속변수의 평균 값

회귀계수(기울기 및 절편)의 해석

선형회귀모형의 적합도평가

결정계수 R2

상관계수의 제곱 회귀식이 자료를 얼마나 잘 설명하고 있는가를 나타내는 계수 R2 > 0.65: 회귀식이 자료를 설명하는데 좋다.

수정된 결정계수 R2(adj)

독립변수의 수와 Data 수를 고려한 결정계수 R2

(adj) < R2

다중회귀분석에서 특히 중요

해석: 추정한 회귀식으로 BPD를96.7% 설명할 수 있다.

Example

다중공선성(multicollinearity) 문제

두 개의 독립변수가 서로 밀접하게 상관되어 있을 때에는, 다중 회귀모형에서 이들의개별효과를 파악하기가 힘들 수 있다.

따라서 결과적으로 단변수 분석(즉, 독립변수 하나만을 사용)에서는, 두 변수 각각 통계적으로 유의하게 나타났어도, 이들 두 변수들 다중 모형에 동시에 포함시켰을 때에는둘 다 종속변수와 관련이 없는 것으로 나타날 수 있다.

이러한 현상을 공선성(collinearity) 또는 다중공선성(multicollinearity)이라 한다.

공선성이 존재하는지의 여부를 파악하기 위해서는 독립변수들 각 쌍에 대한 상관계수들 검토해 보거나, 다중 모형의 회귀계수들에 대한 표준오차를 직접 눈으로 확인해본다.

만일 특정 변수들 사이에 공선성이 존재한다면 이들의 표준오차는 각각의 단변수 모형에 보여진 표준오차에 비해 상당히 클 것이다.

이 문제에 관한 가장 쉬운 해결방법은 해당 변수들 중 하나를 모형에서 제외하는 것이다.

독립변수의 수가 지나치게 많으면 실제와는 다른 가짜의 결과가 얻어질 수 있음.

독립변수들간 상관성이 높을 때 이러한 가능성은 높아짐.

Risk factor를 찾고자 하는 연구 먼저 각 독립변수들이 종속변수와 관련이 있는지 평가하기 위해 단변수 분석

(bivariable analysis) 실시. 일부 설명변수들을 제거 이때의 유의수준: 통상적인 0.05보다는 덜 엄격한 0.10~0.25정도를 사용 단변수 분석에서 유의한 것으로 밝혀진 독립변수들 대상, 다변수 분석(multivariable

analysis) 실시

독립변수 수가 그다지 많지 않으면 바로 다변수 분석을 실시하는 것도 전략

어느 방법이 좋다고 할 수는 없음 두 분석결과가 유사하면, 분석결과의 신뢰도는 높아짐.

두 분석결과가 상이하면, 해당 연구의 전문가적 입장에서 더 나은 논리적인 해석을할 수 있는 결과를 선택

독립변수의 선택(variable selection) ‐ 1

통계적 모형화의 주목적이 독립변수들이 결과에 어떤 영향을 주고 있는지, 그리고 그 효과는어느 정도인지를 평가하는 것 대신, 예측을 하고자 하는데 이들 독립변수들 중 의미가 있는변수들을 선택해서 예측을 하기 위한 최적의 모형을 결정하고 싶을 것이다.

이런 경우에는 아래와 같은 변수선택절차(variable selection procedure)들 중 하나를 사용하는것이 효과적이다. 이 방법들을 computer intensive한 방법들이다.

모든 가능한 부분집합: 독립변수들의 모든 가능한 조합을 평가

전진선택 (Forward Selection)

유의한 독립변수들을 하나씩 추가해 나가는 방법 한번 포함된 독립변수들은 절대로 모형에서 제거되지 않는다.

후진제거 (Backward Elimination)

유의하지 않은 독립변수들을 하나씩 제거해 나가는 방법 한번 제거된 독립변수들은 절대로 모형에 포함되지 않는다.

단계선택 (Stepwise Selection)

전진선택과 후진제거가 결합된 선택방법

독립변수의 선택(variable selection) ‐ 2

Example

자료: Fitness.sav

독립변수

SPSS: Linear Regression

0 1 2 3 6: 0 H 을 기각

Maxpulse(X1), runtime(X2), wgt(X3)Rstpulse(X4), age(X5), runpulse(X6)

1 1 2 2 3 3 4 4 5 5 6 6y x x x x x x

2 284.9%, 81.1%R adj R

SPSS Output

변수 RUNPULSE와 MAXPULSE 간에 다중공선성 문제가 발생함. 따라서 MAXPULSE를 분석에서 제외하기로 함.

※다중공선성 기준 Tolerance < 0.25 VIF > 8

Maxpulse를 제외한 선형회귀분석결과

수정된 R2 = 0.781 선형회귀모형에 포함한 5개 독립변수로 종속변수를 78.1%를 설명할 수 있음.

결과:

Runtime의 5개 독립변수 중 결과변수에 제일 많이 영향을 주는 변수임.

Age, weight, rstpulse, runpulse를 보정했을 때 runtime이 1분씩 증가할때 산소흡수율은2.705만큼씩 감소한다.

116.532 0.285 0.052 2.705 0.027 0.127

SPSS: Linear Regression (변수선택)

후진제거 변수선택방법 분석결과

2 281.1%, 79.0%R adj R

결과: 111.761 0.256 2.826 0.131oxygen age runtime runpulse

27

(another topic: 중요) 설명변수 x가 범주형 변수인 경우 x가 연속형 변수(continuous variable)이면 변수 자체를 그대로 사용가능

x가 범주형 변수(categorical variable)이면 변수 자체 그대로 사용 불가.

이 경우, 가변수(dummy variable) 처리를 해야 한다.

예를 들어 x=A,B,C,D 인 경우, 자료입력을 x=1,2,3,4로 하고, 이 x를 설명변수로사용한다면, 이는 x=1에 비해 x=4가 4배 더 큰 값이라는 의미이므로 원래 자료의 성격에 맞지 않다. 따라서 다음과 같은 가변수를 3개 만들어서(D1, D2, D3),

변수 x 대신 가변수 D1, D2, D3를 설명변수로 사용해야 한다.

1

1 1 2

1 2

3 4

2

( 1) ( 2) ( 3) i i i i

i i i i i i

y x x

y x D D D

대신

를 사용

Example

• HERS study(Heart and Estrogen/Progestin Replacement study)

a measure of exercise to predict baseline glucose levels among 2,032 participants without diabetes in the HERS clinical trial of hormone therapy(Hulley et al., 1998)

변수명 Physact: exercise level

(1=much less active, 2=somewhat less active, 3=about as active,

4=somewhat more active, 5=much more active)

종속변수: baseline glucose level

독립변수: age, BMI, Physact

Physact에 대해 가변수를 만들어 보자.

SPSS dataset: HERS.sav

1. 범주형 변수에 대해 가변수 만들기

Phy2, Phy3, Phy4, Phy5에 대해 반복한다.

2. 회귀모형 설정

3. 회귀분석 결과

0.081

Much less active (phy1=1): Glucose = 68.154 – 0.123ⅹage + 1.660ⅹBMI + 13.136ⅹphy1

= 81.289 – 0.123ⅹage + 1.660ⅹBMI

Somewhat less active (phy2=1): Glucose = 68.154 – 0.123ⅹage + 1.660ⅹBMI + 6.332ⅹphy2

= 74.486 – 0.123ⅹage + 1.660ⅹBMI About as active (phy3=1):

Glucose = 74.184 – 0.123ⅹage + 1.660ⅹBMISomewhat more active (phy4=1):

Glucose = 70.292 – 0.123ⅹage + 1.660ⅹBMIMuch more active

Glucose = 68.154 – 0.123ⅹage + 1.660ⅹBMI

linear regression analysis

Health & Medicine