regression analysis ( 회귀 분석 )

1

Regression Analysis( 회귀 분석 )

2

종속변수의 변화를 독립 변수들의 선형조합으로 설명하는 분석 기법

종속변수와 독립변수를 사이에 존재하는 통계적 관계를 추정하는 기법 변수간의 상호관계를 분석하며 , 특정변수의 변화로부터 다른 변수의 변화를 예측 Simple Regression vs. Multiple Regression Simple Regression : 독립변수가 1 개인 경우 y = a + b ｘ + e ex) 매출액에 대한 광고비의 영향력 Multiple Regression : 독립변수가 2 개 이상인 경우 y = a + b₁ ｘ₁ + b₂ ｘ₂ + bn ｘ n + e 모델의 예측력 개선 ( 설명되지 않은 오차 감소 ) e (error term/residual) : 독립변수 이외의 변수들이 종속변수에 미치는 효과

Regression 이란

3

Regression 의 목적

ⅰ) 종속변수의 값을 독립변수의 값들로 추정

ⅱ) 종속변수와 독립변수 사이에 존재하는 관계 검토

cf) Multi-collinearity ( 다중 공선성 ) – 독립 변수 값의 관계

ⅲ) 회귀분석 적용의 적합성 검토

ⅳ) 회귀분석을 이용한 예측의 통계적 유의성을 검증

4

Regression 의 기본원리

y = a + b ｘ + e ( 회귀식 ) y ＾ = a ＾ + b ＾ｘ ( 추정식 ) a ＾과 b ＾ 추정 e = y - y ＾ ( 관찰치와 예측치의 차이 )

Least Square Method (Ordinary Least Square : OLS) : 오차의 제곱의 합을 최소화하는 최소 제곱법 y₁ y e₁= y - y ＾ y ＾ = a ＾ +b ＾ｘ = TSS e₁ Rss ESS = y ＾ - y y Rss Ess Tss=e₂ e₃

e4

ｘ

5

Minimize ∑ei = ∑[yⅰ- (a ＾ +b ＾ｘ )]2

e = y - y ＾ = (y - y) + (y - y ＾ ) ∑(y - y ＾ )2 = ∑(y - y)2 + ∑(y - y ＾ )2 Tss = Rss + Ess Explained sum of square Residual Sum of Square Total sum of square

Error 의 정의 TSS (Total Sum of Square) : ∑(y - y ＾ )2 실제치 (y) 와 추정치 (y ＾ ) 의 차이의 제곱의 합 RSS (Residual Sum of Square) : ∑(y - y)2 실제치 (y) 와 y 의 평균 ( y ) 와의 차이의 제곱의 합 Unexplained Error ( 회귀선으로 설명이 안 되는 분산 ) ESS (Explained Sum of Square) : ∑(y - y ＾ )2 y 의 평균 ( y ) 와 추정치 (y ＾ ) 의 차이의 제곱의 합

6

Regression 의 접근방법

① Simultaneous (or direct) method : “Enter”

- 독립변수의 전체집합으로부터 회귀 모델 도출

② Stepwise Method : “Stepwise”

- 각 독립변수의 설명력을 근거로 하여 독립변수를 하나씩 순차적으로 회귀모델에 포함시키는 방법

Regression 을 위한 유효 Sample size

: 총 변수 ×10 = 유효 Sample

7

Analysis

가 ) Goodness of Fit ( 설명력 ) ESS RSS R2 = ---- = 1 - ----- TSS TSS ∑(y - y ＾ )2 ∑(y - y ＾ )2 = ----------- = 1 - ----------- ∑(y - y ＾ )2 ∑(y ＾ - y ＾ )2 ( 회귀선으로 설명되는 분산이 많을수록 , 이 회귀선의 설명력이 높다 ) Adjust R2 : 독립변수의 증가로 인한 자유도의 감소를 고려한 R2 ∑(y-y)2/(n-k) n = 표본의 수 R2 = 1 - ---------------- Where k = 추정치의 수 ∑(y-y ＾ )2/(k-1) ( 전체 변수의 수 )

Multiple R : 종속변수와 독립변수의 상관관계

8

나 ) 유의성 평가 / 검증

F 검증 Ho : 회귀모델을 사용함으로써 얻어진 오차의 감소가 유의적이지 않다 ESS / n-k MSR F = ---------- = ----- ~ F (K-1, n-k) RSS / (K-1) MSE F 값이 크면 회귀선이 설명할 수 있는 설명력이 크다

9

t - 검증

: 각 독립변수의 Coefficient 가 0 인지 아닌지 검증하는 방법 실제로 모집단의 분산 (σ2) 를 모르기 때문에 t- 분포 Ho : b ＾ = 0 (H₁: b≠0) b ＾ - b t = ------------ - tα(n - k+1) √‾Var(b ＾ ) S2

Where Var (b ＾ ) = --------- ∑( ｘ - ｘ )2

신뢰구간 : P[b± t 0.95 SD > b ＾ ] = 95 ｘ

10

Output 의 이해

[Analysis of Variance]

F = F - Statistics Signif F = F 의 Significance level

[Variables in the Equation]

B : Coefficient ( 회귀계수 )

SE B : Coefficient 의 Standard Error

Beta : 종속변수에 대한 각 독립변수의 상대적 중요성

( 연관성의 크기 B 를 표준화 한 수치 )

즉 , 독립변수의 한 표준편차 (One standard deviation) 만큼의 변화가

종속변수에 발생시키는 변화의 크기

DFSum of Squares

Mean Square

Regression K - 1 ESS MSR = ESS / K-

1

Residual n - k RSS MSE = RSS / n-

k

11

T : t - Statistics B = ------ (t 값이 커질수록 유의성 증가 ) SE B In case, n > 30, if T > 2, B = 0 는 rejected Sig T : B 의 유의수준 (B = 0 를 reject 하는 유의수준 ) 회귀식 : y = 0.48169 + 0.63224X₁+ 0.21585X₂

(1.461) (0.252) (0.108)

* 괄호 안은 유의 수준

12

Regression 의 접근방법

(a)Multiple RR SquareAdjusted R SquareStandard Error

.92810

.86138

.80593

.78099(b)Analysis of Variance

DFSum of Squares

Mean Squares

RegressionResidualF

25

15.53440

18.950273.04973

Sigrif F = .0072

9.47514.60995

(c)

Variables in the Equation

VariableX₂X₁(Constant)

B.21585.63224.48169

SE B .10801 .252311.46141

Beta.44971.56388

T1.9982.506 .330

Sig T.1021.0541.7551

13

Regression 적용의 예

(Example 1) 만족도 평가에서 만족도에 영향을 주는 실제적인 요인 도출 및 영향력 정도 평가 전반적 만족도 = f ( 요인평가 ) * 설문방법 : 요인만족도 척도 평가 요인 1 ( ) 요인 2 ( ) . . . 전반적 만족도 ( )

* 영향을 주는 요인 산출 각 요인의 유의성 검증 (t-test) * 전반적 만족도에 영향력 정도 평가 β 값 비교

14

(Example 2) 구매의향에 영향을 주는 요인 도출

구매의향도 = f ( 요인평가 )

Ex) Brand A (Shampoo) 구매

Shampoo A 의 구매의향

향기가 좋다 ( )

색깔이 좋다 ( )

.

.

.

용기가 마음에 든다 ( )

15

(Example 3) 기업별 선호 이미지 요인 산출 Ex) 기업이미지 요인 평가 (Ⅰ) 기업 A 의 선호도 = f ( 기업이미지 요인 ) 삼 성 L G 대 우 1) 진취성 ( ) ( ) ( ) 2) 연구개발노력 ( ) ( ) ( ) 3) 전통성 ( ) ( ) ( ) 4) . ( ) ( ) ( ) . 다음 기업들을 좋아하는 정도 ? 1) 삼성 ( ) 2) L G ( ) 3) 대우 ( ) Ex 2) 기업이미지 요인 평가 (Ⅱ) 삼성 최선호 여부 = f ( 기업이미지 요인 ) Logistic Analysis ( 삼성 최선호 = 1, otherwise = o)

16

Regression 을 통한 Prediction 이 유효할 조건

ⅰ) 표본이 추출된 시점에서의 여건과 측정된 관계가 예측된 시점에서의 여건이

유사하여야 한다 .

ⅱ) 표본자료가 포괄하는 독립변수의 범위 내에서만 종속변수를 추정해야 함 .

표본자료의 평균에 가까운 자료일수록 예측력이 높다

17

회귀분석의 기본가정

( 가정 1) No Heteroscedasticity 종속변수의 Error tern 의 분산의 X 값에 따라 변화해서는 안 된다 (Homoscedasticity) 즉 , X 값의 변화에 따라 Y가 가질 수 있는 값의 평균은 달라도 평균을 중심으로 한 분산을 동일하야야 함 .

Var(y₁) = Var(y₂) = 2

y₂

y₁

X₁ X₂

18

( 가정 2) No autocorrelation Error Term 간에 상관관계가 없어야 한다 만약 , 있다면 종속변수의 값들이 체계적인 연관성을 가지고 있음을 시사 ( 방안 ) 상관관계가 높은 변수들을 하나로 묶거나 , 한 개의 변수를 drop 할 수 있음 . * 변수간의 상관관계 검증 : Durbin - Watson Test O ≤ D ≤ 4 ┌ D = 2 : No correlation ├ D > 2 : + 상관관계 └ D > 2 : - 상관관계 ∑(Et - Et) D = ---------- = 2(1-r) D = 0 ∑ Et2 D = 2 (r=1) D = 4 ρ= +1 ρ= 0 ρ= -1

D=0 D=2 (r=1) D=4

19

( 가정 3) E ～ N (0, 62) ( 가정 4) No multi-collinearity : 독립 변수간의 상관관계가 높지 않아야 한다 . - 독립 변수간의 상관관계가 높으며 회귀식은 유의성이 있어도 특정 독립변수의 유의성이 낮아짐 . 독립변수와 종속 변수간의 진정한 관계를 밝히기 어려움 (8) Dummy Variable 의 도입 Dummy Variable : 명목 척도로 측정된 변수 EX) 성별 , Social class, 날씨 , 계절 등 계절성 (Seasonality) 검증의 경우 Sales of Beer Brand A = f ( 광고지출액 , 브랜드 인지율… , 계절성 ) y = a + d₁D₁+ d₂D₂+ d₃D₃+ b₁X₁+ … + e D 가 가질수 있는 최대 범주 -1

20

변수의 변환 (Linear Transformation)

① 2 차 다항식 y = ao + b₁ ｘ o + b₂ ｘ₂ ｘｘ₁ y = ao + b₁ ｘ o + b₂ ｘ₂ ｘ 2 ｘ₂ ② 지수모델 ｘ₁ ｘ₂ ｘ₃ ｘ n

ⅰ) y = ao b₁ b₂ b₃ ……… bn 양변에 log 를 취함 log y = log ao + ｘ₁ log b₁+ ｘ₂ log b₂+ …… + ｘ n long bn put Ao = log ao , B₁ = log b₁, ……

b₁ b₂ b₃ bn

ii) y = ao X₁ X₂ X₃……… Xn 양변에 log 를 취함 log y = log ao + b₁log ｘ₁ + b₂log ｘ₂ + …… + bn long ｘ n put log ao = Ao, log ｘ₁ = X₁, log ｘ₂ = X₂, …… log y * ------- = X₁ 에 대한 y 의 Elasticity log X₁

21

③ Curviliar model ⅰ) y = ao + 3b₁/ ｘ 3 put --- = X y = ao + b₁X ｘ b₁

ⅱ) y = ao ｘ 양변에 log 를 취함 log y = log ao + b₁log ｘ put log y = Y, log ｘ = X then, Y = log ao + b₁X b₁

ｘ₁ ⅲ) y = -------- 양변에 log 를 취함 b₂

ｘ₂ log y = log ao + b₁log ｘ₁ + b₂log ｘ₂ put log y = Y, log X₁, log ｘ₂ = X₂ then, Y = log ao + b₁ ｘ₁ + b₂ ｘ₂

22

④ Nonlinear model

y = ao + b₁ ｘ₁ + (b₁+ b₂) ｘ₂

put b₁+ b₂ = b₃

then, y = ao + b₁ ｘ₁ + b₃ ｘ₂ ……… ⓐ

Estimate ⓐ

Calculate b₂( = b₃- b₁)

Use ao, b₁, b₂ as initial values

23

ⅰ) dep, Variable 이 metric multiple Regressionⅱ) dep, Variable 이 non-metric (Logistic Regression) Linear probability model 적용 (non-metric dep. Variables) Logistic Regression (Logit analysis) : when dep. Var 이 binary(dichotomous)일 때의 regression binary variable : ⅰ) 구입여부 ⅱ) 성공 / 실태 (응답확률이 각각 50%인 경우 ) ⅲ) Yes/No Ex) y = a + b₁ ｘ₁ + b₂ ｘ₂ + b₃ ｘ₃ + b₄ｘ₄ + e y : 구입의향 ｘ₁ : 성능평가 ｘ₂ : 디자인 평가 ｘ₄ : 메이커 선호 prob [Yes] ----------- = ao + b₁ ｘ₁ + b₂ ｘ₂ + …… + bn ｘ n

prob [No]

Binary Dependent Variable

regression analysis ( 회귀 분석 )

Documents