regression analysis ( 회귀 분석 )
DESCRIPTION
Regression Analysis ( 회귀 분석 ). Regression 이란. 종속변수의 변화를 독립 변수들의 선형조합으로 설명하는 분석 기법 종속변수와 독립변수를 사이에 존재하는 통계적 관계를 추정하는 기법 변수간의 상호관계를 분석하며 , 특정변수의 변화로부터 다른 변수의 변화를 예측 Simple Regression vs. Multiple Regression Simple Regression : 독립변수가 1 개인 경우 - PowerPoint PPT PresentationTRANSCRIPT
1
Regression Analysis( 회귀 분석 )
2
종속변수의 변화를 독립 변수들의 선형조합으로 설명하는 분석 기법
종속변수와 독립변수를 사이에 존재하는 통계적 관계를 추정하는 기법 변수간의 상호관계를 분석하며 , 특정변수의 변화로부터 다른 변수의 변화를 예측 Simple Regression vs. Multiple Regression Simple Regression : 독립변수가 1 개인 경우 y = a + b x + e ex) 매출액에 대한 광고비의 영향력 Multiple Regression : 독립변수가 2 개 이상인 경우 y = a + b₁ x₁ + b₂ x₂ + bn x n + e 모델의 예측력 개선 ( 설명되지 않은 오차 감소 ) e (error term/residual) : 독립변수 이외의 변수들이 종속변수에 미치는 효과
Regression 이란
3
Regression 의 목적
ⅰ) 종속변수의 값을 독립변수의 값들로 추정
ⅱ) 종속변수와 독립변수 사이에 존재하는 관계 검토
cf) Multi-collinearity ( 다중 공선성 ) – 독립 변수 값의 관계
ⅲ) 회귀분석 적용의 적합성 검토
ⅳ) 회귀분석을 이용한 예측의 통계적 유의성을 검증
4
Regression 의 기본원리
y = a + b x + e ( 회귀식 ) y ^ = a ^ + b ^x ( 추정식 ) a ^과 b ^ 추정 e = y - y ^ ( 관찰치와 예측치의 차이 )
Least Square Method (Ordinary Least Square : OLS) : 오차의 제곱의 합을 최소화하는 최소 제곱법 y₁ y e₁= y - y ^ y ^ = a ^ +b ^x = TSS e₁ Rss ESS = y ^ - y y Rss Ess Tss=e₂ e₃
e4
x
5
Minimize ∑ei = ∑[yⅰ- (a ^ +b ^x )]2
e = y - y ^ = (y - y) + (y - y ^ ) ∑(y - y ^ )2 = ∑(y - y)2 + ∑(y - y ^ )2 Tss = Rss + Ess Explained sum of square Residual Sum of Square Total sum of square
Error 의 정의 TSS (Total Sum of Square) : ∑(y - y ^ )2 실제치 (y) 와 추정치 (y ^ ) 의 차이의 제곱의 합 RSS (Residual Sum of Square) : ∑(y - y)2 실제치 (y) 와 y 의 평균 ( y ) 와의 차이의 제곱의 합 Unexplained Error ( 회귀선으로 설명이 안 되는 분산 ) ESS (Explained Sum of Square) : ∑(y - y ^ )2 y 의 평균 ( y ) 와 추정치 (y ^ ) 의 차이의 제곱의 합
6
Regression 의 접근방법
① Simultaneous (or direct) method : “Enter”
- 독립변수의 전체집합으로부터 회귀 모델 도출
② Stepwise Method : “Stepwise”
- 각 독립변수의 설명력을 근거로 하여 독립변수를 하나씩 순차적으로 회귀모델에 포함시키는 방법
Regression 을 위한 유효 Sample size
: 총 변수 ×10 = 유효 Sample
7
Analysis
가 ) Goodness of Fit ( 설명력 ) ESS RSS R2 = ---- = 1 - ----- TSS TSS ∑(y - y ^ )2 ∑(y - y ^ )2 = ----------- = 1 - ----------- ∑(y - y ^ )2 ∑(y ^ - y ^ )2 ( 회귀선으로 설명되는 분산이 많을수록 , 이 회귀선의 설명력이 높다 ) Adjust R2 : 독립변수의 증가로 인한 자유도의 감소를 고려한 R2 ∑(y-y)2/(n-k) n = 표본의 수 R2 = 1 - ---------------- Where k = 추정치의 수 ∑(y-y ^ )2/(k-1) ( 전체 변수의 수 )
Multiple R : 종속변수와 독립변수의 상관관계
8
나 ) 유의성 평가 / 검증
F 검증 Ho : 회귀모델을 사용함으로써 얻어진 오차의 감소가 유의적이지 않다 ESS / n-k MSR F = ---------- = ----- ~ F (K-1, n-k) RSS / (K-1) MSE F 값이 크면 회귀선이 설명할 수 있는 설명력이 크다
9
t - 검증
: 각 독립변수의 Coefficient 가 0 인지 아닌지 검증하는 방법 실제로 모집단의 분산 (σ2) 를 모르기 때문에 t- 분포 Ho : b ^ = 0 (H₁: b≠0) b ^ - b t = ------------ - tα(n - k+1) √‾Var(b ^ ) S2
Where Var (b ^ ) = --------- ∑( x - x )2
신뢰구간 : P[b± t 0.95 SD > b ^ ] = 95 x
10
Output 의 이해
[Analysis of Variance]
F = F - Statistics Signif F = F 의 Significance level
[Variables in the Equation]
B : Coefficient ( 회귀계수 )
SE B : Coefficient 의 Standard Error
Beta : 종속변수에 대한 각 독립변수의 상대적 중요성
( 연관성의 크기 B 를 표준화 한 수치 )
즉 , 독립변수의 한 표준편차 (One standard deviation) 만큼의 변화가
종속변수에 발생시키는 변화의 크기
DFSum of Squares
Mean Square
Regression K - 1 ESS MSR = ESS / K-
1
Residual n - k RSS MSE = RSS / n-
k
11
T : t - Statistics B = ------ (t 값이 커질수록 유의성 증가 ) SE B In case, n > 30, if T > 2, B = 0 는 rejected Sig T : B 의 유의수준 (B = 0 를 reject 하는 유의수준 ) 회귀식 : y = 0.48169 + 0.63224X₁+ 0.21585X₂
(1.461) (0.252) (0.108)
* 괄호 안은 유의 수준
12
Regression 의 접근방법
(a)Multiple RR SquareAdjusted R SquareStandard Error
.92810
.86138
.80593
.78099(b)Analysis of Variance
DFSum of Squares
Mean Squares
RegressionResidualF
25
15.53440
18.950273.04973
Sigrif F = .0072
9.47514.60995
(c)
Variables in the Equation
VariableX₂X₁(Constant)
B.21585.63224.48169
SE B .10801 .252311.46141
Beta.44971.56388
T1.9982.506 .330
Sig T.1021.0541.7551
13
Regression 적용의 예
(Example 1) 만족도 평가에서 만족도에 영향을 주는 실제적인 요인 도출 및 영향력 정도 평가 전반적 만족도 = f ( 요인평가 ) * 설문방법 : 요인만족도 척도 평가 요인 1 ( ) 요인 2 ( ) . . . 전반적 만족도 ( )
* 영향을 주는 요인 산출 각 요인의 유의성 검증 (t-test) * 전반적 만족도에 영향력 정도 평가 β 값 비교
14
(Example 2) 구매의향에 영향을 주는 요인 도출
구매의향도 = f ( 요인평가 )
Ex) Brand A (Shampoo) 구매
Shampoo A 의 구매의향
향기가 좋다 ( )
색깔이 좋다 ( )
.
.
.
용기가 마음에 든다 ( )
15
(Example 3) 기업별 선호 이미지 요인 산출 Ex) 기업이미지 요인 평가 (Ⅰ) 기업 A 의 선호도 = f ( 기업이미지 요인 ) 삼 성 L G 대 우 1) 진취성 ( ) ( ) ( ) 2) 연구개발노력 ( ) ( ) ( ) 3) 전통성 ( ) ( ) ( ) 4) . ( ) ( ) ( ) . 다음 기업들을 좋아하는 정도 ? 1) 삼성 ( ) 2) L G ( ) 3) 대우 ( ) Ex 2) 기업이미지 요인 평가 (Ⅱ) 삼성 최선호 여부 = f ( 기업이미지 요인 ) Logistic Analysis ( 삼성 최선호 = 1, otherwise = o)
16
Regression 을 통한 Prediction 이 유효할 조건
ⅰ) 표본이 추출된 시점에서의 여건과 측정된 관계가 예측된 시점에서의 여건이
유사하여야 한다 .
ⅱ) 표본자료가 포괄하는 독립변수의 범위 내에서만 종속변수를 추정해야 함 .
표본자료의 평균에 가까운 자료일수록 예측력이 높다
17
회귀분석의 기본가정
( 가정 1) No Heteroscedasticity 종속변수의 Error tern 의 분산의 X 값에 따라 변화해서는 안 된다 (Homoscedasticity) 즉 , X 값의 변화에 따라 Y가 가질 수 있는 값의 평균은 달라도 평균을 중심으로 한 분산을 동일하야야 함 .
Var(y₁) = Var(y₂) = 2
y₂
y₁
X₁ X₂
18
( 가정 2) No autocorrelation Error Term 간에 상관관계가 없어야 한다 만약 , 있다면 종속변수의 값들이 체계적인 연관성을 가지고 있음을 시사 ( 방안 ) 상관관계가 높은 변수들을 하나로 묶거나 , 한 개의 변수를 drop 할 수 있음 . * 변수간의 상관관계 검증 : Durbin - Watson Test O ≤ D ≤ 4 ┌ D = 2 : No correlation ├ D > 2 : + 상관관계 └ D > 2 : - 상관관계 ∑(Et - Et) D = ---------- = 2(1-r) D = 0 ∑ Et2 D = 2 (r=1) D = 4 ρ= +1 ρ= 0 ρ= -1
D=0 D=2 (r=1) D=4
19
( 가정 3) E ~ N (0, 62) ( 가정 4) No multi-collinearity : 독립 변수간의 상관관계가 높지 않아야 한다 . - 독립 변수간의 상관관계가 높으며 회귀식은 유의성이 있어도 특정 독립변수의 유의성이 낮아짐 . 독립변수와 종속 변수간의 진정한 관계를 밝히기 어려움 (8) Dummy Variable 의 도입 Dummy Variable : 명목 척도로 측정된 변수 EX) 성별 , Social class, 날씨 , 계절 등 계절성 (Seasonality) 검증의 경우 Sales of Beer Brand A = f ( 광고지출액 , 브랜드 인지율… , 계절성 ) y = a + d₁D₁+ d₂D₂+ d₃D₃+ b₁X₁+ … + e D 가 가질수 있는 최대 범주 -1
20
변수의 변환 (Linear Transformation)
① 2 차 다항식 y = ao + b₁ x o + b₂ x₂ x x₁ y = ao + b₁ x o + b₂ x₂ x 2 x₂ ② 지수모델 x₁ x₂ x₃ x n
ⅰ) y = ao b₁ b₂ b₃ ……… bn 양변에 log 를 취함 log y = log ao + x₁ log b₁+ x₂ log b₂+ …… + x n long bn put Ao = log ao , B₁ = log b₁, ……
b₁ b₂ b₃ bn
ii) y = ao X₁ X₂ X₃……… Xn 양변에 log 를 취함 log y = log ao + b₁log x₁ + b₂log x₂ + …… + bn long x n put log ao = Ao, log x₁ = X₁, log x₂ = X₂, …… log y * ------- = X₁ 에 대한 y 의 Elasticity log X₁
21
③ Curviliar model ⅰ) y = ao + 3b₁/ x 3 put --- = X y = ao + b₁X x b₁
ⅱ) y = ao x 양변에 log 를 취함 log y = log ao + b₁log x put log y = Y, log x = X then, Y = log ao + b₁X b₁
x₁ ⅲ) y = -------- 양변에 log 를 취함 b₂
x₂ log y = log ao + b₁log x₁ + b₂log x₂ put log y = Y, log X₁, log x₂ = X₂ then, Y = log ao + b₁ x₁ + b₂ x₂
22
④ Nonlinear model
y = ao + b₁ x₁ + (b₁+ b₂) x₂
put b₁+ b₂ = b₃
then, y = ao + b₁ x₁ + b₃ x₂ ……… ⓐ
Estimate ⓐ
Calculate b₂( = b₃- b₁)
Use ao, b₁, b₂ as initial values
23
ⅰ) dep, Variable 이 metric multiple Regressionⅱ) dep, Variable 이 non-metric (Logistic Regression) Linear probability model 적용 (non-metric dep. Variables) Logistic Regression (Logit analysis) : when dep. Var 이 binary(dichotomous)일 때의 regression binary variable : ⅰ) 구입여부 ⅱ) 성공 / 실태 (응답확률이 각각 50%인 경우 ) ⅲ) Yes/No Ex) y = a + b₁ x₁ + b₂ x₂ + b₃ x₃ + b₄x₄ + e y : 구입의향 x₁ : 성능평가 x₂ : 디자인 평가 x₄ : 메이커 선호 prob [Yes] ----------- = ao + b₁ x₁ + b₂ x₂ + …… + bn x n
prob [No]
Binary Dependent Variable