-
회귀분석과 상관분석
Regression Analysis &
Correlation Analysis
-
학습내용
회귀모형과 용도
단순회귀모형
회귀모형의 평가 표준오차
결정계수
회귀계수의 추론
모형의 적합도 검정
상관분석
종속변수에 대한 구간추정
회귀모형 사용시 주의사항
(가정의 검토)
류문찬([email protected])
-
수학적 모형
확정적 모형(deterministic model) f=ma, E=mc2
F=P(1+i)n, TC=f+vQ
정확한 관계를 가정
오차가 아주 작을 때
확률적 모형(probabilistic model) 주택의 가격 = 100+0.1*평수 + 오차
상관분석(correlation analysis)
회귀분석(regression analysis)
류문찬([email protected])
-
회귀모형
),,,( 21 pxxxfy
종속변수 (반응변수)
독립변수 (설명변수)
오차
류문찬([email protected])
함수 형태에 따라
선형회귀모형
비선형 회귀모형
독립변수의 수에 따라
단순회귀모형(simple regression model)
중회귀모형(multiple regression model)
-
오차항의 필요조건
Normality
Independence
Homoscedasticity(homogeneity)
류문찬([email protected])
-
회귀분석의 용도
해석(description) : 변수간의 관계 설명 金의 가격 = f(금리, 인플레이션율, GDP, 금의 수요, ...)
예측(prediction) 주택의 가격 = f(위치, 크기, 침실의 수, 상태, ...)
제품의 수요 = f(가격, 소비자 수, 광고비, ...)
통제(control) 수율 = f(온도, 압력, 재료의 양, …)
물가상승률 =f(금리, 통화량, 환율, ...)
류문찬([email protected])
-
단순회귀모형
의 의미 equation error
중요 변수의 누락
함수 형태의 오류
측정 오차
xy 10
류문찬([email protected])
-
최소자승법 - review
iiiii xyyye 10ˆˆˆ ,ˆ 잔차(residual)
잔차제곱합(error sum of squares)
y2
2ŷXy 10
ˆˆˆ
e2
y
x
류문찬([email protected])
x2
22 )ˆ( ii yyeSSE i
-
회귀계수의 추정-최소자승법
xyS
S
xy
xx
xy
101
10
ˆˆ,ˆ
ˆˆˆ
nxxxxS
nyxyxyyxxS
iiixx
iiiiiixy
/)()(
/))((]))([(
222
류문찬([email protected])
-
Excel 활용
산점도와 회귀선 삽입 – 분산형(차트) – 데이터선택
추세선 추가를 위해서는 점위에서 마우스의 오른쪽 버튼 클릭하여 ‘추세선 추가’를 선택
데이터 – 데이터분석 – 회귀분석
류문찬([email protected])
-
회귀모형의 평가
(추정치의) 표준오차
결정계수
회귀계수의 검정
ANOVA
류문찬([email protected])
-
분산의 추정과 표준오차
22
22
ˆ where
2
2ˆ
)y(yeSSE
MSEn
SSEs
MSEn
SSEs
iii
표준오차추정치의
잔차가 모두 0이면 SSE=0 이므로, SSE가 작을수록 모형의 적합도(fitness)가 높다고 할 수 있다.
류문찬([email protected])
xx
xy
yyxyyyiiS
SSSβS)y(ySSE
2
1
2 ˆˆ
-
Excel output
류문찬([email protected])
회귀분석 통계량 다중 상관계수 0.8052
결정계수 0.6483 조정된 결정계수 0.6447
표준 오차 0.3265
관측수 100
분산 분석
자유도 제곱합 제곱 평균 F 비 유의한 F 회귀 1 19.256 19.256 180.64 5.751E-24 잔차 98 10.446 0.107
계 99 29.702
계수 표준 오차 t 통계량 P-값 하위 95% 상위 95% Y 절편 17.249 0.182 94.725 0.000 16.887 17.610
Odometer -0.067 0.005 -13.440 0.000 -0.077 -0.057
MSEs ̂
-
변동의 분해
XY 10ˆˆˆ
yi
xi
Unexplained
𝒚𝒊-𝒚𝒊
total
𝒚𝒊 − 𝒚
X
Y
)ˆ()ˆ()( yyyyyy iiii
류문찬([email protected])
𝑦 Explained
𝒚𝒊 − 𝒚𝒊
-
변동의 분해
총변동 잔차변동 (설명 안된 변동)
회귀변동 (설명된 변동)
TSS = SSE + SSR
222 )ˆ()ˆ()(
)ˆ()ˆ()(
yyyyyy
yyyyyy
iiii
iiii
류문찬([email protected])
-
결정계수(Coefficient of Determination)
류문찬([email protected])
TSS = SSE + SSR
-
Excel output
류문찬([email protected])
회귀분석 통계량 다중 상관계수 0.8052
결정계수 0.6483 조정된 결정계수 0.6447
표준 오차 0.3265
관측수 100
분산 분석
자유도 제곱합 제곱 평균 F 비 유의한 F 회귀 1 19.256 19.256 180.64 5.751E-24 잔차 98 10.446 0.107
계 99 29.702
계수 표준 오차 t 통계량 P-값 하위 95% 상위 95% Y 절편 17.249 0.182 94.725 0.000 16.887 17.610
Odometer -0.067 0.005 -13.440 0.000 -0.077 -0.057
-
결정계수와 상관계수
단순선형회귀모형에서는;
결정계수 = 상관계수의 제곱
2
22
2/
rSS
S
S
SSS
TSS
SSRR
yyxx
xy
yy
xxxy
류문찬([email protected])
r : 선형 상관관계(linear correlation)의 강도
R2 : 회귀모형에서 설명력의 척도
-
Excel output
류문찬([email protected])
회귀분석 통계량 다중 상관계수 0.8052
결정계수 0.6483 조정된 결정계수 0.6447
표준 오차 0.3265
관측수 100
분산 분석
자유도 제곱합 제곱 평균 F 비 유의한 F 회귀 1 19.256 19.256 180.64 5.751E-24 잔차 98 10.446 0.107
계 99 29.702
계수 표준 오차 t 통계량 P-값 하위 95% 상위 95% Y 절편 17.249 0.182 94.725 0.000 16.887 17.610
Odometer -0.067 0.005 -13.440 0.000 -0.077 -0.057
-
적합도 비교
0
2
4
6
8
10
12
0 2 4 6 8 10 0
2
4
6
8
10
12
0 2 4 6 8 10
류문찬([email protected])
064.0
217.0417.8ˆ
2
R
xy
817.0
328.0063.3405.2ˆ
2
2
R
xy
-
1의 추론
)2(~/
ˆ11
nt
Sst
xx
기울기 - x 한단위가 증가할 때 y의 증가량
독립변수가 종속변수를 유의적으로 설명하는가?
),(~ˆ2
11
xxSN
류문찬([email protected])
-
1의 추론
류문찬([email protected])
).2(|| if Hreject ,:HFor ③
).2( if Hreject ,:HFor ②
).2( if Hreject ,:HFor ①
/
ˆ 검정통계량
:H 귀무가설
2/ 01011
01011
01011
101
1010
ntt
ntt
ntt
Sst
xx
xxS
snt )2(ˆ 2/1 신뢰구간 :
-
Excel output
회귀분석 통계량 다중 상관계수 0.8052
결정계수 0.6483 조정된 결정계수 0.6447
표준 오차 0.3265
관측수 100
분산 분석
자유도 제곱합 제곱 평균 F 비 유의한 F 회귀 1 19.256 19.256 180.64 5.751E-24 잔차 98 10.446 0.107
계 99 29.702
계수 표준 오차 t 통계량 P-값 하위 95% 상위 95% Y 절편 17.249 0.182 94.725 0.000 16.887 17.610
Odometer -0.067 0.005 -13.440 0.000 -0.077 -0.057
xxS
s
xxS
snt )2(ˆ 2/1
-
분산분석 – 모형 적합도 검정
source SS df MS F p-value
Regression SSR 1 MSR= SSR/1 MSR/MSE
Error SSE n-2 MSE=SSE/(n-2)
Total TSS n-1
류문찬([email protected])
-
Excel output
류문찬([email protected])
회귀분석 통계량 다중 상관계수 0.8052
결정계수 0.6483 조정된 결정계수 0.6447
표준 오차 0.3265
관측수 100
분산 분석
자유도 제곱합 제곱 평균 F 비 유의한 F 회귀 1 19.256 19.256 180.64 0.000 잔차 98 10.446 0.107
계 99 29.702
계수 표준 오차 t 통계량 P-값 하위 95% 상위 95% Y 절편 17.249 0.182 94.725 0.000 16.887 17.610
Odometer -0.067 0.005 -13.440 0.000 -0.077 -0.057
-
상관분석(Correlation Analysis)
류문찬([email protected])
-
상관계수
yyxx
xy
yx
yx
yx
SS
Sr
YXEYXCov
)])([(),(
nyyyyS
nxxxxS
nyxyxyyxxS
iiiyy
iiixx
iiiiiixy
/)()(
/)()(
/))(()])([(
222
222
류문찬([email protected])
-
상관계수에 대한 검정
).2(|| if Hreject ,0:HFor (iii)
).2( if Hreject ,0:HFor (ii)
).2( if Hreject ,0:HFor (i)
12
0:H
2/01
01
01
2
o
ntt
ntt
ntt
r
rnt
검정통계량
류문찬([email protected])
-
종속변수(y)에 대한 구간추정
xxS
xx
nsntx
2
2/10
)(1)2(ˆˆ
xxS
xx
nsntx
2
2/10
)(11)2(ˆˆ
y의 평균에 대한 신뢰구간(confidence interval)
y의 개별값에 대한 예측구간(prediction interval)
류문찬([email protected])
-
Confidence band
x
y
x x
given
_
XY 10ˆˆˆ
류문찬([email protected])
-
회귀모형 사용시 주의 사항
Extrapolation
Cause & effect
Violated assumptions
류문찬([email protected])
-
Extrapolation
Relevant Range
interpolation extrapolation extrapolation
류문찬([email protected])
-
Extrapolation의 위험
Line2
a b c d f x
y
류문찬([email protected])
-
Cause & Effect
술의 소비량
교원의 수
류문찬([email protected])
-
회귀모형의 진단 - 가정의 검토
함수형태 중요한 변수가 누락되지 않았나?
선형성이 아닌가?
정규성 normality
독립성 independence randomness test
등분산성 homoscedasticity
류문찬([email protected])
-
회귀모형의 적용순서
1. 이론적 기반에 기초한 회귀모형의 개발 종속변수와 관계가 있을 것으로 판단되는 독립변수의 선정
2. 변수들에 대한 데이터 수집
3. 산포도 작성 선형모형의 적합성 검토
이상치의 탐색
4. 회귀식의 결정
5. 잔차 계산으로 필요조건 확인 - NIH
6. 선형회귀모형의 적합도 평가 표준오차 / 선형관계(β, ρ) / R2
7. 활용(설명/예측/통제)
류문찬([email protected])