regression analysis & correlation...

36
회귀분석과 상관분석 Regression Analysis & Correlation Analysis

Upload: others

Post on 14-Jan-2020

11 views

Category:

Documents


0 download

TRANSCRIPT

  • 회귀분석과 상관분석

    Regression Analysis &

    Correlation Analysis

  • 학습내용

    회귀모형과 용도

    단순회귀모형

    회귀모형의 평가 표준오차

    결정계수

    회귀계수의 추론

    모형의 적합도 검정

    상관분석

    종속변수에 대한 구간추정

    회귀모형 사용시 주의사항

    (가정의 검토)

    류문찬([email protected])

  • 수학적 모형

    확정적 모형(deterministic model) f=ma, E=mc2

    F=P(1+i)n, TC=f+vQ

    정확한 관계를 가정

    오차가 아주 작을 때

    확률적 모형(probabilistic model) 주택의 가격 = 100+0.1*평수 + 오차

    상관분석(correlation analysis)

    회귀분석(regression analysis)

    류문찬([email protected])

  • 회귀모형

    ),,,( 21 pxxxfy

    종속변수 (반응변수)

    독립변수 (설명변수)

    오차

    류문찬([email protected])

    함수 형태에 따라

    선형회귀모형

    비선형 회귀모형

    독립변수의 수에 따라

    단순회귀모형(simple regression model)

    중회귀모형(multiple regression model)

  • 오차항의 필요조건

    Normality

    Independence

    Homoscedasticity(homogeneity)

    류문찬([email protected])

  • 회귀분석의 용도

    해석(description) : 변수간의 관계 설명 金의 가격 = f(금리, 인플레이션율, GDP, 금의 수요, ...)

    예측(prediction) 주택의 가격 = f(위치, 크기, 침실의 수, 상태, ...)

    제품의 수요 = f(가격, 소비자 수, 광고비, ...)

    통제(control) 수율 = f(온도, 압력, 재료의 양, …)

    물가상승률 =f(금리, 통화량, 환율, ...)

    류문찬([email protected])

  • 단순회귀모형

    의 의미 equation error

    중요 변수의 누락

    함수 형태의 오류

    측정 오차

    xy 10

    류문찬([email protected])

  • 최소자승법 - review

    iiiii xyyye 10ˆˆˆ ,ˆ 잔차(residual)

    잔차제곱합(error sum of squares)

    y2

    2ŷXy 10

    ˆˆˆ

    e2

    y

    x

    류문찬([email protected])

    x2

    22 )ˆ( ii yyeSSE i

  • 회귀계수의 추정-최소자승법

    xyS

    S

    xy

    xx

    xy

    101

    10

    ˆˆ,ˆ

    ˆˆˆ

    nxxxxS

    nyxyxyyxxS

    iiixx

    iiiiiixy

    /)()(

    /))((]))([(

    222

    류문찬([email protected])

  • Excel 활용

    산점도와 회귀선 삽입 – 분산형(차트) – 데이터선택

    추세선 추가를 위해서는 점위에서 마우스의 오른쪽 버튼 클릭하여 ‘추세선 추가’를 선택

    데이터 – 데이터분석 – 회귀분석

    류문찬([email protected])

  • 회귀모형의 평가

    (추정치의) 표준오차

    결정계수

    회귀계수의 검정

    ANOVA

    류문찬([email protected])

  • 분산의 추정과 표준오차

    22

    22

    ˆ where

    2

    )y(yeSSE

    MSEn

    SSEs

    MSEn

    SSEs

    iii

    표준오차추정치의

    잔차가 모두 0이면 SSE=0 이므로, SSE가 작을수록 모형의 적합도(fitness)가 높다고 할 수 있다.

    류문찬([email protected])

    xx

    xy

    yyxyyyiiS

    SSSβS)y(ySSE

    2

    1

    2 ˆˆ

  • Excel output

    류문찬([email protected])

    회귀분석 통계량 다중 상관계수 0.8052

    결정계수 0.6483 조정된 결정계수 0.6447

    표준 오차 0.3265

    관측수 100

    분산 분석

    자유도 제곱합 제곱 평균 F 비 유의한 F 회귀 1 19.256 19.256 180.64 5.751E-24 잔차 98 10.446 0.107

    계 99 29.702

    계수 표준 오차 t 통계량 P-값 하위 95% 상위 95% Y 절편 17.249 0.182 94.725 0.000 16.887 17.610

    Odometer -0.067 0.005 -13.440 0.000 -0.077 -0.057

    MSEs ̂

  • 변동의 분해

    XY 10ˆˆˆ

    yi

    xi

    Unexplained

    𝒚𝒊-𝒚𝒊

    total

    𝒚𝒊 − 𝒚

    X

    Y

    )ˆ()ˆ()( yyyyyy iiii

    류문찬([email protected])

    𝑦 Explained

    𝒚𝒊 − 𝒚𝒊

  • 변동의 분해

    총변동 잔차변동 (설명 안된 변동)

    회귀변동 (설명된 변동)

    TSS = SSE + SSR

    222 )ˆ()ˆ()(

    )ˆ()ˆ()(

    yyyyyy

    yyyyyy

    iiii

    iiii

    류문찬([email protected])

  • 결정계수(Coefficient of Determination)

    류문찬([email protected])

    TSS = SSE + SSR

  • Excel output

    류문찬([email protected])

    회귀분석 통계량 다중 상관계수 0.8052

    결정계수 0.6483 조정된 결정계수 0.6447

    표준 오차 0.3265

    관측수 100

    분산 분석

    자유도 제곱합 제곱 평균 F 비 유의한 F 회귀 1 19.256 19.256 180.64 5.751E-24 잔차 98 10.446 0.107

    계 99 29.702

    계수 표준 오차 t 통계량 P-값 하위 95% 상위 95% Y 절편 17.249 0.182 94.725 0.000 16.887 17.610

    Odometer -0.067 0.005 -13.440 0.000 -0.077 -0.057

  • 결정계수와 상관계수

    단순선형회귀모형에서는;

    결정계수 = 상관계수의 제곱

    2

    22

    2/

    rSS

    S

    S

    SSS

    TSS

    SSRR

    yyxx

    xy

    yy

    xxxy

    류문찬([email protected])

    r : 선형 상관관계(linear correlation)의 강도

    R2 : 회귀모형에서 설명력의 척도

  • Excel output

    류문찬([email protected])

    회귀분석 통계량 다중 상관계수 0.8052

    결정계수 0.6483 조정된 결정계수 0.6447

    표준 오차 0.3265

    관측수 100

    분산 분석

    자유도 제곱합 제곱 평균 F 비 유의한 F 회귀 1 19.256 19.256 180.64 5.751E-24 잔차 98 10.446 0.107

    계 99 29.702

    계수 표준 오차 t 통계량 P-값 하위 95% 상위 95% Y 절편 17.249 0.182 94.725 0.000 16.887 17.610

    Odometer -0.067 0.005 -13.440 0.000 -0.077 -0.057

  • 적합도 비교

    0

    2

    4

    6

    8

    10

    12

    0 2 4 6 8 10 0

    2

    4

    6

    8

    10

    12

    0 2 4 6 8 10

    류문찬([email protected])

    064.0

    217.0417.8ˆ

    2

    R

    xy

    817.0

    328.0063.3405.2ˆ

    2

    2

    R

    xy

  • 1의 추론

    )2(~/

    ˆ11

    nt

    Sst

    xx

    기울기 - x 한단위가 증가할 때 y의 증가량

    독립변수가 종속변수를 유의적으로 설명하는가?

    ),(~ˆ2

    11

    xxSN

    류문찬([email protected])

  • 1의 추론

    류문찬([email protected])

    ).2(|| if Hreject ,:HFor ③

    ).2( if Hreject ,:HFor ②

    ).2( if Hreject ,:HFor ①

    /

    ˆ 검정통계량

    :H 귀무가설

    2/ 01011

    01011

    01011

    101

    1010

    ntt

    ntt

    ntt

    Sst

    xx

    xxS

    snt )2(ˆ 2/1 신뢰구간 :

  • Excel output

    회귀분석 통계량 다중 상관계수 0.8052

    결정계수 0.6483 조정된 결정계수 0.6447

    표준 오차 0.3265

    관측수 100

    분산 분석

    자유도 제곱합 제곱 평균 F 비 유의한 F 회귀 1 19.256 19.256 180.64 5.751E-24 잔차 98 10.446 0.107

    계 99 29.702

    계수 표준 오차 t 통계량 P-값 하위 95% 상위 95% Y 절편 17.249 0.182 94.725 0.000 16.887 17.610

    Odometer -0.067 0.005 -13.440 0.000 -0.077 -0.057

    xxS

    s

    xxS

    snt )2(ˆ 2/1

  • 분산분석 – 모형 적합도 검정

    source SS df MS F p-value

    Regression SSR 1 MSR= SSR/1 MSR/MSE

    Error SSE n-2 MSE=SSE/(n-2)

    Total TSS n-1

    류문찬([email protected])

  • Excel output

    류문찬([email protected])

    회귀분석 통계량 다중 상관계수 0.8052

    결정계수 0.6483 조정된 결정계수 0.6447

    표준 오차 0.3265

    관측수 100

    분산 분석

    자유도 제곱합 제곱 평균 F 비 유의한 F 회귀 1 19.256 19.256 180.64 0.000 잔차 98 10.446 0.107

    계 99 29.702

    계수 표준 오차 t 통계량 P-값 하위 95% 상위 95% Y 절편 17.249 0.182 94.725 0.000 16.887 17.610

    Odometer -0.067 0.005 -13.440 0.000 -0.077 -0.057

  • 상관분석(Correlation Analysis)

    류문찬([email protected])

  • 상관계수

    yyxx

    xy

    yx

    yx

    yx

    SS

    Sr

    YXEYXCov

    )])([(),(

    nyyyyS

    nxxxxS

    nyxyxyyxxS

    iiiyy

    iiixx

    iiiiiixy

    /)()(

    /)()(

    /))(()])([(

    222

    222

    류문찬([email protected])

  • 상관계수에 대한 검정

    ).2(|| if Hreject ,0:HFor (iii)

    ).2( if Hreject ,0:HFor (ii)

    ).2( if Hreject ,0:HFor (i)

    12

    0:H

    2/01

    01

    01

    2

    o

    ntt

    ntt

    ntt

    r

    rnt

    검정통계량

    류문찬([email protected])

  • 종속변수(y)에 대한 구간추정

    xxS

    xx

    nsntx

    2

    2/10

    )(1)2(ˆˆ

    xxS

    xx

    nsntx

    2

    2/10

    )(11)2(ˆˆ

    y의 평균에 대한 신뢰구간(confidence interval)

    y의 개별값에 대한 예측구간(prediction interval)

    류문찬([email protected])

  • Confidence band

    x

    y

    x x

    given

    _

    XY 10ˆˆˆ

    류문찬([email protected])

  • 회귀모형 사용시 주의 사항

    Extrapolation

    Cause & effect

    Violated assumptions

    류문찬([email protected])

  • Extrapolation

    Relevant Range

    interpolation extrapolation extrapolation

    류문찬([email protected])

  • Extrapolation의 위험

    Line2

    a b c d f x

    y

    류문찬([email protected])

  • Cause & Effect

    술의 소비량

    교원의 수

    류문찬([email protected])

  • 회귀모형의 진단 - 가정의 검토

    함수형태 중요한 변수가 누락되지 않았나?

    선형성이 아닌가?

    정규성 normality

    독립성 independence randomness test

    등분산성 homoscedasticity

    류문찬([email protected])

  • 회귀모형의 적용순서

    1. 이론적 기반에 기초한 회귀모형의 개발 종속변수와 관계가 있을 것으로 판단되는 독립변수의 선정

    2. 변수들에 대한 데이터 수집

    3. 산포도 작성 선형모형의 적합성 검토

    이상치의 탐색

    4. 회귀식의 결정

    5. 잔차 계산으로 필요조건 확인 - NIH

    6. 선형회귀모형의 적합도 평가 표준오차 / 선형관계(β, ρ) / R2

    7. 활용(설명/예측/통제)

    류문찬([email protected])