correlation analysis bivariate...

13
Bivariate Analysis Correlation Analysis 개념 Bivariate analysis 측정형 두 변수간의 관계 분석 Pearson 상관계수 측정형 변수 직선 관계 정도 상관 관계? 두 측정형 변수의 산점도: 상호 직선적 관련성을 상관계수 (Correlation Coefficient) 측정. 잠재설명(원인)변수(Xs) 상관 관계 잠재변인과 결과변수(Y)(1) (3) = = = 2 2 ) ( ) ( ) )( ( ) var( ) var( )) ( ( )) ( ( ) var( ) var( ) , cov( y y x x y y x x Y X Y E Y E X E X E Y X Y X r i i i i 잠재설명(원인)변수(X s) 상관 관계, 잠재변인과 결과변수(Y)상관 관계 산점도(scatter plot) (2) 그리기 가로축은 항상 입력 변인(X)를 나타내고, 세로축은 다른 입력요 소 또는 결과(Y)를 나타냄. 각각의 점들은 으로 이루어진 데이터 (X,Y) 얻는 정보 In correlation: 두 변수 간 함수 관계 In regression: 이상치/영향치(옆 그림 번호 참고), 등분산성 진단 이상치 (1 ) 이상치(outlier) (2 ) 이상치+영향치 (3 ) 영향치(influential observation) 등분산성? 개체들이 직선 주위로 퍼지는 정도가 fan 모양 http://wolfpack.hannam.ac.kr 한남대학교 통계학과 권세혁교수 Simulation (Fall, 2007) 52

Upload: others

Post on 12-Sep-2020

3 views

Category:

Documents


0 download

TRANSCRIPT

Bivariate AnalysisCorrelation Analysis 개념

Bivariate analysis

측정형 두 변수간의 관계 분석

Pearson 상관계수

측정형변수직선관계정도

상관관계?

두 측정형 변수의 산점도: 상호 직선적 관련성을 상관계수(Correlation Coefficient) 측정.

잠재설명(원인)변수(X’s) 상관 관계 잠재변인과 결과변수(Y)의

(1) (3)

∑ −∑ −

∑ −−=

−−==

22 )()(

))(()var()var(

))(())(()var()var(

),cov(

yyxx

yyxxYX

YEYEXEXEYX

YXrii

ii

잠재설명(원인)변수(X s) 상관 관계, 잠재변인과 결과변수(Y)의상관 관계

산점도(scatter plot)

(2)

그리기

가로축은 항상 입력 변인(X)를 나타내고, 세로축은 다른 입력요소 또는 결과(Y)를 나타냄.

각각의 점들은 짝으로 이루어진 데이터 (X,Y) 임각각의 점들은 짝 이루어진 데이터 ( , ) 임

얻는정보

In correlation: 두 변수 간 함수 관계

In regression: 이상치/영향치(옆 그림 번호 참고), 등분산성 진단

이상치(1 ) 이상치(outlier)

(2 ) 이상치+영향치

(3 ) 영향치(influential observation)

등분산성? 개체들이 직선주위로 퍼지는 정도가 fan 모양

http://wolfpack.hannam.ac.kr한남대학교 통계학과 권세혁교수

Simulation (Fall, 2007)52

Bivariate AnalysisCorrelation Analysis 가설검정

상관계수 유의성 검정

H0: ρ=0 (두 변수의상관관계존재하지않음)

비모수(nonparametric) 상관계수

관측치의 개수가 10~15개 미만이거나 관측치가 가질 수 있는0 ρ ( 상 않 )

H0: ρ= ρ0 (두 변수의상관계수가 ρ0 이다)

값의 수준이 5~10개 미만)2(~

12

2−

−−= nt

rrnT

상관계수 차이 검정

)3

1,11ln5.0(~

11ln5.0

0

0

−−+

−+

=n

NrrT

ρρ

상관계수 차이 검정

귀무가설(H0): ρx =ρy (두 모집단상관계수는동일하다.)

1l50)(

1l50)(

rr yx ++

)1,0(~)3/(1)3/(1

)()(

1ln5.0)(,

1ln5.0)(

Nnn

yzxzz

ryz

rxz

yx

y

y

x

x

−+−

−=

−=

−=

http://wolfpack.hannam.ac.kr한남대학교 통계학과 권세혁교수

Simulation (Fall, 2007)53

Bivariate AnalysisCorrelation Analysis 실습

데이터 PCS.xls

15개 notebook PC의성능평가점수(Performance)와 소

In Minitab

산점도성능평 ( )비자평가점수(Rating)를 조사한자료이다.

산점도를 그리고 해석하시오.

상관계수를 구하고 선형관계가 있는지 검정하시오. 유의수준 5%

Notebook Performance RatingAMS Tech Roadster 15CTA380 115 67Compaq Armada M700 191 78Compaq Prosignia Notebook 150 153 79Dell Inspiron 3700 C466GT 194 80Dell Inspiron 7500 R500VT 236 84Dell Latitude Cpi A366XT 184 76Enpower ENP-313 Pro 184 77Gateway Solo 9300LS 216 92Gateway Solo 9300LS 216 92HP Pavilion Notebook PC 185 83IBM ThinkPad I Series 1480 183 78Micro Express NP7400 189 77Micron TransPort NX PII-400 202 78NEC Versa SX 192 78Sceptre Soundx 5200 141 73Sony VAIO PCG-F340 187 77

http://wolfpack.hannam.ac.kr한남대학교 통계학과 권세혁교수

Simulation (Fall, 2007)54

Bivariate AnalysisCorrelation Analysis 실습2

산점도 상관계수구하기및두변수상관관계유의성검정

선형관계보임상관관계가유의하다(유의확률=0.001)

선형관계 보임

gateway Solo notebook 이상 개체로 판단

한국 Notebook 경우성능과평가상관계수가 0.7이다. 상관관계정도가서로다르다고할수있나?

양의상관관계가 높다 (r=0.78)

성능점수가높으면 소비자 평가도높다.

이상개체제거후관계정도가서로다르다고할수있나?

귀무가설: ρ=0.7

수작업에 의한 계산

R을이용하자.

이상개체제거후

)1,0(~1

11ln5.0

11ln5.0

0

0

Nrr

T −+

−−+

=ρρ

http://wolfpack.hannam.ac.kr한남대학교 통계학과 권세혁교수

Simulation (Fall, 2007)55

3n −

Bivariate AnalysisCorrelation Analysis 실습3

In SPSS

http://wolfpack.hannam.ac.kr한남대학교 통계학과 권세혁교수

Simulation (Fall, 2007)56

Bivariate AnalysisCorrelation Analysis 실습4

In R데이터불러오기

abline()추정회귀선(fitted regression line)을긋는다.

attach() 해서반드시사용데이터를가져오자.

산점도그리기

함plot() 함수xlim=c(최소, 최대), ylim=c(최소, 최대) 사용 가능

main=“그림제목”

xlab=“x-축제목”, ylab=“y-축 제목”

http://wolfpack.hannam.ac.kr한남대학교 통계학과 권세혁교수

Simulation (Fall, 2007)57

Bivariate AnalysisRegression Analysis 개념, 절차

회귀분석이란

(1)두 변수의 인과관계가 존재? Y=f(x)

회귀분석과정

(1)회귀모형 설정

y를종속변수 x를 설명변수(독립변수)라 한다.

(2)함수 관계 중 가장 간단한 직선 관계: Y=a+bX

단순 회귀(선형)모형: Y=a+bX+e (오차)

오차의 가정: 정규성 등분산성 독립성

종속변수(Y) 및 설명변수(X) 설정: (예) 성능이 소비자평가에 영향을줄 것이다. Y=소비자 평가, X=성능

데이터수집 및 입력)0(~ 2σiidNe

iii eba ++= )()( 성능소비자평가

오차의 가정: 정규성, 등분산성, 독립성

상관분석과유사 (상관계수 r과회귀계수 b의 관계)

유래

),0( σiidNet

iii ebXaY ++=

Francis Galton(1822-1911)

유전학자, 928명의 성인 자녀 키와 부모 키의 관계

부모키=(아버지키+ 어머니 키)/2

여자키는 1.08배

(yi, xi), i=1, 2, …, n(=15)

(2)산점도 그리기

Karl Pearson (1857-1936)

수학적함수(모형) 관계 설정 및 OLS 추정치 계산

Pearson 상관계수 계산식 유도

(2)산점도 그리기

직선관계존재 여부?

오차의가정, 등분산 문제

) 0.516(33.73 키아들키아버지 +=)(

Pearson 상관계수 계산식 유도

http://wolfpack.hannam.ac.kr한남대학교 통계학과 권세혁교수

Simulation (Fall, 2007)58

Bivariate AnalysisRegression Analysis 절차2

(3)회귀계수 (a, b) 추정

추정한다는 것은? 데이터에 가장 적합한 직선 도출(fitted LINE)

OLS 추정치∑ −−

= 2))((ˆ yyxxb ii xya βˆ −=

방법 OLS 추정치

(4)선형회귀모형유의성검정

Fitted line (적합선)의 유의성

설명변수가 유의하지 않다 설명하지 못한다 b

∑ −−=∑===

n

iii

ba

n

ii

babXaYeQ

1

2,1

2,

)(min)(min

ˆ∂ nQ

∑ − 2)( xxiy β

iii ebXaY ++=

설명변수가 유의하지 않다, 설명하지 못한다, b=0

모형(모형 내 변수 전체)의 유의성

귀무가설: 모형 내 모든 설명변수는 유의하지 않다

변동분할ii XbaY ˆˆˆ +=0)ˆˆ(2

0)ˆ(2

1

1

=−−−=∂∂

=−−−=∂∂

=

=n

iiii

iii

xyxQ

xyQ

βαβ

βαα

0...: 210 ==== pbbbH

∑ 2)(SSTO-총변동 (Total Sum of Squares, SST)

-회귀변동(Regression Sum of Squares, SSR)

-오차변동(Error Sum of Squares, SSE)

)( YY

)ˆ(ˆ iiii YYer −==

yi∑ −= 2)( yySSTO i

∑ −= 2)ˆ( ii yySSE

∑ −= 2)ˆ( ii yySSR

변동 자유도 자숭합 평균자승합 F)( YYi −

YYi −ˆ

Y

변동 자유도df

자숭합SS

평균자승합MS

F

모형 p SSR MSR=SSR/p MSR/MSE~F(1,n-1)

오차 n-p-1 SSE MSE=SSE/(n-p-1)

2

개별 설명변수

귀무가설:

x

0:0 =kbHX

총변동 n-1 R2(결정계수)=SSR/SST

rSxxSyyb =ˆ

2Rr ±=

)2(~)ˆ(

ˆ−

− nts β

ββSMSEs =)ˆ(β

http://wolfpack.hannam.ac.kr한남대학교 통계학과 권세혁교수

Simulation (Fall, 2007)59

xi Sxx

)()()( ,)( 22

yyxxSxyyySyyxxSxx

ii

ii−∑ −=

∑ −=∑ −=

)(s β xxS

Bivariate AnalysisRegression Analysis 절차3 / 예제

(5)회귀진단 (skip here)

오차의 추정치 잔차(residual) 활용

In R

(1)데이터읽기)ˆ(ˆ iiii YYer −==

방법: (표준화)잔차(y-축)와 예측치(x-축) 산점도

선형성

오차가정 3가지: 정규성, 등분산성, 독립성

이상치, 영향치 진단

( )

이상치, 영향치 진단

당분간은 산점도에서 이상치, 영향치 진단하여 미리 제외하자.

데이터 PCS.xls (계속)

15개 notebook PC의성능평가점수(Performance)와 소비자평가점수(Rating)를 조사한자료이다.

모형설정

산점도 (done already)

(2)산점도그리기 (이전 슬라이드참고)

직선의 경향이 보인다.iii eba ++= )()( 성능소비자평가

산점도 (done already)

회귀계수 추정

회귀모형 유의성 검정

F-검정

검정

직선의 경향이 보인다.

이상치 존재하는 것 같다.

t-검정

회귀진단 및 잔차진단 (optional)

http://wolfpack.hannam.ac.kr한남대학교 통계학과 권세혁교수

Simulation (Fall, 2007)60

Bivariate AnalysisRegression Analysis 예제 결과

(3-4) 회귀계수 추정 및 모형 유의성 진단 lm() 함수

선형모형(linear model) 결과 reg1에 저장됨선형 형( ) 결과 g 에 저장됨

names() 함수

reg1 데이터에 저장된변수가 표현

summary() 함수

선형모형 결과에 대한표현

설명변수 Performance 유의성

모형의유의성과 동일

회귀계수 b에 대한 유의성

t-값=4.491, F값=20.169 (t2=F)

유의확률은 서로 동일하다. 유의하다.

결정계수=0.6081결정계수 0.6081

설명변수가 종속변수 변동 60.1% 설명

Sqrt는상관계수와 동일, 부호> 기울기 b의부호

MSE: 오차추정치 s=sqrt(MSE)=30523

최종모형최종모형

성능이 높을수록 소비자 평가 높아진다.

성능 1점높아지면 소비자 평가 0.145 점 증가한다.

)(145.08.51)( 성능소비자평가 +=

http://wolfpack.hannam.ac.kr한남대학교 통계학과 권세혁교수

Simulation (Fall, 2007)61

Bivariate AnalysisRegression Analysis 예제 결과 / 실습

(5)회귀진단 및 잔차진단 (optional here) 8번째 개체가 이상 관측치이다.

영향치는 없다 (Cook’s distance 참고)

Residuals: 잔차 (Ri), fiited.values: 예측치 이상치 8번의 Rating 값을 제외하고 (NA) 재분석 (영향치 1번도제외하는것을 권함)iY

진단에필요한 4개의그림이 동시에 그려지다. 4번째 그려지는 그래프만이용하면 된다.

데이터 CEO2.XLS

회사자본(단위 백만불)이많을수록 CEO 연봉(단위천불)이회사자본(단위: 백만불)이많을수록 CEO 연봉(단위:천불)이많을것이라는생각에조사한자료이다.

(1)산점도 (2)회귀계수 추정 및 회귀모형 유의성 진단

(3)결과 해석 (4)잔차진단(optional)

http://wolfpack.hannam.ac.kr한남대학교 통계학과 권세혁교수

Simulation (Fall, 2007)62

Bivariate AnalysisRegression Analysis In Minitab

메뉴선택

그래프 설정에서 잔차진단을 위한 표준화 잔차와 적합치 산점도

http://wolfpack.hannam.ac.kr한남대학교 통계학과 권세혁교수

Simulation (Fall, 2007)63

Bivariate AnalysisRegression Analysis In SPSS

메뉴선택

http://wolfpack.hannam.ac.kr한남대학교 통계학과 권세혁교수

Simulation (Fall, 2007)64