1. 개념 - hnuwolfpack.hnu.ac.kr/stat_notes/adv_stat/linearmodel/lm... · 2020. 11. 19. · linear...

12
Linear Model Correlation analysis 1. 개념 • 두 측정형 (적어도 순서형 범주형) 변수의 선형(직선)관계에 대한 척도 데이터 쌍으로 관측치를 활용 • 두 변수간의 관계를 시각적으로 표현하는 산점도는 두 변수 간의 함수 관계를 보여줌 2. 산점도 (SCATTER PLOT) • 두 측정형 변수의 함수관계를 표현한 2차원 그래프 • 인과관계가 있다면 종속변수에 해당되는 변수를 y-축, 설명변수에 해당되는 변수를 x-축 (인터넷 그림 다운) 3. 상관계수 종류 (1) 피어슨 Pearson 상관계수 • 측정형 변수 간의 선형관계 척도 (계산식) 모집단 표본(2) 스피어맨 Spearman 순위 상관계수 • 순서형 변수 간의 선형 관계 척도 ( x i , y i ) 한남대학교 권세혁교수 http://wolfpack.ac.kr / 1 12

Upload: others

Post on 31-Mar-2021

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 1. 개념 - hnuwolfpack.hnu.ac.kr/Stat_Notes/adv_stat/LinearModel/LM... · 2020. 11. 19. · Linear Model Correlation analysis 1. 개념 •두 측정형 (적어도 순서형 범주형)

Linear Model Correlation analysis

1. 개념

•두 측정형 (적어도 순서형 범주형) 변수의 선형(직선)관계에 대한 척도

•데이터 쌍으로 관측치를 활용

• 두 변수간의 관계를 시각적으로 표현하는 산점도는 두 변수 간의 함수 관계를 보여줌

2. 산점도 (SCATTER PLOT)

• 두 측정형 변수의 함수관계를 표현한 2차원 그래프

• 인과관계가 있다면 종속변수에 해당되는 변수를 y-축, 설명변수에 해당되는 변수를 x-축

(인터넷 그림 다운)

3. 상관계수 종류

(1) 피어슨 Pearson 상관계수

• 측정형 변수 간의 선형관계 척도

• (계산식) 모집단

• 표본(2) 스피어맨 Spearman 순위 상관계수

• 순서형 변수 간의 선형 관계 척도

(xi , yi )

한남대학교 권세혁교수 http://wolfpack.ac.kr / 1 12

Page 2: 1. 개념 - hnuwolfpack.hnu.ac.kr/Stat_Notes/adv_stat/LinearModel/LM... · 2020. 11. 19. · Linear Model Correlation analysis 1. 개념 •두 측정형 (적어도 순서형 범주형)

Linear Model Correlation analysis

• (계산식) , where 는 순위( 관측치를 크기 순으로 정렬하였을 때 순위

rank)와 순위 차이

(3) Kendall Tau 순위 상관계수

• 순서형 변수 간의 선형 관계 척도

• concordant : 쌍의 관측치 값의 크기와 순위의 크기가 일치할 때

• (계산식)

4. PEARSON 상관계수 추론

(계산식)

(1) 상관관계 유의성 검정

• 귀무가설 : (두 측정형 변수의 상관관계는 유의하지 않음)

• 대립가설 : (두 측정형 변수의 상관관계는 유의하지 않음)

ρ =6 di

2∑n(n2 −1)

di xi xi

yi

∑∑

−−

−−=

−−==

22 )()(

))((

)var()var(

))(())((

)var()var(

),cov(

yyxx

yyxx

YX

YEYEXEXE

YX

YXr

ii

ii

H0 :ρ = 0

H0 :ρ ≠ 0

한남대학교 권세혁교수 http://wolfpack.ac.kr / 2 12

Page 3: 1. 개념 - hnuwolfpack.hnu.ac.kr/Stat_Notes/adv_stat/LinearModel/LM... · 2020. 11. 19. · Linear Model Correlation analysis 1. 개념 •두 측정형 (적어도 순서형 범주형)

Linear Model Correlation analysis

• 검정통계량 :

(2) 검정

• 상관관계 유의성 검정이 아니라 임의의 상관계수와 동일한지 검정

• 활용 : 미국의 경우 부자 키의 상관계수는 0.65이다. 한국의 경우 미국과 부자의 키의 상관계수가 같다고 할 수 있나? 귀무가설 :

• 검정통계량 :

5. 두 독립집단 상관계수 차이 검정

• 귀무가설

• 대립가설

• 활용 : 한국 부자 키의 상관계수와 미국 부자 키의 상관계수는 동일한가?

• 검정통계량 :

6. 회귀계수와 관계

• 단순 회귀모형 에서 회귀계수 OLS 추정치

• 상관계수와 회귀계수 관계식 : 부호가 동일하며 비례관계

• 상관계수 유의성 검정과 회귀계수 기울기 유의성 검정은 동일하며 샘플링분포

r − ρ0 (0)(1− r2 ) / (n − 2)

~ t(n − 2)

H0 :ρ = ρ0

H0 :ρ = 0.65

TS =

12ln(1+ r1− r

)− 12ln(1+ ρ01− ρ0

)

1 / n − 3~ N(0,1)

H0 :ρx = ρy

H0 :ρx ≠ ρy

)1,0(~)3/(1)3/(1

)()(

11

ln5.0)(,11

ln5.0)(

Nnn

yzxzz

r

ryz

rr

xz

yx

y

y

x

x

−+−

−=

+=

+=

yi =α + βxi + ei β =(xi − x )(yi − y )∑(xi − x )

2∑

β =(xi − x )(yi − y )∑(xi − x )

2∑ × r

t(n − 2)

한남대학교 권세혁교수 http://wolfpack.ac.kr / 3 12

Page 4: 1. 개념 - hnuwolfpack.hnu.ac.kr/Stat_Notes/adv_stat/LinearModel/LM... · 2020. 11. 19. · Linear Model Correlation analysis 1. 개념 •두 측정형 (적어도 순서형 범주형)

Linear Model Correlation analysis

7. 단순회귀모형 결정계수와 관계

(a) 결정계수

• 단순 회귀모형에서 결정계수 Determination Coefficient ,

• 총변동 중 회귀변동이 차지하는 비율 : 모형의 적합 정도를 나타냄

(b) 관계

• 상관계수의 제곱 = 결정계수

• (Wikipedia) =>

8. 상관계수 해석의 유의사항

• 양의 부호 : 한 변수 값이 커지면(작아지면) 다른 변수 값도 커진다(작아진다)

• 음의 부호 : 한 변수 값이 커지면(작아지면) 다른 변수 값도 작아진다(커진다)

• 상관관계 유의성은 크기로 결정하는 것이 아니라 검정 결과의 “유의확률”의 크기에 의해 판단

• 상관계수의 값의 크기와 상관관계 유의성은 비례하는 것은 아님 - 왜냐하면 측정변수의 관측값이 충분히 연속형이 아닌 경우 (예를 들면 일주일 교통사고 건수처럼 0. 1, 2, .., 7이면 상관계수 값는 낮을 수 있음)

• 데이터 개수가 많아지면 상관계수 값의 크기는 무조건 커진다 (가장 큰 단점)

• 두 측정형 변수 : 상관계수 0.7이상(little correlated), 0.8이상(correlated), 0.9이상(highly)

R2 = SSRSST

0 < R2 <100(%)

r2 = R2

한남대학교 권세혁교수 http://wolfpack.ac.kr / 4 12

Page 5: 1. 개념 - hnuwolfpack.hnu.ac.kr/Stat_Notes/adv_stat/LinearModel/LM... · 2020. 11. 19. · Linear Model Correlation analysis 1. 개념 •두 측정형 (적어도 순서형 범주형)

Linear Model Correlation analysis

(실습) ❑BABE.csv

베이브 루즈가 선수 시절 프로선수들의 OBA(Opponents' Batting Average), EBP(extra base

power)=OBP(on-base percentage) + SLG(slugging percentage).

(a) 산점도를 그리고 해석하시오.

(b) 상관계수를 계산하고 해석하시오.

한남대학교 권세혁교수 http://wolfpack.ac.kr / 5 12

babe<-read.csv("babe_homerun.csv") names(babe) plot(babe$oba,babe$ebp, col="blue", pch=20, main="scatter plot : OBA and EBP") #scatter plot text(babe$oba,babe$ebp,labels=babe$player, cex= 0.7) #id labels cor.test(babe$oba,babe$ebp,method="pearson") #피어슨 상관분석 abline(lm(babe$ebp~babe$oba))

선수의 파워와 정교함은 양의 상관관계 0.41(유의확률 0.04) 유의하지만 상관관계 정도는 악하다.

Page 6: 1. 개념 - hnuwolfpack.hnu.ac.kr/Stat_Notes/adv_stat/LinearModel/LM... · 2020. 11. 19. · Linear Model Correlation analysis 1. 개념 •두 측정형 (적어도 순서형 범주형)

Linear Model Correlation analysis

한남대학교 권세혁교수 http://wolfpack.ac.kr / 6 12

약한 양의 직선(상관) 관계 보임

• Babe - 영향치 & 이상치

• TED - 영향치

• 아래 선수군 - 이상치

cor.test(babe[c(-1,-2),]$oba,babe[c(-1,-2),]$ebp,method="pearson") #babe, ted 삭제

영향치 2개 삭제 - 상관계수 낮아지고 유의성 상실, 두 변수는 상관관계가 존재하지 않는다.

Page 7: 1. 개념 - hnuwolfpack.hnu.ac.kr/Stat_Notes/adv_stat/LinearModel/LM... · 2020. 11. 19. · Linear Model Correlation analysis 1. 개념 •두 측정형 (적어도 순서형 범주형)

Linear Model Correlation analysis

9. 다중회귀에서 상관분석 :

1) 종속변수에 영향을 미치는 유의한 설명변수 잠정 판단

(a) 선형모형 - 설명변수는 종속변수의 변동(총변동으로 측정, SST = )을 설명하게 된다.

(b) 설명변수의 설명력은 모형 변동으로 측정되며 SSR = 이다.

(c) 설정된 모형(설명변수가 2개 이상)이 총변동 중 설명하지 못한 변동을 SSE(오차변동)이라 한다.

파란색 원 전체= SST

(d) 종속변수와 상관관계가 높은 설명변수는 여전히 높을 것이다. 물론 영향력은 줄어들지만 X1 설명변수가 혼자서는 붉은 색만큼 종속변수 설명하지만 X2가 들어가면 중복되는 만큼 설명력이 줄어든다.

(e) 설명변수가 늘어나면서 개별 설명변수의 설명력은 낮아지므로 개별적으로 종속변수와 상관계수가 처음부터 높지 않으면 다중 회귀모형에서는 유의하지 않게 된다.

(f) 최종적으로 이상치를 제외하게 되면 설명력이 올라가기도 하므로 변수선택 시 유의수준을 20%로 하는 것이 적절, 물론 주관적이 판단에 의해 유의수준을 더 높일 수 있다. 절대 유의수준 5%에 연연하지 마라.

2) 설명변수 간 상관관계가 높아 ‘다중공성선 multicollinearity’ 발생 사전 진단

(1) 설명변수의 상관관계가 높아지면 의 행렬식 이 0에 가까워져 회귀계수 추정량( )과 추정분산( )이 불안정해 진다.

(2) 이로 인하여 추정값의 부호가 바뀌고 회귀계수의 추정량의 정도가 떨어진다.

(3) 최종적으로는 다중공선성 진단을 통하여 문제를 해결하지만 설명변수 간 상관분석을 통하여 이를 사전에 진단하고 미리 조심할 필요가 있다.

[BASEBALL 예제]

• 분석을 위하여 baseball 데이터 선수이름, 타석, 안타수, 홈런, 로그연봉만 선택

y = Xb + e N(0,σ2I )

∑ (yi − y)2

∑ (yi − yi)2

SSR(X1) SSR(X2)SSE

X′�X |X′�X |b = (X′�X )−1X′�y V( b) = (X′�X )−1MSE

library(sas7bdat) baseball<-read.sas7bdat('http://wolfpack.hnu.ac.kr/Spring2018/baseball.sas7bdat') #read sas data into R names(baseball) baseball0<-baseball[,c(1,3:5,24)]

한남대학교 권세혁교수 http://wolfpack.ac.kr / 7 12

Page 8: 1. 개념 - hnuwolfpack.hnu.ac.kr/Stat_Notes/adv_stat/LinearModel/LM... · 2020. 11. 19. · Linear Model Correlation analysis 1. 개념 •두 측정형 (적어도 순서형 범주형)

Linear Model Correlation analysis

• 상관계수 구하는 방법은 pearson 대신 spearman, kendall 사용 가능

• cor.test() 함수는 두 변수간 유의확률을 계산할 수 있다. - 2번째 변수(nAtBat)와 5번째 변수(logSalary) 두 변수의 상관계수는 0.4618287로 cor()함수의 상관계수와 동일함. (당연하지요)

• 두 변수의 상관계수 유의성은 매우 유의 - 유의확률 p-value 0에 가까움 - 타석에 많은 들어설수록 연봉은 높아짐(회귀계수의 부호 +)

변수가 3개 이상인 경우 한 번에 상관계수와 유의확률을 계산하려면 rcorr() 함수를 사용해야 한다.

이를 사용하면 관측치 상관계수는 물론 관측치 개수(n), 유의확률(p)이 출력된다.

로그연봉 변수와 상관계수가 높은 순 : nHits > nAtbat > nHome

유의성 높은 순 : 모두 0으로 되어 구별할 수 없음

cor(baseball0[,-1],use="complete.obs", method="pearson") #피어슨 상관분석 cor.test(baseball0[,2],baseball0[,5],use=“complete.obs", method="pearson") #유의확률

library(Hmisc) rcorr(as.matrix(baseball0[,-1]), type="pearson")

한남대학교 권세혁교수 http://wolfpack.ac.kr / 8 12

Page 9: 1. 개념 - hnuwolfpack.hnu.ac.kr/Stat_Notes/adv_stat/LinearModel/LM... · 2020. 11. 19. · Linear Model Correlation analysis 1. 개념 •두 측정형 (적어도 순서형 범주형)

Linear Model Correlation analysis

[다중회귀에서 설명변수 ]

(1) 결정계수 = (SSR/SST) - 설명변수가 하나인 단순회귀모형의 경우 상관계수(종속변수와 설명변수)의 제곱값임 (예) 종속변수와 타석수 상관계수 = 0.4618287 -> 제곱은 0.213 -> 21.3%

(2) 그러므로 종속변수와 상관계수 값이 가장 큰 순으로 결정계수 값이 높음

(3) 타석수와 안타수의 상관관계는 0.96으로 매우 높음 (이를 다중공선성 문제) - 이 경우 타석수에 안타수를 삽입한 회귀모형에서 (안타수) 설명변수의 역할 미미하고 (각각은 21.3%, 24.2%이나 합한 경우 24.4%이므로 0.2% 상승) 타석의 회귀계수 부호가 바뀌었다.

(4) 타석에 많이 들어서는 선수는 연봉이 줄어든다? (타석과 연봉) 상관계수는 0.46이므로 부호가 + 로 실제로는 연봉과 타석의 관계는 비례관계임 - 다중공선성 문제로 회귀계수의 추정 분산이 커져 부호까지 바뀌는 문제 발생

(5) 타석 수와 홈런은 상관관계 낮아 (두 변수가 종속변수 연봉을 설명하는 능력이 겹치는 부분 낮음) 다중공선성 문제가 발생할 가능성이 낮고 결정계수도 21.3%-> 23.3%로 2% 상승

(6) 결론적으로 상관분석을 통하여 (종속변수)에 유의할 것 같은 설명변수 사전 진단 (타석수, 안타수, 홈런) 모두 유의할 것임. 그러나 (타석 수와 안타수) 상관관계가 높아 다중공선성 문제를 일으킬 가능성 높음

aov(lm(baseball0[,5]~baseball0[,2])) aov(lm(baseball0[,5]~baseball0[,3])) aov(lm(baseball0[,5]~baseball0[,4])) aov(lm(baseball0[,5]~baseball0[,2]+baseball0[,3])) aov(lm(baseball0[,5]~baseball0[,2]+baseball0[,4]))

한남대학교 권세혁교수 http://wolfpack.ac.kr / 9 12

Page 10: 1. 개념 - hnuwolfpack.hnu.ac.kr/Stat_Notes/adv_stat/LinearModel/LM... · 2020. 11. 19. · Linear Model Correlation analysis 1. 개념 •두 측정형 (적어도 순서형 범주형)

Linear Model Correlation analysis

종속변수 (로그연봉)

설명변수 nArBat 타석수 nHits 안타수 홈런수 타석+안타 타석+홈런

SSR 모형변동 44.2 50.2 28.5 44.2+6.4 44.2+4.2

SSE 오차변동 163.0 157.0 178.6 156.6 158.8

SST 총변동 207.2 207.2 207.2 207.2 207.2

회귀계수 0.0028 0.0099 0.0374 -0.009 , 0.013 0.0023, 0.017

결정계수 21.3% 24.2% 13.8% 24.4% 23.3%

한남대학교 권세혁교수 http://wolfpack.ac.kr / 10 12

Page 11: 1. 개념 - hnuwolfpack.hnu.ac.kr/Stat_Notes/adv_stat/LinearModel/LM... · 2020. 11. 19. · Linear Model Correlation analysis 1. 개념 •두 측정형 (적어도 순서형 범주형)

Linear Model Correlation analysis

한남대학교 권세혁교수 http://wolfpack.ac.kr / 11 12

Page 12: 1. 개념 - hnuwolfpack.hnu.ac.kr/Stat_Notes/adv_stat/LinearModel/LM... · 2020. 11. 19. · Linear Model Correlation analysis 1. 개념 •두 측정형 (적어도 순서형 범주형)

Linear Model Correlation analysis

한남대학교 권세혁교수 http://wolfpack.ac.kr / 12 12