correlation analysis bivariate...
TRANSCRIPT
Bivariate AnalysisCorrelation Analysis 개념
Bivariate analysis
측정형 두 변수간의 관계 분석
Pearson 상관계수
측정형변수직선관계정도
상관관계?
두 측정형 변수의 산점도: 상호 직선적 관련성을 상관계수(Correlation Coefficient) 측정.
잠재설명(원인)변수(X’s) 상관 관계 잠재변인과 결과변수(Y)의
(1) (3)
∑ −∑ −
∑ −−=
−−==
22 )()(
))(()var()var(
))(())(()var()var(
),cov(
yyxx
yyxxYX
YEYEXEXEYX
YXrii
ii
잠재설명(원인)변수(X s) 상관 관계, 잠재변인과 결과변수(Y)의상관 관계
산점도(scatter plot)
(2)
그리기
가로축은 항상 입력 변인(X)를 나타내고, 세로축은 다른 입력요소 또는 결과(Y)를 나타냄.
각각의 점들은 짝으로 이루어진 데이터 (X,Y) 임각각의 점들은 짝 이루어진 데이터 ( , ) 임
얻는정보
In correlation: 두 변수 간 함수 관계
In regression: 이상치/영향치(옆 그림 번호 참고), 등분산성 진단
이상치(1 ) 이상치(outlier)
(2 ) 이상치+영향치
(3 ) 영향치(influential observation)
등분산성? 개체들이 직선주위로 퍼지는 정도가 fan 모양
http://wolfpack.hannam.ac.kr한남대학교 통계학과 권세혁교수
Simulation (Fall, 2007)52
Bivariate AnalysisCorrelation Analysis 가설검정
상관계수 유의성 검정
H0: ρ=0 (두 변수의상관관계존재하지않음)
비모수(nonparametric) 상관계수
관측치의 개수가 10~15개 미만이거나 관측치가 가질 수 있는0 ρ ( 상 않 )
H0: ρ= ρ0 (두 변수의상관계수가 ρ0 이다)
값의 수준이 5~10개 미만)2(~
12
2−
−−= nt
rrnT
상관계수 차이 검정
)3
1,11ln5.0(~
11ln5.0
0
0
−−+
−+
=n
NrrT
ρρ
상관계수 차이 검정
귀무가설(H0): ρx =ρy (두 모집단상관계수는동일하다.)
1l50)(
1l50)(
rr yx ++
)1,0(~)3/(1)3/(1
)()(
1ln5.0)(,
1ln5.0)(
Nnn
yzxzz
ryz
rxz
yx
y
y
x
x
−+−
−=
−=
−=
http://wolfpack.hannam.ac.kr한남대학교 통계학과 권세혁교수
Simulation (Fall, 2007)53
Bivariate AnalysisCorrelation Analysis 실습
데이터 PCS.xls
15개 notebook PC의성능평가점수(Performance)와 소
In Minitab
산점도성능평 ( )비자평가점수(Rating)를 조사한자료이다.
산점도를 그리고 해석하시오.
상관계수를 구하고 선형관계가 있는지 검정하시오. 유의수준 5%
Notebook Performance RatingAMS Tech Roadster 15CTA380 115 67Compaq Armada M700 191 78Compaq Prosignia Notebook 150 153 79Dell Inspiron 3700 C466GT 194 80Dell Inspiron 7500 R500VT 236 84Dell Latitude Cpi A366XT 184 76Enpower ENP-313 Pro 184 77Gateway Solo 9300LS 216 92Gateway Solo 9300LS 216 92HP Pavilion Notebook PC 185 83IBM ThinkPad I Series 1480 183 78Micro Express NP7400 189 77Micron TransPort NX PII-400 202 78NEC Versa SX 192 78Sceptre Soundx 5200 141 73Sony VAIO PCG-F340 187 77
http://wolfpack.hannam.ac.kr한남대학교 통계학과 권세혁교수
Simulation (Fall, 2007)54
Bivariate AnalysisCorrelation Analysis 실습2
산점도 상관계수구하기및두변수상관관계유의성검정
선형관계보임상관관계가유의하다(유의확률=0.001)
선형관계 보임
gateway Solo notebook 이상 개체로 판단
한국 Notebook 경우성능과평가상관계수가 0.7이다. 상관관계정도가서로다르다고할수있나?
양의상관관계가 높다 (r=0.78)
성능점수가높으면 소비자 평가도높다.
이상개체제거후관계정도가서로다르다고할수있나?
귀무가설: ρ=0.7
수작업에 의한 계산
R을이용하자.
이상개체제거후
)1,0(~1
11ln5.0
11ln5.0
0
0
Nrr
T −+
−−+
=ρρ
http://wolfpack.hannam.ac.kr한남대학교 통계학과 권세혁교수
Simulation (Fall, 2007)55
3n −
Bivariate AnalysisCorrelation Analysis 실습3
In SPSS
http://wolfpack.hannam.ac.kr한남대학교 통계학과 권세혁교수
Simulation (Fall, 2007)56
Bivariate AnalysisCorrelation Analysis 실습4
In R데이터불러오기
abline()추정회귀선(fitted regression line)을긋는다.
attach() 해서반드시사용데이터를가져오자.
산점도그리기
함plot() 함수xlim=c(최소, 최대), ylim=c(최소, 최대) 사용 가능
main=“그림제목”
xlab=“x-축제목”, ylab=“y-축 제목”
http://wolfpack.hannam.ac.kr한남대학교 통계학과 권세혁교수
Simulation (Fall, 2007)57
Bivariate AnalysisRegression Analysis 개념, 절차
회귀분석이란
(1)두 변수의 인과관계가 존재? Y=f(x)
회귀분석과정
(1)회귀모형 설정
y를종속변수 x를 설명변수(독립변수)라 한다.
(2)함수 관계 중 가장 간단한 직선 관계: Y=a+bX
단순 회귀(선형)모형: Y=a+bX+e (오차)
오차의 가정: 정규성 등분산성 독립성
종속변수(Y) 및 설명변수(X) 설정: (예) 성능이 소비자평가에 영향을줄 것이다. Y=소비자 평가, X=성능
데이터수집 및 입력)0(~ 2σiidNe
iii eba ++= )()( 성능소비자평가
오차의 가정: 정규성, 등분산성, 독립성
상관분석과유사 (상관계수 r과회귀계수 b의 관계)
유래
),0( σiidNet
iii ebXaY ++=
Francis Galton(1822-1911)
유전학자, 928명의 성인 자녀 키와 부모 키의 관계
부모키=(아버지키+ 어머니 키)/2
여자키는 1.08배
(yi, xi), i=1, 2, …, n(=15)
(2)산점도 그리기
Karl Pearson (1857-1936)
수학적함수(모형) 관계 설정 및 OLS 추정치 계산
Pearson 상관계수 계산식 유도
(2)산점도 그리기
직선관계존재 여부?
오차의가정, 등분산 문제
) 0.516(33.73 키아들키아버지 +=)(
Pearson 상관계수 계산식 유도
http://wolfpack.hannam.ac.kr한남대학교 통계학과 권세혁교수
Simulation (Fall, 2007)58
Bivariate AnalysisRegression Analysis 절차2
(3)회귀계수 (a, b) 추정
추정한다는 것은? 데이터에 가장 적합한 직선 도출(fitted LINE)
OLS 추정치∑ −−
= 2))((ˆ yyxxb ii xya βˆ −=
방법 OLS 추정치
(4)선형회귀모형유의성검정
Fitted line (적합선)의 유의성
설명변수가 유의하지 않다 설명하지 못한다 b
∑ −−=∑===
n
iii
ba
n
ii
babXaYeQ
1
2,1
2,
)(min)(min
ˆ∂ nQ
∑ − 2)( xxiy β
iii ebXaY ++=
설명변수가 유의하지 않다, 설명하지 못한다, b=0
모형(모형 내 변수 전체)의 유의성
귀무가설: 모형 내 모든 설명변수는 유의하지 않다
변동분할ii XbaY ˆˆˆ +=0)ˆˆ(2
0)ˆ(2
1
1
=−−−=∂∂
=−−−=∂∂
∑
∑
=
=n
iiii
iii
xyxQ
xyQ
βαβ
βαα
0...: 210 ==== pbbbH
∑ 2)(SSTO-총변동 (Total Sum of Squares, SST)
-회귀변동(Regression Sum of Squares, SSR)
-오차변동(Error Sum of Squares, SSE)
)( YY
)ˆ(ˆ iiii YYer −==
yi∑ −= 2)( yySSTO i
∑ −= 2)ˆ( ii yySSE
∑ −= 2)ˆ( ii yySSR
변동 자유도 자숭합 평균자승합 F)( YYi −
YYi −ˆ
Y
변동 자유도df
자숭합SS
평균자승합MS
F
모형 p SSR MSR=SSR/p MSR/MSE~F(1,n-1)
오차 n-p-1 SSE MSE=SSE/(n-p-1)
2
개별 설명변수
귀무가설:
x
0:0 =kbHX
총변동 n-1 R2(결정계수)=SSR/SST
rSxxSyyb =ˆ
2Rr ±=
)2(~)ˆ(
ˆ−
− nts β
ββSMSEs =)ˆ(β
http://wolfpack.hannam.ac.kr한남대학교 통계학과 권세혁교수
Simulation (Fall, 2007)59
xi Sxx
)()()( ,)( 22
yyxxSxyyySyyxxSxx
ii
ii−∑ −=
∑ −=∑ −=
)(s β xxS
Bivariate AnalysisRegression Analysis 절차3 / 예제
(5)회귀진단 (skip here)
오차의 추정치 잔차(residual) 활용
In R
(1)데이터읽기)ˆ(ˆ iiii YYer −==
방법: (표준화)잔차(y-축)와 예측치(x-축) 산점도
선형성
오차가정 3가지: 정규성, 등분산성, 독립성
이상치, 영향치 진단
( )
이상치, 영향치 진단
당분간은 산점도에서 이상치, 영향치 진단하여 미리 제외하자.
데이터 PCS.xls (계속)
15개 notebook PC의성능평가점수(Performance)와 소비자평가점수(Rating)를 조사한자료이다.
모형설정
산점도 (done already)
(2)산점도그리기 (이전 슬라이드참고)
직선의 경향이 보인다.iii eba ++= )()( 성능소비자평가
산점도 (done already)
회귀계수 추정
회귀모형 유의성 검정
F-검정
검정
직선의 경향이 보인다.
이상치 존재하는 것 같다.
t-검정
회귀진단 및 잔차진단 (optional)
http://wolfpack.hannam.ac.kr한남대학교 통계학과 권세혁교수
Simulation (Fall, 2007)60
Bivariate AnalysisRegression Analysis 예제 결과
(3-4) 회귀계수 추정 및 모형 유의성 진단 lm() 함수
선형모형(linear model) 결과 reg1에 저장됨선형 형( ) 결과 g 에 저장됨
names() 함수
reg1 데이터에 저장된변수가 표현
summary() 함수
선형모형 결과에 대한표현
설명변수 Performance 유의성
모형의유의성과 동일
회귀계수 b에 대한 유의성
t-값=4.491, F값=20.169 (t2=F)
유의확률은 서로 동일하다. 유의하다.
결정계수=0.6081결정계수 0.6081
설명변수가 종속변수 변동 60.1% 설명
Sqrt는상관계수와 동일, 부호> 기울기 b의부호
MSE: 오차추정치 s=sqrt(MSE)=30523
최종모형최종모형
성능이 높을수록 소비자 평가 높아진다.
성능 1점높아지면 소비자 평가 0.145 점 증가한다.
)(145.08.51)( 성능소비자평가 +=
http://wolfpack.hannam.ac.kr한남대학교 통계학과 권세혁교수
Simulation (Fall, 2007)61
Bivariate AnalysisRegression Analysis 예제 결과 / 실습
(5)회귀진단 및 잔차진단 (optional here) 8번째 개체가 이상 관측치이다.
영향치는 없다 (Cook’s distance 참고)
Residuals: 잔차 (Ri), fiited.values: 예측치 이상치 8번의 Rating 값을 제외하고 (NA) 재분석 (영향치 1번도제외하는것을 권함)iY
진단에필요한 4개의그림이 동시에 그려지다. 4번째 그려지는 그래프만이용하면 된다.
데이터 CEO2.XLS
회사자본(단위 백만불)이많을수록 CEO 연봉(단위천불)이회사자본(단위: 백만불)이많을수록 CEO 연봉(단위:천불)이많을것이라는생각에조사한자료이다.
(1)산점도 (2)회귀계수 추정 및 회귀모형 유의성 진단
(3)결과 해석 (4)잔차진단(optional)
http://wolfpack.hannam.ac.kr한남대학교 통계학과 권세혁교수
Simulation (Fall, 2007)62
Bivariate AnalysisRegression Analysis In Minitab
메뉴선택
그래프 설정에서 잔차진단을 위한 표준화 잔차와 적합치 산점도
http://wolfpack.hannam.ac.kr한남대학교 통계학과 권세혁교수
Simulation (Fall, 2007)63