correlation analysiscontents.kocw.or.kr/document/09_correlation analysis.pdf · 2011-12-27 ·...

Post on 11-Mar-2020

0 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

09th Week

Correlation Analysis

상관 관계 분석

Jongseok Lee

Business Administration

Hallym University

H1 : X ~ Y H0 : X ㅗ Y

변수 형태와 통계적 분석방법

X

Categorical

X

Numerical

Y

Categorical

Y

Numerical

Y

Numerical

X

Categorical One-way ANOVA

Chi-square Test

Correlation Analysis

49.0 kg 1.284 g/cm2

X

Body Weight ~ Y

Bone Mineral Density

Numerical

1.284 g/cm2

BMD, bond mineral density

49.0 kg 1.284 g/cm2

X

Body Weight

Y

Bone Mineral Density ~

Weight and BMD

Is BMD associated with body weight ?

Act 1

Scatter Plot : Relationship between Weight and BMD

X

Weight

Y

BMD

(112, 1.591)

가설: 귀무가설과 대립가설

연구가설 / 대립가설

Alternative Hypothesis

영가설 / 귀무가설

Null Hypothesis X : Weight

H1 : X ~ Y

체중(X)은 골밀도(Y)와

관련이 있다.

H0 : X ㅗ Y

체중(X)은 골밀도(Y)와

관련이 없다 → 독립이다.

체중에 따른

골밀도에 차이가 있다.

체중에 따른

골밀도에 차이가 없다.

Y : BMD

49.0 kg 1.284 g/cm2

X

Body Weight

Y

Bone Mineral Density ~

Is BMD associated with body weight ?

Numerical Numerical

49.0 kg 1.284 g/cm2

X

Body Weight

Y

Bone Mineral Density ~

Population Correlation Coefficient

Numerical Numerical

Correlation Coefficient

rxy ≤ +1 -1 ≤

rxy

+1 -1

0

가설의 설정

연구가설 / 대립가설

Alternative Hypothesis

영가설 / 귀무가설

Null Hypothesis X : Weight

H1 : X ~ Y

체중(X)은 골밀도(Y)와

관련이 있다.

H0 : X ㅗ Y

체중(X)은 골밀도(Y)와

관련이 없다 → 독립이다.

체중에 따른

골밀도에 차이가 있다.

체중에 따른

골밀도에 차이가 없다.

Y : BMD

rxy = 0 rxy ≠ 0

일부분

전체 모두

표본 Sample

모집단 Population

rxy

rxy

Sample Correlation Coefficient

1. 상관관계분석은 두 변수가

(1) 선형관계를 갖는지,

(2) 선형관계를 갖는다면 어느 방향인지 (+인지 아니면 –인지), 그리고

(3) 그 관계가 얼마나 강한지를 파악하기 위한 것

2. 표본상관계수 r 은 모상관계수 r (rho)의 추정치(estimate)

3. 표본상관계수의 범위는 항상 -1 ≤ r ≤ +1 임

(1) +1에 가까우면 두 변수 사이에 강한 양의 관계가 있음을 의미

(2) -1에 가까우면 두 변수 사이에 강한 음의 관계가 있음을 의미

(3) 0에 가까우면 가까울수록 두 변수 사이에 선형관계가 없음을 의미

4. 곡선관계는 매우 다양할 수 있으므로 상관관계분석에서는 선형관계에만 초점

Linear Relationship

직관적 이해

X : Weight

H1 : X ~ Y

체중(X)은 골밀도(Y)와

관련이 있다.

H0 : X ㅗ Y

체중(X)은 골밀도(Y)와

관련이 없다 → 독립이다.

Y : BMD

H1 : rxy ≠ 0 H0 : rxy = 0

rxy +1 -1

0

직관: (1) rXY가 0에 가까울수록 독립이라는 증거!

(2) rXY가 +1 또는 -1에 가까울수록 관련이 있다는 증거!

귀무가설 기각 p-value ?

SPSS를 이용한 상관 관계 분석

Pearson 상관관계 분석결과

상관계수는 방향성를 갖지 않는다.

즉 x와 y의 상관계수는 y와 x의 상관계수와 같다.

Act 2

Table. Descriptive Statistics

Table. Mean Comparisons of Each Variable according to

L-spine BMD Status

Table. Bivariate Correlations between Variables

Relationship between Age and BMD

Normal

Osteopenia

Osteoporosis

체중 골밀도

나이

체중 골밀도

나이

통제 Control

혼동효과 confounding effect

SPSS를 이용한 편상관 관계 분석

편상관관계 분석결과

49.0 kg 1.284 g/cm2

X

Body Weight

Y

Bone Mineral Density ~

Partial Correlation

1. Sample Correlation Coefficient

rxy = + 0.248*** ( p = .000, n = 2,106 )

2. Sample Partial Correlation Coefficient

rxyㅣ z = + 0.326 ( p = .000, n = 2,106 )

where z = Age

체중 골밀도

골량

체중 골밀도

골량

통제 Control

혼동효과 confounding effect

49.0 kg 1.284 g/cm2

X

Body Weight

Y

Bone Mineral Density ~

Is BMD associated with body weight ?

BMD is associated with body weight, really ?

1. Sample Correlation Coefficient

rxy = + 0.271*** ( p = .000, n = 547 )

2. Sample Partial Correlation Coefficient

rxyㅣ z = + 0.050 ( p = .242, n = 547 )

where z = bone mineral content

Act 3

변수의 척도

모상관계수에 대한 t 검정을 위한 필요조건은 두 변수가 ‘이변량 정규분포’를 따라야

한다는 것이다. 그러나 두 변수 중 하나라도 ‘서열척도’인 경우 이러한 조건을 만족시

키지 못하며, 등갂 이상인 경우도 이러한 조건을 만족시키지 못할 수 있다.

Question

그러면 두 변수가 이변량 정규분포를 따르지 않는다면 어떻게 해야 하는가?

또는 두 변수 중 하나라도 서열척도라면 어떻게 해야 하는가?

☞ 비모수적 통계방법인 Kendall's Tau-b 혹은 Spearman Correlation을 사용!

yx

xy

r

N

)y)(x(

N

i

yixi

xy

1

모상관계수 Population Correlation Coefficient

where

모공분산(population covariance)

표본상관계수 Sample Correlation Coefficient

yx

xy

ss

sr

1

1

n

)yy)(xx(

s

n

i

ii

xy

where

표본공분산(sample covariance)

표본상관계수 Sample Correlation Coefficient

1

1

n

)yy)(xx(

s

n

i

ii

xy

yx

xy

ss

sr where

In Excel, use =COVAR(array1,array2)*n/(n-1)

표본공분산 sample covariance

150

180

210

240

270

300

100 120 140 160 180 200

PreTxBP

Pre

Tx

ch

152.45

249.35

공분산과 상관계수의 이해

공분산의 이해

• Data Set 1에서 x 가 증가함에 따라 y 도 증가

• x 가 평균보다 작을 때는 y 도 평균보다 작거나 같음 ( x1 =2, y1 = 13 )

x 가 평균보다 클 때는 y 도 평균보다 크거나 같음 ( x2 = 6, y2 = 20) ( x3 = 7, y3 = 27 )

• 따라서 (xi – x)와 (yi – y)는 같은 부호 또는 0의 값을 가짐

즉 (xi – x)(yi – y)는 양(+)의 값 또는 0이 됨

• 일반적으로 두 변수가 같은 방향으로 움직일 때, 공분산은 큰 양수가 됨 ( sxy = 17.5 )

공분산의 이해

• Data Set 2에서 x 가 증가함에 따라 y 는 감소

• x 가 평균보다 작을 때는 y 도 평균보다 크거나 같음 ( x1 =2, y1 = 27 )

x 가 평균보다 클 때는 y 도 평균보다 작거나 같음 ( x2 = 6, y2 = 20) ( x3 = 7, y3 = 13 )

• 따라서 (xi – x)와 (yi – y)는 다른 부호 또는 0의 값을 가짐

즉 (xi – x)(yi – y)는 음(-)의 값 또는 0이 됨

• 일반적으로 두 변수가 반대 방향으로 움직일 때, 공분산은 큰 음수 값을 가짐 ( sxy = -17.5 )

공분산의 이해

• Data Set 3에서 x 가 증가함에 따라 y 는 어느 특정한 방향으로 움직임을 보이지 않음

• 따라서 (xi – x)(yi – y)는 양(+)의 값, 0, 음(-)의 값 모두가 가능

• 일반적으로 두 변수가 특별한 패턴 없이 움직일 때, 공분산은 작은 값을 가짐 ( sxy = -3.5 )

공분산의 이해

• 공분산의 부호는 두 변수의 관계가 가지는 특성을 의미

(1) 공분산 값이 양(+)의 값이면, 두 변수는 양의 선형관계가 있음

(2) 공분산 값이 음(-)의 값이면, 두 변수는 음의 선형관계가 있음

• 하지만 두 변수의 관계의 강도는 표현하지 못함

즉 ‘값이 크다고 해서 관계의 강도가 크다’고 말할 수 없음

상관계수의 이해

• 상관계수는 두 변수의 선형관계의 강도를 표현하기 위한 것

• 공분산을 각 변수의 표준편차의 곱으로 나눔으로써 -1과 +1 사이의 값으로 표현

• 상이한 자료들의 선형관계의 강도에 대한 비교가 가능

상관계수의 특징

1. 상관계수가 공분산에 대해 갖는 장점은 표준화되었다는 것이다. 즉

(1) 표본상관계수 r 은 항상 -1≤r≤+1의 범위에 있다.

(2) r = +1 이면, 두 변수는 완젂한 양의 선형관계이다.

(3) r = -1 이면, 두 변수는 완젂한 음의 선형관계이다.

(4) r = 0 이면, 두 변수 갂에는 선형관계가 졲재하지 않는다.

2. 상관계수는 단위를 갖지 않는다. 따라서 측정단위와 독립적으로 정의된다.

즉 하나의 변수가 취하는 모듞 값에 상수를 더하거나 빼거나

양의 상수를 곱하거나 나누는 변환을 해도 상관계수는 변하지 않는다.

3. 상관계수는 방향성를 갖지 않는다.

즉 x와 y의 상관계수는 y와 x의 상관계수와 같다.

Quiz y=3x 이고 z=5x의 관계가 있다. rxy와 rxz 중 어느 것이 더 크겠는가?

상관계수의 의미

☞ 상관계수가 산포도 상에서 젂체적으로 하나의 선 주위에 밀집해 있는지를 의미

모듞 점들의 87.7%가 선 위에 있다는 것을 의미하지는 않음

상관계수가 0.8이라는 것이 0.4보다 두 배 선형관계가 강하다는 것을 의미하지 않음

150

180

210

240

270

300

100 120 140 160 180 200

PreTxBP

Pre

Tx

ch

그러면 두 변수의 상관계수가 +0.877라는 것은 무엇을 의미하는가?

(1) 두 변수가 양의 선형관계가 있다.

(2) 0.8보다 크므로 ‘매우 강한 양’의 선형관계가 있다. 그러면 그 수치의 의미는?

상관계수 r을 제곱한 값을 결정계수(coefficient of determination)이라고

하고 두 변수가 공유하는 분산의 비율을 말한다. 여기서는 r² = 0.769가 된

다. 즉, 혈압수치는 cholesterol 수치의 77%를 설명하고 있고, 23%는 다른

인자에 의해 설명된다고 할 수 있다. 물론 cholesterol 수치가 혈압수치의

77%를 설명하고 있다고 해도 된다.

결정계수

Coefficient of Determination, R2

결정계수는 ‘상관계수의 제곱값, r2’으로서 다음과 같은 정보를 제공한다.

(1) 두 변수가 공유하는 분산의 비율로서

(2) 하나의 변수의 변동이 다른 변수의 변동에 의하여 설명되는 정도를 의미한다.

표본크기의 역할

The Role of Sample Size

• 표본크기가 크면 당연히 모상관계수의 실제값에 대한 좋은 추정치를 획득함

따라서 표본이 매우 큰 경우, 상관계수가 작더라도 유의하게 될 가능성이 높음

This makes it easier for smaller values of the sample correlation coefficient to

be considered significant.

• 이와 관련해서 혼돆하지 말아야 할 것은

(1) 표본크기로 인해 유의성이 졲재한다는 것이 강한 상관관계를 의미하는 것은 아님

(2) 유의성의 증가가 변수관계의 중요성을 의미하는 것은 아님

A larger sample does not mean that the correlation is stronger nor

does its significance imply importance.

상관관계 vs. 인과관계

두 변수, X와 Y 사이에 상관관계가 있다는 것이 반드시 그들 사이에 직접적인 인

과관계가 있다는 것을 의미하지 않는다. 두 변수 사이에 인과관계가 졲재하기 위

해서는 다음 세 가지 조건을 만족하여야 한다.

X → Y

① 변수 X가 변수 Y보다 시갂적으로 먼저 졲재해야 한다.

② 두 변수, X와 Y는 공변량(covariates)이어야 한다. 즉 상관관계가 있어야 한다.

③ 두 변수, X와 Y에 다 같이 원인이 되는 허구변수(spurious variable)가 없어야

한다. 즉 허구변수를 통제하여도 변수 X와 Y 사이의 상관관계가 졲재하여야 한

다.

따라서 변수 X와 Y 사이의 상관관계가 있다는 것은 인과관계의 필요조건이지 충

분조건은 되지 못한다. 특히 ③번 조건인 허구변수를 밝히는데 젂술한 편상관계

수가 사용될 수 있다.

top related