probability and statistics for...

19
Probability and Statistics for Environmental Engineers 부산가톨릭대학교 환경공학과 2학년

Upload: others

Post on 03-Feb-2020

10 views

Category:

Documents


0 download

TRANSCRIPT

Probability and Statistics for Environmental Engineers

부산가톨릭대학교 환경공학과 2학년

환경통계학 10. 상관분석

Introduction 상관분석 : 한 변수가 다른 변수와 함께 어떠한 양상으로 변화하는가를 보고자 할 때

예) 지의류인 Evernia prunastri의 도심지 근교에서의 엽상체 크기 측정 도시의 대기오염이 지의류의 성장에 영향을 미치는가를 보고자 할 때 도시 중심에서 외곽으로 거리가 멀어질수록 엽상체 크기가 큰 지의류 발견 Fig. 11.1 ) x축 – 거리, y축 – 엽상체 크기 측정 결과를 볼 때, 거리가 가까워질수록 성장 저해를 받는 것으로 추측됨 그래프화 해 볼 때, 이상치(outlier, wildshot)도 발견할 수 있음

Evernia가 대기중의 이산화황 농도에 민감하다는 연구결과를 내려면???

상관분석으로 두 변수의 변동 경향을 볼 수 있으나 “민감하다” 또는 “영향을 받는다”라는 두 변수 사이의 관계를 밝혀낼 수는 없음

상관계수가 어떻게 변하는가.. -1 ~ +1사이의 값을 가짐 Fig. 11.2(a) 거의 ‘perfect’인 관계를 보이며, 상관계수는 1에 가깝겠음 Fig. 11.2(b) : 상관계수는 1보다 많이 작을 것이나, (a), (b) 모두 양의 상관계수를 가질 것은 분명함.

Fig. 11.2(c) : 한 변수가 증가할때 다른 변수는 감소하는 경향, 음의 상관계수

상관계수 “r “

Covariance 두 변수가 존재하고 변수간의 퍼짐의 정도를 의미

분산 : 각 데이터가 평균에서 얼마나 멀어져 있는가를 “(편차의 제곱의 합)/자유도”로 표현

공분산 : 두 변수의 쌍(x,y)가 얼마나 두 변수의 평균점(bar x, bar y)에서 멀어져 있는가를 각 “차이의 합/자유도”로 표현

Fig(11.3) (여기서, 분모에 n-1이 들어가는것은 이 집단을 모집단으로 간주한다는 뜻임)

x의 분산

x,y의 공분산

11.1 Product-moment correlation 양의 상관이 있을 때- 공분산은 양의 값 규칙성이 없을 때(상관이 없는 관계) – 공분산은 0에 가까운 값 음의 상관이 있을 때 – 공분산은 음의 값

공분산의 정의 식에서도 알 수 있듯이 데이터의 단위에 영향을 받으므로, 단위가 다른 두 개의 데이터 사이에서는 공분산의 값을 비교할 수 없음

이 결점을 보완하는 지표가 상관계수( r, Pearson’s r) 두 변량 x, y의 상관계수는 rxy로 표기하고 다음과 같이 정의함(Box 11.1)

x, y의 공분산을 각각의 표준편차로 나눈 값 (-1이상 1이하)

1에 가까울수록 양의 상관이 강하고

-1에 가까울수록 음의 상관이 강하다. 0에 가까울수록 상관이 없다

데이터가 표준화되어 있을 경우 상관계수는 공분산과 일치한다

(표준화된 데이터에서는 평균은 0, 분산은 1이 되기 때문)

참고) 데이터 표준화 데이터 표준화 z

z의 평균은 0, 분산은 1이 된다 z가 양수라면 그 값은 평균보다도 크고, 음수라면 표준보다 작다 z의 크기가 1보다 크면 평균으로부터 크게 떨어져 있다

Introduction 하나의 변수와 또 다른 하나의 변수의 관계를 간략한 수학적 식으로 표현

때때로 간단한 Prediction, Estimation에 유용하게 쓰임. 일련의 측정 간격을 가지는 모든 실험에서 측정 간격 사이의 값이 궁금할때

예) 해수 내 살충제의 농도

일정 농도를 정하고 해수에 투입한 후 일정 간격의 시간으로 샘플링을 수행한다 실험중의 온도, 염도, pH 등의 인자들을 가능한 한 일정하게 유지해야 함

실험환경을 엄격히 control 해 주어야 하는 경우 하나의 변수(예:시간)의 영향만 보고자 하는 실험 Model 1 Regression analysis를 사용

Variables “x” variable ===> independent variable, 독립변수

높은 정확도를 가지고, 최소한의 에러로 측정되어야 함

“y” variable ===> dependent variable, 종속변수

측정 에러는 정규분포를 따라야 함

Model 1 regression analysis : 종속변수의 변화를 실험으로 측정함에 있어 계획된 독립변수의 변화에 따라 관찰된 경우

Model 2 regression analysis : 종속변수와 독립변수가 랜덤한 측정값을 가지는 경우 변수의 “control”이 힘든 현장연구의 경우 적합

12.1 The straight line equation 12.2 The least squares line for a model 1 regression y=a+bx 모든 점이 일직선상에 존재하는 경우는 극히 드물다 “Best fit”을 만들어내는 수식을 찾는 방법 최소자승법

“least squares method”

그림 12.3(b)의 “d”의 제곱의 합이 최소가 되는 라인을 찾는 것

절편 a를 찾기 위해, x의 평균과 y의 평균을 사용(regression line상에 존재)

Box 12.1 Model 1 Regression line calculation

12.3 Significance of model 1 regression coefficient 아무리 잘 control 한 상태에서 실험을 수행한다고 해도 변수 각각에 대한 error는 존재한다 특히, 종속변수의 error는 회귀식의 변수들(a,b)의 값을 변화시키는 결과를 낳음 Error 때문에 독립변수와 종속변수 간의 “관계가 없다”고 오판하는 경우도 존재함

가설) 종속변수의 모집단과 독립변수 간의 regression을 수행하였을 때의 기울기, β

H0 : β=0

H1 : β≠0

이를 t-test 혹은 분산분석을 통해 검정 하거나 분석

12.3.1 t-test of the regression 아무리 잘 control 한 상태에서 실험을 수행한다고 해도 변수 각각에 대한 error는 존재한다 특히, 종속변수의 error는 회귀식의 변수들(a,b)의 값을 변화시키는 결과를 낳음 Error 때문에 독립변수와 종속변수 간의 “관계가 없다”고 오판하는 경우도 존재함

가설) 종속변수의 모집단과 독립변수 간의 regression을 수행하였을 때의 기울기, β

H0 : β=0

H1 : β≠0

이를 t-test 혹은 분산분석을 통해 검정 하거나 분석

12.3.1 t-test of the regression Step 1) Residual variance Syx2 계산(error term, S2error ) Step 2) standard deviation of the slope (Sb) 계산 Step 3) t=b/Sb 계산 후 검정 수행

기울기 b의 신뢰구간 (Confidence interval of b) b ± t0.05,3 *Sb

Box 12.2) 1.859 ± 3.182*0.403 = 1.859 ± 1.283 3.141 ~ 0.576

SSy SSx

Sum of products

12.5 Model 1 regression and the analysis of variance SStotal = SSregression + SSe

SSregression = the sum of squares for regression

SSerror = “residual unexplained sum of squared deviations)

SSe = SStotal –Ssregression

SStotal = total sum of squared deviations for y

ANOVA table

= (Sum of products)2

SSx

Source of variation

df SS MS F

Regression 1 25.23 25.23 21.2 (by Table VIII, df 1 and 3)

Error 3 (n-2) 3.563 1.188

Total 4 (n-1) 28.79

12.6 Coefficient of determination 12.7 Origin forcing 결정계수(Coefficient of determination) = r2 상관계수의 제곱과 같음

실험의 특성상 독립변수와 종속변수의 관계가 (0,0) 원점을 지난다는 사실을 알고 있는 경우, y=bx

2/b xy x=∑ ∑

12.8 The prediction interval and confidence interval for estimations of y 회귀직선을 사용하여 측정 간격 사이의 값을 유추하고자 할 때, 그 값은 어떤 범위를 가지면서 유의하게 분포할 것인가

bank vole의 신장 내 카드뮴의 농도에 대해 y=-0.644+1.859x 에서 5개월 월령의 bank vole의 신장 내 카드뮴 농도는 8.651로 계산되어 추정됨 더 많은 data 혹은 전수조사가 행해진다면 다른 b 가 얻어질 수 있으며, 이는 곧 다른 수치가 추정값으로 제시될 수 있음을 의미함

그렇다면, y 변수 내에 존재하는 에러의 규모를 가늠할 무언가가 필요하다…

12.8 The prediction interval and confidence interval for estimations of y Confidence interval

개개의 y 값이 가지는 95% 신뢰구간의 범위

Prediction interval

모든 y 값의 평균이 가지는 95% 신뢰구간의 범위

Box 12.4

22 ( )1ˆ { [1 ]}iyx

x

x xy t Sn SS

−± + +

어떤 x에 대해 회귀직선에 의해 계산된 y 값

12.10 Model 1 regression for cases where there are several y values for each x value 앞서의 예에선 1개의 월령에 1개의 측정 데이터가 존재하였음

하나의 x (독립변수)의 조건에 여러 개의 측정값이 존재할 경우는?

회귀직선의 a, b 는 앞에서 설명한 것과 동일한 방법으로 구함 회귀 통계량은 ANOVA의 원리에 의해 구함

22 ( )1ˆ { [ ] }iyx within

x

x xy t S MSn SS

−± + +

어떤 x에 대해 회귀직선에 의해 계산된 y 값

2 2[( / ) ( ) / ]within total i iSS SS y n y n= − −∑ ∑

12.11 Model 2 regression Fig. 12.4 (127 page) (b)

이러한 경우 x 축의 변수와 y 축의 변수를 독립변수와 종속변수로 구분하는 것이 의미없을 수도 있음

Model 1 regression에서는 독립변수의 측정이 최소한의 에러를 가지고 수행된다는 것을 전재하였음 (Fig. 12.4 (a))

현장 실험에 의한 데이터는 독립변수의 측정 또한 에러를 가진다는 점

이럴 경우, x and y 보다는 x1 and x2 로 표현하는 것이 적합함

1 2' /x xb s s=