단순선형회귀분석예제
TRANSCRIPT
단순선형회귀분석예제
• 다음은 책의 페이지 수와 가격의 자료이다 .
Pages Prices
637 27
336 15
336 14
430 15
164 9.5
533 20
529 22
509 20
419 16
596 24
Pages Prices
496 20
673 25
562 24
229 10
316 13
217 8
296 12
115 7
257 11
649 22
자료 가져오기> bnp <- read.csv("bookNprice.csv", header=T)> bnp Pages Prices1 637 27.02 336 15.03 336 14.0…18 115 7.019 257 11.020 649 22.0> attach(bnp)
Plot> plot(Pages, Prices)
회귀계수의 추정 - 최소제곱법> lms <- lm(Prices ~ Pages)> lms
Call:lm(formula = Prices ~ Pages)
Coefficients:(Intercept) Pages 2.19108 0.03503
절편ß0
기울기ß1
회귀계수로부터의 회귀직선> plot(Pages, Prices)> abline(lms$coef)
= 2.19108 + 0.03503
회귀의 적합도• 회귀식이 얼마나 타당한가 조사 –추정의 표준오차 = – R2 = =
회귀의 분산분석
> summary(aov(lms)) Df Sum Sq Mean Sq F value Pr(>F) Pages 1 681.78 681.78 332.09 4.769e-13 ***Residuals 18 36.95 2.05 ---Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘
오차
회귀 ( 모형 )
: ß1 = 0
회귀분석에서의 추론• 오차항 () : 서로 독립 , ) 이라는 가정• 기울기 (ß1) 에 관한 추론– : ß1 = 0
– 설명변수가 반응변수를 유의적으로 설명하는지 여부• 절편 (ß0) 에 관한 추론– : ß0 = 0
– 회귀직선이 원점을 지나는지의 여부
> summary(lms)
Call:lm(formula = Prices ~ Pages)
Residuals: Min 1Q Median 3Q Max -2.9228 -0.7875 -0.1059 0.9603 2.4975
Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 2.191079 0.859491 2.549 0.0201 * Pages 0.035026 0.001922 18.223 4.77e-13 ***---Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 1.433 on 18 degrees of freedomMultiple R-squared: 0.9486, Adjusted R-squared: 0.9457 F-statistic: 332.1 on 1 and 18 DF, p-value: 4.769e-13
절편ß0
기울기ß1
잔차 분석• 앞선 과정은 오차항의 몇가지 가정으로부터
출발• 가정–오차항의 평균 : 0–오차항의 분산은 : 으로 동일–오차항은 서로 독립–오차항은 정규분포를 따른다–설명변수는 확률 변수가 아니다 .
• 적합값 : fitted
• 잔차 : resid
> fitted(lms) 1 2 3 4 5 6 7 24.502460 13.959720 13.959720 17.252137 7.935296 20.859786 20.719683 8 9 10 11 12 13 14 20.019169 16.866854 23.066406 19.563834 25.763386 21.875532 10.211968 15 16 17 18 19 20 13.259205 9.791659 12.558691 6.219036 11.192688 24.922769
> resid(lms) 1 2 3 4 5 6 2.49753964 1.04028032 0.04028032 -2.25213703 1.56470357 -0.85978584 7 8 9 10 11 12 1.28031703 -0.01916864 -0.86685415 0.93359402 0.43616567 -0.76338616 13 14 15 16 17 18 2.12446838 -0.21196800 -0.25920535 -1.79165941 -0.55869101 0.78096368 19 20 -0.19268807 -2.92276896
> plot(fitted(lms), resid(lms))
0 주변으로 몰려있어야 한다 .
> qqnorm(resid(lms), ylim=c(-3, 3), xlim=c(-3, 3))
대각선 주변으로 몰려있어야 한다 .