10.단일표본 평균 모비율

단일 표본에서의 평균비교와 모비율검정

단일 표본의 평균비교

• 기본가정 : 모집단의 분포는 정규분포 – 표본의 정규성 검정

– R에서의 검정 방법 : Shapiro-Wilk normality test • 영가설 : 표본의 분포는 정규분포이다.

• 대안가설 : 표본의 분포는 정규분포가 아니다.

– 예제) R의 내장 자료인 mtcars는 1974년 미국의 Motor Trend 잡지로부터 32개의 자동차 모델의 연비 및 특성을 추출한 자료로 이들 중 수동미션을 채용한 (am==1) 13개의 자동차의 연비는 정규분포를 이루고 있는지 검정해보자.

한림대학교 이윤환(http://fb.com/yoonani72)

단일표본의 평균비교

– 유의수준을 0.05로 할 때 p-value가 0.5363으로, 표본의 분포가 정규분포를 따른다는 영가설을 채택할 수 있으며, 이를 바탕으로 정규모집단에서 추출한 표본으로 판단한다. • 만족하지 못할 경우 비모수 방법을 통한 검정 실시


> shapiro.test(mtcars$mpg[mtcars$am==1 ]) Shapiro-Wilk normality test data: mtcars$mpg[mtcars$am == 1] W = 0.9458, p-value = 0.5363

단일 표본의 평균비교

• 대표본이고 모집단의 분산을 알 경우 – 표준정규분포를 이용한 z-test 실시

• 대표본이고 모집단의 분산을 모를 경우 – 표본의 개수가 증가(자유도 증가)할 경우 t-분포가 정

규분포에 근사

– 모표준편차의 추정량인 표본표준편차를 이용한 z-test 실시

• 소표본이고 모집단의 분산을 모를 경우 – t-분포를 이용한 t-test 실시


단일 표본 t-test

• 1973년부터 1974년까지 미국에서 생산된 자동차들의 평균 연비는 갤런당 20마일(20mpg)로 알려져 있다. 수동미션 차량들이 자동미션 차량보다 연비가 좋다는 것을 밝히기 위해 수동 미션 차량들의 연비는 20mpg보다 크다고 할 수 있는지 유의수준 0.05에서 검정하시오. – 표본의 개수는 한 개 : 갤런당 마일(mpg)

– 모집단의 분산을 알지 못함

– 대표본으로 보기 힘듦 (13개의 표본)

– 단일 표본 t-test 실시


단일 표본 t-test

• 가설 수립 – 영가설 : μ = 20𝑚𝑝𝑔

– 대안가설 : μ > 20𝑚𝑝𝑔

• 분석을 위한 R 함수 – t.test(x, mu=𝐻0,

alternative=(“less”|”greater”|”two.sided”)) • X : 분석에 사용할 데이터

• mu : 영가설하에서의 모평균

• alternative : 대안가설에 따라 “less”, “greater”, “two.sided” 중에 하나 입력 (생략시 “two.sided”)


단일표본 t-test


> t.test(mtcars$mpg[mtcars$am==1 ], mu=20, alternative="greater") One Sample t-test data: mtcars$mpg[mtcars$am == 1] t = 2.5682, df = 12, p-value = 0.01231 alternative hypothesis: true mean is greater than 20 95 percent confidence interval: 21.3441 Inf sample estimates: mean of x 24.39231

두 표본의 평균 비교

• 짝을 이룬 두 표본(대응표본)의 검정 – 어떤 처치의 효과를 입증하기 위해 해당 하는 처치를 하기

전의 관찰값을 구하고 동일한 표본으로 부터 처치를 시행한 후 관찰값을 구한 후 둘 사이의 차이가 있는지를 알고 싶다. • Ex) 병원 등에서 치료 전과 치료 후 치료의 효과가 있는지를 알

고 싶은 경우

– 둘 사이에 차이가 없는 경우는 다음과 같이 될 것이다. • “치료전 관찰값 – 치료후 관찰값”의 평균은 0

즉, 𝜇치료전−치료후 = 0

– “치료전 관찰값 – 치료후 관찰값” 이 0이면 차이가 없는 것이고 그렇지 않다면 차이가 있는 것으로 보는 검정 방법



– 가정

• “치료전 관찰값 – 치료후 관찰값”의 분포는 정규분포를 따라야 한다.

– 예제) 새로 시판되는 한 다이어트 약의 효과를 알아보기 위하여 성인 남녀 7명의 체중을 다이어트약 복용전에 측정하고, 다이어트 약의 복용방법에 따라 1개월 간 복용한 다음, 다시 그들의 체중을 측정한 결과가 다음의 표와 같다. 이 자료로부터 다이어트 약에 효과가 있는지를 유의수준 0.05에서 검정하라. (노맹석 외, 기초통계학 – R을 이용한 통계분석, 자유아카데미, 2011년, P268)


복용전 59 72 85 69 78 82 55

복용후 54 65 84 63 72 83 51


– Step 1) 데이터 입력

– Step 2) 두 집단의 순서쌍 별로 차이를 구한다.


> pre <- c(59, 72, 85, 69, 78, 82, 55) > post <- c(54, 65, 84, 63, 72, 83, 51)

> diff <- pre - post > diff [1] 5 7 1 6 6 -1 4

복용전 59 72 85 69 78 82 55

복용후 54 65 84 63 72 83 51

복용전-복용후 5 7 1 6 6 -1 4


– Step 3, 가설검정) 값의 차이에 대해 평균이 0인지 검정한다. 다이어트 약의 효과가 있다면 사전 몸무게가 다이어트 약 복용후 몸무게보다 많이 나갈 것이고 이로 인핸 값의 차이는 양수로 나타나야 할 것이므로 다음과 같이 가설을 수립한다. • 영가설 : 다이어트 약의 효과가 없다,

𝜇치료전−치료후 = 0

• 대안가설 : 다이어트 약의 효과가 있다, 𝜇치료전−치료후 > 0



– Step 4) 검정통계량(유의확률)을 구하기 위한 R 사용과 판정


> t.test(diff, mu=0, alternative="greater") One Sample t-test data: diff t = 3.5949, df = 6, p-value = 0.005718 alternative hypothesis: true mean is greater than 0 95 percent confidence interval: 1.837829 Inf sample estimates: mean of x 4


– Step 5) 판정 • 검정통계량 3.5949는 자유도가 6인 t분포에서 유의확률

0.005718을 가져 유의수준 0.05보다 작으므로 영가설을 기각한다.

• 다이어트 약은 통계적으로 유의한 효과가 있다.

– 보충) pre-post 값이 정규분포를 따라야 한다.


> shapiro.test(diff) Shapiro-Wilk normality test data: diff W = 0.8846, p-value = 0.2476

모비율 검정

모비율(p) 검정

• 기본가정 – 표본의 크기가 대표본 (일반적으로 30 이상)

• 모비율의 추정량 : 𝑝 – 𝐸 𝑝 = 𝑝

– Var 𝑝 =𝑝(1−𝑝)

𝑛

– 대표본으로 𝑝 은 근사적으로 정규분포를 따른다.

• 정규분포를 따르는 𝑝 의 표준정규분포 변환

–𝑝 −𝑝

𝑝(1−𝑝)𝑛

~ 𝑍(0, 1) : 검정통계량


모비율(p) 검정

• 예제) 어느 도시의 사회조사단체에서 취업적렭의 사람들을 대상으로 1,600명을 임의로 추출하여 조사한 결과 96명이 실업자였다. 조사된 자료에 의하면 이 도시의 실업률이 전국실업률 7.8%보다 낮다고 할 수 있는지를 유의수준 5%에서 검정하여라. – (노맹석 외, 기초통계학 – R을 이용한 통계분석, 자유

아카데미, 2011년, P246)


모비율(p) 검정

• 가설수립 – 영가설 : 𝑝 = 0.078,

전국실업율 0.078과 같다.

– 대안가설 : 𝑝 < 0.078, 전국실업율 0.078보다 작다.

• 검정통계량

–𝑝 −𝑝

𝑝(1−𝑝)𝑛

~ 𝑍(0, 1)

– 검정통계량을 사용하여 표준정규분포와 비교하거나

– 위로 부터 계산되는 𝑝 을 사용


모비율(p) 검정

• 검정통계량 : 𝑝 – 유의수준에 따른 임계값 -1.645 (𝛼 = 0.05)

–𝑝 −𝑝

𝑝(1−𝑝)𝑛

= −1.645 = −𝑍0.05

– 𝑝 = 𝑝 −𝑍0.05𝑝(1−𝑝)

𝑛 =

0.078 − 1.645 0.078 1−0.0781600 ≈ 0.067


모비율(p) 검정

• 검정통계량 : R 사용 – prop.test(

x=성공의 수, n=전체 조사대상, p=영가설하의 비율, alternative=(“two.sided”|"less“|”greater”) )


> prop.test(x=96, n=1600, p=0.078, alternative="less") 1-sample proportions test with continuity correction data: 96 out of 1600, null probability 0.078 X-squared = 6.9603, df = 1, p-value = 0.004167 alternative hypothesis: true p is less than 0.078 95 percent confidence interval: 0.00000000 0.07086414 sample estimates: p 0.06

10.단일표본 평균 모비율

Education