제5부 자료의 분석 중급통계 -...
TRANSCRIPT
1
제13장 분산분석
제5부 자료의 분석-중급통계
2
13.1 일원분산분석
13.2 분산분석 - 무작위 블럭디자인
13.3 이원분산분석 - 팩토리얼 디자인
제5부 자료의 분석-중급통계
3
분산분석(ANOVA) - 두 개 이상의 집단들의 평균값을 비교하는 데 사용.
일원분산분석 - 처치변수가 한 개인 분산분석.
A
3.0 8.0
7.0 5.0
5.0 6.0
4.0 7.0
6.0 4.0
평균 5.0 6.0
B
3.0 9.0
7.0 6.0
5.0 7.0
4.0 8.0
6.0 5.0
5.0 7.0
C
4.7 5.8
5.0 5.8
5.0 6.0
5.2 6.0
5.1 6.4
5.0 6.0
1. 분산분석의 원리
제5부 자료의 분석-중급통계
4
처치변수 처치수준 결과변수
2. 분산분석의 절차
제5부 자료의 분석-중급통계
5
k
j
n
i
ij
j
XX1 1
2
k
j
jj XXn1
2
k
j
n
i
jij
j
XX1 1
2
전체 제곱합(total variance; total sum of squares; Total SS)
집단간 제곱합(between variance; sum of squares due to treatment; SST)
집단내 제곱합(within variance; sum of squares due to error; SSE)
제5부 자료의 분석-중급통계
6
제5부 자료의 분석-중급통계 <표 13.2> 분산분석표
원천 제곱합(SS) 자유도 제곱평균(MS) Fobs
처치(집단간) k – 1
오차(집단내) n – k
합계 n – 1
2
1
k
j
jj XXnSST
k
j
n
i
jij
j
XXSSE1 1
2
k
j
n
i
ij
j
XXSSTotal1 1
2
)1( kSSTMST
)( knSSEMSE
MSE
MST
7
제5부 자료의 분석-중급통계
3. 일원분산분석의 예
예 13.1: 일원분산분석의 예
교육프로그램에 따라 판매실적이 다르다고 할 수 있는가? α=.05.
<표 13.3> 교육프로그램별 판매실적
교육프로그램
A B C D
65
87
73
79
81
69
75
69
83
81
72
79
76
90
59
78
67
62
83
76
94
89
80
88
가설검증
(1) Ho: μ1=μ2=μ3=μ4
H1: 모든 μ가 동일하지는 않다
(어떤 집단의 평균값은 다른 집단의 평균값과 다르다).
(2) F-test를 한다.
(3) Fobs 계산을 위하여 분산분석표를 작성한다.
먼저, 각 집단의 평균값과 전체 평균값을 계산한다.
8
제5부 자료의 분석-중급통계
3. 일원분산분석의 예
2.909,134.7788...
34.778734.7765
2
22
1 1
2
k
j
n
i
ij
j
XXSSTotal
712.5 77.34)-4(87.75
77.34)-7(78.43 34.7767.756
2
22
1
2
k
j
jj XXnSST
1,196.6 87.75)-(88
67.758767.7565
2
22
1 1
2
k
j
n
i
jij
j
XXSSE
5.237146.712)1( kSSTMST
0.634236.196,1)( knSSEMSE
77.30.63
5.237
MSE
MSTFobs
9
제5부 자료의 분석-중급통계
<표 13.5> 표 13.4의 자료에 의한 분산분석표
원천 제곱합(SS) d.f. 평균제곱(MS) Fobs
처치(집단간) SST = 712.6 3 MST = 237.5 3.77
오차(집단내) SSE = 1,196.9 19 MSE = 63.0
합계 Total SS = 1,909.2 22
(4) Fcrit = F(α; k-1, n-k) = F(.05; 3, 19) = 3.13
(5) F=3.13보다 우측이 기각영역이 되며 Fobs=3.77은 기각역에 위치하므로 Ho는 기각된다.
따라서 모든 교육프로그램효과가 동일하지는 않다.
즉, 최소한 어느 두 가지 프로그램 간에는 그 효과가 다르다고 결론지을 수 있다.
0
3. 일원분산분석의 예
3.13
Fobs = 3.77
.05
10
제5부 자료의 분석-중급통계
4. 분산분석의 추가 이슈들
추가 1: p-value를 이용한 가설검증
예 13.1의 경우:
F(.05; 3, 19) = 3.13
F(.01; 3, 19) = 5.01
.01<p-value<.05이며, p-value<α(.05)보다
작으므로 Ho는 기각된다.
추가 2: 사후다중비교
예 13.1에서 분산분석결과 네 집단 중 적어도 어느 두 집단간에는 평균차이가 있다고 결론을
내렸다. 그러면 6개의 두 집단 비교 중 어느 두 집단에서 차이가 있는가(4C2 = 6)?
<부록>에서 설명.
3.77
p-value
11
제5부 자료의 분석-중급통계
4. 분산분석의 추가 이슈들
추가 3: 분산분석에 의한 두 집단 평균의 비교
-두 집단의 평균차이검증을 위해서 t-test외에 분산분석에 의한 F-test에 의해서도 가능.
-예 12.1의 문제를 분산분석에 의하여 접근할 수 있다.
분산분석결과 Fobs = 2.70 < Fcrit = F(.05; 2-1, 18-2) = 4.49로서 Ho는 기각되지 않는다.
이와 같이 두 모집단 평균차이검증을 위하여 F-test를 하더라도 t-test 결과와 같다.
t와 F의 관계:
t2(α/2; d.f.) = F(α; 1, d.f.)
예 12.1의 결과를 이 관계에 적용시켜 보면
(tobs)2 = (1.64)2 = 2.70 = Fobs
(tcrit)2 = (2.12)2 = 4.49 = Fcrit로 나타남을 알 수 있다.
예 13.1의 경우:
3.77
p-value
12
제5부 자료의 분석-중급통계
예 13.2: 무작위 블럭디자인에 의한 분산분석의 예
무작위 블럭디자인에 의한 분산분석은 paired-difference test를 확장한 것.
실험에서 4개의 수퍼마켓 각각에 세 가지 패키지 디자인의 비누를 모두 진열하였다. 이 경우 각
수퍼마켓의 조건은 세 가지 디자인의 비누판매에 공통적으로 영향을 미치며, 이와 같은 변수를
블럭변수라고 한다. 이러한 자료로부터 패키지 디자인에 따라 매출이 다르다고 할 수 있는
가? α=.05.
<표 13.6> 수퍼마켓별 각 패키지 디자인의 판매실적
패키지 디자인(처치변수)
A B C
슈퍼마켓
(블럭변수)
1 17 34 23
2 15 26 21
3 1 23 8
4 6 22 16
13
제5부 자료의 분석-중급통계
예 13.2: 무작위 블럭디자인에 의한 분산분석의 예
<표 13.7> 무작위 블럭디자인의 분산분석표
원천 제곱합(SS) 자유도 평균제곱(MS) Fobs
처치(집단간) SST t – 1 MST=SST/(t-1) MST/MSE
블럭 SSB b – 1 MSB=SSB/(b-1) MSB/MSE
오차(집단내) SSE (b-1)(t-1) MSE=SSE/(b-1)(t-1)
합계 Total SS bt – 1
여기서 b는 블럭의 수, 그리고 t는 처치의 수를 나타낸다.
14
제5부 자료의 분석-중급통계
예 13.2: 무작위 블럭디자인에 의한 분산분석의 예
(1) Ho: μA=μB=μC
H1: 모든 μ가 동일하지는 않다.
(2) F-test를 한다.
(3) 분산분석표를 작성하여 Fobs를 구한다. SPSS 12.0에 의해 분석한 결과는 다음과 같다.
<표 13.8> 표 13.6의 자료에 의한 무작위 블럭디자인의 분산분석표
원천 제곱합(SS) d.f. 평균제곱(MS) Fobs
처치(집단간) 547.17 2 273.58 36.09
블럭 348.00 3 116.00 15.30
오차(집단내) 45.50 6 7.58
합계 940.67 11
가설검증(1/2)
15
제5부 자료의 분석-중급통계
예 13.2: 무작위 블럭디자인에 의한 분산분석의 예
(4) 관심: 패키지 디자인에 따라 매출이 다른가?:
Fobs(처치)= 36.08을 다음의 Fcrit과 비교한다.
Fcrit = F(α; t-1, (b-1)(t-1)) = F(.05; 2, 6) = 5.14
(5) - Fobs > Fcrit이므로 Ho는 기각된다.
- α=.05에서 패키지 디자인에 따라 매출이 달라질 수 있다는 결론을 내릴 수 있다.
가설검증(2/2)
추가적으로, 수퍼마켓 간에 매출이 동일하다(μ1=μ2=μ3=μ4)는 귀무가설을 생각할 수 있다. Ho: μ1=μ2=μ3=μ4 H1: 모든 μ가 동일하지는 않다.
Fobs = 15.30 Fcrit = F(α; b-1, (b-1)(t-1)) = F(.05; 3, 6) = 4.76
- Fobs > Fcrit이므로 Ho는 기각된다.
- α=.05에서 수퍼마켓 간에 비누매출이 동일하지는 않다는 결론을 내릴 수 있다.
16
제5부 자료의 분석-중급통계
한 처치변수가 다른 처치변수의 변화에 따라 결과변수에 미치는 영향.
각 처치변수의 변화가 결과변수에 미치는 영향에 관한 것.
두 개 이상의 처치변수의 수준변화에 따른 결과변수값의 변화를 조사하기 위한 실험디자인.
- 각 처치변수를 factor라고 부른다.
- factor A의 처치수준은 a이고 factor B의 처치수준은 b이면 a×b factorial design.
- 처치변수가 두 개이므로 이원분산분석(two-way ANOVA)을 적용한다.
- 추가적으로 factor C가 있으며 처치수준이 c이면 a×b×c factorial design이 되며
삼원분산분석(three-way ANOVA)을 적용한다.
팩토리얼 디자인(factorial design)
상호작용효과
주효과
17
제5부 자료의 분석-중급통계
예: 두 개의 처치변수, 단맛정도와 탄산화정도가 소비자 태도에 미치는 영향. (2×2 factorial design)
18
제5부 자료의 분석-중급통계
<표 13.9> a×b factorial design에 대한 이원분산분석표
원천 제곱합(SS) 자유도 평균제곱(MS) Fobs
Factor A SS(A) (a-1) MS(A) = SS(A)/(a-1) MS(A)/MSE
Factor B SS(B) (b-1) MS(B) = SS(B)/(b-1) MS(B)/MSE
상호작용 A×B SS(AB) (a-1)(b-1) MS(AB) = SS(AB)/(a-1)(b-1) MS(AB)/MSE
오차 SSE (n-ab) MSE = SSE/(n-ab)
합계 Total SS (n-1)
19
제5부 자료의 분석-중급통계
세 가지 광고대안을 개발하여 남녀 각각 9명의 피실험자들을 6개의 cells에 할당하고 각 피실험자에게
세 가지 광고 중 하나를 보여주었다. 피실험자들의 광고태도는 <표>와 같다.
예 13.3: 팩토리얼 디자인에 의한 이원분산분석의 예
연구문제
1. 광고대안에 따라 광고태도가 다른가(광고대안의 주효과; α=.05)?
2. 성별에 따라 광고태도가 다른가(성별의 주효과; α=.05)?
3. 성별과 광고대안 간에는 상호작용효과가 있는가(α=.05)?
광고
성별 1 2 3
남 4.1 3.1 3.5
3.9 2.8 3.2
4.3 3.3 3.6
여 2.7 1.9 2.7
3.1 2.2 2.3
2.6 2.3 2.5
<표 13.10> 남•녀별 각 광고에 대한 태도점수
20
제5부 자료의 분석-중급통계
가설검증(1/2)
예 13.3: 팩토리얼 디자인에 의한 이원분산분석의 예
(1) 1. Ho: μ1=μ2=μ3 H1: 모든 μ가 동일하지는 않다.
2. Ho: μ남=μ여 H1: μ남≠μ여
3. Ho: 상호작용효과가 없다. H1: 상호작용효과가 있다.
(2) 2×3 factorial design에 의한 이원분산분석(세 개의 F-검증)
(3) cell별로 평균을 계산하면 <표 13.11>과 같다.
<표 13.11> 표 13.10 자료의 평균값
성별 광고
계 1 2 3
남 4.10 3.06 3.43 3.53
여 2.80 2.13 2.50 2.48
계 3.45 2.60 2.97 3.00
21
제5부 자료의 분석-중급통계
가설검증(2/2): SPSS 12.0에 의한 분석결과
예 13.3: 팩토리얼 디자인에 의한 이원분산분석의 예
<표 13.12> 표 13.10 자료의 이원분산분석표
원천 제곱합(SS) 자유도 평균제곱(MS) Fobs
광고(A) 2.1811 2 1.0906 21.81
성별(B) 5.0139 1 5.0139 100.28
상호작용(A×B) .1344 2 .0672 1.34
오차 .6000 12 .0500
합계 7.9294 17
(4) 연구가설별로 F-table에서 Fcrit 값을 찾는다.
(5) 상호작용효과(A×B)에 대한 검증: Fobs = 1.34 < Fcrit = F(.05; 2, 12) = 3.89 따라서, 상호작용효과는 유의적이지 않다.
광고대안(A)의 주효과에 대한 검증: Fobs = 21.81 > Fcrit = F(.05; 2, 12) = 3.89 따라서, 광고대안(A)의 주효과는 유의적이다.
성별(B)의 주효과에 대한 검증: Fobs = 100.28 > Fcrit = F(.05; 1, 12) = 4.75 따라서, 성별(B)의 주효과는 유의적이다.
22
제5부 자료의 분석-중급통계
예 13.3: 팩토리얼 디자인에 의한 이원분산분석의 예
광고태도
광고
1
2
3
4
3 2 1
남
여
<그림 13.2> 표 13.11 자료의 cell별 평균값
23
제5부 자료의 분석-중급통계
기술통계
N 평균 표준편차 표준오차
평균에 대한 95% 신뢰구간 최소값 최대값
하한값 상한값
판매 실적
프로 그램
프로 그램 A
6 75.67 8.165 3.333 67.10 84.24 65 87
프로 그램 B
7 78.43 7.115 2.689 71.85 85.01 69 90
프로 그램 C
6 70.83 9.579 3.911 60.78 80.89 59 83
프로 그램 D
4 87.75 5.795 2.898 78.53 96.97 80 94
합계 23 77.35 9.316 1.942 73.32 81.38 59 94
24
제5부 자료의 분석-중급통계
Levene 통계량 자유도1 자유도2 유의확률
판매실적 1.218 3 19 .330
분산분석
제곱합 자유도 평균제곱 F 유의확률
판매실적 집단-간 712.586 3 237.529 3.771 .028
집단-내 1196.631 19 62.981
합계 1909.217 22
분산의 동질성에 대한 검정
25
제5부 자료의 분석-중급통계
평균차 (I-J) 표준오차 유의확률 95% 신뢰구간
(I) 프로그램 (J) 프로그램 하한값 상한값
Scheffe
프로그램 A
프로그램B -2.762 4.415 .941 -16.29 10.76
프로그램C 4.833 4.582 .775 -9.20 18.87
프로그램D -12.083 5.123 .172 -27.77 3.61
프로그램 B
프로그램A 2.762 4.415 .941 -10.76 16.29
프로그램C 7.595 4.415 .420 -5.93 21.12
프로그램D -9.321 4.974 .347 -24.56 5.91
프로그램 C
프로그램A -4.833 4.582 .775 -18.87 9.20
프로그램B -7.595 4.415 .420 -21.12 5.93
프로그램D -16.917(*) 5.123 .032 -32.61 -1.23
프로그램 D
프로그램A 12.083 5.123 .172 -3.61 27.77
프로그램B 9.321 4.974 .347 -5.91 24.56
프로그램C 16.917(*) 5.123 .032 1.23 32.61
Bonferroni
프로그램 A
프로그램B -2.762 4.415 1.000 -15.76 10.24
프로그램C 4.833 4.582 1.000 -8.66 18.32
프로그램D -12.083 5.123 .175 -27.16 3.00
프로그램 B
프로그램A 2.762 4.415 1.000 -10.24 15.76
프로그램C 7.595 4.415 .610 -5.40 20.59
프로그램D -9.321 4.974 .458 -23.96 5.32
프로그램 C
프로그램A -4.833 4.582 1.000 -18.32 8.66
프로그램B -7.595 4.415 .610 -20.59 5.40
프로그램D -16.917(*) 5.123 .022 -32.00 -1.84
프로그램 D
프로그램A 12.083 5.123 .175 -3.00 27.16
프로그램B 9.321 4.974 .458 -5.32 23.96
프로그램C 16.917(*) 5.123 .022 1.84 32.00
* .05 수준에서 평균차가 큽니다.
사후검정 다중 비교 종속변수: 판매실적
26
제5부 자료의 분석-중급통계 변수값 설명 N
수퍼마켓
1 3
2 3
3 3
4 3
디자인
1 design A 4
2 design B 4
3 design C 4
수퍼마켓 디자인 평균 표준편차 N
1
design A 17.00 . 1
design B 34.00 . 1
design C 23.00 . 1
합계 24.67 8.622 3
2
design A 15.00 . 1
design B 26.00 . 1
design C 21.00 . 1
합계 20.67 5.508 3
3
design A 1.00 . 1
design B 23.00 . 1
design C 8.00 . 1
합계 10.67 11.240 3
4
design A 6.00 . 1
design B 22.00 . 1
design C 16.00 . 1
합계 14.67 8.083 3
합계
design A 9.75 7.544 4
design B 26.25 5.439 4
design C 17.00 6.683 4
합계 17.67 9.247 12
기술통계량 종속변수: 판매실적
개체-간 요인
27
제5부 자료의 분석-중급통계
개체-간 효과 검정 종속변수: 판매실적
소스 제 III 유형 제곱합 자유도 평균제곱 F 유의확률
수정 모형 895.167(a) 5 179.033 23.609 .001
절편 3745.333 1 3745.333 493.890 .000
수퍼마켓 348.000 3 116.000 15.297 .003
디자인 547.167 2 273.583 36.077 .000
오차 45.500 6 7.583
합계 4686.000 12
수정 합계 940.667 11
a R 제곱 = .952 (수정된 R 제곱 = .911)