장 범주형 자료분석 1. (frequency analysis)...
TRANSCRIPT
- 1 -
장 범주형 자료분석3
빈도분석1. (Frequency Analysis)
도수분포나 막대그래프를 이용하여 측정된 변수들이 지닌 분포의 특성을 파악- .
평균 분산 등의 수치로 분포의 특성을 파악- , .
메뉴 선택 과정 분석 기술통계량 빈도분석: -> ->
통계량 구하기1)
백분위수값 중심척도 산포도 분포 등을 선택하여 출력, , , .
도표 그리기2)
막대 도표 원도표 히스토그램 등을 출력, , .
- 2 -
출력결과 형식 지정3)
변수 또는 빈도수에 따른 오름차순 내림차순의 설정 및 다중변수의 비교, .
예 다음 데이터는 학년별 연령에 따른 학생들의 용돈 액수를 조사한 결과이다[ 1] , .
빈도분석을 통해 학년별 연령대별 용돈액수에 대한 분포를 분석해보자, .
연령 학년 용돈단위 만원( : )
20 1 23.00
21 2 25.00
22 3 25.00
21 2 32.00
22 3 26.00
23 3 37.00
21 2 30.00
24 3 35.00
20 1 15.00
20 1 20.00
22 2 17.00
24 4 20.00
25 4 24.00
20 2 20.00
22 2 22.00
- 3 -
데이터입력 분석 기술통계 빈도분석 선택-> -> ->○
변수선택 통계량 백분위수값 중심척도 산포도 등을 선택-> -> , , .○
- 4 -
출력결과[ ]
통계량
연령 학년 용돈N 유효 15 15 15
결측 0 0 0평균 21.80 2.33 24.7333중위수 22.00 2.00 24.0000최빈값 20 2 20.00표준편차 1.61 .98 6.3860분산 2.60 .95 40.7810왜도 .609 .276 .548
왜도의 표준오차 .580 .580 .580첨도 -.567 -.646 -.371
첨도의 표준오차 1.121 1.121 1.121범위 5 3 22.00최소값 20 1 15.00최대값 25 4 37.00백분위수 25 20.00 2.00 20.0000
50 22.00 2.00 24.000075 23.00 3.00 30.0000
여러 최빈값이 있습니다 가장 작은 값이 나타납니다a . .
- 5 -
빈도표○
연령 학년
빈도 퍼센트 유효 퍼센트 누적퍼센트유효 20 4 26.7 26.7 26.7
21 3 20.0 20.0 46.722 4 26.7 26.7 73.323 1 6.7 6.7 80.024 2 13.3 13.3 93.325 1 6.7 6.7 100.0합계 15 100.0 100.0
빈도 퍼센트 유효 퍼센트 누적퍼센트
유효 1 3 20.0 20.0 20.0
2 6 40.0 40.0 60.0
3 4 26.7 26.7 86.7
4 2 13.3 13.3 100.0
합계 15 100.0 100.0
용돈
빈도 퍼센트 유효 퍼센트 누적퍼센트유효 15.00 1 6.7 6.7 6.7
17.00 1 6.7 6.7 13.320.00 3 20.0 20.0 33.322.00 1 6.7 6.7 40.023.00 1 6.7 6.7 46.724.00 1 6.7 6.7 53.325.00 2 13.3 13.3 66.726.00 1 6.7 6.7 73.330.00 1 6.7 6.7 80.032.00 1 6.7 6.7 86.735.00 1 6.7 6.7 93.337.00 1 6.7 6.7 100.0합계 15 100.0 100.0
- 6 -
막대 도표 히스토그램○ ○
- 7 -
적합도 검정2. (Goodness of Fit Test)
비모수적 통계분석방법-
모집단이 일정한 확률분포 형태를 갖는다고 가정할 경우 표본자료가 모집단 분포가정에 적합-
한지를 검정.
단일 표본 카이제곱 검정 단일표본 콜모고로프 스미르노프 검정 이항분포검정- , - , .
이론적 배경§
가설○
표본자료가 모집단의 분포를 따른다H0 : .
표본자료가 모집단의 분포를 따르지 않는다H1 : .
통계량○
χ2 = Σj= 1
J (Oj −Ej )2
Ej∼ χ2(J− 1 )
여기서, Oj는 관찰 빈도수, Ej는 기대빈도수 이다.
- 8 -
예 멘델의 유전법칙에 의하면 가지 완두콩이 나타날 비율을 이다 어떤 실험을 통해[ 2] 4 9:3:3:1 .
다음과 같은 완두콩을 수확하였다면 멘델의 유전법칙을 따른다고 할수 있는가, ?
완두콩 모양(x) 1 2 3 4
수확량(w) 170 60 80 30
데이터입력 데이터메뉴 가중케이스선택 가중케이스지정 빈도변수 선택-> -> ->○ ○
양적변수에 대한 가중치 계산을 위해 위와 같은 작업을 수행함.※
- 9 -
분석 비모수통계 카이제곱 검정 수행-> ->○
검정변수 선택 기댓값 값 입력 추가 정확 단추 클릭-> : (9,3,3,1) ->○
- 10 -
출력결과]
W
관측수 기대빈도 잔차30 30 191.3 -161.360 60 63.8 -3.880 80 63.8 16.3170 170 21.3 148.8합계 340
검정 통계량
W
카이제곱 1181.569
자유도 3
근사 유의확률 .000
셀 은 는 보다 작은 기대빈도를 가집니다 최소 셀 기대빈도는 입니다a 0 (.0%) ( ) 5 . 21.3 .
가설 멘델의 유전법칙을 따른다- H0 : .○
멘델의 유전법칙을 따르지 않는다H1 : .
카이제곱 검정통계량 값 =1181.569○
유의확률 이므로 귀무가설이 기각되어 멘델의 유전범칙을 따르지 않는다: 0.0000 <0.05 .
- 11 -
교차분석3. (Cross-Tabulation Analysis)
변수들 간의 상관관계를 파악- .
두 변수가 상호독립인지 아니면 연관성이 있는지를 분석한다- .
카이제곱 검정을 수행한다- .
독립성 검정과 동일성 검정-
이론적 배경§
독립성 검정A.
가설○
분류된 변수가 통계적으로 독립이다 연관성이 없다H0 : .( .)
두 변수가 연관성이 있다H1 : .
통계량○
χ2 = Σi= 1
R
Σj= 1
C (Oij− Eij )2
Eij∼ χ2(R − 1 )(C − 1 )
- 12 -
동일성 검정B.
가설○
분류된 변수가 통계적으로 독립이다 연관성이 없다H0 : .( .)
두 변수가 연관성이 있다H1 : .
통계량○
χ2 = Σi= 1
R
Σj= 1
C (Oij− Eij )2
Eij∼ χ2(R − 1 )(C − 1 )
독립성 검정과 동일성 검정은 같은 통계량을 이용하지만 자료를 얻는 방법에 따라 검정 하고,⇒
자 하는 가설이 다르다.
독립성 검정 전체관찰 빈도수를 고정시킨 후 두 범주 변수값에 따라 관찰치를 분류: .⇒
동일성 검정 전체자료를 검정하고자 하는 범주의 특성에 따라 먼저 분류한 후 동일한 수만:⇒
큼 자료를 관찰하여 각 범주별로 관찰치의 수 또는 비율이 다른지를 검정.
- 13 -
독립성 검정< > 명을 대상으로200 연령과 선호하는 주류간의 연관성을 알아보기 위해 조사를 한 결과가 다음
과 같다.
연령 주류 맥주 소주 위스키 칵테일 합계
대20 20 12 12 10 54
대30 10 20 16 10 56
대이상40 20 45 20 5 90
합계 50 77 48 25 200
동일성 검정< > 연령별로 선호하는 주류의 비율이 다른지를 알아보기 위해 대 대 대를 각각 명씩20 , 30 , 40 50
조사하여 얻은 자료가 다음과 같다.
연령 주류 맥주 소주 위스키 칵테일 합계
대20 20 10 8 12 50
대30 15 19 10 6 50
대이상40 10 20 15 5 50
합계 45 49 33 23 150
독립성 검정은 명을 관찰하여 연령별로 차이가 있는지를 관찰한 것이며200 ,⇒
동일성 검정은 명을 각 연령별로 명씩 나눈 후 이들의 선호 주류를 관찰한 것이다150 50 .
- 14 -
예 독립성 검정교재3] ( p.68)
교육수준과 투표 참여도 사이에 연관성이 있는가?
데이터 입력○
가중 케이스의 지정○
데이터 가중케이스 가중케이스 지정인원수-> -> ( )
- 15 -
분석 기술통계 교차표분석-> ->○
출력결과[ ]
케이스 처리 요약
교육수준 투표 교차표*
케이스유효 결측 전체N 퍼센트 N 퍼센트 N 퍼센트
교육수준 투표* 150 100.0% 0 .0% 150 100.0%
투표 전체아니오 예
교육수준 고졸 40 30 70고졸이하 20 10 30대졸 20 30 50
전체 80 70 150
- 16 -
카이제곱 검정
셀 은는 보다 작은 기대 빈도를 가지는 셀입니다 최소 기대빈도는 입니다a 0 (.0%) ( ) 5 . 14.00 .
결과분석[ ]
가설○
교육수준과 투표성향 간에는 서로 독립이다H0: .
교육수준과 투표성향 간에는 서로 연관성이 있다H1: .
카이제곱 통계량 값 = 6.122○
유의확률 값 귀무가설 기각: p- =0.047 <0.05 -○
판정 :○ 교육수준과 투표성향 간에는 연관성이 있다.
값 자유도 점근 유의확률 양쪽검정( )
카이제곱Pearson 6.122 2 .047
우도비 6.178 2 .046
유효 케이스 수 150
- 17 -
예 동일성 검정[ 4]
연령별로 선호하는 주류에 차이가 있는지를 검정.
데이터입력○
가중케이스 적용 인원수:○
- 18 -
분석 기술통계 교차분석 적용-> ->○
출력결과[ ]
케이스 처리 요약
연령 주류 교차표*
주류 전체맥주 소주 위스키 칵테일
연령 대20 20 10 8 12 50대30 15 19 10 6 50
대이상40 10 20 15 5 50전체 45 49 33 23 150
케이스유효 결측 전체N 퍼센트 N 퍼센트 N 퍼센트
연령 주류* 150 100.0% 0 .0% 150 100.0%
- 19 -
카이제곱 검정
값 자유도 점근 유의확률 양쪽검정( )
카이제곱Pearson 13.150 6 .041
우도비 13.273 6 .039
유효 케이스 수 150
셀 은 는 보다 작은 기대 빈도를 가지는 셀입니다 최소 기대빈도는 입니다a 0 (.0%) ( ) 5 . 7.67 .
결과분석[ ]
가설○
연령별로 선호하는 주류에는 차이가 없다H0: .
연령별로 선호하는 주류에는 차이가 있다H1: .
카이제곱 통계량 값 = 13.150○
유의확률 값 귀무가설 기각: p- =0.041 <0.05 -○
판정 :○ 연령별로 선호하는 주류에는 차이가 있다.
- 20 -
예 교재[ 5] p.71
연령과 감사표시방법 간에 어떤 연관성이 있는지를 분석
가설○
연령과 감사표시방법은 서로 연관성이 없다 즉 독립이다H0 : ., .
연령과 감사표시 방법간에는 연관성이 있다H1 : .
결과 분석○
카이제곱 검정< >
값 자유도 점근 유의확률 양쪽검정( )
카이제곱Pearson 6.888 15 .961
우도비 7.935 15 .926
선형 대 선형결합 .026 1 .873
유효 케이스 수 50
셀 은 는 보다 작은 기대 빈도를 가지는 셀입니다 최소 기대빈도는 입니다a 24 (100.0%) ( ) 5 . .96 .
카이제곱 통계량 값 = 6.888○
유의확률 값 귀무가설 채택: p- =0.961 >0.05 -○
판정 :○ 연령과 감사표시방법 간에는 연관성이 없다.
- 21 -
대응표본 검정4.
모수적 방법 대응표본 검정- : t-
비모수적 방법 맥네마르 검정- : (McNemar Test)
맥네마르 검정의 경우 자료가 명목변수와 순위변수인 경우 적절한 분석- .
이론적 배경§.
대응표본으로부터 두 표본비율- p̂ A와 p̂ B를 얻은 경우 모비율 pA와 pB에 대한 추론.
명의 소비자에게 두개의 제품 와 를 모두 사용해 보게 한 후 두 제품에 대한 선호도- 100 A B .
B
예(1) 아니오(0) 합계
A
예(1) n11 n10 nA
아니오(0) n01 n00 1 − nA
합계 nB 1 − nB n
이때, pA = nA/n, pB = nB/n은 독립이 아니다.
귀무가설- H0: pA = pB 하에서 n01은 n01 + n10인 회수와 인 이항분포를 따른다1/2 .
- 22 -
정규근사로부터-
Z =n01− (n01 +n10 )/2√
(n01 + n10 )/4=
n01− n10√n01 +n10
∼N (0, 1)
⇔ Z 2∼ χ21
예 대학에서 새로운 강의법을 도입하고자 새로운 강의법과 기존의 강의법일 이용하여 한달간[ 6] ,
수업한 후 무작위로 추출된 명의 학생들에게 찬성 반대 를 물었다 두 강의법에 대10 (1), (2) .
한 학생들의 찬반의견이 일치하는지를 검정해보자.
학생 1 2 3 4 5 6 7 8 9 10
새강의법 1 1 2 2 1 2 2 1 1 1
기존강의법 2 2 1 1 2 1 1 2 2 2
가설○
찬반 의견이 일치한다H0 : .
찬반의견이 일치하지 않는다H1 : .
- 23 -
데이터입력 분석 기술통계량 교차분석 행 열변수 선택-> -> -> -> ,○
통계량 선택-> McNemar○
- 24 -
출력결과[ ]
케이스 처리 요약
케이스유효 결측 전체N 퍼센트 N 퍼센트 N 퍼센트
NEW * OLD 10 100.0% 0 .0% 10 100.0%
교차표NEW * OLD
OLD 전체1 2
NEW 1 6 62 4 4
전체 4 6 10
카이제곱 검정
값 정확한 유의확률 양쪽검정( )
검정McNemar .754
유효 케이스 수 10
이항분포를 사용함a .
결과분석[ ]
유의확률 값:p- = 0.754 > 0.05○
판정 귀무가설 채택: .○