장 범주형 자료분석 1. (frequency analysis)...

24
-1- 장 범주형 자료분석 3 빈도분석 1. (Frequency Analysis) 도수분포나 막대그래프를 이용하여 측정된 변수들이 지닌 분포의 특성을 파악 - . 평균 분산 등의 수치로 분포의 특성을 파악 - , . 메뉴 선택 과정 분석 기술통계량 빈도분석 : -> -> 통계량 구하기 1) 백분위수값 중심척도 산포도 분포 등을 선택하여 출력 , , , . 도표 그리기 2) 막대 도표 원도표 히스토그램 등을 출력 , , .

Upload: others

Post on 11-Jun-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 장 범주형 자료분석 1. (Frequency Analysis) 빈도분석contents.kocw.net/KOCW/document/2015/dongguk/... · 연령 주류 맥주 소주 위스키 칵테일 합계 20 20 12

- 1 -

장 범주형 자료분석3

빈도분석1. (Frequency Analysis)

도수분포나 막대그래프를 이용하여 측정된 변수들이 지닌 분포의 특성을 파악- .

평균 분산 등의 수치로 분포의 특성을 파악- , .

메뉴 선택 과정 분석 기술통계량 빈도분석: -> ->

통계량 구하기1)

백분위수값 중심척도 산포도 분포 등을 선택하여 출력, , , .

도표 그리기2)

막대 도표 원도표 히스토그램 등을 출력, , .

Page 2: 장 범주형 자료분석 1. (Frequency Analysis) 빈도분석contents.kocw.net/KOCW/document/2015/dongguk/... · 연령 주류 맥주 소주 위스키 칵테일 합계 20 20 12

- 2 -

출력결과 형식 지정3)

변수 또는 빈도수에 따른 오름차순 내림차순의 설정 및 다중변수의 비교, .

예 다음 데이터는 학년별 연령에 따른 학생들의 용돈 액수를 조사한 결과이다[ 1] , .

빈도분석을 통해 학년별 연령대별 용돈액수에 대한 분포를 분석해보자, .

연령 학년 용돈단위 만원( : )

20 1 23.00

21 2 25.00

22 3 25.00

21 2 32.00

22 3 26.00

23 3 37.00

21 2 30.00

24 3 35.00

20 1 15.00

20 1 20.00

22 2 17.00

24 4 20.00

25 4 24.00

20 2 20.00

22 2 22.00

Page 3: 장 범주형 자료분석 1. (Frequency Analysis) 빈도분석contents.kocw.net/KOCW/document/2015/dongguk/... · 연령 주류 맥주 소주 위스키 칵테일 합계 20 20 12

- 3 -

데이터입력 분석 기술통계 빈도분석 선택-> -> ->○

변수선택 통계량 백분위수값 중심척도 산포도 등을 선택-> -> , , .○

Page 4: 장 범주형 자료분석 1. (Frequency Analysis) 빈도분석contents.kocw.net/KOCW/document/2015/dongguk/... · 연령 주류 맥주 소주 위스키 칵테일 합계 20 20 12

- 4 -

출력결과[ ]

통계량

연령 학년 용돈N 유효 15 15 15

결측 0 0 0평균 21.80 2.33 24.7333중위수 22.00 2.00 24.0000최빈값 20 2 20.00표준편차 1.61 .98 6.3860분산 2.60 .95 40.7810왜도 .609 .276 .548

왜도의 표준오차 .580 .580 .580첨도 -.567 -.646 -.371

첨도의 표준오차 1.121 1.121 1.121범위 5 3 22.00최소값 20 1 15.00최대값 25 4 37.00백분위수 25 20.00 2.00 20.0000

50 22.00 2.00 24.000075 23.00 3.00 30.0000

여러 최빈값이 있습니다 가장 작은 값이 나타납니다a . .

Page 5: 장 범주형 자료분석 1. (Frequency Analysis) 빈도분석contents.kocw.net/KOCW/document/2015/dongguk/... · 연령 주류 맥주 소주 위스키 칵테일 합계 20 20 12

- 5 -

빈도표○

연령 학년

빈도 퍼센트 유효 퍼센트 누적퍼센트유효 20 4 26.7 26.7 26.7

21 3 20.0 20.0 46.722 4 26.7 26.7 73.323 1 6.7 6.7 80.024 2 13.3 13.3 93.325 1 6.7 6.7 100.0합계 15 100.0 100.0

빈도 퍼센트 유효 퍼센트 누적퍼센트

유효 1 3 20.0 20.0 20.0

2 6 40.0 40.0 60.0

3 4 26.7 26.7 86.7

4 2 13.3 13.3 100.0

합계 15 100.0 100.0

용돈

빈도 퍼센트 유효 퍼센트 누적퍼센트유효 15.00 1 6.7 6.7 6.7

17.00 1 6.7 6.7 13.320.00 3 20.0 20.0 33.322.00 1 6.7 6.7 40.023.00 1 6.7 6.7 46.724.00 1 6.7 6.7 53.325.00 2 13.3 13.3 66.726.00 1 6.7 6.7 73.330.00 1 6.7 6.7 80.032.00 1 6.7 6.7 86.735.00 1 6.7 6.7 93.337.00 1 6.7 6.7 100.0합계 15 100.0 100.0

Page 6: 장 범주형 자료분석 1. (Frequency Analysis) 빈도분석contents.kocw.net/KOCW/document/2015/dongguk/... · 연령 주류 맥주 소주 위스키 칵테일 합계 20 20 12

- 6 -

막대 도표 히스토그램○ ○

Page 7: 장 범주형 자료분석 1. (Frequency Analysis) 빈도분석contents.kocw.net/KOCW/document/2015/dongguk/... · 연령 주류 맥주 소주 위스키 칵테일 합계 20 20 12

- 7 -

적합도 검정2. (Goodness of Fit Test)

비모수적 통계분석방법-

모집단이 일정한 확률분포 형태를 갖는다고 가정할 경우 표본자료가 모집단 분포가정에 적합-

한지를 검정.

단일 표본 카이제곱 검정 단일표본 콜모고로프 스미르노프 검정 이항분포검정- , - , .

이론적 배경§

가설○

표본자료가 모집단의 분포를 따른다H0 : .

표본자료가 모집단의 분포를 따르지 않는다H1 : .

통계량○

χ2 = Σj= 1

J (Oj −Ej )2

Ej∼ χ2(J− 1 )

여기서, Oj는 관찰 빈도수, Ej는 기대빈도수 이다.

Page 8: 장 범주형 자료분석 1. (Frequency Analysis) 빈도분석contents.kocw.net/KOCW/document/2015/dongguk/... · 연령 주류 맥주 소주 위스키 칵테일 합계 20 20 12

- 8 -

예 멘델의 유전법칙에 의하면 가지 완두콩이 나타날 비율을 이다 어떤 실험을 통해[ 2] 4 9:3:3:1 .

다음과 같은 완두콩을 수확하였다면 멘델의 유전법칙을 따른다고 할수 있는가, ?

완두콩 모양(x) 1 2 3 4

수확량(w) 170 60 80 30

데이터입력 데이터메뉴 가중케이스선택 가중케이스지정 빈도변수 선택-> -> ->○ ○

양적변수에 대한 가중치 계산을 위해 위와 같은 작업을 수행함.※

Page 9: 장 범주형 자료분석 1. (Frequency Analysis) 빈도분석contents.kocw.net/KOCW/document/2015/dongguk/... · 연령 주류 맥주 소주 위스키 칵테일 합계 20 20 12

- 9 -

분석 비모수통계 카이제곱 검정 수행-> ->○

검정변수 선택 기댓값 값 입력 추가 정확 단추 클릭-> : (9,3,3,1) ->○

Page 10: 장 범주형 자료분석 1. (Frequency Analysis) 빈도분석contents.kocw.net/KOCW/document/2015/dongguk/... · 연령 주류 맥주 소주 위스키 칵테일 합계 20 20 12

- 10 -

출력결과]

W

관측수 기대빈도 잔차30 30 191.3 -161.360 60 63.8 -3.880 80 63.8 16.3170 170 21.3 148.8합계 340

검정 통계량

W

카이제곱 1181.569

자유도 3

근사 유의확률 .000

셀 은 는 보다 작은 기대빈도를 가집니다 최소 셀 기대빈도는 입니다a 0 (.0%) ( ) 5 . 21.3 .

가설 멘델의 유전법칙을 따른다- H0 : .○

멘델의 유전법칙을 따르지 않는다H1 : .

카이제곱 검정통계량 값 =1181.569○

유의확률 이므로 귀무가설이 기각되어 멘델의 유전범칙을 따르지 않는다: 0.0000 <0.05 .

Page 11: 장 범주형 자료분석 1. (Frequency Analysis) 빈도분석contents.kocw.net/KOCW/document/2015/dongguk/... · 연령 주류 맥주 소주 위스키 칵테일 합계 20 20 12

- 11 -

교차분석3. (Cross-Tabulation Analysis)

변수들 간의 상관관계를 파악- .

두 변수가 상호독립인지 아니면 연관성이 있는지를 분석한다- .

카이제곱 검정을 수행한다- .

독립성 검정과 동일성 검정-

이론적 배경§

독립성 검정A.

가설○

분류된 변수가 통계적으로 독립이다 연관성이 없다H0 : .( .)

두 변수가 연관성이 있다H1 : .

통계량○

χ2 = Σi= 1

R

Σj= 1

C (Oij− Eij )2

Eij∼ χ2(R − 1 )(C − 1 )

Page 12: 장 범주형 자료분석 1. (Frequency Analysis) 빈도분석contents.kocw.net/KOCW/document/2015/dongguk/... · 연령 주류 맥주 소주 위스키 칵테일 합계 20 20 12

- 12 -

동일성 검정B.

가설○

분류된 변수가 통계적으로 독립이다 연관성이 없다H0 : .( .)

두 변수가 연관성이 있다H1 : .

통계량○

χ2 = Σi= 1

R

Σj= 1

C (Oij− Eij )2

Eij∼ χ2(R − 1 )(C − 1 )

독립성 검정과 동일성 검정은 같은 통계량을 이용하지만 자료를 얻는 방법에 따라 검정 하고,⇒

자 하는 가설이 다르다.

독립성 검정 전체관찰 빈도수를 고정시킨 후 두 범주 변수값에 따라 관찰치를 분류: .⇒

동일성 검정 전체자료를 검정하고자 하는 범주의 특성에 따라 먼저 분류한 후 동일한 수만:⇒

큼 자료를 관찰하여 각 범주별로 관찰치의 수 또는 비율이 다른지를 검정.

Page 13: 장 범주형 자료분석 1. (Frequency Analysis) 빈도분석contents.kocw.net/KOCW/document/2015/dongguk/... · 연령 주류 맥주 소주 위스키 칵테일 합계 20 20 12

- 13 -

독립성 검정< > 명을 대상으로200 연령과 선호하는 주류간의 연관성을 알아보기 위해 조사를 한 결과가 다음

과 같다.

연령 주류 맥주 소주 위스키 칵테일 합계

대20 20 12 12 10 54

대30 10 20 16 10 56

대이상40 20 45 20 5 90

합계 50 77 48 25 200

동일성 검정< > 연령별로 선호하는 주류의 비율이 다른지를 알아보기 위해 대 대 대를 각각 명씩20 , 30 , 40 50

조사하여 얻은 자료가 다음과 같다.

연령 주류 맥주 소주 위스키 칵테일 합계

대20 20 10 8 12 50

대30 15 19 10 6 50

대이상40 10 20 15 5 50

합계 45 49 33 23 150

독립성 검정은 명을 관찰하여 연령별로 차이가 있는지를 관찰한 것이며200 ,⇒

동일성 검정은 명을 각 연령별로 명씩 나눈 후 이들의 선호 주류를 관찰한 것이다150 50 .

Page 14: 장 범주형 자료분석 1. (Frequency Analysis) 빈도분석contents.kocw.net/KOCW/document/2015/dongguk/... · 연령 주류 맥주 소주 위스키 칵테일 합계 20 20 12

- 14 -

예 독립성 검정교재3] ( p.68)

교육수준과 투표 참여도 사이에 연관성이 있는가?

데이터 입력○

가중 케이스의 지정○

데이터 가중케이스 가중케이스 지정인원수-> -> ( )

Page 15: 장 범주형 자료분석 1. (Frequency Analysis) 빈도분석contents.kocw.net/KOCW/document/2015/dongguk/... · 연령 주류 맥주 소주 위스키 칵테일 합계 20 20 12

- 15 -

분석 기술통계 교차표분석-> ->○

출력결과[ ]

케이스 처리 요약

교육수준 투표 교차표*

케이스유효 결측 전체N 퍼센트 N 퍼센트 N 퍼센트

교육수준 투표* 150 100.0% 0 .0% 150 100.0%

투표 전체아니오 예

교육수준 고졸 40 30 70고졸이하 20 10 30대졸 20 30 50

전체 80 70 150

Page 16: 장 범주형 자료분석 1. (Frequency Analysis) 빈도분석contents.kocw.net/KOCW/document/2015/dongguk/... · 연령 주류 맥주 소주 위스키 칵테일 합계 20 20 12

- 16 -

카이제곱 검정

셀 은는 보다 작은 기대 빈도를 가지는 셀입니다 최소 기대빈도는 입니다a 0 (.0%) ( ) 5 . 14.00 .

결과분석[ ]

가설○

교육수준과 투표성향 간에는 서로 독립이다H0: .

교육수준과 투표성향 간에는 서로 연관성이 있다H1: .

카이제곱 통계량 값 = 6.122○

유의확률 값 귀무가설 기각: p- =0.047 <0.05 -○

판정 :○ 교육수준과 투표성향 간에는 연관성이 있다.

값 자유도 점근 유의확률 양쪽검정( )

카이제곱Pearson 6.122 2 .047

우도비 6.178 2 .046

유효 케이스 수 150

Page 17: 장 범주형 자료분석 1. (Frequency Analysis) 빈도분석contents.kocw.net/KOCW/document/2015/dongguk/... · 연령 주류 맥주 소주 위스키 칵테일 합계 20 20 12

- 17 -

예 동일성 검정[ 4]

연령별로 선호하는 주류에 차이가 있는지를 검정.

데이터입력○

가중케이스 적용 인원수:○

Page 18: 장 범주형 자료분석 1. (Frequency Analysis) 빈도분석contents.kocw.net/KOCW/document/2015/dongguk/... · 연령 주류 맥주 소주 위스키 칵테일 합계 20 20 12

- 18 -

분석 기술통계 교차분석 적용-> ->○

출력결과[ ]

케이스 처리 요약

연령 주류 교차표*

주류 전체맥주 소주 위스키 칵테일

연령 대20 20 10 8 12 50대30 15 19 10 6 50

대이상40 10 20 15 5 50전체 45 49 33 23 150

케이스유효 결측 전체N 퍼센트 N 퍼센트 N 퍼센트

연령 주류* 150 100.0% 0 .0% 150 100.0%

Page 19: 장 범주형 자료분석 1. (Frequency Analysis) 빈도분석contents.kocw.net/KOCW/document/2015/dongguk/... · 연령 주류 맥주 소주 위스키 칵테일 합계 20 20 12

- 19 -

카이제곱 검정

값 자유도 점근 유의확률 양쪽검정( )

카이제곱Pearson 13.150 6 .041

우도비 13.273 6 .039

유효 케이스 수 150

셀 은 는 보다 작은 기대 빈도를 가지는 셀입니다 최소 기대빈도는 입니다a 0 (.0%) ( ) 5 . 7.67 .

결과분석[ ]

가설○

연령별로 선호하는 주류에는 차이가 없다H0: .

연령별로 선호하는 주류에는 차이가 있다H1: .

카이제곱 통계량 값 = 13.150○

유의확률 값 귀무가설 기각: p- =0.041 <0.05 -○

판정 :○ 연령별로 선호하는 주류에는 차이가 있다.

Page 20: 장 범주형 자료분석 1. (Frequency Analysis) 빈도분석contents.kocw.net/KOCW/document/2015/dongguk/... · 연령 주류 맥주 소주 위스키 칵테일 합계 20 20 12

- 20 -

예 교재[ 5] p.71

연령과 감사표시방법 간에 어떤 연관성이 있는지를 분석

가설○

연령과 감사표시방법은 서로 연관성이 없다 즉 독립이다H0 : ., .

연령과 감사표시 방법간에는 연관성이 있다H1 : .

결과 분석○

카이제곱 검정< >

값 자유도 점근 유의확률 양쪽검정( )

카이제곱Pearson 6.888 15 .961

우도비 7.935 15 .926

선형 대 선형결합 .026 1 .873

유효 케이스 수 50

셀 은 는 보다 작은 기대 빈도를 가지는 셀입니다 최소 기대빈도는 입니다a 24 (100.0%) ( ) 5 . .96 .

카이제곱 통계량 값 = 6.888○

유의확률 값 귀무가설 채택: p- =0.961 >0.05 -○

판정 :○ 연령과 감사표시방법 간에는 연관성이 없다.

Page 21: 장 범주형 자료분석 1. (Frequency Analysis) 빈도분석contents.kocw.net/KOCW/document/2015/dongguk/... · 연령 주류 맥주 소주 위스키 칵테일 합계 20 20 12

- 21 -

대응표본 검정4.

모수적 방법 대응표본 검정- : t-

비모수적 방법 맥네마르 검정- : (McNemar Test)

맥네마르 검정의 경우 자료가 명목변수와 순위변수인 경우 적절한 분석- .

이론적 배경§.

대응표본으로부터 두 표본비율- p̂ A와 p̂ B를 얻은 경우 모비율 pA와 pB에 대한 추론.

명의 소비자에게 두개의 제품 와 를 모두 사용해 보게 한 후 두 제품에 대한 선호도- 100 A B .

B

예(1) 아니오(0) 합계

A

예(1) n11 n10 nA

아니오(0) n01 n00 1 − nA

합계 nB 1 − nB n

이때, pA = nA/n, pB = nB/n은 독립이 아니다.

귀무가설- H0: pA = pB 하에서 n01은 n01 + n10인 회수와 인 이항분포를 따른다1/2 .

Page 22: 장 범주형 자료분석 1. (Frequency Analysis) 빈도분석contents.kocw.net/KOCW/document/2015/dongguk/... · 연령 주류 맥주 소주 위스키 칵테일 합계 20 20 12

- 22 -

정규근사로부터-

Z =n01− (n01 +n10 )/2√

(n01 + n10 )/4=

n01− n10√n01 +n10

∼N (0, 1)

⇔ Z 2∼ χ21

예 대학에서 새로운 강의법을 도입하고자 새로운 강의법과 기존의 강의법일 이용하여 한달간[ 6] ,

수업한 후 무작위로 추출된 명의 학생들에게 찬성 반대 를 물었다 두 강의법에 대10 (1), (2) .

한 학생들의 찬반의견이 일치하는지를 검정해보자.

학생 1 2 3 4 5 6 7 8 9 10

새강의법 1 1 2 2 1 2 2 1 1 1

기존강의법 2 2 1 1 2 1 1 2 2 2

가설○

찬반 의견이 일치한다H0 : .

찬반의견이 일치하지 않는다H1 : .

Page 23: 장 범주형 자료분석 1. (Frequency Analysis) 빈도분석contents.kocw.net/KOCW/document/2015/dongguk/... · 연령 주류 맥주 소주 위스키 칵테일 합계 20 20 12

- 23 -

데이터입력 분석 기술통계량 교차분석 행 열변수 선택-> -> -> -> ,○

통계량 선택-> McNemar○

Page 24: 장 범주형 자료분석 1. (Frequency Analysis) 빈도분석contents.kocw.net/KOCW/document/2015/dongguk/... · 연령 주류 맥주 소주 위스키 칵테일 합계 20 20 12

- 24 -

출력결과[ ]

케이스 처리 요약

케이스유효 결측 전체N 퍼센트 N 퍼센트 N 퍼센트

NEW * OLD 10 100.0% 0 .0% 10 100.0%

교차표NEW * OLD

OLD 전체1 2

NEW 1 6 62 4 4

전체 4 6 10

카이제곱 검정

값 정확한 유의확률 양쪽검정( )

검정McNemar .754

유효 케이스 수 10

이항분포를 사용함a .

결과분석[ ]

유의확률 값:p- = 0.754 > 0.05○

판정 귀무가설 채택: .○