교차표 cross table - hannam...

10
Exploratory Data Analysis | Spring, 2012 | Chapter 6. Cross Table | 1 Professor Kwon, Sehyug | Dept. of Statistics, HANNAM Univ. 010.6365.7622 http://wolfpack.hnu.ac.kr 교차표 Cross Table 두 범주형 변수의 정보를 요약한 표, 행 범주와 열 범주, 셀은 관측치 예제 데이터 예제 학위에 따른 진출 분야의 차이? 해석은 행 퍼센트를 이용한다. Major Oil Chemical Electrical Computer Business 30 15 15 40 Engineering 30 30 20 20

Upload: others

Post on 10-Jun-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 교차표 Cross Table - Hannam Universitywolfpack.hannam.ac.kr/Stat_Notes/elem_stat/EDA/EDA_CT.pdf · 2018-03-04 · Exploratory Data Analysis | Spring, 2012 | Chapter 6. Cross Table

Exploratory Data Analysis | Spring, 2012 | Chapter 6. Cross Table

| 1

Professor Kwon, Sehyug | Dept. of Statistics, HANNAM Univ. 010.6365.7622 http://wolfpack.hnu.ac.kr

교차표 Cross Table

두 범주형 변수의 정보를 요약한 표, 행 범주와 열 범주, 셀은 관측치

예제 데이터

예제

학위에 따른 진출 분야의 차이? 해석은 행 퍼센트를 이용한다.

Major Oil Chemical Electrical Computer

Business 30 15 15 40

Engineering 30 30 20 20

Page 2: 교차표 Cross Table - Hannam Universitywolfpack.hannam.ac.kr/Stat_Notes/elem_stat/EDA/EDA_CT.pdf · 2018-03-04 · Exploratory Data Analysis | Spring, 2012 | Chapter 6. Cross Table

Exploratory Data Analysis | Spring, 2012 | Chapter 6. Cross Table

| 2

Professor Kwon, Sehyug | Dept. of Statistics, HANNAM Univ. 010.6365.7622 http://wolfpack.hnu.ac.kr

o 유의확률이 0.62%이므로 귀무가설 (전공과 진출분야 연관관계 없음) 기각됨

o 비즈니스 전공은 컴퓨터 분야, 공학 전공은 오일, 화학 분야 진출이 높다 (행 퍼센트)

교차분석

Page 3: 교차표 Cross Table - Hannam Universitywolfpack.hannam.ac.kr/Stat_Notes/elem_stat/EDA/EDA_CT.pdf · 2018-03-04 · Exploratory Data Analysis | Spring, 2012 | Chapter 6. Cross Table

Exploratory Data Analysis | Spring, 2012 | Chapter 6. Cross Table

| 3

Professor Kwon, Sehyug | Dept. of Statistics, HANNAM Univ. 010.6365.7622 http://wolfpack.hnu.ac.kr

Page 4: 교차표 Cross Table - Hannam Universitywolfpack.hannam.ac.kr/Stat_Notes/elem_stat/EDA/EDA_CT.pdf · 2018-03-04 · Exploratory Data Analysis | Spring, 2012 | Chapter 6. Cross Table

Exploratory Data Analysis | Spring, 2012 | Chapter 6. Cross Table

| 4

Professor Kwon, Sehyug | Dept. of Statistics, HANNAM Univ. 010.6365.7622 http://wolfpack.hnu.ac.kr

교차표 그래프 표현 (Simpson’s Paradox)

(예제 데이터 중심) Google : Berkeley’s Gender discrimination

여학생들이 주장했다. 남학생 지원자 8,442 명 중 44% (2,691 명)가 합격, 4,321 명 중 35%

(1,835)가 합격 => 이는 성 차별이라고 주장

(학과별로 작성된 표)

Page 5: 교차표 Cross Table - Hannam Universitywolfpack.hannam.ac.kr/Stat_Notes/elem_stat/EDA/EDA_CT.pdf · 2018-03-04 · Exploratory Data Analysis | Spring, 2012 | Chapter 6. Cross Table

Exploratory Data Analysis | Spring, 2012 | Chapter 6. Cross Table

| 5

Professor Kwon, Sehyug | Dept. of Statistics, HANNAM Univ. 010.6365.7622 http://wolfpack.hnu.ac.kr

빈도 분할

교차표 셀 빈도

ijjiij eCRf ,

),0(~ 2Neij 가법모형

추정치

o ..ˆ y , ...ˆ yyR ii , ...

ˆ yyC jj

o 위의 추정치는 이상값에 양향을 받으므로 적절한 추정치가 아님

Median Polish

가법모형 Robust 추정방법

단계 1 : 행 효과 )( iR

o .~iy : i 행의 관측치 중앙값을 행 효과의 추정치로 사용

o .)1( ~

iijij yyy

o )1(ijy 에는 jC 만 남아 있음

단계 2 : 열 효과 )( jC

o )1(

.~jy : j 열의 관측치 중앙값을 열 효과의 추정치로 사용

o )1(

.)1()2( ~

jijij yyy

Page 6: 교차표 Cross Table - Hannam Universitywolfpack.hannam.ac.kr/Stat_Notes/elem_stat/EDA/EDA_CT.pdf · 2018-03-04 · Exploratory Data Analysis | Spring, 2012 | Chapter 6. Cross Table

Exploratory Data Analysis | Spring, 2012 | Chapter 6. Cross Table

| 6

Professor Kwon, Sehyug | Dept. of Statistics, HANNAM Univ. 010.6365.7622 http://wolfpack.hnu.ac.kr

모형 적합성 검토

o 가법모형 vs. 승법모형 '** ijjiij eCRf

o 두 모형의 잔차 관계 : '

)(

)(*)(ij

jiij e

CRe

공통효과

열효과행효과

o 비교 comparison=)(

)(*)(

공통효과

열효과행효과 ji CR

o 승법모형과 비교의 산점도가 패턴이 있다면 승법모형은 적합하지 않다. 왜냐하면, 만약

승법모형이 적합하다면 오차항만 남아 있어야 하는데…

o 산점도의 기울기가 양의 기울기 (+1)를 가지면 승법모형이 적합 => 승법모형이 적합한

경우에는 데이터를 로그 변환하여 승법모형을 적합시키면 된다.

2011 대도시 강우량 데이터

(일정한 패턴을 보이지 않음)

Page 7: 교차표 Cross Table - Hannam Universitywolfpack.hannam.ac.kr/Stat_Notes/elem_stat/EDA/EDA_CT.pdf · 2018-03-04 · Exploratory Data Analysis | Spring, 2012 | Chapter 6. Cross Table

Exploratory Data Analysis | Spring, 2012 | Chapter 6. Cross Table

| 7

Professor Kwon, Sehyug | Dept. of Statistics, HANNAM Univ. 010.6365.7622 http://wolfpack.hnu.ac.kr

o 행 효과 (월별) 7 월에 비가 많이 오고 1 월 강우량이 가장 낮음

o 열 효과 (도시) 강릉에 비가 많이 오고 서울이 가장 낮음

o (잔차) 대전 지역 7,8 월에 비가 많이 옴, 제주는 7 월 비가 적게 옴

(1990~2011 년) 소비지출

Page 8: 교차표 Cross Table - Hannam Universitywolfpack.hannam.ac.kr/Stat_Notes/elem_stat/EDA/EDA_CT.pdf · 2018-03-04 · Exploratory Data Analysis | Spring, 2012 | Chapter 6. Cross Table

Exploratory Data Analysis | Spring, 2012 | Chapter 6. Cross Table

| 4

Professor Kwon, Sehyug | Dept. of Statistics, HANNAM Univ. 010.6365.7622 http://wolfpack.hnu.ac.kr

대응분석 correspondence analysis

개념

분할표로 나타내어지는 자료의 행과 열범주를 저차원 공간상(2 차원)의 점들로 동시에

나타내어, 그들의 관계를 탐구하려는 탐색적 자료 분석 기법

단순 대응 분석 : 행과 열범주를 나타내는 변수가 둘뿐인 이원분할표의 대응분석

다중 대응 분석 : 범주를 나타내는 변수가 두 개인 이변량 대응분석을 포함하여

변수가 셋 이상인 다원분할표의 대응분석

워크시트 상의 이원표 검정과의 비교

일반적으로 2 차원 분할표의 경우는 독립성, 동질설 검정의 경우 카이제곱검정을

실시하고 행(열) 퍼센트에 의해 그 의미를 충분히 파악할 수 있음

그러나 r×c가 복잡해지면 카이제곱검정의 신뢰도가 떨어지게 되므로 대응일치 분석이

효과적 일 수 있음

카이제곱검정의 경우 결과가 P-value=0.000 으로서 매우 종속적인 관계가 있음을

보여주지만 의미해석이 simple 하지 못할 수 있음

이에 대응분석은 대칭도를 통해 맵핑 결과를 명확하고 단순하게 알 수 있음

기원

대응분석이 다변량 자료분석에서 널리 알려진 때는 1980 년대이다.

대응분석의 수리적인 기원은 1930 년대 Hirshfeld 의 『상관관계와 분할표의 연관성』이라는

논문이고, 1940-1950 년대에 몇몇 학자들에 의해서 더욱 발전되었다.

대응분석의 기하적인 면은 1960 년대 프랑스에서 Jean-Paul Benzecri 에 의해서 발전되었다.

일본에서는 1950 년대 Chikio Hayashi 에 의해서 수량화 제 3 방법으로 개발되어 발전되었고,

프랑스에서는 1960 년대 Jean-Paul Benzecri 가 이끄는 자료분석 모임이 다양한 분야로부터

수집된 자료를 분석하는데 대응분석 기법을 응용하고 발전시켰다.

Page 9: 교차표 Cross Table - Hannam Universitywolfpack.hannam.ac.kr/Stat_Notes/elem_stat/EDA/EDA_CT.pdf · 2018-03-04 · Exploratory Data Analysis | Spring, 2012 | Chapter 6. Cross Table

Exploratory Data Analysis | Spring, 2012 | Chapter 6. Cross Table

| 5

Professor Kwon, Sehyug | Dept. of Statistics, HANNAM Univ. 010.6365.7622 http://wolfpack.hnu.ac.kr

기호

nij: (i, j) 셀 관측빈도

ni+: (i)번째 행의 관측빈도 합

n+j: (j)번째 열의 관측빈도 합

방법

(i, j) 셀의 빈도 nij (≥ 0)의 i 번째 행 (ni1, …, nic)은 총빈도가 ni+ = ni1+ … + nic 이고

C 개 범주를 갖는 다항 분포

Multinomial 분포의 대응 확률은 상대빈도 fij = nij / n: 이것을 행 프로파일 (row

profile)이라 정의

각 행의 상대적 빈도 fi+ = fi1 + … + fic 를 선형계수로 (주성분 분석과 유사) 하여 좌표

계산

ri =(fi1 / fi+ , fi2 / fi+ , …, fic / fi+ )는 C 차원 가중 Euclid 공간의 좌표

가중(weighted) Euclid 공간이란 두 개의 좌표 ra, rb 사이의 거리가 다음과 같이 정의

f+j = f1j + … + frj ==>

같은 방식으로 열 프로파일의 좌표 및 개체 거리 계산

행, 열 프로파일을 각각 2 차원 공간에 표현하거나 동시에 표현

예제

학과

영어 등급 경영 경제 통계

A 78 65 68

B 22 8 30

C 20 2 7

j

j

b

jb

a

ja

ba ff

f

f

frrd /)(),( 2

Page 10: 교차표 Cross Table - Hannam Universitywolfpack.hannam.ac.kr/Stat_Notes/elem_stat/EDA/EDA_CT.pdf · 2018-03-04 · Exploratory Data Analysis | Spring, 2012 | Chapter 6. Cross Table

Exploratory Data Analysis | Spring, 2012 | Chapter 6. Cross Table

| 6

Professor Kwon, Sehyug | Dept. of Statistics, HANNAM Univ. 010.6365.7622 http://wolfpack.hnu.ac.kr

15대 대통령선거 득표율

대통령선거.csv 데이터는 제 15 대 대통령선거에서 입후보자들의 지역별

득표이다.

(1) 카이제곱검정을 실시하여 후보자간 지역별 득표의 차이가 있는지 검정하고

행퍼센트, 열퍼센트 이용하여 해석하시오.

(2) median polish 분석을 실시하고 해석하시오.

(3) 대응분석을 실시하여 대응 산점도를 그리고 해석하시오.