교차표 cross table - hannam...
TRANSCRIPT
Exploratory Data Analysis | Spring, 2012 | Chapter 6. Cross Table
| 1
Professor Kwon, Sehyug | Dept. of Statistics, HANNAM Univ. 010.6365.7622 http://wolfpack.hnu.ac.kr
교차표 Cross Table
두 범주형 변수의 정보를 요약한 표, 행 범주와 열 범주, 셀은 관측치
예제 데이터
예제
학위에 따른 진출 분야의 차이? 해석은 행 퍼센트를 이용한다.
Major Oil Chemical Electrical Computer
Business 30 15 15 40
Engineering 30 30 20 20
Exploratory Data Analysis | Spring, 2012 | Chapter 6. Cross Table
| 2
Professor Kwon, Sehyug | Dept. of Statistics, HANNAM Univ. 010.6365.7622 http://wolfpack.hnu.ac.kr
o 유의확률이 0.62%이므로 귀무가설 (전공과 진출분야 연관관계 없음) 기각됨
o 비즈니스 전공은 컴퓨터 분야, 공학 전공은 오일, 화학 분야 진출이 높다 (행 퍼센트)
교차분석
Exploratory Data Analysis | Spring, 2012 | Chapter 6. Cross Table
| 3
Professor Kwon, Sehyug | Dept. of Statistics, HANNAM Univ. 010.6365.7622 http://wolfpack.hnu.ac.kr
Exploratory Data Analysis | Spring, 2012 | Chapter 6. Cross Table
| 4
Professor Kwon, Sehyug | Dept. of Statistics, HANNAM Univ. 010.6365.7622 http://wolfpack.hnu.ac.kr
교차표 그래프 표현 (Simpson’s Paradox)
(예제 데이터 중심) Google : Berkeley’s Gender discrimination
여학생들이 주장했다. 남학생 지원자 8,442 명 중 44% (2,691 명)가 합격, 4,321 명 중 35%
(1,835)가 합격 => 이는 성 차별이라고 주장
(학과별로 작성된 표)
Exploratory Data Analysis | Spring, 2012 | Chapter 6. Cross Table
| 5
Professor Kwon, Sehyug | Dept. of Statistics, HANNAM Univ. 010.6365.7622 http://wolfpack.hnu.ac.kr
빈도 분할
교차표 셀 빈도
ijjiij eCRf ,
),0(~ 2Neij 가법모형
추정치
o ..ˆ y , ...ˆ yyR ii , ...
ˆ yyC jj
o 위의 추정치는 이상값에 양향을 받으므로 적절한 추정치가 아님
Median Polish
가법모형 Robust 추정방법
단계 1 : 행 효과 )( iR
o .~iy : i 행의 관측치 중앙값을 행 효과의 추정치로 사용
o .)1( ~
iijij yyy
o )1(ijy 에는 jC 만 남아 있음
단계 2 : 열 효과 )( jC
o )1(
.~jy : j 열의 관측치 중앙값을 열 효과의 추정치로 사용
o )1(
.)1()2( ~
jijij yyy
Exploratory Data Analysis | Spring, 2012 | Chapter 6. Cross Table
| 6
Professor Kwon, Sehyug | Dept. of Statistics, HANNAM Univ. 010.6365.7622 http://wolfpack.hnu.ac.kr
모형 적합성 검토
o 가법모형 vs. 승법모형 '** ijjiij eCRf
o 두 모형의 잔차 관계 : '
)(
)(*)(ij
jiij e
CRe
공통효과
열효과행효과
o 비교 comparison=)(
)(*)(
공통효과
열효과행효과 ji CR
o 승법모형과 비교의 산점도가 패턴이 있다면 승법모형은 적합하지 않다. 왜냐하면, 만약
승법모형이 적합하다면 오차항만 남아 있어야 하는데…
o 산점도의 기울기가 양의 기울기 (+1)를 가지면 승법모형이 적합 => 승법모형이 적합한
경우에는 데이터를 로그 변환하여 승법모형을 적합시키면 된다.
2011 대도시 강우량 데이터
(일정한 패턴을 보이지 않음)
Exploratory Data Analysis | Spring, 2012 | Chapter 6. Cross Table
| 7
Professor Kwon, Sehyug | Dept. of Statistics, HANNAM Univ. 010.6365.7622 http://wolfpack.hnu.ac.kr
o 행 효과 (월별) 7 월에 비가 많이 오고 1 월 강우량이 가장 낮음
o 열 효과 (도시) 강릉에 비가 많이 오고 서울이 가장 낮음
o (잔차) 대전 지역 7,8 월에 비가 많이 옴, 제주는 7 월 비가 적게 옴
(1990~2011 년) 소비지출
Exploratory Data Analysis | Spring, 2012 | Chapter 6. Cross Table
| 4
Professor Kwon, Sehyug | Dept. of Statistics, HANNAM Univ. 010.6365.7622 http://wolfpack.hnu.ac.kr
대응분석 correspondence analysis
개념
분할표로 나타내어지는 자료의 행과 열범주를 저차원 공간상(2 차원)의 점들로 동시에
나타내어, 그들의 관계를 탐구하려는 탐색적 자료 분석 기법
단순 대응 분석 : 행과 열범주를 나타내는 변수가 둘뿐인 이원분할표의 대응분석
다중 대응 분석 : 범주를 나타내는 변수가 두 개인 이변량 대응분석을 포함하여
변수가 셋 이상인 다원분할표의 대응분석
워크시트 상의 이원표 검정과의 비교
일반적으로 2 차원 분할표의 경우는 독립성, 동질설 검정의 경우 카이제곱검정을
실시하고 행(열) 퍼센트에 의해 그 의미를 충분히 파악할 수 있음
그러나 r×c가 복잡해지면 카이제곱검정의 신뢰도가 떨어지게 되므로 대응일치 분석이
효과적 일 수 있음
카이제곱검정의 경우 결과가 P-value=0.000 으로서 매우 종속적인 관계가 있음을
보여주지만 의미해석이 simple 하지 못할 수 있음
이에 대응분석은 대칭도를 통해 맵핑 결과를 명확하고 단순하게 알 수 있음
기원
대응분석이 다변량 자료분석에서 널리 알려진 때는 1980 년대이다.
대응분석의 수리적인 기원은 1930 년대 Hirshfeld 의 『상관관계와 분할표의 연관성』이라는
논문이고, 1940-1950 년대에 몇몇 학자들에 의해서 더욱 발전되었다.
대응분석의 기하적인 면은 1960 년대 프랑스에서 Jean-Paul Benzecri 에 의해서 발전되었다.
일본에서는 1950 년대 Chikio Hayashi 에 의해서 수량화 제 3 방법으로 개발되어 발전되었고,
프랑스에서는 1960 년대 Jean-Paul Benzecri 가 이끄는 자료분석 모임이 다양한 분야로부터
수집된 자료를 분석하는데 대응분석 기법을 응용하고 발전시켰다.
Exploratory Data Analysis | Spring, 2012 | Chapter 6. Cross Table
| 5
Professor Kwon, Sehyug | Dept. of Statistics, HANNAM Univ. 010.6365.7622 http://wolfpack.hnu.ac.kr
기호
nij: (i, j) 셀 관측빈도
ni+: (i)번째 행의 관측빈도 합
n+j: (j)번째 열의 관측빈도 합
방법
(i, j) 셀의 빈도 nij (≥ 0)의 i 번째 행 (ni1, …, nic)은 총빈도가 ni+ = ni1+ … + nic 이고
C 개 범주를 갖는 다항 분포
Multinomial 분포의 대응 확률은 상대빈도 fij = nij / n: 이것을 행 프로파일 (row
profile)이라 정의
각 행의 상대적 빈도 fi+ = fi1 + … + fic 를 선형계수로 (주성분 분석과 유사) 하여 좌표
계산
ri =(fi1 / fi+ , fi2 / fi+ , …, fic / fi+ )는 C 차원 가중 Euclid 공간의 좌표
가중(weighted) Euclid 공간이란 두 개의 좌표 ra, rb 사이의 거리가 다음과 같이 정의
f+j = f1j + … + frj ==>
같은 방식으로 열 프로파일의 좌표 및 개체 거리 계산
행, 열 프로파일을 각각 2 차원 공간에 표현하거나 동시에 표현
예제
학과
영어 등급 경영 경제 통계
A 78 65 68
B 22 8 30
C 20 2 7
j
j
b
jb
a
ja
ba ff
f
f
frrd /)(),( 2
Exploratory Data Analysis | Spring, 2012 | Chapter 6. Cross Table
| 6
Professor Kwon, Sehyug | Dept. of Statistics, HANNAM Univ. 010.6365.7622 http://wolfpack.hnu.ac.kr
15대 대통령선거 득표율
대통령선거.csv 데이터는 제 15 대 대통령선거에서 입후보자들의 지역별
득표이다.
(1) 카이제곱검정을 실시하여 후보자간 지역별 득표의 차이가 있는지 검정하고
행퍼센트, 열퍼센트 이용하여 해석하시오.
(2) median polish 분석을 실시하고 해석하시오.
(3) 대응분석을 실시하여 대응 산점도를 그리고 해석하시오.