표본조사 가중치 작성 및 적용 - kostat.go.kr · - 3 - 표본조사 가중치 작성 및...

26
표본조사 가중치 작성 및 적용 - 1 - - 제1회 국가통계 방법론 심포지엄 : 튜토리얼 - 제1회 국가통계 방법론 심포지엄 : 튜토리얼 - 제1회 국가통계 방법론 심포지엄 : 튜토리얼 - 표본조사 가중치 작성 및 적용 2011년 10월 19일 김 영 원 (숙명여대 통계학과)

Upload: others

Post on 08-Sep-2019

3 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 표본조사 가중치 작성 및 적용 - kostat.go.kr · - 3 - 표본조사 가중치 작성 및 적용 조사통계연구회 Workshop  “표본조사에서

표본조사 가중치 작성 및 적용- 1 -

- 제1회 국가통계 방법론 심포지엄 : 튜토리얼 - 제1회 국가통계 방법론 심포지엄 : 튜토리얼 - 제1회 국가통계 방법론 심포지엄 : 튜토리얼 -

표본조사 가중치 작성 및 적용

2011년 10월 19일

김 영 원 (숙명여대 통계학과)

Page 2: 표본조사 가중치 작성 및 적용 - kostat.go.kr · - 3 - 표본조사 가중치 작성 및 적용 조사통계연구회 Workshop  “표본조사에서

표본조사 가중치 작성 및 적용- 2 -

목 차

❏ 표본조사 가중치 개요

❏ 설계가중치 (design weight)

❏ 무응답에 따른 가중치 조정

❏ 벤치마킹 가중치 조정

Page 3: 표본조사 가중치 작성 및 적용 - kostat.go.kr · - 3 - 표본조사 가중치 작성 및 적용 조사통계연구회 Workshop  “표본조사에서

표본조사 가중치 작성 및 적용- 3 -

조사통계연구회 Workshop

<통계의 날 기념 워크숍>

“표본조사에서 가중치 적용 및 활용”

2003년 8월 29일

주최: 한국통계학회 조사통계연구회, 통계청

발표자 : 류제복(청주대), 박진우(수원대), 손창균(보사연), 이기재(방송대)

Page 4: 표본조사 가중치 작성 및 적용 - kostat.go.kr · - 3 - 표본조사 가중치 작성 및 적용 조사통계연구회 Workshop  “표본조사에서

표본조사 가중치 작성 및 적용- 4 -

가중치 : 기본개념

m 포함확률 로 추출된 표본단위 는 모집단에서 1/개의 단위를

“대표(represents)”한다.  

(예) 10,000 가구 중 1,000 가구를 SRS으로 추출 (각 단위를 1/10 확률로 추출)

=> 각 표본단위는 모집단에서 10개 단위를 대표

(예) 남자 100명중 20명, 여자 200명 중 20명

=> 단순평균으로 추정 … ???

m 자료 분석에 있어서, 표본단위 에서 얻은 결과를 1/배로 확대 반영

즉, 표본단위 에 가중치(확대승수) 를 부여

o 총계추정 : ∈

(Horvitz-Thopmsos 추정량)

Page 5: 표본조사 가중치 작성 및 적용 - kostat.go.kr · - 3 - 표본조사 가중치 작성 및 적용 조사통계연구회 Workshop  “표본조사에서

표본조사 가중치 작성 및 적용- 5 -

가중치 적용

m "epsem" 표본이 아닌 경우, 추출확률의 차이를 보정

m 무응답에 따른 가중치 보정 : 단위 무응답

m 벤치마킹 가중치 보정

- 사후층화(post-stratification) & 레이킹 비(Raking Ratio)

- 특정 변수(성별/연령) 관점에서 가중 표본분포가 센서스나 추계 가구수(인구)

모집단 분포와 일치하도록 보정

▶ 추정량의 정확성(accuracy) 제고

- 불균등 확률추출, 무응답, 포함오차 등에 따른 편향 보정

Page 6: 표본조사 가중치 작성 및 적용 - kostat.go.kr · - 3 - 표본조사 가중치 작성 및 적용 조사통계연구회 Workshop  “표본조사에서

표본조사 가중치 작성 및 적용- 6 -

설계 가중치 예제 : 불균등선택확률에 따른 가중치

❏ 층화 다단계 추출 표본

- 도시지역 및 농촌지역 가구로 층화,

- 각 층에서 다단계 추출로 가구 표본을 추출,

- 추출률은 도시지역 가구는 1/126.3, 농촌지역 가구는 1/252.6

- 각 표본 가구에서 랜덤하게 1명의 성인을 표본으로 추출,

- 표본으로 추출된 성인을 대상으로 취업여부 조사

o 도시가구 층 :

o 농촌가구 층 :

Page 7: 표본조사 가중치 작성 및 적용 - kostat.go.kr · - 3 - 표본조사 가중치 작성 및 적용 조사통계연구회 Workshop  “표본조사에서

표본조사 가중치 작성 및 적용- 7 -

예제 : 자료 분석

층 가구

도시 1 2 252.6 1 252.6

2 2 252.6 1 252.6

3 1 126.3 0 0

농촌 1 4 1010.4 0 0

2 2 505.2 1 505.2

3 3 757.8 0 0

합계 2904.9 1010.4

또는 34.8%

o 총계추정(총 취업자수 추정) :

※ 가중치 미반영 (오류) : 3/6 = 0.5 또는 50%

Page 8: 표본조사 가중치 작성 및 적용 - kostat.go.kr · - 3 - 표본조사 가중치 작성 및 적용 조사통계연구회 Workshop  “표본조사에서

표본조사 가중치 작성 및 적용- 8 -

자체가중표본(self-weighted) & 균등확률추출(epsem)

m 단순확률추출 :

m 층화추출 비례배분 :

☞ 네이만배분, 최적배분 등 : epsem 이 아님

m 이단 집락 추출 (통계청 경활조사 등)

- 조사구(PSU)를 PPS(Probability Proportional to Size)로 추출 후

- 각 조사구에서 20()가구를 계통추출

( : psu size, )

※ PPES (Probability Propotional to ESTIMATED Size) : epsem 아님

Page 9: 표본조사 가중치 작성 및 적용 - kostat.go.kr · - 3 - 표본조사 가중치 작성 및 적용 조사통계연구회 Workshop  “표본조사에서

표본조사 가중치 작성 및 적용- 9 -

[사례 1] : 청년패널-YP2007 (한국고용정보원)

❏ 이중표본추출(Double sampling)

- 1단계 표본 (OES 조사) : 조사구 pps 후 조사구별 가구 추출

- 2단계 표본 (청년패널조사) : OES 표본가구 대상 층화 추출

- 최종 표본 규모 10,206 명 (15~29세 청년층 대상)

❏ 설계가중치

×

×

: 조사구 가구수, : 층별 전체 조사구 수, : 표본 조사구 수

: OES 표본 가구수, : OES 추출틀 층별 가구수, : 층별 표본 가구수

Page 10: 표본조사 가중치 작성 및 적용 - kostat.go.kr · - 3 - 표본조사 가중치 작성 및 적용 조사통계연구회 Workshop  “표본조사에서

표본조사 가중치 작성 및 적용- 10 -

[사례 2] : 고령화연구패널 (한국노동연구원)

❏ 조사적격 가구 대상 표본추출 : 모집단이 조사적격 가구 집단임

- 조사대상 : 45세 이상 고령자 거주 가구 (조사적격 가구) - 조사구별 조사적격 가구 추출확률 산출 필요함

※ 조사구 명부에서 계통추출로 일정수의 가구(동부 15, 읍면부 12가구) 추출 후 그 중 적격가구로 패널을 구축

m 적격가구 비율 추정 (1,000개 조사구 대상 현황; 평균 6.2가구)

[ 성공가구별 조사구수 ]

10 1232 37

119143

422

71 5737 28 31

1

12가구 11가구 10가구 9가구 8가구 7가구 6가구 5가구 4가구 3가구 2가구 1가구 0가구

[참고] 표본가구 적격여부 확인율: 86.8% (경북 95.2% ~ 서울 80.8%)

Page 11: 표본조사 가중치 작성 및 적용 - kostat.go.kr · - 3 - 표본조사 가중치 작성 및 적용 조사통계연구회 Workshop  “표본조사에서

표본조사 가중치 작성 및 적용- 11 -

[사례 3] 식품산업 원료소비 실태조사 (농수산물유통공사)

❏ 조사적격 사업체 : 조사대상 농수산물 원료 취급 사업체

o 추정 모수: 제조업/외식업 농수산물 원료 구매량 총계

☞ 조사는 농수산룰 원료 취급 사업체만을 대상으로 수행됨

o 추출틀 : 통계청 전국사업체조사 자료 중 식품산업 관련 제조업종

o 층별(세분류별) 조사적격(농수산물 취급) 사업체 대상 추출확률 산출 필요함

❏ 설계가중치

o 층내 사업체 가중치 :

× ≠

- 여기서 : 조사완료 사업체수 , : 추출틀상 전체 사업체수

: 농수산물 원료 사용 사업체 비율 (추정 필요함 : 실사 중)

Page 12: 표본조사 가중치 작성 및 적용 - kostat.go.kr · - 3 - 표본조사 가중치 작성 및 적용 조사통계연구회 Workshop  “표본조사에서

표본조사 가중치 작성 및 적용- 12 -

무응답 가중치 조정

❏ 무응답 가중치 조정 개요

: 즉, 특정 단위로부터 응답을 얻을 확률 : × ☞ 추출() & 응답( )

m HT 추정량 (확장한 형태)

: ∈

여기서,

: 무응답 조정 상수 ※ : 응답 성향(확률)

: 무응답 조정 가중치

❏ 무응답 조정 상수 의 추정

- 무응답 조정 그룹 (non-response adjustment cell) 이용

- 응답성향(response propensity) 모형 : "logistic regression model"

Page 13: 표본조사 가중치 작성 및 적용 - kostat.go.kr · - 3 - 표본조사 가중치 작성 및 적용 조사통계연구회 Workshop  “표본조사에서

표본조사 가중치 작성 및 적용- 13 -

(1) 무응답 조정 그룹 (non-response adjustment cell)

- 무응답처리를 위한 그룹 구성 : ☞ 그룹내 MCAR (즉, MAR 가정에서 )

- 각 그룹별 가중 응답률을 산출, 응답률의 역수를 무응답 조정 상수로 사용

❏ 그룹별 가중 응답률 (weighted response rate) 이용

m 그룹 C : ∈

즉, 표본 조사대상자 중 면접 완료자의 가중치 합계

표본 조사대상자의 가중치 합계

※ SRS 경우 :

Page 14: 표본조사 가중치 작성 및 적용 - kostat.go.kr · - 3 - 표본조사 가중치 작성 및 적용 조사통계연구회 Workshop  “표본조사에서

표본조사 가중치 작성 및 적용- 14 -

(2) 응답성향(response propensity) 모형

❏ logistic regression model 활용

m 응답성향( )는 응답확률에 해당함으로 로지스틱 회귀모형으로 추정

- 반응변수 : 응답여부 (응답 “1”, 무응답 “0”)

- 설명변수 : 조사단위 특성을 나타내는 속성 변수

m ∼ ln

여기서 ⋯ exp

m 로지스틱 모형을 이용한 응답성향 예측 :

Page 15: 표본조사 가중치 작성 및 적용 - kostat.go.kr · - 3 - 표본조사 가중치 작성 및 적용 조사통계연구회 Workshop  “표본조사에서

표본조사 가중치 작성 및 적용- 15 -

[사례 1] 아동패널 (육아정책연구소)

m 2008년 신생아 가구 패널 : 2078가구 (psu: 의료기관, ssu: 신생아 가구)

❏ 무응답 가중치 조정

m 무응답 조정 그룹 (non-response adjustment cell) 구성

- 로지스틱 모형 적용 (응답률에 영향 주는 변수 선택)

- 거주지, 출생순위, 어머니 취업여부

( 권역(6) * 출생순위(2) * 취업여부(2) => 24개 계급)

m 24개 그룹(c)별 가중 응답률 산출 : ∈

m 무응답 조정 가중치 산출 : ×

Page 16: 표본조사 가중치 작성 및 적용 - kostat.go.kr · - 3 - 표본조사 가중치 작성 및 적용 조사통계연구회 Workshop  “표본조사에서

표본조사 가중치 작성 및 적용- 16 -

[사례 2] 청년패널-YP2007 (한국고용정보원)

❏ 로지스틱 모형 설정 : 설명변수 선택 과정

o 응답자 그룹과 무응답자 그룹 간의 차이를 설명하는 변수 선택

- 연속형 변수 : t-test 활용

- 범주형 변수 : -test 활용

- 로지스틱 모형에서 변수선택 방법(stepwise) 적용

❏ 응답확률 예측을 위한 최종 로지스틱 모형에 포함된 변수

o 중고등학생

- 지역, 성별, 생년, 총가구원수, 학년, 학교성적, 아르바이트 경험여부

o 취업자

- 지역, 생년, 군복무 경험, 직장근속년수, 주당근로시간, 아버지 직업

Page 17: 표본조사 가중치 작성 및 적용 - kostat.go.kr · - 3 - 표본조사 가중치 작성 및 적용 조사통계연구회 Workshop  “표본조사에서

표본조사 가중치 작성 및 적용- 17 -

벤치마킹(benchmarking) 가중치 보정

❏ 벤치마킹 가중치 보정 목적

o 표본조사 추정 결과가 알고 있는 모집단 정보와 일치하도록 가중치 보정

- 센서스, 추계 가구수(인구수), 경활 경제활동인구수 등

- 설계가중치 & 무응답 조정 ⇒ 대부분 벤치마킹 대상 통계와 불일치

❏ 벤치마킹 가중치 보정 방법

o 사후층화 (post-stratification)

- 층(cell)별 총계 추정치가 모집단 정보와 일치하도록 가중치 보정

- 추정식 형태 : “층화추출 추정식” 형태임

o 레이킹-비 (raking ratio) ☞ "Rim weight" 보정이라고도 함

- 주변(marginal) 총계가 일치하도록 반복적으로 가중치 조정

Page 18: 표본조사 가중치 작성 및 적용 - kostat.go.kr · - 3 - 표본조사 가중치 작성 및 적용 조사통계연구회 Workshop  “표본조사에서

표본조사 가중치 작성 및 적용- 18 -

[사례 1] 아동패널 사후층화 가중치 보정

❏ 통계청 2010년 주민등록 인구 자료 : 권역별 2세 남/여 아동수

- 아동패널에서 권역별 남/여 가중치 합과 일치하지 않음

- 6개권역 * 남/여 => 12개 그룹 대상

❏ 가중 표본분포가 모집단 분포와 일치하도록 조정,

- 그룹별로 다음 조정상수를 그룹내 가구 가중치에 곱하여 가중치 보정

합가중치아동패널그룹해당

아동수주민등록그룹해당

1 =cb

❏ 최종가중치 : × ×

여기서, : 설계가중치, : 무응답 조정 상수, : 벤치마킹 보정 상수

Page 19: 표본조사 가중치 작성 및 적용 - kostat.go.kr · - 3 - 표본조사 가중치 작성 및 적용 조사통계연구회 Workshop  “표본조사에서

표본조사 가중치 작성 및 적용- 19 -

[사례 2] 청년패널 raking ratio 가중치 보정

❏ 매년 추계인구 성별, 연령별 분포에 벤치마킹

o 다음 2가지 방안 검토 ① 지역별, 성별과 연령별 주변 분포를 고려한 레이킹비 보정 : ② 지역*성*연령 결합분포를 기초로 한 사후층화 보정 :

o 최종적으로 ② 선택 : “raking ratio" - 최종 가중치의 변동 폭 감안 (극단적인 가중치 발생 가능성 제어)

❏ 경활 기준 추가 벤치마킹 가중치 보정

o 경제활동인구조사 청년층의 취업자, 구직자, 비경활인구 구성비 벤치마킹

❏ 인구추계자료와 경활자료를 이용한 2단계 보정

o 1단계: 설계가중치를 경활 취업자/실업자/비경제활동 인구수 기준 보정

o 2단계: 1단계 가중치를 인구추계 시도/성별/연령대 주변분포 기준 추가 보정

Page 20: 표본조사 가중치 작성 및 적용 - kostat.go.kr · - 3 - 표본조사 가중치 작성 및 적용 조사통계연구회 Workshop  “표본조사에서

표본조사 가중치 작성 및 적용- 20 -

Calibration Estimators, GREG & Post Stratification

Ref: Calibration Estimators in Survey Sampling

- Devill and Sarndal ; JASA, 1992, 87(418) pp. 376-3882

❏ General Regression (GREG) estimator by Calibration

- 유한모집단 : ❴⋯⋯❵ - 포함확률 : ∈ - 관심변수 :

- 보조변수 벡터 : ⋯⋯′

- 의 모집단 총계 : (known ) ☜ 벤치마킹 대상 정보

Page 21: 표본조사 가중치 작성 및 적용 - kostat.go.kr · - 3 - 표본조사 가중치 작성 및 적용 조사통계연구회 Workshop  “표본조사에서

표본조사 가중치 작성 및 적용- 21 -

❏ General Regression (GREG) estimator by Calibration (2)

- Basic sampling design weights :

- HT estimator :

o

을 만족 한다고 가정 (benchmarking) ... (1)

☞ calibration method

o ❴

❵ : 평균거리측도

ref: distance function (Deville and Sarndal; 1992)

Page 22: 표본조사 가중치 작성 및 적용 - kostat.go.kr · - 3 - 표본조사 가중치 작성 및 적용 조사통계연구회 Workshop  “표본조사에서

표본조사 가중치 작성 및 적용- 22 -

❏ General Regression (GREG) estimator by Calibration (3)

o 벤치마킹 조건 (1)을 만족하면서 평균거리함수를 최소화하는 를 찾음

: 에 대해 편미분해 풀면 새로운 가중치 는 다음과 같다.

⇒ ′ ′

: Lagrange multipliers (where,

′ )

o

′ : GREG of ... (2)

where,

Page 23: 표본조사 가중치 작성 및 적용 - kostat.go.kr · - 3 - 표본조사 가중치 작성 및 적용 조사통계연구회 Workshop  “표본조사에서

표본조사 가중치 작성 및 적용- 23 -

❏ Poststratification ; Calibration on known counts in frequency table

; Poststratification is a special case of GREG

o 모집단이 G개 사후 층으로 구성; 모집단 크기 ( ⋯ )를 알 때,

= ❴1 , 가 그룹에 속할 때

0 ,

⋯ ′

⋯ ′

′ ⋯

Page 24: 표본조사 가중치 작성 및 적용 - kostat.go.kr · - 3 - 표본조사 가중치 작성 및 적용 조사통계연구회 Workshop  “표본조사에서

표본조사 가중치 작성 및 적용- 24 -

then,

⦙ ⦙ ⋯⋯

&

Page 25: 표본조사 가중치 작성 및 적용 - kostat.go.kr · - 3 - 표본조사 가중치 작성 및 적용 조사통계연구회 Workshop  “표본조사에서

표본조사 가중치 작성 및 적용- 25 -

i f ∈

Hence,

Greg:

(post-stratification)

❏ Post-stratification ; Variance Estimation

o Greg 분산추정식으로 추정될 수 있음

- SAS Proc Surveyreg 활용 가능

- (예) 경활추정량 분산추정 등

Page 26: 표본조사 가중치 작성 및 적용 - kostat.go.kr · - 3 - 표본조사 가중치 작성 및 적용 조사통계연구회 Workshop  “표본조사에서

표본조사 가중치 작성 및 적용- 26 -

감사합니다 !!!

Q & A