국민건강영양조사의개요와...

68
국민건강영양조사의 개요와 복합표본조사 자료분석 변종석 (한신대학교 응용통계학과)

Upload: others

Post on 03-Mar-2020

11 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 국민건강영양조사의개요와 복합표본조사자료분석hosting03.snu.ac.kr/~hokim/sas/2018/lec1.pdf · 추출틀오차: 조사대상설정및포함범위오류, • 조사대상명부작성오류(누락,

국민건강영양조사의 개요와복합표본조사 자료분석

변 종 석(한신대학교 응용통계학과)

Page 2: 국민건강영양조사의개요와 복합표본조사자료분석hosting03.snu.ac.kr/~hokim/sas/2018/lec1.pdf · 추출틀오차: 조사대상설정및포함범위오류, • 조사대상명부작성오류(누락,

목차

1. 표본추출법

2. 국민건강영양조사의 개요와 자료분석 : ppt 별도

3. 복합표본조사자료분석 개념

2018-11-19 서울대보건대학원_2018 2

Page 3: 국민건강영양조사의개요와 복합표본조사자료분석hosting03.snu.ac.kr/~hokim/sas/2018/lec1.pdf · 추출틀오차: 조사대상설정및포함범위오류, • 조사대상명부작성오류(누락,

서론 : 조사의 분류

• 조사 대상 기준• 전수조사

• 표본조사

• 조사 내용 기준• 통계조사

• 사회/여론조사

• 실태조사

• 마케팅조사

• 정책조사

• 선거조사

• 출구조사

2018-11-19 서울대보건대학원_2018 3

Page 4: 국민건강영양조사의개요와 복합표본조사자료분석hosting03.snu.ac.kr/~hokim/sas/2018/lec1.pdf · 추출틀오차: 조사대상설정및포함범위오류, • 조사대상명부작성오류(누락,

서론 : 표본조사의 필요성

모집단

- 유권자(전체, 연령대, 지역별 등)는 누구를 지지할까?- 국민들은 새로운 정책에 대해 어떻게 생각할까?- 정책/제품에 대한 만족 정도는 얼마나 될까?- 연령별, 성별에 따라 제품 구매시 고려하는 속성에 차이가 있을까?- 매출에 영향을 주는 요인은 무엇일까?- 이탈 고객은 어떤 특성을 가지고 있을까? 등등

목표 : 관심사항

1) 일반적으로 모집단 자료는 미지(unkown) 임을 인지2) 관심사항(목표)를 파악하는 데 필요한 기초 자료는 있는가?

- 있는 경우 : 현재 모집단 특성을 파악하는 데 유용한 자료인가? (대표성, 충분성, 정확성, 적합성, 시의성 등)- 없는 경우 : 모집단 특성 파악을 위한 자료 수집이 필요

- 표본조사 수행 : 조사설계(표본설계, 측정/설문지 설계/실사 계획/분석 계획 등) 필요

- 모집단 특성 파악에 필요한 기초 자료 수집이 필요- 자료 규모 수준 및 범위 검토 : 대상 및 규모에 따라 전체(모집단) 자료? 일부분(표본) 자료?

2018-11-19 서울대보건대학원_2018 4

Page 5: 국민건강영양조사의개요와 복합표본조사자료분석hosting03.snu.ac.kr/~hokim/sas/2018/lec1.pdf · 추출틀오차: 조사대상설정및포함범위오류, • 조사대상명부작성오류(누락,

표본의 역할과 표본조사의 구성 요소

• 표본의 역할

• 표본조사(survey sampling : sample survey)의 요소• 측정 : survey

• 대표성 : sampling

모집단 표본추출

모수 추정량추론

일반화

2018-11-19 서울대보건대학원_2018 5

Page 6: 국민건강영양조사의개요와 복합표본조사자료분석hosting03.snu.ac.kr/~hokim/sas/2018/lec1.pdf · 추출틀오차: 조사대상설정및포함범위오류, • 조사대상명부작성오류(누락,

• 표본조사에서 측정과 대표성의 의미

목표모집단설정

표본(추출)틀구축

표본 구성

응답자확보

사후 보정

대표성

측정방안구축

측정 설계

응답

편집완료유효응답

측정

조사통계량

타당성

측정오차(measurement

Error)

처리오차(processing

Error)

Coverageerror

Samplingerror

Nonresponseerror

Adjustmenterror

인용 : Groves 외(2009)

비표본오차 표본오차

2018-11-19 서울대보건대학원_2018 6

Page 7: 국민건강영양조사의개요와 복합표본조사자료분석hosting03.snu.ac.kr/~hokim/sas/2018/lec1.pdf · 추출틀오차: 조사대상설정및포함범위오류, • 조사대상명부작성오류(누락,

• 참고 : 표본조사의 장점1. 경제성 ; 비용이 절감2. 신속성 ; 조사 및 결과의 처리 시간이 감소3. 정확성 ; 자료의 정확도가 향상4. 파괴조사와 같이 전수조사가 불가능한 경우에 적용5. 다량 정보 획득 가능으로 상세한 특성값 파악이 가능6. 표본관리의 용이성

• 참고 : 표본설계를 위한 기본 용어• 모집단 : 목표 모집단과 조사 모집단• 모수와 통계량, 추정량• 추출틀• 추출단위• 조사단위

2018-11-19 서울대보건대학원_2018 7

Page 8: 국민건강영양조사의개요와 복합표본조사자료분석hosting03.snu.ac.kr/~hokim/sas/2018/lec1.pdf · 추출틀오차: 조사대상설정및포함범위오류, • 조사대상명부작성오류(누락,

• [참고] 표본오차의 의미 특성화 오차 : 연구목표 오해, 목표모집단과 조사모집단의 불일치

추출틀 오차 : 조사대상 설정 및 포함 범위 오류, • 조사대상 명부 작성 오류(누락, 중복, 부정확한 정보) 등

• 부적격 대상 포함

표본선택 편의목표모집단

조사모집단 부적격대상

미포함(누락 등)

추출틀

표본

추출

2018-11-19 서울대보건대학원_2018 8

Page 9: 국민건강영양조사의개요와 복합표본조사자료분석hosting03.snu.ac.kr/~hokim/sas/2018/lec1.pdf · 추출틀오차: 조사대상설정및포함범위오류, • 조사대상명부작성오류(누락,

표본조사의 고려 사항

• 과학적인 표본조사의 정의• 전체 목표모집단 중 일부의 부분집단(표본)을 과학적인 추출 방법에 따라 추출하여 그 추출된

표본대상을 조사하여 표본에서 얻어진 정보를 토대로 모집단에 대한 특성을 추정하는 것

• 고려사항 : 표본조사에 영향을 주는 요인– 표본조사는 표본정보와 모집단 정보의 차이에 의해 추론 결과의 정확성이 의존

– 부분자료의 정보(특성)가 전체 자료의 정보를 얼마나 설명(대표)하는가

– 표본조사자료를 이용한 통계적 추론에 영향을 주는 요소

• 표본 추출대상 범위 : 대표성

• 표본 정보의 양 : 충분성

• 표본 정보 수준 : 오차 수준

• 측정 타당성

• 측정 정확성

2018-11-19 서울대보건대학원_2018 9

Page 10: 국민건강영양조사의개요와 복합표본조사자료분석hosting03.snu.ac.kr/~hokim/sas/2018/lec1.pdf · 추출틀오차: 조사대상설정및포함범위오류, • 조사대상명부작성오류(누락,

2. 표본설계의 이해 : 과학적인 표본설계의 의미

– 표본설계란?

• 전체 조사대상(모집단)의 자료를 수집하는 것이 현실적으로 불가능하거나 어려운 경우, 전체 조사대상을 대표하는 일부의 단위 집합을 추출하는 과정을 설계하는 작업을 의미

• 표본크기 및 표본추출방법의 결정 등이 중요한 내용

– 표본설계는 표본조사(혹은 통계조사)의 가장 기본이 되는 과정으로 조사 결과의 정확성에 크게 영향을 주는 매우 중요한 작업

– 일반적으로 조사 목적, 추출틀, 표본(조사) 규모, 표본추출법, 표본오차 및 시간, 비용, 인적 자원 등의 최적 조건을 고려하여 효율적(efficient) 이고 강건한 (robust) 설계가 되도록 하는 것이 바람직

[토의1] Q : 모집단을 대표하는 표본설계란? 모집단에 속해 있는 각 단위(구성원)가 표본으로 선택될 가능성이 일정(가능한 동일)하게 되도록

표본을 추출하는 설계를 의미

일반적으로 확률추출법을 적용하여 표본을 추출하는 것이 대표성을 확보하는 바람직한 방법

2018-11-19 서울대보건대학원_2018 10

1. 표본설계

Page 11: 국민건강영양조사의개요와 복합표본조사자료분석hosting03.snu.ac.kr/~hokim/sas/2018/lec1.pdf · 추출틀오차: 조사대상설정및포함범위오류, • 조사대상명부작성오류(누락,

• [토의2] Q : 표본조사에서 확률추출이 중요한 이유는?

모집단을 대표하는 집단 구성이 가능 확률표본 : 랜덤화 과정으로 추출된 표본을 의미 단순확률표본, 층화확률표본, 계통표본, 집락표본 등

전통적인 추정이론에서 추정량의 성질을 확률적으로 평가하기 위해 표본을 추출할 때 반드시 랜덤하게 추출할 것을 요구 표본오차 계산이 가능 추정량의 편향 여부 추정 결과의 정확성을 확률적으로 표현 가능

확률표본을 구성해야 다양한 통계 분석이 가능

• [토의3] Q : 확률추출을 위해 기본적인 요구 조건은 ? 모집단 대상의 추출 확률이 알려져 있어야 함 모집단 대상의 추출 확률이 모두 동일하게 부여해야 함

2018-11-19 서울대보건대학원_2018 11

Page 12: 국민건강영양조사의개요와 복합표본조사자료분석hosting03.snu.ac.kr/~hokim/sas/2018/lec1.pdf · 추출틀오차: 조사대상설정및포함범위오류, • 조사대상명부작성오류(누락,

• 표본설계의 주요 과정

모집단 정의추출틀 선정

층화

표본크기 결정 및 배분

표본추출

자료수집방법 결정

가중치 계산추정식 유도

과거 결과 반영

2018-11-19 서울대보건대학원_2018 12

Page 13: 국민건강영양조사의개요와 복합표본조사자료분석hosting03.snu.ac.kr/~hokim/sas/2018/lec1.pdf · 추출틀오차: 조사대상설정및포함범위오류, • 조사대상명부작성오류(누락,

2. 표본크기 결정• 표본크기 결정을 위한 기본 고려 요소

• 조사목적과 여건을 고려하여 결정• 일반적으로 표본추출방법, 목표 오차, 신뢰수준, 분포, 비용, 응답률 등을 고려해 결정

1. 표본크기의 결정 과정 (단순확률추출법 가정)가) 목표 정도(=추정오차한계) 설정 ; 표본조사에서 예상하는 표본오차(=추정오차)에 대한 목표 추정오차(B)를

미리 설정

여기서, 는 모수, 은 표본 추정량을 의미

나) 신뢰수준( ) 설정

여기서, 의미

다) 최소 비용조건에서 목표 요구 정도(=추정오차)를 얻을 수 있는 적절한 표본추출방법을 선택하여 표본 크기

를 결정

- 일반적으로 비용보다는 최소 분산을 갖는 조건에서 오차한계를 달성할 수 있는 표본크기를 계산

B ˆ추정오차(Error of Estimation)

1 1ˆPr B

ˆ96.1B

2018-11-19 서울대보건대학원_2018 13

Page 14: 국민건강영양조사의개요와 복합표본조사자료분석hosting03.snu.ac.kr/~hokim/sas/2018/lec1.pdf · 추출틀오차: 조사대상설정및포함범위오류, • 조사대상명부작성오류(누락,

• 예1 : 모평균 추정을 위한 표본크기 결정(단순확률추출법 가정)• 산출 식 : 95% 신뢰수준에서 모평균 추정을 위한 표본크기의 결정

- 표본추출 : 복원 추출

- 표본추출 : 비복원 추출 혹은 유한모집단

• 예: N = 5000인 A기업에서 직원의 평균 문화비를 조사하는 경우, 추정오차 한계가 1,000원이내인 결과를 95% 신뢰수준에서 얻고자 할 때 필요한 표본크기는?(과거 조사 결과가 없어서 모분산 파악을 위한 50명을 사전조사한 결과, 표준편차는 6000원으로 파악된 것으로 가정)

nB

X

96.196.1

2

2

2

096.1

Bn

N

n

n

NB

n0

0

22

2

22

196.1

96.1

N

nN

nB

X

96.196.1

135

5000

600096.11000

600096.1

50003.1381

3.138

1

22

2

22

0

0

N

n

nn3.138

1000

600096.1

2

2

2

0n

2018-11-19 서울대보건대학원_2018 14

Page 15: 국민건강영양조사의개요와 복합표본조사자료분석hosting03.snu.ac.kr/~hokim/sas/2018/lec1.pdf · 추출틀오차: 조사대상설정및포함범위오류, • 조사대상명부작성오류(누락,

• 예2 : 모비율 추정을 위한 표본크기 결정(단순확률추출법 가정)• 산출 식 : 95% 신뢰수준에서 모비율 추정을 위한 표본크기의 결정

- 표본추출 : 복원 추출

- 표본추출 : 비복원 추출 혹은 유한모집단

• 예: N = 5000인 A기업에서 새로운 복지제도에 찬성하는 직원의 비율을 조사하고자하는 경우, 추정오차 한계가 0.05이내인 결과를 95% 신뢰수준에서 얻고자 할 때 필요한 표본크기는?

n

PQB p 96.196.1 ˆ2

2

096.1

B

PQn

N

n

n

N

PQB

PQn

0

0

2

2

2

196.1

96.1

N

nN

n

PQB p 96.196.1 ˆ

357

5000

5.05.096.11000

5.05.096.1

50002.3841

2.384

1

2

2

2

0

0

N

n

nn2.384

05.0

5.05.096.1

2

2

0

n

참고 : 일반적으로 모비율 추정을 위한 표본크기 계산에서 모비율의 분산에 대한 사전 정보가 없다면 모분산이

최대가 되는 PQ(=0.25=05*0.5)를 사용하여 최대 표본오차를 기준으로 표본크기를 결정

2018-11-19 서울대보건대학원_2018 15

Page 16: 국민건강영양조사의개요와 복합표본조사자료분석hosting03.snu.ac.kr/~hokim/sas/2018/lec1.pdf · 추출틀오차: 조사대상설정및포함범위오류, • 조사대상명부작성오류(누락,

2. 표본크기 관련 식• 상대표준오차를 이용한 표본크기 결정

• 표본조사의 목표 상대표준오차(=Relative Standard Error)를 설정하여 표본크기를 결정

여기서 CV(=표준편차/평균)는 모집단의 변동계수,

d는 목표 상대표준오차(추정량의 변이계수), N은 모집단 크기

• 계속조사 : 이전 조사 결과를 반영한 표본크기 결정• 이전 조사의 목표 상대표준오차(=Relative Standard Error)를 이용하여 표본크기를 결정

여기서 은 이전조사의 표본크기, 는 이전 조사의 상대표준오차,

는 목표 상대표준오차, N은 모집단 크기

2

ˆ

d

CVn

o

N

n

nn

0

0

1

n

CVd ˆ

2

0

CV

VCnn

n VC

CV

N

n

nn

0

0

1

2018-11-19 서울대보건대학원_2018 16

Page 17: 국민건강영양조사의개요와 복합표본조사자료분석hosting03.snu.ac.kr/~hokim/sas/2018/lec1.pdf · 추출틀오차: 조사대상설정및포함범위오류, • 조사대상명부작성오류(누락,

• 가설검정 및 비교연구를 위한 표본크기 결정• 검정력(=power)을 고려한 표본크기를 계산

• 예1 : 한 모집단에서 모비율의 가설검정을 위한 표본크기(단측검정)

000α10Hunder )/nP(1PzPc

11111Hunder )/nP(1PzPc

0P 1

Pc

00PP:H

01PP:H

1

)/nP(1PzP)/nP(1PzPc111100α10

2

01

2

11β100α1

PP

)P(1Pz)P(1Pzn

2018-11-19 서울대보건대학원_2018 17

Page 18: 국민건강영양조사의개요와 복합표본조사자료분석hosting03.snu.ac.kr/~hokim/sas/2018/lec1.pdf · 추출틀오차: 조사대상설정및포함범위오류, • 조사대상명부작성오류(누락,

• 예2 : 두 모비율 차이에 대한 가설 검정(양측 검정)

2/

0 21PP 2

c

1

2/

1c

)/2P(PP where, Hunder )/nP(1P2z0c210α/212

nnn , Hunder )P(1P)P(1P(1/n)z)P(Pc2112211β1212

210PP:H 211

PP:H

2

21

2

2211β1α/21

PP

)P(1P)P(1Pz)P(1P 2z n

2018-11-19 서울대보건대학원_2018 18

Page 19: 국민건강영양조사의개요와 복합표본조사자료분석hosting03.snu.ac.kr/~hokim/sas/2018/lec1.pdf · 추출틀오차: 조사대상설정및포함범위오류, • 조사대상명부작성오류(누락,

3. 표본추출방법

• 표본추출방법 결정 시 고려 사항• 모집단

• 추출단위

• 표본추출과정

• 표본크기

• 추정 및 분석방법

• 표본추출법• 비확률추출법(non-probability sampling)

• 확률추출법(probability sampling)

W.E. Deming“ 표본추출이란 전체를 대신하는 일부를 선택하는 것이라기 보다는 확률적 근거에 의해 유용한 통계적 정보의신뢰성을 측정하고 조절하는 과학이며 예술이다"

2018-11-19 서울대보건대학원_2018 19

Page 20: 국민건강영양조사의개요와 복합표본조사자료분석hosting03.snu.ac.kr/~hokim/sas/2018/lec1.pdf · 추출틀오차: 조사대상설정및포함범위오류, • 조사대상명부작성오류(누락,

1. 비확률추출법

• 비확률추출법의 특성• 조사자의 주관이나 경험에 의해 편의적으로 표본을 추출하는 방법

• 표본추출이 간편하고 경제적임

• 조사자의 주관적 개입으로 표본을 추출하므로 결과의 일반화에 어려움이 존재

• 추정 및 분석 과정의 정확성을 평가할 수 없음이 단점(과학적 조사 방법으로서의 한계 존재)

• 모든 통계분석방법의 기본적인 자료는 확률추출에 의한 표본으로부터 수집한 자료를 가정함

• 비확률추출법의 종류• 간편추출법 (convenience sampling)

• 판단추출법 ( judgement sampling)

• 할당추출법 (quota sampling)

• 눈덩이추출법 (snowball sampling)

2018-11-19 서울대보건대학원_2018 20

Page 21: 국민건강영양조사의개요와 복합표본조사자료분석hosting03.snu.ac.kr/~hokim/sas/2018/lec1.pdf · 추출틀오차: 조사대상설정및포함범위오류, • 조사대상명부작성오류(누락,

1) 간편추출법 (convenience sampling)• 정의 : 조사원의 자의적인 판단에 위해 간편한 방법으로 표본을 추출하는 방법

• 예 :

- 거리에서 지나는 사람을 대상으로 임의 선택하여 면접조사

- 표본추출과정없이 ARS를 이용한 전화여론조사

- 표본추출과정없이 인터넷을 이용한 여론조사 및 소비자조사

2) 판단추출법( judgement sampling ; purposive sampling)• 정의 : 연구자 혹은 조사원의 전문적인 판단이나 지식, 경험에 의해 의도적으로 표본을 선택하는 방법

• 특성

- 표본크기가 작거나 정성조사에서 유용한 방법

- 추정량의 정확성을 평가하지 못함

• 예 :

- Opinon leader group 조사

- 전체를 대표한다고 생각되는 일부 가구만을 선정하는 조사

- 평균에 해당하는 일부 대상만을 선정하는 조사

2018-11-19 서울대보건대학원_2018 21

Page 22: 국민건강영양조사의개요와 복합표본조사자료분석hosting03.snu.ac.kr/~hokim/sas/2018/lec1.pdf · 추출틀오차: 조사대상설정및포함범위오류, • 조사대상명부작성오류(누락,

3) 할당추출법 (quota sampling)• 정의 : 알려진 모집단의 구조와 동일한 구성 비율을 유지하도록 표본을 선정하는 방법

• 특성

- 적은 비용, 표본 확보의 편리성때문에 단기간 조사에 적합한 방법

- 조사 목적과 관련이 높은 중요 변수만을 고려하여 표본을 선택하는 방법

- 조사 대상 특성 중 큰 오차를 유발하는 변수에 대해 오차를 감소하도록 표본 선정이 가능한 방법

- 비전문가에게 표본 구조에 대한 이해가 용이한 추출 방법(주의 : 비례배분의 확률추출법과 구조가 동일)

- 표본추출 과정에 비확률적 요소가 포함된 추출 방법

• 예 : 전화조사 및 여론조사에서 널리 채택하는 있는 조사

4) 눈덩이추출법(snowball sampling)• 특정 표본으로부터 해당 집단에 속한 다른 대상을 소개받아서 표본으로 선정하는 방법

• 특성

- 조사 대상이 희귀하거나 접근이 어려운 경우에 유용한 방법

- 추출틀 작성이 어려운 경우에 유용한 추출 방법

- 비확률적인 적응탐색적 추출 방법 (an adaptive searching sampling)

• 예 :

- 희귀 유전병 조사 등

2018-11-19 서울대보건대학원_2018 22

Page 23: 국민건강영양조사의개요와 복합표본조사자료분석hosting03.snu.ac.kr/~hokim/sas/2018/lec1.pdf · 추출틀오차: 조사대상설정및포함범위오류, • 조사대상명부작성오류(누락,

2. 확률추출법

• 확률추출법의 특성• 모집단에 속한 모든 추출단위에 대해서 사전에 정해진 추출확률에 의해 표본을 추출하는 방법

• 조사 결과로부터 모집단 전체에 대한 일반화가 가능한 추출 방법

• 추정량의 정확성 및 신뢰성에 대한 평가가 가능한 방법

• 모든 통계분석방법을 이용한 분석이 가능하고, 그 결과에 대해 일반화가 가능함

• 추정 및 분석 과정이 다소 복잡

• 전통적인 확률추출법의 종류• 단순확률추출법 (SRS : simple random sampling)

• 층화추출법 (STS : stratified sampling)

• 계통추출법 (SYS : systematic sampling)

• 집락추출법 (CLS : cluster sampling)

2018-11-19 서울대보건대학원_2018 23

Page 24: 국민건강영양조사의개요와 복합표본조사자료분석hosting03.snu.ac.kr/~hokim/sas/2018/lec1.pdf · 추출틀오차: 조사대상설정및포함범위오류, • 조사대상명부작성오류(누락,

1) 단순확률추출법 (SRS : simple random sampling)• 정의 : 모집단 대상에게 일련번호를 부여하여 적절한 확률장치를 통해 무작위로 표본을 추출하는 방법

• 추출방법

- 모집단 대상(추출틀의 추출단위)에게 일련번호를 부여하고

- 확률장치(난수표, 난수 생성 프로그램)를 통해 n개의 번호를 무작위로 추출하여

- 확률장치를 통해 추출된 번호와 일치하는 대상을 표본으로 선정

• 특성

- 모집단을 대표하는 가장 이상적인 방법으로 추출틀만 확보되면 적용이 가능한 방법

- 추출단위의 추출확률이 동일하다고 가정 : 모든 대상이 표본으로 추출될 기회가 동일(=가중치 동일)

- 확률추출법의 기본 방법으로 다른 확률추출법의 기초 추출방법으로 활용

- 추출 방법 : 복원추출(WR: With Replacement)과 비복원추출 (WOR: WithOut Replacement)

- 단점

- N이 매우 크면 적용하기 어려운 방법 : 대규모조사에 적용하기 어려움

- 추출단위들이 이질적인 경우 편향된 표집 구성의 가능성이 존재

• 예 :

- RDD

2018-11-19 서울대보건대학원_2018 24

Page 25: 국민건강영양조사의개요와 복합표본조사자료분석hosting03.snu.ac.kr/~hokim/sas/2018/lec1.pdf · 추출틀오차: 조사대상설정및포함범위오류, • 조사대상명부작성오류(누락,

• 표본자료(정보)에 대한 이해

• 가중치(weight)- 가중치란 ? 표본단위가 가지고 있는 모집단 정보의 양을 표현해 주는 모집단으로의 확장계수(expansion

coefficient)를 의미

- 가중치=추출율의 역수=1/fraction

- 가중치의 역할 : 표본자료를 모집단 관점에서 추정 혹은 분석하도록 해 주는 역할

12

3

45

확률장치

7

8 9

10

6 379

- 추출 : N=10개에서 확률추출과정으로 n=3개 추출- 추론 : 표본 n=3개 자료로부터 모집단 N=10개의 정보를 파악하게 됨- 표본단위의 정보 : 표본 추출율(sampling fraction)이 3/10이므로 표본 1개는 모집단 기준

10/3의 정보를 가지는 것으로 설명하면 3개 표본자료로부터 모집단 10개 정보 파악이 가능

추출틀

추론

Nwn

Nw

fw

n

i

ii

SRS

i 1

1

10

3

N

nf추출률

2018-11-19 서울대보건대학원_2018 25

Page 26: 국민건강영양조사의개요와 복합표본조사자료분석hosting03.snu.ac.kr/~hokim/sas/2018/lec1.pdf · 추출틀오차: 조사대상설정및포함범위오류, • 조사대상명부작성오류(누락,

참고 : 통계적 추론의 이해

• 통계적 추론을 위한 기초 자료 제공

– 통계적 추론의 의미 : 귀납적 추론의 한 방법으로 표본자료를 활용하여 모집단 특성을 파악하도록 해 주는 추론

• 모집단 추론에 대한 신뢰성 평가 측도를 확률로 제공

• 표본조사자료를 활용한 통계적 추론의 의미

– 조사(분석) 목적

– 귀납적 추론

– 통계적 추론

특정한 사실특정 사실 기반의

정보 일반화일반화된 특성 파악

표본자료 모집단 정보 파악 모집단 특성 추론

모집단 자료 (일반적으로 미지) 모집단 특성 파악

2018-11-19 서울대보건대학원_2018 26

Page 27: 국민건강영양조사의개요와 복합표본조사자료분석hosting03.snu.ac.kr/~hokim/sas/2018/lec1.pdf · 추출틀오차: 조사대상설정및포함범위오류, • 조사대상명부작성오류(누락,

• 추정식 : 모평균- 모평균 추정 식: 표본평균

- 표본평균의 분산 추정량(WOR 가정)

- 추정의 정도

. 추정오차한계(=신뢰구간의 폭)

. 상대표준오차

n

s

N

nNyV

2

)(ˆ

yyn

n

Nn

yn

N

w

ywn

i

i

n

i

i

n

i

i

n

i

ii

1

1

1

11

n

s

N

nNyVzB

2

2)(ˆˆ

N

nff

n

cvf

n

y

s

y

n

sf

y

yVSER

, )1()1(

)1()(ˆˆ

2

22

2018-11-19 서울대보건대학원_2018 27

Page 28: 국민건강영양조사의개요와 복합표본조사자료분석hosting03.snu.ac.kr/~hokim/sas/2018/lec1.pdf · 추출틀오차: 조사대상설정및포함범위오류, • 조사대상명부작성오류(누락,

[참고] 유한모집단에서의 표본추출과 추정

• 유한모집단에서의 표본추출 특성• 변동추출확률 : 표본추출확률이 모집단의 수와 추출 순서에 따라 표본단위의 추출확률이 변동

• WR case

• 표본단위의 추출확률을 반영한 모총합 추정

• 추출확률의 결정

- SRS : 모집단 크기만 고려

- PPS : 관심변수 혹은 관심변수와 관계가 높은 보조 변수의 알려진 모집단 크기에 확률비례하도록

표본단위의 추출 확률을 결정(=the Probability Proportional to Size)

Nu

u

u

2

1

N

N

N

N1

1

1

2

1

모집단n=1 표본

선택 확률

ny

y

y

2

1

크기가 n인 표본

n

2

1

표본 선택 확률

2

1

2

ˆ

1

ˆ1

11ˆV with

n

i i

i

n

i i

i y

nnn

sy

n

PPS ,

SRS ,1

N

i

ii

X

XN

2018-11-19 서울대보건대학원_2018 28

Page 29: 국민건강영양조사의개요와 복합표본조사자료분석hosting03.snu.ac.kr/~hokim/sas/2018/lec1.pdf · 추출틀오차: 조사대상설정및포함범위오류, • 조사대상명부작성오류(누락,

• WOR case• 특성

• 표본단위의 추출확률은 모집단 크기 및 추출 순서에 따라 표본단위의 추출확률이 다름

• N이 충분히 크고, n이 매우 작으면 WOR의 추출확률은 차이가 작으므로 WR의 추출확률과 근사적으로 동일하다는 설명이 가능

• 변동추출확률의 계산

• 표본단위의 추출확률대신 표본단위가 표본으로 포함될 확률(표본포함확률)로 반영

• 추출확률과의 관계

• 총합추정량(Horvitz-Thompson estimator : HT 추정량)

평균 확률의 포함될 표본에 단위(i)가sample the in selected is (i) unit Pr i

ii

i

i nn

SRSf

wywy

i

i

n

i

ii

n

i i

i

HT ,11

where ˆ11

2018-11-19 서울대보건대학원_2018 29

Page 30: 국민건강영양조사의개요와 복합표본조사자료분석hosting03.snu.ac.kr/~hokim/sas/2018/lec1.pdf · 추출틀오차: 조사대상설정및포함범위오류, • 조사대상명부작성오류(누락,

• 예 : 병원을 추출하는 경우• 추출방안

1) SRS : 병원규모를 무시하고 동일한 추출확률로 추출하는 방안

- N=10개이므로 1~10까지의 난수 중 3개(1, 2, 10)를 확률적으로 추출하여 표본 추출

2) SRS_PPS : 병원 의사수(혹은 환자수)를 반영해 병원마다 다른 추출확률로 추출하는 방안(의사수 비례 추출)

- 총 의사수=328명이므로 1~328까지의 난수 중 3개(86, 201, 303)를 확률 추출하여 해당 병원을 표본으로

선정

id 의사수 누적합 매출액 추출률 표본설계가중치

PPS SRS

10 91 91 72411 0.2774 O 1.2015 3.3333

1 128 219 53100 0.3902 O 0.8542 3.3333

8 39 258 23824 0.1189

9 22 280 5800 0.0671

6 6 286 4064 0.0183

3 6 292 2797 0.0183

2 13 305 2757 0.0396 O 8.4103 3.3333

4 4 309 2200 0.0122

5 8 317 1950 0.0244

7 11 328 1849 0.0335

계 328 328 170752.1 1 3 10.4659 10

2018-11-19 서울대보건대학원_2018 30

Page 31: 국민건강영양조사의개요와 복합표본조사자료분석hosting03.snu.ac.kr/~hokim/sas/2018/lec1.pdf · 추출틀오차: 조사대상설정및포함범위오류, • 조사대상명부작성오류(누락,

2) 층화추출법 (STS : stratified sampling)• 정의 : 모집단 대상들이 이질적인 경우, 동질적인 그룹으로 층을 만든 후, 각 층마다 표본을 추출하는 방법

• 층화 기준

• 층내 동질, 층간 이질적

• 모집단 분할(partition)

• 층화 방법 : 군집분석 등 활용

• 층 수 : 이론적인 방법(Dalenius 정리, 제곱근 방법 등), 실용적인 방법

모집단 층화표본

2018-11-19 서울대보건대학원_2018 31

Page 32: 국민건강영양조사의개요와 복합표본조사자료분석hosting03.snu.ac.kr/~hokim/sas/2018/lec1.pdf · 추출틀오차: 조사대상설정및포함범위오류, • 조사대상명부작성오류(누락,

• 추출방법

- 모집단 대상들을 동질적인 그룹으로 층화하고,

- 각 층마다 모집단 대상(추출틀의 추출 단위)에게 일련번호를 부여하여

- 각 층마다 확률장치(난수표, 난수 생성 프로그램)를 통해 n_h개의 번호를 무작위로 추출하여

- 확률장치를 통해 추출된 번호와 일치하는 대상을 각 층의 표본으로 선정하여

- 각 층마다 추출된 표본을 종합하여 n개의 층화 표본을 구성

• 특성

- 모집단 대표성 증대 : 모집단이 이질적인 경우에 적절한 표본추출방법

- 지역, 성별, 연령대 ; 병원규모, 진료과, 매출액 ; 사업체 규모, 산업분류 등

- 층내 동질적, 층간 이질적인 층화 특징

- 층내 단위의 추출 확률은 동일, 층간 단위의 추출 확률은 이질적 가능

- 층 특성을 고려하여 층마다 서로 다른 추출법 적용 가능

- 확률추출법의 기본 방법으로 다른 확률추출법의 기초 추출방법으로 활용

- 장점

- 모집단 대표성 증대로 표본오차 감소

- 층별 추정 및 층간 비교 가능

- 조사 관리의 편리성 증가

- 단점 : 부모집단(층별 모집단) 크기 차이에 영향을 받음

2018-11-19 서울대보건대학원_2018 32

Page 33: 국민건강영양조사의개요와 복합표본조사자료분석hosting03.snu.ac.kr/~hokim/sas/2018/lec1.pdf · 추출틀오차: 조사대상설정및포함범위오류, • 조사대상명부작성오류(누락,

• 추정식 : 모평균- 모평균 추정 식: 표본평균

- 표본평균의 분산 추정량(WOR 가정)

- 추정의 정도

. 추정오차한계(=신뢰구간의 폭)

. 상대표준오차

st

st

y

yVSER

)(ˆˆ

L

h

hhst yNN

y1

1

L

h h

h

h

hh

hstn

s

N

nNN

NyV

1

2

2

2

L

h h

h

h

hh

hstn

s

N

nNN

NyVzB

1

2

2

2

12ˆˆ

예) 2단계 층화추출법

2018-11-19 서울대보건대학원_2018 33

Page 34: 국민건강영양조사의개요와 복합표본조사자료분석hosting03.snu.ac.kr/~hokim/sas/2018/lec1.pdf · 추출틀오차: 조사대상설정및포함범위오류, • 조사대상명부작성오류(누락,

• 표본배분• 표본크기 n을 각 층으로 배분하는 기준 :

각 층의 조사단위의 수 : 층의 부모집단 크기

각 층의 변동 : 층내 분산

각 층의 단위당 조사 비용

• 표본배분 방법

표본 배분은 기본적으로 층별 분석보다는 전체 추정을 목적으로 배분

층별 분석이 목적인 조사에서는 최적배분, 네이만배분 및 비례배분은 적절하지 않음

층간 분석 및 비교가 목적인 조사에서는 균등배분 및 멱배분(power allocation)을 널리 이용

제곱근 비례배분

최적배분 네이만배분 비례배분 균등배분 멱배분

n

csN

csNn

L

h

hhh

hhh

h

1

/

/n

sN

sNn

L

h

hh

hh

h

1

nN

Nn

N

Nn h

L

h

h

h

h

1

nL

nh

1

h

h

h

N

Nnn

p

h

p

h

h

X

Xnn

hhWnn

2018-11-19 서울대보건대학원_2018 34

Page 35: 국민건강영양조사의개요와 복합표본조사자료분석hosting03.snu.ac.kr/~hokim/sas/2018/lec1.pdf · 추출틀오차: 조사대상설정및포함범위오류, • 조사대상명부작성오류(누락,

• 표본크기 결정

• 여기서 층별 표본 배분 비율을 의미하며,

• 모비율은

L

h

hh

L

h

hhh

NDN

wN

n

1

22

1

22

모총합

모평균

,

,

D ,

22

2

2

2

NzB

zB

hw 11

L

hw

hhh QP2

2018-11-19 서울대보건대학원_2018 35

Page 36: 국민건강영양조사의개요와 복합표본조사자료분석hosting03.snu.ac.kr/~hokim/sas/2018/lec1.pdf · 추출틀오차: 조사대상설정및포함범위오류, • 조사대상명부작성오류(누락,

[참고] 사후층화와 이중추출법

1. 사후층화• 정의 : 층화 기준 변수에 대한 정보가 없거나 층화 관련 자료 획득이 불가능한 경우, SRS로 조

사한 후에 추정단계에서 층화추출방법으로 추정하는 개념

SRS표본으로 조사한 자료가 모집단 구조와 상이할 때 사용

• 장점

추정 정도가 향상

모집단 및 부모집단 크기 이 알려져 있고, 인 경우, 사후층화 추정량은 비례배분의 층화추출법의 결과와 비슷한 결과를 제공

• 추정량 : 모평균 추정 기준

hNN , 20hn

N

NWyWy h

h

L

h

hhpsst

where , 1

_

분산인한사후층화로 )(ˆ

)1(11

)(ˆ2

2

2

prop

hhhhpsst

yV

sWn

sWN

nN

nyV

2018-11-19 서울대보건대학원_2018 36

Page 37: 국민건강영양조사의개요와 복합표본조사자료분석hosting03.snu.ac.kr/~hokim/sas/2018/lec1.pdf · 추출틀오차: 조사대상설정및포함범위오류, • 조사대상명부작성오류(누락,

2. 층화를 위한 이중추출법(double sampling)

• 기본 개념

• 추출과정

• 1차 추출 : SRS와 동일

• 2차 추출 : 대표본을 모집단으로 하는 층화추출

• 추정량 : 모평균 추정

모집단

대표본 층화표본(부차표본)

모집단으로부터 층화를 위한 보조변수에 대한정보를 얻기 위해 대표본 추출(SRS)

대표본으로부터 획득한 사전 정보를 이용하여 조사 목적에 적합한 관심 사항을 기준으로 대표본

에서 부차표본이 되는 층화표본을 추출

N

n n

차추출분산차추출분산 21)()(

1)(

11

22

sampleyVarEsampleyEVar

n

n

n

Sw

n

S

N

nNyV

stst

h

hL

h

hhst

n

nwywy h

hh

h

hst

where

2018-11-19 서울대보건대학원_2018 37

Page 38: 국민건강영양조사의개요와 복합표본조사자료분석hosting03.snu.ac.kr/~hokim/sas/2018/lec1.pdf · 추출틀오차: 조사대상설정및포함범위오류, • 조사대상명부작성오류(누락,

3) 계통추출법 (SYS : systematic sampling)• 정의 : 모집단 대상에게 일련번호를 부여하여 첫번째 표본을 무작위로 추출한 후, 두번째부터는 일정 간격

(k)만큼 증가하면서 표본을 추출하는 방법

• 추출 간격의 결정 :

• 표본크기

모집단

계통추출법; 5번째

n

Nk

k

Nn

2018-11-19 서울대보건대학원_2018 38

Page 39: 국민건강영양조사의개요와 복합표본조사자료분석hosting03.snu.ac.kr/~hokim/sas/2018/lec1.pdf · 추출틀오차: 조사대상설정및포함범위오류, • 조사대상명부작성오류(누락,

• 추출방법

• 모집단(추출틀) 대상에게 일련번호를 부여 : 가급적 관심변수와 선형적 관계가 되도록 부여

• 추출 간격 k를 결정 : 모집단 크기 N을 모르면 근사적으로 결정

• 1~k 사이에서 하나의 난수를 추출하여 첫 번째 표본으로 선정 :

• 두 번째 이후부터는 추출 간격 k만큼씩 증가하면서 해당 번호의 대상을 표본으로 선정

• 계통 표본 구성 : 일련번호

• 특성

• 표본추출이 편리하여 SRS 대신 사용 가능

• 모집단 크기를 모를 때 적용 가능한 추출 방법 : 출구조사

• 모집단 정렬순서가 관심변수와 무관하면 SRS와 추정 효율이 동일한 결과를 제공 : 추출오차 감소 효과

• SRS보다 정도가 향상 : 순서모집단

• 층화효과 :

• 층마다 일정한 위치에 해당하는 하나의 표본을 추출한다는 의미 가능

• 단점

• 추정량의 분산 계산이 어려움 : 반복계통추출법

• 추출틀의 형태에 의존 : 랜덤모집단, 순서모집단, 주기모집단

knr )1(

knrkrkrr )1(,,2,,

kr 1

2018-11-19 서울대보건대학원_2018 39

Page 40: 국민건강영양조사의개요와 복합표본조사자료분석hosting03.snu.ac.kr/~hokim/sas/2018/lec1.pdf · 추출틀오차: 조사대상설정및포함범위오류, • 조사대상명부작성오류(누락,

• 추정식 : 랜덤모집단을 가정하면, SRS와 동일

• 모평균 추정량인 표본평균의 분산 추정량은 편의추정량(biased estimator)

• 표본크기 : 랜덤모집단을 가정하면, SRS와 동일

[참고] SRS와 SYS의 차이

nyV WRSRS

2

_)(

ICC)()( where )1(1)(

2

상관계수계통표본내급내는

nn

yV SYS

주기모집단

순서모집단

랜덤모집단

여기서

,0

,0

,0

2018-11-19 서울대보건대학원_2018 40

Page 41: 국민건강영양조사의개요와 복합표본조사자료분석hosting03.snu.ac.kr/~hokim/sas/2018/lec1.pdf · 추출틀오차: 조사대상설정및포함범위오류, • 조사대상명부작성오류(누락,

4) 집락추출법 (CLS : Cluster sampling)• 정의 : 서로 인접한 모집단 대상들로 구성된 집락(cluster)을 만들어, 집락을 표본으로 추출하여 집락내 대

상을 표본으로 선정하는 방법(집락내 대상 전체 혹은 일부 추출이 가능)

• 집락의 의미

• 지리적으로 인접한 모집단 대상들의 집단

• 모집단과 유사한 아주 작은 집단

• 집락 구성의 원칙 :

• 집락내 이질적, 집락간 동질적 : 집락내 상관정도가 영향

• 집락의 크기 차이가 작게

모집단

집락표본

SRS

2018-11-19 서울대보건대학원_2018 41

Page 42: 국민건강영양조사의개요와 복합표본조사자료분석hosting03.snu.ac.kr/~hokim/sas/2018/lec1.pdf · 추출틀오차: 조사대상설정및포함범위오류, • 조사대상명부작성오류(누락,

• 추출 방법

• 모집단(추출틀) 대상을 서로 인접한 대상들을 그룹화하여 집락을 구성 : 예) 인구주택총조사구

• 집락에 대해 일련번호를 부여하고

• 적절한 추출방법(SRS, SYS, PPS)으로 집락을 추출하여 표본 집락(1차 추출)을 추출

• 표본 집락 내 대상 전체 혹은 일부를 추가 추출(2차 추출 : 2단계 집락 추출)하여 집락 표본을 구성

• 특성

• 조사대상을 간접적으로 표본을 추출하는 방법

• 추출틀 작성이 어려울 때 적절한 표본추출방법으로 널리 이용

• 조사 편리성 증가

• 조사 비용 감소

• 단점

• 표본오차가 증가 : 대부분 SRS보다 분산이 큼

• 추정 결과는 집락내 상관정도의 영향을 크게 받음

2018-11-19 서울대보건대학원_2018 42

Page 43: 국민건강영양조사의개요와 복합표본조사자료분석hosting03.snu.ac.kr/~hokim/sas/2018/lec1.pdf · 추출틀오차: 조사대상설정및포함범위오류, • 조사대상명부작성오류(누락,

• 집락표본의 설계 효과(design effect) : 집락표본의 설계 효과에 영향을 주는 요소

집락 크기 : m (크기가 다르면 평균 크기를 이용)

집락내 단위들의 동질성을 나타내는 급내 상관계수(ICC) :

집락 표본의 설계 효과

• 급내상관계수(ICC : intra-class correlation)

급내상관계수는 관심변수와 자연스럽게 구성된 집락의 특성에 의해 결정

일반적으로 집락내 단위들이 동질적인 경향을 보이면, 급내상관계수는 양의 값을 가짐

급내상관계수에 영향을 주는 요소 : 관심 변수, 집락 유형, 집락 크기

사회과학 모집단에서 집락의 급내상관계수는 양수로 알려져 있음

112

myDdeff C

2018-11-19 서울대보건대학원_2018 43

Page 44: 국민건강영양조사의개요와 복합표본조사자료분석hosting03.snu.ac.kr/~hokim/sas/2018/lec1.pdf · 추출틀오차: 조사대상설정및포함범위오류, • 조사대상명부작성오류(누락,

• 추정식 : 1단계 집락추출법 가정• 조사단위의 모평균 추정

• 모집단 대상의 크기 M를 모르는 경우, 표본집락의 평균 크기 를 사용

• 집락추출에서 모평균 추정량의 분산 추정량은 편의 추정량

• 일반적으로 이면 좋은 분산 추정량을 제공하고, 집락크기가 동일하면 편의는 제거

n

ii

n

ii

m

y

y

1

1

1

ˆ 1

2

2

n

myy

MNn

nNyV

n

iii

12ˆ2

1

2

2

n

myy

MNn

nNyV

n

iii

m

20n

2018-11-19 서울대보건대학원_2018 44

Page 45: 국민건강영양조사의개요와 복합표본조사자료분석hosting03.snu.ac.kr/~hokim/sas/2018/lec1.pdf · 추출틀오차: 조사대상설정및포함범위오류, • 조사대상명부작성오류(누락,

• 표본크기 : 모평균 추정의 경우

[참고] 집락추출법의 응용• 층화집락추출법

• 집락을 층화하여 각 층마다 집락을 추출하는 방법

• PPS에 의한 집락추출법• 집락의 크기가 서로 다른 경우, 집락크기에 확률비례하도록 집락을 추출하는 방법

• 2단계 집락추출법• 1단계에서 집락을 1차 추출하고, 2단계에서 표본 집락내에서 조사대상을 2차 추출하는 방법

2

2

c

c

ND

Nn

4 ,

22MB

D

2018-11-19 서울대보건대학원_2018 45

Page 46: 국민건강영양조사의개요와 복합표본조사자료분석hosting03.snu.ac.kr/~hokim/sas/2018/lec1.pdf · 추출틀오차: 조사대상설정및포함범위오류, • 조사대상명부작성오류(누락,

• 2단계 집락 추출법 표본추출방법

1단계에서 표본집락을 추출

2단계에서는 표본 집락내에서 조사 단위를 확률추출하는 방법

(예) 학교에서 n개 학급(psu)을 집락으로 추출하고 표본학급내에서 m명씩 조사단위를 추출행

예로 120을 추출한다고 다양한 (n, m)의 조합이 존재 : 120 = n X m

학급의 인원이 모두 동일한 경우 EPSEM 보장

최적 (n, m)의 결정이 중요한 문제

집락 및 조사단위 추출 비용을 고려하여 결정

비용함수의 최소화 고려

m(=표본집락내 평균 추출 크기)의 결정

n의 결정 : 분산 최소화 혹은 비용 최소화 기준으로 결정

[참고] 2단계 집락추출법

nn

NM

nm

M

m

N

nnmnnm |PrPrPr

21nmcncC

2

1

2

2

c

cm

b

w

NM

nm

M

m

N

nnmnnm |PrPrPr

mnV w

b

2

21)ˆ(

cluster withinw between,b 여기서

2018-11-19 서울대보건대학원_2018 46

Page 47: 국민건강영양조사의개요와 복합표본조사자료분석hosting03.snu.ac.kr/~hokim/sas/2018/lec1.pdf · 추출틀오차: 조사대상설정및포함범위오류, • 조사대상명부작성오류(누락,

복합표본설계자료 분석의 개념

Page 48: 국민건강영양조사의개요와 복합표본조사자료분석hosting03.snu.ac.kr/~hokim/sas/2018/lec1.pdf · 추출틀오차: 조사대상설정및포함범위오류, • 조사대상명부작성오류(누락,

목차

1. 복합표본설계의 개념• 복합표본설계 개념• 예) 국민건강영양조사 및 청소년건강행태온라인조사의 표본설계 특징

2. 복합표본조사 자료 분석의 기본 개념• 표본조사 자료의 분석 개념/표본조사자료의 특징

3. 복합표본조사자료는 어떻게 분석해야 하나?• 표본조사 분석을 위한 검토 사항• 복합표본조사 분석을 위한 고려 사항: 설계관점/가중치/분석관점• 국민건강영양조사의 가중치

4. 결론

2018-11-19 서울대보건대학원_2018 48

Page 49: 국민건강영양조사의개요와 복합표본조사자료분석hosting03.snu.ac.kr/~hokim/sas/2018/lec1.pdf · 추출틀오차: 조사대상설정및포함범위오류, • 조사대상명부작성오류(누락,

• 복합표본설계란?• 추출 방법 : 단순확률추출이 아닌 층화추출, 집락추출, 다단계추출의 과정으로 추출된

표본을 대상으로 수행된 표본조사의 설계를 의미• 추출 확률이 서로 다른 표본(조사 및 추출단위)이 존재

• 복합 조사 대상 추출을 위한 설계 : 복수의 조사대상을 모집단으로 포함하여 조사대상별 상이한 조사를 수행하는 복합 조사를 위한 표본설계• 조사대상별(생애주기별) 특성을 고려하여 자료를 수집

• 다목적 조사 설계 : 다목적 조사 목적을 달성하기 위해 다양한 조사방법을 적용한 조사 수행을 위한 표본설계• 문진, 검진 및 영양 등 상이한 다목적 조사 수행을 위한 표본 설계

2018-11-19 서울대보건대학원_2018 49

1. 복합표본설계(Complex Sampling Design)의 개념

Page 50: 국민건강영양조사의개요와 복합표본조사자료분석hosting03.snu.ac.kr/~hokim/sas/2018/lec1.pdf · 추출틀오차: 조사대상설정및포함범위오류, • 조사대상명부작성오류(누락,

2. 국민건강영양조사의 표본설계 특징

• 표본설계 및 조사 특성• 기본 추출틀 : 인구주택총조사의 일반조사구내 일반가구• 순환표본조사(rolling sample survey) : 매년 192개 조사구, 3840가구(평균 20가구) (3년 주기 설계)

• 참고 : 표본가구수 확보를 위해 조사구 규모를 고려하여 17~23가구를 조사

• 표본추출법 : 층화 2단계 집락추출법• 설계 특징

• 층화변수 : 지역(광역및 동읍면부), 주택 유형,• 내재적 층 : 남성비율, 연령대 인구수비율, 주거면적, 가구주 학력 가구수 비율 등• 집락 : 인구주택총조사의 조사구(평균 60가구)

• 추출단위 : 조사구 및 가구• 1단계 추출 : 조사구(확률비례추출)• 2단계 추출 : 가구(계통 추출)

• 조사대상 : 1세 이상의 전 가구원

• 조사부문• 건강설문조사• 검진조사• 영양조사

2018-11-19 서울대보건대학원_2018 50

Page 51: 국민건강영양조사의개요와 복합표본조사자료분석hosting03.snu.ac.kr/~hokim/sas/2018/lec1.pdf · 추출틀오차: 조사대상설정및포함범위오류, • 조사대상명부작성오류(누락,

3. 청소년건강행태온라인조사의 표본설계 특징

• 표본설계 및 조사 특성• 기본 추출틀 : 교육기본통계조사(조사시점 전년도 기준)의 학교 명부• 자기기입식의 온라인 조사

• 표본추출법 : 층화 2단계 집락추출법• 설계 특징

• 층화변수 : 조사년도별로 1차 층화된 지역군의 차이가 있음에 주의• 1차 층 : 지역(광역 및 도시규모)

- 참고 : 광역시도별로 도시규모, 인구밀도, 아파트 비율 및 지리적 인접성을 고려하여 층화(44개 층)• 2차 층 : (중학교) 학교유형(남/여/공학), 학급 유형(남/여/혼합반)

(고등학교) 학교유형(특성화고, 일반고 : 남/여/공학), 학급 유형(진학반:문/이/기타계열, 취업반)

• 추출단위• 1단계 추출 : 학교(확률비례추출, 집락)• 2단계 추출 : 학년별 학급(중 : 계통 추출, 고교 : 학교유형 및 학급유형을 고려하여 추출)

• 조사대상 : 학생• 표본규모 :

• 800개 학교(중/고별 400개, 학년별 표본 학급내 학생은 전수 추출, 학생 평균 7만명 내외)• 조사부문 :

• 음주/흡연, 신체활동, 식생활, 개인 위생, 정신건강, 건강형평성 등 16개 영역 123개 문항

2018-11-19 서울대보건대학원_2018 51

Page 52: 국민건강영양조사의개요와 복합표본조사자료분석hosting03.snu.ac.kr/~hokim/sas/2018/lec1.pdf · 추출틀오차: 조사대상설정및포함범위오류, • 조사대상명부작성오류(누락,

1) 표본조사 자료의 분석 개념

유한모집단(목표모집단)(finite population, target population)

표본(sample)

응답자(data)(respondents : data)

Random sampling

무한모집단(infinite population, Super-Population)

Probability sampling

가중치

II. 복합표본조사 자료 분석의 기본 개념

Nonreponse

Samplesurvey

(가중치)

모형기반

2018-11-19 서울대보건대학원_2018 52

Page 53: 국민건강영양조사의개요와 복합표본조사자료분석hosting03.snu.ac.kr/~hokim/sas/2018/lec1.pdf · 추출틀오차: 조사대상설정및포함범위오류, • 조사대상명부작성오류(누락,

• 유한/무한 모집단에서의 통계분석에 대한 개념• 관심 모수

• 유한모집단 : 모집단의 모수(유병율, 환자수, 평균 소득 등 모집단 특성치)

• 무한모집단 : 모집단 분포 혹은 모형의 모수(정규분포의 평균과 분산 등)

• 유한모집단에서의 통계분석 : 모집단에서의 관심 모수 추정 및 관심변수들간의 관계 파악, 검정 등의 추론이 목적

• 표본설계 반영 및 가중치 사용이 적절 : 일반적으로 비편향 결과 제공

• 가중치 미사용시 최량추정량 제공하나 상정 모형에 의존

• 예) 유한모집단 회귀분석의 경우, 분석을 위해 상정된 모형을 사용하지만 모형 혹은 표본추출법의 사용이 모두 가능

• 무한 모집단에서의 통계분석 : 모집단 분포 혹은 모형의 모수 추론이 목적

• 유한모집단은 무한모집단의 랜덤표본으로 간주하여 유한모집단의 추론 결과를 무한모집단으로 확대하여 분석

• 대부분의 경우, 추론 결과는 중심극한정리와 같은 결과를 이용한 근사적인 결과를 제공

• 선택 기준 : 가정된 모형과 확률추출법을 검토하여 결정

• 방안 1 : 가중치 사용해 분석하는 방안

• 방안 2 : 가중치를 사용하지 않고 무한 모집단의 정의를 위해 가정된 모형을 기준으로 분석하는 방안(단순임의 (복원)추출법 가정)

• 검토 기준 : 표본추출에 의해 생성된 표본의 확률구조가 무한모집단 정의를 위해 상정된 모형을 왜곡한다면 가중치혹은 표본설계 변수를 고려하여 분석하는 것이 적절

• 방안 1 : 기본적으로 가중치를 적용하여 분석하는 방안

• 방안 2 : 층화변수와 집락변수 등을 통계 모형 정의 시 공변량으로 사용하는 방안

2018-11-19 53서울대보건대학원_2018

Page 54: 국민건강영양조사의개요와 복합표본조사자료분석hosting03.snu.ac.kr/~hokim/sas/2018/lec1.pdf · 추출틀오차: 조사대상설정및포함범위오류, • 조사대상명부작성오류(누락,

• 표본조사 자료분석에 대한 이론적 이해• 모형기반추론(model-based approach) : 표본추출법에 의해 정의되는 확률구조를 고려하지 않

고 무한모집단으로 정의하기 위해 가정된 확률구조를 이용하여 통계적 추론(분석)을 실시하는방법

• 무한모집단에 대하여 가정된 확률분포나 통계적 모형을 이용하여 분석

• 서베이통계학 이외의 통계분야에서 주로 사용되는 분석 방법론 제공

• 가정된 모형에 따라 추론 편향 존재 가능

• 표본자료로부터 가정의 통계적 타당성 검증으로 모형의 타당성 확인

• 예 : 회귀분석에서 잔차분석으로 가정 검토 등

• 설계기반추론(design-based approach) : 유한모집단에서 개체들의 분포를 이용하여 추론하는방법

• 전통적인 서베이통계학에서 주로 사용

• 표본은 유한모집단의 부분집합으로 간주해 확률추출법에 근거하여 유한모집단 추론 수행

• 각 개체가 가진 관심변수의 값을 고정된 값으로 정의하여 모총합, 모평균, 모분산, 모회귀계수 등의모수 추정이 추론의 관심

• 선택기준1) 분석 대상이 되는 모집단과 분석 목적, 2) 분석을 위한 확률구조로 표본추출법을 사용할 것인지 아니면 무한모집단의 정의를 위해 통계적 모형을 사용할 것인지를 고려하여 결정

2018-11-19 54서울대보건대학원_2018

Page 55: 국민건강영양조사의개요와 복합표본조사자료분석hosting03.snu.ac.kr/~hokim/sas/2018/lec1.pdf · 추출틀오차: 조사대상설정및포함범위오류, • 조사대상명부작성오류(누락,

2) 표본조사 자료의 특징• 단위 무응답 : 가중치(weight)/표본교체(substitution)

• 항목 무응답 : 대체(imputation)

ID Weightitems

Y_1 ……. Y_k

1 w_f1 y_11 ……. y_1k

2 w_f2 missing ……. y_2k

…… ……. ……. ……. …….

n_r w_fr y_r1 ……. missing

……0 missing

n

단위 무응답(unit nonresponse)

항목 무응답(item nonresponse)

2018-11-19 서울대보건대학원_2018 55

Page 56: 국민건강영양조사의개요와 복합표본조사자료분석hosting03.snu.ac.kr/~hokim/sas/2018/lec1.pdf · 추출틀오차: 조사대상설정및포함범위오류, • 조사대상명부작성오류(누락,

• 표본조사 분석을 위한 검토 사항• 추론 대상

• 유한모집단 vs 무한모집단

• 표본추출방법

• 확률추출 vs 비확률추출

• 복합표본추출 vs 단순표본추출

• 추론 목적

• 단순 모수 추정 vs 통계적 모형

• 추론 방법

• 설계기반 vs 모형기반

2018-11-19 서울대보건대학원_2018 56

복합표본조사자료는 어떻게 분석해야 하나?

Page 57: 국민건강영양조사의개요와 복합표본조사자료분석hosting03.snu.ac.kr/~hokim/sas/2018/lec1.pdf · 추출틀오차: 조사대상설정및포함범위오류, • 조사대상명부작성오류(누락,

• 복합표본조사 분석을 위한 고려 사항• 설계 관점 : 복합표본설계 과정으로 추출된 표본의 불균등한 추출 확률을 반영한 분

석이 필요• 단순확률추출법의 표본도 무응답 및 사후층화 조정 과정으로 상이한 추출 확률이 발생

• 기본적으로 복합설계의 표본은 추출 확률이 서로 다름

• 분석 관점 : 단순확률추출법의 분석 방법 적용은 편향된 결과를 제공하므로 표본추출과정 및 가중치를 이용한 표본분석이 필요

• 유한모집단에서 모수 추정이 목적인지 확인

• 모수 추정 과정에서 표본추출법과 가중치의 반영 여부는 모수 추정 결과의 편향여부에 영향 미침

• 추정 결과를 이용한 검정 결과의 편향 원인 제공

• 분석 과정의 복잡성 : 복합표본조사 자료를 분석하는 전문패키지 사용이 필요• 일반통계패키지 사용 시 모수 추정은 비편향 결과를 얻을 수 있으나 분산 추정은 편향된 결과를 얻게

됨에 주의

• 기본적으로 복합표본조사 자료를 분석하는 전문 패키지 사용이 바람직

• (SUDAAN, Stata, SAS survey procedure, SPSS complex 등)

2018-11-19 서울대보건대학원_2018 57

Page 58: 국민건강영양조사의개요와 복합표본조사자료분석hosting03.snu.ac.kr/~hokim/sas/2018/lec1.pdf · 추출틀오차: 조사대상설정및포함범위오류, • 조사대상명부작성오류(누락,

1) 설계 관점• 설계기반분석 : 표본설계의 특성을 반영한 분석

• 층

• 군집

• 표본추출율 (혹은 FPC)

• 표본가중치

• 사후층화 등

• 모형기반분석 : 표본설계특성을 고려하지 않고 가정된 모형에 근거한 분석

• 가정된 모형을 기반으로 분석하므로 추정 및 분석 결과는 가정된 모형에 의존

• 표본조사에서 무한모집단으로부터 추출된 독립적인 확률추출을 가정한 분석(고전적인 가정)

[참고] 모수 추정은 설계 특성을 반영해 추정해야 하고, 모형 분석은 많은 연구자들의 논쟁이 있지만 일반적으로 표본조사의 설계 특성을 무시한 분석은 편향되고 부정확한 결과 제공 가능성이 높으므로 조사 설계 특성을 고려한 분석이 필요

2018-11-19 58서울대보건대학원_2018

Page 59: 국민건강영양조사의개요와 복합표본조사자료분석hosting03.snu.ac.kr/~hokim/sas/2018/lec1.pdf · 추출틀오차: 조사대상설정및포함범위오류, • 조사대상명부작성오류(누락,

2) 분석관점 : 가중치

• 가중치의 역할

• 조사된 어느 한 표본이 자신을 포함하여 모집단을 어느

정도 대표하는 가를 나타내도록 표본단위마다 부여된

모집단으로의 확장 계수를 의미

• 표본 대표성의 척도

• 가중치가 ’10’이면 모집단에서 자신을 포함하여 10명의

정보를 대표한다는 의미

• 가중치가 크면, 추출률(혹은 응답률)이 낮아 한 표본이 모

집단에서 많은 대상의 정보를 대표한다는 의미

2018-11-19 59서울대보건대학원_2018

조사 모집단(추출틀)

표본

응답자

확률추출 가중치

Page 60: 국민건강영양조사의개요와 복합표본조사자료분석hosting03.snu.ac.kr/~hokim/sas/2018/lec1.pdf · 추출틀오차: 조사대상설정및포함범위오류, • 조사대상명부작성오류(누락,

• 가중치를 부여하는 이유

불균등 선택 확률(unequal selection probability)을 보정하기 위해

- 표본 단위의 상이한 추출 확률을 보정

단위무응답(non-response)을 보정하기 위해

- 무응답 표본이 미치는 영향을 보정하기 위해

모집단에서 이미 알려져 있는 특정 변수의 분포(예; 성, 연령, 지역 등)와 표본 결과를 일치시키기 위해 조정하는 사후층화(post-stratification)/캘리브레이션(calibration) 을 위해

- 표본 추정치의 정도를 향상시키기 위해

- 무응답 및 비포함(non-coverage) 표본틀을 보정하기 위해

• 가중치의 영향

• 편향 제거

• 분산 증대 여기서 는 가중치의 변동계수

• 표본설계 과정에서 표본 단위의 가중치 차이가 크지 않도록 설계하는 것이 바람직

• 극단 가중치 조정 검토

2018-11-19 60서울대보건대학원_2018

2

w

SRS

weightCV1

V

V

wCV

Page 61: 국민건강영양조사의개요와 복합표본조사자료분석hosting03.snu.ac.kr/~hokim/sas/2018/lec1.pdf · 추출틀오차: 조사대상설정및포함범위오류, • 조사대상명부작성오류(누락,

• 표본조사의 가중치 산출 과정

유한모집단목표모집단설정

표본(추출)틀 구축

표본 구성

응답자

사후 보정

표본설계 과정

조사통계량

3) Coverage error 사후층화

1) Sampling error 기본 설계 가중치

2) Nonresponse error 무응답 보정 가중치

3) Adjustment error 사후층화/캘리브레이션

가중치 산출 과정

1) 설계 가중치

- 1/추출률

2) Nonresponse Adjustment

weight

- within cell/group adjustment

- propensity score method

- response probability

3) Calibration weight

- post-stratification

- raking weight

- raking ratio(RIM) weight

- Ratio weight

- bench mark weight

가중치 산출 방법

2018-11-19 서울대보건대학원_2018 61

Page 62: 국민건강영양조사의개요와 복합표본조사자료분석hosting03.snu.ac.kr/~hokim/sas/2018/lec1.pdf · 추출틀오차: 조사대상설정및포함범위오류, • 조사대상명부작성오류(누락,

• 국민건강영양조사의 가중치• 기본 가중치

• 설계가중치• 무응답 보정 가중치 : 응답 확률 모형을 이용한 추정 응답 확률로 보정• 사후층화를 이용한 캘리브레이션 가중치

• 기타• 통합 가중치• 시계열 가중치• 부문별 가중치• 연관 가중치

• 청소년건강행태온라인조사의 가중치• 설계가중치• 무응답 보정 가중치 : 응답률로 보정• 사후층화 가중치 : 학생 수 기준 사후 보정• 극단가중치 조정

2018-11-19 서울대보건대학원_2018 62

Page 63: 국민건강영양조사의개요와 복합표본조사자료분석hosting03.snu.ac.kr/~hokim/sas/2018/lec1.pdf · 추출틀오차: 조사대상설정및포함범위오류, • 조사대상명부작성오류(누락,

3) 분석 과정• 전문 패키지 사용이 바람직

• SAS : surveyfreq, surveymeans, surveyreg, surveylogistic 등• SPSS : 복합표본(complex samples)• R : survey, pps package 등

• [참고] 자료분석 전문패키지가 필요한 이유1) 복합표본설계의 반영

- 표본설계 특성 : 층(stratification), 집락(clustering)

- 표본추출확률 : 불균등 추출 확률(unequal selection probability)

2) 무응답의 영향을 반영한 추정- 가중치(weights) : weighting methods

- 무응답 대체(imputations)

3) 분산 추정의 문제 해결- 선형화 방법 : Taylor series expansion (Linearization)

- 반복화 방법 : BRR, Jackknife, Bootstrap, Random group 방법

2018-11-19 63서울대보건대학원_2018

Page 64: 국민건강영양조사의개요와 복합표본조사자료분석hosting03.snu.ac.kr/~hokim/sas/2018/lec1.pdf · 추출틀오차: 조사대상설정및포함범위오류, • 조사대상명부작성오류(누락,

• 예) 로짓분석 결과의 비교

방법 1: 복합표본조사 자료분석

방법 2 :가중치 부여일반 분석

방법3:가중치 미부여일반 분석

비유의

유의

편향유의

2018-11-19 64서울대보건대학원_2018

Page 65: 국민건강영양조사의개요와 복합표본조사자료분석hosting03.snu.ac.kr/~hokim/sas/2018/lec1.pdf · 추출틀오차: 조사대상설정및포함범위오류, • 조사대상명부작성오류(누락,

(1) 유한모집단에서 모수 추정 고려사항• 주된 연구 목적

• 모수 추정

• 검정을 포함한 통계 모형의 적합(통계분석이 목적)

• 모수 추정 방법

• 설계기반 추론(design-based approach) : 가중치로 해결

• 모형기반 추론(model-based approach) : 모형으로 해결

• 모형지원 추론(model-assisted approach)

• 관심변수들과 변수들의 관계를 통계 모형으로 상정하여 무한모집단을 설명하지만 기대값 혹은분산과 같은 통계적 성질을 위해 표본추출법에 의해 정의된 확률구조를 하야하여 추론하는 방법

• 일반적으로 설계기반 추론 및 모형지원 추론법을 널리 사용

• 가중치 산출 필요 : 설계 가중치, 무응답 및 사후보정 가중치 등

• 가중치를 반영한 추론

• 자료분석 전문패키지에서 제공

2018-11-19 65서울대보건대학원_2018

결론 : 복합표본조사자료는 어떻게 분석할까?

Page 66: 국민건강영양조사의개요와 복합표본조사자료분석hosting03.snu.ac.kr/~hokim/sas/2018/lec1.pdf · 추출틀오차: 조사대상설정및포함범위오류, • 조사대상명부작성오류(누락,

(2) 표본조사 자료분석 관점의 검토• 설계기반의 추론이 바람직

• 모수 추정 : 가중치 사용이 바람직

[참고] 통계 모형과 다변량 분석 : 논쟁 진행 중

• 가중치의 영향이 크지 않은 경우 : 추정치의 표준오차가 비가중 결과보다 작다면 가중치결과를 사용하지 않는 분석이 가능

• 가중치를 부여한 회귀모형의 추정 특성이 비현실적으로 나타나는 소표본인 경우는 비가중회귀모형 추정을 선호하는 경향

• 회귀분석에서 가중치를 무시한 검증 방법을 대안으로 연구(DuMouchel and Duncan, 1983)

2018-11-19 서울대보건대학원_2018 66

Page 67: 국민건강영양조사의개요와 복합표본조사자료분석hosting03.snu.ac.kr/~hokim/sas/2018/lec1.pdf · 추출틀오차: 조사대상설정및포함범위오류, • 조사대상명부작성오류(누락,

(3) 복합표본조사 자료의 분석/추론 방향 선택 시 고려 사항일반적으로 복합표본설계에 의한 대규모조사로 획득된 자료에 대해서는 일반적으로 고려되는

모형이 부적합하기때문에 실제 통계자료분석에서는 모형기반 분석이 널리 이용되지 않음

모형이 적절한 경우 모형기반 추정량이 설계기반 추정량보다 효율이 좋다는 의견도 존재

• 모형기반 추정량은 가정된 모형에 영향을 많이 받음을 유념해야 함

모수 추정을 위해 실시되는 대규모조사에서는 설계기반 추정 방법을 적용하는 것이 바람직함

(4) 복합표본조사 자료분석을 위한 전문 통계패키지의 활용• 표준통계패키지는 정확한 조사 가중치를 적용한 분석이 어려움

• 복합조사설계 및 불균등 가중치를 적용한 통계패키지 필요

2018-11-19 서울대보건대학원_2018 67

Page 68: 국민건강영양조사의개요와 복합표본조사자료분석hosting03.snu.ac.kr/~hokim/sas/2018/lec1.pdf · 추출틀오차: 조사대상설정및포함범위오류, • 조사대상명부작성오류(누락,

Q & A2018-11-19 서울대보건대학원_2018 68