국민건강영양조사 표본설계와 표본조사...

77
국민건강영양조사 조사개요와 자료분석 변 종석 (한신대학교 응용통계학과)

Upload: others

Post on 11-Oct-2019

2 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 국민건강영양조사 표본설계와 표본조사 과정hosting03.snu.ac.kr/~hokim/sas/2018/lec2.pdf · 복합표본조사분석(2) : spss 2018-11-19 서울대학교보건대학원_2018

국민건강영양조사조사개요와자료분석

변 종석(한신대학교 응용통계학과)

Page 2: 국민건강영양조사 표본설계와 표본조사 과정hosting03.snu.ac.kr/~hokim/sas/2018/lec2.pdf · 복합표본조사분석(2) : spss 2018-11-19 서울대학교보건대학원_2018

들어가기

• 본 강의내용은 국민건강영양조사의 홈페이지를 참조한 것이며, 자세한 사항은 해당 홈페이지(knhanes.cdc.go.kr)를 참조하시기 바랍니다.

2018-11-19 2서울대학교보건대학원_2018

Page 3: 국민건강영양조사 표본설계와 표본조사 과정hosting03.snu.ac.kr/~hokim/sas/2018/lec2.pdf · 복합표본조사분석(2) : spss 2018-11-19 서울대학교보건대학원_2018

목차

I. 국민건강영양조사 조사개요1. 주요조사내용2. 표본설계3. 자료수집4. 자료 특성5. 국민건강영양조사 특성

II. 국민건강영양조사의 가중치1. 가중치2. 복합표본조사 자료분석 패키지 활용참고 1 : SAS survey procedures참고 2 : SPSS 복합표본

III. 국민건강영양조사 자료분석1. 자료분석 FAQ 소개 : : 자료분석을 위한 분석지침의 활용2. SPSS 복합표본 패키지를 이용한 분석

IV. 맺음말 : 질문 및 토의시간

2018-11-19 3서울대학교보건대학원_2018

Page 4: 국민건강영양조사 표본설계와 표본조사 과정hosting03.snu.ac.kr/~hokim/sas/2018/lec2.pdf · 복합표본조사분석(2) : spss 2018-11-19 서울대학교보건대학원_2018

2018-11-19 서울대학교보건대학원_2018 4

https://knhanes.cdc.go.kr/knhanes/index.do

I. 조사개요

Page 5: 국민건강영양조사 표본설계와 표본조사 과정hosting03.snu.ac.kr/~hokim/sas/2018/lec2.pdf · 복합표본조사분석(2) : spss 2018-11-19 서울대학교보건대학원_2018

• 조사 개요 : 근거 및 목적

2018-11-19 서울대학교보건대학원_2018 5

Page 6: 국민건강영양조사 표본설계와 표본조사 과정hosting03.snu.ac.kr/~hokim/sas/2018/lec2.pdf · 복합표본조사분석(2) : spss 2018-11-19 서울대학교보건대학원_2018

• 조사 대상 및 표본규모– 만 1세 이상 가구원 전체를 대상으로 약 1만명 조사(연간 약 3840가구)

– 대상자의 생애주기별 특성에 따라 소아(1~11세), 청소년(12~18세), 성인(19세 이상)으로 나누어, 각기 특성에 맞는 조사항목을 적용

• 조사내용

2018-11-19 6서울대학교보건대학원_2018

Page 7: 국민건강영양조사 표본설계와 표본조사 과정hosting03.snu.ac.kr/~hokim/sas/2018/lec2.pdf · 복합표본조사분석(2) : spss 2018-11-19 서울대학교보건대학원_2018

• 조사 연혁 : 추진 경과

2018-11-19 서울대학교보건대학원_2018 7

Page 8: 국민건강영양조사 표본설계와 표본조사 과정hosting03.snu.ac.kr/~hokim/sas/2018/lec2.pdf · 복합표본조사분석(2) : spss 2018-11-19 서울대학교보건대학원_2018

• 조사 주기별 주요 추진 내용

매년 통계 생산을 위해 4기 이후 순환표본설계

2018-11-19 8서울대학교보건대학원_2018

Page 9: 국민건강영양조사 표본설계와 표본조사 과정hosting03.snu.ac.kr/~hokim/sas/2018/lec2.pdf · 복합표본조사분석(2) : spss 2018-11-19 서울대학교보건대학원_2018

• 조사 수행 체계 및 과정

2018-11-19 서울대학교보건대학원_2018 9

Page 10: 국민건강영양조사 표본설계와 표본조사 과정hosting03.snu.ac.kr/~hokim/sas/2018/lec2.pdf · 복합표본조사분석(2) : spss 2018-11-19 서울대학교보건대학원_2018

• 결과 활용 및 기대효과

2018-11-19 10서울대학교보건대학원_2018

Page 11: 국민건강영양조사 표본설계와 표본조사 과정hosting03.snu.ac.kr/~hokim/sas/2018/lec2.pdf · 복합표본조사분석(2) : spss 2018-11-19 서울대학교보건대학원_2018

• 조사 내용 선정 과정

2018-11-19 서울대학교보건대학원_2018 11

1. 주요조사내용

Page 12: 국민건강영양조사 표본설계와 표본조사 과정hosting03.snu.ac.kr/~hokim/sas/2018/lec2.pdf · 복합표본조사분석(2) : spss 2018-11-19 서울대학교보건대학원_2018

• 검진부문

2018-11-19 12서울대학교보건대학원_2018

Page 13: 국민건강영양조사 표본설계와 표본조사 과정hosting03.snu.ac.kr/~hokim/sas/2018/lec2.pdf · 복합표본조사분석(2) : spss 2018-11-19 서울대학교보건대학원_2018

2018-11-19 서울대학교보건대학원_2018 13

Page 14: 국민건강영양조사 표본설계와 표본조사 과정hosting03.snu.ac.kr/~hokim/sas/2018/lec2.pdf · 복합표본조사분석(2) : spss 2018-11-19 서울대학교보건대학원_2018

• 건강설문부문

2018-11-19 14서울대학교보건대학원_2018

Page 15: 국민건강영양조사 표본설계와 표본조사 과정hosting03.snu.ac.kr/~hokim/sas/2018/lec2.pdf · 복합표본조사분석(2) : spss 2018-11-19 서울대학교보건대학원_2018

• 영양부문

2018-11-19 15서울대학교보건대학원_2018

Page 16: 국민건강영양조사 표본설계와 표본조사 과정hosting03.snu.ac.kr/~hokim/sas/2018/lec2.pdf · 복합표본조사분석(2) : spss 2018-11-19 서울대학교보건대학원_2018

• 기타

2018-11-19 서울대학교보건대학원_2018 16

Page 17: 국민건강영양조사 표본설계와 표본조사 과정hosting03.snu.ac.kr/~hokim/sas/2018/lec2.pdf · 복합표본조사분석(2) : spss 2018-11-19 서울대학교보건대학원_2018

• 조사표

2018-11-19 서울대학교보건대학원_2018 17

Page 18: 국민건강영양조사 표본설계와 표본조사 과정hosting03.snu.ac.kr/~hokim/sas/2018/lec2.pdf · 복합표본조사분석(2) : spss 2018-11-19 서울대학교보건대학원_2018

2. 표본설계

• 모집단 : 국내에 거주하는 일반 가구 및 가구원(1세이상)

• 표본틀 : 인구주택총조사구(4기, 6기, 7기)

– 5기 : 통반리조사구

– 7기 : 신축아파트 명부 반영, 통합 조사구 활용(2011년 이후 신축 반영)

• 표본설계기준 : 순환표본

– 3년 주기 설계

– 매년 통계 생산을 위해 순환표본설계 적용(층 효과 유지)

– 조사 역량 고려 : 48주, 4개 조사구/주

• 표본추출방법 : 2단계 층화집락추출법

– 층화변수 : 지역, 주거유형(아파트/일반), 동/읍면부(1차)

– 내재층화변수 : 가구평형(소득자료로 활용), 남성비율, 14세 이하/66세 이상 구성비(2차)

• 표본규모 : 매년 192개 조사구(3년 주기 총 576개 조사구)

• 표본배분 : 비례배분

2018-11-19 18서울대학교보건대학원_2018

Page 19: 국민건강영양조사 표본설계와 표본조사 과정hosting03.snu.ac.kr/~hokim/sas/2018/lec2.pdf · 복합표본조사분석(2) : spss 2018-11-19 서울대학교보건대학원_2018

표본추출방법

• 조사구 추출 : 2단계 층화집락추출법

– 층 : 지역, 주거형태(일반/아파트(평형)), 동/읍면부

– 집락 : 조사구• 1개 조사구는 평균 60가구

– 표본 가구 : 조사구별 평균 20가구 계통추출

2018-11-19 19서울대학교보건대학원_2018

Page 20: 국민건강영양조사 표본설계와 표본조사 과정hosting03.snu.ac.kr/~hokim/sas/2018/lec2.pdf · 복합표본조사분석(2) : spss 2018-11-19 서울대학교보건대학원_2018

• 표본가구 선정 과정 및 가구원 확인

2018-11-19 서울대학교보건대학원_2018 20

Page 21: 국민건강영양조사 표본설계와 표본조사 과정hosting03.snu.ac.kr/~hokim/sas/2018/lec2.pdf · 복합표본조사분석(2) : spss 2018-11-19 서울대학교보건대학원_2018

• 조사주기별 특성

2018-11-19 21서울대학교보건대학원_2018

구분 제1기(1998) 제2기(2001)

조사방법 3년 주기/단기조사 3년 주기/단기조사

실사기간 11~12월(2개월) 11~12월(2개월)

추출틀인구주택총조사(1995)신축아파트 목록(1997)

인구주택총조사(2000)

층화변수 통합시군, 동읍면부, 주택유형 통합시도, 동읍면부, 주택유형

추출단위 조사구(psu), 가구 조사구(psu), 가구

표본크기건강면접:200조사구, 12,000가구건강행태/검진/영향: 200조사구, 4,000가구

건강면접:600조사구, 12,000가구(통합200, 비통합 400)건강행태/검진/영향: 200통합조사구, 4,000가구

구분 제3기(2004) 제4기(2007~2009)

조사방법 3년 주기/단기조사 순환표본조사

실사기간 4~6월(3개월)2007년 : 7~12월(6개월)2008/2009년: 1~12월(연중)

추출틀인구주택총조사(2000)신축아파트 목록(2001)

인구주택총조사(2005)

층화변수 시도, 동읍면부, 주택유형시도, 동읍면부, 주택유형(내재적층: 권역, 연령)

추출단위 조사구(psu), 가구 동읍면(psu), 조사구, 가구

표본크기건강면접:600조사구, 12,000가구(통합200, 비통합 400)건강행태/검진/영향: 200통합조사구, 4,000가구

600조사구, 13,800가구(연간 200조사구, 4,600가구)- 2007년: 100조사구, 2,300가구

Page 22: 국민건강영양조사 표본설계와 표본조사 과정hosting03.snu.ac.kr/~hokim/sas/2018/lec2.pdf · 복합표본조사분석(2) : spss 2018-11-19 서울대학교보건대학원_2018

• 조사 연혁 : 조사주기별 특성

2018-11-19 22서울대학교보건대학원_2018

구분 제5기(2010~2012) 제6기(2013~2015) 제7기(2016~2018)

조사방법 순환표본조사 순환표본조사 순환표본조사

실사기간 1~12월(연중) 1~12월(연중) 1~12월(연중)

추출틀주민등록인/세대(2009)신축아파트 목록(2008)

인구주택총조사(2010)인구주택총조사(2010)신축아파트명부(2011년이후)

층화변수시도, 동읍면, 주택유형 (내재적층: 일반- 성별,연령;아파트- 평당가격,평균평수 등)

시도, 동읍면, 주택유형 (내재적층: 성별, 연령, 주거면적, 가구주 학력)

시도, 동읍면, 주택유형 (내재적층: 성별, 연령, 주거면적, 가구주 학력)

추출단위 조사구(psu), 가구 조사구(psu), 가구 조사구(psu), 가구

표본크기576조사구, 11,520가구(연간 192조사구, 3,840가구)

576조사구, 11,520가구(연간 192조사구, 3,840가구)

576조사구, 11,520가구(연간 192조사구, 3,840가구)

Page 23: 국민건강영양조사 표본설계와 표본조사 과정hosting03.snu.ac.kr/~hokim/sas/2018/lec2.pdf · 복합표본조사분석(2) : spss 2018-11-19 서울대학교보건대학원_2018

2018-11-19 서울대학교보건대학원_2018 23

Page 24: 국민건강영양조사 표본설계와 표본조사 과정hosting03.snu.ac.kr/~hokim/sas/2018/lec2.pdf · 복합표본조사분석(2) : spss 2018-11-19 서울대학교보건대학원_2018

3. 자료수집• 검진 및 구강검사 : 전문인력(4팀 x 4명), 공중보건치과의(4명+시도 파견)

• 건강설문조사 : 전문 인력(8명)

• 영양조사 : 전문 조사원 수행(8명), 가구방문조사

• 조사 소요 시간 : 성인 기준 1시간 30분-2시간 정도

2018-11-19 24서울대학교보건대학원_2018

Page 25: 국민건강영양조사 표본설계와 표본조사 과정hosting03.snu.ac.kr/~hokim/sas/2018/lec2.pdf · 복합표본조사분석(2) : spss 2018-11-19 서울대학교보건대학원_2018

2018-11-19 서울대학교보건대학원_2018 25

Page 26: 국민건강영양조사 표본설계와 표본조사 과정hosting03.snu.ac.kr/~hokim/sas/2018/lec2.pdf · 복합표본조사분석(2) : spss 2018-11-19 서울대학교보건대학원_2018

4. 자료 특성• 조사기 및 년도별 자료의 대상 연령 및 검진 항목 차이 존재

– 5기 이후 현재(7기 1차년도)까지는 동일하게 적용

– 매년 검진 측정 항목 및 문항에 대한 주기적 회의 개최로 조정

2018-11-19 26서울대학교보건대학원_2018

Page 27: 국민건강영양조사 표본설계와 표본조사 과정hosting03.snu.ac.kr/~hokim/sas/2018/lec2.pdf · 복합표본조사분석(2) : spss 2018-11-19 서울대학교보건대학원_2018

• 조사기별 및 조사 유형별 표본규모 현황– 1~3기 : 건강면접조사가구 중 약 30% 대상으로 검진, 영양 및 보건의식행태조사

– 4기 : 전체 가구 대상으로 모든 조사 수행(골밀도 검사 등 일부 제외)

– 5기 이후 : 매년 전체 가구 및 가구원 대상으로 모든 조사 수행

• 5기 이후 현재까지는 거의 비슷한 규모의 표본크기 유지

2018-11-19 27서울대학교보건대학원_2018

Page 28: 국민건강영양조사 표본설계와 표본조사 과정hosting03.snu.ac.kr/~hokim/sas/2018/lec2.pdf · 복합표본조사분석(2) : spss 2018-11-19 서울대학교보건대학원_2018

• 원시자료

2018-11-19 서울대학교보건대학원_2018 28

Page 29: 국민건강영양조사 표본설계와 표본조사 과정hosting03.snu.ac.kr/~hokim/sas/2018/lec2.pdf · 복합표본조사분석(2) : spss 2018-11-19 서울대학교보건대학원_2018

• 원시자료 다운로드 방법

2018-11-19 서울대학교보건대학원_2018 29

Page 30: 국민건강영양조사 표본설계와 표본조사 과정hosting03.snu.ac.kr/~hokim/sas/2018/lec2.pdf · 복합표본조사분석(2) : spss 2018-11-19 서울대학교보건대학원_2018

• 국민건강영양조사 자료의 특성– 3년 주기의 시계열 자료

• 3년 주기 표본설계

• 매년 전국 단위 통계 생산

– 순환표본설계• 매년 통계 작성 및 2-3년 주기 지역 통계 생산

– 복합표본설계• 층화 및 집락추출

• 가중치

• 조사자료분석 전문 패키지 사용이 필요

– 통합분석 필요• 통합 가중치 제공

• 기별 통합분석

• 기간 통합분석

• 낮은 유병률 자료통합 분석

2018-11-19 30서울대학교보건대학원_2018

5. 국민건강영양조사 특성

Page 31: 국민건강영양조사 표본설계와 표본조사 과정hosting03.snu.ac.kr/~hokim/sas/2018/lec2.pdf · 복합표본조사분석(2) : spss 2018-11-19 서울대학교보건대학원_2018

(1) 국민건강영양조사의 가중치 유형– 기본 가중치

• 설계 가중치

• 무응답 보정 가중치

• 사후층화조정 가중치

– 부문별 및 연관성 가중치• 조사별 참여자 및 대상자 차이를 고려한 조사부문별 및 연관성 분석을

위한 가중치 제공

– 통합자료분석을 위한 가중치• 기별내 통합을 위한 가중치

• 기간 통합을 위한 가중치

– 시계열 가중치• 추이분석을 위한 가중치

2018-11-19 31서울대학교보건대학원_2018

II. 국민건강영양조사의 가중치

1. 가중치의 영향

Page 32: 국민건강영양조사 표본설계와 표본조사 과정hosting03.snu.ac.kr/~hokim/sas/2018/lec2.pdf · 복합표본조사분석(2) : spss 2018-11-19 서울대학교보건대학원_2018

• (2) 가중치 미반영의 영향

2018-11-19 32서울대학교보건대학원_2018

Page 33: 국민건강영양조사 표본설계와 표본조사 과정hosting03.snu.ac.kr/~hokim/sas/2018/lec2.pdf · 복합표본조사분석(2) : spss 2018-11-19 서울대학교보건대학원_2018

• 가중치 비반영시의 영향– 추정값의 편향

• 모총합/모평균, 모비율/회귀계수

– 분산의 과소 추정• 신뢰구간의 편향

• 검정 결과의 기각 가능성

– 다양하고 복잡한 통계분석에서 부정확한 결과 제공(편향)

추정량

표본설계 무시 표본설계 반영

모형 기반 (model-based) 분석 모형기반 설계기반

가중값

무시

가중값

고려

표준화

가중값

가중값

(층,집락)

가중값

(층,집락)

총합 편향 비편향 편향 비편향 비편향

평균, 비율, 회귀계수

편향 비편향 비편향 비편향 비편향

분산,

신뢰구간편향 편향 편향

거의

비편향비편향

2018-11-19 33서울대학교보건대학원_2018

Page 34: 국민건강영양조사 표본설계와 표본조사 과정hosting03.snu.ac.kr/~hokim/sas/2018/lec2.pdf · 복합표본조사분석(2) : spss 2018-11-19 서울대학교보건대학원_2018

(3) 표본조사 자료분석 관점의 검토– 기술통계량 추정 : 가중치 사용이 바람직

– 통계 모형과 다변량 분석 : 논쟁 진행 중

• 가중치의 영향이 크지 않은 경우 : 추정치의 SE가 비가중 결과보다작다면 가중치 결과를 사용하지 않는 분석이 증가 추세

• 가중치를 부여한 회귀모형의 추정 특성이 비현실적으로 나타나는소표본인 경우는 비가중회귀모형 추정을 선호

• 회귀분석에서 가중치를 무시한 검증 방법을 대안으로 연구(DuMouchel and Duncan, 1983)

• 자료분석 전문 통계패키지의 활용– 표준통계패키지는 정확한 조사 가중치를 적용한 분석이 어려움

– 복합조사설계 및 불균등 가중치를 적용한 통계패키지 필요

2018-11-19 서울대학교보건대학원_2018 34

Page 35: 국민건강영양조사 표본설계와 표본조사 과정hosting03.snu.ac.kr/~hokim/sas/2018/lec2.pdf · 복합표본조사분석(2) : spss 2018-11-19 서울대학교보건대학원_2018

2. 복합표본자료분석 패키지 활용

• 일반 통계 패키지의 특성

– 단순임의 추출에 의한 조사 자료를 가정– 복합표본조사의 자료분석에 이용하면 편향된 결과 제공

단순임의 추출과의 차이를 고려한 조사자료 분석 software의 필요성 대두

복합표본설계를 고려한 추정치의 표준오차 계산이 요구일반 패키지 사용시 분산 추정의 과소추정 문제 해결이 요구

고려사항 : 모형 기반(model-based) 분석과 설계 기반(designed-based) 분석의 논쟁 존재

• 대규모 표본조사의 경우 설계기반분석을 시도

2018-11-19 35서울대학교보건대학원_2018

Page 36: 국민건강영양조사 표본설계와 표본조사 과정hosting03.snu.ac.kr/~hokim/sas/2018/lec2.pdf · 복합표본조사분석(2) : spss 2018-11-19 서울대학교보건대학원_2018

• 추정식 : 모평균 , 층화집락추출법 가정

2018-11-19 36서울대학교보건대학원_2018

Page 37: 국민건강영양조사 표본설계와 표본조사 과정hosting03.snu.ac.kr/~hokim/sas/2018/lec2.pdf · 복합표본조사분석(2) : spss 2018-11-19 서울대학교보건대학원_2018

• 자료분석 전문패키지가 필요한 이유

1) 복합표본설계의 반영

- stratification, clustering

- unequal selection prob.

2) 무응답의 영향을 반영한 추정

- weights : weighting methods

- imputations

3) 분산추정의 문제 해결

- 선형화 방법 : Taylor series expansion (Linearization)

- 반복화 방법 : BRR, Jackknife, Bootstrap, Random group 방법

2018-11-19 37서울대학교보건대학원_2018

Page 38: 국민건강영양조사 표본설계와 표본조사 과정hosting03.snu.ac.kr/~hokim/sas/2018/lec2.pdf · 복합표본조사분석(2) : spss 2018-11-19 서울대학교보건대학원_2018

복합표본조사분석(1) : SAS

• survey프로시져

2018-11-19 38서울대학교보건대학원_2018

Page 39: 국민건강영양조사 표본설계와 표본조사 과정hosting03.snu.ac.kr/~hokim/sas/2018/lec2.pdf · 복합표본조사분석(2) : spss 2018-11-19 서울대학교보건대학원_2018

2018-11-19 39서울대학교보건대학원_2018

Page 40: 국민건강영양조사 표본설계와 표본조사 과정hosting03.snu.ac.kr/~hokim/sas/2018/lec2.pdf · 복합표본조사분석(2) : spss 2018-11-19 서울대학교보건대학원_2018

• SAS 분석 결과

2018-11-19 40서울대학교보건대학원_2018

Page 41: 국민건강영양조사 표본설계와 표본조사 과정hosting03.snu.ac.kr/~hokim/sas/2018/lec2.pdf · 복합표본조사분석(2) : spss 2018-11-19 서울대학교보건대학원_2018

• SURVEYSELECT : 추출방법, 표본크기, 추출률 등 추출에 필요한 모수를 지정하면 추출확률에 기인한 표본추출의 다양한 방법을 사용– 대규모의 프레임에 적합하며 추출된 단위, 추출확률, 추출가중치를 생성

• SURVEYMEANS : 층화, 군집, 불균등 추출 하에서 모집단 총합, 평균, 비 등을 추정하고 추정량의 분산, 신뢰구간 등을 계산

• SURVEYREG : 최고제곱법에 의한 회귀계수을 추정• SURVEYLOGISTIC : 이산형 자료에 대해 로지스틱 회귀모형을최우추정방법으로 적합

• SURVEYFREQ : 1차원 및 n차원 분할표를 생성한다. 이 분할표는 모집단 총합, 모비율, 상대표준오차 등을 포함– 신뢰구간, 변동계수, 설계효과 계산도 가능하며 Wald,

Rao-Scott LR검정, Rao-Scott 카이제곱검정 등 독립성 검정을 실시

2018-11-19 서울대학교보건대학원_2018 41

SAS proc survey procedures

Page 42: 국민건강영양조사 표본설계와 표본조사 과정hosting03.snu.ac.kr/~hokim/sas/2018/lec2.pdf · 복합표본조사분석(2) : spss 2018-11-19 서울대학교보건대학원_2018

• 복합표본(complex samples)

복합표본조사분석(2) : SPSS

2018-11-19 42서울대학교보건대학원_2018

Page 43: 국민건강영양조사 표본설계와 표본조사 과정hosting03.snu.ac.kr/~hokim/sas/2018/lec2.pdf · 복합표본조사분석(2) : spss 2018-11-19 서울대학교보건대학원_2018

• SPSS 복합표본 분석 결과

2018-11-19 43서울대학교보건대학원_2018

Page 44: 국민건강영양조사 표본설계와 표본조사 과정hosting03.snu.ac.kr/~hokim/sas/2018/lec2.pdf · 복합표본조사분석(2) : spss 2018-11-19 서울대학교보건대학원_2018

• CSPLAN : 설계 정보를 정의하여 추출 및 분석을 실시하게 하는 기본 구성 단위

• CSSELECT : CSPLAN에서 정의된 설계에 따라 표본을 추출• CSDESCRIPTIVES : 전체 모집단 및 부모집단에 대한 총합, 평균, 비와 추정량의 표준오차, 설계효과를 추정

• CSTABULATE : 복합설계에서 분할표에 대한 표준오차, 설계효과, 변동계수, 오즈비, 상대위험도를 추정하고 및 독립성검정을 실시

• CSGLM : 분산분석, 공분산분석을 포함하는 선형회귀모형을실시하고 T-검정, Wald F-검정, 카이제곱 검정 및 다중비교 등을 실시

• CSLOGISTIC : 이항 및 다항 로지스틱 모형에 대한 분석 실시

2018-11-19 서울대학교보건대학원_2018 44

SPSS Complex Samples

Page 45: 국민건강영양조사 표본설계와 표본조사 과정hosting03.snu.ac.kr/~hokim/sas/2018/lec2.pdf · 복합표본조사분석(2) : spss 2018-11-19 서울대학교보건대학원_2018

• R survey package :

– R project(R foundation)에서 개발

– 분석 가능한 표본 : 층화추출, 집락추출, 다단계추출,

불균등 추출 확률 및 가중치를 갖는 표본설계

R pps package, survey function

– Descriptive, GLM, 생존분석(비례위험모형)

– 무응답보정, 사후층화추정과 Raking 가중치 계산 가능

– 분산추정 : 선형화, 반복 가중치를 이용한 추정

2018-11-19 서울대학교보건대학원_2018 45

Page 46: 국민건강영양조사 표본설계와 표본조사 과정hosting03.snu.ac.kr/~hokim/sas/2018/lec2.pdf · 복합표본조사분석(2) : spss 2018-11-19 서울대학교보건대학원_2018

Example 1 :

• 자료 출처 :

– 최신 표본조사설계와 분석(남궁평, 도서출판 탐진, 2006, p. 211-212)

– 복합표본조사 자료분석을 위해 변수 수정

• 가상 예제

– 표본설계 : 층화추출법

– 변수 : 2개(x, y)

– 특이사항 : 각 층마다 추출률을 다르게 표집

• 분석 관심 사항

– 기본 분석 : 기술통계

– 집단 평균 차이 분석 : 층간 평균차이 검정

– 회귀분석• 분리회계수

• 결합화귀계수

서울대학교보건대학원_2018 462018-11-19

Page 47: 국민건강영양조사 표본설계와 표본조사 과정hosting03.snu.ac.kr/~hokim/sas/2018/lec2.pdf · 복합표본조사분석(2) : spss 2018-11-19 서울대학교보건대학원_2018

47서울대학교보건대학원_20182018-11-19

표본추출률

모집단구성비

기본가중치

Page 48: 국민건강영양조사 표본설계와 표본조사 과정hosting03.snu.ac.kr/~hokim/sas/2018/lec2.pdf · 복합표본조사분석(2) : spss 2018-11-19 서울대학교보건대학원_2018

층비가중 분석 가중분석

통계량 표준오차 통계량 표준오차

1

평균 97.71 2.923865 97.71 0.804091

평균의 95% 신뢰구간하한 91.09576 96.11782

상한 104.3242 99.30218

5% 절삭평균 97.65 97.65

중위수 98.35 98.35

분산 85.48989 77.58746

표준편차 9.246074 8.808375

최소값 82 82

최대값 114.5 114.5

범위 32.5 32.5

사분위수 범위 12.675 11.5

왜도 0.070643 0.687043 0.060328 0.220879

첨도 0.222026 1.334249 -0.38618 0.438331

48서울대학교보건대학원_20182018-11-19

1) 층별 분석 : 가중치가 다른 경우 일반적으로 층내 분석에서는 가중치를 고려하지 않으나 비편향된 표준오차추정치를 얻기 위해 가중치 고려해야 함

모수 추정이 관심 : 층내 분석은 가중치 고려할 필요 없지만 전체 분석은 가중치를 고려해야 함 추정 후 비교 등의 추론(CI, 검정 등)이 요구되는 분석은 반드시 가중치를 고려해 분석

Page 49: 국민건강영양조사 표본설계와 표본조사 과정hosting03.snu.ac.kr/~hokim/sas/2018/lec2.pdf · 복합표본조사분석(2) : spss 2018-11-19 서울대학교보건대학원_2018

층비가중 분석 가중분석

통계량 표준오차 통계량 표준오차

2

평균 100.5875 5.222254 100.5875 1.798792

평균의 95% 신뢰구간하한 88.23883 96.98812

상한 112.9362 104.1869

5% 절삭평균 100.4528 100.4528

중위수 99.25 99.25

분산 218.1755 194.1392

표준편차 14.77077 13.93339

최소값 82.6 82.6

최대값 121 121

범위 38.4 38.4

사분위수 범위 26.6 26.6

왜도 0.163778 0.752101 0.134706 0.308694

첨도 -1.98734 1.48088 -1.6489 0.608492

3

평균 70.6 3.023464 70.6 0.880164

평균의 95% 신뢰구간하한 62.82794 68.8388

상한 78.37206 72.3612

5% 절삭평균 70.9 70.9

중위수 72.7 72.7

분산 54.848 46.48136

표준편차 7.405944 6.817724

최소값 58 58

최대값 77.8 77.8

범위 19.8 19.8

사분위수 범위 12.75 10.4

왜도 -1.11573 0.845154 -0.83586 0.308694

첨도 0.616881 1.740777 -0.59578 0.608492

49서울대학교보건대학원_20182018-11-19

Page 50: 국민건강영양조사 표본설계와 표본조사 과정hosting03.snu.ac.kr/~hokim/sas/2018/lec2.pdf · 복합표본조사분석(2) : spss 2018-11-19 서울대학교보건대학원_2018

표본추출결과

층 모집단 표본 추출률 가중치

1 120 10 0.08333 12.00

2 60 8 0.13333 7.50

3 60 6 0.10000 10.00

전체 240 24 0.10000 10.00

비가중분석/표본 가중분석/모집단

층 표본평균 SE 표본평균 SE

1 97.71 2.9239 97.71 0.8041

2 100.59 5.2223 100.59 1.7988

3 70.60 3.0235 70.60 0.8802

전체 91.89 3.3607 91.65 1.0610

50서울대학교보건대학원_20182018-11-19

Page 51: 국민건강영양조사 표본설계와 표본조사 과정hosting03.snu.ac.kr/~hokim/sas/2018/lec2.pdf · 복합표본조사분석(2) : spss 2018-11-19 서울대학교보건대학원_2018

비가중독립표본검정 :

층 1과 2

Levene의등분산 검정

평균의 동일성에 대한 t-검정

F 유의확률 t 자유도유의확률(양쪽)

차이 차이의 95% CI평균 SE 하한 상한

등분산이 가정됨 6.4435 0.021911 -0.50633 16 0.61953 -2.8775 5.682998 -14.9249 9.169918등분산이 가정되지 않음 -0.48078 11.21901 0.63991 -2.8775 5.985059 -16.0192 10.26422

가중독립표본검정 :

층 1과 2

Levene의등분산 검정

평균의 동일성에 대한 t-검정

F 유의확률 t 자유도유의확률(양쪽)

차이 차이의 95% CI평균 SE 하한 상한

등분산이 가정됨 62.1194 3.11E-13 -1.68813 178 0.09314 -2.8775 1.704551 -6.24123 0.486229등분산이 가정되지 않음 -1.46041 83.28629 0.14794 -2.8775 1.970334 -6.79622 1.041216

51서울대학교보건대학원_20182018-11-19

[분석 1] 평균차이 분석

Page 52: 국민건강영양조사 표본설계와 표본조사 과정hosting03.snu.ac.kr/~hokim/sas/2018/lec2.pdf · 복합표본조사분석(2) : spss 2018-11-19 서울대학교보건대학원_2018

52서울대학교보건대학원_20182018-11-19

[분석 2] 산점도

Page 53: 국민건강영양조사 표본설계와 표본조사 과정hosting03.snu.ac.kr/~hokim/sas/2018/lec2.pdf · 복합표본조사분석(2) : spss 2018-11-19 서울대학교보건대학원_2018

2018-11-19 서울대학교보건대학원_2018 53

[분석 3] SAS : 회귀분석

모집단구성비

기본가중치

Page 54: 국민건강영양조사 표본설계와 표본조사 과정hosting03.snu.ac.kr/~hokim/sas/2018/lec2.pdf · 복합표본조사분석(2) : spss 2018-11-19 서울대학교보건대학원_2018

2018-11-19 서울대학교보건대학원_2018 54

proc reg;model y=x;

run;

SAS : 비가중 회귀분석/reg

Page 55: 국민건강영양조사 표본설계와 표본조사 과정hosting03.snu.ac.kr/~hokim/sas/2018/lec2.pdf · 복합표본조사분석(2) : spss 2018-11-19 서울대학교보건대학원_2018

2018-11-19 서울대학교보건대학원_2018 55

proc reg;model y=x;weight wt_st;

run;

SAS : 가중최소제곱 회귀분석/reg

Page 56: 국민건강영양조사 표본설계와 표본조사 과정hosting03.snu.ac.kr/~hokim/sas/2018/lec2.pdf · 복합표본조사분석(2) : spss 2018-11-19 서울대학교보건대학원_2018

2018-11-19 서울대학교보건대학원_2018 56

proc surveyreg;model y=x;weight wt_st;

run;

SAS : Surveyreg-분석오류 :표집방법 미선언

231 n

Page 57: 국민건강영양조사 표본설계와 표본조사 과정hosting03.snu.ac.kr/~hokim/sas/2018/lec2.pdf · 복합표본조사분석(2) : spss 2018-11-19 서울대학교보건대학원_2018

2018-11-19 서울대학교보건대학원_2018 57

proc surveyreg;strata st;model y=x;weight wt_st;

run;

SAS : Surveyreg-올바른 분석 :표본추출방법선언가중치 선언

211 h

hn

Page 58: 국민건강영양조사 표본설계와 표본조사 과정hosting03.snu.ac.kr/~hokim/sas/2018/lec2.pdf · 복합표본조사분석(2) : spss 2018-11-19 서울대학교보건대학원_2018

• SAS proc surevyreg 결과 비교

– 복합표본조사의 표본설계 및 가중치를 부여해야 정확한 분석 결과 도출확인

– 일반 분석프로그램을 사용하는 경우 추정치는 비편향 결과를 얻지만 추정치의 표준오차는 과소추정되어 추가 분석 시 오류 결과 제공

2018-11-19 서울대학교보건대학원_2018 58

[분석 4] 복합표본조사자료분석 결과 비교

분석방법SAS

추정치 SE

기본분석 : 비가중/SRS 0.8270 0.0473

기본분석 : 가중/SRS (가중최소제곱법) 0.8191 0.0483

복합표본조사 자료분석 : 설계 누락 0.8191 0.0617

복합표본조사 자료분석 : 설계 반영 0.8191 0.0643

Page 59: 국민건강영양조사 표본설계와 표본조사 과정hosting03.snu.ac.kr/~hokim/sas/2018/lec2.pdf · 복합표본조사분석(2) : spss 2018-11-19 서울대학교보건대학원_2018

• 분리회귀계수 추정 결과(SAS 결과)

2018-11-19 서울대학교보건대학원_2018 59

층 구성비 추정치 SE1 0.50 0.8277 0.1554 2 0.25 0.9584 0.0604 3 0.25 0.7607 0.2385

전체 1.00 0.8436 0.0991

• 회귀계수 추정 결과의 비교

분석 표본설계 추정치 SE

층화추출분리 0.8436 0.0991 결합 0.8191 0.0643

단순임의 비가중 0.8270 0.0473

- 산점도 분석에서 층의 회귀계수 변동이 심하지 않으므로 결합회귀계수 추정이 적절한 것으로 판단됨- 복합표본 조사자료분석의 정확한 이해 및 분석이 요구됨

[분석 5] 분리회귀계수 추정

Page 60: 국민건강영양조사 표본설계와 표본조사 과정hosting03.snu.ac.kr/~hokim/sas/2018/lec2.pdf · 복합표본조사분석(2) : spss 2018-11-19 서울대학교보건대학원_2018

– 복합표본 교차분석의 통계량

2018-11-19 서울대학교보건대학원_2018 60

KcrcrF

XE

X

cr

X F)1)(1(),1)(1( ~

)1)(1( 2

2 2

Rao-Scott test statistic 계산

Example 2 : 카이제곱검정

각 셀에서 추정을 위한 설계효과를 계산

SRS

CS

Var

VarDeff

SRS

CS

SE

SEDeft

Page 61: 국민건강영양조사 표본설계와 표본조사 과정hosting03.snu.ac.kr/~hokim/sas/2018/lec2.pdf · 복합표본조사분석(2) : spss 2018-11-19 서울대학교보건대학원_2018

• 참고 : 설계 효과

– 의미 : SRS분산과 복합표본설계의 분산을 비교하여 분산의 과소/과대추정을 검토하는데 이용

– 설계효과의 이용

• SRS 분산을 이용한 복합표본의 분산 : 설계효과 x SRS 분산

• 효과적인 표본크기의 계산 : Effective sample size

– 복합표본크기의 분산을 기준으로 볼 때, 동일한 수준의 분산을 얻기위해 필요한 SRS 설계에서의 표본크기를 의미함

• 참고 : 가중치를 활용한 효과적인 표본크기의 계산

2018-11-19 서울대학교보건대학원_2018 61

deff

nsizeeffective

2

2

iw

iwsizeeffective

Page 62: 국민건강영양조사 표본설계와 표본조사 과정hosting03.snu.ac.kr/~hokim/sas/2018/lec2.pdf · 복합표본조사분석(2) : spss 2018-11-19 서울대학교보건대학원_2018

독립성 검정 결과

• 설계무시– 설계 무시/가중값 반영 분석은 모집단크기 기분 분석으로 적절

하지 않은 결과를 제공함에 주의

• 복합표본

– 수정된 F는 수정된 2차 라오-스캇 카이제곱 통계량을 의미

2018-11-19 서울대학교보건대학원_2018 62

값 자유도점근 유의확률

(양측검정)

Pearson

카이제곱16.667 1 .000

연속수정b 13.500 1 .000

우도비 19.503 1 .000

유효케이스 수

24

값 자유도점근 유의확률 (양측검정)

Pearson

카이제곱167.786 1 .000

연속수정b 164.462 1 .000

우도비 196.730 1 .000

유효케이스 수

241

독립성 검정카이 제곱 수정된 F df1 df2 유의확률

gr_x * gr_yPearson 16.853 18.744 1 21 .000

우도비 19.811 22.033 1 21 .000

Page 63: 국민건강영양조사 표본설계와 표본조사 과정hosting03.snu.ac.kr/~hokim/sas/2018/lec2.pdf · 복합표본조사분석(2) : spss 2018-11-19 서울대학교보건대학원_2018

Example 3 : Stratified sample with PPS

• Survey of the evaluation of new 3 Web designs– Survey population : undergraduate students

– Stratified Cluster samples : 4 strata/classes– Sample size : 1,200 students

• Within each class, 300 students are randomly selected using SRS WOR

– Measurement variables : • Each student selected evaluated one randomly selected

Web design• Preference levels : 5 scales

Calss 1 2 3 4 TotalEnrollment 3,734 3,565 3,903 4,196 15,398

2018-11-19 서울대학교보건대학원_2018 63

Page 64: 국민건강영양조사 표본설계와 표본조사 과정hosting03.snu.ac.kr/~hokim/sas/2018/lec2.pdf · 복합표본조사분석(2) : spss 2018-11-19 서울대학교보건대학원_2018

• Data

• Weight

Strata/Class DesignRating Counts

total 1 2 3 4 5

Freshman

A 110 10 34 35 16 15B 90 5 6 24 30 25C 101 11 15 20 34 21

Sophomore

A 90 19 12 16 18 25

B 109 10 18 32 23 26

C 100 15 22 34 9 20

Junior

A 100 8 21 23 26 22

B 100 1 4 15 33 47C 100 16 19 30 23 12

Senior

A 100 11 14 24 33 18B 100 8 15 25 30 22C 100 2 34 30 18 16

h

hh n

NW

2018-11-19 서울대학교보건대학원_2018 64

Page 65: 국민건강영양조사 표본설계와 표본조사 과정hosting03.snu.ac.kr/~hokim/sas/2018/lec2.pdf · 복합표본조사분석(2) : spss 2018-11-19 서울대학교보건대학원_2018

• proc surveylogistic

– Generalized Logit model

proc surveylogistic data=WebSurvey total=Enrollment ; stratum Class; freq Count; class Design; model Rating (ref=‘neutral’) = design / link=glogit ; weight Weight ;

run;

1. sub-pop. totals2. fpc

2018-11-19 서울대학교보건대학원_2018 65

Page 66: 국민건강영양조사 표본설계와 표본조사 과정hosting03.snu.ac.kr/~hokim/sas/2018/lec2.pdf · 복합표본조사분석(2) : spss 2018-11-19 서울대학교보건대학원_2018

• SAS output

2018-11-19 서울대학교보건대학원_2018 66

Page 67: 국민건강영양조사 표본설계와 표본조사 과정hosting03.snu.ac.kr/~hokim/sas/2018/lec2.pdf · 복합표본조사분석(2) : spss 2018-11-19 서울대학교보건대학원_2018

2018-11-19 서울대학교보건대학원_2018 67

Page 68: 국민건강영양조사 표본설계와 표본조사 과정hosting03.snu.ac.kr/~hokim/sas/2018/lec2.pdf · 복합표본조사분석(2) : spss 2018-11-19 서울대학교보건대학원_2018

• MLE

• Odds Ratio estimates 95%CI이 “1”을 포함하면 차이가 없음을 의미

2018-11-19 서울대학교보건대학원_2018 68

Page 69: 국민건강영양조사 표본설계와 표본조사 과정hosting03.snu.ac.kr/~hokim/sas/2018/lec2.pdf · 복합표본조사분석(2) : spss 2018-11-19 서울대학교보건대학원_2018

• proc Logistic using weight L S– Generalized Logit model

– 가중치를 부여하는 경우 회귀계수 추정치는 동일하게비편향 추정결과를 얻게 되지만 추정치의 표준오차가과소추정되어 회귀계수 추론에 편향된 영향을 제공

proc logistic data=WebSurvey ;freq Count;class Design;model Rating (ref='neutral') = Design / link=glogit;weight Weight;

run;

2018-11-19 서울대학교보건대학원_2018 69

Page 70: 국민건강영양조사 표본설계와 표본조사 과정hosting03.snu.ac.kr/~hokim/sas/2018/lec2.pdf · 복합표본조사분석(2) : spss 2018-11-19 서울대학교보건대학원_2018

• Logistic output

Surveylogistic과동일

2018-11-19 서울대학교보건대학원_2018 70

Page 71: 국민건강영양조사 표본설계와 표본조사 과정hosting03.snu.ac.kr/~hokim/sas/2018/lec2.pdf · 복합표본조사분석(2) : spss 2018-11-19 서울대학교보건대학원_2018

• MLE

• Odds Ratio estimates Surveylogistic과 다름

결과다름

결과동일

과소추정

2018-11-19 서울대학교보건대학원_2018 71

Page 72: 국민건강영양조사 표본설계와 표본조사 과정hosting03.snu.ac.kr/~hokim/sas/2018/lec2.pdf · 복합표본조사분석(2) : spss 2018-11-19 서울대학교보건대학원_2018

• 홈페이지의 자료분석 FAQ

2018-11-19 72서울대학교보건대학원_2018

III. 국민건강영양조사 자료 분석

Page 73: 국민건강영양조사 표본설계와 표본조사 과정hosting03.snu.ac.kr/~hokim/sas/2018/lec2.pdf · 복합표본조사분석(2) : spss 2018-11-19 서울대학교보건대학원_2018

• 국민건강조사자료를 활용한 논문 활용

2018-11-19 73서울대학교보건대학원_2018

Page 74: 국민건강영양조사 표본설계와 표본조사 과정hosting03.snu.ac.kr/~hokim/sas/2018/lec2.pdf · 복합표본조사분석(2) : spss 2018-11-19 서울대학교보건대학원_2018

질병관리본부

2018-11-19 서울대학교보건대학원_2018 74

Page 75: 국민건강영양조사 표본설계와 표본조사 과정hosting03.snu.ac.kr/~hokim/sas/2018/lec2.pdf · 복합표본조사분석(2) : spss 2018-11-19 서울대학교보건대학원_2018

지역사회건강조사

2018-11-19 서울대학교보건대학원_2018 75

Page 76: 국민건강영양조사 표본설계와 표본조사 과정hosting03.snu.ac.kr/~hokim/sas/2018/lec2.pdf · 복합표본조사분석(2) : spss 2018-11-19 서울대학교보건대학원_2018

2018-11-19 서울대학교보건대학원_2018 76

Page 77: 국민건강영양조사 표본설계와 표본조사 과정hosting03.snu.ac.kr/~hokim/sas/2018/lec2.pdf · 복합표본조사분석(2) : spss 2018-11-19 서울대학교보건대학원_2018

청소년건강행태조사

2018-11-19 서울대학교보건대학원_2018 77