다변량회귀나무를 이용한 무응답 가중치 조정층 형성 · 김세미* ∙...

22
다변량회귀나무를 이용한 무응답 가중치 조정층 형성 김세미 * 이석훈 ** 윤연옥 *** < 요 약 > 단위 무응답(unit nonresponse)을 대체하는 방안으로 가중치 방법(weighting adjustment method)이 있다. 응답 변수 혹은 관 심변수를 사용하여 층 내 응답율을 추정한 뒤 이 값의 역수를 이 용하여 층 내에서 가중치를 조정하면 더 정교한 추정을 할 수 있 다고 알려져 있다. 좋은 추정치를 위해서는 무응답 조정 층내에서 응답률이 같다고 가정할 수 있어야 하고 층 내에서 관심변수의 분 산도 작아야 하는 것으로 알려져 있다. 따라서 이 두가지를 제어하 기 위한 연구가 많이 진행되어 왔으나 대부분은 한 가지씩 차례로 제어하는 방법을 사용하였기 때문에 알고리즘 구현 중에 주관적인 판단의 영역이 상당히 많았다. 이에 본 논문에서는 가급적 주관적 판단의 개입을 최소화 할 수 있는 효과적인 무응답 조정층 구축을 위해 응답변수와 관심변수를 동시에 고려하는 다변량 회귀나무 (multivariate regression tree)기법을 제안하였다. 구체적인 실례로 서 통계청의 가계조사 자료를 이용하여 응답변수만을 목표변수로 하는 의사결정나무 기법을 사용한 기존의 방법과 다변량 의사결정 나무 기법을 사용하여 무응답 조정층을 형성하는 방법을 비교하였 다. 핵심단어 : 단위 무응답, 무응답 가중치 조정층, 다변량 회귀나무 * 충남대학교 통계학과 박사과정 수료 (e-mail : [email protected]) ** 충남대학교 통계학과 교수 (e-mail : [email protected]) *** 통계청 행정정보과 과장 (e-mail : [email protected])

Upload: others

Post on 28-Sep-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 다변량회귀나무를 이용한 무응답 가중치 조정층 형성 · 김세미* ∙ 이석훈** ∙ 윤연옥*** < 요 약 > 단위 무응답(unit nonresponse)을 대체하는

다변량회귀나무를 이용한 무응답 가 치 조정층 형성

김세미* ∙ 이석훈** ∙ 윤연옥***

< 요 약 >

단 무응답(unit nonresponse)을 체하는 방안으로 가 치 조

정 방법(weighting adjustment method)이 있다. 응답 변수 혹은

심변수를 사용하여 층 내 응답율을 추정한 뒤 이 값의 역수를 이

용하여 층 내에서 가 치를 조정하면 더 정교한 추정을 할 수 있

다고 알려져 있다. 좋은 추정치를 해서는 무응답 조정 층내에서

응답률이 같다고 가정할 수 있어야 하고 층 내에서 심변수의 분

산도 작아야 하는 것으로 알려져 있다. 따라서 이 두가지를 제어하

기 한 연구가 많이 진행되어 왔으나 부분은 한 가지씩 차례로

제어하는 방법을 사용하 기 때문에 알고리즘 구 에 주 인

단의 역이 상당히 많았다. 이에 본 논문에서는 가 주

단의 개입을 최소화 할 수 있는 효과 인 무응답 조정층 구축을

해 응답변수와 심변수를 동시에 고려하는 다변량 회귀나무

(multivariate regression tree)기법을 제안하 다. 구체 인 실례로

서 통계청의 가계조사 자료를 이용하여 응답변수만을 목표변수로

하는 의사결정나무 기법을 사용한 기존의 방법과 다변량 의사결정

나무 기법을 사용하여 무응답 조정층을 형성하는 방법을 비교하

다.

핵심단어 : 단 무응답, 무응답 가 치 조정층, 다변량 회귀나무

* 충남대학교 통계학과 박사과정 수료 (e-mail : [email protected])

** 충남대학교 통계학과 교수 (e-mail : [email protected])

*** 통계청 행정정보과 과장 (e-mail : [email protected])

Page 2: 다변량회귀나무를 이용한 무응답 가중치 조정층 형성 · 김세미* ∙ 이석훈** ∙ 윤연옥*** < 요 약 > 단위 무응답(unit nonresponse)을 대체하는

Ⅰ. 서론

표본조사에서 표본 단 들은 각 조사의 표본 설계에 따라 모집단

의 일부분을 표하게 된다. 어느 정도 표하는 지를 수치로 나타

내 주는 것이 바로 가 치 혹은 승수라고 불리는 숫자이고 추정량

을 계산할 때 표본단 들의 조사된 값에 그 가 치를 곱함으로써

모수를 추정하게 된다. 이 때 표본조사 상이 모두 응답을 하 다

면 원래 표본설계에서 계산된 가 치를 그 로 사용할 수 있으나,

무응답이 발생한 경우에는 무응답으로 인하여 편향이 발생할 수

있으므로 무응답을 고려한 가 치 조정 는 무응답 체기법

(imputation)을 이용하여 보정하고 있다.

무응답은 크게 단 무응답(unit nonresponse)과 항목무응답(item

nonresponse)으로 나 수 있다. 단 무응답은 해당 통계조사에

해 응답하지 않는 경우이고, 항목무응답은 체 조사항목

몇 가지만 응답하고 나머지는 응답하지 않은 경우에 해당된다.

일반 인 조사표(질문지)를 이용한 조사에서는 단 무응답과 항목

무응답 두 종류의 무응답이 나타날 수 있으며, 가계부와 같이 응답

자 스스로가 모든 사항을 기록하는 조사의 무응답은 부분 단

무응답으로 나타난다. 무응답에 한 보정방법으로 단 무응답이

발생하는 경우는 일반 으로 가 치 조정방법을 많이 쓰고 있으며,

항목무응답인 경우는 무응답 체(imputaiton)방법이 많이 이용되

고 있다.

통계청 가계조사는 표본으로 선정된 가구의 가구원이 가계부 형

식의 조사표를 매월 작성하여 조사원에게 넘겨주는 자기 기입식

Page 3: 다변량회귀나무를 이용한 무응답 가중치 조정층 형성 · 김세미* ∙ 이석훈** ∙ 윤연옥*** < 요 약 > 단위 무응답(unit nonresponse)을 대체하는

조사이다. 2004년 연동표본(rotation sampling) 도입으로 일단 표본

으로 선정된 가구는 3년간 계속하여 조사에 조하여야 하며 표본

교체시* 체표본의 약 1/18인 약 550가구가 교체된다. 이 과정에

서 교체되는 가구의 기 응답률은 기존의 응답률보다는 낮게 나

타나고 있다. 가계조사의 평균 응답률은 약80% 수 으로 유럽등의

선진국과 비교하여 높은 응답률을 나타내고 있으나, 정확한 통계생

산을 해서는 정교한 무응답처리기법이 실히 요구되고 있다. 통

계청에서는 보다 정 한 무응답처리기법을 개발하기 하여 2003

년 가계조사무응답처리기법을 개발하 다. 개발된 방법은 무응답층

을 이용하여 가 치를 조정하는 방법으로, 무응답층 설정을 하여

먼 응답률을 기 으로 동질그룹이 되도록 층을 나 후에 층내

주요 변수 값의 분산이 크지 않도록 다시 세분하여 최종 무응답층

을 설정하 다. (한근식·김재 , 2003)

본 논문에서는 가계조사 무응답처리기법 개발시 사용된 무응답층

설정과정이 복잡하고 분석자의 주 이 많이 들어가는 단 을 보완

하고자 하여 응답률과 심변수를 동시에 이용하여 무응답층을 형

성하는 방법을 제시하고 개발된 방법과 비교 분석하 다. 2장에서

는 무응답층을 형성하기 하여 기존 방법인 응답 변수만을 이용

하여 구축하는 방법과 본 논문에서 제시하고자 하는 응답 변수와

심 변수를 동시에 고려한 다변량 의사결정나무를 통한 구축 방

법을 소개한다. 3장에서는 2003년 6월 가계조사 서울자료를 이용하

여 기존의 방법과 제시된 방법을 비교한다.

* 3, 4, 7, 8, 11, 12월(자세한 내용은 통계청 2002 가구표본설계 보고서 참조)

Page 4: 다변량회귀나무를 이용한 무응답 가중치 조정층 형성 · 김세미* ∙ 이석훈** ∙ 윤연옥*** < 요 약 > 단위 무응답(unit nonresponse)을 대체하는

변 수 내 용

관심변수 Y

총수입(총지출), 소득, 경상소득, 근로소득, 가구주

소득, 배우자 소득, 기타 가구원 소득, 사업소득, 재산소득,

이전소득, 가계지출, 소비지출, 식료품, 주거, 광열수도,

가구집기 가사용품, 피복신발,보건의료, 교육, 교양오락,

교통통신, 기타소비지출, 비소비 지출

보조변수 X

총가구원수, 대상가구원수, 취업자가구원수, 실업자수,

비경제활동 가구원수, 거처구분, 주택소유관계,

생활비주된소득, 가구구분, 가구주사항

<표 1> 변수 내용

Ⅱ. 무응답 가 치 조정층

가계조사 무응답처리기법 연구와 연 하여 가계조사의 주요 심

변수와 이와 련된 보조변수는 아래 <표 1>과 같다. 설명을

한 기호로써 Y를 심변수, X를 보조변수, R을 응답 변수라 하자.

심 변수란 표본 조사에서 무응답 발생시 체 는 조정하여야

하는 변수이고 보조 변수란 응답여부에 계없이 수집할 수 있는

인구통계학 혹은 지리 변수를 말한다. 를 들어 가계 조사 자

료에서 Y는 소득과 지출 등에 계된 변수이고, X는 표본 리명부

에서 얻을 수 있는 가계 조사의 응답 여부에 계없이 주어지는

변수이다. R은 응답여부이므로 응답, 무응답(0, 1)의 값을 갖는 이

진 변수이다.

단 무응답 가 치 조정 층의 주요 아이디어는 유사한 응답확

률을 갖는다고 믿어지거나 특정 조사 변수가 거의 같은 값을 갖는

다고 생각되는 표본 단 들의 층을 정의하는 것이다. 조정 방법은

Page 5: 다변량회귀나무를 이용한 무응답 가중치 조정층 형성 · 김세미* ∙ 이석훈** ∙ 윤연옥*** < 요 약 > 단위 무응답(unit nonresponse)을 대체하는

각 층 내에서 무응답한 표본 단 들의 가 치를 응답한 표본 단

들의 가 치에 분배하여 다. 무응답 조정 층 형성 과정은 단순히

인구 통계학 범주형 변수의 조합으로 형성되었다. 그러나

Little(1986)과 그 외에 다른 연구자들은 추정된 응답확률 혹은 추

정된 심 변수 값에 따른 표본 단 의 그룹핑에 의한 층의 형성

을 고려하 다.

응답률에 한 모형을 성향 수(Propensity score)라고도 하는데

Little(1986)은 성향 수를 이용한 가 치 조정을 소개했다. 이 방

법은 추정된 응답률의 역수를 기본 가 치에 곱하여 주는 것인데

이는 무응답이 발생하 을 때 무응답이 발생한 만큼 응답자들의

가 치를 높여 으로써 무응답의 체 효과를 고려하는 것이다. 이

때 성향 수의 참값을 알 수 없기 때문에 자료로부터 추정하여

사용한다. 이를 기호로 표 하면

을 무응답이 없었을

때의 추정량이라고 하자. 성향 수의 추정량을 이용하여 무응답

보정을 사용한 추정량은 다음과 같이 표 된다. 이때

는 의 추정량이다.

응답률을 추정할 때에는 체 응답률을 사용할 수도 있으나

히 층을 나 어 층 내에서 응답률을 추정한다면 좀 더 정교한

추정 값을 얻을 수 있다. 한 무응답 조정 층을 만들기 해서

는 응답자와 무응답자 모두에게서 찰되는 변수가 필요하다. 일반

인 조사에서 이런 보조 정보를 항상 활용할 수 있는 것은 아니

Page 6: 다변량회귀나무를 이용한 무응답 가중치 조정층 형성 · 김세미* ∙ 이석훈** ∙ 윤연옥*** < 요 약 > 단위 무응답(unit nonresponse)을 대체하는

지만 패 조사인 경우 처음 조사에서 모든 정보를 다 얻은 후 시

간이 갈수록 무응답이 증가하는 경향이 있으므로 기 조사의 자

료를 응답률에 한 모형을 만들기 한 자료로 사용할 수 있다.

패 조사가 아니더라도 조사에 응하지 않은 표본들에 해 최 한

자료를 수집하여 가능한 정보를 활용할 수도 있다. 이때 활용 가능

한 보조변수 X들의 상호 교차로 만들어진 모든 층을 무응답 가

치 조정 층으로 사용하게 되면 표본수가 없는 층이 발생하거

나 무응답 혹은 응답 표본 어느 한 쪽만 존재하는 층이 발생할 수

도 있기 때문에 통계 기법을 이용한 다양한 무응답 가 치 조정

층 설정 방법들이 개발되어 있다. 1 에서는 기존의 방법을 소개하

고 2 에서 새로운 방법을 제시하 다.

무응답 조정 층을 이용한 무응답 가 치 조정법은 보조 변수 X

가 무응답층을 나타내는 변수가 되는 경우이다. 모집단(U)이 개

의 무응답 조정 층 로 나뉘어 진다고 한다면 표본(S)도 G개의

무응답 조정 층 로 나뉘어 지고 성향 수는 각 무응답 조정 층

내에서 일정하다고 가정한다.

,

이에 따라 그 층 내의 모든 원소들의 응답률

∊ 의 총 응답개체수 의 총 개체수 으로 표

되며 그 추정치는 ∊

는가중치 이 될

것이다.

Page 7: 다변량회귀나무를 이용한 무응답 가중치 조정층 형성 · 김세미* ∙ 이석훈** ∙ 윤연옥*** < 요 약 > 단위 무응답(unit nonresponse)을 대체하는

따라서 이 경우 무응답층을 이용한 가 치 조정 추정량은 다음과

같이 표 된다.

각 무응답층 내에서 무응답률이 일정하다고 할 때 이 무응답층

을 이용한 가 치 조정 추정량은 다음과 같은 통계 성질이 알려

져 있다. 분모에 확률변수가 포함되어 있으므로 는 근사 불편

추정량이 된다. 분산의 형태는 다음과 같다. (한근식·김재 , 2003)

where

: Cell 의 총 개체 수

: Cell 의 총 응답 개체 수

: 무응답이 없는 상황에서의 추정량의 분산

분산의 형태를 보면 등식 오른쪽 첫 번째 항은 무응답과 계없

는 항으로 추정치의 표본 설계로 인한 분산이며 두 번째 항은

무응답으로 인해 증가되는 분산값으로 일반 으로 층의 개수가 많

아질수록 그리고 층 내 심변수 Y의 분산이 작을수록 작아진다는

것을 알 수 있다. 의 두 가지 통계 성질을 이용하여 무응답층

Page 8: 다변량회귀나무를 이용한 무응답 가중치 조정층 형성 · 김세미* ∙ 이석훈** ∙ 윤연옥*** < 요 약 > 단위 무응답(unit nonresponse)을 대체하는

내에서 응답률이 비슷하도록 함과 동시에 심변수가 동질 이 되

도록 결정하는 것이 추정치의 편의를 이고 효율을 높이는 것으

로 유추되었다.

1. 응답 변수를 이용한 방법

응답 변수 R을 종속변수로 하고 보조 변수 X를 독립변수로 하여

CHAID(Chi-square Automatic Interaction Detection)기법으로 분

류나무를 형성한다. 한 가지치기 과정 후에 종료 노드를 조정

층으로 사용한다. 이때 분류나무는 응답률이 각 조정 층 간에 차이

가 많이 나도록 층을 나 게 된다. CHAID 알고리즘을 사용하여

형성된 조정층 내의 개체들은 그 층에서 응답 개체들의 심변수

의 분산이 무 크지 않도록 층에서 심변수의 분산을 살펴보고

분산이 무 크거나 층 내 표본수가 무 많은 경우 그 층을 더

세분화하여 무응답 조정 층을 형성한다. 층 내 응답률의 동질성은

비추정량이 갖는 편향을 이기 한 조건이고 층 내 분산을 이

는 것은 추정량의 분산을 이기 한 조건으로 볼 수 있다.(한근

식과 김재 , 2003)

그러나 이 방법은 응답 변수 R을 이용해서 만든 종료노드를 이

용하여 심변수에 한 정확한 추정을 하여 추가 으로 종료노

드를 분할하거나 합치는 과정을 거쳐서 최종 무응답 조정층을 설

정하게 되므로 분석자의 주 이 많이 개입될 수 있으며 경우에 따

라서는 일 성을 잃을 수도 있다. 한 최종 무응답층을 설정하기

해서는 많은 시간이 걸릴 수 있다는 단 이 있다.

Page 9: 다변량회귀나무를 이용한 무응답 가중치 조정층 형성 · 김세미* ∙ 이석훈** ∙ 윤연옥*** < 요 약 > 단위 무응답(unit nonresponse)을 대체하는

2. 응답 변수와 심 변수를 동시에 이용한 방법

1) 다변량 회귀 나무

의사결정나무 방법은 비모수 인 방법으로 분류 혹은 측에 사

용되는 데이터마이닝 기법 하나이다. 기본 인 회귀나무 방법을

Beiman et al.(1984)의 CART(Classification and Regression Tree)

에 근거하여 간단히 소개한다. 회귀 나무 모형의 생성은 자식 노드

의 개체들의 연속형 종속변수 값이 가능한 동질 이 되도록 하

는 독립 변수들과 그 독립변수의 분리 지 을 선택하는 과정의

반복으로 이루어진다. 이때 다음의 으로 정의된 부모노드의

편차를 가장 많이 감소시키는 변수의 분리 지 을 선택하게 된다.

이와 같은 분리 과정은 모든 개체로 이루어진 뿌리 노드로부터 시

작하는데 이로부터 갈라진 노드를 자식노드라하고 그 자식 노드를

부모노드로 하여 다시 자식노드가 형성된다. 즉 자식노드의

, *을 각각의 개체 수로 가 평균을 하여 부모노

드의 과 차이를 가장 크게하는 분리 변수로 회귀나무를 생성

해 나간다. 노드 N의 편차는 아래 식(1)로 정의한다. 여기서

은 노드 N에 속한 개체들의 종속변수의 평균이다.

(1)

이와 같은 회귀나무 모형의 형성과정을 단계별로 정리하면 다음

과 같다.

* , 는 부모노드 에서 왼쪽 또는 오른쪽으로 분리된 가지에 속한 개체들의 집합

Page 10: 다변량회귀나무를 이용한 무응답 가중치 조정층 형성 · 김세미* ∙ 이석훈** ∙ 윤연옥*** < 요 약 > 단위 무응답(unit nonresponse)을 대체하는

(1) 뿌리 노드의 편차를 계산한다.

(2) 입력된 모든 종속변수의 모든 분리지 에서 고려되는 모든

자식노드들의 편차를 계산하여 왼쪽과 오른쪽 자식노드의 편차를

가 평균 한다.

(3) (1)에서 계산된 값과 (2)에서 계산된 값의 차이를 구하여 가

장 큰 값을 가지는 변수의 분리 지 을 첫 번째 분리되는 자식노

드로 한다.

(4) (3)에서 결정된 자식노드를 부모 노드로 하여 (2), (3)을 반복

하여 더 이상 회귀나무가 커지지 않을 때까지 반복한다.

(5) 마지막으로 가지치기 과정을 통하여 당한 회귀 나무를 선

택한다.

한 독립변수의 유형에 따라 분리 지 을 고려하는 것이 달라지

게 된다. 독립변수가 개의 범주를 가진 범주형 변수인 경우 가질

수 있는 모든 부분 집합은 개이나 실제로 고려될 분리 지 은

개 이다. 순서형 변수인 경우는 개의 모든 분리 가능

한 지 이 있고 연속형 변수인 경우 그 변수의 모든 범 의 각 지

에서 분리를 고려한다. 회귀나무 모형에서 미리 종료노드의 최소

개체 수를 정하거나 편차의 최소 임계값을 정해놓는다면 쓸데없이

큰 나무가 형성되는 것을 막을 수 있다. 그러나 이런 법칙을 미리

정해 놓아도 좋은 모형이라고 할 수 없는 과 추정된 나무가 생

성되기 때문에 가지치기(prune)를 실행하여 당한 크기의 나무을

생성한다.

다변량 회귀나무는 두 개 이상의 연속형 종속변수를 가지는 자료

의 회귀나무 분석에 쓰이는 기법이다. 두 개 이상의 연속형 종속변

수의 회귀나무 분석에서 각 노드의 편차 측정은 아래의 식(2)으로

계산한다.

Page 11: 다변량회귀나무를 이용한 무응답 가중치 조정층 형성 · 김세미* ∙ 이석훈** ∙ 윤연옥*** < 요 약 > 단위 무응답(unit nonresponse)을 대체하는

(2)

여기서 는 종속변수 행렬이고 은 노드 N에 속한 개체들의

종속변수의 평균 벡터이다. 는 체 자료의 분산 공분산 행렬이

다. 일변량 회귀나무처럼 아래 식으로 표 된 불순도의 감소량이

가장 큰 분리 변수를 이용하여 회귀나무를 생성해 나간다.

2) 가계조사 무응답 조정층 형성 방법

무응답 조정층을 형성하기 해 다변량 회귀나무를 이용할 때 종

속변수는 심변수 총수입(총지출) 변수와 로지스틱 회귀분석을

이용하여 추정된 각 개체의 응답확률을 연속 인 값으로 변환시킨

변수를 사용한다. 기존의 방법이 응답변수를 가지고 분류나무를 구

성하여 각 종료 노드에서 심변수의 값이 동질 이 되도록 하는

ad-hoc.한 방법을 사용한 것에 비해 심변수와 응답여부를 동시에

고려하면서 무응답 조정층을 한 변수 선택을 해나가는 것이 다

변량 회귀나무 방법의 큰 장 이다. 즉 조정층 형성에서 응답률과

심변수가 동질 이 되도록 하는 과정이 회귀나무 모형을 만들어

가면서 같이 고려되므로 응답변수로 만들어 놓은 분류나무의 종료

노드를 심변수의 분산이 작도록 일일이 조정하는 과정이 생략되

어 좀 더 객 인 층을 만들 수 있다.

요한 아이디어는 응답확률을 활용하는 것인데 먼 응답확률을

응답변수 R과 보조변수 X로부터 로지스틱 회귀모형을 가정하여

Page 12: 다변량회귀나무를 이용한 무응답 가중치 조정층 형성 · 김세미* ∙ 이석훈** ∙ 윤연옥*** < 요 약 > 단위 무응답(unit nonresponse)을 대체하는

추정한다. 그런데 이 값이 0과 1사이의 값이기 때문에 심변수가

되는 소득, 지출 련 변수값과 함께 다변량 회귀나무에서 목표변수

벡터로 사용하기 하여 다음과 같이 변환한다.

심변수에서 지출은 물론 수입 부분에 련된 항목인 총수입(총

지출) 변수가 여러 심 변수들을 표할 수 있다고 단하여 다변

량 회귀나무의 종속변수로 사용하 다. 정리하면 로지스틱 회귀모

형에서 추정된 응답확률의 오즈비의 로그변환으로 얻어진 변수

와 총수입(총지출) 변수 를 다변량 회귀나무의 종속 변수로하여

무응답 조정층을 구축하 다.

Ⅲ. 모의실험

2장에서 소개한 두 방법으로 2003년 6월의 가계조사 자료 서

울 자료를 이용하여 무응답 조정층을 만들고 결과를 비교하 다.

다변량 회귀나무 방법에서는 종속변수 총수입(총지출)변수의 이

상값을 탐지하여 상 14가구의 자료를 제거한 뒤 무응답 조정층

을 구축하 고 심변수를 종속변수로 사용하기 때문에 원자료에

서 응답한 개체만을 무응답 조정층 구축에 사용하 다.

응답변수를 이용하여 만들어진 무응답 조정층은 <그림 1>과 같

다. 6개의 층이 최종 으로 형성되었고 숫자는 해당 노드의 개체

수이다. 다변량 회귀나무를 이용하여 만든 무응답 조정층은 <그림

2>와 같다. 8개의 층이 최종 으로 형성되었고 해당 노드의 종속

Page 13: 다변량회귀나무를 이용한 무응답 가중치 조정층 형성 · 김세미* ∙ 이석훈** ∙ 윤연옥*** < 요 약 > 단위 무응답(unit nonresponse)을 대체하는

변수들의 평균과 개체 수를 나타내었다. 종료노드에서 은 로지스

틱 회귀모형에서 추정된 응답확률의 오즈비의 로그변환으로 얻어

진 변수의 층내 평균이고, 는 총수입(총지출)변수의 층내 평균이

다. 두 가지 무응답 층을 모형의 구축과 해석의 측면에서 비교하고

통계량을 추정하여 비교해 보았다.

nR 0 = 278R 1 = 736

2~3명

0~1명

0명0 : 711 : 105

1명0 : 591 : 170

2명 이상0 : 341 : 49

4명 이상

0~1명

0명0 : 441 : 132

1명0 : 461 : 233

2명 이상0 : 241 : 47

총 가구원

비경제 총 가구원 거처구분

비경제 총 가구원 비경제 여자 가구원

nR 0 = 278R 1 = 736

2~3명

0~1명

0명0 : 711 : 105

1명0 : 591 : 170

2명 이상0 : 341 : 49

4명 이상

0~1명

0명0 : 441 : 132

1명0 : 461 : 233

2명 이상0 : 241 : 47

총 가구원

비경제 총 가구원 거처구분

비경제 총 가구원 비경제 여자 가구원

<그림 1> 응답 변수를 이용하여 만든 무응답 조정층

Y1=1.05Y2=5616359n=722

3명이하

2명 3명

아파트Y1=0.56Y2=5894707n=46

단독,연립,다세대등Y1=0.56Y2=3405164n=94

2명이하Y1=1.02Y2=5331002n=82

3명이상Y1=0.69Y2=5645254n=99

4명이상

2명이하 3명이상

아파트Y1=1.49Y2=7328518n=96

단독,연립,다세대등Y1=1.51Y2=4523291n=94

4명Y1=0.95Y2=6258315n=124

5명이상Y1=1.41Y2=6471132n=87

총가구원

총가구원 총대상가구원

거처구분 총대상가구원 거처구분 총가구원

1 2 3 4 5 6 7 8

Y1=1.05Y2=5616359n=722

3명이하

2명 3명

아파트Y1=0.56Y2=5894707n=46

단독,연립,다세대등Y1=0.56Y2=3405164n=94

2명이하Y1=1.02Y2=5331002n=82

3명이상Y1=0.69Y2=5645254n=99

4명이상

2명이하 3명이상

아파트Y1=1.49Y2=7328518n=96

단독,연립,다세대등Y1=1.51Y2=4523291n=94

4명Y1=0.95Y2=6258315n=124

5명이상Y1=1.41Y2=6471132n=87

총가구원

총가구원 총대상가구원

거처구분 총대상가구원 거처구분 총가구원

1 2 3 4 5 6 7 8

<그림 2> 응답변수와 관심변수를 이용하여 만든 무응답 조정층

Page 14: 다변량회귀나무를 이용한 무응답 가중치 조정층 형성 · 김세미* ∙ 이석훈** ∙ 윤연옥*** < 요 약 > 단위 무응답(unit nonresponse)을 대체하는

의사결정나무 알고리즘은 비모수 방법이라는 장 과 해석의 용

이함 때문에 자료분석에서 리 쓰이고 있는 기법이다. 다변량 회

귀나무 모형으로 만든 무응답 조정층은 최종 노드의 개별 응답률

과 총수입(총지출)이 갖는 값이 선택된 독립변수에 의해 자연스럽

게 해석되고 있다.

를 들어 층 1과 2를 보면 총가구원이 2명인 가구의 응답율은

낮은 편이지만 거처구분이 아 트인지 아닌지에 따라 심변수의

표본 평균값이 크게 다름을 알 수 있다. 응답률은 비슷하지만 심

변수의 분포가 서로 다른 집단으로 분리되어 가 치 조정이 따로

이루어지므로 더욱 정교한 추정값을 기 할 수 있다. 한 층 3과

4는 심변수의 평균값이 비슷한 반면에 응답률의 평균이 다르므

로 총 가구원이 3명인 가구 총 상가구원이 2명 이하인 가구

가 응답해 확률이 크다고 볼 수 있다. 층 5는 심변수의 평균

값이 가장 높고 응답률도 높을 것으로 기 되는 층이다. 즉 총가구

원이 4명 이상이고 총 상 가구원이 2명 이하일 때 거처 구분 변

수가 응답률이 비슷하면서 심변수의 분포는 다른 두개의 층으로

나 는데 결정 인 역할을 하고 있다. 이는 층 1과 2가 분리된 것

처럼 거처구분이 아 트인 경우 심변수의 값이 높은 것을 확인

할 수 있다.

마지막으로 층 7과 8에서도 심변수의 표본 평균값은 체 표본

에 비해 크면서 응답률의 분포가 서로 다르다. 다변량 회귀나무 모

형으로 구축한 무응답 조정층은 응답변수와 심변수를 뿌리 노드

부터 같이 고려하여 분리해 나갔기 때문에 종료노드에서 이러한

해석이 가능하다. 각 층에서 추정된 응답률과 성향 수는 다음

<표 2>, <표 3>과 같다.

Page 15: 다변량회귀나무를 이용한 무응답 가중치 조정층 형성 · 김세미* ∙ 이석훈** ∙ 윤연옥*** < 요 약 > 단위 무응답(unit nonresponse)을 대체하는

층번호 무응답가구수 응답가구수 추정된 응답률 성향 점수

1 71 105 0.60 1.68

2 59 170 0.74 1.35

3 34 49 0.59 1.69

4 44 132 0.75 1.33

5 46 233 0.84 1.20

6 24 47 0.66 1.51

<표 2> 응답변수를 이용해 만든 무응답 조정층의 성향점수

층번호 무응답가구수 응답가구수 추정된 응답률 성향 점수

1 21 46 0.69 1.46

2 51 94 0.65 1.54

3 30 84 0.74 1.36

4 62 100 0.62 1.62

5 23 98 0.81 1.23

6 20 94 0.82 1.21

7 49 129 0.72 1.38

8 22 91 0.81 1.24

<표 3> 응답변수와 관심변수를 이용해 만든 무응답 조정층의 성향점수

각 층에서 응답가구를 층 내 개체수로 나 어 응답률을 추정한

후에 역수를 취하여 그 값을 각 개체의 기본 가 치에 곱하여

으로써 가 치 조정이 이루어진다. 성향 수는 응답변수를 이용해

만든 무응답 조정층의 경우 각 층에서 1.2에서 1.69까지의 값을 갖

는 것으로 추정되었고 응답변수와 심변수를 이용해 만든 무응답

조정층은 1.21에서 1.62까지의 값을 갖는 것으로 추정되어 두 방법

론에서 큰 차이가 없다.

Page 16: 다변량회귀나무를 이용한 무응답 가중치 조정층 형성 · 김세미* ∙ 이석훈** ∙ 윤연옥*** < 요 약 > 단위 무응답(unit nonresponse)을 대체하는

2003년 6월의 자료로 만들어진 무응답 조정층으로 가계조사의

2003년 4, 5, 6월 자료에 가 치 조정을 용한 뒤에 한근식·김재

(2003)에서 제시한 잭나이 방법을 이용한 분산 추정식을 이용하

여 주요 심변수의 변동계수를 구하 다. 잭나이 방법을 이용한

분산 추정은 한 개의 조사구를 제거하고 제거된 조사구의 기본 가

치를 0으로 하는 신 층내 다른 개체의 가 치를 올려 후에

무응답 가 치 조정을 통해 최종 가 치를 계산한다. 모든 조사구

를 한 번씩 제거해서 구한 최종 가 치로 총 표본 조사구 수만큼

의 평균 추정치를 계산하여 그 값들의 변동을 이용하여 분산 추

정치를 구하게 된다. <표 4>에서 방법1은 응답변수를 이용한 무응

답 조정층 방법이고, 방법2는 응답변수와 심변수를 이용한 다변

량 회귀나무 무응답 조정층 방법이다. 두 방법으로 구한 변동계수

가 비슷하다.

즉 의 결과에서 어떤 식으로 무응답 조정층을 구하던지 성능은

비슷하다는 것을 확인할 수 있다. 그러나 층을 좀 더 이해하기 쉽

고 빠르게 생성할 수 있는 방법은 다변량 회귀나무를 이용한 방법

이라 하겠다. 응답변수와 심변수가 동시에 고려되므로 분석자의

주 이 상당히 배제되는 객 인 분석이 가능하다. 한 본 논문

에서는 심변수를 하나만 고려하 는데 제시된 다변량 회귀나무

알고리즘은 종속변수의 개수를 두 개 이상으로 얼마든지 확장할

수 있기 때문에 심변수의 개수를 확장하여 원하는 수 의 좀 더

정교한 무응답층의 형성도 가능하다. 이번 분석에서 서울 자료로만

한정하여 방법론의 제시에 그쳤기 때문에 자료의 크기가 서울보다

큰 도와 역시의 자료로 무응답 조정층을 만들어서 확인해볼 필

요가 있다.

Page 17: 다변량회귀나무를 이용한 무응답 가중치 조정층 형성 · 김세미* ∙ 이석훈** ∙ 윤연옥*** < 요 약 > 단위 무응답(unit nonresponse)을 대체하는

관심변수2003년4월 2003년5월 2003년6월

방법1 방법2 방법1 방법2 방법1 방법2

소득 3.34 3.36 3.54 3.64 12.10 12.43

경상소득 3.47 3.49 3.53 3.64 3.51 3.58

근로소득 3.54 3.55 3.41 3.46 3.67 3.73

가구주소득 4.30 4.31 4.19 4.19 4.30 4.36

배우자소득 10.17 9.75 9.01 8.70 10.15 9.91

기타가구원소득 12.26 11.95 12.13 12.19 12.26 12.19

사업소득 24.09 25.36 18.66 18.33 21.65 21.85

재산소득 27.67 30.40 46.82 54.08 27.27 26.65

이전소득 31.26 28.33 28.25 28.04 43.79 32.49

가계지출 4.40 4.25 4.40 4.45 5.05 4.92

소비지출 4.10 3.93 4.25 4.30 5.23 5.07

식료품 2.51 2.46 2.50 2.45 2.54 2.49

주거 10.86 11.08 12.50 12.84 17.56 16.86

광열수도 3.27 3.33 2.94 2.99 2.88 2.84

가구집기가사 12.04 12.61 16.58 15.52 17.44 17.14

피복및신발 9.80 10.00 5.54 5.72 7.60 7.75

보건의료 12.31 13.12 26.66 30.11 20.06 15.19

교육 11.93 11.69 10.03 10.00 11.34 11.42

교양오락 9.37 9.95 12.75 13.67 11.93 12.52

교통통신 12.95 11.99 11.13 11.66 16.58 16.00

기타소비지출 4.50 4.65 5.52 5.34 7.53 8.40

비소비지출 8.35 8.30 8.04 8.13 8.60 8.56

<표 4> 무응답 조정층을 이용한 주요 관심변수의 변동계수(%)

Page 18: 다변량회귀나무를 이용한 무응답 가중치 조정층 형성 · 김세미* ∙ 이석훈** ∙ 윤연옥*** < 요 약 > 단위 무응답(unit nonresponse)을 대체하는

Ⅳ. 결론

단 무응답이 발생한 자료에서 비편향된 추정치를 구하기 해

가 치를 조정하여 무응답을 체하는 방법에 해 논의했다. 무응

답 조정층을 구축할 때 요한 은 층내 응답률이 얼마나 동질

인지와 심변수의 층내 분산이 크지 않아야함에 있다. 2장에서

제시된 두 방법 모두 응답변수와 심변수를 활용하여 무응답 조

정층을 생성하기는 하지만 응답변수를 가지고 응답률이 동질 인

것으로 기 되는 분류나무를 먼 형성한 뒤에 심변수를 이용하

여 분산이 무 크거나 개체 수가 많은 층에 해서 더 세분화하

는 단계를 거치는 방법은 층 형성과정이 복잡하고 분석자의 주

이 무 많이 들어가는 단 이 있다. 반면에 다변량 회귀나무 알고

리즘을 이용한 방법은 로지스틱 회귀분석을 통하여 추정된 각 개

체의 응답확률과 응답자들의 심변수를 동시에 이용하여 층을 형

성해 나간다. 즉 응답변수와 심변수를 처음부터 같이 고려하므로

최종 층을 결정할 때 층내 심변수의 분산을 살펴보지 않아도 된

다는 장 이 있다. 한 층의 해석상의 에서도 응답률과 심

변수의 동시 해석이 가능하다. 한 종속변수의 개수는 얼마든지

확장가능하기 때문에 층의 형성에 고려하고 싶은 심변수의 개입

이 자유롭다.

그 지만 와같은 정 인 면에도 불구하고 다변량 회귀나무

구축에는 응답한 개체만을 이용하므로 각 개체의 추정된 응답확률

은 응답한 가구의 자료만 쓰이게 된다. 따라서 최종 층내에서 모

든 가구들의 의 평균이 응답 가구들의 의 평균보다 작게 된다.

즉 변수에 해서 선택편향(selection bias)을 야기할 가능성이 있

다는 한계가 있다.

Page 19: 다변량회귀나무를 이용한 무응답 가중치 조정층 형성 · 김세미* ∙ 이석훈** ∙ 윤연옥*** < 요 약 > 단위 무응답(unit nonresponse)을 대체하는

향후 과제로는 무응답 조정층 형성에 다변량 회귀나무를 이용하

면서도 에서 언 한 선택편향에 한 험을 제거할 안을 제

시하도록 한다. 한 본 논문에서 고려한 시 의 서울 자료 외에

다른 시도의 자료에도 용하여 좀 더 객 결론을 이끌어낼 필

요가 있다. 한근식· 김재 (2003)의 연구에 미루어 볼 때 서울보다

는 역시와 도의 층 구조가 훨씬 더 복잡하기 때문에 다변량 회

귀나무 알고리즘의 조정층 형성이 과정이 더욱 빠르고 편리할 것

이라 기 된다. 한 다변량 회귀나무 알고리즘의 용 에서

분리 변수의 선택에 한 기존의 다양한 연구가 있는데 본 논문에

용한 것 외의 다른 알고리즘으로 층을 형성하여 다변량 회귀나

무의 성능에 한 검토가 필요하다.

Page 20: 다변량회귀나무를 이용한 무응답 가중치 조정층 형성 · 김세미* ∙ 이석훈** ∙ 윤연옥*** < 요 약 > 단위 무응답(unit nonresponse)을 대체하는

< 참고문헌 >

한근식·김재 . (2003), 통계청 학술용역 보고서, 가계조사 무응답

처리기법연구

Breiman, L., Friedman, J.H., Olshen, R.A., stone, R.A., (1984),

"Classification and Regression Trees", Wadsworth, Belmont.

Dufour,J., Gagnon, F., Morin, Y., Renaud,M., Sarndal, C.-E. (2001)

"A better understanding of weight transformation through

a measure of change", Survey Methodology, 27, 97-108.

Eltinge & Yansaneh (1997) “Diagnostics for formation of nonresponse

adjustment cells, with an application to income nonresponse

in the U.S. consumer expenditure survey", Survey

Methodology, 23, 33-40.

Larsen, D.R., Speckman, P.L., (2004), "Multivariate Regression

Trees for Analysis of Abundance Data", Biometrics 60,

543-549.

Little R.J.A. (1986), Survey Nonresponse Adjustment for

Estimates of Means, International statistical review, 54,

2, 139-157.

Rizzo, L., Kalton,G., and Brick,M. (1996) “A Comparison of Some

Weighting Adjustment Methods for Panel Nonresponse”,

Survey Methodology, 22, 43-53.

Page 21: 다변량회귀나무를 이용한 무응답 가중치 조정층 형성 · 김세미* ∙ 이석훈** ∙ 윤연옥*** < 요 약 > 단위 무응답(unit nonresponse)을 대체하는

F o r m a t i o n o f U n i t N o n r e s p o n s e

W e i g h t i n g A d j u s t m e n t C e l l U s i n g

M u l t i v a r i a t e R e g r e s s i o n T r e e s

Se-Mi Kim* ∙ Suk-Hoon Lee** ∙ Yeanok Yoon***

< ABSTRACT >

This paper considers nonresponse adjustment method for

handling unit nonresponse in sample surveys. Nonresponse

weighting adjustment is a well known technique using the

estimated response probability which can be obtained by the

segmentation model or by the logistic model. It is well known

that nonresponse weighting adjustment can be useful if each

individual has the same response rate and if the variable of

interest has small variance in the segmented class. Our study

has focused on how to make segmentation whose segmented

classes are assumed to have similar response probabilities and

similar values for the variable of interest. Most of previous

researches have been trying to control these two conditions one

at a time with researcher's subjectivity. In this paper we

suggest an alternative method of controlling these two

conditions at the same time more objectively. We propose a

* Dept of Statistics, Chungnam National Univ. (e-mail : [email protected])

** Dept of Statistics, Chungnam National Univ. (e-mail : [email protected])

*** Statistical Data Collection & Management Div., Korea National Statistical Office (e-mail :

[email protected])

Page 22: 다변량회귀나무를 이용한 무응답 가중치 조정층 형성 · 김세미* ∙ 이석훈** ∙ 윤연옥*** < 요 약 > 단위 무응답(unit nonresponse)을 대체하는

multivariate regression tree mehtod segmentation using the

variable of interest and the estimated response probability. As

an illustration comparision has been made using a real data

from the household income and expenditure survey by the Korea

National Statistical Office.

K e y w o r d s : U n i t n o n r e s p o n s e , N o n r e s p o n s e W e i g h t i n g

Adj ust ment Cel l , Mul t i vari at e Regressi on

Trees