title automatic correction of total discrepancy in business … · 2012-07-12 · (edited)...

70
S/R/I 사업체조사에서의 자동 에디팅 -등식조건하에서의 자동 오류수정- 이의규 1

Upload: others

Post on 04-Jun-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Title Automatic Correction of Total Discrepancy in Business … · 2012-07-12 · (edited) 자동에디팅의 ... id e1 e2 e3 e4 e5 e6 e7 e8 e9 status 1 3405006435 False False False

S/R/I

사업체조사에서의 자동 에디팅-등식조건하에서의 자동 오류수정-

이의규

1

Page 2: Title Automatic Correction of Total Discrepancy in Business … · 2012-07-12 · (edited) 자동에디팅의 ... id e1 e2 e3 e4 e5 e6 e7 e8 e9 status 1 3405006435 False False False

1 서론

- 에디팅의 개요, 해외사례

등식조건하에서의 자동오류수정

- 자동 에디팅 기법 리뷰, 등식조건하에서의 자동 수정

사업체조사에 적용

- 프로그램 적용결과, 결과비교

결론

- 요약 및 결언

Contents2

4

3

2

Page 3: Title Automatic Correction of Total Discrepancy in Business … · 2012-07-12 · (edited) 자동에디팅의 ... id e1 e2 e3 e4 e5 e6 e7 e8 e9 status 1 3405006435 False False False

3

1 서론

Page 4: Title Automatic Correction of Total Discrepancy in Business … · 2012-07-12 · (edited) 자동에디팅의 ... id e1 e2 e3 e4 e5 e6 e7 e8 e9 status 1 3405006435 False False False

연구 개요

• (연구배경) 사업체조사에서 가장 중요한 점검 중 하나가합계불일치 오류자료의 점검– 유형별 종사자수 합계, 급여액 합계, 영업실적 등

• (연구목적) 에디팅 업무의 효율성 제고와 에디팅 자동화의적용 영역을 넓히고자 함

• (연구내용) 서비스업통계조사에 자동수정 알고리즘을 적용하고 그 결과를 분석

4

Page 5: Title Automatic Correction of Total Discrepancy in Business … · 2012-07-12 · (edited) 자동에디팅의 ... id e1 e2 e3 e4 e5 e6 e7 e8 e9 status 1 3405006435 False False False

데이터 에디팅의 개요

• 자료의 오류를 찾아내고 수정하는 일련의 활동

− 마이크로 에디팅(Micro-editing):

개별적인 레코드 수준에서의 자료점검

− 매크로 에디팅(Macro-editing):

모든 레코드 수준에서의 자료점검

5

Page 6: Title Automatic Correction of Total Discrepancy in Business … · 2012-07-12 · (edited) 자동에디팅의 ... id e1 e2 e3 e4 e5 e6 e7 e8 e9 status 1 3405006435 False False False

오류의 종류

• 체계적 오류(Systematic Error)

- 응답자에 의해 일관적으로 보고되는 오류

- 단위 측정오류, 일관적인 이해 부족/잘못 해석

• 랜덤오류(Random Error)

- 비구조적인 문제로 야기된 오류

- 우연적으로 발생되는 오류

6

어떻게 오류레코드를 탐색?

Page 7: Title Automatic Correction of Total Discrepancy in Business … · 2012-07-12 · (edited) 자동에디팅의 ... id e1 e2 e3 e4 e5 e6 e7 e8 e9 status 1 3405006435 False False False

에디팅 규칙

• 필수 규칙(fatal edit, hard edit)

- 반드시 수정되어야 할 자료를 검토하는 규칙

- 예: 매출액 > 0

• 의심 규칙(query edit, soft edit)

- 오류 가능성이 있는 의심스러운 자료를 검토하는 규칙

- 예: 영업이익 > 0

• 균형 규칙(equality edit)

- 항목의 합이 총계와 일치하는 지를 검토하는 규칙

- 예: 매출액-영업비용=영업이익

7

Page 8: Title Automatic Correction of Total Discrepancy in Business … · 2012-07-12 · (edited) 자동에디팅의 ... id e1 e2 e3 e4 e5 e6 e7 e8 e9 status 1 3405006435 False False False

오류 해결 방법

• Deductive Algorithms

- 체계적 오류를 찾아내고 수정하는 데 이용

• Fellegi-Holt Paradigm

- 랜덤오류를 해결하는 일반적 접근방법

- 최소변수집합을 찾고자 함

단순오타가 균형 에디팅 규칙위반을 야기하지만 F-H는단순오타의 속성 정보를 사용하지 못함

8

Page 9: Title Automatic Correction of Total Discrepancy in Business … · 2012-07-12 · (edited) 자동에디팅의 ... id e1 e2 e3 e4 e5 e6 e7 e8 e9 status 1 3405006435 False False False

에디팅의 문제점

• 전체 조사과정에서 가장 비용이 많이 드는 부분

• 과도한 에디팅의 단점

• 효율적인 에디팅 방법 필요

선택적 에디팅(selective editing)

자동 에디팅(automatic editing)

그래픽 에디팅(graphical editing)

9

Page 10: Title Automatic Correction of Total Discrepancy in Business … · 2012-07-12 · (edited) 자동에디팅의 ... id e1 e2 e3 e4 e5 e6 e7 e8 e9 status 1 3405006435 False False False

네덜란드 통계청의 에디팅 과정10

Observed data

(Unedited)

Selective editing

Automatic editingManual editing

Macro editing

Clean data

(edited)

Page 11: Title Automatic Correction of Total Discrepancy in Business … · 2012-07-12 · (edited) 자동에디팅의 ... id e1 e2 e3 e4 e5 e6 e7 e8 e9 status 1 3405006435 False False False

자동 에디팅의 필요성

• 배경

– 철저한 에디팅 => 효율적인 에디팅

– 조사환경의 변화

• 필요성

– 반복되는 계속 조사에 신속한 오류처리 필요

– 일관된 수정원칙 필요

• 기대효과

– 조사비용 절감 및 응답부담 경감

– 오류의 원인분석 및 오류방지에 자원 확보

11

Page 12: Title Automatic Correction of Total Discrepancy in Business … · 2012-07-12 · (edited) 자동에디팅의 ... id e1 e2 e3 e4 e5 e6 e7 e8 e9 status 1 3405006435 False False False

국외의 자동 에디팅 시스템

• 국외 자동 에디팅 시스템 현황

- Statistics Canada

GEIS(Generalized Edit and Imputation System) => Banff

- U.S. Bureau of the Census

SPEER(Structured Programs for Economic Editing and

Referrals)

- Statistics Netherlands

CherryPi => SLICE

12

Page 13: Title Automatic Correction of Total Discrepancy in Business … · 2012-07-12 · (edited) 자동에디팅의 ... id e1 e2 e3 e4 e5 e6 e7 e8 e9 status 1 3405006435 False False False

Banff

• GEIS(Generalized Edit and Imputation System)

– Fellegi-Holt 기법(1976) 적용

– 1980년대 중반에 착수, 1980년대 후반에 사용

– Edit analysis, Error localization, Imputation으로 구성

• Banff는 GEIS 로부터 발전

13

GEIS Banff

환경 Unix Unix, PC Windows

데이터베이스 Oracle SAS

운용방법 각 모듈이 서로 연결 각 프로시저가 독립적

Page 14: Title Automatic Correction of Total Discrepancy in Business … · 2012-07-12 · (edited) 자동에디팅의 ... id e1 e2 e3 e4 e5 e6 e7 e8 e9 status 1 3405006435 False False False

Banff14

Procedures 주요 처리내용

Proc Verifyedits 에디팅규칙설정 및 체크, 유도된 추가규칙 생성

Proc Editstats 각 규칙마다 합격, 실패 레코드 수 등 5개표 산출

Proc Outlier 대체될 이상치, 대체에 사용할 수 없는 이상치 판단

Proc Errorloc 실패 레코드의 수정해야 할 필드 결정

Proc Deterministic 설정된 에디팅규칙에 의해 결정되는 하나의 값 대체

Proc Donorimputation 가장 유사한 레코드를 찾아 대체

Proc Estimator 다양한 대체추정법 이용

Proc Prorate 소계가 더해져 총계가 됨을 보증

Proc Massimputation 대체될 필드가 알려져 있고 동일할 때

Page 15: Title Automatic Correction of Total Discrepancy in Business … · 2012-07-12 · (edited) 자동에디팅의 ... id e1 e2 e3 e4 e5 e6 e7 e8 e9 status 1 3405006435 False False False

SPEER

• SPEER(Structured Programs for Economic Editing and

Referrals)

– Brian Greenberg(1984)

– Fellegi-Holt 이론 적용

– FORTRAN으로 작성

– 내재적 에디팅규칙(implicit edits) 생성, 에디팅규칙의 논리적

일치성 체크(gb3.for)

– 오류위치 포착(Error Localization) 및 대체(imputation) 수행

(spr3.for)

15

Page 16: Title Automatic Correction of Total Discrepancy in Business … · 2012-07-12 · (edited) 자동에디팅의 ... id e1 e2 e3 e4 e5 e6 e7 e8 e9 status 1 3405006435 False False False

16

SPEER

Page 17: Title Automatic Correction of Total Discrepancy in Business … · 2012-07-12 · (edited) 자동에디팅의 ... id e1 e2 e3 e4 e5 e6 e7 e8 e9 status 1 3405006435 False False False

CherryPi

• CherryPi

– 네덜란드 통계청의 경제자료에 대한 일반화된 자동에디팅 시스템

– 1996년 기준 네덜란드 노동비용조사에 CherryPi 소프트웨어 적용

– Windows 환경에서 Borland Delphi 3.0으로 작성

– 오류검출 방법은 Fellegi-Holt 방법론에 기초

– 선형(linear)에디팅 규칙과 비(ratio)에디팅 규칙 적용 가능

– Localisation, Selection, Imputation, Modification의 4가지 부분으로 구성

– SLICE(Statistical Localisation, Imputation and Correction of Errors)에서이행

17

Page 18: Title Automatic Correction of Total Discrepancy in Business … · 2012-07-12 · (edited) 자동에디팅의 ... id e1 e2 e3 e4 e5 e6 e7 e8 e9 status 1 3405006435 False False False

CherryPi18

Page 19: Title Automatic Correction of Total Discrepancy in Business … · 2012-07-12 · (edited) 자동에디팅의 ... id e1 e2 e3 e4 e5 e6 e7 e8 e9 status 1 3405006435 False False False

그래픽 에디팅

• 그래픽 에디팅(graphical editing)

– 사람의 시각적 인지력을 통해 이상치 등을 검출

– 분석적인 방법만으로는 특이치 검색 어려움

– 오류일 가능성이 높은 건수를 판별하여 효율적 에디팅 도모

– 에디팅 작업의 편리성 제공

19

Page 20: Title Automatic Correction of Total Discrepancy in Business … · 2012-07-12 · (edited) 자동에디팅의 ... id e1 e2 e3 e4 e5 e6 e7 e8 e9 status 1 3405006435 False False False

스웨덴의 그래픽 에디팅

• Graphical Macro-editing PC Application

– Statistics Sweden

– Visual Basic을 기반으로 개발

– Database: Microsoft SQL Server

– 시계열 분석과 상대적인 변화로 탐색

– 의심스러운 값을 마우스로 클릭시 해당 관측값 정보가 나타남

20

Page 21: Title Automatic Correction of Total Discrepancy in Business … · 2012-07-12 · (edited) 자동에디팅의 ... id e1 e2 e3 e4 e5 e6 e7 e8 e9 status 1 3405006435 False False False

Graphical Macro-editing PC Application21

Page 22: Title Automatic Correction of Total Discrepancy in Business … · 2012-07-12 · (edited) 자동에디팅의 ... id e1 e2 e3 e4 e5 e6 e7 e8 e9 status 1 3405006435 False False False

22

등식조건하에서의자동 오류수정

2

Page 23: Title Automatic Correction of Total Discrepancy in Business … · 2012-07-12 · (edited) 자동에디팅의 ... id e1 e2 e3 e4 e5 e6 e7 e8 e9 status 1 3405006435 False False False

F-H: Review

• Fellegi-Holt(1976)에 의해 에디팅을 이론적으로 체계화

• 하나의 레코드는 가능한 최소항목을 수정함으로써 모든

에디팅 규칙을 만족하게 해야 함이 이론의 핵심

• 자료의 정보를 수정하는 것은 위험하므로 가능한 정보를

보존해야 한다는 원칙

23

Page 24: Title Automatic Correction of Total Discrepancy in Business … · 2012-07-12 · (edited) 자동에디팅의 ... id e1 e2 e3 e4 e5 e6 e7 e8 e9 status 1 3405006435 False False False

F-H: 예제

• 2개의 규칙(Edits)

E1: X1 - X2 ≥ 0

E2: X2 - 3X3 ≥ 0

• (X1, X2, X3)=(6, 4, 8)

- E2 규칙을 위반

- x2 수정? or x3 수정? or (x2, x3) 수정?,…

- 규칙수가 많은 경우, 모든 규칙을 동시에 만족시키는 수정변수집합을 찾는 것은 쉽지 않음

24

Page 25: Title Automatic Correction of Total Discrepancy in Business … · 2012-07-12 · (edited) 자동에디팅의 ... id e1 e2 e3 e4 e5 e6 e7 e8 e9 status 1 3405006435 False False False

F-H: 간단한 예제

• 내재적 규칙(Implicit Edit): 설정되지는 않았지만 명시적규칙(explicit edits)으로부터 논리적으로 유도된 규칙

E1: X1 - X2 ≥ 0

E2: X2 - 3X3 ≥ 0

E3: X1 - 3X3 ≥ 0 : 내재적규칙(implicit edit)

• 위반된 규칙의 행렬

• 오류위치설정(Error localization): X3

- 0≤X3≤4/3 (X3 =1 로 수정)

X1 X2 X3 Status

E2 1 1 위반

E3 1 1 위반

25

Page 26: Title Automatic Correction of Total Discrepancy in Business … · 2012-07-12 · (edited) 자동에디팅의 ... id e1 e2 e3 e4 e5 e6 e7 e8 e9 status 1 3405006435 False False False

• 오류위치설정을 위한 해답을 얻는 간단하고 빠른 방법

제약조건:

• 원 레코드의 값과 일치 레코드의 값과 거리를 최소화

LP 접근법26

Page 27: Title Automatic Correction of Total Discrepancy in Business … · 2012-07-12 · (edited) 자동에디팅의 ... id e1 e2 e3 e4 e5 e6 e7 e8 e9 status 1 3405006435 False False False

• E1: X1 - X2 ≥ 0

E2: X2 - 3X3 ≥ 0

s.t.

• Solution:

LP 접근법: 예제27

Page 28: Title Automatic Correction of Total Discrepancy in Business … · 2012-07-12 · (edited) 자동에디팅의 ... id e1 e2 e3 e4 e5 e6 e7 e8 e9 status 1 3405006435 False False False

등식조건하에서의 단순오류수정

• 규칙(Edit)

E1: X1 - X2 = X3

• (X1, X2 , X3)=(353, 283, 115) => 규칙위반

- F-H 는 3개의 가능한 해를 제시

(하나의 변수를 바꿈, 유일하지 않음)

① X1 : 353 → 398 (115+283)

② X2 : 283 → 238 (353-115)

③ X3 : 115 → 70 (353-283)

- 그러나 X2 의 283을 238로 바꾸는 것이 타당

28

Page 29: Title Automatic Correction of Total Discrepancy in Business … · 2012-07-12 · (edited) 자동에디팅의 ... id e1 e2 e3 e4 e5 e6 e7 e8 e9 status 1 3405006435 False False False

• 모든 관측값은 다음과 같은 형태로 표현가능

• 두 개의 자릿수 바뀜

단순오타29

Page 30: Title Automatic Correction of Total Discrepancy in Business … · 2012-07-12 · (edited) 자동에디팅의 ... id e1 e2 e3 e4 e5 e6 e7 e8 e9 status 1 3405006435 False False False

• 한자리 숫자가 늘어남

단순오타30

Page 31: Title Automatic Correction of Total Discrepancy in Business … · 2012-07-12 · (edited) 자동에디팅의 ... id e1 e2 e3 e4 e5 e6 e7 e8 e9 status 1 3405006435 False False False

• 한자리 숫자가 빠짐

• 음수기호가 들어가거나 빠짐

단순오타31

Page 32: Title Automatic Correction of Total Discrepancy in Business … · 2012-07-12 · (edited) 자동에디팅의 ... id e1 e2 e3 e4 e5 e6 e7 e8 e9 status 1 3405006435 False False False

⑤ 어떤 자릿수의 숫자가 다른 숫자로 잘못 인식

단순오타32

Page 33: Title Automatic Correction of Total Discrepancy in Business … · 2012-07-12 · (edited) 자동에디팅의 ... id e1 e2 e3 e4 e5 e6 e7 e8 e9 status 1 3405006435 False False False

• 원리

- 현재 위반된 규칙 er 에 포함된 모든 변수에 대해

이면 규칙은 만족됨

- 주어진 변수의 각 값에 대해 다음 식이 성립하는 지 확인

- 식이 성립된다면 해당변수의 오타로 인한 것으로 간주

단순오타의 자동수정33

Page 34: Title Automatic Correction of Total Discrepancy in Business … · 2012-07-12 · (edited) 자동에디팅의 ... id e1 e2 e3 e4 e5 e6 e7 e8 e9 status 1 3405006435 False False False

• Edit:

• 그런데,

• 20에서 200으로 x2 를 수정함이 타당

간단한 예제34

Page 35: Title Automatic Correction of Total Discrepancy in Business … · 2012-07-12 · (edited) 자동에디팅의 ... id e1 e2 e3 e4 e5 e6 e7 e8 e9 status 1 3405006435 False False False

35

서비스업조사자료에적용3

Page 36: Title Automatic Correction of Total Discrepancy in Business … · 2012-07-12 · (edited) 자동에디팅의 ... id e1 e2 e3 e4 e5 e6 e7 e8 e9 status 1 3405006435 False False False

• 자료 설명

- 2008 서비스업조사 자료(2009년 수행)

- 43,463 건

- 에디팅이 거의 완료된 자료(에디팅 과정에서 마지막 단계)

서비스업조사 자료에 적용36

Page 37: Title Automatic Correction of Total Discrepancy in Business … · 2012-07-12 · (edited) 자동에디팅의 ... id e1 e2 e3 e4 e5 e6 e7 e8 e9 status 1 3405006435 False False False

• 유형별 남녀 월평균종사자수 (18 항목)

종사자수 합계불일치

type male female total

자영업주 x1 x2 x3

무급가족 종사자 x4 x5 x6

상용종사자 x7 x8 x9

임시일용종사자 x10 x11 x12

무급종사자 x13 x14 x15

total x16 x17 x18

37

Page 38: Title Automatic Correction of Total Discrepancy in Business … · 2012-07-12 · (edited) 자동에디팅의 ... id e1 e2 e3 e4 e5 e6 e7 e8 e9 status 1 3405006435 False False False

38

Page 39: Title Automatic Correction of Total Discrepancy in Business … · 2012-07-12 · (edited) 자동에디팅의 ... id e1 e2 e3 e4 e5 e6 e7 e8 e9 status 1 3405006435 False False False

에디팅 규칙(Edit rules)

e1 x1+x2=x3 (자영업주 합계)

e2 x4+x5=x6 (무급가족종사자 합계)

e3 x7+x8=x9 (상용종사자 합계)

e4 x10+x11=x12 (임시일용 종사자 합계)

e5 x13+x14=x15 (무급종사자 합계)

e6 x1+x4+x7+x10+x13=x16 (남자 합계)

e7 x2+x5+x8+x11+x14=x17 (여자 합계)

e8 x16+x17=x18 ( 남녀 합계)

e9 x3+x6+x9+x12+x15=x18 (유형별 종사자 합계)

에디팅 규칙(Edit rules)39

Page 40: Title Automatic Correction of Total Discrepancy in Business … · 2012-07-12 · (edited) 자동에디팅의 ... id e1 e2 e3 e4 e5 e6 e7 e8 e9 status 1 3405006435 False False False

오류 검색id e1 e2 e3 e4 e5 e6 e7 e8 e9 status

1 3405006435 False False False False False True False False True False

2 1100604786 False False True False False False False False True False

3 2608007136 False False False False False True False False True False

4 2403024564 False False False True False False False False True False

5 1104112818 False False False True False False False False True False

6 3900016606 False False False True False False True False False False

7 1100532638 False False False True False False False False True False

8 1108060943 False False False True False False False False True False

9 1105134258 False False False False False True False False True False

10 3400105247 False False False False False True True False True False

11 3603021041 False False False False False False True False True False

12 1103203381 False False True True False False False False True False

13 3100259164 False False False True False False False False True False

14 3702038242 False False False False False False True False True False

15 3306000288 False False False False False False True False True False

40

Page 41: Title Automatic Correction of Total Discrepancy in Business … · 2012-07-12 · (edited) 자동에디팅의 ... id e1 e2 e3 e4 e5 e6 e7 e8 e9 status 1 3405006435 False False False

에디팅 전 자료id x1 x2 x3 x4 x5 x6 x7 x8 x9 x1

0

x1

1

x1

2

x1

3

x1

4

x1

5

x1

6

x1

7

x1

8

sta

tus

1 3405006435 1 0 1 0 0 0 13 13 26 0 0 0 0 0 0 13 13 26 X

2 1100604786 1 0 1 0 0 0 9 7 17 0 0 0 0 0 0 10 7 17 X

3 2608007136 1 0 1 0 0 0 6 3 9 2 8 10 0 0 0 8 11 19 X

4 2403024564 0 0 0 0 0 0 66 2 68 0 0 60 0 0 0 66 2 68 X

5 1104112818 0 0 0 0 0 0 238 100 338 0 0 40 0 0 0 238 100 338 X

6 3900016606 0 0 0 0 0 0 13 2 15 41 14 57 0 0 0 54 18 72 X

7 1100532638 0 0 0 0 0 0 623 405 1028 0 0 219 0 0 0 623 405 1028 X

8 1108060943 0 0 0 0 0 0 45 5 50 0 0 4 0 0 0 45 5 50 X

9 1105134258 0 0 0 0 0 0 19 13 32 0 0 0 15 14 29 24 27 51 X

10 3400105247 0 0 0 0 0 0 103 9 112 6 1 7 0 0 0 100 8 108 X

11 3603021041 0 0 0 0 0 0 59 22 81 4 6 10 0 80 80 63 28 91 X

12 1103203381 0 0 0 0 0 0 72 18 93 0 0 2 0 0 0 72 18 90 X

13 3100259164 0 0 0 0 0 0 1000 250 1250 0 0 30 0 0 0 1000 250 1250 X

14 3702038242 0 0 0 0 0 0 51 12 63 0 0 0 0 180 180 51 182 233 X

15 3306000288 0 0 0 0 0 0 11 6 17 5 11 16 0 85 85 16 17 33 X

41

Page 42: Title Automatic Correction of Total Discrepancy in Business … · 2012-07-12 · (edited) 자동에디팅의 ... id e1 e2 e3 e4 e5 e6 e7 e8 e9 status 1 3405006435 False False False

• 종사자수에서 합계 불일치 레코드는 총 15건

• 상용종사자수 합계가 종사자수 합계보다 큰 경우 (2 건)

• 등식조건하에서의 단순오타는 R package

'deducorrect„ 의 'correctTypos' 로 해결 가능

• R 패키지– 'deducorrect': 합계불일지 오류의 수정 패키지

– 'editrules': 일관성 검토를 쉽게 할 수 있게 하는 패키지

– 패키지는 http://cran.r-project.org 에서 다운로드 받을 수 있음

종사자수 합계불일치 오류42

Page 43: Title Automatic Correction of Total Discrepancy in Business … · 2012-07-12 · (edited) 자동에디팅의 ... id e1 e2 e3 e4 e5 e6 e7 e8 e9 status 1 3405006435 False False False

‘correctTypos’실행id x1 x2 x3 x4 x5 x6 x7 x8 x9 x1

0

x1

1

x1

2

x1

3

x1

4

x1

5

x1

6

x1

7

x1

8

sta

tus

1 3405006435 1 0 1 0 0 0 13 13 26 0 0 0 0 0 0 13 13 26 X

2 1100604786 1 0 1 0 0 0 9 7 17 0 0 0 0 0 0 10 7 17 X

3 2608007136 1 0 1 0 0 0 6 3 9 2 8 10 0 0 0 8 11 19 X

4 2403024564 0 0 0 0 0 0 66 2 68 0 0 0 0 0 0 66 2 68 O

5 1104112818 0 0 0 0 0 0 238 100 338 0 0 0 0 0 0 238 100 338 O

6 3900016606 0 0 0 0 0 0 13 2 15 41 16 57 0 0 0 54 18 72 O

7 1100532638 0 0 0 0 0 0 623 405 1028 0 0 0 0 0 0 623 405 1028 O

8 1108060943 0 0 0 0 0 0 45 5 50 0 0 0 0 0 0 45 5 50 O

9 1105134258 0 0 0 0 0 0 19 13 32 0 0 0 15 14 29 24 27 51 X

10 3400105247 0 0 0 0 0 0 103 9 112 6 1 7 0 0 0 100 8 108 X

11 3603021041 0 0 0 0 0 0 59 22 81 4 6 10 0 80 80 63 28 91 X

12 1103203381 0 0 0 0 0 0 72 18 93 0 0 2 0 0 0 72 18 90 X

13 3100259164 0 0 0 0 0 0 1000 250 1250 0 0 0 0 0 0 1000 250 1250 O

14 3702038242 0 0 0 0 0 0 51 12 63 0 0 0 0 180 180 51 182 233 X

15 3306000288 0 0 0 0 0 0 11 6 17 5 11 16 0 85 85 16 17 33 X

43

Page 44: Title Automatic Correction of Total Discrepancy in Business … · 2012-07-12 · (edited) 자동에디팅의 ... id e1 e2 e3 e4 e5 e6 e7 e8 e9 status 1 3405006435 False False False

• 6개의 레코드가 오류위치설정의 첫 단계에서 자동수정

– 60→0, 40 →0, 14 →16, 219 →0, 4 →0, 30 →0

( 1, maxdist=1)

• 나머지 오류레코드는 LP 방법과 SLICE를 사용하여 해결

• 신뢰가중치 사용

– x1,x2,x4,x5,x7,x8,x10,x11,x13,x14->가중치 2(높은 신뢰도)

– 나머지->가중치 1(구성항목에 따라 결정되므로 낮은 신뢰도 부여).

결과44

Page 45: Title Automatic Correction of Total Discrepancy in Business … · 2012-07-12 · (edited) 자동에디팅의 ... id e1 e2 e3 e4 e5 e6 e7 e8 e9 status 1 3405006435 False False False

‘lpSolve’ 적용(x1,x2,x4,x5,x7,x8,x10,x11,x13,x14:신뢰가중치 2, 나머지: 1)

id x1 x2 x3 x4 x5 x6 x7 x8 x9 x1

0

x1

1

x1

2

x1

3

x1

4

x1

5

x1

6

x1

7

x1

8

sta

tus

1 3405006435 1 0 1 0 0 0 13 13 26 0 0 0 0 0 0 14 13 27 O

2 1100604786 1 0 1 0 0 0 9 7 16 0 0 0 0 0 0 10 7 17 O

3 2608007136 1 0 1 0 0 0 6 3 9 2 8 10 0 0 0 9 11 20 O

4 2403024564 0 0 0 0 0 0 66 2 68 0 0 0 0 0 0 66 2 68 O

5 1104112818 0 0 0 0 0 0 238 100 338 0 0 0 0 0 0 238 100 338 O

6 3900016606 0 0 0 0 0 0 13 2 15 41 16 57 0 0 0 54 18 72 O

7 1100532638 0 0 0 0 0 0 623 405 1028 0 0 0 0 0 0 623 405 1028 O

8 1108060943 0 0 0 0 0 0 45 5 50 0 0 0 0 0 0 45 5 50 O

9 1105134258 0 0 0 0 0 0 19 13 32 0 0 0 15 14 29 34 27 61 O

10 3400105247 0 0 0 0 0 0 103 9 112 6 1 7 0 0 0 109 10 119 O

11 3603021041 0 0 0 0 0 0 59 22 81 4 6 10 0 80 80 63 108 171 O

12 1103203381 0 0 0 0 0 0 72 18 90 0 0 0 0 0 0 72 18 90 O

13 3100259164 0 0 0 0 0 0 1000 250 1250 0 0 0 0 0 0 1000 250 1250 O

14 3702038242 0 0 0 0 0 0 51 12 63 0 0 0 0 180 180 51 192 243 O

15 3306000288 0 0 0 0 0 0 11 6 17 5 11 16 0 85 85 16 102 118 O

45

Page 46: Title Automatic Correction of Total Discrepancy in Business … · 2012-07-12 · (edited) 자동에디팅의 ... id e1 e2 e3 e4 e5 e6 e7 e8 e9 status 1 3405006435 False False False

• 모든 15개의 오류 레코드가 자동 수정됨

• 네덜란드 통계청에서는 자동오류위치포착을 위해 SLICE

(F-H 기반)가 사용됨

• SLICE 는 각 변수의 신뢰가중치를 주는 일반화된 F-H 를기반으로 함

• 신뢰가중치 사용(LP와 동일)

– x1,x2,x4,x5,x7,x8,x10,x11,x13,x14->가중치 2(높은 신뢰도)

– 나머지->가중치 1(구성항목에 따라 결정되므로 낮은 신뢰도 부여).

결과46

Page 47: Title Automatic Correction of Total Discrepancy in Business … · 2012-07-12 · (edited) 자동에디팅의 ... id e1 e2 e3 e4 e5 e6 e7 e8 e9 status 1 3405006435 False False False

SLICE 적용(x1,x2,x4,x5,x7,x8,x10,x11,x13,x14:신뢰가중치 2, 나머지: 1)

Routine id x1 x2 x3 x4 x5 x6 x7 x8 x9 x10 x11 x12 x13 x14 x15 x16 x17 x18

1 Input_Record 1 1 0 1 0 0 0 13 13 26 0 0 0 0 0 0 13 13 26

1 ErrorLocateSolution 1 x x

1 Adapted_Record 1 1 0 1 0 0 0 13 13 26 0 0 0 0 0 0 14 13 27

2 Input_Record 2 1 0 1 0 0 0 9 7 17 0 0 0 0 0 0 10 7 17

2 ErrorLocateSolution 2 x

2 Adapted_Record 2 1 0 1 0 0 0 9 7 16 0 0 0 0 0 0 10 7 17

3 Input_Record 3 1 0 1 0 0 0 6 3 9 2 8 10 0 0 0 8 11 19

3 ErrorLocateSolution 3 x x

3 Adapted_Record 3 1 0 1 0 0 0 6 3 9 2 8 10 0 0 0 9 11 20

4 Input_Record 9 0 0 0 0 0 0 19 13 32 0 0 0 15 14 29 24 27 51

4 ErrorLocateSolution 9 x x

4 Adapted_Record 9 0 0 0 0 0 0 19 13 32 0 0 0 15 14 29 34 27 61

5 Input_Record 10 0 0 0 0 0 0 103 9 112 6 1 7 0 0 0 100 8 108

5 ErrorLocateSolution 10 x x x

5 Adapted_Record 10 0 0 0 0 0 0 103 9 112 6 1 7 0 0 0 109 10 119

47

Page 48: Title Automatic Correction of Total Discrepancy in Business … · 2012-07-12 · (edited) 자동에디팅의 ... id e1 e2 e3 e4 e5 e6 e7 e8 e9 status 1 3405006435 False False False

Routine id x1 x2 x3 x4 x5 x6 x7 x8 x9 x10 x11 x12 x13 x14 x15 x16 x17 x18

6 Input_Record 11 0 0 0 0 0 0 59 22 81 4 6 10 0 80 80 63 28 91

6 ErrorLocateSolution 11 x x

6 Adapted_Record 11 0 0 0 0 0 0 59 22 81 4 6 10 0 80 80 63 108 171

7 Input_Record 12 0 0 0 0 0 0 72 18 93 0 0 2 0 0 0 72 18 90

7 ErrorLocateSolution 12 x x

7 Adapted_Record 12 0 0 0 0 0 0 72 18 90 0 0 0 0 0 0 72 18 90

8 Input_Record 14 0 0 0 0 0 0 51 12 63 0 0 0 0 180 180 51 182 233

8 ErrorLocateSolution 14 x x

8 Adapted_Record 14 0 0 0 0 0 0 51 12 63 0 0 0 0 180 180 51 192 243

9 Input_Record 15 0 0 0 0 0 0 11 6 17 5 11 16 0 85 85 16 17 33

9 ErrorLocateSolution 15 x x

9 Adapted_Record 15 0 0 0 0 0 0 11 6 17 5 11 16 0 85 85 16 102 118

48

SLICE 적용(계속)(x1,x2,x4,x5,x7,x8,x10,x11,x13,x14:신뢰가중치 2, 나머지: 1)

Page 49: Title Automatic Correction of Total Discrepancy in Business … · 2012-07-12 · (edited) 자동에디팅의 ... id e1 e2 e3 e4 e5 e6 e7 e8 e9 status 1 3405006435 False False False

• LP 와 SLICE(F-H 기반)는 동일한 결과를 제시

– 두 접근방법은 서로 다른 목적 함수를 가지므로 일반적

으로 반드시 동일한 오류위치포착 결과를 주지는 않음

• 다행히, 여기서는 오류레코드에 대해 유일한 해가 제시됨

– 많은 제약, 신뢰가중치 부여

결과49

Page 50: Title Automatic Correction of Total Discrepancy in Business … · 2012-07-12 · (edited) 자동에디팅의 ... id e1 e2 e3 e4 e5 e6 e7 e8 e9 status 1 3405006435 False False False

자동수정자료와 최종자료비교id x1 x2 x3 x4 x5 x6 x7 x8 x9 x1

0

x1

1

x1

2

x1

3

x1

4

x1

5

x1

6

x1

7

x1

8

1 34050064351

1

0

0

1

1

0

0

0

0

0

0

13

13

13

13

26

26

0

0

0

0

0

0

0

0

0

0

0

0

14

14

13

13

27

27O

2 11006047861

0

0

1

1

1

0

0

0

0

0

0

9

9

7

7

16

16

0

0

0

0

0

0

0

0

0

0

0

0

10

9

7

8

17

17X

3 26080071361

1

0

0

1

1

0

0

0

0

0

0

6

6

3

3

9

9

2

2

8

8

10

10

0

0

0

0

0

0

9

9

11

11

20

20O

4 24030245640

0

0

0

0

0

0

0

0

0

0

0

66

66

2

2

68

68

0

0

0

0

0

0

0

0

0

0

0

0

66

66

2

2

68

68O

5 11041128180

0

0

0

0

0

0

0

0

0

0

0

238

238

100

100

338

338

0

0

0

0

0

0

0

0

0

0

0

0

238

238

100

100

338

338O

6 39000166060

0

0

0

0

0

0

0

0

0

0

0

13

13

2

2

15

15

41

41

16

14

57

54

0

0

0

0

0

0

54

54

18

16

72

70X

7 11005326380

0

0

0

0

0

0

0

0

0

0

0

623

623

405

405

1028

1028

0

0

0

0

0

0

0

0

0

0

0

0

623

623

405

405

1028

1028O

8 11080609430

0

0

0

0

0

0

0

0

0

0

0

45

45

5

5

50

50

0

0

0

0

0

0

0

0

0

0

0

0

45

45

5

5

50

50O

50

Page 51: Title Automatic Correction of Total Discrepancy in Business … · 2012-07-12 · (edited) 자동에디팅의 ... id e1 e2 e3 e4 e5 e6 e7 e8 e9 status 1 3405006435 False False False

자동수정자료와 최종자료 비교(계속)id x1 x2 x3 x4 x5 x6 x7 x8 x9 x1

0

x1

1

x1

2

x1

3

x1

4

x1

5

x1

6

x1

7

x1

8

9 11051342580

0

0

0

0

0

0

0

0

0

0

0

19

19

13

13

32

32

0

0

0

0

0

0

15

15

14

14

29

29

34

34

27

27

61

61O

10 34001052470

0

0

0

0

0

0

0

0

0

0

0

103

103

9

9

112

112

6

6

1

1

7

7

0

0

0

0

0

0

109

109

10

10

119

119O

11 36030210410

0

0

0

0

0

0

0

0

0

0

0

59

59

22

22

81

81

4

4

6

6

10

10

0

0

80

80

80

80

63

63

108

108

171

171O

12 11032033810

0

0

0

0

0

0

0

0

0

0

0

72

72

18

18

90

90

0

0

0

0

0

0

0

0

0

0

0

0

72

72

18

18

90

90O

13 31002591640

0

0

0

0

0

0

0

0

0

0

0

1000

1000

250

250

1250

1250

0

0

0

0

0

0

0

0

0

0

0

0

1000

1000

250

250

1250

1250O

14 37020382420

0

0

0

0

0

0

0

0

0

0

0

51

51

12

12

63

63

0

0

0

0

0

0

0

0

180

180

180

180

51

51

192

192

243

243O

15 33060002880

0

0

0

0

0

0

0

0

0

0

0

11

11

6

6

17

17

5

5

11

11

16

16

0

0

85

85

85

85

16

16

102

102

118

118O

51

Page 52: Title Automatic Correction of Total Discrepancy in Business … · 2012-07-12 · (edited) 자동에디팅의 ... id e1 e2 e3 e4 e5 e6 e7 e8 e9 status 1 3405006435 False False False

• 사업실적(매출액, 영업비용, 영업이익)

① 매출액(x1)

② 영업비용 합계(x2)

– 재료비 (x3)

– 인건비 (x4)

– 임차료 (x5)

– 세금과 공과 (x6)

– 감가상각비 (x7)

– 대손상각비 (x8)

– 기타비용 (x9)

③ 영업이익 (x10)

사업실적 합계불일치 오류52

Page 53: Title Automatic Correction of Total Discrepancy in Business … · 2012-07-12 · (edited) 자동에디팅의 ... id e1 e2 e3 e4 e5 e6 e7 e8 e9 status 1 3405006435 False False False

53

Page 54: Title Automatic Correction of Total Discrepancy in Business … · 2012-07-12 · (edited) 자동에디팅의 ... id e1 e2 e3 e4 e5 e6 e7 e8 e9 status 1 3405006435 False False False

Edit rules

e1 x1-x2=x10 (매출액 – 영업비용=영업이익)

e2 x3+x4+x5 +x6+x7+x9=x2 (영업비용합계 일치)

에디팅 규칙(Edit rules)54

Page 55: Title Automatic Correction of Total Discrepancy in Business … · 2012-07-12 · (edited) 자동에디팅의 ... id e1 e2 e3 e4 e5 e6 e7 e8 e9 status 1 3405006435 False False False

오류 탐색id e1 e2 status

1 3105026170 TRUE TRUE FALSE

2 2608007136 TRUE FALSE FALSE

3 1104135616 TRUE FALSE FALSE

4 2300062240 TRUE FALSE FALSE

5 3102028469 TRUE TRUE FALSE

6 3501011097 TRUE TRUE FALSE

7 1107127668 TRUE FALSE FALSE

8 1107037871 TRUE TRUE FALSE

9 3203013247 TRUE TRUE FALSE

10 3202008871 TRUE TRUE FALSE

11 1102032933 TRUE FALSE FALSE

12 1108110072 TRUE FALSE FALSE

55

Page 56: Title Automatic Correction of Total Discrepancy in Business … · 2012-07-12 · (edited) 자동에디팅의 ... id e1 e2 e3 e4 e5 e6 e7 e8 e9 status 1 3405006435 False False False

에디팅 전 자료id x1 x2 x3 x4 x5 x6 x7 x8 x9 x10 status

1 3105026170 4667 77 0 1081 9 62 68 0 0 0 X

2 2608007136 274 270 0 227 0 0 0 0 43 40 X

3 1104135616 3800 39 0 0 39 0 0 0 0 0 X

4 2300062240 10226 8363 5763 1232 0 24 189 0 1155 1862 X

5 3102028469 8938 5781 2640 2704 33 4 5 0 0 0 X

6 3501011097 2590 1 0 0 0 0 0 0 0 0 X

7 1107127668 14200 12780 10020 350 25 11 38 0 2336 -1420 X

8 1107037871 2570 25700 0 1798 0 0 0 0 0 0 X

9 3203013247 1651 1072 0 0 19 0 0 0 0 0 X

10 3202008871 5950 6044 31 4894 48 29 132 0 909 0 X

11 1102032933 1114 2225 0 1353 0 52 16 0 804 929 X

12 1108110072 3495 7848 3205 2103 480 25 251 69 1715 -4354 X

56

Page 57: Title Automatic Correction of Total Discrepancy in Business … · 2012-07-12 · (edited) 자동에디팅의 ... id e1 e2 e3 e4 e5 e6 e7 e8 e9 status 1 3405006435 False False False

• 사업실적에서 12개의 레코드가 합계불일치 오류

• 6개의 레코드는 2개의 에디팅 규칙을 동시에 위배

• 단순오타는 “correctTypos”를 적용하여 수정

사업실적 합계불일치 오류57

Page 58: Title Automatic Correction of Total Discrepancy in Business … · 2012-07-12 · (edited) 자동에디팅의 ... id e1 e2 e3 e4 e5 e6 e7 e8 e9 status 1 3405006435 False False False

correctTypos 실행58

id x1 x2 x3 x4 x5 x6 x7 x8 x9 x10 status

1 3105026170 4667 77 0 1081 9 62 68 0 0 0 X

2 2608007136 274 270 0 227 0 0 0 0 43 4 O

3 1104135616 3800 39 0 0 39 0 0 0 0 0 X

4 2300062240 10226 8363 5763 1232 0 24 189 0 1155 1862 X

5 3102028469 8938 5781 2640 2704 33 4 5 0 0 0 X

6 3501011097 2590 1 0 0 0 0 0 0 0 0 X

7 1107127668 14200 12780 10020 350 25 11 38 0 2336 1420 O

8 1107037871 2570 25700 0 1798 0 0 0 0 0 0 X

9 3203013247 1651 1072 0 0 19 0 0 0 0 0 X

10 3202008871 5950 6044 31 4894 48 29 132 0 909 0 X

11 1102032933 1114 2225 0 1353 0 52 16 0 804 929 X

12 1108110072 3495 7848 3205 2103 480 25 251 69 1715 -4354 X

Page 59: Title Automatic Correction of Total Discrepancy in Business … · 2012-07-12 · (edited) 자동에디팅의 ... id e1 e2 e3 e4 e5 e6 e7 e8 e9 status 1 3405006435 False False False

• 2개의 오류레코드가 첫 단계에서 자동으로 수정됨

– 40→4, -1420 →1420

• 나머지 오류는 LP 방법과 SLICE를 사용하여 해결

• 신뢰가중치

– x1(매출액),x3~x9(영업비용) -> 가중치 3

– x2(영업비용합계)->가중치 2 (비용합계는 각 비용항목에 의해 결정)

– x10->가중치 1, x10 (영업이익) 은 x2(영업비용합계)에 의존

• (3,6,8,9) 레코드는 영업비용에 0으로 대부분이 채워짐=> 자동에디팅 적용 전에 검토 필요

결과59

Page 60: Title Automatic Correction of Total Discrepancy in Business … · 2012-07-12 · (edited) 자동에디팅의 ... id e1 e2 e3 e4 e5 e6 e7 e8 e9 status 1 3405006435 False False False

lpSolve 적용(x1,x3,x4,x5,x6,x7,x8,x9:가중치 3, x2: 가중치 2, x10: 가중치 1)

id x1 x2 x3 x4 x5 x6 x7 x8 x9 x10 status

1 3105026170 4667 1220 0 1081 9 62 68 0 0 3447 O

2 2608007136 274 270 0 227 0 0 0 0 43 4 O

3 1104135616 3800 39 0 0 39 0 0 0 0 3761 O

4 2300062240 10226 8363 5763 1232 0 24 189 0 1155 1863 O

5 3102028469 8938 5386 2640 2704 33 4 5 0 0 3552 O

6 3501011097 2590 0 0 0 0 0 0 0 0 2590 O

7 1107127668 14200 12780 10020 350 25 11 38 0 2336 1420 O

8 1107037871 2570 1798 0 1798 0 0 0 0 0 772 O

9 3203013247 1651 19 0 0 19 0 0 0 0 1632 O

10 3202008871 5950 6043 31 4894 48 29 132 0 909 -93 O

11 1102032933 1114 2225 0 1353 0 52 16 0 804 -1111 O

12 1108110072 3495 7848 3205 2103 480 25 251 69 1715 -4353 O

60

Page 61: Title Automatic Correction of Total Discrepancy in Business … · 2012-07-12 · (edited) 자동에디팅의 ... id e1 e2 e3 e4 e5 e6 e7 e8 e9 status 1 3405006435 False False False

• 12개의 레코드가 자동으로 수정됨

• 네덜란드 통계청에서는 자동오류위치포착을 위해 SLICE

(F-H 기반)가 사용됨

• SLICE 는 각 변수의 신뢰가중치를 주는 일반화된 F-H 를기반으로 함

• 신뢰가중치 사용(LP와 동일)

– x1(매출액),x3~x9(영업비용) -> 가중치 3

– x2(영업비용)->가중치 2 (영업비용 합계는 각 비용항목에 의해 결정)

– X10(영업이익)->가중치 (영업이익은 영업비용합계에의존)

결과61

Page 62: Title Automatic Correction of Total Discrepancy in Business … · 2012-07-12 · (edited) 자동에디팅의 ... id e1 e2 e3 e4 e5 e6 e7 e8 e9 status 1 3405006435 False False False

SLICE 적용(x1,x3,x4,x5,x6,x7,x8,x9:가중치 3, x2: 가중치 2, x10: 가중치 1)

Routine id x1 x2 x3 x4 x5 x6 x7 x8 x9 x10

1 Input_Record 1 4667 77 0 1081 9 62 68 0 0 0

1 ErrorLocateSolution 1 x x

1 Adapted_Record 1 4667 1220 0 1081 9 62 68 0 0 3447

2 Input_Record 3 3800 39 0 0 39 0 0 0 0 0

2 ErrorLocateSolution 3 x

2 Adapted_Record 3 3800 39 0 0 39 0 0 0 0 3761

3 Input_Record 4 10226 8363 5763 1232 0 24 189 0 1155 1862

3 ErrorLocateSolution 4 x

3 Adapted_Record 4 10226 8363 5763 1232 0 24 189 0 1155 1863

4 Input_Record 5 8938 5781 2640 2704 33 4 5 0 0 0

4 ErrorLocateSolution 5 x x

4 Adapted_Record 5 8938 5386 2640 2704 33 4 5 0 0 3552

5 Input_Record 6 2590 1 0 0 0 0 0 0 0 0

5 ErrorLocateSolution 6 x x

5 Adapted_Record 6 2590 0 0 0 0 0 0 0 0 2590

62

Page 63: Title Automatic Correction of Total Discrepancy in Business … · 2012-07-12 · (edited) 자동에디팅의 ... id e1 e2 e3 e4 e5 e6 e7 e8 e9 status 1 3405006435 False False False

Routine id x1 x2 x3 x4 x5 x6 x7 x8 x9 x10

6 Input_Record 8 2570 25700 0 1798 0 0 0 0 0 0

6 ErrorLocateSolution 8 x x

6 Adapted_Record 8 2570 1798 0 1798 0 0 0 0 0 772

7 Input_Record 9 1651 1072 0 0 19 0 0 0 0 0

7 ErrorLocateSolution 9 x x

7 Adapted_Record 9 1651 19 0 0 19 0 0 0 0 1632

8 Input_Record 10 5950 6044 31 4894 48 29 132 0 909 0

8 ErrorLocateSolution 10 x x

8 Adapted_Record 10 5950 6043 31 4894 48 29 132 0 909 -93

9 Input_Record 11 1114 2225 0 1353 0 52 16 0 804 929

9 ErrorLocateSolution 11 x

9 Adapted_Record 11 1114 2225 0 1353 0 52 16 0 804 -1111

10 Input_Record 12 3495 7848 3205 2103 480 25 251 69 1715 -4354

10 ErrorLocateSolution 12 x

10 Adapted_Record 12 3495 7848 3205 2103 480 25 251 69 1715 -4353

63

SLICE 적용(x1,x3,x4,x5,x6,x7,x8,x9:가중치 3, x2: 가중치 2, x10: 가중치 1)

Page 64: Title Automatic Correction of Total Discrepancy in Business … · 2012-07-12 · (edited) 자동에디팅의 ... id e1 e2 e3 e4 e5 e6 e7 e8 e9 status 1 3405006435 False False False

id x1 x2 x3 x4 x5 x6 x7 x8 x9 x10 Remark

1 31050261704667

17055

1220

15883

0

0

1081

3483

9

181

62

39

68

653

0

19

0

11508

3447

1172

Refusal

(mail)

2 2608007136274

274

270

260

0

0

227

227

0

0

0

0

0

0

0

0

43

33

4

14

3 11041356163800

18559

39

16330

0

0

0

7781

39

802

0

153

0

1072

0

9

0

6513

3761

2229

본사가 있는

지사

4 230006224010226

10226

8363

8363

5763

5763

1232

1232

0

0

24

24

189

189

0

0

1155

1155

1863

1863

5 31020284698938

7938

5386

5781

2640

2640

2704

2704

33

33

4

4

5

5

0

0

0

395

3552

2157지사

6 35010110972590

2477

0

2176

0

0

0

982

0

15

0

4

0

297

0

6

0

872

2590

301지사

자동수정자료와 최종자료의 비교64

Page 65: Title Automatic Correction of Total Discrepancy in Business … · 2012-07-12 · (edited) 자동에디팅의 ... id e1 e2 e3 e4 e5 e6 e7 e8 e9 status 1 3405006435 False False False

id x1 x2 x3 x4 x5 x6 x7 x8 x9 x10 Remark

7 110712766814200

14200

12780

12780

10020

10020

350

350

25

25

11

11

38

38

0

0

2336

2336

1420

1420

8 11070378712570

11794

1798

11433

0

0

1798

1231

0

486

0

190

0

1749

0

0

0

7777

772

366지사

9 32030132471651

1651

19

1072

0

0

0

600

19

19

0

0

0

0

0

0

0

453

1632

579지사

10 32020088715950

5950

6043

6044

31

31

4894

4894

48

48

29

29

132

132

0

0

909

910

-93

-94

11 11020329331114

1114

2225

2225

0

0

1353

1353

0

0

52

52

16

16

0

0

804

804

-1111

-1111

12 11081100723495

3495

7848

7848

3205

3205

2103

2103

480

480

25

25

251

251

69

69

1715

1715

-4353

-4353

65

자동수정자료와 최종자료의 비교(계속)

Page 66: Title Automatic Correction of Total Discrepancy in Business … · 2012-07-12 · (edited) 자동에디팅의 ... id e1 e2 e3 e4 e5 e6 e7 e8 e9 status 1 3405006435 False False False

• 12개의 모든 레코드가 자동 수정됨

• 3, 5, 6, 8, 9번째 레코드는 본사를 갖는 사업체임

• 모든 지사 사업체는 자동수정의 전 단계에서 검토돼야 함

• 이러한 지사 사업체를 제외하면, 대부분의 자동수정자료는최종 수정된 자료와 동일

결과66

Page 67: Title Automatic Correction of Total Discrepancy in Business … · 2012-07-12 · (edited) 자동에디팅의 ... id e1 e2 e3 e4 e5 e6 e7 e8 e9 status 1 3405006435 False False False

67

결론4

Page 68: Title Automatic Correction of Total Discrepancy in Business … · 2012-07-12 · (edited) 자동에디팅의 ... id e1 e2 e3 e4 e5 e6 e7 e8 e9 status 1 3405006435 False False False

1. 수학적 최적화 방법은 등식조건하에서 단순오타의 속성정보를 이용하지 못함

2. 서비스조사에서 종사자수와 사업실적의 합계불일치 오류자료에 자동수정기법적용

3. 단순오타의 자동수정

- 종사자수 합계 불일치 오류레코드 15건 중 6건이 자동수정됨

- 사업실적 합계 불일치 오류레코ㄷ 12건 중 2건이 자동수정됨

4. 나머지 오류레코드는 수학적 최적화 문제를 해결: SLICE 또는 LP

방법으로 해결

5. 최종자료와 비교한 결과, 대부분의 자동수정자료는 최종 자료와 동일(지사인 경우 담당자에 의해 지사 사업체 사업실적 우선 검토 필요)

요약68

Page 69: Title Automatic Correction of Total Discrepancy in Business … · 2012-07-12 · (edited) 자동에디팅의 ... id e1 e2 e3 e4 e5 e6 e7 e8 e9 status 1 3405006435 False False False

결언

1. 등식조건하에서의 단순오타의 자동수정은 이행이 용이함

2. 체계적 오류가 먼저 제거된다면 나머지 오류는 신뢰가중치부여와 함께 수학적 최적화 문제해결을 통해 자동 수정 가능

3. 재추적이 불가능한 경우, 자동수정은 마지막 수단으로서도 유용

4. 다른 경제조사의 합계일치 검토에 확대 적용 가능(경제 총조사 및 연간 경제조사에서 유형 및 무형 자산의 합계,

연초 연말 재고액 합계, 등식관계를 만족하여야 하는 항목 등)

69

Page 70: Title Automatic Correction of Total Discrepancy in Business … · 2012-07-12 · (edited) 자동에디팅의 ... id e1 e2 e3 e4 e5 e6 e7 e8 e9 status 1 3405006435 False False False

주요 참고문헌1. 이의규외(2007), “사업체대상 조사의 자동내검기법”, 통계개발원.

2. 이의규외(2008), “자동오류위치포착 및 수정방안”,「통계자료의 내검기법 연구」,

통계개발원.

3. 이의규외(2009), “Fellegi-Holt 기법을 이용한 에디팅의 시도 및 분석”, 응용통계연구22(4), 697-707.

4. 이의규(2010), “주기적 조사자료의 내검: 그래프 활용을 중심으로”, 통계연구, 15(1), 16-

27.

5. 이의규(2010), “자동내검기법의 적용 및 분석 -서비스업조사를 대상으로-”, 통계개발원.

6. 통계청(2008), “도소매업 및 서비스업통계조사 조사지침서”, 내부자료.

7. 통계청(2008), 「2005년 기준 사업체기초통계조사 및 서비스업총조사 시범예행조사전산내검 요령서」, 내부자료.

8. De Wall, T.(2003), “Processing of Erroneous and Unsafe Data”, Ph. D. Thesis, Erasmus

University Rotterdam.

9. De Wall, T. and Coutinho, W. (2005), “Automatic Editing for Business Surveys: An

Assessment of Selected Algorithms”, International Statistical Review, 73, 1, 73-

102.

10. Fellegi, I. P. and Holt, D. (1976), “A Systematic Approach to Automatic Edit and

Imputation”, Journal of American Statistical Association, 71, 17-35.

11. Granquist, L.(1997), “The New View on Editing”, International Statistical Review, 65, 3,

pp.381-387.

12. Scholtus, S.(2009), “Automatic Correction of Simple Typing Errors in Numerical Data

with Balance Edits", Paper presented at the UNECE Work Session on Statistical

Data Editing, Neuchatel.

70