데이터마이닝기법의성과평가및...

34
데이터마이닝 기법의 성과평가 및 새로운 위험분류측정에 관한 실증적 연구 - 보험사기 데이터를 중심으로- * 김 광 용** Ⅰ. 序 본 연구의 목적은 이원화된 위험을 분류하는데 사용된 여러 가지 데이터마이 닝(data mining) 기법들의 성과를 측정∙비교하는데 있어서, 표본추출방법의 영향, 각 표본의 이원화 위험구성비 영향, 기존의 전통적 위험예측치의 문제점 등을 탐색적으로 살펴보고, 새로운 위험예측치를 제시하여 그 사용가능성을 실 증적으로 비교, 검토하는 것을 연구의 주목적으로 하고 있다. 최근 인공신경망(neural network)이나 귀납적 학습방법(rule induction)같 은 인공지능기법을 부도예측이나 사기적발 등 주로 이원화된 위험분류에 사용하 保險開發硏究 第12卷 第2號(2001年 9月) - 133 - 연구는 데이터마이닝(data mining) 기법들의 성과를 측정∙비교하는데 있어서, 표본의 추출방법에 따른 영향, 각 표본의 이원화 위험 구성비 영향, 기존의 전통적 위험 예측치의 문제 점등을 탐색적으로 살펴보고, 새로운 위험예측치(ROC)를 제시하여 그 사용가능성을 실증적으 비교, 검토하는 것을 연구의 주목적으로 하고 있다. 자동차 보험사기 데이터를 통해 이를 분 석한 결과 표본 구성비에 따라 각 데이터마이닝 기법의 예측력에는 상당한 차이가 있는 것으로 나타났으며, 전통적인 위험분류측정치로는 표본구성비의 영향을 정확하게 분석할 수 없음을 확 인하고, 새로운 위험분류측정치인 ROC의 유용성을 제안하였다. * 본 논문은 1998년 한국학술진흥재단의 학술연구비에 의하여 지원되었음을 밝히며 유익한 논평을 해주신 익명의 심사위원님에게 깊은 감사를 전한다. ** 숭실대학교 경영학부 조교수 Journal of Insurance Studies 200 1. 9 Vol.1 2 No. 2 200 19 月 第1 2卷 第2號 通卷 第3 3保險開發硏究

Upload: others

Post on 19-Oct-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

  • 데이터마이닝 기법의 성과평가 및새로운 위험분류측정에 관한 실증적 연구

    -보험사기 데이터를 중심으로- *

    김광용**

    Ⅰ. 序 論

    본 연구의 목적은 이원화된 위험을 분류하는데 사용된 여러 가지 데이터마이

    닝(data mining) 기법들의 성과를 측정∙비교하는데 있어서, 표본추출방법의

    영향, 각 표본의 이원화 위험구성비 영향, 기존의 전통적 위험예측치의 문제점

    등을 탐색적으로 살펴보고, 새로운 위험예측치를 제시하여 그 사용가능성을 실

    증적으로 비교, 검토하는 것을 연구의 주목적으로 하고 있다.

    최근 인공신경망(neural network)이나 귀납적 학습방법(rule induction)같

    은 인공지능기법을 부도예측이나 사기적발 등 주로 이원화된 위험분류에 사용하

    保險開發硏究 第12卷 第2號(2001年 9月)

    - 133 -

    본 연구는 데이터마이닝(data mining) 기법들의 성과를 측정∙비교하는데 있어서, 표본의

    추출방법에 따른 영향, 각 표본의 이원화 위험 구성비 영향, 기존의 전통적 위험 예측치의 문제

    점등을 탐색적으로 살펴보고, 새로운 위험예측치(ROC)를 제시하여 그 사용가능성을 실증적으

    로 비교, 검토하는 것을 연구의 주목적으로 하고 있다. 자동차 보험사기 데이터를 통해 이를 분

    석한 결과 표본 구성비에 따라 각 데이터마이닝 기법의 예측력에는 상당한 차이가 있는 것으로

    나타났으며, 전통적인 위험분류측정치로는 표본구성비의 영향을 정확하게 분석할 수 없음을 확

    인하고, 새로운 위험분류측정치인 ROC의 유용성을 제안하였다.

    * 본 논문은 1998년 한국학술진흥재단의 학술연구비에 의하여 지원되었음을 밝히며 유익한

    논평을 해주신 익명의 심사위원님에게 깊은 감사를 전한다.

    ** 숭실대학교 경영학부 조교수

    Journal of Insurance Studies 2001.9 Vol.12 No.2 2001年 9月 第12卷 第2號 通卷 第33號 保險開發硏究

  • - 134 -

    保險開發硏究 第12卷 第2號

    여 통계적인 기법 또는 전문가의 판단과 비교한 후, 인공지능기법이 위험예측력

    에서 우수하여 활용가치가 매우 높다는 연구가 많이 이루어져 왔다1. 특히 이러

    한 여러 가지 데이터마이닝 기법은 최근 주목받고 있는 데이터베이스를 이용한

    데이터베이스 마케팅이나 웹데이타마이닝과 같은 새로운 비즈니스의 중요한 활

    용 도구로서 그 가치가 더욱 더 중요시 되고 있다.2

    그러나 과거의 데이터마이닝 기법의 예측력을 측정하여 비교하는데 주로 이용

    된 표본설계나 전통적인 위험예측력 측정치는 다음과 같은 문제점이 있어 그 실

    증적 가치에 대한 의문이 제기되고 있다. 첫째, 모집단에서 추출한 적은 수의 표

    본을 무작위로 분석표본과 검증표본으로 분류하여 계산된 예측력이 추출표본별

    로 차이(표본추출오차)가 매우 커서 실증적 비교의 신뢰가 떨어진다는 것이다.3

    둘째, 표본의 추출시 모집단의 구성비에 기준하여 표본의 구성비가 균형표본추

    출 (balanced sampling, 비 사 기 :사 기 =50:50)과 대 표 표 본 추 출

    (representative sampling, 모집단의 구성비와 동일)사이에서 예측력의 편차

    가 커서, 데이터마이닝 기법의 실무적용에서의 유용성이 의심된다는 것이다.4 마

    지막으로 현재까지 가장 많이 사용되고 있는 전통적인 위험예측 측정치(옳게 예

    측한 경우/모든 경우)는 모집단의 사전확률을 고려하지 못하며, 특히 이원화 이

    상의 위험분류에서는 예측력의 상대적 정확도를 측정하지 못하는 문제가 있다.

    이러한 문제점을 극복하고자 1종오류별, 2종오류별, 또는 이러한 오류들에 가중

    치를 부여한 효율적 측정치(weighted efficiency measure)등이 사용되었지만,

    1 Wong B.K., Bodnovich T.A., & Selvi Y., “Neural Network Applications in

    Business: A review and Analysis of the literature(1988-1995),”Decision Support

    System, Vol.19, No.4(1997), pp.301-3202 Zopounidis C., Doumpos M., & Matsatsinis N.F., “On the Use of Knowledge

    Based DSS in Financial Management:A Survey,”Decision Support Systems,

    Vol.20, No.2(1997), pp.259-2773 우춘식, 김광용, 강성범, 「LOGIT 분석과 AHP 분석을 이용한 부도예측모형의 비교연구」,

    『재무관리연구』, 제14권, 제2호(1997), pp.229-2524 Jain B.A. and Nag B.N., “Performance Evaluation of Neural Network Decision

    Models,”Journal of Management Information Systems, Vol.14, No.2(1997),

    pp.201-216

    Journal of Insurance Studies 2001.9 Vol.12 No.2 2001年 9月 第12卷 第2號 通卷 第33號 保險開發硏究

  • 근본적인 모형성과의 비교를 위한 측정치의 기준이 현재까지 정립이 되어있지

    않은 형편이다.5

    따라서 본 연구에서는 전통적인 위험예측치에 대한 대안으로 자연과학 연구영

    역6에서 위험분류측정치로 많이 사용되지만 사회과학 연구분야에서는 비교적 생

    소한 ROC(Receive Operating Curve)의 사용을 제안하고, 다양한 표본 설계

    하에서 전통적인 예측치들과 ROC의 예측력을 비교∙분석하여 ROC의 사용에

    대한 실증적 검증을 하고자 한다. 또한 모형 또한 다양한 표본 설계를 시도하여

    데이터마이닝 기법들의 성과 비교에 객관적인 기준을 제시하고자 한다. 특히 본

    연구는 최근 많은 사회적 물의를 일으키고, 특히 보험사의 자율경쟁으로 인하여

    중요한 위험관리영역으로 인식되고 있는 보험사기 자료를 이용함으로써 데이터

    마이닝 기법의 보험산업에서의 실용적 응용가능성도 함께 점검하고자 한다.

    본 논문의 구성은 다음과 같다. 제2장에서는 여러 가지 데이터마이닝 기법을

    사용하여 위험분류를 할 때 사용하였던 위험분류 예측치와 그와 관련된 연구문

    헌 등을 살펴보았고, 제3장은 보험사기의 소개, ROC에 대한 정리, 연구내용에

    대한 실증분석의 결과를 비교 검토하였으며, 마지막으로 제4장에서 본 연구를

    종합하고 정리하였다.

    II. 硏究背景

    본 연구의 주된 내용은 데이터마이닝으로 부터 개발된 각 모형들의 예측력을

    객관적으로 비교하고 검증할 수 있는 기준 및 새로운 위험측정치의 사용가능성

    에 관한 연구이다. 따라서 현재 데이터마이닝 기법에서 사용되는 위험분류측정

    데이터마이닝 기법의 성과평가 및 새로운 위험분류측정에 관한 실증적 연구

    - 135 -

    5 Whalen, T., & Gim, G. “Hybrid neural-statistical classification system for

    potential medical malpractice claims,”Proceedings of the Second International

    Decision Science Institute Conference, 1993 , pp.216-219.6 표본의 숫자가 적은 실험설계방법에서 많이 이용되며, 특히 의학과 생물학 분야의 위험분류

    평가척도로 많이 사용되고 있다.

    Journal of Insurance Studies 2001.9 Vol.12 No.2 2001年 9月 第12卷 第2號 通卷 第33號 保險開發硏究

  • - 136 -

    保險開發硏究 第12卷 第2號

    치 등을 살펴보고, 기존 연구에서 어떠한 종류의 표본 추출과 표본 구성비를 사

    용하였는지에 대한 조사를 하였다.

    1. 여러 가지 위험분류측정치

    기존 데이터마이닝 연구에서 모형의 예측력을 검증하는 데 가장 많이 사용되

    는 연구방법은 모집단으로부터 추출된 표본을 무작위로 분석표본(training

    sample)과 검증표본(test sample)으로 분류하여 모형개발은 분석표본에서 하

    고 예측력은 검증표본에서 계산하는 방법이 주종을 이루고 있다. 이러한 검증표

    본을 이용하여 데이터마이닝 연구에서 주로 사용되어진 전통적인 위험분류 예측

    치는 다음과 같다.7

    ① 전통적인 위험예측치(Prediction Accuracy) = (TP+TN)/(TP+TN+FP+FN)

    ② Sensitivity = TP/(TP+FN)

    ③ Specificity = TN/(FP+TN)

    ④ Positive Predictive Value = TP/(TP+FP)

    ⑤ Negative Predictive Value = TN/(FN+TN)

    ⑥ Type I Error = FN/(TP+FN) = 1 - Sensitivity

    7 Weiss, S. M. & Kulikowski, C. A, “Computer systems that learn classification

    and prediction methods from statistics, neural nets, machine learning, and

    expert systems,”1991, San Francisco: Morgan Kaufmann.

    위험분류 예측치

    비사기로 예측

    TP

    (True Positive)

    FP

    (False Positive)

    사기로 예측

    FN

    (False Negative)

    TN

    (True Negative)

    실제로 비사기

    실제로 사기

    Journal of Insurance Studies 2001.9 Vol.12 No.2 2001年 9月 第12卷 第2號 通卷 第33號 保險開發硏究

  • 데이터마이닝 기법의 성과평가 및 새로운 위험분류측정에 관한 실증적 연구

    - 137 -

    ⑦ Type II Error = FP/(FP+TN) = 1 - Specificity

    ⑧ Weighted Efficiency = ① * ② * (TP/(TP+TN+FP+FN))

    그러나 표본의 수가 적다면 이렇게 무작위로 두 표본을 분류할 때마다 검증표

    본에서 계산된 예측력은 차이가 많아 표본추출오차가 발생한다. 이미 많은 연구

    가 적은 표본수를 이용하여8 단 1회의 표본분류를 한 후 검증표본에서 데이터마

    이닝 기법의 예측력 비교를 하였으나, 다양한 표본추출을 시도했던 소수의 기존

    연구는 그 편차가 매우 심하다는 것을 실증적으로 보여왔다.9

    또한 표본설계시의 구성비에 관한 연구를 살펴보면 중소기업에서 실제 발생하

    는 부도 비율은 대개 1% 미만이며 카드나 보험사기, 신용평가 등 다른 이원화

    위험분류도 대개 15% 미만이다. 그러나 기존의 데이터마이닝에 관한 많은 연구

    는 위험의 구성비가 동일한 균형표본추출(balanced sampling)을 많이 사용하

    였다. 물론 여기에는 많은 학자의 견해가 대립되고 있지만10, 적어도 모집단의 구

    성비와 표본의 구성비가 다를 때 어떻게 예측력에 영향을 주는지에 관한 체계적

    인 연구가 필요하며, 특히 각 데이터마이닝 기법별로 어떤 차이가 나는지에 관한

    연구가 중요하다.11 이러한 연구는 각 데이터마이닝 방법의 장점을 통합하는 통

    합모형의 개발에 이론적 근거를 제시하기 때문에 더욱 더 필요한 연구라 할 수

    있다. 따라서 본 연구에서는 표본의 구성비를 다양하게 변화(50:50부터 모집단

    의 구성비까지)시키면서 각 데이터마이닝 및 통합모형의 예측력을 비교함으로

    써 각 구성비별 예측력에 미치는 영향을 조사하여 바람직한 데이터마이닝 기법

    의 개발방향을 제시하고자 한다.

    8 Altman(1968)은 부실 및 건전기업의 표본이 각각 15-20개 정도라도 신뢰할 수 있는 예측

    모형이 가능하다고 하였다9 우춘식, 김광용, 강성범, 「LOGIT 분석과 AHP 분석을 이용한 부도예측모형의 비교연구」,

    『재무관리연구』, 제14권, 제2호(1997), pp.229-25210 Hair et al.(1995)은 판별분석의 경우, 판별력의 증대를 위하여 각 집단의 구성비가 동일

    한 것이 바람직하다는 견해를 표명했다11 Gim, G., Whalen, T, & Schott, B. "Control of Error in Fuzzy Logic Modeling,"

    International Journal of Fuzzy Sets and System, Vol.80, .No.1(1996), pp.23-35

    Journal of Insurance Studies 2001.9 Vol.12 No.2 2001年 9月 第12卷 第2號 通卷 第33號 保險開發硏究

  • - 138 -

    保險開發硏究 第12卷 第2號

    2. 데이터마이닝의 硏究設計方法들

    기존의 데이터마이닝 기법을 사용하여 위험분류를 한 연구 중 표본추출이나,

    표본설계, 또는 측정치의 문제가 있을 수 있음을 인식하여 나름대로 이러한 한계

    점을 단편적으로나마 연구한 논문들은 에 따로 모아 정리하였다. 그 중 국

    내문헌 중 피종허(1995)나 정기웅과 홍관수(1995)는 표본추출이나 표본설계를

    나름대로 다양하게 시도하였으나, 체계적으로 이러한 영향들이 예측력에 어떻게

    미치는 지를 연구하지는 못하였다. 다만 표본추출의 영향이 존재한다는 실증적

    점검만을 하였다. 우춘식외 2인(1997)은 표본 추출의 영향을 체계적으로 분석

    하고 적은 수의 표본분류는 많은 예측력 오차가 있으므로 무작위 추출을 통한 여

    러 가지 데이터마이닝 기법의 예측력에 관한 기존 연구의 신뢰도에 의문을 제기

    하였다.

    특히 Jain & Nug(1997)는 표본설계에서 좀 더 체계적으로 다양한 표본구성

    비를 만들고 분석한 후, 새로운 위험분류측정치를 제시하고 실증적으로 검증하

    면서 대표 표본추출이 반드시 높은 예측력과 의미있는 정보를 보장하지 않는 다

    는 것을 실증적으로 보여주고 균형표본추출의 접근이 필요함을 역설하였으나 표

    본추출오차의 영향은 분석하지 못하였으며, 여러 가지 데이터마이닝 기법별로

    분석하지 않았고 특히 그들이 제시한 새로운 위험분류측정치(weighted

    efficiency)의 일반화에 대한 의문이 제시되었다. Major & Riedinger (1995)

    는 데이터마이닝 관련된 연구에서는 처음으로 보험사기 적발모형에 ROC 측정

    치를 이용하였으며 실제 회사에서 이루어지고 있는 데이터를 중심으로 소개하였

    으나 체계적인 연구가 이루어지지는 않았다.

    3. 새로운 위험예측치: ROC(Receiver Operating Curve)

    부도 경우가 건전 경우에 비해서 매우 희귀하므로 부도예측율 문제는 부도 그

    자체에 대해서는 매우 작은 사전확률(prior probability)을 갖고 있다. 따라서

    부도예측의 경우 확률만 고려하여 볼 때, 건전하다고 예측하는 것이 맞을 확률이

    Journal of Insurance Studies 2001.9 Vol.12 No.2 2001年 9月 第12卷 第2號 通卷 第33號 保險開發硏究

  • 데이터마이닝 기법의 성과평가 및 새로운 위험분류측정에 관한 실증적 연구

    - 139 -

    표본추출, 표본구성비, 측정치 등을 고려한 기존연구

    논문 사용된 표본수표본분류

    데이터마이닝 기법

    구성비(건전:부도)

    측정치

    이건창 외 2(1994)검증:100,70,40

    분석:66,96,1263회

    MDA, NN, ID3,

    Hybrid(NN+ID3)50:50 PA

    이건창(1995)검증:100,70,40

    분석:66,96,1263회

    MDA, ACLS, NN,

    HYNEN,ARTMAP50:50

    PA

    Type I, II

    장정곤(1995) 검증: 100,분석: 100 1회 NN, MDA 50:50 PA

    정기웅&홍관수(1995) 검증: 40, 분석: 40 4회 NN, MDA 50:50,75:25 PA

    피종허(1995)검증: 36,18,5

    분석: 36,54,6710회 NN 50:50 PA

    노시천(1996) 검증: 32, 분석: 68 1회 MDA 50:50 PA

    이재식&한재홍(1996) 검증: 60, 분석: 60 1회 NN, CBR 50:50 PA

    우춘식 외2인(1997) 검증: 35, 분석: 30 20회 LOGIT, AHP 50:50 PA

    Liang(1990) 검증: 20, 분석: 30 6회 DA, ID3,hybrid 50:50 PA

    Schkada et al(1991) 검증: 52, 분석: 50 1회 NN 50:50 PA

    Tam(1991) 검증: 44, 분석: 118 1회 DA, ID3, NN 50:50 PA

    Altmon et al(1992) 검증:302, 분석: 808 1회 DA, NN 50:50 PA

    Cinar et al(1992)검증(1): 116, 검증

    (2): 404, 분석: 2001회 Logit, NN 50:50 PA

    Cronan et al(1992) 검증:100, 분석: 375 1회 RPA, ID3 50:50 PA

    Tam &

    Kiang(1992)검증: 44, 분석: 118 1회 DA,Logit, NN, ID3 50:50

    TypeI,II,

    PA

    Hansen et al(1993) 80 1회 Logit,ID3, NEWQ 50:50 Type I,II

    Wilson&Sharda(1994)

    검증: 40, 분석: 88 3회 NN, DA50:50,80:20

    90:10PA

    Lee et al(1996)검증:100,70,40

    분석:66,961261회

    MDA,ID3,Hybrid(MDA+NN)(ID3+NN)

    50:50 PA

    Major & Riedinger(1995)

    분석: 15,000

    검증: 15,0001회 Ststaistic, ES 50:50 RROOCC

    Jain & Nag(1997)검증: 231

    분석: 2301회 NN, Logit

    50:50,45:5540:60,35:65

    30:70

    Type I,IIWeightedefficiency

    * PA : Prediction Accuracy (전통적인 예측치)

    Journal of Insurance Studies 2001.9 Vol.12 No.2 2001年 9月 第12卷 第2號 通卷 第33號 保險開發硏究

  • - 140 -

    保險開發硏究 第12卷 第2號

    높으므로 건전 경우를 부도라고 잘못 예측하는 것은 부도를 건전하다고 잘못 예

    측하는 것보다 더 큰 실수가 될 것이다. 그러나 여러 가지 데이터마이닝 기법의

    유효성을 측정하는데 많이 이용된 전통적인 예측정확도(옳게 예측한 경우/총 경

    우)는 이러한 사전확률을 고려하지 않고 있다.

    특히 위험분류군이 2원화 이상인 경우에는 전통적인 예측정확도는 예측정확

    도의 강도가 전혀 고려되지 않은 단점이 있다. 예를 들어 종래의 예측정확도는 5

    개의 위험분류군을 가진 경우 실제“부도”경우를“요주의 관찰”로 예측한 것이

    나“건전”으로 예측한 것이 모두 같이 틀린 예측으로 간주된다. 그러나 실제“건

    전”이라는 예측이“요주의 관찰”보다 더욱 잘못된 예측이나 이러한 예측정확성

    의 강도를 종래의 예측정확도 측정치는 고려하지 못한다는 것이다. 그러나

    ROC는 이러한 사전확률 및 예측정확도의 강도를 고려할 수 있는 측정치이기

    때문에 본 연구에서는 모델의 예측력 검증 시 이미 의학이나 생물학 연구영역의

    위험분류 예측력 측정에서 사용이 보편화된 ROC를 사용하고자 한다.

    예를 들어 3개의 위험군을 가진 NN과 ID3를 통합한 모델에 관한 의

    ROC는 NN, MDA 또는 통합모델과 같은 위험분류도구(risk classifier)가 생

    성한 위험추정치(연속값 또는 서열값)를 각 위험을 분류하는 최적 임계치를 기

    ROC의 예 (3개의 위험분류군의 경우)

    Journal of Insurance Studies 2001.9 Vol.12 No.2 2001年 9月 第12卷 第2號 通卷 第33號 保險開發硏究

  • 데이터마이닝 기법의 성과평가 및 새로운 위험분류측정에 관한 실증적 연구

    - 141 -

    준으로 여러 가지 위험군(risk category)으로 나눈 후 Sensitivity (true

    positive : TP) 대 (1 - Specificity) (false positive : FP)의 비율을 각 위험군

    (Risk category) 별로 계산해서 그 값들을 연결하여 그리는 것이다. 이상적인

    ROC 곡선은 왼쪽 위로 가장 가깝게 붙어있는 것이다. 예를 들어 MDA의 부도

    확률추정치를 세 개의 위험군(건전, 보통, 부도)으로 나눌 때, 최적의 임계치는

    0.33과 0.66의 두 개가 되고, 각 임계치 별로 부도와 건전을 분류하는 2개의 교

    차 테이블(Cross Table)을 완성하여 Sensitivity(TP) 대 (1-Specificity)(FP)

    의 비율을 계산하여 그 값을 연결하면 ROC가 완성된다.

    NN의 경우는 결과추정치가 확률값이 아니고 순서의 의미를 갖고 있는 서열치

    이므로 반복시행(trial and error)을 통하여 검증표본을 최적으로 분류하는 두

    개의 임계치를 찾아서 같은 방법으로 ROC를 완성한다. ROC의 아래면적인

    (Theta)는 무작위로 고른 비정상 경우가 무작위로 고른 정상인 경우보다 비정

    상으로 의심되는 정도가 더 큰 확률을 나타내고 있다. 즉 값이 1이면 완벽한 예

    측, 0.5이면 무작위 추측(의 대각선), 0.5보다 작으면 무작위 추측보다

    작은 것을 나타낸다. 극단적인 예로, 99개의 건전 경우와 1개의 비건전 경우의

    자료를 무작위로 뽑을 때 종래의 예측도 측정치는 99%의 정확도를 기본 예측률

    로 갖으나 ROC측정치는 0.5에 가까운 값을 갖게 된다. 또한 ROC 아래의 면적

    중 대각선위의 왼쪽 하단면적 보다 오른쪽 상단면적이 크면 부도의 경우를 건전

    의 경우보다 잘 예측하는 것이며, 그 반대로 오른쪽 상단면적 보다 왼쪽 하단면

    적이 크면 건전의 경우를 부도의 경우보다 잘 예측하는 것을 나타낸다. Mayer

    & Riedinger(1995)는 보험사기적발모형에 ROC를 사용하였으며, Hanley &

    McNeil(1982)은 ROC의 이론과 통계학적 특성에 대한 상세한 설명을 했다.

    III. 硏究方法

    본 연구의 주된 방법은 각 보험사의 보험사기와 비사기 자료를 수집하여 표본

    을 추출하고 무작위로 여러 개의 분석표본과 검증표본으로 분류하여, 다양한 표

    Journal of Insurance Studies 2001.9 Vol.12 No.2 2001年 9月 第12卷 第2號 通卷 第33號 保險開發硏究

  • - 142 -

    保險開發硏究 第12卷 第2號

    본 구성비를 가진 여러 가지 분석표본에서 데이터마이닝 기법을 이용하여 부도

    예측 모델을 개발하고, 여러 가지 검증표본에서 기존의 전통적인 예측치 및

    ROC를 계산하여 위험예측력을 측정하고 비교, 분석하는 것이다.

    1. 保險詐欺

    보험사기는 보험제도의 대표적인 부작용으로 특히 보험시장의 발달과 함께 두

    드러지는 문제점이다. 보험사기는 크게 보험금 수취를 위해 조직적으로 보험사

    고를 위장, 조작하는 경성 보험사기(hard insurance fraud)와 사고발생 후 보

    험금을 과다 청구하는 연성 보험사기(soft insurance fraud)로 나누어 생각할

    필요가 있다. 보험사기에 의한 피해의 규모는 상상을 초월하여 미국의 경우 지급

    보험금의 약 10-15%는 보험사기에 의한 지출이라고 추정되고 있다(CAIF,

    1998). 따라서 미국에서는 탈세 다음으로 보험사기를 중대한 국가적 경제범죄

    로 인식하고 보험사기퇴치를 위해 정부, 기업, 소비자가 광범위한 노력을 경주하

    고 있다.

    NAIC(National Association of Insurance Commissioners)의 모델규제를

    기초로 각 주마다 보험사기를 경감하기 위한 각종 법적 조치가 실행되었다. 대

    부분의 보험회사는 보험사기를 적발하기 위한 특별조사팀을 가동하고 있고, 보

    험사기 퇴치를 위한 공동대응책의 일환으로 NICB(National Insurance

    Crime Bureau)를 비롯한 다양한 연합조직이 결성되었다(CAIF, 1998). 그러

    나 미국에서 보험사기와의 전쟁에서 무엇보다 중요한 것은 데이터베이스의 활

    용을 들 수 있다. 미국에는 NICB ClaimSmart를 비롯하여 약 20종류의 보험

    사기 청구와 관련된 데이터베이스가 있고, A-Plus와 같은 보험사기인수와 관련

    된 데이터베이스도 6개 이상 존재하고 있다. 따라서 대부분의 보험사기조사자

    들은 보험사기로 의심이 가는 보험사고를 직면하는 경우 우선 이 데이터베이스

    에 조회하는 것으로 알려지고 있으며, 특히 여러 가지 분석 방법을 동원하여 보

    험사기의 적발을 위하여 노력하고 있다. 그러나 국내에는 이러한 기초 보험사기

    데이터베이스의 구축이나 보험사기 조기적발모형과 같은 분석방법이 거의 전무

    Journal of Insurance Studies 2001.9 Vol.12 No.2 2001年 9月 第12卷 第2號 通卷 第33號 保險開發硏究

  • 데이터마이닝 기법의 성과평가 및 새로운 위험분류측정에 관한 실증적 연구

    - 143 -

    한 형편이다.12

    보험사기 적발모형에 관한 연구는 해외에서 간헐적으로 시도되었다. 비선형적

    인 모형의 하나인 퍼지이론(fuzzy set theory)은 1982년 DeWit(1982)의 이론

    적 연구를 효시로 출발하여 Lemaire(1990)의 연구에 의하여 보험이나 금융기

    관에 충분히 활용될 수 있다는 가능성을 보였다. 특히 Cummins and

    Derrig(1993, 1994)는 퍼지이론이 손해보험의 가격결정이나 손해율 등의 예측

    에 매우 유용할 것이라는 것을 보였다. Derrig 과 Ostaszewski(1995)는 종래

    의 통계학적 군집모형과 퍼지군집(fuzzy clustering)을 이용하여 보험사기를 예

    측한 결과 퍼지군집모형이 우월하다는 것을 보였다. 현재까지 AHP를 이용한 보

    험사기 모형의 개발은 해외에서 시도된 적은 없으며 국내에서 김헌수(2000)와

    김광용(1996)에 의하여 그 가능성을 보여주었다.

    2. 資料 收集

    본 연구에 사용된 자료는 7개 손해보험회사의 자동차보험 가입자중 1996년

    12월부터 1998년 11월까지 사고건 경우를 대상으로 하였다. 총 자료는 비사기

    3,201개와 사기 583개가 수집되었으며, 자료 전처리를 거쳐 분석에 이용된 자

    12 김헌수,「보상전문가의 지식을 이용한 보험사기의 조기경보모형의 개발에 관한 연구」, 『리스

    크관리연구』, 2000, pp 59-97

    사용된 변수

    변 수 명

    나이, 성별, 차종, Day, 피해구분,

    사고원인, 보험금청구액, 사고자할인

    할증율, 경력, 직업, 사고시간, 사고

    지역, 경찰통보

    사기여부

    비 고

    Day =(사고발생일-보험계약일)

    명목척도

    변 수

    독립변수

    종속변수

    Journal of Insurance Studies 2001.9 Vol.12 No.2 2001年 9月 第12卷 第2號 通卷 第33號 保險開發硏究

  • - 144 -

    保險開發硏究 第12卷 第2號

    료는 비사기 1,149개, 사기 405개이다. 사용된 변수는 아래 표와 같다. 기존 문

    헌연구와 실제 보험업계종사자를 대상으로 조사한 결과, 현재 한국 자동차보험

    의 보험사기율을 대략적으로 15%로 설정하고 이를 모집단으로 보험사기비율로

    이용하였다. 물론 현재까지 확실한 통계자료가 없어 자료의 표본 구성비는 보험

    사기율을 10%까지도 볼 수 있게 실험을 실시하였다.

    3. 標本設計

    본 연구는 데이터마이닝 기법을 적용하여 예측이나, 분류 등을 수행할 때 발생

    하는 표본설계의 구성비에 관한 연구이다. 구성비는 크게 균형표본추출

    (Balanced Sampling)과 대표표본추출(Representative Sampling)의 두 가지

    로 나뉘어 지는데, 이는 분석표본(Training Sample)과 검증표본(Test

    Sample)에 따라 각기 분석되어야 한다. 분석표본에서 모형개발을 위하여 사용

    된 데이터마이닝 기법으로는 통계적 모형으로 다중판별분석(Multiple

    Discriminant Analysis :이하 MDA), 귀납적 학습방법(Rule Induction) 기법

    으로 CART(Classification And Regression Tree:이하 CART), 인공지능기

    실험설계

    MDA

    CART

    NN

    비사기 : 사기50 : 50 비사기 : 사기

    50 : 5055 : 45

    겔90 : 10

    TrainingDate

    TestDate

    보험사기Date

    비사기 : 사기90 : 10

    Journal of Insurance Studies 2001.9 Vol.12 No.2 2001年 9月 第12卷 第2號 通卷 第33號 保險開發硏究

  • 데이터마이닝 기법의 성과평가 및 새로운 위험분류측정에 관한 실증적 연구

    - 145 -

    법으로 인공신경망(Neural Network: 이하 NN)이다.

    표본의 분류는 전체 데이타에서 사기와 비사기로 구분하고 사기 중에서 50%,

    비사기 중에서 50%를 각각 분석표본과 검증표본의 자료로 무작위로 배분하였

    다. 이렇게 나뉘어진 분석표본과 검증표본에서 비사기:사기의 비율을 50:50으

    로 시작하여 90:10까지 되도록 비사기의 비율을 5%씩 증가시켰다. 결국 분석

    표본의 비사기:사기의 비율이 50:50인 자료에서 MDA, NN, CART를 이용하

    여 모형을 개발하고 이를 비사기가 5%씩 증가되는 검증표본에 적용시킴으로써

    표본구성비의 영향을 알아보고자 하였다. 또한 분석표본에서 비사기의 비율을

    5%씩 증가시켜 위와 같은 실험을 반복함으로써 균형 표본추출방법에서 대표표

    본추출방법으로 전환될 때 어떠한 현상이 발생하는지를 체계적으로 검증하였다.

    표본구성비에 따른 실험설계방법은 앞의 에 도식화시켜 정리하였다.

    4. 표본의 추출 및 구성비의 변화에 따른 위험 예측력의 影響

    가. 분석표본 구성비의 변화에 따른 검증표본의 예측력 변화

    분석표본의 구성비에 따른 검증표본의 예측력을 기존 측정치(맞은 경우/모든

    분석표본의 구성비에 따른 검증표본의 예측력(MDA)

    Journal of Insurance Studies 2001.9 Vol.12 No.2 2001年 9月 第12卷 第2號 通卷 第33號 保險開發硏究

  • - 146 -

    保險開發硏究 第12卷 第2號

    경우)로 계산한 결과를 정리한 것은 아래와 같다. 보는 바와 같이

    분석표본의 구성비(비사기 : 사기)가 50:50에서 90:10으로 갈수록 예측력은

    60%에서 90%까지 향상됨을 알 수 있다. 그러나 분석표본의 구성비가 50:50

    일 경우 검증표본의 구성비가 50:50에서 90:10으로 변함에 따라 예측력은 큰

    변화를 보이고 있지 않다. 반면에 분석표본의 구성비가 90:10일 때 검증표본의

    분석표본의 구성비에 따른 검증표본의 예측력(CART)

    분석표본의 구성비에 따른 검증표본의 예측력(NN)

    Journal of Insurance Studies 2001.9 Vol.12 No.2 2001年 9月 第12卷 第2號 通卷 第33號 保險開發硏究

  • 데이터마이닝 기법의 성과평가 및 새로운 위험분류측정에 관한 실증적 연구

    - 147 -

    구성비가 50:50에서 90:10의 비율로 증가함에 따라 예측력은 상당히 증가하고

    있음을 볼 수 있다. 이러한 결과로부터 분석표본의 구성비와 검증표본의 구성비

    는 여러 가지 데이터마이닝 기법의 예측력과 무관하지 않다는 것을 확인할 수 있

    었고 표본 구성비에 대한 보다 체계적인 분석과 전통적인 위험분류측정치에 대

    한 조사가 필요함을 알 수 있다. 다음 장에서 표본추출방법별로의 정확한 차이를

    분석하고자 한다

    나. 균형표본추출(비사기:사기 = 50:50) 경우의 검증표본의 모형별 예측력

    에서 보듯이 균형표본추출의 경우 검증표본의 구성비에 따른 예측력

    의 표준편차는 크지 않음을 볼 수 있다. 각 데이터마이닝 모형별로 보면, CART

    가 가장 우수한 예측력을 보이고 있는 것을 알 수 있으며, NN이나 MDA는 약

    간 혼재되어 있으나 전반적으로 NN이 MDA보다는 우수한 예측력을 보이고 있

    음을 알 수 있다.

    그러나 재미있는 사실은 연구자가 검증표본의 구성비를 50:50이나 60:40으

    로 구성하면 모형의 예측력은 MDA가 NN보다 높으며 그외는 NN이 MDA보다

    높은 것으로 나타나 검증표본의 구성비에 따라 다른 의사결정을 하게 된다는 것

    분석표본이 균형추출방법을 사용할 때 각 모형별 예측력

    Journal of Insurance Studies 2001.9 Vol.12 No.2 2001年 9月 第12卷 第2號 通卷 第33號 保險開發硏究

  • - 148 -

    保險開發硏究 第12卷 第2號

    을 알 수 있다. 따라서 현재 이루어지고 있는 많은 데이터마이닝 연구결과가 작

    위적으로 좋은 결과를 선택할 수 있으므로 논문에 수록할 때 적절한 발표지침과

    기준의 설정이 필요하다고 하겠다.

    다. 대표표본추출방법(비사기:사기=90:10) 경우의 검증표본의 모형별

    豫測力

    분석 표본의 구성이 대략적인 모집단 비율인 대표표본추출(비사기:사기

    =90:10)인 경우에 다양한 검증표본의 구성비에 따른 예측력의 변화를 정리한

    것은 아래 과 같다. 각 데이터마이닝으로 부터 도출된 지식의 실용적인

    측면에서 본다면 대표추출방법은 높은 예측력을 보여주기 때문에 중요한 의미가

    있다고 할 수 있다.

    그러나, 에서 보듯이 검증표본의 구성비가 분석표본의 구성비와 같은

    대표추출비율로 근접함에 따라 3가지 데이터마이닝 모델 모두 다 예측력이 상당

    히 증가하는 것을 알 수 있다. 즉, 검증표본의 구성비에 따라 예측력이 상당한

    분석표본이 90:10일 때 각 모형별 예측력

    Journal of Insurance Studies 2001.9 Vol.12 No.2 2001年 9月 第12卷 第2號 通卷 第33號 保險開發硏究

  • 데이터마이닝 기법의 성과평가 및 새로운 위험분류측정에 관한 실증적 연구

    - 149 -

    표준편차를 나타내고 있음을 볼 때, 실증적 분석과 결과 발표시 주의가 요망된다

    고 할 수 있다.

    특 히 50:50에 서 는 MDA>CART>NN의 순 서 로 90:10에 서 는

    NN>CART>MDA의 순서로 나타나 각 모델의 예측력순서가 검증표본의 구성비

    에 따라 달라지는 것을 알 수 있다. 일반적으로 분석표본의 구성비가 대표추출표

    본으로 근접함에 따라 검증표본의 구성비가 균형표본추출인 경우보다 대표추출

    표본인 경우의 예측력이 훨씬 우월한 것으로 나타나고 있다. 그러나, 이러한 단

    순 예측력 비교를 통한 분석은 사전확률을 고려한다면 우월하다고 결론을 내리

    기 힘들다. 왜냐하면 90:10 검증표본의 경우 굳이 데이터마이닝의 도움이 없더

    라도 최소한 90%의 예측력은 사전확률로 정의되어 최소한의 예측력으로 확보

    되어야 하기 때문이다. 또한 같은 90% 예측력이라고 하여도 사례가 희귀한 사

    기의 경우를 보다 정확하게 예측하는 것이 많은 사례인 비사기를 예측하는 것보

    다 어려운 만큼 이러한 특성을 고려한 다양한 측정치의 사용이 필요하다는 것을

    알 수 있다. 따라서 보다 객관적인 위험분류측정치에 관한 연구와 분석이 필요하

    다고 하겠다.

    5. 다양한 위험측정치에 따른 比較

    앞에서 언급한 바와 같이 분석표본의 구성비와 검증표본의 구성비에 따라 각

    모형별 예측력은 상당한 차이를 보이고 있는 것을 확인할 수 있었다. 그러나, 이

    러한 각 모형별 비교에 있어 예측력 중심의 해석은 중대한 오류를 범할 수 있어

    다양한 위험분류측정치 비교를 통한 분석이 요구된다고 하였다. 이에 본 장에서

    는 현재까지 많이 사용되어온 위험분류측정치를 비교하여 바람직한 위험분류측

    정치를 제안하고자 한다.

    가. 분석표본(비사기:사기=50:50)이며 검증표본(비사기:사기=50:50

    또는 90:10)인 경우

    아래 에서 보는 바와 같이 분석표본을 50:50으로 하였을 검증표본의 구

    Journal of Insurance Studies 2001.9 Vol.12 No.2 2001年 9月 第12卷 第2號 通卷 第33號 保險開發硏究

  • - 150 -

    保險開發硏究 第12卷 第2號

    성비가 증가하더라도 ROC를 포함한 각종 위험예측치는 큰 차이가 나고 있지

    않음을 볼 수 있다. 특히, 사기를 사기로 예측하고, 비사기를 비사기로 예측하는

    경우의 측정치인 Sensitivity와 Specificity는 어느 한 방향으로 기울지 않고 고

    르게 예측되고 있음을 볼 수 있다. 앞에서 지적한 바와 같이 균형표본추출의 경

    우는 검증표본의 구성비에 따라 예측력에는 큰 차이가 나지 않았으며, 다양한 위

    험측정치에 있어서도 큰 차이가 없는 것을 볼 수 있다. 그러나 Jain &

    Nug(1997)가 제시한 가중치를 부여한 효율적 측정치(Weighted Efficiency)의

    경우는 Sensitivity와 Specificity가 큰 차이가 없음에도 불구하고 검증표본의

    구성비에 따라 상당한 차이를 나타내고 있어 문제가 있음을 알 수 있다.

    나. 분석표본(비사기:사기=90:10)과 검증표본(비사기:사기=50:50 또

    는 90:10)인 경우

    앞에서 지적한 바와 같이 분석표본이 대표표본추출인 경우인 의 결과는

    전반적으로 예측력은 높은 것을 알 수 있으나, 사전확률을 고려한다면, 예측력

    비교를 통한 모형의 성과비교에는 한계가 있음을 지적하였다. 에서 보는

    바와 같이 새로운 대안으로 제시된 가중치를 부여한 효율적 측정치(Weighted

    Efficiency)의 값은 검증표본의 구성비에 따라 상당한 차이를 나타내고 있어, 가

    다양한 위험 측정치_분석표본(50:50)

    50:50

    0.65

    0.67

    0.64

    0.60

    0.70

    0.12

    0.651

    90:10

    0.61

    0.95

    0.16

    0.60

    0.70

    0.20

    0.649

    50:50

    0.67

    0.68

    0.67

    0.65

    0.70

    0.14

    0.675

    90:10

    0.70

    0.95

    0.21

    0.71

    0.70

    0.32

    0.702

    50:50

    0.63

    0.64

    0.63

    0.62

    0.65

    0.12

    0.635

    90:10

    0.63

    0.94

    0.16

    0.62

    0.65

    0.22

    0.637

    MDA CART NN

    Prediction Accuracy

    Positive Predictive Value

    Negative Predictive Value

    Sensitivity

    Specificity

    Weighted Efficiency

    ROC

    Journal of Insurance Studies 2001.9 Vol.12 No.2 2001年 9月 第12卷 第2號 通卷 第33號 保險開發硏究

  • 데이터마이닝 기법의 성과평가 및 새로운 위험분류측정에 관한 실증적 연구

    - 151 -

    중치를 부여한 효율적 측정치(Weighted Efficiency) 또한 사전확률을 고려하기

    에는 대표표본추출에서도 부족한 위험분류측정치라 할 수 있다. 또한 Jain &

    Nug(1997)는 벤처기업의 부실측정에 대한 데이터마이닝 모형의 성과를 비교

    한 결과 예측력향상을 위하여서도 균형표본추출의 유용성을 주장하였으나, 보험

    사기 데이터를 이용한 본 연구 결과의 가중치를 부여한 효율적 측정치

    (Weighted Effiency)는 이와는 반대의 결과인 대표표본추출이 균형표본추출보

    다 유용하다는 결론을 내리게 하고 있다. 도리어 ROC는 각 표본추출방법에 상

    관없이 일관되게 안정된 예측치를 보이고 있음을 알 수 있다.

    따라서 본 연구에서는 ROC가 사전확률을 고려한 방법을 사용하고 있고 표본의

    구성비 변화에 대하여서도 안정적인 수치를 보이고 있어 데이터마이닝 기법들의 성

    과측정에유용한위험분류측정치로서제시하고좀더체계적으로분석하고자한다.

    6. 새로운 위험분류측정치(ROC)

    가. 분석표본의 구성비에 따른 각 모형별 예측력과 ROC비교

    앞장의 실증분석을 통하여 기존 위험예측치의 문제점과 새로이 제안된 측정치

    다양한 위험 측정치_분석표본(90:50)

    50:50

    0.70

    0.65

    0.79

    0.86

    0.54

    0.26

    0.698

    90:10

    0.82

    0.94

    0.29

    0.85

    0.54

    0.53

    0.695

    50:50

    0.66

    0.61

    0.81

    0.90

    0.41

    0.27

    0.659

    90:10

    0.85

    0.93

    0.32

    0.90

    0.41

    0.63

    0.658

    50:50

    0.62

    0.57

    1.00

    1.00

    0.24

    0.31

    0.619

    90:10

    0.92

    0.92

    0.83

    0.99

    0.24

    0.82

    0.615

    MDA CART NN

    Prediction Accuracy

    Positive Predictive Value

    Negative Predictive Value

    Sensitivity

    Specificity

    Weighted Efficiency

    ROC

    Journal of Insurance Studies 2001.9 Vol.12 No.2 2001年 9月 第12卷 第2號 通卷 第33號 保險開發硏究

  • - 152 -

    保險開發硏究 第12卷 第2號

    의 문제점을 살펴보았고, 각 모형의 성과를 측정하기 위해 새로운 위험분류측정

    치인 ROC를 제안하였다. 아래의 에서 보는 바와 같이 균형표본

    추출의 경우 전통적 예측력(Prediction Accuracy)과 ROC의 값은 각 데이터마

    이닝 기법별로 거의 차이가 없는 것을 볼 수 있다.

    분석표본이 균형표본추출인 경우의 전통적예측력과 ROC비교: CART경우

    분석표본이 균형표본추출인 경우의 전통적예측력과 ROC비교: MDA경우

    Journal of Insurance Studies 2001.9 Vol.12 No.2 2001年 9月 第12卷 第2號 通卷 第33號 保險開發硏究

  • 데이터마이닝 기법의 성과평가 및 새로운 위험분류측정에 관한 실증적 연구

    - 153 -

    그러나 아래 에서 보는 바와 같이 분석표본의 구성비가 대표표

    본추출로 구성될 경우, 기존 전통적 위험예측치는 검증표본이 대표표본추출로 진행

    됨에 따라 많은 편차를 보이고 있으나, ROC는 이러한 잘못된 예측력의 결과를 충분

    히 측정하고 고려하여 안정된 예측치를 보이고 있음을 알 수 있다. 따라서 ROC를

    통한위험분류측정치의결과는안정성을가지는신뢰성있는측정치라할수있다.

    분석표본이 균형표본추출인 경우의 전통적예측력과 ROC비교: NN경우

    분석표본이 대표표본추출인 경우의 전통적예측력과 ROC비교: MDA경우

    Journal of Insurance Studies 2001.9 Vol.12 No.2 2001年 9月 第12卷 第2號 通卷 第33號 保險開發硏究

  • - 154 -

    保險開發硏究 第12卷 第2號

    나. 분석표본의 構成比에 따른 模型別 검증표본의 豫測力과 ROC 종합

    분석표본의 구성비에 따른 검증표본의 예측력을 ROC와 비교 종합하여 보면 <

    그림 14, 15, 16>과 같다. 보는 바와 같이 분석표본의 구성비에 따라 각 모형별

    예측력은 상당한 표준편차를 기록하고 있는 반면에 ROC는 매우 안정적인 면을

    분석표본이 대표표본추출인 경우의 전통적예측력과 ROC비교: CART경우

    분석표본이 대표표본추출인 경우의 전통적예측력과 ROC비교: NN경우

    Journal of Insurance Studies 2001.9 Vol.12 No.2 2001年 9月 第12卷 第2號 通卷 第33號 保險開發硏究

  • 데이터마이닝 기법의 성과평가 및 새로운 위험분류측정에 관한 실증적 연구

    - 155 -

    보여주고 있다. 부연하면, 표본구성비에 ROC측정치는 거의 영향을 받지 않는

    다는 것을 볼 수 있으며, 이는 표본구성비에 상관없이 각 모형별 위험분류측정치

    의 비교에 유용한 측정치라 할 수 있다.

    분석표본의 구성비에 따른 검증표본의 전통적예측력과 ROC:MDA

    Journal of Insurance Studies 2001.9 Vol.12 No.2 2001年 9月 第12卷 第2號 通卷 第33號 保險開發硏究

  • - 156 -

    保險開發硏究 第12卷 第2號

    분석표본의 구성비에 따른 검증표본의 전통적예측력과 ROC:CART

    Journal of Insurance Studies 2001.9 Vol.12 No.2 2001年 9月 第12卷 第2號 通卷 第33號 保險開發硏究

  • 데이터마이닝 기법의 성과평가 및 새로운 위험분류측정에 관한 실증적 연구

    - 157 -

    분석표본의 구성비에 대한 모형별 예측력과 ROC를 비교, 종합한 것은 다음<

    그림 17, 18>과 같다. 보는 바와 같이 균형표본추출의 경우 전통적예측력과

    ROC는 큰 차이가 없는 것을 볼 수 있으며, 특히 기존 측정치에서는 표본구성비

    분석표본의 구성비에 따른 검증표본의 전통적예측력과 ROC:NN

    Journal of Insurance Studies 2001.9 Vol.12 No.2 2001年 9月 第12卷 第2號 通卷 第33號 保險開發硏究

  • - 158 -

    保險開發硏究 第12卷 第2號

    별로 편차가 심하여 각 모형의 성과비교가 어려운 대표표본추출의 경우에 ROC

    는 각 모형별 성과 측정, 비교에 사용될 유용한 위험분류측정치라 할 수 있다.

    따라서 연구결과를 제출할 경우 다양한 표본구성비로 사용하여 작위적인 해석을

    방지할 수 있는 대안으로 기존의 전통적 위험측정치이외에 ROC를 반드시 같이

    명기하도록 함으로써 보다 객관화된 연구결과를 보장받을 수 있다고 하겠다.

    분석표본이 50:50일 때 각 모형별 검증표본의 예측력과 ROC

    Journal of Insurance Studies 2001.9 Vol.12 No.2 2001年 9月 第12卷 第2號 通卷 第33號 保險開發硏究

  • 데이터마이닝 기법의 성과평가 및 새로운 위험분류측정에 관한 실증적 연구

    - 159 -

    IV. 結論 및 향후 硏究方向

    본 연구는 데이터마이닝으로 부터 개발된 각 모형들의 예측력을 객관적으로

    비교하고 검증할 수 있는 표본설계기준과 새로운 측정치를 제공하고자 하는 목

    분석표본이 90:10일 때 각 모형별 검증표본의 예측력과 ROC

    Journal of Insurance Studies 2001.9 Vol.12 No.2 2001年 9月 第12卷 第2號 通卷 第33號 保險開發硏究

  • - 160 -

    保險開發硏究 第12卷 第2號

    적을 갖고 있다. 따라서 본 연구에서는 전통적인 위험측정치에 대한 대안으로 자

    연과학 연구영역에서 위험분류측정치로 많이 사용되지만 사회과학 연구분야에

    서는 비교적 생소한 ROC(Receive Operating Curve)의 사용을 제안하고, 다

    양한 표본 설계하에서 ROC의 예측력을 전통적인 예측치들과 실증적으로 비

    교∙분석하여 ROC의 사용에 대한 타당성을 검증하고자 하였다. 특히 추출된

    표본을 무작위로 분류할 때 발생할 수 있는 표본추출오차의 문제점과 표본의 구

    성비에 따른 예측력의 차이를 지적하고 실증적으로 검증함으로써, 기존 데이터

    마이닝 기법의 성과비교에 대한 연구보고에서 발생할 수 있는 오류를 미연에 방

    지하고, 데이터마이닝 연구의 객관적인 표본설계기준을 제시함으로써 학문의 질

    적 향상에 기여하고자 하는데 그 주목적을 두었다.

    이러한 연구 목적하에 국내 보험사의 자동차 보험사기의 경우를 대상으로 실

    증분석 한 결과는 다음과 같다. 첫째, 분석표본과 검증표본의 구성비에 따라 각

    데이터마이닝 기법의 성과가 다소의 차이가 나타났다. 즉 분석표본의 비사기:사

    기의 비율이 50:50이고 검증표본의 비사기:사기의 비율이 50:50 또는 90:10

    인 경우의 각 모형별 평균예측력은 약 65%정도로 나타났으나, 분석표본이

    90:10이고 검증표본의 비사기:사기의 비율이 50:50인 경우는 65%, 90:10일

    경우는 각 모형별 평균예측력이 85%인 것으로 나타났다는 점이다. 이러한 결과

    는 데이터마이닝의 결과 분석에서 연구자의 실험설계에 따라 성과비교는 상당한

    차이를 보일 수 밖에 없다는 점을 암시하고 있다. 따라서 기존의 데이터마이닝과

    관련한 연구에 있어서 다양한 표본설계에 의한 자료를 제시하지 않은 연구 결과

    는 한 번쯤 제고해 볼 필요성이 있다고 할 수 있다.

    이와 더불어 균형표본추출(Balanced Sampling)의 경우 보다 대표표본추출

    (Representative Sampling)의 경우가 더 높은 구성비에 따른 편차를 보이고

    있는데, 안정성이라는 측면에서는 균형표본추출이 검증표본의 구성비에 영향을

    적게 받는 것으로 나타났으며, 예측력이라는 측면에서는 대표표본추출이 보다

    높은 예측력을 보였다. 이러한 결과는 데이터마이닝 기법들의 성과 비교에 있어

    종속변수를 무엇으로 정하느냐 따라 데이터마이닝 기법의 결과가 달라진다고 볼

    수 있으며 따라서 성과비교에 있어서 종속변수에 대한 정확한 정의와 함께 데이

    Journal of Insurance Studies 2001.9 Vol.12 No.2 2001年 9月 第12卷 第2號 通卷 第33號 保險開發硏究

  • 데이터마이닝 기법의 성과평가 및 새로운 위험분류측정에 관한 실증적 연구

    - 161 -

    터마이닝 기법에 관한 연구가 진행되어야 할 필요성이 있다고 할 수 있다.

    둘째, 다양한 표본구성에 따른 데이터마이닝 기법들의 성과를 측정하는데 있

    어서는 새로운 측정치가 필요함을 알 수 있었으며, 전통적인 위험분류측정치의

    대안으로 ROC가 유용함을 알 수 있었다. Jain & Nug(1997)은 인공신경망과

    로짓 분석을 이용한 위험분류 비교에 있어 분석표본의 균형표본추출과 검증표본

    의 대표표본추출이 가장 우수한 결과를 보인다고 주장하고, 가중치를 부여한 효

    율적 측정치(Weighted Efficiency)를 전통적인 위험분류측정치의 대안으로 제

    시하였다. 그러나, 본 연구의 결과 가중치를 부여한 효율적 측정치(Weighted

    Efficiency)를 기준으로 한 표본구성에 따르면, Jain & Nug(1997)의 결과와

    는 상반되는, 분석표본과 검증표본 모두가 대표표본추출인 경우에 가장 우수한

    결과를 보여주고 있다. 이러한 결과는 위험분류측정치에 대해 고려할 필요성이

    있다고 할 수 있는데, 가중치를 부여한 효율적 측정치(Weighted Efficiency)는

    사기를 비사기로 판별하는 2종 오류(Type2 error)를 고려하고 있지 못하다고

    할 수 있기 때문이다. 즉, 전통적 예측력과 가중치를 부여한 효율적 측정치

    (Weighted Efficiency) 경우는 NN>CART>MDA의 순서로 예측력의 우수성을

    보여주고 있는데 반해서 63개의 사기 중 사기로 정확히 예측한 경우에 있어서는

    NN(15개)

  • - 162 -

    保險開發硏究 第12卷 第2號

    이 이루어진다면 그 경제적 여파는 엄청난 파장을 가져올 것이다. 특히 근래에

    데이터에 근거한 정확한 계량적 모델의 사용이 보편화되고 있는 시점이라 본 연

    구결과는 이러한 계량적 모델의 개발 시 주의하여야 할 점을 국내 최초로 밝혀주

    었다는 점에서 시사하는 바가 매우 크다고 하겠다.

    이상과 같은 본 연구의 결과를 통해 데이터마이닝의 성과측정을 위해서는 다

    양한 표본구성을 통한 성과의 비교분석이 이루어져야 할 것이며, ROC가 위험

    분류측정치로 유용하다는 것을 알 수 있었다. 그러나, 본 연구에서는 분석표본과

    검증표본의 최적 구성비에 대한 제시를 하지 못하고 있어 향후 최적 표본구성비

    에 관한 연구가 필요하다고 할 수 있다.

    Journal of Insurance Studies 2001.9 Vol.12 No.2 2001年 9月 第12卷 第2號 通卷 第33號 保險開發硏究

  • 데이터마이닝 기법의 성과평가 및 새로운 위험분류측정에 관한 실증적 연구

    - 163 -

    참 고 문 헌

    김헌수, 「보상전문가의 지식을 이용한 보험사기의 조기경보모형의 개발에 관한 연구」,

    『리스크관리연구』, 2000, pp 59-97.

    노시천, 「우리 나라 중소기업의 부실화원인 및 그 예방대책에 관한 실증연구」, 성균관

    대학교 박사논문, 1996.

    이건창∙김명종∙김혁, 「기업도산 예측을 위한 귀납적 학습지원 인공신경망 접근방

    법: MDA, 귀납적학습방법, 인공신경망, 모형과의 성과비교」,『한국경영학회

    지』, 제23권, 제3호, 1994, pp109-143.

    이건창∙한인구∙김명종, 「통계적모형과 인공지능모형을 결합한 기업신용평가 모형

    에 관한 연구」,『한국경영과학회지』, 제21권, 제1호, 1996, pp.81-101.

    이재식∙한재홍, 「사례기반추론을 이용한 중소기업 도산 예측에 있어서의 비재무정보

    의 활용」,『한국전문가시스템학회』, 1996, pp 243-252.

    우춘식∙김광용∙강성범, 「LOGIT 분석과 AHP 분석을 이용한 부도예측모형의 비교

    연구」,『재무관리연구』, 제14권, 제2호, 1997, pp.229-252.

    장정곤, 「중소기업 부실예측을 위한 통계적 접근과 신경망 접근에 관한 비교 연구」,성

    균관대학교 박사논문, 1995.

    정기웅∙홍관수,「신경망기법을 이용한 기업부실예측에 관한 연구」,『재무관리연구』,

    제12권, 1995, pp.1-23.

    피종허,「한정된 데이터 하에서 인공신경망을 이용한 기업도산예측 - 섬유 및 의류 산

    업을 중심으로」, 고려대학교 석사논문, 1995.

    Altman, E. I., “Financial Ratios, discriminant analysis, and prediction of

    corporate bankruptcy,”The Journal of Finance, Vol.23, 1968,

    pp.589-609.

    Arizne, B., & Narasimha, P. N, “An experimental investigation of predictive

    accuracy of induction and regression”, Expert Systems with

    Applications, Vol.7, 1994, pp.535-544.

    Chandler, J. S., Liang, T., & Han, I., “An empirical investigation of some

    date effects on the classification accuracy of Probit and ID3,”Journal

    of Contemporary Accounting, Vol.9, 1992, pp.306-328.

    Journal of Insurance Studies 2001.9 Vol.12 No.2 2001年 9月 第12卷 第2號 通卷 第33號 保險開發硏究

  • - 164 -

    保險開發硏究 第12卷 第2號

    Gim, G. & Whalen, T., “Second Order Logical System for Risk Classification

    in a Newly Developed Country,”International Journal of

    Uncertainty, Fuzziness, and Knowledge Based System, Vol,4 No.5,

    1996, pp.421-430

    Gim, G., & Whalen, T., “Dimensions of knowledge: Facts or skills, words or

    numbers,”The Proceedings of North American Fuzzy Information

    Proceeding Society. 1994, pp.447-448.

    Gim, G., Whalen, T, & Schott, B. “Control of Error in Fuzzy Logic

    Modeling,”International Journal of Fuzzy Sets and System, Vol.80,

    .No.1, 1996, pp.23-35

    Hanley, J., & McNeil, B., “The meaning and use of the area under a

    receiver operating characteristic (ROC) curve,”Radiology, Vol.143,

    1982, pp.29-36.

    Jacobstein, N., & Kitzmiller, C. T., “Integrating symbolic and numeric

    methods in knowledge-based systems. In L. S. Kowalik & C. T.

    Kitzmiller (Eds.),”Coupling symbolic and numerical computing in

    expert systems, 1988, pp.3-14 New York: Elsevier Science.

    Jain B.A. and Nag B.N., “Performance Evaluation of Neural Network

    Decision Models,”Journal of Management Information Systems,

    Vol.14, No.2, 1997, pp.201-216

    Kattan, M. W., Adams, D. A., & Parks, M. S., “A comparison of machine

    learning with human judgment,”Journal of management Information

    Systems, Vol.9, No.4, 1993, pp.37-57.

    Kononenko, I., & Bratko, I., “Information-based evaluation criterion for

    classifier's performance,”Machine Learning, Vol.6, 1991, pp.67-80.

    Liang, T. P., Chandler, J. H., Han, I., & Roan, J., “An empirical

    investigation of some data effects on the classification accuracy of

    Probit, ID3, and neural networks,”Contempory Accounting Research,

    Vol.9, 1992, pp.306-328.

    Quinlan, J.R “Discovering rules by induction from large collection of

    examples,”In D. Michie (Eds.), Expert systems in the micro

    Journal of Insurance Studies 2001.9 Vol.12 No.2 2001年 9月 第12卷 第2號 通卷 第33號 保險開發硏究

  • 데이터마이닝 기법의 성과평가 및 새로운 위험분류측정에 관한 실증적 연구

    - 165 -

    electronic age. 1979. Edinburgh, Scotland: Edinburgh University

    Press.

    Rumelhart, D. E., Hinton,G., & Williams, R., “Learning internal

    representation by error propagation,”In D. Rumelhart and J.

    McClelland ( Eds. ), Parallel distributed processing: Explorations in

    the microstructure of cognition, 1986, pp.318-362. Cambridge: MIT

    Press.

    Spiegehalter, D. J., “A statistical view of uncertainty in expert systems,”In

    W. J. Gale (Eds.), Artificial intelligence & statistics , 1986, pp.17-

    56. Princeton: AT & T Bell laboratories.

    Trippi, R. R., & Turban, E., “Neural networks in finance and investing:

    Using artificial intelligence to improve real-world performance,”1993,

    Chicago: Probus.

    Weiss, S. M. & Kulikowski, C. A, “Computer systems that learn

    classification and prediction methods from statistics, neural nets,

    machine learning, and expert systems,”1991, San Francisco: Morgan

    Kaufmann.

    Whalen, T., & Gim, G. “Hybrid neural-statistical classification system for

    potential medical malpractice claims,”Proceedings of the Second

    International Decision Science Institute Conference, 1993 , pp.216-

    219.

    Wong B.K., Bodnovich T.A., & Selvi Y., “Neural Network Applications in

    Business: A review and Analysis of the literature(1988-1995),”

    Decision Support System, Vol.19, No.4, 1997, pp.301-320

    Zopounidis C., Doumpos M., & Matsatsinis N.F., “On the Use of Knowledge

    Based DSS in Financial Management: A Survey,”Decision Support

    Systems, Vol.20, No.2, 1997, pp.259-277

    Journal of Insurance Studies 2001.9 Vol.12 No.2 2001年 9月 第12卷 第2號 通卷 第33號 保險開發硏究

  • - 166 -

    保險開發硏究 第12卷 第2號

    Abstract

    The purpose of this empirical research is to find the effects of sampling

    method and the rate of binary data in using the several data mining

    techniques including statistical method. This research also suggests new

    classifier, ROC(Receiver Operating Curve), after finding the problems of

    traditional classifier. The result of research using automobile insurance

    fraud data shows that the accuracy of data mining using traditional

    classifier is affected by sampling methods but ROC is very stable for

    sampling method.

    Journal of Insurance Studies 2001.9 Vol.12 No.2 2001年 9月 第12卷 第2號 通卷 第33號 保險開發硏究

    Ⅰ.序論II.硏究背景1.여러 가지 위험분류측정치2.데이터마이닝의 硏究設計方法들

    III.硏究方法1.保險詐欺2.資料收集3.標本設計4.표본의 추출 및 구성비의 변화에 따른 위험 예측력의 影響5.다양한 위험측정치에 따른 比較6.새로운 위험분류측정치(ROC)

    IV.結論및 향후 硏究方向영문요약