- data mining techniques

- Data Mining Techniques

Site ResearchSite Research

Ⅰ. 데이터마이닝

3

1. 데이터마이닝이란 ?

Data mining is the exploration and analysis, by automatic or semiautomatic means,

of large quantities of data in order to discover meaningful patterns and rules.

대용량의 데이터로부터 이들 데이터 내에 존재하는 관계 , 패턴 , 규칙 등을 탐색하고

찾아내어 모형화 함으로써 유용한 지식을 추출하는 일련의 과정들 .

Data mining is the exploration and analysis, by automatic or semiautomatic means,

of large quantities of data in order to discover meaningful patterns and rules.

대용량의 데이터로부터 이들 데이터 내에 존재하는 관계 , 패턴 , 규칙 등을 탐색하고

찾아내어 모형화 함으로써 유용한 지식을 추출하는 일련의 과정들 .

4

데이터 획득

DW

데이터 정제 및 변환

Screen

데이터 분석

모형구축 및 평가일반화지식 발견

2. 데이터마이닝 과정

5

판 별 (Classification) 판 별 (Classification)

3. 데이터 마이닝의 유용성

기 술 (Description) 기 술 (Description)

군 집 (Clustering) 군 집 (Clustering)

유사그룹 (Affinity Group) 유사그룹 (Affinity Group)

예 측 (Prediction) 예 측 (Prediction)

추 정 (Estimation) 추 정 (Estimation)

Decision Tree, Memory-based reasoning, Link analysis

Market basket analysis

Cluster analysis

Association rules

Decision Tree, Memory-based reasoning,

Link analysis, Neural network

Neural Network

Task Technique

6

Bottom-up approach

-The data suggests new hypotheses to test

Bottom-up approach

-The data suggests new hypotheses to testTop-down approach

- Hypotheses dictate the data

to be analyzed

1. Generate good ideas

2. Determine what data would

allow these hypotheses to be

tested

3. Locate the data

4. Prepare the data for analysis

5. Build computer models based

on the data

6. Evaluate computer models to

confirm or reject hypotheses

Top-down approach

- Hypotheses dictate the data

to be analyzed

1. Generate good ideas

2. Determine what data would

allow these hypotheses to be

tested

3. Locate the data

4. Prepare the data for analysis

5. Build computer models based

on the data

6. Evaluate computer models to

confirm or reject hypotheses

지식 발견(Knowledge discovery)

지식 발견(Knowledge discovery)

가설 검정(Hypothesis testing)

가설 검정(Hypothesis testing)

4. 데이터 마이닝 방법론

Directed method

- to explain relationships

1. Identify sources of

reclassified data

2. Prepare data for analysis

3. Build and train a computer

model

4. Evaluate the computer

model

Directed method

- to explain relationships

1. Identify sources of

reclassified data



model

4. Evaluate the computer

model

Undirected method

-to recognize relationships

1. Identify sources of data



model

5. Evaluate the computer model

6. Apply the computer model to

new data

7. Identify potential targets for

directed knowledge discovery

8. Generate new hypotheses to

test

Undirected method

-to recognize relationships

1. Identify sources of data



model

5. Evaluate the computer model

6. Apply the computer model to

new data

7. Identify potential targets for

directed knowledge discovery

8. Generate new hypotheses to

test

7

5. 데이터 마이닝 효과측정

기술모델 측정

(Measuring descriptive model)

기술모델 측정

(Measuring descriptive model)MDL(Minimum Description Length)MDL(Minimum Description Length)

예측모델 측정

(Measuring predictive model)

예측모델 측정

(Measuring predictive model)

판별 , 예측 : 오분류율 (Error rate)

추정 : 표준편차 (Standard deviation)

연관성 : 신뢰도 (Confidence), 향상도 (Support)

군집 : 거리 (Distance)

판별 , 예측 : 오분류율 (Error rate)

추정 : 표준편차 (Standard deviation)

연관성 : 신뢰도 (Confidence), 향상도 (Support)

군집 : 거리 (Distance)

결과 측정 (Measuring model)결과 측정 (Measuring model)

Lift

ROC 도표

Response threshold

Lift

ROC 도표

Response threshold

효과측정 (Measuring impact)효과측정 (Measuring impact) LTV(Lifetime Value)LTV(Lifetime Value)

8

6. 데이터 마이닝 기법

시장 바구니 분석(Market basket analysis)

시장 바구니 분석(Market basket analysis)

동시에 발생한 사건들 (transaction) 중에 항목들의 군집화(clustering of items) 를 위한 분석방법 (Association rules)

동시에 발생한 사건들 (transaction) 중에 항목들의 군집화(clustering of items) 를 위한 분석방법 (Association rules)

기계적 군집 발견(Automatic cluster detection)

기계적 군집 발견(Automatic cluster detection)

데이터 내에서 사전에 알려지지 않은 유사성 (similarity) 을찾는데 사용되는 방법데이터 내에서 사전에 알려지지 않은 유사성 (similarity) 을찾는데 사용되는 방법

신경망 분석(Artificial neural network)

신경망 분석(Artificial neural network)

데이터 내에서 반복적인 학습과정을 통해 내제되어 있는 패턴을찾아내는 분석방법데이터 내에서 반복적인 학습과정을 통해 내제되어 있는 패턴을찾아내는 분석방법

의사결정나무(Decision tree)

의사결정나무(Decision tree)

의사결정규칙을 나무구조로 표현하여 분류 (classification) 와 예측 (prediction) 을 수행하는 분석방법의사결정규칙을 나무구조로 표현하여 분류 (classification) 와 예측 (prediction) 을 수행하는 분석방법

G.A.

(Genetic algorithm)

G.A.

(Genetic algorithm)

연결고리 분석

(Link analsys)

연결고리 분석

(Link analsys)

Ⅱ. 시장바구니분석

10

1. 시장 바구니 분석 - 연관성 규칙

시장 바구니 분석은 연관성 규칙을 통해서 하나의 거래나 사건에 포함되어 있는 둘 이상의 품목들의 상호관련성을

발견하는 것

연관성 규칙의 일반적인 형태 : 조건과 반응 (if-then)

의미 있는 연관성 규칙 발견을 위한 평가도구 : 지지도 (support), 신뢰도 (confidence), 향상도 (lift)

시장 바구니 분석은 연관성 규칙을 통해서 하나의 거래나 사건에 포함되어 있는 둘 이상의 품목들의 상호관련성을

발견하는 것

연관성 규칙의 일반적인 형태 : 조건과 반응 (if-then)

의미 있는 연관성 규칙 발견을 위한 평가도구 : 지지도 (support), 신뢰도 (confidence), 향상도 (lift)

규칙 ‘ If A then B’ 의 지지도 (support)

= P(A and B) / N = (A 와 B 를 동시에 포함하는 거래의 수 ) / 전체 거래수

지지도는 두개의 항목이 동시에 일어날 확률을 나타낸다 .

‘If A then B’ 의 규칙의 지지도 = ‘If B then A’ 의 규칙의 지지도

규칙 ‘ If A then B’ 의 지지도 (support)

= P(A and B) / N = (A 와 B 를 동시에 포함하는 거래의 수 ) / 전체 거래수

지지도는 두개의 항목이 동시에 일어날 확률을 나타낸다 .

‘If A then B’ 의 규칙의 지지도 = ‘If B then A’ 의 규칙의 지지도

규칙 ‘ If A then B’ 의 신뢰도 (confidence)

= P(B|A) = (A 와 B 를 동시에 포함하는 거래의 수 ) / 품목 A 를 포함하는 거래수

규칙 ‘ If A then B’ 의 신뢰도 규칙 ‘ If B then A’ 의 신뢰도

규칙 ‘ If A then B’ 의 신뢰도 (confidence)

= P(B|A) = (A 와 B 를 동시에 포함하는 거래의 수 ) / 품목 A 를 포함하는 거래수

규칙 ‘ If A then B’ 의 신뢰도 규칙 ‘ If B then A’ 의 신뢰도

규칙 ‘ If A then B’ 의 향상도 (lift)

= P(B|A)/P(B) = (A 와 B 를 동시에 포함하는 거래 수 )/(A 를 포함하는 거래수 *B 를 포함하는 거래수 )

이는 실제의 신뢰도를 독립성 가정하에서 나눈 값이며 이는 또한 실제의 지지도를 독립가정하에서의 지지도로

나눈 값과 동일하며 , 의미 있는 연관성 규칙이 되려면 리프트값이 1 이상이어야 한다 .

규칙 ‘ If A then B’ 의 향상도 (lift)

= P(B|A)/P(B) = (A 와 B 를 동시에 포함하는 거래 수 )/(A 를 포함하는 거래수 *B 를 포함하는 거래수 )

이는 실제의 신뢰도를 독립성 가정하에서 나눈 값이며 이는 또한 실제의 지지도를 독립가정하에서의 지지도로

나눈 값과 동일하며 , 의미 있는 연관성 규칙이 되려면 리프트값이 1 이상이어야 한다 .

11

고객의 토핑 추가 LIST

2. 시장 바구니 분석 - 연관성 예제 1

거 래 수 항목이 포함된 거래 수 토핑 추가 확률

버섯 100 100+400+300+100=900 0.45

페페로니 150 150+400+200+100=850 0.425

치즈 200 200+300+200+100=800 0.40

버섯 + 페페로니 400 400+100=500 0.25

버섯 + 치즈 300 300+100=400 0.20

페페로니 + 치즈 200 200+100=300 0.15

버섯 + 페페로니 + 치즈 100 100 0.05

토핑 안함 550

합 계 2,000 전체거래건수 : 2,000

규칙 지지도 (support) 신뢰도 (confidence) 향상도 (lift)

( 버섯 + 페페로니 ) 치즈 100/2,000=0.05 0.05 / 0.25 = 0.20 0.05 / (0.25*0.40) = 0.5

( 버섯 + 치즈 ) 페페로니 100/2,000=0.05 0.05 / 0.20 = 0.25 0.05 / (0.20*0.425) = 0.59

( 페페로니 + 치즈 ) 버섯 100/2,000=0.05 0.05 / 0.15 = 0.33 0.05 / (0.15*0.45) = 0.74

버섯 페페로니 400/2,000=0.20 0.25 / 0.45 = 0.56 0.25 / (0.45*0.425) = 1.31

12

3. 시장 바구니 분석 – 연관성 예제 2

연관성 분석 모드 : By context | 연관성분석에 사용된 항목들의 최대 항목의 수 : 2 | 최저 신뢰도 : 30%

[ 제품구입 결과에 대한 연관성 분석 결과 ]

향상도 (lift) 지지도 (support) 신뢰도 (confidence)

Software Hardware 1.78 12.77 47.55(=>) , 47.93(<=)

생활용품 가전제품 1.69 11.60 43.67(=>) , 45.00(<=)

CD/ 비디오 Software 1.33 12.24 35.62(=>) , 45.57(<=)

CD/ 비디오 Hardware 1.18 10.81 31.47(=>) , 40.58(<=)

CD/ 비디오 책 1.18 21.25 61.87(=>) , 40.48(<=)

공연티켓 책 1.17 12.85 61.18

가전제품 CD/ 비디오 1.15 10.17 39.44

생활용품 CD/ 비디오 1.13 10.29 38.76

생활용품 책 1.12 15.63 58.85

의류제품 책 1.12 10.86 58.67

13

연관성 분석 모드 : By context | 연관성분석에 사용된 항목들의 최대 항목의 수 : 2 | 최저 신뢰도 : 30%

[ 제품구입 결과에 대한 연관성 분석 결과 - 남자 ]향상도 (lift) 지지도 (support) 신뢰도 (confidence)

Software Hardware 1.48 17.18 51.85(=>) , 49.19(<=)

CD/ 비디오 책 1.18 21.50 61.86(=>) , 40.90(<=)

가전제품 책 1.09 16.08 57.21(=>) , 30.59(<=)

책 Hardware 1.08 19.91 37.86(=>) , 57.01(<=)

Software 책 1.08 18.87 56.95(=>) , 35.89(<=)

[ 제품구입 결과에 대한 연관성 분석 결과 - 여자 ]향상도 (lift) 지지도 (support) 신뢰도 (confidence)

책 CD/ 비디오 1.17 20.10 37.88(=>) , 61.86(<=)

책 생활용품 1.09 17.71 33.37(=>) , 57.82(<=)

책 미용 / 화장 1.01 16.42 30.95(=>) , 53.53(<=)


14

연관성 분석 모드 : By context | 연관성분석에 사용된 항목들의 최대 항목의 수 : 2 | 최저 신뢰도 : 50% | 향상도 >1.11

[ 인터넷의 평소 사용용도에 대한 대한 연관성 분석 결과 ]


유료영화 유료정보 2.47 8.51 52.77

사이버증권 인터넷뱅킹 1.56 13.62 60.25

유료영화 성인사이트 1.42 11.54 71.57

유료영화 인터넷뱅킹 1.41 8.83 54.77

유료정보 인터넷뱅킹 1.37 11.35 53.23

유료정보 성인사이트 1.33 14.29 67.05

유료영화 전화 1.33 10.72 66.48

사이버증권 성인사이트 1.32 14.98 66.24

유료정보 전화 1.23 13.10 61.44

인터넷뱅킹 성인사이트 1.22 23.65 61.07

성인사이트 전화 1.20 30.34 60.37(=>) , 60.50(<=)

사이버증권 전화 1.20 13.60 60.14

인터넷뱅킹 전화 1.18 22.97 59.30

게임 채팅 1.18 34.65 52.01(=>) , 78.31(<=)

유료영화 방송청취 1.17 14.00 86.84

채팅 동호회 1.16 36.40 82.26(=>) , 51.13(<=)

방송청취 전화 1.15 42.98 57.91(=>) , 85.69(<=)

유료영화 게임 1.12 12.06 74.83

유료정보 방송청취 1.12 17.76 83.30


15


[ 인터넷의 평소 사용용도에 대한 대한 연관성 분석 결과 - 남자 ]


유료영화 유료정보 2.32 10.23 54.84

사이버증권 인터넷뱅킹 1.48 17.21 61.5

유료정보 인터넷뱅킹 1.36 13.37 56.57

유료영화 인터넷뱅킹 1.36 10.52 56.40

유료영화 전화 1.27 13.04 69.88

유료영화 성인사이트 1.23 15.01 80.45

유료정보 성인사이트 1.22 18.85 79.73

유료정보 전화 1.21 15.66 66.26

동호회 채팅 1.17 36.16 52.42(=>) , 80.94(<=)

게임 채팅 1.17 36.40 52.36(=>) , 81.48(<=)

유료영화 방송청취 1.17 16.29 87.32

전화 방송청취 1.15 47.50 86.40(=>) , 63.39(<=)

인터넷뱅킹 전화 1.15 26.23 63.16

사이버증권 성인사이트 1.15 20.93 74.80

인터넷뱅킹 성인사이트 1.14 31.01 74.68

유료정보 방송청취 1.13 20.04 84.78

전화 채팅 1.13 27.64 50.27(=>) , 61.86(<=)

유료정보 채팅 1.12 11.88 50.24


16


[ 인터넷의 평소 사용용도에 대한 대한 연관성 분석 결과 - 여자 ]향상도 (lift) 지지도 (support) 신뢰도 (confidence)

사이버증권 인터넷뱅킹 1.63 8.00 54.88

성인사이트 젼화 1.39 11.43 57.42

유료영화 전화 1.37 6.39 56.35

사이버증권 전화 1.35 8.11 55.66

성인사이트 게임 1.22 14.45 72.56

게임 채팅 1.19 29.84 50.12(=>) , 71.13(<=)

유료영화 방송청취 1.17 9.63 85.01

유료영화 게임 1.17 7.91 69.79

성인사이트 소프트웨어다운 1.16 16.32 81.98

성인사이트 방송청취 1.16 16.72 83.98

전화 방송청취 1.15 34.46 83.65

채팅 동호회 1.15 35.23 83.98

전화 소프트웨어다운 1.13 33.08 80.31

유료정보 소프트웨어다운 1.12 13.08 79.28

사이버증권 소프트웨어다운 1.11 11.48 78.76


17


[ 보유하고 있는 제품 또는 서비스에 대한 연관성 분석 결과 ]


캐비넷형 냉장고 프로젝션 TV 2.58 5.81 31.40(=>) , 47.79(<=)

프로젝션 TV 드럼 세탁기 1.94 6.75 55.48

콘도 회원권 무비카메라 1.92 3.08 50.52

드럼세탁기 캐비넷형 냉장고 1.86 9.85 34.35

콘도회원권 김치냉장고 1.77 2.68 43.99

디지털카메라 스캐너 1.75 5.65 35.49

콘도회원권 가스오븐렌지 1.73 3.83 62.72

디지털카메라 무비카메라 1.67 6.98 43.86

콘도회원권 에어컨 1.61 4.70 77.11

식기세척기 김치냉장고 1.59 5.99 39.41

콘도회원권 CATV 1.58 3.14 51.47

식기세척기 가스오븐렌지 1.53 8.44 55.55

MP3 Player 스케너 1.51 5.72 30.59

스캐너 무비카메라 1.44 7.66 37.83

캐비넷형 냉장고 가스오븐렌지 1.44 9.62 51.96

가스오븐렌지 김치냉장고 1.36 12.21 33.73(=>) , 49.24(<=)

식기세척기 무비카메라 1.35 5.40 35.58

무비카메라 가스오븐렌지 1.32 12.61 47.87(=>) , 34.81(<=)

김치냉장고 에어컨 1.31 15.62 62.98(=>) , 32.57(<=)

식기세척기 에어컨 1.31 9.53 62.73

식기세척기 드럼세탁기 1.30 5.65 37.23


Ⅲ. 행렬도분석

19

1. 행렬도 분석 – 두 범주간의 관련성

행렬도 (biplot) 는 자료행렬에 대한 비정칙치 분해 (singular value decomposition) 를 통해 행그림과

열그림을 구하고 그들을 하나의 그림에 동시에 나타내어 그들의 관계를 파악하는 다변량 그래프적

분석기법 이다 .

행렬도는 크게 요인행렬도 (principal component factor biplot) 과 주성분행렬도 (principal

component biplot) 으로 구분되며 , 요인행렬도는 변수간의 상관관계에 더 관심이 있을 때 사용할 수

있으며 주성분행렬도는 개체들간의 거리관계에 더 관심이 있을 때 사용할 수 있다 .

20

2. 행렬도 분석 예제 1

GGU

Thu

USN

DJDBSW

GPOYTG

SBS

FriSat

SSO

KHE

YDP

ASN

WedDDJ

CWNASATGU

UNGDSW

CGK

JJN

GYA

DGJ

DDM

BCSGCN

Tue

MonUJB

GJA

GSK

CTCSun

21

* 고객들이 이용하는 은행과 카드에 대한 주요 은행과 주요 카드사에 대한 빈도표임

국민카드 BC 카드 삼성카드 LG 카드 외환카드

국민은행 2728 470 476 473 157

기업은행 95 311 157 165 38

농 협 225 1049 539 492 130

신한은행 141 159 252 233 68

외환은행 128 149 244 254 866

제일은행 58 303 130 160 41

조흥은행 203 1545 403 449 110

주택은행 149 868 291 266 88

한빛은행 233 1069 569 484 133


22

국민카드

BC카드

LG카드/삼성카드

기업은행제일은행

주택은행/한빛은행/농협

조흥은행

신한은행국민은행

외환카드 외환은행

-4

-2

0

2

4

6

8

-8 -6 -4 -2 0 2 4 6 8

카드회사의 시장점유는 크게 국민카드 , 외환카드 , BC 카드 3 사로 형성되어 있으며 이들과 관련 깊은

은행들은 국민카드는 국민은행 , 외환카드는 외환은행과 신한은행 , BC 카드 ( 삼성 ,LG 카드 ) 는 기타 은행

( 기업 / 제일 / 주택 / 한빛 / 농협 / 조흥은행 ) 들과 높은 관계를 나타내고 있다 .

카드회사의 시장점유는 크게 국민카드 , 외환카드 , BC 카드 3 사로 형성되어 있으며 이들과 관련 깊은

은행들은 국민카드는 국민은행 , 외환카드는 외환은행과 신한은행 , BC 카드 ( 삼성 ,LG 카드 ) 는 기타 은행

( 기업 / 제일 / 주택 / 한빛 / 농협 / 조흥은행 ) 들과 높은 관계를 나타내고 있다 .


23

LG 화재 동부화재 동양화재 삼성화재 현대해상쏘나타 489 656 311 1504 803

갤로퍼 103 106 32 223 123

그랜저 86 156 62 277 139

누비라 146 148 70 327 95

레간자 85 100 42 223 75

마티즈 133 164 74 304 129

상용차 103 179 49 302 163

세피아 261 319 146 682 245

아반테 380 352 179 970 438

에스페로 98 116 44 278 96

엑센트 243 247 126 632 257

엘란트라 255 265 147 654 300

카렌스 78 94 43 204 104

크레도스 133 146 67 337 138

프라이드 177 214 107 460 175

프린스 131 184 78 315 128


24

동부화재

동양화재

삼성화재LG화재

현대해상

프라이드

크레도스

카렌스

엘란트라엑센트

에스페로

아반테

세피아

상용차

마티즈

그랜저

레간자

프린스

누비라갤포퍼

쏘나타


Ⅳ. 의사결정나무분석

26

1. 의사결정나무 – Decision Trees

의사결정나무의 주요 알고리즘 CHAID(Chi-squared automatic induction, Hartigan, 1975) CART(classification and regression trees, Brieman, 1984) C4.5(?,Quinlan, 1993)

범주형 목표변수에 적용되는 분리기준 (splitting rule)카이스케어 통계량 p-value지니 지수 (gini index)엔트로피 지수 (entropy index)

연속형 목표변수에 적용되는 분리기준 (splitting rule)

분산분석 F 통계량

분산 감소량 (variance reduction)

의사결정나무 분석과정

의사결정나무의 형성 가지치기 타탕성 평가 해석 및 예측

의사결정규칙 (decision rule) 을 바탕으로 분류 (classification) 와 예측 (prediction) 을 하는 분석 방법이다 . 의사결정규칙 (decision rule) 을 바탕으로 분류 (classification) 와 예측 (prediction) 을 하는 분석 방법이다 .

27

2. 의사결정나무 – Decision Trees

yes no1

yes no

yes

뿌리 마디 (root node) : 나무구조의 시작으로 목표변수의

형태를 파악할 수 있다 . 1 번

뿌리 마디 (root node) : 나무구조의 시작으로 목표변수의

형태를 파악할 수 있다 . 1 번

23

1

47

65

중간마디 (internal node) : 나무구조에서 중간에 위치한

마디로서 이 마디는 다시 분리규칙에 의해 분리된다 . 3 번 ,

4 번 마디

중간마디 (internal node) : 나무구조에서 중간에 위치한

마디로서 이 마디는 다시 분리규칙에 의해 분리된다 . 3 번 ,

4 번 마디

끝마디 (terminal node, leaf) : 나무구조의 끝에 위치한

마디로서 끝마디의 개수만큼 분류규칙이 생성된다 . 2 번 ,

5 번 , 6 번 , 7 번

끝마디 (terminal node, leaf) : 나무구조의 끝에 위치한

마디로서 끝마디의 개수만큼 분류규칙이 생성된다 . 2 번 ,

5 번 , 6 번 , 7 번

부모마디 (parent node) 와 자식마디 (child node) : 분리

되기 전의 마디를 부모 마디라 하고 분리되어진 2 개 이상의

마디를 자식 마디라 한다 . 4 번 노드를 부모노드로 볼 때

이 마디의 자식마디는 5 번과 6 번이다 .

부모마디 (parent node) 와 자식마디 (child node) : 분리

되기 전의 마디를 부모 마디라 하고 분리되어진 2 개 이상의

마디를 자식 마디라 한다 . 4 번 노드를 부모노드로 볼 때

이 마디의 자식마디는 5 번과 6 번이다 .

no

28

사용여부 (30186)

YES 38.0% 38.7%

NO 62.0% 61.3%

YES 11480 5012

NO 18706 7925

YES 46.3% 778

NO 53.7% 901

YES 62.0% 3211

NO 38.0% 1964

YES 44.8% 3957

NO 55.2% 4872

YES 30.5% 481

NO 695% 1097

1

2

3

4

5

3. 의사결정나무 예제

1

2 3 4

YES 23.6% 3053

NO 76.4% 9872

5

10 대 , 20 대초반

30 대이상 , 여자

30 대이상 , 남자

20 대 후반 , 신용카드 보유

20 대후반 , 신용카드 미 보유

29

4. 의사결정나무의 모형 평가 도구

P_PAYSERVEyes : predicted payserve yes

I_PAYSERVE : into payserve

F_PAYSERVE : from payserve

P_PAYSERVEyes 가 분류기준 0.5 를 넘으면 I_PAYSERVE 가 YES 로 분류된다 .

구축된 모형으로부터의 사후확률을 이용하여 구축된 모형에 대한 평가를 할 수 있는 도구들이다 .

이 도구들을 이용하여 하나의 결과에 여러 개의 모형을 구축하고 가장 적정한 구축 모형을 선택할 수 있다 .

Lift Chart, Response Threshold Chart,ROC Chart

Threshold-based Chart, Correct classification, Interactive Profit

구축된 모형으로부터의 사후확률을 이용하여 구축된 모형에 대한 평가를 할 수 있는 도구들이다 .

이 도구들을 이용하여 하나의 결과에 여러 개의 모형을 구축하고 가장 적정한 구축 모형을 선택할 수 있다 .

Lift Chart, Response Threshold Chart,ROC Chart

Threshold-based Chart, Correct classification, Interactive Profit

30

5. Lift Chart - %Captured Response

앞에서 설정한 나무모형을 이용하여 특정 고객에 대한

모형화를 할 경우 그렇지 않은 경우보다 더욱 효율적

이다는 것을 알 수 있으며 , 특히 모집단의 상위 40%정도를

샘플링하여 특정 고객에 대한 판별을 할 경우

약 60% 정도의 향상을 가져옴을 알 수 있다 .

리프트가 의미하는 것은 전체 모집단으로부터 우리가 원하는 치우친 샘플 (biased sample) 을 선택하기위한 모델을 설정했을 때 관심이가는 그룹에 대한 변화의 정도를 나타낸다 .

Lift = P( 관심이 가는 그룹에 속하는 사람 | 샘플 ) / P( 관심이 가는 그룹에 속하는 사람 | 모집단 ) 리프트는샘플의 크기에 대한 함수로써 , X 축은 모집단에서의 퍼센트를 나타내고 , Y 축은 관심이 가는 집단에 속한 사람들의 퍼센트를 나타낸다 . 리프트차트에서 45 도 각도의 직선은 모델이 고려되지 않았을 때의 반응을 나타내며 , 다른 하나의 선은 모형이 고려되었을 때의 향상도 , 즉 리프트를 나타낸다 .

리프트가 의미하는 것은 전체 모집단으로부터 우리가 원하는 치우친 샘플 (biased sample) 을 선택하기위한 모델을 설정했을 때 관심이가는 그룹에 대한 변화의 정도를 나타낸다 .

Lift = P( 관심이 가는 그룹에 속하는 사람 | 샘플 ) / P( 관심이 가는 그룹에 속하는 사람 | 모집단 ) 리프트는샘플의 크기에 대한 함수로써 , X 축은 모집단에서의 퍼센트를 나타내고 , Y 축은 관심이 가는 집단에 속한 사람들의 퍼센트를 나타낸다 . 리프트차트에서 45 도 각도의 직선은 모델이 고려되지 않았을 때의 반응을 나타내며 , 다른 하나의 선은 모형이 고려되었을 때의 향상도 , 즉 리프트를 나타낸다 .

31

6. Lift Chart 의 형태 – 누적 (Cumulative)

%Response

%Lift Value %Profit

%Captured Response

32

7. ROC Chart

특정고객에 대한 나무구조분석을 통해

모형이 모형을 설정하지 않았을 때 보다 효과적

임을 알 수 있다 .

이러한 ROC 차트는 빨간색 부분과 같은 형태를

가질수록 더욱 효과적이라는 의미를 가지게 된다 .

• ROC 차트는 사후확률과 각 분류기준값에 의해 오분류행렬을 만든 다음 , 특이도와 민감도를 통해 모형을 평가한다 . • 사후확률은 구축된 모형을 통해 종속변수 ( 목표변수 ) 가 특정 범주에 속할 확률을 의미한다 . • 분류기준값 (cut-off, threshold) 은 사후확률을 통해 각각의 관찰치를 특정 범주에 분류할 때 사용 하는 기준값으로 분류의 기준은 1/ 목표변수의 범주의 개수로 설정한다 .• 오분류행렬이란 목표변수의 실제 범주와 모형에 의해 예측된 분류범주 사이의 관계를 나타낸다 .• 민감도 (sensitivity) = ( 실제 1, 예측 1) 인 관찰치의 빈도 / 실제 1 인 관찰치의 빈도• 특이도 (specificity) = ( 실제 0, 예측 0) 인 관찰치의 빈도 / 실제 0 인 관찰치의 빈도

• ROC 차트는 사후확률과 각 분류기준값에 의해 오분류행렬을 만든 다음 , 특이도와 민감도를 통해 모형을 평가한다 . • 사후확률은 구축된 모형을 통해 종속변수 ( 목표변수 ) 가 특정 범주에 속할 확률을 의미한다 . • 분류기준값 (cut-off, threshold) 은 사후확률을 통해 각각의 관찰치를 특정 범주에 분류할 때 사용 하는 기준값으로 분류의 기준은 1/ 목표변수의 범주의 개수로 설정한다 .• 오분류행렬이란 목표변수의 실제 범주와 모형에 의해 예측된 분류범주 사이의 관계를 나타낸다 .• 민감도 (sensitivity) = ( 실제 1, 예측 1) 인 관찰치의 빈도 / 실제 1 인 관찰치의 빈도• 특이도 (specificity) = ( 실제 0, 예측 0) 인 관찰치의 빈도 / 실제 0 인 관찰치의 빈도

33

8. Response Threshold Chart

사후확률과 분류기준값 및 목표변수의 특정

범주의 빈도를 이용하여 평가한다 .

Response Threshold 차트는 분류기준값이

변화함에 따라 모형의 분류결과가 얼마나

적은 변동을 가지는지를 파악하기 위해

사용한다 .

옆의 그림은 사후확률이 대체로 0.6 보다 작아

높은 분류기준값을 설정할 경우에는 분류를

제대로 하고 있지 못하며 의사결정을 위한

분류기준값이 0.3 에서 0.5 사이에 이루어져야

함을 보여주고 있다 .

34

9. Response-based Chart

Threshold-based 차트는 한 모형을 평가하기 위해 각 분류기준값별로 사후확률에 근거한 오분류행렬을 이용한다 . 오분류표와 이익행렬 (profit matrix) 을 이용하여 수익을 나타내는 이익도표를 작성하며 위의 왼쪽그림은 분류기준값을 0.5 로 했을 때의 결과이며 오른쪽은 분류기준값으로 0.4 를 했을때의 결과이다 . 분류기준값을 변경하면서 비교해보았을 때 이 값들 사이에서 분류기준값을 정하는 것이 타당하다는 생각을 할 수 있으며 추가적인 작업으로 correctclassification 을 고려할 수 있다 .

35

10. Correct classification

Correct classification 은 정분류율 , 민감도 , 특이도를 도표화한다 . 이 세개의 값을 모두 높게 하는 분류 기준값은 존재하지 않는다 . 따라서 이 들 셋 중 어느 하나가 지나치게 크거나 작지 않은 분류기준값을 찾는 것이 바람직하다 . 여기서는 대략 분류기준값으로 50을고려할 수 있음을 보여주고 있다 .

36

11. Interactive profit

지금까지 고려된 모형은 정분류에는 1 을 ,

오분류에는 0 이라는 이익이 발생한다는

가정하에서 모형이 구축되었으며 그 결과가

옆의 그림과 같다 . 그러나 실제로 이익행렬은

달라 질 수 있으며 이러한 형태를 직접 고려

하여 그 형태를 보아가며 분류기준값을 설정

할 수 있다 .

특정 제품 사용 여부에 대한 이익행렬을

Yes 를 Yes 로 에측하거나 No 를 No 로 예측

할 경우의 발생 이익을 1 로 그렇지 않은

오분류에서의 발생 이익을 0 으로 했을 때의

결과이다 .

Ⅴ. 로지스틱 회귀분석

38

1. 로지스틱 회귀분석

선형 회귀모형

로지스틱 회귀모형

사후확률

목표변수가 입력변수들에 의해서 어떻게 설명 또는 예측되는 지를 알아보기 위해 자료를

적절한 함수식으로 표현하여 분석하는 통계적 분석방법을 회귀분석이라 하며 , 특히

목표변수가 이분형 (dichotomous) 을 가질 때의 회귀분석을 로지스틱 회귀분석이라 한다 .

목표변수가 입력변수들에 의해서 어떻게 설명 또는 예측되는 지를 알아보기 위해 자료를

적절한 함수식으로 표현하여 분석하는 통계적 분석방법을 회귀분석이라 하며 , 특히

목표변수가 이분형 (dichotomous) 을 가질 때의 회귀분석을 로지스틱 회귀분석이라 한다 .

로지스틱 회귀분석의 목적 : 추정된 로짓모형을 이용하여 자료를 분류하기 위한 것이기 때문에 , 일반적인 판별분석과 비교하여 로지스틱 판별분석이라 부르며 , 목표변수에 대한 사후확률을 구하여 새로운 개체에 대한 판별을 한다 .

로지스틱 회귀분석의 목적 : 추정된 로짓모형을 이용하여 자료를 분류하기 위한 것이기 때문에 , 일반적인 판별분석과 비교하여 로지스틱 판별분석이라 부르며 , 목표변수에 대한 사후확률을 구하여 새로운 개체에 대한 판별을 한다 .

39

목적변수 – PAYSERVE( 온라인 상품 구매 이용여부 , 0: 이용한 적 없다 1: 이용한 적 있다 )

설명변수 – TYPE[ 인터넷이용형태 , 0 : LIGHT USER, 1: HEAVY USER)

SEX[ 성별 , 1 : 남자 , 2: 여자 ]

MAR[ 결혼 , 0: 미혼 , 1: 기혼 ]

I_PLACE[ 인터넷 주 이용장소 , HOUSE( 집 ), OFFICE( 사무실 ), GAMEROOM(PC 방 ), SCHOOL( 학교 )]

COMPUTER[ 보유컴퓨터 , DESKTOP, NOTEBOOK, NONE)

CAR[ 차량소유여부 , YES, NO]

CCARD[ 신용카드소유여부 , YES, NO]

BANK[ 은행계좌소유여부 , YES, NO]

INSU[ 자동차보험가입여부 , YES, NO]

GEN( 연령대 , 10 대 , 20 대초반 , 20 대후반 , 30 대이상 )

INCOME[ 소득 , LOW, MIDDLE, HIGH]

목적변수 – PAYSERVE( 온라인 상품 구매 이용여부 , 0: 이용한 적 없다 1: 이용한 적 있다 )

설명변수 – TYPE[ 인터넷이용형태 , 0 : LIGHT USER, 1: HEAVY USER)

SEX[ 성별 , 1 : 남자 , 2: 여자 ]

MAR[ 결혼 , 0: 미혼 , 1: 기혼 ]

I_PLACE[ 인터넷 주 이용장소 , HOUSE( 집 ), OFFICE( 사무실 ), GAMEROOM(PC 방 ), SCHOOL( 학교 )]

COMPUTER[ 보유컴퓨터 , DESKTOP, NOTEBOOK, NONE)

CAR[ 차량소유여부 , YES, NO]

CCARD[ 신용카드소유여부 , YES, NO]

BANK[ 은행계좌소유여부 , YES, NO]

INSU[ 자동차보험가입여부 , YES, NO]

GEN( 연령대 , 10 대 , 20 대초반 , 20 대후반 , 30 대이상 )

INCOME[ 소득 , LOW, MIDDLE, HIGH]

2. 로지스틱 회귀분석 예제 1

분석에 있어서 유료정보 서비스를 이용하는데 영향을 주는 요소로서 위와 같은 변수를 고려하였으며 , 2 차 교호작용도 함께 고려하였다 . 분석과정에서 2 차 교호작용이 들어가있는 모형이 조금 나았지만 그 차이가 아주 미미하여 좀 더 간단한 모형으로 설명하고자 교화 효과가 포함되지 않은 모형을 고려 하였고 그 결과가 다음과 같다 .

여기서는 온라인 패밀리카드 고객자료를 이용하여 어떠한 변수들이 인터넷 상에서

상품을 구입하는데 영향을 주는 변수인지 모형화를 통해 살펴보고자 한다 .

여기서는 온라인 패밀리카드 고객자료를 이용하여 어떠한 변수들이 인터넷 상에서

상품을 구입하는데 영향을 주는 변수인지 모형화를 통해 살펴보고자 한다 .

40

모형구축을 위한 통계적 방법 링크 한수 : Logit Function 가변수에 대한 코딩 : Deviation

변수선택방법 ; 단계적방법 (stepwise method) Criteria : Validation Error

최적화방법 : Newton-Raphson w/Ridging

모형구축을 위한 통계적 방법 링크 한수 : Logit Function 가변수에 대한 코딩 : Deviation

변수선택방법 ; 단계적방법 (stepwise method) Criteria : Validation Error

최적화방법 : Newton-Raphson w/Ridging

모형구축에 선택된 변수상수항 , car ccard, computer, gen, income, insu, mar, sex, type

Type III Analysis of Effects

Wald Pr >

Effect DF Chi-Square Chi-Square

car 1 14.7178 0.0001

ccard 1 266.9468 <.0001

computer 2 75.4109 <.0001

gen 3 267.5672 <.0001

income 2 77.0948 <.0001

insu 1 60.2473 <.0001

MAR 1 59.7892 <.0001

SEX 1 406.7122 <.0001

type 1 181.6564 <.0001


41

Type Heavyuser 1

LightUser -1

SEX 1 1

2 -1

MAR 0 1

1 -1

i_place Gamer 1 0 0

House 0 1 0

Office 0 0 1

School -1 -1 -1

gen 10 대 1 0 0

20 초 0 1 0

20 후 0 0 1

30 하 -1 -1 -1

computer desktop 1 0

none 0 1

notebook -1 -1

car no 1

yes -1

ccard no 1

yes -1

bank no 1

yes -1

insu no 1

yes -1

income hig 1 0

low 0 1

mid -1 -1

Input Class Level Information Input Class Level Information


42

Analysis of Maximum Likelihood Estimates

Standard Wald Pr >

Parameter DF Estimate Error Chi-square Chi-square exp(Est)

Intercept 1 -0.7614 0.0258 868.17 <.0001 0.467

car no 1 -0.0571 0.0149 14.72 0.0001 0.944

ccard no 1 -0.2808 0.0172 266.95 <.0001 0.755

computer desktop 1 0.000373 0.0208 0.00 0.9857 1.000

computer none 1 -0.2358 0.0321 53.82 <.0001 0.790

gen 10 대 1 -0.4132 0.0383 116.19 <.0001 0.662

gen 20 초 1 -0.2097 0.0251 69.61 <.0001 0.811

gen 20 후 1 0.1281 0.0221 33.47 <.0001 1.137

income hig 1 0.2007 0.0233 74.15 <.0001 1.222

income low 1 -0.1423 0.0274 26.92 <.0001 0.867

insu no 1 -0.1082 0.0139 60.25 <.0001 0.897

MAR 0 1 -0.1432 0.0185 59.79 <.0001 0.867

SEX 1 1 0.2833 0.0140 406.71 <.0001 1.328

type Heavyuser 1 0.1728 0.0128 181.66 <.0001 1.189

Analysis of Maximum Likelihood Estimates

Standard Wald Pr >

Parameter DF Estimate Error Chi-square Chi-square exp(Est)

Intercept 1 -0.7614 0.0258 868.17 <.0001 0.467

car no 1 -0.0571 0.0149 14.72 0.0001 0.944

ccard no 1 -0.2808 0.0172 266.95 <.0001 0.755

computer desktop 1 0.000373 0.0208 0.00 0.9857 1.000

computer none 1 -0.2358 0.0321 53.82 <.0001 0.790

gen 10 대 1 -0.4132 0.0383 116.19 <.0001 0.662

gen 20 초 1 -0.2097 0.0251 69.61 <.0001 0.811

gen 20 후 1 0.1281 0.0221 33.47 <.0001 1.137

income hig 1 0.2007 0.0233 74.15 <.0001 1.222

income low 1 -0.1423 0.0274 26.92 <.0001 0.867

insu no 1 -0.1082 0.0139 60.25 <.0001 0.897

MAR 0 1 -0.1432 0.0185 59.79 <.0001 0.867

SEX 1 1 0.2833 0.0140 406.71 <.0001 1.328

type Heavyuser 1 0.1728 0.0128 181.66 <.0001 1.189

추정된 회귀계수추정된 회귀계수


43

온라인 상품구매 여부에 대한 독립변수의 회귀계수를 통해 살펴보면 , 30 대이상 , 남자 ,

노트북 소유 , 고소득 , Heavy User, 기혼 , 20 후 , 자동차보험 가입자 , 차 소유 , 데스크탑 등이

사후확률을 증가시키는 변수임을 알 수 있다 .

온라인 상품구매 여부에 대한 독립변수의 회귀계수를 통해 살펴보면 , 30 대이상 , 남자 ,

노트북 소유 , 고소득 , Heavy User, 기혼 , 20 후 , 자동차보험 가입자 , 차 소유 , 데스크탑 등이

사후확률을 증가시키는 변수임을 알 수 있다 .

gen 30이상 0.4948sex 남자 0.2833ccard yes 0.2808computer notebook 0.235427income high 0.2007type Heavyuser 0.1728mar 기혼 0.1432gen 20후 0.1281insu yes 0.1082car yes 0.0571computer desktop 0.000373car no - 0.0571income midd l e - 0.0584insu no - 0.1082income low - 0.1423mar 미혼 - 0.1432type Lightuser - 0.1728gen 20초 - 0.2097computer none - 0.2358ccard no - 0.2808sex 여자 - 0.2833gen 10대 - 0.4132


44

Odds Ratio Estimates

Input Odds Ratio

car no vs ye 0.892

ccard no vs ye 0.570

computer desktop vs noteboo 0.791

computer none vs noteboo 0.624

gen 10 대 vs 30 하 0.403

gen 20 초 vs 30 하 0.494

gen 20 후 vs 30 하 0.693

income hig vs mid 1.296

income low vs mid 0.920

insu no vs ye 0.805

MAR 0 vs 1 0.751

SEX 1 vs 2 1.762

type Heavyuser vs LightUser 1.413

입력변수가 온라인 상품구매 이용여부에 미치는 영향의 정도는 오즈비로 계량화할수 있는데

오즈비가 1 보다 크다는 것은 입력변수가 양의 방향으로 영향을 미침을 의미한다 .

예를 들어 , 남자는 여자보자 1.762 배 만큼 증가방향으로 영향을 미침을 의미한다 .

입력변수가 온라인 상품구매 이용여부에 미치는 영향의 정도는 오즈비로 계량화할수 있는데

오즈비가 1 보다 크다는 것은 입력변수가 양의 방향으로 영향을 미침을 의미한다 .

예를 들어 , 남자는 여자보자 1.762 배 만큼 증가방향으로 영향을 미침을 의미한다 .

오 즈 비오 즈 비


45

왼쪽의 리프트도표는 온라인 상품구매 대한 교호작용이 있는 회귀분석모형과 입력변수만이 고려된 회귀분석모형 , 의사결정나무모형에 대한 결과이다 . 의사결정모형보다는 회귀분석모형이 더 좋은 결과를 제공하고 있다는 것을 나타내고 있고 , 오른쪽의 ROC 도표를 통해서도 회귀분석모형이 좀 더 좋은 결과를 나타냄을 알 수 있다 . 따라서 온라인 상품구매에 대한 모형구축에서는 의사결정나무보다 회귀분석모형이 더욱 적절하다는 결론을 내릴 수 있다 .

왼쪽의 리프트도표는 온라인 상품구매 대한 교호작용이 있는 회귀분석모형과 입력변수만이 고려된 회귀분석모형 , 의사결정나무모형에 대한 결과이다 . 의사결정모형보다는 회귀분석모형이 더 좋은 결과를 제공하고 있다는 것을 나타내고 있고 , 오른쪽의 ROC 도표를 통해서도 회귀분석모형이 좀 더 좋은 결과를 나타냄을 알 수 있다 . 따라서 온라인 상품구매에 대한 모형구축에서는 의사결정나무보다 회귀분석모형이 더욱 적절하다는 결론을 내릴 수 있다 .


46

3. 구축된 모형

교호작용이 없는

로지스틱회귀모형

의사결정나무모형

교호작용을 포함하는 로지스틱 회귀모형

패널데이터패널데이터

데이터분할데이터분할 모형평가모형평가

점수화점수화

Ⅵ. 군집분석

48

군집분석의 목적자료에 대한 탐색과 요약을 하며 어떠한 특수목적이 없는 기법으로 전제데이터를 군집을 통해잘 구분하는 것이 분석의 목적이다 .

거리의 종류유클리드 거리민코브스키 거리

군집의 유형

상호 배반적 군집 (disjoint clustering)계보적 군집 (hierarchical clustering)중복 군집 (overlapping clustering)퍼지 군집 (fuzzy clustering)

데이터마이닝에서의 유용한 군집분석 알고리즘 K-means clustering, SOM

1. 군집분석

군집분석 (cluster analysis) 은 관찰치를 유사한 집단으로 그룹화하여 각 집단의 성격을 파악하여 , 데이터 전체에 대한 구조를 이해하는데 도움을 주는 분석 도구이다 . 복잡한 전체보다는 전체를 대표하는 군집들을 관찰함으로써 전체 데이터에 대한 의미 있는 정보를 얻어낼 수 있다 .

군집분석 (cluster analysis) 은 관찰치를 유사한 집단으로 그룹화하여 각 집단의 성격을 파악하여 , 데이터 전체에 대한 구조를 이해하는데 도움을 주는 분석 도구이다 . 복잡한 전체보다는 전체를 대표하는 군집들을 관찰함으로써 전체 데이터에 대한 의미 있는 정보를 얻어낼 수 있다 .

49

Slice : Std. Diviation Height: Frequency Color : Radius

GEN 1

INCOME 0.582

I_PLACE 0.554

COMPUTER 0.444

SEX 0.229

MAR 0.229

CCARD 0.226

TYPE 0.218

CAR 0.168

INSU 0

BANK 0

데이터에 대한 군집하에 영향을 가장 많이 미치는

변수로는 연령층 , 수입 , 인터넷사용장소 ,

컴퓨터소유종류 , 성별 순으로 나타나고 있음을

알 수 있다 .

2. 군집분석 예제 1

관찰치 : 43,123 샘플 : 2,000 Standardization : Range

Clustering Criterion : Least Squares

관찰치 : 43,123 샘플 : 2,000 Standardization : Range

Clustering Criterion : Least Squares

50

인구통계 컴퓨터 활용 S.E.S.

군집 1 10 대여자집에서 데스크탑을 이용하여 인터넷에 접속하여 유료사이트는 잘 이용하지 않음Light User

차량보유율이 가장 낮고 , 신용카드 없음 .

군집 2 30 대이상 남자노트북 사용자가 가장 많음 .주로 사무실에서 이용하며 , 유료사이트이용을 가장 많이 함 .

차량 , 신용카드를 가지고 있음 .

군집 320 대후반 여자기혼자가 많음

사무실에서 주로 컴퓨터를 사용하며데스크탑을 많이 이용 . 유료사이트도 군집2 다음으로 많이 이용 .

차량 , 신용카드 , 보험에 가입을 하고 있음 .

군집 420 대 초반 남자 집에서 주로 사용 . 유료사이트는 잘 이용하지

않음 .Heavy User

차량과 현금카드 보유율이 낮음소득이 낮음

4 개의 군집으로 표현되는 온라인 패밀리카드 데이터는 다음과 같은 특성을 가지고 있다 . 4 개의 군집으로 표현되는 온라인 패밀리카드 데이터는 다음과 같은 특성을 가지고 있다 .


51

[ Type ]

41.08

59.1950.96

71.34

58.9258.94

41.06 40.45

1집단 2집단 3집단 4집단

Heavy User Light User

[ Mar ]

[ Sex ]

57.35

40.81

71.34

42.65

87.44

12.56

59.19

28.66


남 자 여 자

92.15

37.72

7.85

87.44

12.56

62.28

97.45

2.55


미 혼 기 혼

[ Pay serve ]

73.89 72.29

26.11

40.10

59.90

44.6655.34

27.71


No Yes


52

[ Place ]

1.14

54.35

2.664.20

29.25

62.87

3.68

19.43 18.15 18.15

5.710.57

92.58

1.21

41.79 44.27


Gamer House Office School

[ Gen ]

37.23

14.73

83.57

0.358.58

78.63

12.434.78

10.192.237.28

17.69

37.80

1.69

82.80


10 대 20 대 초반 20 대 후반 30 대 이상


- data mining techniques

Documents