9주차 예측모형에 대한 평가 -...

≪ 9주차 ≫ 예측모형에 대한 평가

Assessment of Predictive Model

빅데이터 분석을 위한

데이터마이닝 방법론 SAS Enterprise Miner 활용사례를 중심으로

최종후, 강현철

- 2 -

차례

6.1 모형평가의 기본 개념

6.2 모델 비교(Model Comparison) 노드

6.3 임계치(Cutoff) 노드

6.4 의사결정(Decisions) 노드

6.5 기타 모형화 노드들

6.6 연습문제

- 3 -

Regression Analysis :

6.1.1 목표변수가 구간형인 경우(Supervised Prediction)

Obs.

1

2

3

4

5

6

7

Sex

F

M

F

F

F

M

F

Age

18

25

67

43

28

53

42

Region

A

D

D

B

A

C

A

125

35

150

45

13

38

20

120

38

147

53

15

36

21

y

p p x b x b x b a y + + + + = L 2 2 1 1 ^

y ̂

- 4 -

… 목표변수가 구간형인 경우

Regression Tree

평균 9.25n 120

A, B, C

평균 28.6n 310

D, E

지역

평균 23.21n 430

<= 40

평균 37.23n 76

> 40

연령

제품구매력평균 22.53n 506

Mean of each node ^ = y

- 5 -

… 목표변수가 구간형인 경우

125

35

150

45

13

38

20

120

38

147

53

15

36

21

i y i y ^

5

-3

3

-8

-2

2

-1

i e /

SSE ASE -

1

2 n e n

n

i

i = =

=

[ ] ) 1 TSS/( MSE/ 1 adj - 2 - - = n R

) ( 1 adj 0 2

R

( ) ) 1 ( 2 SSE/n log AIC - + + = p n e

) /( SSE

MSE - 1

2 p n e

p n

n

i

i - =

- =

=

- 6 -

6.1.2 목표변수가 범주형인 경우(Supervised Classification)

Obs.

1

2

3

4

5

6

7

Sex

F

M

F

F

F

M

F

Age

18

25

67

43

28

53

42

Region

A

D

D

B

A

C

A

1

0

1

1

0

0

0

0.75

0.12

0.93

0.53

0.15

0.31

0.12

y ) 1 ( P = y

Logistic Regression

P(y=1) ) exp( 1

) exp( ^

2 2 1 1

2 2 1 1

p p

p p

x b x b x b a

x b x b x b a

+ + + + +

+ + + + =

L

L

- 7 -

n %나쁨 143 90.51좋음 15 9.49 계 158 (48.92)

35세 미만

n %나쁨 0 0.00좋음 7 100.00 계 7 (2.17)

35세초과

연령

n %나쁨 143 86.67좋음 22 13.33 계 165 (51.08)

200만원이하

n %나쁨 24 48.98좋음 25 51.02 계 49 (15.17)

25세미만

n %나쁨 1 0.92좋음 108 99.08 계 109 (33.75)

25세초과

연령

n %나쁨 25 15.82좋음 133 84.18 계 158 (48.92)

200만원이상

월소득

신용상태나쁨 168 52.01%좋음 155 47.99% 계 323 (100.00)

… 목표변수가 범주형인 경우

Classification Tree

i i n n y / ) 1 P( 1 = = ^

- 8 -

… 목표변수가 범주형(구간형)인 경우

) ( 1 2 21 1 11 1 1 1 p p X w X w X w b f H + + + + = L

) ( 2 2 22 1 12 2 2 2 p p X w X w X w b f H + + + + = L

) ( 2 20 1 10 0 H w H w b g Y + + =

결합함수 활성함수

절편(bias) 연결강도

X1

X2

…

Xp

H1

H2

y Neural Network Multi-Layer Perceptron

- 9 -

차례






6.6 연습문제

6.2.1 분석사례 - 1: 구간형 목표변수

- 10 -

모델 비교(Model Comparison) 노드 - 결과

- 11 -

모델 비교(Model Comparison) 노드 - 결과: 출력

- 12 -

회귀(Regression) 노드 - 속성 패널과 출력 결과

- 13 -

회귀 노드의 속성 패널

- 14 -

6.2.2 분석사례 - 2: 이항형 목표변수

0.75

0.12

0.93

0.53

0.15

0.31

0.12

) 1 ( P = y

1

0

1

1

0

0

0

y

0

1

1

0.30

0.41

0.75

1

0

1

1

0

0

0

) y 50 . 0 ( ^

0

0

1

1

0

1

1

0

1

0

1

1

1

Modeling Cut-off value

(Threshold)

Discriminant

판별

Classification

분류

) y 25 . 0 ( ^

- 15 -

임계치에 따른 분류 정확도

5 0

1 4

5

5

0 1

1

0

6 4

Predicted

10

3 2

0 5

5

5

0 1

1

0

3 7

Predicted

10 오류율 (Error rate)

= (false negative + false positive)/(grand total) = (1+0)/10 = 10%

정확도 (Accuracy)

= (true negative + true positive)/(grand total) = (5+4)/10 = 90%

민감도 (Sensitivity)

= (true positive)/( total actual positive) = 4/5 = 80%

특이도 (Specificity)

= (true negative)/( total actual negative) = 5/5 = 100%

(0+2)/10 = 20%

(3+5)/10 = 80%

5/5 = 100%

3/5 = 60%

) y 50 . 0 ( ^ ) y 25 . 0 ( ^

- 16 -

No-Data Rule

0 44

0 106

44

106

Predicted Class

Actual Class

0 1

1

0

0 150 150

Accuracy = 106/150 = 71%

오류율, 정확도, 민감도, 특이도 등은 임계치에 따라 달라지므로, 임계치에 의존하지

않는 모형평가 도구가 필요하다.

- 17 -

향상도 테이블(Lift Table)

Decile

1

2

3

4

5

6

7

8

9

10

Y=1

174

110

38

14

11

10

7

10

3

4

%Captured

174/381=45.6

110/381=28.8

38/381= 9.9

14/381= 3.6

11/381= 2.8

10/381= 2.6

7/381= 1.8

10/381= 2.6

3/381= 0.7

4/381= 1.0

%Response

174/200=87.0

110/200=55.0

38/200=19.0

14/200= 7.0

11/200= 5.5

10/200= 5.0

7/200= 3.5

10/200= 5.0

3/200= 1.5

4/200= 2.0

Lift

87.0/19=4.57

55.0/19=2.89

19.0/19=1.00

7.0/19=0.36

5.5/19=0.28

5.0/19=0.28

3.5/19=0.18

5.0/19=0.26

1.5/19=0.07

2.0/19=0.10

≪ Example ≫ n = 2000, 1 = 381

Baseline = 381/2000 = 19 %

향상도 그래프(Lift Chart)

- 18 -

0

10

20

30

40

50

60

70

80

90

100

1 2 3 4 5 6 7 8 9 10

%R

esp

on

se

- 19 -

누적 향상도 테이블(Cumulative Lift Table)

Decile

1

2

3

4

5

6

7

8

9

10

Y=1

174

284

322

336

347

357

364

374

377

381

%Captured

174/381=45.6

284/381=74.5

322/381=84.5

336/381=88.1

347/381=91.0

357/381=93.7

364/381=95.5

374/381=98.1

377/381=98.9

381/381=100

Lift

87.0/19=4.57

71.0/19=3.73

53.6/19=2.82

42.0/19=2.21

34.7/19=1.82

29.7/19=1.56

26.0/19=1.36

23.3/19=1.23

20.9/19=1.10

19.0/19=1.00

%Response

174/ 200=87.0

284/ 400=71.0

322/ 600=53.6

336/ 800=42.0

347/1000=34.7

357/1200=29.7

364/1400=26.0

374/1600=23.3

377/1800=20.9

381/2000=19.0

- 20 -

누적 향상도 그래프(Cumulative Lift Chart)

Selected Cases (%)

100

80

60

40

20

0

10 20 30 40 50 60 70 80 90 100

MRR

If 30% of the cases are selected, then 53.6% will respond, cumulative lift = 282%.

- 21 -

바람직한 향상도 그래프

0

20

40

60

80

100

1 2 3 4 5 6 7 8 9 10

0

20

40

60

80

100

1 2 3 4 5 6 7 8 9 10

0

20

40

60

80

100

1 2 3 4 5 6 7 8 9 10

Preferable Lift Chart

분석사례 - 2를 위한 다이어그램

- 22 -

모델 비교 노드의 속성 패널


- 23 -

≪예≫ 최적 향상도(최고의 성능을 가지는 모형)

- 24 -

데이터 옵션 대화상자

- 25 -

최적 향상도 그래프

- 26 -

향상도 테이블

- 27 -

정오분류표(Confusion Matrix, Classification Table)

- 28 -

≪예≫ 민감도와 특이도

- 29 -

- 30 -

ROC(Receiver Operation Characteristic) 그래프

Sensit

ivit

y

1 — Specificity

0.0 0.5 1.0 0.0

0.5

1.0

ROC(Receiver Operation Characteristic) 그래프

- 31 -

ROC 곡선과 향상도 그래프의 관계

- 32 -

매우 좋음

좋음

나쁨

ROC Lift Cumulative

Lift


- 33 -

≪예≫ 모형평가 결과의 요약

- 34 -

- 35 -

차례






6.6 연습문제

≪예≫ 절단값에 따른 정확도, 민감도, 특이도

- 36 -

임계치(Cutoff) 노드 - 결과

- 37 -

임계치(Cutoff) 노드 - 결과: 모델 짂단 테이블

- 38 -

임계치 노드의 속성 패널

컷오프(임계치) 설정 방법

User Input: 사용자 입력 임계값(Cutoff User Input) 필드에 사용자가

임계치를 설정한다.

Maximum KS Statistic: 분석용 데이터의 사전확률(prior probability)을

임계치로 설정한다.

Minimum Misclassification Cost Training Prior: 사전확률을 반영한 예

측오류 ‘FPX(1-prior)+FNXprior’가 최소가 되는 임계치를 설정한다.

Maximum True Pos Rate: 민감도(True Positive Rate)가 최대가 되는


Maximum Event Precision From Training Prior: 이벤트 정밀도가 최대

가 되는 임계치를 설정한다.

Event Precision Equal Recall: 이벤트 정밀도와 민감도가 최대가 되는


Maximum Cumulative Profit: 누적 이득이 최대가 되는 임계치를 설정

한다

- 39 -

임계치 설정에 따른 결과

- 40 -

- 41 -

차례






6.6 연습문제

분석사례 - 3을 위한 다이어그램

- 42 -

의사결정 노드의 속성 패널

6.4.1 사전확률(Prior Probability) 설정

π1, π2: 사전확률(Prior Probability)

ρ1, ρ2: 표본에서의 목표변수의 비율

사후확률(posterior probability)의 불편(unbiased) 추정치:

- 43 -

그래프 탐색(Graph Explore) 노드 - 결과

- 44 -

6.4.2 이득행렬(Profit Matrix)의 이용

- 45 -

기대이득의 계산

- 46 -

모델비교(Model Comparison) 노드 - 결과

- 47 -

- 48 -

차례






6.6 연습문제

기타 모형화 노드들

앙상블(Ensemble) 노드

자동신경망(AutoNeural) 노드

Dmine 회귀분석(Dmine Regression) 노드

DM 신경망(DMNeural) 노드

그래디언트 부스팅(Gradient Boosting) 노드

LAR(Least Angle Regression)s 노드

MBR(Memory-Based Reasoning) 노드

부분최소제곱법(Partial Least Squares) 노드

규칙추론(Rule Induction) 노드

SVM(Support Vector Machine) 노드

- 49 -

여러 가지 모형화 노드들

- 50 -

앙상블 노드의 속성 패널

모델비교(Model Comparison) 노드 - 결과

- 51 -

- 52 -

차례






6.6 연습문제

Bagging 방법을 위한 다이어그램

- 53 -

그룹 시작 노드의 속성 패널

9주차 예측모형에 대한 평가 -...

Documents