9주차 예측모형에 대한 평가 -...

Post on 20-Feb-2020

2 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

≪ 9주차 ≫ 예측모형에 대한 평가

Assessment of Predictive Model

빅데이터 분석을 위한

데이터마이닝 방법론 SAS Enterprise Miner 활용사례를 중심으로

최종후, 강현철

- 2 -

차례

6.1 모형평가의 기본 개념

6.2 모델 비교(Model Comparison) 노드

6.3 임계치(Cutoff) 노드

6.4 의사결정(Decisions) 노드

6.5 기타 모형화 노드들

6.6 연습문제

- 3 -

Regression Analysis :

6.1.1 목표변수가 구간형인 경우(Supervised Prediction)

Obs.

1

2

3

4

5

6

7

Sex

F

M

F

F

F

M

F

Age

18

25

67

43

28

53

42

Region

A

D

D

B

A

C

A

125

35

150

45

13

38

20

120

38

147

53

15

36

21

y

p p x b x b x b a y + + + + = L 2 2 1 1 ^

y ̂

- 4 -

… 목표변수가 구간형인 경우

Regression Tree

평균 9.25n 120

A, B, C

평균 28.6n 310

D, E

지역

평균 23.21n 430

<= 40

평균 37.23n 76

> 40

연령

제품구매력평균 22.53n 506

Mean of each node ^ = y

- 5 -

… 목표변수가 구간형인 경우

125

35

150

45

13

38

20

120

38

147

53

15

36

21

i y i y ^

5

-3

3

-8

-2

2

-1

i e /

SSE ASE -

1

2 n e n

n

i

i = =

=

[ ] ) 1 TSS/( MSE/ 1 adj - 2 - - = n R

) ( 1 adj 0 2

R

( ) ) 1 ( 2 SSE/n log AIC - + + = p n e

) /( SSE

MSE - 1

2 p n e

p n

n

i

i - =

- =

=

- 6 -

6.1.2 목표변수가 범주형인 경우(Supervised Classification)

Obs.

1

2

3

4

5

6

7

Sex

F

M

F

F

F

M

F

Age

18

25

67

43

28

53

42

Region

A

D

D

B

A

C

A

1

0

1

1

0

0

0

0.75

0.12

0.93

0.53

0.15

0.31

0.12

y ) 1 ( P = y

Logistic Regression

P(y=1) ) exp( 1

) exp( ^

2 2 1 1

2 2 1 1

p p

p p

x b x b x b a

x b x b x b a

+ + + + +

+ + + + =

L

L

- 7 -

n %나쁨 143 90.51좋음 15 9.49 계 158 (48.92)

35세 미만

n %나쁨 0 0.00좋음 7 100.00 계 7 (2.17)

35세초과

연령

n %나쁨 143 86.67좋음 22 13.33 계 165 (51.08)

200만원이하

n %나쁨 24 48.98좋음 25 51.02 계 49 (15.17)

25세미만

n %나쁨 1 0.92좋음 108 99.08 계 109 (33.75)

25세초과

연령

n %나쁨 25 15.82좋음 133 84.18 계 158 (48.92)

200만원이상

월소득

신용상태나쁨 168 52.01%좋음 155 47.99% 계 323 (100.00)

… 목표변수가 범주형인 경우

Classification Tree

i i n n y / ) 1 P( 1 = = ^

- 8 -

… 목표변수가 범주형(구간형)인 경우

) ( 1 2 21 1 11 1 1 1 p p X w X w X w b f H + + + + = L

) ( 2 2 22 1 12 2 2 2 p p X w X w X w b f H + + + + = L

) ( 2 20 1 10 0 H w H w b g Y + + =

결합함수 활성함수

절편(bias) 연결강도

X1

X2

Xp

H1

H2

y Neural Network Multi-Layer Perceptron

- 9 -

차례

6.1 모형평가의 기본 개념

6.2 모델 비교(Model Comparison) 노드

6.3 임계치(Cutoff) 노드

6.4 의사결정(Decisions) 노드

6.5 기타 모형화 노드들

6.6 연습문제

6.2.1 분석사례 - 1: 구간형 목표변수

- 10 -

모델 비교(Model Comparison) 노드 - 결과

- 11 -

모델 비교(Model Comparison) 노드 - 결과: 출력

- 12 -

회귀(Regression) 노드 - 속성 패널과 출력 결과

- 13 -

회귀 노드의 속성 패널

- 14 -

6.2.2 분석사례 - 2: 이항형 목표변수

0.75

0.12

0.93

0.53

0.15

0.31

0.12

) 1 ( P = y

1

0

1

1

0

0

0

y

0

1

1

0.30

0.41

0.75

1

0

1

1

0

0

0

) y 50 . 0 ( ^

0

0

1

1

0

1

1

0

1

0

1

1

1

Modeling Cut-off value

(Threshold)

Discriminant

판별

Classification

분류

) y 25 . 0 ( ^

- 15 -

임계치에 따른 분류 정확도

5 0

1 4

5

5

0 1

1

0

6 4

Predicted

10

3 2

0 5

5

5

0 1

1

0

3 7

Predicted

10 오류율 (Error rate)

= (false negative + false positive)/(grand total) = (1+0)/10 = 10%

정확도 (Accuracy)

= (true negative + true positive)/(grand total) = (5+4)/10 = 90%

민감도 (Sensitivity)

= (true positive)/( total actual positive) = 4/5 = 80%

특이도 (Specificity)

= (true negative)/( total actual negative) = 5/5 = 100%

(0+2)/10 = 20%

(3+5)/10 = 80%

5/5 = 100%

3/5 = 60%

) y 50 . 0 ( ^ ) y 25 . 0 ( ^

- 16 -

No-Data Rule

0 44

0 106

44

106

Predicted Class

Actual Class

0 1

1

0

0 150 150

Accuracy = 106/150 = 71%

오류율, 정확도, 민감도, 특이도 등은 임계치에 따라 달라지므로, 임계치에 의존하지

않는 모형평가 도구가 필요하다.

- 17 -

향상도 테이블(Lift Table)

Decile

1

2

3

4

5

6

7

8

9

10

Y=1

174

110

38

14

11

10

7

10

3

4

%Captured

174/381=45.6

110/381=28.8

38/381= 9.9

14/381= 3.6

11/381= 2.8

10/381= 2.6

7/381= 1.8

10/381= 2.6

3/381= 0.7

4/381= 1.0

%Response

174/200=87.0

110/200=55.0

38/200=19.0

14/200= 7.0

11/200= 5.5

10/200= 5.0

7/200= 3.5

10/200= 5.0

3/200= 1.5

4/200= 2.0

Lift

87.0/19=4.57

55.0/19=2.89

19.0/19=1.00

7.0/19=0.36

5.5/19=0.28

5.0/19=0.28

3.5/19=0.18

5.0/19=0.26

1.5/19=0.07

2.0/19=0.10

≪ Example ≫ n = 2000, 1 = 381

Baseline = 381/2000 = 19 %

향상도 그래프(Lift Chart)

- 18 -

0

10

20

30

40

50

60

70

80

90

100

1 2 3 4 5 6 7 8 9 10

%R

esp

on

se

- 19 -

누적 향상도 테이블(Cumulative Lift Table)

Decile

1

2

3

4

5

6

7

8

9

10

Y=1

174

284

322

336

347

357

364

374

377

381

%Captured

174/381=45.6

284/381=74.5

322/381=84.5

336/381=88.1

347/381=91.0

357/381=93.7

364/381=95.5

374/381=98.1

377/381=98.9

381/381=100

Lift

87.0/19=4.57

71.0/19=3.73

53.6/19=2.82

42.0/19=2.21

34.7/19=1.82

29.7/19=1.56

26.0/19=1.36

23.3/19=1.23

20.9/19=1.10

19.0/19=1.00

%Response

174/ 200=87.0

284/ 400=71.0

322/ 600=53.6

336/ 800=42.0

347/1000=34.7

357/1200=29.7

364/1400=26.0

374/1600=23.3

377/1800=20.9

381/2000=19.0

- 20 -

누적 향상도 그래프(Cumulative Lift Chart)

Selected Cases (%)

100

80

60

40

20

0

10 20 30 40 50 60 70 80 90 100

MRR

If 30% of the cases are selected, then 53.6% will respond, cumulative lift = 282%.

- 21 -

바람직한 향상도 그래프

0

20

40

60

80

100

1 2 3 4 5 6 7 8 9 10

0

20

40

60

80

100

1 2 3 4 5 6 7 8 9 10

0

20

40

60

80

100

1 2 3 4 5 6 7 8 9 10

Preferable Lift Chart

분석사례 - 2를 위한 다이어그램

- 22 -

모델 비교 노드의 속성 패널

모델 비교(Model Comparison) 노드 - 결과

- 23 -

≪예≫ 최적 향상도(최고의 성능을 가지는 모형)

- 24 -

데이터 옵션 대화상자

- 25 -

최적 향상도 그래프

- 26 -

향상도 테이블

- 27 -

정오분류표(Confusion Matrix, Classification Table)

- 28 -

≪예≫ 민감도와 특이도

- 29 -

- 30 -

ROC(Receiver Operation Characteristic) 그래프

Sensit

ivit

y

1 — Specificity

0.0 0.5 1.0 0.0

0.5

1.0

ROC(Receiver Operation Characteristic) 그래프

- 31 -

ROC 곡선과 향상도 그래프의 관계

- 32 -

매우 좋음

좋음

나쁨

ROC Lift Cumulative

Lift

모델 비교(Model Comparison) 노드 - 결과

- 33 -

≪예≫ 모형평가 결과의 요약

- 34 -

- 35 -

차례

6.1 모형평가의 기본 개념

6.2 모델 비교(Model Comparison) 노드

6.3 임계치(Cutoff) 노드

6.4 의사결정(Decisions) 노드

6.5 기타 모형화 노드들

6.6 연습문제

≪예≫ 절단값에 따른 정확도, 민감도, 특이도

- 36 -

임계치(Cutoff) 노드 - 결과

- 37 -

임계치(Cutoff) 노드 - 결과: 모델 짂단 테이블

- 38 -

임계치 노드의 속성 패널

컷오프(임계치) 설정 방법

User Input: 사용자 입력 임계값(Cutoff User Input) 필드에 사용자가

임계치를 설정한다.

Maximum KS Statistic: 분석용 데이터의 사전확률(prior probability)을

임계치로 설정한다.

Minimum Misclassification Cost Training Prior: 사전확률을 반영한 예

측오류 ‘FPX(1-prior)+FNXprior’가 최소가 되는 임계치를 설정한다.

Maximum True Pos Rate: 민감도(True Positive Rate)가 최대가 되는

임계치를 설정한다.

Maximum Event Precision From Training Prior: 이벤트 정밀도가 최대

가 되는 임계치를 설정한다.

Event Precision Equal Recall: 이벤트 정밀도와 민감도가 최대가 되는

임계치를 설정한다.

Maximum Cumulative Profit: 누적 이득이 최대가 되는 임계치를 설정

한다

- 39 -

임계치 설정에 따른 결과

- 40 -

- 41 -

차례

6.1 모형평가의 기본 개념

6.2 모델 비교(Model Comparison) 노드

6.3 임계치(Cutoff) 노드

6.4 의사결정(Decisions) 노드

6.5 기타 모형화 노드들

6.6 연습문제

분석사례 - 3을 위한 다이어그램

- 42 -

의사결정 노드의 속성 패널

6.4.1 사전확률(Prior Probability) 설정

π1, π2: 사전확률(Prior Probability)

ρ1, ρ2: 표본에서의 목표변수의 비율

사후확률(posterior probability)의 불편(unbiased) 추정치:

- 43 -

그래프 탐색(Graph Explore) 노드 - 결과

- 44 -

6.4.2 이득행렬(Profit Matrix)의 이용

- 45 -

기대이득의 계산

- 46 -

모델비교(Model Comparison) 노드 - 결과

- 47 -

- 48 -

차례

6.1 모형평가의 기본 개념

6.2 모델 비교(Model Comparison) 노드

6.3 임계치(Cutoff) 노드

6.4 의사결정(Decisions) 노드

6.5 기타 모형화 노드들

6.6 연습문제

기타 모형화 노드들

앙상블(Ensemble) 노드

자동신경망(AutoNeural) 노드

Dmine 회귀분석(Dmine Regression) 노드

DM 신경망(DMNeural) 노드

그래디언트 부스팅(Gradient Boosting) 노드

LAR(Least Angle Regression)s 노드

MBR(Memory-Based Reasoning) 노드

부분최소제곱법(Partial Least Squares) 노드

규칙추론(Rule Induction) 노드

SVM(Support Vector Machine) 노드

- 49 -

여러 가지 모형화 노드들

- 50 -

앙상블 노드의 속성 패널

모델비교(Model Comparison) 노드 - 결과

- 51 -

- 52 -

차례

6.1 모형평가의 기본 개념

6.2 모델 비교(Model Comparison) 노드

6.3 임계치(Cutoff) 노드

6.4 의사결정(Decisions) 노드

6.5 기타 모형화 노드들

6.6 연습문제

Bagging 방법을 위한 다이어그램

- 53 -

그룹 시작 노드의 속성 패널

top related