9주차 예측모형에 대한 평가 -...

≪ 9주차 ≫ 예측모형에 대한 평가

Assessment of Predictive Model

빅데이터 분석을 위한

데이터마이닝 방법론 SAS Enterprise Miner 활용사례를 중심으로

최종후, 강현철

차례

6.1 모형평가의 기본 개념

6.2 모델 비교(Model Comparison) 노드

6.3 임계치(Cutoff) 노드

6.4 의사결정(Decisions) 노드

6.5 기타 모형화 노드들

6.6 연습문제

Regression Analysis :

6.1.1 목표변수가 구간형인 경우(Supervised Prediction)

Region

p p x b x b x b a y + + + + = L 2 2 1 1 ^

… 목표변수가 구간형인 경우

Regression Tree

평균 9.25n 120

A, B, C

평균 28.6n 310

지역

평균 23.21n 430

평균 37.23n 76

연령

제품구매력평균 22.53n 506

Mean of each node ^ = y

… 목표변수가 구간형인 경우

i y i y ^

SSE ASE -

2 n e n

[ ] ) 1 TSS/( MSE/ 1 adj - 2 - - = n R

) ( 1 adj 0 2

( ) ) 1 ( 2 SSE/n log AIC - + + = p n e

) /( SSE

MSE - 1

2 p n e

6.1.2 목표변수가 범주형인 경우(Supervised Classification)

Region

y ) 1 ( P = y

Logistic Regression

P(y=1) ) exp( 1

) exp( ^

2 2 1 1

x b x b x b a

+ + + + +

+ + + + =

n %나쁨 143 90.51좋음 15 9.49 계 158 (48.92)

35세 미만

n %나쁨 0 0.00좋음 7 100.00 계 7 (2.17)

35세초과

연령

n %나쁨 143 86.67좋음 22 13.33 계 165 (51.08)

200만원이하

n %나쁨 24 48.98좋음 25 51.02 계 49 (15.17)

25세미만

n %나쁨 1 0.92좋음 108 99.08 계 109 (33.75)

25세초과

연령

n %나쁨 25 15.82좋음 133 84.18 계 158 (48.92)

200만원이상

월소득

신용상태나쁨 168 52.01%좋음 155 47.99% 계 323 (100.00)

… 목표변수가 범주형인 경우

Classification Tree

i i n n y / ) 1 P( 1 = = ^

… 목표변수가 범주형(구간형)인 경우

) ( 1 2 21 1 11 1 1 1 p p X w X w X w b f H + + + + = L

) ( 2 2 22 1 12 2 2 2 p p X w X w X w b f H + + + + = L

) ( 2 20 1 10 0 H w H w b g Y + + =

결합함수 활성함수

절편(bias) 연결강도

y Neural Network Multi-Layer Perceptron

차례

6.6 연습문제

6.2.1 분석사례 - 1: 구간형 목표변수

- 10 -

모델 비교(Model Comparison) 노드 - 결과

- 11 -

모델 비교(Model Comparison) 노드 - 결과: 출력

- 12 -

회귀(Regression) 노드 - 속성 패널과 출력 결과

- 13 -

회귀 노드의 속성 패널

- 14 -

6.2.2 분석사례 - 2: 이항형 목표변수

) 1 ( P = y

) y 50 . 0 ( ^

Modeling Cut-off value

(Threshold)

Discriminant

판별

Classification

분류

) y 25 . 0 ( ^

- 15 -

임계치에 따른 분류 정확도

Predicted

10 오류율 (Error rate)

= (false negative + false positive)/(grand total) = (1+0)/10 = 10%

정확도 (Accuracy)

= (true negative + true positive)/(grand total) = (5+4)/10 = 90%

민감도 (Sensitivity)

= (true positive)/( total actual positive) = 4/5 = 80%

특이도 (Specificity)

= (true negative)/( total actual negative) = 5/5 = 100%

(0+2)/10 = 20%

(3+5)/10 = 80%

5/5 = 100%

3/5 = 60%

) y 50 . 0 ( ^ ) y 25 . 0 ( ^

- 16 -

No-Data Rule

Predicted Class

Actual Class

0 150 150

Accuracy = 106/150 = 71%

오류율, 정확도, 민감도, 특이도 등은 임계치에 따라 달라지므로, 임계치에 의존하지

않는 모형평가 도구가 필요하다.

- 17 -

향상도 테이블(Lift Table)

Decile

%Captured

174/381=45.6

110/381=28.8

38/381= 9.9

14/381= 3.6

11/381= 2.8

10/381= 2.6

7/381= 1.8

10/381= 2.6

3/381= 0.7

4/381= 1.0

%Response

174/200=87.0

110/200=55.0

38/200=19.0

14/200= 7.0

11/200= 5.5

10/200= 5.0

7/200= 3.5

10/200= 5.0

3/200= 1.5

4/200= 2.0

87.0/19=4.57

55.0/19=2.89

19.0/19=1.00

7.0/19=0.36

5.5/19=0.28

5.0/19=0.28

3.5/19=0.18

5.0/19=0.26

1.5/19=0.07

2.0/19=0.10

≪ Example ≫ n = 2000, 1 = 381

Baseline = 381/2000 = 19 %

향상도 그래프(Lift Chart)

- 18 -

1 2 3 4 5 6 7 8 9 10

- 19 -

누적 향상도 테이블(Cumulative Lift Table)

Decile

%Captured

174/381=45.6

284/381=74.5

322/381=84.5

336/381=88.1

347/381=91.0

357/381=93.7

364/381=95.5

374/381=98.1

377/381=98.9

381/381=100

87.0/19=4.57

71.0/19=3.73

53.6/19=2.82

42.0/19=2.21

34.7/19=1.82

29.7/19=1.56

26.0/19=1.36

23.3/19=1.23

20.9/19=1.10

19.0/19=1.00

%Response

174/ 200=87.0

284/ 400=71.0

322/ 600=53.6

336/ 800=42.0

347/1000=34.7

357/1200=29.7

364/1400=26.0

374/1600=23.3

377/1800=20.9

381/2000=19.0

- 20 -

누적 향상도 그래프(Cumulative Lift Chart)

Selected Cases (%)

10 20 30 40 50 60 70 80 90 100

If 30% of the cases are selected, then 53.6% will respond, cumulative lift = 282%.

- 21 -

바람직한 향상도 그래프

1 2 3 4 5 6 7 8 9 10

Preferable Lift Chart

분석사례 - 2를 위한 다이어그램

- 22 -

모델 비교 노드의 속성 패널

- 23 -

≪예≫ 최적 향상도(최고의 성능을 가지는 모형)

- 24 -

데이터 옵션 대화상자

- 25 -

최적 향상도 그래프

- 26 -

향상도 테이블

- 27 -

정오분류표(Confusion Matrix, Classification Table)

- 28 -

≪예≫ 민감도와 특이도

- 29 -

- 30 -

ROC(Receiver Operation Characteristic) 그래프

Sensit

1 — Specificity

0.0 0.5 1.0 0.0

ROC(Receiver Operation Characteristic) 그래프

- 31 -

ROC 곡선과 향상도 그래프의 관계

- 32 -

매우 좋음

좋음

나쁨

ROC Lift Cumulative

- 33 -

≪예≫ 모형평가 결과의 요약

- 34 -

- 35 -

차례

6.6 연습문제

≪예≫ 절단값에 따른 정확도, 민감도, 특이도

- 36 -

임계치(Cutoff) 노드 - 결과

- 37 -

임계치(Cutoff) 노드 - 결과: 모델 짂단 테이블

- 38 -

임계치 노드의 속성 패널

컷오프(임계치) 설정 방법

User Input: 사용자 입력 임계값(Cutoff User Input) 필드에 사용자가

임계치를 설정한다.

Maximum KS Statistic: 분석용 데이터의 사전확률(prior probability)을

임계치로 설정한다.

Minimum Misclassification Cost Training Prior: 사전확률을 반영한 예

측오류 ‘FPX(1-prior)+FNXprior’가 최소가 되는 임계치를 설정한다.

Maximum True Pos Rate: 민감도(True Positive Rate)가 최대가 되는

Maximum Event Precision From Training Prior: 이벤트 정밀도가 최대

가 되는 임계치를 설정한다.

Event Precision Equal Recall: 이벤트 정밀도와 민감도가 최대가 되는

Maximum Cumulative Profit: 누적 이득이 최대가 되는 임계치를 설정

한다

- 39 -

임계치 설정에 따른 결과

- 40 -

- 41 -

차례

6.6 연습문제

분석사례 - 3을 위한 다이어그램

- 42 -

의사결정 노드의 속성 패널

6.4.1 사전확률(Prior Probability) 설정

π1, π2: 사전확률(Prior Probability)

ρ1, ρ2: 표본에서의 목표변수의 비율

사후확률(posterior probability)의 불편(unbiased) 추정치:

- 43 -

그래프 탐색(Graph Explore) 노드 - 결과

- 44 -

6.4.2 이득행렬(Profit Matrix)의 이용

- 45 -

기대이득의 계산

- 46 -

모델비교(Model Comparison) 노드 - 결과

- 47 -

- 48 -

차례

6.6 연습문제

기타 모형화 노드들

앙상블(Ensemble) 노드

자동신경망(AutoNeural) 노드

Dmine 회귀분석(Dmine Regression) 노드

DM 신경망(DMNeural) 노드

그래디언트 부스팅(Gradient Boosting) 노드

LAR(Least Angle Regression)s 노드

MBR(Memory-Based Reasoning) 노드

부분최소제곱법(Partial Least Squares) 노드

규칙추론(Rule Induction) 노드

SVM(Support Vector Machine) 노드

- 49 -

여러 가지 모형화 노드들

- 50 -

앙상블 노드의 속성 패널

모델비교(Model Comparison) 노드 - 결과

- 51 -

- 52 -

차례

6.6 연습문제

Bagging 방법을 위한 다이어그램

- 53 -

그룹 시작 노드의 속성 패널

9주차 예측모형에 대한 평가 -...

Documents

한국 국회의원의 의정 활동에 대한 평가: 17대...

contentscontents.kocw.net/kocw/document/2014/gacheon/... ·...

온라인 패션 유통업자와 타 제품 유통업자 간...

자연적 구분법을 이용한 건축물 용도별...

옴 / 머릿니 예방 및 관리 지침보건소의...

도급금지도급승인 제도 운영지침 -...

2015년도 인성교육 3.0 교과목...

ipcc의 제4차 평가 보고서에 대한 실무그룹Ⅱ...

예술강사 교육활동 및 운영학교 평가...

국내 광량 평가 기준에 대한 고찰 · 2020. 3....

선박의 의장시스템에 대한 안전성 및 redundancy...

대차프레임 용접조인트에 대한 시편...

an introduction to systematic review...체계적 고찰...

중국 중국 국유기업의 개혁에 대한 평가 및...

2012년도 시행계획 -...

2019 교무학사 업무매뉴얼(중등)-최종(20190220) -...

1210541 김희선 9주차 발표

취약계층 임산부 어머니 영유아 대상...

조사개요 년 트렌드 전망에 대한 평가 년 대...

대학발전계획 2021 에 대한 3차년도(2019년)...