9주차 예측모형에 대한 평가 -...
TRANSCRIPT
≪ 9주차 ≫ 예측모형에 대한 평가
Assessment of Predictive Model
빅데이터 분석을 위한
데이터마이닝 방법론 SAS Enterprise Miner 활용사례를 중심으로
최종후, 강현철
- 2 -
차례
6.1 모형평가의 기본 개념
6.2 모델 비교(Model Comparison) 노드
6.3 임계치(Cutoff) 노드
6.4 의사결정(Decisions) 노드
6.5 기타 모형화 노드들
6.6 연습문제
- 3 -
Regression Analysis :
6.1.1 목표변수가 구간형인 경우(Supervised Prediction)
Obs.
1
2
3
4
5
6
7
Sex
F
M
F
F
F
M
F
Age
18
25
67
43
28
53
42
Region
A
D
D
B
A
C
A
125
35
150
45
13
38
20
120
38
147
53
15
36
21
y
p p x b x b x b a y + + + + = L 2 2 1 1 ^
y ̂
- 4 -
… 목표변수가 구간형인 경우
Regression Tree
평균 9.25n 120
A, B, C
평균 28.6n 310
D, E
지역
평균 23.21n 430
<= 40
평균 37.23n 76
> 40
연령
제품구매력평균 22.53n 506
Mean of each node ^ = y
- 5 -
… 목표변수가 구간형인 경우
125
35
150
45
13
38
20
120
38
147
53
15
36
21
i y i y ^
5
-3
3
-8
-2
2
-1
i e /
SSE ASE -
1
2 n e n
n
i
i = =
=
[ ] ) 1 TSS/( MSE/ 1 adj - 2 - - = n R
) ( 1 adj 0 2
R
( ) ) 1 ( 2 SSE/n log AIC - + + = p n e
) /( SSE
MSE - 1
2 p n e
p n
n
i
i - =
- =
=
- 6 -
6.1.2 목표변수가 범주형인 경우(Supervised Classification)
Obs.
1
2
3
4
5
6
7
Sex
F
M
F
F
F
M
F
Age
18
25
67
43
28
53
42
Region
A
D
D
B
A
C
A
1
0
1
1
0
0
0
0.75
0.12
0.93
0.53
0.15
0.31
0.12
y ) 1 ( P = y
Logistic Regression
P(y=1) ) exp( 1
) exp( ^
2 2 1 1
2 2 1 1
p p
p p
x b x b x b a
x b x b x b a
+ + + + +
+ + + + =
L
L
- 7 -
n %나쁨 143 90.51좋음 15 9.49 계 158 (48.92)
35세 미만
n %나쁨 0 0.00좋음 7 100.00 계 7 (2.17)
35세초과
연령
n %나쁨 143 86.67좋음 22 13.33 계 165 (51.08)
200만원이하
n %나쁨 24 48.98좋음 25 51.02 계 49 (15.17)
25세미만
n %나쁨 1 0.92좋음 108 99.08 계 109 (33.75)
25세초과
연령
n %나쁨 25 15.82좋음 133 84.18 계 158 (48.92)
200만원이상
월소득
신용상태나쁨 168 52.01%좋음 155 47.99% 계 323 (100.00)
… 목표변수가 범주형인 경우
Classification Tree
i i n n y / ) 1 P( 1 = = ^
- 8 -
… 목표변수가 범주형(구간형)인 경우
) ( 1 2 21 1 11 1 1 1 p p X w X w X w b f H + + + + = L
) ( 2 2 22 1 12 2 2 2 p p X w X w X w b f H + + + + = L
) ( 2 20 1 10 0 H w H w b g Y + + =
결합함수 활성함수
절편(bias) 연결강도
X1
X2
…
Xp
H1
H2
y Neural Network Multi-Layer Perceptron
- 9 -
차례
6.1 모형평가의 기본 개념
6.2 모델 비교(Model Comparison) 노드
6.3 임계치(Cutoff) 노드
6.4 의사결정(Decisions) 노드
6.5 기타 모형화 노드들
6.6 연습문제
6.2.1 분석사례 - 1: 구간형 목표변수
- 10 -
모델 비교(Model Comparison) 노드 - 결과
- 11 -
모델 비교(Model Comparison) 노드 - 결과: 출력
- 12 -
회귀(Regression) 노드 - 속성 패널과 출력 결과
- 13 -
회귀 노드의 속성 패널
- 14 -
6.2.2 분석사례 - 2: 이항형 목표변수
0.75
0.12
0.93
0.53
0.15
0.31
0.12
) 1 ( P = y
1
0
1
1
0
0
0
y
0
1
1
0.30
0.41
0.75
1
0
1
1
0
0
0
) y 50 . 0 ( ^
0
0
1
1
0
1
1
0
1
0
1
1
1
Modeling Cut-off value
(Threshold)
Discriminant
판별
Classification
분류
) y 25 . 0 ( ^
- 15 -
임계치에 따른 분류 정확도
5 0
1 4
5
5
0 1
1
0
6 4
Predicted
10
3 2
0 5
5
5
0 1
1
0
3 7
Predicted
10 오류율 (Error rate)
= (false negative + false positive)/(grand total) = (1+0)/10 = 10%
정확도 (Accuracy)
= (true negative + true positive)/(grand total) = (5+4)/10 = 90%
민감도 (Sensitivity)
= (true positive)/( total actual positive) = 4/5 = 80%
특이도 (Specificity)
= (true negative)/( total actual negative) = 5/5 = 100%
(0+2)/10 = 20%
(3+5)/10 = 80%
5/5 = 100%
3/5 = 60%
) y 50 . 0 ( ^ ) y 25 . 0 ( ^
- 16 -
No-Data Rule
0 44
0 106
44
106
Predicted Class
Actual Class
0 1
1
0
0 150 150
Accuracy = 106/150 = 71%
오류율, 정확도, 민감도, 특이도 등은 임계치에 따라 달라지므로, 임계치에 의존하지
않는 모형평가 도구가 필요하다.
- 17 -
향상도 테이블(Lift Table)
Decile
1
2
3
4
5
6
7
8
9
10
Y=1
174
110
38
14
11
10
7
10
3
4
%Captured
174/381=45.6
110/381=28.8
38/381= 9.9
14/381= 3.6
11/381= 2.8
10/381= 2.6
7/381= 1.8
10/381= 2.6
3/381= 0.7
4/381= 1.0
%Response
174/200=87.0
110/200=55.0
38/200=19.0
14/200= 7.0
11/200= 5.5
10/200= 5.0
7/200= 3.5
10/200= 5.0
3/200= 1.5
4/200= 2.0
Lift
87.0/19=4.57
55.0/19=2.89
19.0/19=1.00
7.0/19=0.36
5.5/19=0.28
5.0/19=0.28
3.5/19=0.18
5.0/19=0.26
1.5/19=0.07
2.0/19=0.10
≪ Example ≫ n = 2000, 1 = 381
Baseline = 381/2000 = 19 %
향상도 그래프(Lift Chart)
- 18 -
0
10
20
30
40
50
60
70
80
90
100
1 2 3 4 5 6 7 8 9 10
%R
esp
on
se
- 19 -
누적 향상도 테이블(Cumulative Lift Table)
Decile
1
2
3
4
5
6
7
8
9
10
Y=1
174
284
322
336
347
357
364
374
377
381
%Captured
174/381=45.6
284/381=74.5
322/381=84.5
336/381=88.1
347/381=91.0
357/381=93.7
364/381=95.5
374/381=98.1
377/381=98.9
381/381=100
Lift
87.0/19=4.57
71.0/19=3.73
53.6/19=2.82
42.0/19=2.21
34.7/19=1.82
29.7/19=1.56
26.0/19=1.36
23.3/19=1.23
20.9/19=1.10
19.0/19=1.00
%Response
174/ 200=87.0
284/ 400=71.0
322/ 600=53.6
336/ 800=42.0
347/1000=34.7
357/1200=29.7
364/1400=26.0
374/1600=23.3
377/1800=20.9
381/2000=19.0
- 20 -
누적 향상도 그래프(Cumulative Lift Chart)
Selected Cases (%)
100
80
60
40
20
0
10 20 30 40 50 60 70 80 90 100
MRR
If 30% of the cases are selected, then 53.6% will respond, cumulative lift = 282%.
- 21 -
바람직한 향상도 그래프
0
20
40
60
80
100
1 2 3 4 5 6 7 8 9 10
0
20
40
60
80
100
1 2 3 4 5 6 7 8 9 10
0
20
40
60
80
100
1 2 3 4 5 6 7 8 9 10
Preferable Lift Chart
분석사례 - 2를 위한 다이어그램
- 22 -
모델 비교 노드의 속성 패널
모델 비교(Model Comparison) 노드 - 결과
- 23 -
≪예≫ 최적 향상도(최고의 성능을 가지는 모형)
- 24 -
데이터 옵션 대화상자
- 25 -
최적 향상도 그래프
- 26 -
향상도 테이블
- 27 -
정오분류표(Confusion Matrix, Classification Table)
- 28 -
≪예≫ 민감도와 특이도
- 29 -
- 30 -
ROC(Receiver Operation Characteristic) 그래프
Sensit
ivit
y
1 — Specificity
0.0 0.5 1.0 0.0
0.5
1.0
ROC(Receiver Operation Characteristic) 그래프
- 31 -
ROC 곡선과 향상도 그래프의 관계
- 32 -
매우 좋음
좋음
나쁨
ROC Lift Cumulative
Lift
모델 비교(Model Comparison) 노드 - 결과
- 33 -
≪예≫ 모형평가 결과의 요약
- 34 -
- 35 -
차례
6.1 모형평가의 기본 개념
6.2 모델 비교(Model Comparison) 노드
6.3 임계치(Cutoff) 노드
6.4 의사결정(Decisions) 노드
6.5 기타 모형화 노드들
6.6 연습문제
≪예≫ 절단값에 따른 정확도, 민감도, 특이도
- 36 -
임계치(Cutoff) 노드 - 결과
- 37 -
임계치(Cutoff) 노드 - 결과: 모델 짂단 테이블
- 38 -
임계치 노드의 속성 패널
컷오프(임계치) 설정 방법
User Input: 사용자 입력 임계값(Cutoff User Input) 필드에 사용자가
임계치를 설정한다.
Maximum KS Statistic: 분석용 데이터의 사전확률(prior probability)을
임계치로 설정한다.
Minimum Misclassification Cost Training Prior: 사전확률을 반영한 예
측오류 ‘FPX(1-prior)+FNXprior’가 최소가 되는 임계치를 설정한다.
Maximum True Pos Rate: 민감도(True Positive Rate)가 최대가 되는
임계치를 설정한다.
Maximum Event Precision From Training Prior: 이벤트 정밀도가 최대
가 되는 임계치를 설정한다.
Event Precision Equal Recall: 이벤트 정밀도와 민감도가 최대가 되는
임계치를 설정한다.
Maximum Cumulative Profit: 누적 이득이 최대가 되는 임계치를 설정
한다
- 39 -
임계치 설정에 따른 결과
- 40 -
- 41 -
차례
6.1 모형평가의 기본 개념
6.2 모델 비교(Model Comparison) 노드
6.3 임계치(Cutoff) 노드
6.4 의사결정(Decisions) 노드
6.5 기타 모형화 노드들
6.6 연습문제
분석사례 - 3을 위한 다이어그램
- 42 -
의사결정 노드의 속성 패널
6.4.1 사전확률(Prior Probability) 설정
π1, π2: 사전확률(Prior Probability)
ρ1, ρ2: 표본에서의 목표변수의 비율
사후확률(posterior probability)의 불편(unbiased) 추정치:
- 43 -
그래프 탐색(Graph Explore) 노드 - 결과
- 44 -
6.4.2 이득행렬(Profit Matrix)의 이용
- 45 -
기대이득의 계산
- 46 -
모델비교(Model Comparison) 노드 - 결과
- 47 -
- 48 -
차례
6.1 모형평가의 기본 개념
6.2 모델 비교(Model Comparison) 노드
6.3 임계치(Cutoff) 노드
6.4 의사결정(Decisions) 노드
6.5 기타 모형화 노드들
6.6 연습문제
기타 모형화 노드들
앙상블(Ensemble) 노드
자동신경망(AutoNeural) 노드
Dmine 회귀분석(Dmine Regression) 노드
DM 신경망(DMNeural) 노드
그래디언트 부스팅(Gradient Boosting) 노드
LAR(Least Angle Regression)s 노드
MBR(Memory-Based Reasoning) 노드
부분최소제곱법(Partial Least Squares) 노드
규칙추론(Rule Induction) 노드
SVM(Support Vector Machine) 노드
- 49 -
여러 가지 모형화 노드들
- 50 -
앙상블 노드의 속성 패널
모델비교(Model Comparison) 노드 - 결과
- 51 -
- 52 -
차례
6.1 모형평가의 기본 개념
6.2 모델 비교(Model Comparison) 노드
6.3 임계치(Cutoff) 노드
6.4 의사결정(Decisions) 노드
6.5 기타 모형화 노드들
6.6 연습문제
Bagging 방법을 위한 다이어그램
- 53 -
그룹 시작 노드의 속성 패널