- data mining techniques
DESCRIPTION
- Data Mining Techniques. Site Research. Ⅰ. 데이터마이닝. 1. 데이터마이닝이란 ?. Data mining is the exploration and analysis, by automatic or semiautomatic means, of large quantities of data in order to discover meaningful patterns and rules. 대용량의 데이터로부터 이들 데이터 내에 존재하는 관계 , 패턴 , 규칙 등을 탐색하고 - PowerPoint PPT PresentationTRANSCRIPT
- Data Mining Techniques
Site ResearchSite Research
Ⅰ. 데이터마이닝
3
1. 데이터마이닝이란 ?
Data mining is the exploration and analysis, by automatic or semiautomatic means,
of large quantities of data in order to discover meaningful patterns and rules.
대용량의 데이터로부터 이들 데이터 내에 존재하는 관계 , 패턴 , 규칙 등을 탐색하고
찾아내어 모형화 함으로써 유용한 지식을 추출하는 일련의 과정들 .
Data mining is the exploration and analysis, by automatic or semiautomatic means,
of large quantities of data in order to discover meaningful patterns and rules.
대용량의 데이터로부터 이들 데이터 내에 존재하는 관계 , 패턴 , 규칙 등을 탐색하고
찾아내어 모형화 함으로써 유용한 지식을 추출하는 일련의 과정들 .
4
데이터 획득
DW
데이터 정제 및 변환
Screen
데이터 분석
모형구축 및 평가일반화지식 발견
2. 데이터마이닝 과정
5
판 별 (Classification) 판 별 (Classification)
3. 데이터 마이닝의 유용성
기 술 (Description) 기 술 (Description)
군 집 (Clustering) 군 집 (Clustering)
유사그룹 (Affinity Group) 유사그룹 (Affinity Group)
예 측 (Prediction) 예 측 (Prediction)
추 정 (Estimation) 추 정 (Estimation)
Decision Tree, Memory-based reasoning, Link analysis
Market basket analysis
Cluster analysis
Association rules
Decision Tree, Memory-based reasoning,
Link analysis, Neural network
Neural Network
Task Technique
6
Bottom-up approach
-The data suggests new hypotheses to test
Bottom-up approach
-The data suggests new hypotheses to testTop-down approach
- Hypotheses dictate the data
to be analyzed
1. Generate good ideas
2. Determine what data would
allow these hypotheses to be
tested
3. Locate the data
4. Prepare the data for analysis
5. Build computer models based
on the data
6. Evaluate computer models to
confirm or reject hypotheses
Top-down approach
- Hypotheses dictate the data
to be analyzed
1. Generate good ideas
2. Determine what data would
allow these hypotheses to be
tested
3. Locate the data
4. Prepare the data for analysis
5. Build computer models based
on the data
6. Evaluate computer models to
confirm or reject hypotheses
지식 발견(Knowledge discovery)
지식 발견(Knowledge discovery)
가설 검정(Hypothesis testing)
가설 검정(Hypothesis testing)
4. 데이터 마이닝 방법론
Directed method
- to explain relationships
1. Identify sources of
reclassified data
2. Prepare data for analysis
3. Build and train a computer
model
4. Evaluate the computer
model
Directed method
- to explain relationships
1. Identify sources of
reclassified data
2. Prepare data for analysis
3. Build and train a computer
model
4. Evaluate the computer
model
Undirected method
-to recognize relationships
1. Identify sources of data
2. Prepare data for analysis
3. Build and train a computer
model
5. Evaluate the computer model
6. Apply the computer model to
new data
7. Identify potential targets for
directed knowledge discovery
8. Generate new hypotheses to
test
Undirected method
-to recognize relationships
1. Identify sources of data
2. Prepare data for analysis
3. Build and train a computer
model
5. Evaluate the computer model
6. Apply the computer model to
new data
7. Identify potential targets for
directed knowledge discovery
8. Generate new hypotheses to
test
7
5. 데이터 마이닝 효과측정
기술모델 측정
(Measuring descriptive model)
기술모델 측정
(Measuring descriptive model)MDL(Minimum Description Length)MDL(Minimum Description Length)
예측모델 측정
(Measuring predictive model)
예측모델 측정
(Measuring predictive model)
판별 , 예측 : 오분류율 (Error rate)
추정 : 표준편차 (Standard deviation)
연관성 : 신뢰도 (Confidence), 향상도 (Support)
군집 : 거리 (Distance)
판별 , 예측 : 오분류율 (Error rate)
추정 : 표준편차 (Standard deviation)
연관성 : 신뢰도 (Confidence), 향상도 (Support)
군집 : 거리 (Distance)
결과 측정 (Measuring model)결과 측정 (Measuring model)
Lift
ROC 도표
Response threshold
Lift
ROC 도표
Response threshold
효과측정 (Measuring impact)효과측정 (Measuring impact) LTV(Lifetime Value)LTV(Lifetime Value)
8
6. 데이터 마이닝 기법
시장 바구니 분석(Market basket analysis)
시장 바구니 분석(Market basket analysis)
동시에 발생한 사건들 (transaction) 중에 항목들의 군집화(clustering of items) 를 위한 분석방법 (Association rules)
동시에 발생한 사건들 (transaction) 중에 항목들의 군집화(clustering of items) 를 위한 분석방법 (Association rules)
기계적 군집 발견(Automatic cluster detection)
기계적 군집 발견(Automatic cluster detection)
데이터 내에서 사전에 알려지지 않은 유사성 (similarity) 을찾는데 사용되는 방법데이터 내에서 사전에 알려지지 않은 유사성 (similarity) 을찾는데 사용되는 방법
신경망 분석(Artificial neural network)
신경망 분석(Artificial neural network)
데이터 내에서 반복적인 학습과정을 통해 내제되어 있는 패턴을찾아내는 분석방법데이터 내에서 반복적인 학습과정을 통해 내제되어 있는 패턴을찾아내는 분석방법
의사결정나무(Decision tree)
의사결정나무(Decision tree)
의사결정규칙을 나무구조로 표현하여 분류 (classification) 와 예측 (prediction) 을 수행하는 분석방법의사결정규칙을 나무구조로 표현하여 분류 (classification) 와 예측 (prediction) 을 수행하는 분석방법
G.A.
(Genetic algorithm)
G.A.
(Genetic algorithm)
연결고리 분석
(Link analsys)
연결고리 분석
(Link analsys)
Ⅱ. 시장바구니분석
10
1. 시장 바구니 분석 - 연관성 규칙
시장 바구니 분석은 연관성 규칙을 통해서 하나의 거래나 사건에 포함되어 있는 둘 이상의 품목들의 상호관련성을
발견하는 것
연관성 규칙의 일반적인 형태 : 조건과 반응 (if-then)
의미 있는 연관성 규칙 발견을 위한 평가도구 : 지지도 (support), 신뢰도 (confidence), 향상도 (lift)
시장 바구니 분석은 연관성 규칙을 통해서 하나의 거래나 사건에 포함되어 있는 둘 이상의 품목들의 상호관련성을
발견하는 것
연관성 규칙의 일반적인 형태 : 조건과 반응 (if-then)
의미 있는 연관성 규칙 발견을 위한 평가도구 : 지지도 (support), 신뢰도 (confidence), 향상도 (lift)
규칙 ‘ If A then B’ 의 지지도 (support)
= P(A and B) / N = (A 와 B 를 동시에 포함하는 거래의 수 ) / 전체 거래수
지지도는 두개의 항목이 동시에 일어날 확률을 나타낸다 .
‘If A then B’ 의 규칙의 지지도 = ‘If B then A’ 의 규칙의 지지도
규칙 ‘ If A then B’ 의 지지도 (support)
= P(A and B) / N = (A 와 B 를 동시에 포함하는 거래의 수 ) / 전체 거래수
지지도는 두개의 항목이 동시에 일어날 확률을 나타낸다 .
‘If A then B’ 의 규칙의 지지도 = ‘If B then A’ 의 규칙의 지지도
규칙 ‘ If A then B’ 의 신뢰도 (confidence)
= P(B|A) = (A 와 B 를 동시에 포함하는 거래의 수 ) / 품목 A 를 포함하는 거래수
규칙 ‘ If A then B’ 의 신뢰도 규칙 ‘ If B then A’ 의 신뢰도
규칙 ‘ If A then B’ 의 신뢰도 (confidence)
= P(B|A) = (A 와 B 를 동시에 포함하는 거래의 수 ) / 품목 A 를 포함하는 거래수
규칙 ‘ If A then B’ 의 신뢰도 규칙 ‘ If B then A’ 의 신뢰도
규칙 ‘ If A then B’ 의 향상도 (lift)
= P(B|A)/P(B) = (A 와 B 를 동시에 포함하는 거래 수 )/(A 를 포함하는 거래수 *B 를 포함하는 거래수 )
이는 실제의 신뢰도를 독립성 가정하에서 나눈 값이며 이는 또한 실제의 지지도를 독립가정하에서의 지지도로
나눈 값과 동일하며 , 의미 있는 연관성 규칙이 되려면 리프트값이 1 이상이어야 한다 .
규칙 ‘ If A then B’ 의 향상도 (lift)
= P(B|A)/P(B) = (A 와 B 를 동시에 포함하는 거래 수 )/(A 를 포함하는 거래수 *B 를 포함하는 거래수 )
이는 실제의 신뢰도를 독립성 가정하에서 나눈 값이며 이는 또한 실제의 지지도를 독립가정하에서의 지지도로
나눈 값과 동일하며 , 의미 있는 연관성 규칙이 되려면 리프트값이 1 이상이어야 한다 .
11
고객의 토핑 추가 LIST
2. 시장 바구니 분석 - 연관성 예제 1
거 래 수 항목이 포함된 거래 수 토핑 추가 확률
버섯 100 100+400+300+100=900 0.45
페페로니 150 150+400+200+100=850 0.425
치즈 200 200+300+200+100=800 0.40
버섯 + 페페로니 400 400+100=500 0.25
버섯 + 치즈 300 300+100=400 0.20
페페로니 + 치즈 200 200+100=300 0.15
버섯 + 페페로니 + 치즈 100 100 0.05
토핑 안함 550
합 계 2,000 전체거래건수 : 2,000
규칙 지지도 (support) 신뢰도 (confidence) 향상도 (lift)
( 버섯 + 페페로니 ) 치즈 100/2,000=0.05 0.05 / 0.25 = 0.20 0.05 / (0.25*0.40) = 0.5
( 버섯 + 치즈 ) 페페로니 100/2,000=0.05 0.05 / 0.20 = 0.25 0.05 / (0.20*0.425) = 0.59
( 페페로니 + 치즈 ) 버섯 100/2,000=0.05 0.05 / 0.15 = 0.33 0.05 / (0.15*0.45) = 0.74
버섯 페페로니 400/2,000=0.20 0.25 / 0.45 = 0.56 0.25 / (0.45*0.425) = 1.31
12
3. 시장 바구니 분석 – 연관성 예제 2
연관성 분석 모드 : By context | 연관성분석에 사용된 항목들의 최대 항목의 수 : 2 | 최저 신뢰도 : 30%
[ 제품구입 결과에 대한 연관성 분석 결과 ]
향상도 (lift) 지지도 (support) 신뢰도 (confidence)
Software Hardware 1.78 12.77 47.55(=>) , 47.93(<=)
생활용품 가전제품 1.69 11.60 43.67(=>) , 45.00(<=)
CD/ 비디오 Software 1.33 12.24 35.62(=>) , 45.57(<=)
CD/ 비디오 Hardware 1.18 10.81 31.47(=>) , 40.58(<=)
CD/ 비디오 책 1.18 21.25 61.87(=>) , 40.48(<=)
공연티켓 책 1.17 12.85 61.18
가전제품 CD/ 비디오 1.15 10.17 39.44
생활용품 CD/ 비디오 1.13 10.29 38.76
생활용품 책 1.12 15.63 58.85
의류제품 책 1.12 10.86 58.67
13
연관성 분석 모드 : By context | 연관성분석에 사용된 항목들의 최대 항목의 수 : 2 | 최저 신뢰도 : 30%
[ 제품구입 결과에 대한 연관성 분석 결과 - 남자 ]향상도 (lift) 지지도 (support) 신뢰도 (confidence)
Software Hardware 1.48 17.18 51.85(=>) , 49.19(<=)
CD/ 비디오 책 1.18 21.50 61.86(=>) , 40.90(<=)
가전제품 책 1.09 16.08 57.21(=>) , 30.59(<=)
책 Hardware 1.08 19.91 37.86(=>) , 57.01(<=)
Software 책 1.08 18.87 56.95(=>) , 35.89(<=)
[ 제품구입 결과에 대한 연관성 분석 결과 - 여자 ]향상도 (lift) 지지도 (support) 신뢰도 (confidence)
책 CD/ 비디오 1.17 20.10 37.88(=>) , 61.86(<=)
책 생활용품 1.09 17.71 33.37(=>) , 57.82(<=)
책 미용 / 화장 1.01 16.42 30.95(=>) , 53.53(<=)
3. 시장 바구니 분석 – 연관성 예제 2
14
연관성 분석 모드 : By context | 연관성분석에 사용된 항목들의 최대 항목의 수 : 2 | 최저 신뢰도 : 50% | 향상도 >1.11
[ 인터넷의 평소 사용용도에 대한 대한 연관성 분석 결과 ]
향상도 (lift) 지지도 (support) 신뢰도 (confidence)
유료영화 유료정보 2.47 8.51 52.77
사이버증권 인터넷뱅킹 1.56 13.62 60.25
유료영화 성인사이트 1.42 11.54 71.57
유료영화 인터넷뱅킹 1.41 8.83 54.77
유료정보 인터넷뱅킹 1.37 11.35 53.23
유료정보 성인사이트 1.33 14.29 67.05
유료영화 전화 1.33 10.72 66.48
사이버증권 성인사이트 1.32 14.98 66.24
유료정보 전화 1.23 13.10 61.44
인터넷뱅킹 성인사이트 1.22 23.65 61.07
성인사이트 전화 1.20 30.34 60.37(=>) , 60.50(<=)
사이버증권 전화 1.20 13.60 60.14
인터넷뱅킹 전화 1.18 22.97 59.30
게임 채팅 1.18 34.65 52.01(=>) , 78.31(<=)
유료영화 방송청취 1.17 14.00 86.84
채팅 동호회 1.16 36.40 82.26(=>) , 51.13(<=)
방송청취 전화 1.15 42.98 57.91(=>) , 85.69(<=)
유료영화 게임 1.12 12.06 74.83
유료정보 방송청취 1.12 17.76 83.30
4. 시장 바구니 분석 – 연관성 예제 3
15
연관성 분석 모드 : By context | 연관성분석에 사용된 항목들의 최대 항목의 수 : 2 | 최저 신뢰도 : 50% | 향상도 >1.13
[ 인터넷의 평소 사용용도에 대한 대한 연관성 분석 결과 - 남자 ]
향상도 (lift) 지지도 (support) 신뢰도 (confidence)
유료영화 유료정보 2.32 10.23 54.84
사이버증권 인터넷뱅킹 1.48 17.21 61.5
유료정보 인터넷뱅킹 1.36 13.37 56.57
유료영화 인터넷뱅킹 1.36 10.52 56.40
유료영화 전화 1.27 13.04 69.88
유료영화 성인사이트 1.23 15.01 80.45
유료정보 성인사이트 1.22 18.85 79.73
유료정보 전화 1.21 15.66 66.26
동호회 채팅 1.17 36.16 52.42(=>) , 80.94(<=)
게임 채팅 1.17 36.40 52.36(=>) , 81.48(<=)
유료영화 방송청취 1.17 16.29 87.32
전화 방송청취 1.15 47.50 86.40(=>) , 63.39(<=)
인터넷뱅킹 전화 1.15 26.23 63.16
사이버증권 성인사이트 1.15 20.93 74.80
인터넷뱅킹 성인사이트 1.14 31.01 74.68
유료정보 방송청취 1.13 20.04 84.78
전화 채팅 1.13 27.64 50.27(=>) , 61.86(<=)
유료정보 채팅 1.12 11.88 50.24
4. 시장 바구니 분석 – 연관성 예제 3
16
연관성 분석 모드 : By context | 연관성분석에 사용된 항목들의 최대 항목의 수 : 2 | 최저 신뢰도 : 50% | 향상도 >1.11
[ 인터넷의 평소 사용용도에 대한 대한 연관성 분석 결과 - 여자 ]향상도 (lift) 지지도 (support) 신뢰도 (confidence)
사이버증권 인터넷뱅킹 1.63 8.00 54.88
성인사이트 젼화 1.39 11.43 57.42
유료영화 전화 1.37 6.39 56.35
사이버증권 전화 1.35 8.11 55.66
성인사이트 게임 1.22 14.45 72.56
게임 채팅 1.19 29.84 50.12(=>) , 71.13(<=)
유료영화 방송청취 1.17 9.63 85.01
유료영화 게임 1.17 7.91 69.79
성인사이트 소프트웨어다운 1.16 16.32 81.98
성인사이트 방송청취 1.16 16.72 83.98
전화 방송청취 1.15 34.46 83.65
채팅 동호회 1.15 35.23 83.98
전화 소프트웨어다운 1.13 33.08 80.31
유료정보 소프트웨어다운 1.12 13.08 79.28
사이버증권 소프트웨어다운 1.11 11.48 78.76
4. 시장 바구니 분석 – 연관성 예제 3
17
연관성 분석 모드 : By context | 연관성분석에 사용된 항목들의 최대 항목의 수 : 2 | 최저 신뢰도 : 50% | 향상도 >1.11
[ 보유하고 있는 제품 또는 서비스에 대한 연관성 분석 결과 ]
향상도 (lift) 지지도 (support) 신뢰도 (confidence)
캐비넷형 냉장고 프로젝션 TV 2.58 5.81 31.40(=>) , 47.79(<=)
프로젝션 TV 드럼 세탁기 1.94 6.75 55.48
콘도 회원권 무비카메라 1.92 3.08 50.52
드럼세탁기 캐비넷형 냉장고 1.86 9.85 34.35
콘도회원권 김치냉장고 1.77 2.68 43.99
디지털카메라 스캐너 1.75 5.65 35.49
콘도회원권 가스오븐렌지 1.73 3.83 62.72
디지털카메라 무비카메라 1.67 6.98 43.86
콘도회원권 에어컨 1.61 4.70 77.11
식기세척기 김치냉장고 1.59 5.99 39.41
콘도회원권 CATV 1.58 3.14 51.47
식기세척기 가스오븐렌지 1.53 8.44 55.55
MP3 Player 스케너 1.51 5.72 30.59
스캐너 무비카메라 1.44 7.66 37.83
캐비넷형 냉장고 가스오븐렌지 1.44 9.62 51.96
가스오븐렌지 김치냉장고 1.36 12.21 33.73(=>) , 49.24(<=)
식기세척기 무비카메라 1.35 5.40 35.58
무비카메라 가스오븐렌지 1.32 12.61 47.87(=>) , 34.81(<=)
김치냉장고 에어컨 1.31 15.62 62.98(=>) , 32.57(<=)
식기세척기 에어컨 1.31 9.53 62.73
식기세척기 드럼세탁기 1.30 5.65 37.23
4. 시장 바구니 분석 – 연관성 예제 4
Ⅲ. 행렬도분석
19
1. 행렬도 분석 – 두 범주간의 관련성
행렬도 (biplot) 는 자료행렬에 대한 비정칙치 분해 (singular value decomposition) 를 통해 행그림과
열그림을 구하고 그들을 하나의 그림에 동시에 나타내어 그들의 관계를 파악하는 다변량 그래프적
분석기법 이다 .
행렬도는 크게 요인행렬도 (principal component factor biplot) 과 주성분행렬도 (principal
component biplot) 으로 구분되며 , 요인행렬도는 변수간의 상관관계에 더 관심이 있을 때 사용할 수
있으며 주성분행렬도는 개체들간의 거리관계에 더 관심이 있을 때 사용할 수 있다 .
20
2. 행렬도 분석 예제 1
GGU
Thu
USN
DJDBSW
GPOYTG
SBS
FriSat
SSO
KHE
YDP
ASN
WedDDJ
CWNASATGU
UNGDSW
CGK
JJN
GYA
DGJ
DDM
BCSGCN
Tue
MonUJB
GJA
GSK
CTCSun
21
* 고객들이 이용하는 은행과 카드에 대한 주요 은행과 주요 카드사에 대한 빈도표임
국민카드 BC 카드 삼성카드 LG 카드 외환카드
국민은행 2728 470 476 473 157
기업은행 95 311 157 165 38
농 협 225 1049 539 492 130
신한은행 141 159 252 233 68
외환은행 128 149 244 254 866
제일은행 58 303 130 160 41
조흥은행 203 1545 403 449 110
주택은행 149 868 291 266 88
한빛은행 233 1069 569 484 133
2. 행렬도 분석 예제 2
22
국민카드
BC카드
LG카드/삼성카드
기업은행제일은행
주택은행/한빛은행/농협
조흥은행
신한은행국민은행
외환카드 외환은행
-4
-2
0
2
4
6
8
-8 -6 -4 -2 0 2 4 6 8
카드회사의 시장점유는 크게 국민카드 , 외환카드 , BC 카드 3 사로 형성되어 있으며 이들과 관련 깊은
은행들은 국민카드는 국민은행 , 외환카드는 외환은행과 신한은행 , BC 카드 ( 삼성 ,LG 카드 ) 는 기타 은행
( 기업 / 제일 / 주택 / 한빛 / 농협 / 조흥은행 ) 들과 높은 관계를 나타내고 있다 .
카드회사의 시장점유는 크게 국민카드 , 외환카드 , BC 카드 3 사로 형성되어 있으며 이들과 관련 깊은
은행들은 국민카드는 국민은행 , 외환카드는 외환은행과 신한은행 , BC 카드 ( 삼성 ,LG 카드 ) 는 기타 은행
( 기업 / 제일 / 주택 / 한빛 / 농협 / 조흥은행 ) 들과 높은 관계를 나타내고 있다 .
2. 행렬도 분석 예제 2
23
LG 화재 동부화재 동양화재 삼성화재 현대해상쏘나타 489 656 311 1504 803
갤로퍼 103 106 32 223 123
그랜저 86 156 62 277 139
누비라 146 148 70 327 95
레간자 85 100 42 223 75
마티즈 133 164 74 304 129
상용차 103 179 49 302 163
세피아 261 319 146 682 245
아반테 380 352 179 970 438
에스페로 98 116 44 278 96
엑센트 243 247 126 632 257
엘란트라 255 265 147 654 300
카렌스 78 94 43 204 104
크레도스 133 146 67 337 138
프라이드 177 214 107 460 175
프린스 131 184 78 315 128
2. 행렬도 분석 예제 3
24
동부화재
동양화재
삼성화재LG화재
현대해상
프라이드
크레도스
카렌스
엘란트라엑센트
에스페로
아반테
세피아
상용차
마티즈
그랜저
레간자
프린스
누비라갤포퍼
쏘나타
2. 행렬도 분석 예제 3
Ⅳ. 의사결정나무분석
26
1. 의사결정나무 – Decision Trees
의사결정나무의 주요 알고리즘 CHAID(Chi-squared automatic induction, Hartigan, 1975) CART(classification and regression trees, Brieman, 1984) C4.5(?,Quinlan, 1993)
범주형 목표변수에 적용되는 분리기준 (splitting rule)카이스케어 통계량 p-value지니 지수 (gini index)엔트로피 지수 (entropy index)
연속형 목표변수에 적용되는 분리기준 (splitting rule)
분산분석 F 통계량
분산 감소량 (variance reduction)
의사결정나무 분석과정
의사결정나무의 형성 가지치기 타탕성 평가 해석 및 예측
의사결정규칙 (decision rule) 을 바탕으로 분류 (classification) 와 예측 (prediction) 을 하는 분석 방법이다 . 의사결정규칙 (decision rule) 을 바탕으로 분류 (classification) 와 예측 (prediction) 을 하는 분석 방법이다 .
27
2. 의사결정나무 – Decision Trees
yes no1
yes no
yes
뿌리 마디 (root node) : 나무구조의 시작으로 목표변수의
형태를 파악할 수 있다 . 1 번
뿌리 마디 (root node) : 나무구조의 시작으로 목표변수의
형태를 파악할 수 있다 . 1 번
23
1
47
65
중간마디 (internal node) : 나무구조에서 중간에 위치한
마디로서 이 마디는 다시 분리규칙에 의해 분리된다 . 3 번 ,
4 번 마디
중간마디 (internal node) : 나무구조에서 중간에 위치한
마디로서 이 마디는 다시 분리규칙에 의해 분리된다 . 3 번 ,
4 번 마디
끝마디 (terminal node, leaf) : 나무구조의 끝에 위치한
마디로서 끝마디의 개수만큼 분류규칙이 생성된다 . 2 번 ,
5 번 , 6 번 , 7 번
끝마디 (terminal node, leaf) : 나무구조의 끝에 위치한
마디로서 끝마디의 개수만큼 분류규칙이 생성된다 . 2 번 ,
5 번 , 6 번 , 7 번
부모마디 (parent node) 와 자식마디 (child node) : 분리
되기 전의 마디를 부모 마디라 하고 분리되어진 2 개 이상의
마디를 자식 마디라 한다 . 4 번 노드를 부모노드로 볼 때
이 마디의 자식마디는 5 번과 6 번이다 .
부모마디 (parent node) 와 자식마디 (child node) : 분리
되기 전의 마디를 부모 마디라 하고 분리되어진 2 개 이상의
마디를 자식 마디라 한다 . 4 번 노드를 부모노드로 볼 때
이 마디의 자식마디는 5 번과 6 번이다 .
no
28
사용여부 (30186)
YES 38.0% 38.7%
NO 62.0% 61.3%
YES 11480 5012
NO 18706 7925
YES 46.3% 778
NO 53.7% 901
YES 62.0% 3211
NO 38.0% 1964
YES 44.8% 3957
NO 55.2% 4872
YES 30.5% 481
NO 695% 1097
1
2
3
4
5
3. 의사결정나무 예제
1
2 3 4
YES 23.6% 3053
NO 76.4% 9872
5
10 대 , 20 대초반
30 대이상 , 여자
30 대이상 , 남자
20 대 후반 , 신용카드 보유
20 대후반 , 신용카드 미 보유
29
4. 의사결정나무의 모형 평가 도구
P_PAYSERVEyes : predicted payserve yes
I_PAYSERVE : into payserve
F_PAYSERVE : from payserve
P_PAYSERVEyes 가 분류기준 0.5 를 넘으면 I_PAYSERVE 가 YES 로 분류된다 .
구축된 모형으로부터의 사후확률을 이용하여 구축된 모형에 대한 평가를 할 수 있는 도구들이다 .
이 도구들을 이용하여 하나의 결과에 여러 개의 모형을 구축하고 가장 적정한 구축 모형을 선택할 수 있다 .
Lift Chart, Response Threshold Chart,ROC Chart
Threshold-based Chart, Correct classification, Interactive Profit
구축된 모형으로부터의 사후확률을 이용하여 구축된 모형에 대한 평가를 할 수 있는 도구들이다 .
이 도구들을 이용하여 하나의 결과에 여러 개의 모형을 구축하고 가장 적정한 구축 모형을 선택할 수 있다 .
Lift Chart, Response Threshold Chart,ROC Chart
Threshold-based Chart, Correct classification, Interactive Profit
30
5. Lift Chart - %Captured Response
앞에서 설정한 나무모형을 이용하여 특정 고객에 대한
모형화를 할 경우 그렇지 않은 경우보다 더욱 효율적
이다는 것을 알 수 있으며 , 특히 모집단의 상위 40%정도를
샘플링하여 특정 고객에 대한 판별을 할 경우
약 60% 정도의 향상을 가져옴을 알 수 있다 .
리프트가 의미하는 것은 전체 모집단으로부터 우리가 원하는 치우친 샘플 (biased sample) 을 선택하기위한 모델을 설정했을 때 관심이가는 그룹에 대한 변화의 정도를 나타낸다 .
Lift = P( 관심이 가는 그룹에 속하는 사람 | 샘플 ) / P( 관심이 가는 그룹에 속하는 사람 | 모집단 ) 리프트는샘플의 크기에 대한 함수로써 , X 축은 모집단에서의 퍼센트를 나타내고 , Y 축은 관심이 가는 집단에 속한 사람들의 퍼센트를 나타낸다 . 리프트차트에서 45 도 각도의 직선은 모델이 고려되지 않았을 때의 반응을 나타내며 , 다른 하나의 선은 모형이 고려되었을 때의 향상도 , 즉 리프트를 나타낸다 .
리프트가 의미하는 것은 전체 모집단으로부터 우리가 원하는 치우친 샘플 (biased sample) 을 선택하기위한 모델을 설정했을 때 관심이가는 그룹에 대한 변화의 정도를 나타낸다 .
Lift = P( 관심이 가는 그룹에 속하는 사람 | 샘플 ) / P( 관심이 가는 그룹에 속하는 사람 | 모집단 ) 리프트는샘플의 크기에 대한 함수로써 , X 축은 모집단에서의 퍼센트를 나타내고 , Y 축은 관심이 가는 집단에 속한 사람들의 퍼센트를 나타낸다 . 리프트차트에서 45 도 각도의 직선은 모델이 고려되지 않았을 때의 반응을 나타내며 , 다른 하나의 선은 모형이 고려되었을 때의 향상도 , 즉 리프트를 나타낸다 .
31
6. Lift Chart 의 형태 – 누적 (Cumulative)
%Response
%Lift Value %Profit
%Captured Response
32
7. ROC Chart
특정고객에 대한 나무구조분석을 통해
모형이 모형을 설정하지 않았을 때 보다 효과적
임을 알 수 있다 .
이러한 ROC 차트는 빨간색 부분과 같은 형태를
가질수록 더욱 효과적이라는 의미를 가지게 된다 .
• ROC 차트는 사후확률과 각 분류기준값에 의해 오분류행렬을 만든 다음 , 특이도와 민감도를 통해 모형을 평가한다 . • 사후확률은 구축된 모형을 통해 종속변수 ( 목표변수 ) 가 특정 범주에 속할 확률을 의미한다 . • 분류기준값 (cut-off, threshold) 은 사후확률을 통해 각각의 관찰치를 특정 범주에 분류할 때 사용 하는 기준값으로 분류의 기준은 1/ 목표변수의 범주의 개수로 설정한다 .• 오분류행렬이란 목표변수의 실제 범주와 모형에 의해 예측된 분류범주 사이의 관계를 나타낸다 .• 민감도 (sensitivity) = ( 실제 1, 예측 1) 인 관찰치의 빈도 / 실제 1 인 관찰치의 빈도• 특이도 (specificity) = ( 실제 0, 예측 0) 인 관찰치의 빈도 / 실제 0 인 관찰치의 빈도
• ROC 차트는 사후확률과 각 분류기준값에 의해 오분류행렬을 만든 다음 , 특이도와 민감도를 통해 모형을 평가한다 . • 사후확률은 구축된 모형을 통해 종속변수 ( 목표변수 ) 가 특정 범주에 속할 확률을 의미한다 . • 분류기준값 (cut-off, threshold) 은 사후확률을 통해 각각의 관찰치를 특정 범주에 분류할 때 사용 하는 기준값으로 분류의 기준은 1/ 목표변수의 범주의 개수로 설정한다 .• 오분류행렬이란 목표변수의 실제 범주와 모형에 의해 예측된 분류범주 사이의 관계를 나타낸다 .• 민감도 (sensitivity) = ( 실제 1, 예측 1) 인 관찰치의 빈도 / 실제 1 인 관찰치의 빈도• 특이도 (specificity) = ( 실제 0, 예측 0) 인 관찰치의 빈도 / 실제 0 인 관찰치의 빈도
33
8. Response Threshold Chart
사후확률과 분류기준값 및 목표변수의 특정
범주의 빈도를 이용하여 평가한다 .
Response Threshold 차트는 분류기준값이
변화함에 따라 모형의 분류결과가 얼마나
적은 변동을 가지는지를 파악하기 위해
사용한다 .
옆의 그림은 사후확률이 대체로 0.6 보다 작아
높은 분류기준값을 설정할 경우에는 분류를
제대로 하고 있지 못하며 의사결정을 위한
분류기준값이 0.3 에서 0.5 사이에 이루어져야
함을 보여주고 있다 .
34
9. Response-based Chart
Threshold-based 차트는 한 모형을 평가하기 위해 각 분류기준값별로 사후확률에 근거한 오분류행렬을 이용한다 . 오분류표와 이익행렬 (profit matrix) 을 이용하여 수익을 나타내는 이익도표를 작성하며 위의 왼쪽그림은 분류기준값을 0.5 로 했을 때의 결과이며 오른쪽은 분류기준값으로 0.4 를 했을때의 결과이다 . 분류기준값을 변경하면서 비교해보았을 때 이 값들 사이에서 분류기준값을 정하는 것이 타당하다는 생각을 할 수 있으며 추가적인 작업으로 correctclassification 을 고려할 수 있다 .
35
10. Correct classification
Correct classification 은 정분류율 , 민감도 , 특이도를 도표화한다 . 이 세개의 값을 모두 높게 하는 분류 기준값은 존재하지 않는다 . 따라서 이 들 셋 중 어느 하나가 지나치게 크거나 작지 않은 분류기준값을 찾는 것이 바람직하다 . 여기서는 대략 분류기준값으로 50을고려할 수 있음을 보여주고 있다 .
36
11. Interactive profit
지금까지 고려된 모형은 정분류에는 1 을 ,
오분류에는 0 이라는 이익이 발생한다는
가정하에서 모형이 구축되었으며 그 결과가
옆의 그림과 같다 . 그러나 실제로 이익행렬은
달라 질 수 있으며 이러한 형태를 직접 고려
하여 그 형태를 보아가며 분류기준값을 설정
할 수 있다 .
특정 제품 사용 여부에 대한 이익행렬을
Yes 를 Yes 로 에측하거나 No 를 No 로 예측
할 경우의 발생 이익을 1 로 그렇지 않은
오분류에서의 발생 이익을 0 으로 했을 때의
결과이다 .
Ⅴ. 로지스틱 회귀분석
38
1. 로지스틱 회귀분석
선형 회귀모형
로지스틱 회귀모형
사후확률
목표변수가 입력변수들에 의해서 어떻게 설명 또는 예측되는 지를 알아보기 위해 자료를
적절한 함수식으로 표현하여 분석하는 통계적 분석방법을 회귀분석이라 하며 , 특히
목표변수가 이분형 (dichotomous) 을 가질 때의 회귀분석을 로지스틱 회귀분석이라 한다 .
목표변수가 입력변수들에 의해서 어떻게 설명 또는 예측되는 지를 알아보기 위해 자료를
적절한 함수식으로 표현하여 분석하는 통계적 분석방법을 회귀분석이라 하며 , 특히
목표변수가 이분형 (dichotomous) 을 가질 때의 회귀분석을 로지스틱 회귀분석이라 한다 .
로지스틱 회귀분석의 목적 : 추정된 로짓모형을 이용하여 자료를 분류하기 위한 것이기 때문에 , 일반적인 판별분석과 비교하여 로지스틱 판별분석이라 부르며 , 목표변수에 대한 사후확률을 구하여 새로운 개체에 대한 판별을 한다 .
로지스틱 회귀분석의 목적 : 추정된 로짓모형을 이용하여 자료를 분류하기 위한 것이기 때문에 , 일반적인 판별분석과 비교하여 로지스틱 판별분석이라 부르며 , 목표변수에 대한 사후확률을 구하여 새로운 개체에 대한 판별을 한다 .
39
목적변수 – PAYSERVE( 온라인 상품 구매 이용여부 , 0: 이용한 적 없다 1: 이용한 적 있다 )
설명변수 – TYPE[ 인터넷이용형태 , 0 : LIGHT USER, 1: HEAVY USER)
SEX[ 성별 , 1 : 남자 , 2: 여자 ]
MAR[ 결혼 , 0: 미혼 , 1: 기혼 ]
I_PLACE[ 인터넷 주 이용장소 , HOUSE( 집 ), OFFICE( 사무실 ), GAMEROOM(PC 방 ), SCHOOL( 학교 )]
COMPUTER[ 보유컴퓨터 , DESKTOP, NOTEBOOK, NONE)
CAR[ 차량소유여부 , YES, NO]
CCARD[ 신용카드소유여부 , YES, NO]
BANK[ 은행계좌소유여부 , YES, NO]
INSU[ 자동차보험가입여부 , YES, NO]
GEN( 연령대 , 10 대 , 20 대초반 , 20 대후반 , 30 대이상 )
INCOME[ 소득 , LOW, MIDDLE, HIGH]
목적변수 – PAYSERVE( 온라인 상품 구매 이용여부 , 0: 이용한 적 없다 1: 이용한 적 있다 )
설명변수 – TYPE[ 인터넷이용형태 , 0 : LIGHT USER, 1: HEAVY USER)
SEX[ 성별 , 1 : 남자 , 2: 여자 ]
MAR[ 결혼 , 0: 미혼 , 1: 기혼 ]
I_PLACE[ 인터넷 주 이용장소 , HOUSE( 집 ), OFFICE( 사무실 ), GAMEROOM(PC 방 ), SCHOOL( 학교 )]
COMPUTER[ 보유컴퓨터 , DESKTOP, NOTEBOOK, NONE)
CAR[ 차량소유여부 , YES, NO]
CCARD[ 신용카드소유여부 , YES, NO]
BANK[ 은행계좌소유여부 , YES, NO]
INSU[ 자동차보험가입여부 , YES, NO]
GEN( 연령대 , 10 대 , 20 대초반 , 20 대후반 , 30 대이상 )
INCOME[ 소득 , LOW, MIDDLE, HIGH]
2. 로지스틱 회귀분석 예제 1
분석에 있어서 유료정보 서비스를 이용하는데 영향을 주는 요소로서 위와 같은 변수를 고려하였으며 , 2 차 교호작용도 함께 고려하였다 . 분석과정에서 2 차 교호작용이 들어가있는 모형이 조금 나았지만 그 차이가 아주 미미하여 좀 더 간단한 모형으로 설명하고자 교화 효과가 포함되지 않은 모형을 고려 하였고 그 결과가 다음과 같다 .
여기서는 온라인 패밀리카드 고객자료를 이용하여 어떠한 변수들이 인터넷 상에서
상품을 구입하는데 영향을 주는 변수인지 모형화를 통해 살펴보고자 한다 .
여기서는 온라인 패밀리카드 고객자료를 이용하여 어떠한 변수들이 인터넷 상에서
상품을 구입하는데 영향을 주는 변수인지 모형화를 통해 살펴보고자 한다 .
40
모형구축을 위한 통계적 방법 링크 한수 : Logit Function 가변수에 대한 코딩 : Deviation
변수선택방법 ; 단계적방법 (stepwise method) Criteria : Validation Error
최적화방법 : Newton-Raphson w/Ridging
모형구축을 위한 통계적 방법 링크 한수 : Logit Function 가변수에 대한 코딩 : Deviation
변수선택방법 ; 단계적방법 (stepwise method) Criteria : Validation Error
최적화방법 : Newton-Raphson w/Ridging
모형구축에 선택된 변수상수항 , car ccard, computer, gen, income, insu, mar, sex, type
Type III Analysis of Effects
Wald Pr >
Effect DF Chi-Square Chi-Square
car 1 14.7178 0.0001
ccard 1 266.9468 <.0001
computer 2 75.4109 <.0001
gen 3 267.5672 <.0001
income 2 77.0948 <.0001
insu 1 60.2473 <.0001
MAR 1 59.7892 <.0001
SEX 1 406.7122 <.0001
type 1 181.6564 <.0001
2. 로지스틱 회귀분석 예제 1
41
Type Heavyuser 1
LightUser -1
SEX 1 1
2 -1
MAR 0 1
1 -1
i_place Gamer 1 0 0
House 0 1 0
Office 0 0 1
School -1 -1 -1
gen 10 대 1 0 0
20 초 0 1 0
20 후 0 0 1
30 하 -1 -1 -1
computer desktop 1 0
none 0 1
notebook -1 -1
car no 1
yes -1
ccard no 1
yes -1
bank no 1
yes -1
insu no 1
yes -1
income hig 1 0
low 0 1
mid -1 -1
Input Class Level Information Input Class Level Information
2. 로지스틱 회귀분석 예제 1
42
Analysis of Maximum Likelihood Estimates
Standard Wald Pr >
Parameter DF Estimate Error Chi-square Chi-square exp(Est)
Intercept 1 -0.7614 0.0258 868.17 <.0001 0.467
car no 1 -0.0571 0.0149 14.72 0.0001 0.944
ccard no 1 -0.2808 0.0172 266.95 <.0001 0.755
computer desktop 1 0.000373 0.0208 0.00 0.9857 1.000
computer none 1 -0.2358 0.0321 53.82 <.0001 0.790
gen 10 대 1 -0.4132 0.0383 116.19 <.0001 0.662
gen 20 초 1 -0.2097 0.0251 69.61 <.0001 0.811
gen 20 후 1 0.1281 0.0221 33.47 <.0001 1.137
income hig 1 0.2007 0.0233 74.15 <.0001 1.222
income low 1 -0.1423 0.0274 26.92 <.0001 0.867
insu no 1 -0.1082 0.0139 60.25 <.0001 0.897
MAR 0 1 -0.1432 0.0185 59.79 <.0001 0.867
SEX 1 1 0.2833 0.0140 406.71 <.0001 1.328
type Heavyuser 1 0.1728 0.0128 181.66 <.0001 1.189
Analysis of Maximum Likelihood Estimates
Standard Wald Pr >
Parameter DF Estimate Error Chi-square Chi-square exp(Est)
Intercept 1 -0.7614 0.0258 868.17 <.0001 0.467
car no 1 -0.0571 0.0149 14.72 0.0001 0.944
ccard no 1 -0.2808 0.0172 266.95 <.0001 0.755
computer desktop 1 0.000373 0.0208 0.00 0.9857 1.000
computer none 1 -0.2358 0.0321 53.82 <.0001 0.790
gen 10 대 1 -0.4132 0.0383 116.19 <.0001 0.662
gen 20 초 1 -0.2097 0.0251 69.61 <.0001 0.811
gen 20 후 1 0.1281 0.0221 33.47 <.0001 1.137
income hig 1 0.2007 0.0233 74.15 <.0001 1.222
income low 1 -0.1423 0.0274 26.92 <.0001 0.867
insu no 1 -0.1082 0.0139 60.25 <.0001 0.897
MAR 0 1 -0.1432 0.0185 59.79 <.0001 0.867
SEX 1 1 0.2833 0.0140 406.71 <.0001 1.328
type Heavyuser 1 0.1728 0.0128 181.66 <.0001 1.189
추정된 회귀계수추정된 회귀계수
2. 로지스틱 회귀분석 예제 1
43
온라인 상품구매 여부에 대한 독립변수의 회귀계수를 통해 살펴보면 , 30 대이상 , 남자 ,
노트북 소유 , 고소득 , Heavy User, 기혼 , 20 후 , 자동차보험 가입자 , 차 소유 , 데스크탑 등이
사후확률을 증가시키는 변수임을 알 수 있다 .
온라인 상품구매 여부에 대한 독립변수의 회귀계수를 통해 살펴보면 , 30 대이상 , 남자 ,
노트북 소유 , 고소득 , Heavy User, 기혼 , 20 후 , 자동차보험 가입자 , 차 소유 , 데스크탑 등이
사후확률을 증가시키는 변수임을 알 수 있다 .
gen 30이상 0.4948sex 남자 0.2833ccard yes 0.2808computer notebook 0.235427income high 0.2007type Heavyuser 0.1728mar 기혼 0.1432gen 20후 0.1281insu yes 0.1082car yes 0.0571computer desktop 0.000373car no - 0.0571income midd l e - 0.0584insu no - 0.1082income low - 0.1423mar 미혼 - 0.1432type Lightuser - 0.1728gen 20초 - 0.2097computer none - 0.2358ccard no - 0.2808sex 여자 - 0.2833gen 10대 - 0.4132
2. 로지스틱 회귀분석 예제 1
44
Odds Ratio Estimates
Input Odds Ratio
car no vs ye 0.892
ccard no vs ye 0.570
computer desktop vs noteboo 0.791
computer none vs noteboo 0.624
gen 10 대 vs 30 하 0.403
gen 20 초 vs 30 하 0.494
gen 20 후 vs 30 하 0.693
income hig vs mid 1.296
income low vs mid 0.920
insu no vs ye 0.805
MAR 0 vs 1 0.751
SEX 1 vs 2 1.762
type Heavyuser vs LightUser 1.413
입력변수가 온라인 상품구매 이용여부에 미치는 영향의 정도는 오즈비로 계량화할수 있는데
오즈비가 1 보다 크다는 것은 입력변수가 양의 방향으로 영향을 미침을 의미한다 .
예를 들어 , 남자는 여자보자 1.762 배 만큼 증가방향으로 영향을 미침을 의미한다 .
입력변수가 온라인 상품구매 이용여부에 미치는 영향의 정도는 오즈비로 계량화할수 있는데
오즈비가 1 보다 크다는 것은 입력변수가 양의 방향으로 영향을 미침을 의미한다 .
예를 들어 , 남자는 여자보자 1.762 배 만큼 증가방향으로 영향을 미침을 의미한다 .
오 즈 비오 즈 비
2. 로지스틱 회귀분석 예제 1
45
왼쪽의 리프트도표는 온라인 상품구매 대한 교호작용이 있는 회귀분석모형과 입력변수만이 고려된 회귀분석모형 , 의사결정나무모형에 대한 결과이다 . 의사결정모형보다는 회귀분석모형이 더 좋은 결과를 제공하고 있다는 것을 나타내고 있고 , 오른쪽의 ROC 도표를 통해서도 회귀분석모형이 좀 더 좋은 결과를 나타냄을 알 수 있다 . 따라서 온라인 상품구매에 대한 모형구축에서는 의사결정나무보다 회귀분석모형이 더욱 적절하다는 결론을 내릴 수 있다 .
왼쪽의 리프트도표는 온라인 상품구매 대한 교호작용이 있는 회귀분석모형과 입력변수만이 고려된 회귀분석모형 , 의사결정나무모형에 대한 결과이다 . 의사결정모형보다는 회귀분석모형이 더 좋은 결과를 제공하고 있다는 것을 나타내고 있고 , 오른쪽의 ROC 도표를 통해서도 회귀분석모형이 좀 더 좋은 결과를 나타냄을 알 수 있다 . 따라서 온라인 상품구매에 대한 모형구축에서는 의사결정나무보다 회귀분석모형이 더욱 적절하다는 결론을 내릴 수 있다 .
2. 로지스틱 회귀분석 예제 1
46
3. 구축된 모형
교호작용이 없는
로지스틱회귀모형
의사결정나무모형
교호작용을 포함하는 로지스틱 회귀모형
패널데이터패널데이터
데이터분할데이터분할 모형평가모형평가
점수화점수화
Ⅵ. 군집분석
48
군집분석의 목적자료에 대한 탐색과 요약을 하며 어떠한 특수목적이 없는 기법으로 전제데이터를 군집을 통해잘 구분하는 것이 분석의 목적이다 .
거리의 종류유클리드 거리민코브스키 거리
군집의 유형
상호 배반적 군집 (disjoint clustering)계보적 군집 (hierarchical clustering)중복 군집 (overlapping clustering)퍼지 군집 (fuzzy clustering)
데이터마이닝에서의 유용한 군집분석 알고리즘 K-means clustering, SOM
1. 군집분석
군집분석 (cluster analysis) 은 관찰치를 유사한 집단으로 그룹화하여 각 집단의 성격을 파악하여 , 데이터 전체에 대한 구조를 이해하는데 도움을 주는 분석 도구이다 . 복잡한 전체보다는 전체를 대표하는 군집들을 관찰함으로써 전체 데이터에 대한 의미 있는 정보를 얻어낼 수 있다 .
군집분석 (cluster analysis) 은 관찰치를 유사한 집단으로 그룹화하여 각 집단의 성격을 파악하여 , 데이터 전체에 대한 구조를 이해하는데 도움을 주는 분석 도구이다 . 복잡한 전체보다는 전체를 대표하는 군집들을 관찰함으로써 전체 데이터에 대한 의미 있는 정보를 얻어낼 수 있다 .
49
Slice : Std. Diviation Height: Frequency Color : Radius
GEN 1
INCOME 0.582
I_PLACE 0.554
COMPUTER 0.444
SEX 0.229
MAR 0.229
CCARD 0.226
TYPE 0.218
CAR 0.168
INSU 0
BANK 0
데이터에 대한 군집하에 영향을 가장 많이 미치는
변수로는 연령층 , 수입 , 인터넷사용장소 ,
컴퓨터소유종류 , 성별 순으로 나타나고 있음을
알 수 있다 .
2. 군집분석 예제 1
관찰치 : 43,123 샘플 : 2,000 Standardization : Range
Clustering Criterion : Least Squares
관찰치 : 43,123 샘플 : 2,000 Standardization : Range
Clustering Criterion : Least Squares
50
인구통계 컴퓨터 활용 S.E.S.
군집 1 10 대여자집에서 데스크탑을 이용하여 인터넷에 접속하여 유료사이트는 잘 이용하지 않음Light User
차량보유율이 가장 낮고 , 신용카드 없음 .
군집 2 30 대이상 남자노트북 사용자가 가장 많음 .주로 사무실에서 이용하며 , 유료사이트이용을 가장 많이 함 .
차량 , 신용카드를 가지고 있음 .
군집 320 대후반 여자기혼자가 많음
사무실에서 주로 컴퓨터를 사용하며데스크탑을 많이 이용 . 유료사이트도 군집2 다음으로 많이 이용 .
차량 , 신용카드 , 보험에 가입을 하고 있음 .
군집 420 대 초반 남자 집에서 주로 사용 . 유료사이트는 잘 이용하지
않음 .Heavy User
차량과 현금카드 보유율이 낮음소득이 낮음
4 개의 군집으로 표현되는 온라인 패밀리카드 데이터는 다음과 같은 특성을 가지고 있다 . 4 개의 군집으로 표현되는 온라인 패밀리카드 데이터는 다음과 같은 특성을 가지고 있다 .
2. 군집분석 예제 1
51
[ Type ]
41.08
59.1950.96
71.34
58.9258.94
41.06 40.45
1집단 2집단 3집단 4집단
Heavy User Light User
[ Mar ]
[ Sex ]
57.35
40.81
71.34
42.65
87.44
12.56
59.19
28.66
1집단 2집단 3집단 4집단
남 자 여 자
92.15
37.72
7.85
87.44
12.56
62.28
97.45
2.55
1집단 2집단 3집단 4집단
미 혼 기 혼
[ Pay serve ]
73.89 72.29
26.11
40.10
59.90
44.6655.34
27.71
1집단 2집단 3집단 4집단
No Yes
2. 군집분석 예제 1
52
[ Place ]
1.14
54.35
2.664.20
29.25
62.87
3.68
19.43 18.15 18.15
5.710.57
92.58
1.21
41.79 44.27
1집단 2집단 3집단 4집단
Gamer House Office School
[ Gen ]
37.23
14.73
83.57
0.358.58
78.63
12.434.78
10.192.237.28
17.69
37.80
1.69
82.80
1집단 2집단 3집단 4집단
10 대 20 대 초반 20 대 후반 30 대 이상
2. 군집분석 예제 1