Download - 데이터마이닝의 소개 Data Mining Introduction
![Page 2: 데이터마이닝의 소개 Data Mining Introduction](https://reader033.vdocuments.pub/reader033/viewer/2022061607/56812f1d550346895d94b4c2/html5/thumbnails/2.jpg)
2
구성
• 데이터마이닝의 소개
• 분석기법 소개 및 적용 사례– 분류 기법 (Classification, Supervised Learning)– 군집 기법 (Clustering, Unsupervised Learning)– 연관규칙 탐사 기법 (Association Rule Discovery)– 개인화 추천 기법 (Personalized Recommendation)
• 데이터마이닝 솔루션의 소개
• 엘도라도를 통한 간단한 Demo
![Page 3: 데이터마이닝의 소개 Data Mining Introduction](https://reader033.vdocuments.pub/reader033/viewer/2022061607/56812f1d550346895d94b4c2/html5/thumbnails/3.jpg)
3
1. 데이터마이닝의 소개 < 등장 배경 >
• 데이터의 축적 (OLTP)– 거대한 양의 데이터를 축적하게 됨 ( 데이터의 홍수 )
• 데이터의 통합 및 분석 (OLAP)– 분산된 데이터를 통합하고 분석하여 의미있는 정보를 찾음
• 데이터마이닝의 출현– 자동화된 시스템을 통한 지식 (Knowledge) 의 추출과 활용
인공지능 통계학
60 년대 70 년대
MIS 출현- 데이터 축적
DB 통합- 데이터의 통합
80 년대
대용량 DB- 통합 데이터 베이스 발전
90 년대
대용량 DB- DW 발전
마이닝
![Page 4: 데이터마이닝의 소개 Data Mining Introduction](https://reader033.vdocuments.pub/reader033/viewer/2022061607/56812f1d550346895d94b4c2/html5/thumbnails/4.jpg)
4
1. 데이터마이닝의 소개 < 정의 >
• 데이터마이닝이란 무엇인가 ?
대량의 데이터로부터 그 안에 숨어있는 (implicit) 새롭고(previously unknown), 가치있고 (non-trivial), 의사결정에 유용한 (potentially useful) 정보를 찾는 작업
대량의 데이터로부터 그 안에 숨어있는 (implicit) 새롭고(previously unknown), 가치있고 (non-trivial), 의사결정에 유용한 (potentially useful) 정보를 찾는 작업
Extraction of interesting (non-trivial, implicit, previously unknown and potentially useful) information or patterns from data in large databases
Extraction of interesting (non-trivial, implicit, previously unknown and potentially useful) information or patterns from data in large databases
대용량의 데이터(Large Database)
Data Mining
![Page 5: 데이터마이닝의 소개 Data Mining Introduction](https://reader033.vdocuments.pub/reader033/viewer/2022061607/56812f1d550346895d94b4c2/html5/thumbnails/5.jpg)
5
1. 데이터마이닝의 소개 < 데이터 예 : 백화점>• 거래데이터 (Transaction DB)
– 고객 ID, 구매일 , 거래점 , 거래파트 , 브랜드명 , 상품명 , 가격 .
• 고객 프로파일 데이터 (User Profile DB)– 성별 , 나이 , 주소 , 거주형태 , 자택여부 , 결혼여부 , 회원타입 , 가입일 , 가입점
![Page 6: 데이터마이닝의 소개 Data Mining Introduction](https://reader033.vdocuments.pub/reader033/viewer/2022061607/56812f1d550346895d94b4c2/html5/thumbnails/6.jpg)
6
1. 데이터마이닝의 소개 < 데이터 예 : 웹로그>• 웹로그 데이터
![Page 7: 데이터마이닝의 소개 Data Mining Introduction](https://reader033.vdocuments.pub/reader033/viewer/2022061607/56812f1d550346895d94b4c2/html5/thumbnails/7.jpg)
7
1. 데이터마이닝의 소개 < 어떻게 정보를 찾는가 ?>
• 대용량의 데이터가 여러분에게 주어졌다고 생각하자 . • 그 데이터에서 어떠한 방법으로 정보를 찾을 것인가 ?
• 매우 다양한 방법들이 있을 수 있다 . – Query– Visualization– OLAP– Statistics– Decision Tree– Neural Network– Genetic Algorithm– K-Means Clustering
![Page 8: 데이터마이닝의 소개 Data Mining Introduction](https://reader033.vdocuments.pub/reader033/viewer/2022061607/56812f1d550346895d94b4c2/html5/thumbnails/8.jpg)
8
1. 데이터마이닝의 소개 < 기존방법과의 차이점 >• 가설확인 중심의 기존 방식
• 가설 발견 중심의 데이터마이닝 방식
질의도구
시각화도구
OLAP도구
DATA
가설
고객의 직업과 수입정도가 신용불량 여부와 관련이 많다 .
데이터마이닝
DATA
어떤 사람들이 신용불량자 ( 잠재 )일까 ?가설
* 직업이 자영업 ,무직등에 속한 사람들
* 수입이 233만원이하이고 , 지역이 A 지역에 거주하는 경우 신용불량 확률높음
검증 정보
![Page 9: 데이터마이닝의 소개 Data Mining Introduction](https://reader033.vdocuments.pub/reader033/viewer/2022061607/56812f1d550346895d94b4c2/html5/thumbnails/9.jpg)
9
1. 데이터마이닝의 소개 < 프로세스 모델 >
Data Cleaning
Data Integration
Databases
Data Warehouse
Task-relevant Data
Selection
Data Mining
Pattern Evaluation
![Page 10: 데이터마이닝의 소개 Data Mining Introduction](https://reader033.vdocuments.pub/reader033/viewer/2022061607/56812f1d550346895d94b4c2/html5/thumbnails/10.jpg)
10
1. 데이터마이닝의 기법 및 알고리즘
기법의 종류 설명 및 알고리즘
분류 분석(Classfication)
레코드를 부류나 등급으로 나누는 작업-Decision Tree : ID3, C4.5 Algorithm-Neural Network, Bayesian …
군집 분석(Clustering)
레코드들을 유사한 성격을 가지는 소그룹으로 구분하는 작업-K-Means Algorithm-EM Algorithm-Cobweb Algorithm
연관규칙 탐사(Association
Rule Discovery)
구매데이터에서 상품 간의 판매 연관성을 파악하는 작업- Apriori Algorithm
개인화 추천(Personalized
Recommedation)
각 고객별로 선호정보를 파악하여 그 고객에게 적합한 상품을 추천해 주는 작업-Collaborative Filtering Algorithm-Content based Method
![Page 11: 데이터마이닝의 소개 Data Mining Introduction](https://reader033.vdocuments.pub/reader033/viewer/2022061607/56812f1d550346895d94b4c2/html5/thumbnails/11.jpg)
11
1. 데이터마이닝의 적용 분야
분야 적용 사례
소매 /마케팅 고객의 구매패턴과 선호도 발견 고객분류 , 그룹별 특성 발견
은행 /카드 신용평가 모형 우수 고객 선정 및 특성 분석 , 카드 부정사용 적발
보험 고객 분류를 통한 보험료 가격정책 수립
통신 우수고객 선정 및 특성 분석 장거리 전화 / 무선 전화의 부정한 이용패턴 추적 이탈고객 모델 선정 및 타겟마케팅
제조 제품 수용 예측 최종 생산품의 품질에 영향을 미치는 요인 발견
유통 매장 진열 전략 상품 카다로그 디자인
의료 환자 특성에 따른 의약품의 부작용 분석
![Page 12: 데이터마이닝의 소개 Data Mining Introduction](https://reader033.vdocuments.pub/reader033/viewer/2022061607/56812f1d550346895d94b4c2/html5/thumbnails/12.jpg)
12
2. 분석방법 < 분류 : 의사결정트리 >
• 분류 (Classification) 의 정의
• 의사결정나무 알고리즘의 특징
– 이해하기 쉬운 모델을 제공한다 . – 즉 , 다른 방법 ( 신경망 , 통계방법 ) 에 비해 이해하기가 쉽다 .– 현업에서 의사결정에 가장 많이 사용되는 기법이다 .
– 범주형 (Categorical) 속성을 대상으로 분석할 수 있다 . – 즉 , 주식 데이터에서 주가 예측하는데에는 사용할 수 없다 .
데이터집합이 주어졌을 때 그 데이터들을 분석하여 특정 속성 ( 범주형 )의 값 ( 범주값 ) 을 분류하는 트리 형태의 모델을 생성하는 분석기법이다 .
데이터집합이 주어졌을 때 그 데이터들을 분석하여 특정 속성 ( 범주형 )의 값 ( 범주값 ) 을 분류하는 트리 형태의 모델을 생성하는 분석기법이다 .
![Page 13: 데이터마이닝의 소개 Data Mining Introduction](https://reader033.vdocuments.pub/reader033/viewer/2022061607/56812f1d550346895d94b4c2/html5/thumbnails/13.jpg)
13
2. 분석방법 < 분류 : 의사결정트리 >
• 신용상태에 대한 분석 결과– 신용상태가 < 좋음 , 나쁨 > 의 두개의 범주값을 갖음– 과거의 데이터를 통하여 신용상태의 분류 모델을 생성– 새로운 고객에 대하여 앞으로의 신용상태를 분류
: C , D , E , F직 업 143 90.5%나 쁨 15 9.5%좋 음
158 (48.9% )계
: A, B직 업 0 0.0%나 쁨 7 100.0%좋 음
7 (2. 2% )계
: 213 월 소 득 만 원 미 만 143 86.7%나 쁨 22 13.3%좋 음
165 (51.1% )계
: D , E , F직 업 5 55.5%나 쁨 4 45.5%좋 음
9 (2.8% )계
: A, B , C직 업 19 47.3%나 쁨 21 52.7%좋 음
39 (12.4% )계
: 25 연 령 세 미 만 24 49.0%나 쁨 25 51.0%좋 음
49 (15.2% )계
: 25 연 령 세 이 상 1 0.9%나 쁨 108 99.1%좋 음
109 (33.8% )계
: 213 월 소 득 만 원 이 상 25 15.8%나 쁨 133 84.2%좋 음
158 (48.9% )계
신 용 상 태 168 52.0%나 쁨 155 48.0%좋 음
323 (100.0% )계
![Page 14: 데이터마이닝의 소개 Data Mining Introduction](https://reader033.vdocuments.pub/reader033/viewer/2022061607/56812f1d550346895d94b4c2/html5/thumbnails/14.jpg)
14
2. 분석방법 < 분류 : 의사결정트리 적용 예>• B 은행의 사례 분석
– 고객의 대출 신청 서류와 신용 정보를 관리– 수익 : 대출금의 이자 , 고객 만족– 손해 : 대출금 미상환 , 상환 독촉 비용
유용한 대출심사모델 존재 ? 안전한 대출만 승인 상환 비율 향상
수익율 증가
YES
![Page 15: 데이터마이닝의 소개 Data Mining Introduction](https://reader033.vdocuments.pub/reader033/viewer/2022061607/56812f1d550346895d94b4c2/html5/thumbnails/15.jpg)
15
2. 분석방법 < 분류 : 의사결정트리 적용 예>
• 분석작업 : 대출금 상환에 대한 분류 모델 생성• 분석목표 및 기대 효과
대출심사모델생성
Mining
상환예상고객만대출
대출 심사 비용 감소
상환 독촉 비용 감소
상환 비율의 증가
대출 신청 정보
고객 신용 정보
+
+
수익율 증가
![Page 16: 데이터마이닝의 소개 Data Mining Introduction](https://reader033.vdocuments.pub/reader033/viewer/2022061607/56812f1d550346895d94b4c2/html5/thumbnails/16.jpg)
16
2. 분석방법 < 분류 : 의사결정트리 적용 예>• 입력데이터 설명
• 입력 데이터– Record 의 수 : 5,960 개 , Field 수 : 13 개– 대출 신청 서류 , 신용기관의 신용 정보 , 목표 변수
대출 신청 서류 신용 기관의 신용 정보
REASON 대출 사유 ( 채무 정리 , 주택개량 ) DEROG 불량 거래 보고수
JOB직업 ( 노동자 , 사무원 , 판매원 ) ( 자영업 , 숙련기술자 , 기타 )
CLNO 금융 거래의 수
LOAN 대출액 DELINQ 체납 회수
MORTDUE 저당 금액 CLAGE 최장 대출 기간
VALUE 자산금액 NINQ 최근 신용 조회 수
DEBTINC 대출금 대 수입 비율 분석 목표 변수
YOJ 근무년수 BAD 대출금 상환여부
![Page 17: 데이터마이닝의 소개 Data Mining Introduction](https://reader033.vdocuments.pub/reader033/viewer/2022061607/56812f1d550346895d94b4c2/html5/thumbnails/17.jpg)
17
2. 분석방법 < 분류 : 의사결정트리 적용 예>• 모델의 시각화 결과 ( 트리 보기 )
REASON JOB LOAN
DebtCon Office 14,900
MORTDUE VALUE DEBTINC
58,204 71,257 43.76293
YOJ DEROG CLNO
3 3 50
DELINQ CLAGE NINQ
2 207 1
노드를 따라 내려 간
단말 노드의 Class : 1
∴ 대출 미승인
![Page 18: 데이터마이닝의 소개 Data Mining Introduction](https://reader033.vdocuments.pub/reader033/viewer/2022061607/56812f1d550346895d94b4c2/html5/thumbnails/18.jpg)
18
2. 분석방법 < 분류 : 의사결정트리 적용 예>
생성 규칙IF DELINQ <= 4.0 AND 43.910046 < DEBTINC AND REASON = DebtCon
THEN BAD = 1 (88.4%)
분류 조건 체납회수가 4회 이하 대출금대 수입의 비율이 43.910046 이상 대출 사유가채무 정리인 고객
결론 위조건에 해당되는 고객에게는 대출을승인하지않는다. (88.4%)
![Page 19: 데이터마이닝의 소개 Data Mining Introduction](https://reader033.vdocuments.pub/reader033/viewer/2022061607/56812f1d550346895d94b4c2/html5/thumbnails/19.jpg)
19
2. 분석방법 < 분류 : 의사결정트리 적용 예>
고객
• Case 1 – 모델이 없는 보통의 경우
신용 기관
접수 및 대출 심사
3,364 명
신용정보대출 승인 : 3,364
비승인 : 0
미상환 : 300금액 : 5,420,900
상환 : 3,064 이자 : 5,901,450
순이익 : 480,500
![Page 20: 데이터마이닝의 소개 Data Mining Introduction](https://reader033.vdocuments.pub/reader033/viewer/2022061607/56812f1d550346895d94b4c2/html5/thumbnails/20.jpg)
20
2. 분석방법 < 분류 : 의사결정트리 적용 예>
고객
• Case 2 – 모델 이용
신용 기관
접수 및 대출 심사
3,364 명
신용정보대출 승인 : 3,254
비승인 : 110
미상환 : 200금액 : 3,452,200
상환 : 3,064 이자 : 5,887,590
순이익 : 2,435,390
대출심사 분류 모델
![Page 21: 데이터마이닝의 소개 Data Mining Introduction](https://reader033.vdocuments.pub/reader033/viewer/2022061607/56812f1d550346895d94b4c2/html5/thumbnails/21.jpg)
21
2. 분석방법 < 분류 : 의사결정트리 적용 예>
모델 이용 X 모델 이용 O
대출 총액 \64,435,400 \62,328,100
반환 \59,014,500 \58,875,900
미수 -\5,420,900 -\3,452,200
이자 \5,901,450 \5,887,590
실제 이익 \480,500 \2,435,390
• 기대효과 : 5 배 이상의 순이익 증대– 대출 심사 /상환 독촉 비용을 고려시 훨씬 더 높은 순이익을 기대
![Page 22: 데이터마이닝의 소개 Data Mining Introduction](https://reader033.vdocuments.pub/reader033/viewer/2022061607/56812f1d550346895d94b4c2/html5/thumbnails/22.jpg)
22
2. 분석방법 < 분류 : 의사결정트리 활용 예 >• 의사결정트리를 이용한 이탈 고객 분석 선정
Server
Operational DB
ETL Server
Domain
Mining & Campaign DB
PowerMinerTM
마케팅솔루션
마케팅솔루션
Mining Server
이탈 고객 정보 입력
이탈 고객 예측 모델 생성
고객 정보 입력
모델을 통한 이탈 고객 예측
결과 저장
이탈 고객 예측 모델
![Page 23: 데이터마이닝의 소개 Data Mining Introduction](https://reader033.vdocuments.pub/reader033/viewer/2022061607/56812f1d550346895d94b4c2/html5/thumbnails/23.jpg)
23
2. 분석방법 < 분류 : 의사결정트리 활용 예 >
거주지
나이 이탈 유지 성별
이탈 유지 유지 결혼 여부
이탈 유지
북구 달서구수성구
중구
남성 여성
미혼 기혼
27 세 이하 28 세 이상
100% 78.57%
94.11% 95.23%
100%
100% 100%
![Page 24: 데이터마이닝의 소개 Data Mining Introduction](https://reader033.vdocuments.pub/reader033/viewer/2022061607/56812f1d550346895d94b4c2/html5/thumbnails/24.jpg)
24
2. 분석방법 < 분류 : 의사결정트리 활용 예 >
거주지
나이 이탈 유지 성별
이탈 유지 유지 결혼 여부
이탈 유지
북구 달서구수성구
중구
남성 여성
미혼 기혼
27 세 이하 28 세 이상
IF “ 거주지 = 북구 and 나이 <=28” THEN “ 유지”(78.57%)
북구에 사는 28 세 이상의 고객은 이탈하지 않음 (78.57%).
100% 78.57%
94.11% 95.23%
100%
100% 100%
![Page 25: 데이터마이닝의 소개 Data Mining Introduction](https://reader033.vdocuments.pub/reader033/viewer/2022061607/56812f1d550346895d94b4c2/html5/thumbnails/25.jpg)
25
2. 분석방법 < 분류 : 의사결정트리 활용 예 >
거주지
나이 이탈 유지 성별
이탈 유지 유지 결혼 여부
이탈 유지
북구 달서구수성구
중구
남성 여성
미혼 기혼
27 세 이하 28 세 이상
IF “ 거주지 = 중구 and 성별 = 여성 and 결혼여주 = 미혼” THEN “ 이탈”(100%)
중구에 사는 미혼 여성은 이탈 (100%).
100% 78.57%
94.11% 95.23%
100%
100% 100%
![Page 26: 데이터마이닝의 소개 Data Mining Introduction](https://reader033.vdocuments.pub/reader033/viewer/2022061607/56812f1d550346895d94b4c2/html5/thumbnails/26.jpg)
26
2. 분석방법 < 군집 >
• 군집 (Clustering) 의 정의
• 적용분야– 고객 세분화를 통한 타겟마케팅
• 적용 알고리즘– K-Means – EM(Expectation Maximization)
주어진 레코드 ( 고객 , 상품 ) 들을 여러가지 속성들을 고려하여 특성이 비슷한 레코드들로 묶어주는 분석 기법
주어진 레코드 ( 고객 , 상품 ) 들을 여러가지 속성들을 고려하여 특성이 비슷한 레코드들로 묶어주는 분석 기법
![Page 27: 데이터마이닝의 소개 Data Mining Introduction](https://reader033.vdocuments.pub/reader033/viewer/2022061607/56812f1d550346895d94b4c2/html5/thumbnails/27.jpg)
27
2. 분석방법 < 군집 >
• 군집 기법의 적용 예 : IRIS 데이터
![Page 28: 데이터마이닝의 소개 Data Mining Introduction](https://reader033.vdocuments.pub/reader033/viewer/2022061607/56812f1d550346895d94b4c2/html5/thumbnails/28.jpg)
28
2. 분석방법 < 군집 >
• EM 군집 ( 백화점 고객 데이터 )– 군집 0: 30,40 대 , 서울 , APT, 본인소유 ( 주택 ), 기혼 . – 군집 1: 10,20 대 , 서울 , 단독주택 , 미혼 . – 군집 2: 10-30 대 , 경기 , APT.
![Page 29: 데이터마이닝의 소개 Data Mining Introduction](https://reader033.vdocuments.pub/reader033/viewer/2022061607/56812f1d550346895d94b4c2/html5/thumbnails/29.jpg)
29
2. 분석방법 < 연관규칙 >
• 연관규칙 (Association) 의 정의
• 알고리즘– Apriori
• 적용 예– 오프라인 판매점에서의 분석을 통한 상품 배치– 온라인 쇼핑몰에서의 자동화 된 연관 상품 추천
거래 데이터에서 자주 함께 판매되는 상품들간의 연관성에 대한 규칙(AB) 을 찾아내는 분석기법이다 . (AB: A 상품을 구매하는 고객들은 B 상품도 함께 구매하는 경향이 있다 .)
거래 데이터에서 자주 함께 판매되는 상품들간의 연관성에 대한 규칙(AB) 을 찾아내는 분석기법이다 . (AB: A 상품을 구매하는 고객들은 B 상품도 함께 구매하는 경향이 있다 .)
![Page 30: 데이터마이닝의 소개 Data Mining Introduction](https://reader033.vdocuments.pub/reader033/viewer/2022061607/56812f1d550346895d94b4c2/html5/thumbnails/30.jpg)
30
2. 분석방법 < 연관규칙 >
• 쇼핑몰에서의 적용 예
Example of Association Rules from www.global-reach.comExample of Association Rules from www.global-reach.com
![Page 31: 데이터마이닝의 소개 Data Mining Introduction](https://reader033.vdocuments.pub/reader033/viewer/2022061607/56812f1d550346895d94b4c2/html5/thumbnails/31.jpg)
31
2. 분석방법 < 연관규칙 >
• 규칙 (Rule) 에 대한 분석 결과
지지도 : 전체 고객중 2% 의 고객이 ‘미소패구두’와 ‘지오다노진케쥬얼’을 같이 구매함
신뢰도 : ‘ 미소패구두’를 구매한 고객 중 57% 의 고객이 ‘지오다노진케쥬얼’을 구매함
향상도 : 전체 고객 중 ‘지오다노진케쥬얼’을 구입한 고객의 비율보다
‘미소패구두’를 구매한 고객 중 ‘지오다노진케쥬얼’을 구매한 고객의 비율이 2.81 배 높음
※ 활용의 예
1. ‘ 미소패구두’를 구매한 고객에게 ‘지오다노진케쥬얼’을 추천
2. ‘ 지오다노진케쥬얼’의 마케팅 대상 고객으로 ‘미소패구두’를 구매한 고객 선정
3. ‘ 미소패구두’와 ‘지오다노진케쥬얼’을 패키지 상품으로 구성
![Page 32: 데이터마이닝의 소개 Data Mining Introduction](https://reader033.vdocuments.pub/reader033/viewer/2022061607/56812f1d550346895d94b4c2/html5/thumbnails/32.jpg)
32
2. 분석방법 < 연관규칙 >
• 은행 서비스 이용에 대한 연관규칙
![Page 33: 데이터마이닝의 소개 Data Mining Introduction](https://reader033.vdocuments.pub/reader033/viewer/2022061607/56812f1d550346895d94b4c2/html5/thumbnails/33.jpg)
33
2. 분석방법 < 연관규칙 >
• 생성 규칙의 해석 및 적용선행항목 후행항목 지지도 신뢰도 개선도
SVG ATM CKING 0.1162 0.9928 1.3262
• 지지도 → 0.1162 : 저축 예금 계정과 현금 카드 , 당좌 예금 계정을
모두 사용하고 있는 고객이 0.1162%, 즉 2,700 명 이상
• 신뢰도 → 0.9928 : 저축 예금 계정과 현금 카드를 사용하는 고객들 중
99% 는 당좌 예금 계정을 사용
• 적용 : 저축 예금 계정과 현금 카드를 사용하는 고객에게
당좌 예금 계정을 추천
![Page 34: 데이터마이닝의 소개 Data Mining Introduction](https://reader033.vdocuments.pub/reader033/viewer/2022061607/56812f1d550346895d94b4c2/html5/thumbnails/34.jpg)
34
![Page 35: 데이터마이닝의 소개 Data Mining Introduction](https://reader033.vdocuments.pub/reader033/viewer/2022061607/56812f1d550346895d94b4c2/html5/thumbnails/35.jpg)
35
2. 분석방법 < 연관규칙 >
• 생성 규칙의 해석 및 적용선행항목 후행항목 지지도 신뢰도 개선도
MMDA CKING 0.1080 0.7639 1.098
CKING MMDA 0.1080 0.1553 1.098
신뢰도 1
신뢰도 2• 지지도 → 0.1080 : 금융시장 예탁 계정과 당좌 예금 계정을
모두 사용하고 있는 고객이 0.1080%, 즉 2,500 명 이상
• 신뢰도 1 → 0.7639 : 금융시장 예탁 계정을 사용하는 고객 중 76% 는 당좌 예금 계정을 사용
• 신뢰도 2 → 0.1553 : 당좌 예금 계정을 사용하는 고객 중 16% 는 금융시장 예탁 계정을 사용
• 결론 1 : 금융시장 예탁 계정 사용 고객에게 당좌 예금 계정을 추천
• 결론 2 : 당좌예금 사용하는 고객에게 금융시장 예탁 계정은 추천 안함
![Page 36: 데이터마이닝의 소개 Data Mining Introduction](https://reader033.vdocuments.pub/reader033/viewer/2022061607/56812f1d550346895d94b4c2/html5/thumbnails/36.jpg)
36
2. 분석방법 < 개인화추천 >
• 추천 (Recommendation) 의 정의
• 알고리즘– 협력적 추천 (Collaborative Filtering)– 내용 기반 추천 (Content-based Method)
• 적용 예– 오프라인 판매점에서의 분석을 통한 상품 배치– 온라인 쇼핑몰에서의 자동화 된 추천– A 상품을 구매한 고객에게 B 상품을 추천할 수 있다 .
각 고객에게 그 고객이 아직 구매하지 않은 상품 중에서 구매할 가능성이 높은 상품 ( 아이템 ) 의 리스트를 제공하여 주는 것 .
각 고객에게 그 고객이 아직 구매하지 않은 상품 중에서 구매할 가능성이 높은 상품 ( 아이템 ) 의 리스트를 제공하여 주는 것 .
![Page 37: 데이터마이닝의 소개 Data Mining Introduction](https://reader033.vdocuments.pub/reader033/viewer/2022061607/56812f1d550346895d94b4c2/html5/thumbnails/37.jpg)
37
2. 분석방법 < 개인화추천 >
• 협력적 추천 (Collaborative Filtering)– 대상 고객과 유사한 성향을 갖는 이웃 고객이 공통적으로 선호하는 상품을
추천함 .
• 협력적 추천의 과정– STEP1. 유사도 계산
• 대상 고객과 다른 고객들간의 유사도를 구한다 .• 대표적 유사도 계산식 Correlation( 식 ) Cosine( 식 )
– STEP2. 예측 선호도 계산• 목표 고객과 다른 고객과의 유사도를 가중치로 하여 각 상품에 대한 선호도를
예측한다 .
ua
uaua rr
rruaw
),cos(,
![Page 38: 데이터마이닝의 소개 Data Mining Introduction](https://reader033.vdocuments.pub/reader033/viewer/2022061607/56812f1d550346895d94b4c2/html5/thumbnails/38.jpg)
38
2. 분석방법 < 개인화추천 >
• 협력적 여과 (Collaborative Filtering)– 패턴이 유사한 고객들이 선호한 상품 ( 아이템 ) 를 추천하는 시스템
– 추천식
A
C
B
A B
highcorrelation
like
like
Recommend
NItemsallSimilar Ni
NrItemsallSimilla NuNiiu
SRS
P, ,
, ,,,
|)(|
)*(
![Page 39: 데이터마이닝의 소개 Data Mining Introduction](https://reader033.vdocuments.pub/reader033/viewer/2022061607/56812f1d550346895d94b4c2/html5/thumbnails/39.jpg)
39
2. 분석방법 < 개인화추천 >
• 아이템 기반 협력적 여과– 아이템 간의 유사도를 고려하여 추천하는 방법
• 활용 사례– http://www.amazon.com (쇼핑몰 )– http://citeseer.nj.nec.com (논문검색 )
Ahigh
correlation
Liked by
Liked by
B
AA BB CC DD
AA BB CC DD EE
![Page 40: 데이터마이닝의 소개 Data Mining Introduction](https://reader033.vdocuments.pub/reader033/viewer/2022061607/56812f1d550346895d94b4c2/html5/thumbnails/40.jpg)
40
2. 분석방법 < 개인화추천 >
• http://citeseer.nj.nec.com 선호도 기입선호도 기입
![Page 41: 데이터마이닝의 소개 Data Mining Introduction](https://reader033.vdocuments.pub/reader033/viewer/2022061607/56812f1d550346895d94b4c2/html5/thumbnails/41.jpg)
41
2. 분석방법 < 개인화추천 >
• http://www.amazon.com 의 적용
선택 상품선택 상품
유사 아이템유사 아이템
패키지 판매 패키지 판매 유도유도
![Page 42: 데이터마이닝의 소개 Data Mining Introduction](https://reader033.vdocuments.pub/reader033/viewer/2022061607/56812f1d550346895d94b4c2/html5/thumbnails/42.jpg)
42
2. 분석방법 < 개인화추천 >
• http://www.cdnow.com 의 적용
선택 비디오선택 비디오
유사 아이템유사 아이템
과거 선택 아이템과거 선택 아이템
![Page 43: 데이터마이닝의 소개 Data Mining Introduction](https://reader033.vdocuments.pub/reader033/viewer/2022061607/56812f1d550346895d94b4c2/html5/thumbnails/43.jpg)
43
2. 분석방법 < 개인화추천 >
고객 A (7647)
시청 제목
1 영웅
2 이웃집 토토로
유사 영화 수치
반지의 제왕 0.141
캐치미 이프유켄
0.116
동갑내기 과외하기 0.112
색즉시공 0.106
살인의 추억 0.098
해리포터와 비밀의 방
0.096
Inter-Item Cosine Similarity
유사영화 수치
바람계곡의 나우시카
0.894
마녀배탈부 키키
0.516
귀를 기울이면 0.365
센과치히로의 행방불명
0.316
붉은돼지 0.316
폼포코너구리대작전
0.258
Weighted Sum FunctionWeighted Sum Function
A 를 위한 추천추천 영화 수치
바람의 계곡의 나우시카
0.632
마녀배달비키키 0.365
귀를 기울이면 0.258
센과히치로의 행방불명
0.223
A 의 과거 구매 내역
‘ 영웅’ ‘ 이웃집 토토로’
![Page 44: 데이터마이닝의 소개 Data Mining Introduction](https://reader033.vdocuments.pub/reader033/viewer/2022061607/56812f1d550346895d94b4c2/html5/thumbnails/44.jpg)
44
3. 데이터마이닝 솔루션의 소개
• SPSS Clementine
• SAS Enterprise Miner
• Eldorado
![Page 45: 데이터마이닝의 소개 Data Mining Introduction](https://reader033.vdocuments.pub/reader033/viewer/2022061607/56812f1d550346895d94b4c2/html5/thumbnails/45.jpg)
45
3. 데이터마이닝 솔루션의 소개
• Clementine
Stream Canvas
Palettes
Managers
Projects
![Page 46: 데이터마이닝의 소개 Data Mining Introduction](https://reader033.vdocuments.pub/reader033/viewer/2022061607/56812f1d550346895d94b4c2/html5/thumbnails/46.jpg)
46
3. 데이터마이닝 솔루션의 소개
• SAS Enterprise Miner
![Page 47: 데이터마이닝의 소개 Data Mining Introduction](https://reader033.vdocuments.pub/reader033/viewer/2022061607/56812f1d550346895d94b4c2/html5/thumbnails/47.jpg)
47
3. 데이터마이닝 솔루션의 소개
• Eldorado
Data Mining Stream DesignData Mining Stream Design
ProjectInformationProjectInformation
Data Mining NodeData Mining Node
Result orModel ObjectResult orModel Object
Batch Execution ButtonBatch Execution Button
![Page 48: 데이터마이닝의 소개 Data Mining Introduction](https://reader033.vdocuments.pub/reader033/viewer/2022061607/56812f1d550346895d94b4c2/html5/thumbnails/48.jpg)
48
3. 데이터마이닝 솔루션의 소개
• Eldorado 기능
전처리
레코드 선택
레코드 병합
레코드 그룹핑
필드 선택
필드 병합
새필드 생성
정 렬
정규화
결측치 처리
값 매핑
탐색
통계 탐색
테이블 보기
마이닝
의사결정트리
베이지안
신경망
K- 평균
SEM
연관규칙
CF
RFM
선형 회귀
모델 활용
분류 활용
군집 활용
데이터 입력
파일 입력
DB 입력
전처리 출력