data mining(knowledge discovery in database)

Data Mining(Knowledge Discovery in Database)Data Mining(Knowledge Discovery in Database)

2000. 4.20

연세대학교 산업대학원

산업정보 4 학기 최윤호

지도교수 : 박상희 교수님

지식통합Knowledge Integration

지식통합Knowledge Integration

지식의수집 , 검증( 축적 )

New 지식의조합 , 창조

조직내 , 조직간지식공유

New 분야에축적된 지식 적용

지능 SystemKnowledge Embedding

지능 SystemKnowledge Embedding

인재 , 문화

지식경영지식경영지식경영지식경영

지식기반센터 전략방향과 Data Mining

CaptureCapture SharingSharing

LeverageLeverageCreatingCreating

조직체계

지식의 축적 , 공유 , New 분야에 지식 적용에 있어서 강점을 가지고 있으나 New 지식의 조합 , 창조에 있어 연구가 요구됨

DataDataMiningMining

산업계 조사에 따르면 Fortune 誌 500 대 기업 80% 가 2000 년까지 데이터 마이닝을기업 성공의 중요한 요소로 인식 . 그런 기업 대부분이 D/W 에서 대량의 데이타를모으고 정제하는 중

데이터 마이닝과 인공 지능은 3-5 년 이내에 산업계 전반에 걸쳐 확실하게 중요한 영향을미칠 5 대 중요 기술 가운데 최고로 꼽히는 중요한 기술이며 , 기업들이 다음 5 년 동안에투자할 10 대 기술 중 하나라고 꼽고 있다 .- 1997 년의 Gartner Group 보고서

“ 1999 ~2003 사이 어떤 기술의 진보와 변화가 정보 기술에 가장 큰 영향을 미치겠는가 ? ”CIO 의 답변 10 위 중 데이터 마이닝이 7 위를 차지- Gartner Group 조사 결과

전망

배경

Company’sCompany’sCoreCore

CompetenceCompetence

대량의 데이터 , 정보로부터 유용한 , 사용하기 편리한 지식차원의 정보를추출하는 방법이나 도구들에 대한 연구가 시작됨

KDD(Data Mining)

기업에 유용한 , 의미 있는 지식의 발견

Database(Raw Data)

• 디지털 시대의 정보의 홍수• 통계 위주의 수작업 수준 분석 기법의 한계 ― 의미 없는 패턴 돌출 가능성• 대량 Database Data 처리 문제 ― 비용 , 처리 시간

D/W

The nontrivial process of identifying valid, novel, potentially useful, and ultimately understandable patterns in data(Large Database).

※ 협의의 Data Mining: a process of kinding patterns and regularities in sets of data.

● Goals of KDD (or Data Mining) Acquiring an insight on data( 데이터에 대한 직관 )Getting previously unknown or hidden pattern( 숨겨진 패턴 발견 ) Extracting useful information from data( 유용한 정보의 획득 )

KDD(or Data Mining) KDD(or Data Mining) = AI + statistics + database techniques= AI + statistics + database techniques

● 유사어 Knowledge Discovery in Databases (KDD) = Data MiningKnowledge ExtractionData Pattern ProcessingData ArchaeologyInformation HarvestingSiftwareData Dredging

KDD(Data Mining) 의 정의

Data Mining 개념도

DiscoveryDiscovery

TestingTesting/Verifying/Verifying

CleansingCleansing

SummarizingSummarizing

•Knowledge Discovery in Database(KDD) 라고 불리우는게 타당함 - Data Mining 은 KDD 내의 핵심 Operation•Data 정제 , 정리 작업이 KDD 의 80% 차지

Data MiningKnowledge

Data Warehouse

Data 선택Data 선택 기존 데이터 셋을 선택하거나 , 발견된 데이터 표본이나 변수 집합을 선정

Domain 분석Domain 분석 적절한 해당 지식 습득 , 도메인 ( 비지니스 ) 의 목적 분석

Data 청결Data 청결 잘못된 데이터 제거 , 빠진 데이타의 처리 문제 등 해결

Data 변환Data 변환 목적에 따른 차원 줄이기 등 사용될 알고리즘에 맞게 데이터 변환

모델과 가설 개발모델과 가설 개발 데이타를 가장 적절하게 처리할 수 있는 모델 및 필요한 가설을 개발 .

알고리즘 선택알고리즘 선택 모델과 가설을 검증할 수 있고 , 데이터 및 도메인 특성에 맞도록 알고리즘 (NN, ID3, etc.) 선택 .

KDD Process(1)

해석과 사용해석과 사용 이미 존재하는 해당 분야 지식을 기반으로 새롭게 밝혀 낸 지식의 확정 , 거부 등의 작업을 통한 통합화 작업 , 논리적 시각적 제시

데이터 마이닝데이터 마이닝 데이터 분석 ( 알고리즘 적용 ) 을 통하여 일정한 패턴 및 새로운 유추되는 지식을 찾아내며 , 이전 스텝에서 세운 가설을 검증

실험과 검증실험과 검증 밝혀진 지식을 기존 데이타를 통한 실험 및 분석작업을 통하여 평가

KDD Process(2)

→ Process 가 위에서 아래로의 순서로 이뤄진다기보다 원하는 결과를 얻을 때가지 계속 반복된다 .

Techniques of Data Mining

ClassificationClassification

using some variables orfields in the database to predict unknown orfuture values of othervariables of interest

using some variables orfields in the database to predict unknown orfuture values of othervariables of interest

finding human-interpretable patterns describing the data

finding human-interpretable patterns describing the data

- 객체를 비슷한 객체군으로 그룹핑- Neural Network, ID3

- 사용자의 이해를 도와 줌-Histogram, Scatter Plot Display

- Class Model 생성 , Similarity Search

- 변수간 상호 관련성 파악- 단순회귀 , 다중 회귀 , 다항 회귀

- 아이템 집합 간의 친화도 예측

- 레코드 집합 간 시간적 연관성과 규칙

- 시계열 자료 예측- 이동 평균 , 지수 평활

- 이상 데이터 파악 및 원인 규명- statistical techniques

RegressionRegression

Time Series AnalysisTime Series Analysis

ClusteringClustering

Association AnalysisAssociation Analysis

Sequence AnalysisSequence Analysis

Deviation DetectionDeviation Detection

VisualizationVisualization

Prediction

Description

통계와 데이터 마이닝과의 차이

통계 The science of learning from data( 데이터로부터 배움의 학문 )Design of experiments, analysis and inference from experimental or observational data

구분 통계학 데이타 마이닝

대상 데이터 observational & experimental data observational

데이터 양 small datasets large datasets

추론 probabilistic inference based on population models

Inference based on various models

Data Mining 과 통계의 비교

구분 기계 학습 데이터 마이닝

주목적 ( 관점 ) improving the performance of an agent finding understandable knowledge

데이터 크기 ML *typically* (but not always) lookedat smaller data sets(training set)

very large, real-world databases(efficiency 가 중요 )

데이터 특성 데이터가 정적이며 , 잘 정리된 , 정확함(Training Set)

데이터가 동적 , Noisy 하고 , 불확실하며중요 정보가 빠질 수도 있다 .

기계 학습과 데이터 마이닝의 비교

Machine Learning 과 데이터 마이닝과의 차이

→ KDD is that part of ML which is concerned with finding *understandable*knowledge in large sets of real-world examples.

데이터베이스 특정 Application 의 목적에 부합되도록설계 , Learning 을 용이하게 하는 구조 일반 구조화된 데이터베이스를 대상

학습넓은 기능 제공 ( learning from examples,reinforcement learning, learning withteacher, etc.

데이터로부터 learning(learning fromexamples)

Data mining- 지식의 발견에 촛점CBR - 사례 지식의 표현 , 조회 , 재사용 , 수정 , 보존을 통한 지식의 관리와 활용에 촛점

Case based reasoning (CBR) 의 문제 Rule base reasoning(RBR) 의 지식 획득 문제를 어느 정도 해결하나 상당한 지식 획득 노력이 요구됨 Ex) acquiring cases, case vocabulary, retrieval knowledge, adaptation knowledge Case Filtering, acquiring solving strategy or background knowledge→ 도메인 전문가에 의존

데이터 마이닝으로 CBR 을 보완 오늘날 대부분 조직은 다양한 실세계 과정을 나타내는 거대한 운영 data sets 를 가지고 있음 . 이러한 데이터베이스에 담겨있는 묵시적 지식을 데이터 마이닝을 통해 활용해서 사례 기반 시스템 개발에서 요구되는 도메인 전문가에 대한 의존을 줄일 수 있지 않나 ? → CBR 의 지식 획득 과정에 기여

지식획득을 위한 데이터 마이닝•지식 획득을 자동화 •자동화된 지식 획득은 지식의 왜곡을 줄인다 .•지식의 획득 뿐 아니라 창조도 가능 .•데이터 마이닝은 단지 데이타의 경향에 관점을 두나 전문가 의존 시 도메인 이해가 필요•비용 / 시간 문제

CBR vs. Data Mining

Applications

Medicine/BiologyMedicine/Biology

Scientific DiscoveryScientific Discovery

Marketing/SalesMarketing/Sales

Finance/BankingFinance/Banking

EngineeringEngineering

SecuritySecurity

의약품 부작용 분석 , 의료 비용 분석유전자 순서 분석 (genetic sequence analysis)

의약품 부작용 분석 , 의료 비용 분석유전자 순서 분석 (genetic sequence analysis)

superconductivity researchsuperconductivity research

제품 분석 , 구매 패턴 분석 , 판매 예측 , target mailing제품 분석 , 구매 패턴 분석 , 판매 예측 , target mailing

주식 시장 예측 , 신용 평가 , 사기 탐지 , 은행 연체 관리주식 시장 예측 , 신용 평가 , 사기 탐지 , 은행 연체 관리

공장에서의 품질 변수와 프로세스 변수 , 조절 변수들간의 관계 규명및 , 불량 감지 항공사의 여객기 문제점 분석 , 자동차 문제 진단

공장에서의 품질 변수와 프로세스 변수 , 조절 변수들간의 관계 규명및 , 불량 감지 항공사의 여객기 문제점 분석 , 자동차 문제 진단

음성 인식음성 인식

성공 사례Improve product quality and customer service via a data mining

미국 내 3 대 철강 생산업체 (http://www.ltvsteel.com/)- with $4 billion in revenue(1996)

미국 내 3 대 철강 생산업체 (http://www.ltvsteel.com/)- with $4 billion in revenue(1996)

LTV Steel Corp. In Cleveland

○ 문제 1특정 제품에 대해 과거에는 불량이 3-5% 까지 인정되었으나 최근 고객은 무결점을 원함→ Data Mining 을 통해 결점을 0.03 - 0.05 % 정도로 줄이고 $10 million 을 절감 .

○ 문제 2 두 공장 (East & West) 의 불량률 차 (7-8% & 2-3%) 규명→ 불량률과 용광로 재설의 관계를 알아냄→ West 는 매 2 년마다 용광로 재설하지만 East 는 전혀 하지 않음 .→ $16.8 million 절감

○ 문제 1특정 제품에 대해 과거에는 불량이 3-5% 까지 인정되었으나 최근 고객은 무결점을 원함→ Data Mining 을 통해 결점을 0.03 - 0.05 % 정도로 줄이고 $10 million 을 절감 .

○ 문제 2 두 공장 (East & West) 의 불량률 차 (7-8% & 2-3%) 규명→ 불량률과 용광로 재설의 관계를 알아냄→ West 는 매 2 년마다 용광로 재설하지만 East 는 전혀 하지 않음 .→ $16.8 million 절감

Data mining 관련 분야

KDD데이터베이스

패턴 인식

통계학

인공 지능

데이터 ( 지식 ) 표현

정보 검색

지식 습득

KDD 상용 Tool

Product Company URLClementine Integral Solutions, Ltd. http://www.isl.co.uk/clem.html

Darwin Thinking Machines, Corp. http://www.think.com/html/products/products.htm

DataCruncher DataMind http://www.datamindcorp.com

Enterprise Miner SAS Institute http://www.sas.com/software/components/miner.html

GainSmatrs Urban Science http://www.urbanscience.com/main/gainpage.htm

Intelligent Miner IBM http://www.software.ibm.com/data/iminer/

MineSet Silicon Graphics, Inc. http://www.sgi.com/Products/software/MineSet/

Model 1 Group 1/Unica Technologies http://www.unica-usa.com/model1.htm

ModelQuest AbTech Corp. http://www.abtech.com

PRW Unica Technologies, Inc. http://www.unica-usa.com/prodinfo.htm

CART Salford Systems http://www.salford-systems.com

NeuroShell Ward Systems Group, Inc. http://www.wardsystems.com/neuroshe.htm

OLPARS PAR Government Systems mailto://[email protected]

Scenario Cognos http://www.cognos.com/busintell/products/index.html

See5 RuleQuest Research http://www.rulequest.com/see5-info.html

S-Plus MathSoft http://www.mathsoft.com/splus/

Wiz Why WizSoft http://www.wizsoft.com/why.html

Quest IBM http://www.almaden.ibm.com/cs/quest/

DBMiner DBMiner Technology Inc. http://fas.sfu.ca/0h/cs/research/groups/DB/DBMiner/

Research Issues and ChallengesResearch Issues- 대량의 데이터와 고차원 , 복잡한 데이터 처리- 사용자의 역할과 선행 지식의 문제- 통계적 중요성 해석과 검증- 빠진 데이터 , 오류 데이터 , 다양한 환경의 영향을 받은 데이터 처리- 여러 가지 패턴의 다양성 및 그 해석- 데이터와 지식의 변화에 대응- 의사 결정 시스템 등 타 시스템과 통합- 표준이 없는 데이터 , multimedia 데이터 등의 고려- Web 및 document 에서의 Mining

추진 시 고려해야 할 문제•데이터 마이닝이 처리하고자 하는 실세계의 데이터는 많은 오류와 필수 지식에 대한 결여 또는불일치성과 같은 치명적인 문제를 가질 수 있음•데이터 마이닝에 의해서 발견된 지식에 대한 타당성은 전적으로 이를 사용하는 사용자의 책임이지 데이터 마이닝 자체가 자동적으로 발견 지식에 대한 타당성을 보장하지는 못한다 . •적절하지 못한 교육 , 충분하지 못한 지원 도구 , 데이터 수집의 부재•얻고자 하는 목표를 분명히 정의•외부 요소 ( 기업 환경 변화 ) 도 고려

Conclusion

- 유효하지만 전에는 알려지지 않았던 그리고 궁극적으로 수긍할 수 있는 지식을 거대한 데이터 베이스로부터 끄집어 내어 의사 결정자들이 또 다른 기회로 활용할 수 있도록 도와줌- 데이터 Warehouse 나 DSS 와 결합하여 사용될 때 가장 효과적- 데이터 마이닝의 핵심 알고리즘은 전체 프로세스에서 10%밖에 차지하지 않음 .- 얼마나 정제된 정확한 데이터를 갖는가가 관건 ( 정제 , 요약 작업이 80%)- 다양한 기법이 사용되어질 수 있고 혼합되어 사용되어짐 , 적절한 기법을 찾는 게 중요

→ 실질적인 가치는 이러한 데이터 마이닝을 통하여 적용 , 사용되어져서 도출되는 지식

암묵지를 형식지로 변환시킴으로 해서 엄청난 가치를 창출할 수 있다 .지식 혁명 보고서 (매일경제신문사 )

데이터 마이닝은 암묵지를 형식지로 변환해 준다 .Masato Koda(University of Tsukuba)

암묵지를 형식지로 변환시킴으로 해서 엄청난 가치를 창출할 수 있다 .지식 혁명 보고서 (매일경제신문사 )

데이터 마이닝은 암묵지를 형식지로 변환해 준다 .Masato Koda(University of Tsukuba)

data mining(knowledge discovery in database)

Documents