in-database analytics : db상에서의효율적인 정보분석방안 ·...

37
In-Database Analytics : DB상에서의 효율적인 정보 분석 방안 Data Warehousing ETL OLAP Data Mining Oracle 10 Oracle 10 g g DB DB Statistics 장성우 BI/DW팀장 한국 오라클

Upload: others

Post on 19-Oct-2020

4 views

Category:

Documents


0 download

TRANSCRIPT

  • In-Database Analytics :DB상에서의 효율적인

    정보 분석 방안

    Data Warehousing

    ETL

    OLAP

    Data Mining

    Oracle 10Oracle 10gg DBDB

    Statistics

    장 성 우

    BI/DW팀장한국 오라클

  • 목차

    • Flashback : RTE 개요 및 대응 방안

    • 정보 분석 개요효율적인 정보 분석 방안 고찰

    오라클의 정보 분석 전략 : In-Database Analytics

    • DB 상에서의 정보 분석 방안In-Database Statistics

    OLAP Option

    Data Mining Option

    • 요약 및 Q&A

  • Flashback :

    RTE 개요 및 대응 방안

  • RTE(Real-Time Enterprise)란?“…an enterprise that competes by using up-to-

    date information to progressively remove delays to the management and

    execution of its critical business processes”- Gartner, Definition of Real Time Enterprise

    • Real-Time Enterprise기업 환경의 변화 속도에 대응하기 위한새로운 전략의 필요성에 의해 출현

    중요 업무의 관리와 프로세스의 실행간의지연 최소화가 가장 중요한 요소(“Remove delays”)이를 위한 가장 최신(“Up-to-date”) 정보를제공하고 활용하는 기업

  • • RTE에 대한 데이터 관점의 대응개별 구성 요소 성능 최적화와 함께 구성 요소간의 연결 최적화

    개별 시스템의 성능 여부는 기본적 검토 사항

    시스템간의 실시간 연결을 통한 ‘정보전달지연의 최소화’가대응의 핵심.

    정보 전달 체계의 체계 사전 수립 및 이에 대한 적합한 정보 전달방안을 설계 및 구축

    실시간 연결 반드시 실 시간화 해야 함을 의미하지는 않음

    비즈니스 요건에 맞는 정보 전달 방법을 선택함에 있어서시스템의 제약요소로 인해 비즈니스 요구조건을 만족시키지못하는 사태를 미연에 방지할 수 있는 대응 방안이 중요

    시스템 장애 및 업그레이드 등에 효과적 대응하는 고 가용성의자원확보

    시스템의 장애발생으로 인한 불필요한 업무 지연 예방

    RTE 대응 방안

  • DW Renovation• 양방향 정보 처리로 분석의 효과

    극대화 및 업무 개선 달성

    실시간ETL

    ODSODS

    통합 정보 시스템통합 정보 시스템

    실시간

    가공

    소스 시스템

    Fin

    MFG

    인사

    MES

    외부정보

    RTDWRTDW(OLAP(OLAP

    ++OLTP)OLTP) 실

    필요 시분석 요약 정보를운영계로 반영(실시간ETL과

    동일한 방안으로)

    분석 정보를활용하여 곧

    바로 후속 업무지시 및 실행

    중요 정보의실시간

    모니터링 및KPI 요소들의상시 관리 체제

    구축

    핵심 가치 : “정보 전달 체인의 시스템적 연결을통한 업무 처리 주기 단축 및 회전율의 증대”

    BI Portal

  • 효율적인 정보 관리의 요구 조건

    • 단순화정보의 통합

    최상의 방안은 단일 데이타베이스로 모든정보를 통합하고 공유하는 것 : “Data in One Place”

    • 표준화전사 정보의 의미 및 표현 형태의 표준을수립하고 이를 기반으로 중복성 제거

    • 자동화정보 관리 프로세스를 최대한 자동화

    단순화

    자동화

    표준화

    Information

    Driven

    Enterprise

    목표 : 정보 관리의 Gap을 최소화하여 실시간대응성을 극대화

  • 정보 분석 개요

  • 정보 분석 개요

    숨겨진 패턴의발견을 통한 지식획득

    다음 6개월 동안 펀드를구매할 것으로예측되는 사람들은누구이며 그 이유는?

    상세 정보의추출

    지난 3년간 펀드를구입한 사람들은누구인가?

    요약 및 경향분석

    펀드 구매자들의지역별, 연도별평균 이득은얼마인가?

    Query and Reporting OLAP Data Mining

    “통찰 & 예측”“정보” “분석”

    “Business Intelligence”

  • 정보 분석 관련 주요 트렌드

    • 정보의 크기는 점점 커지는 추세3년 전 전 세계에서 가장 큰 DW : 30TB작년 세계에서 가장 큰 DW : 100TB2,3년 내로 PB급 DW가 나올 것으로 예상됨

    • 정보의 저장은 이제 큰 문제가 아님. 진짜문제는 정보 분석 방법임

    차원이 4000개이고 크기가 2TB인 정보를 어떻게분석할 것인가?

  • 현재의 정보 분석 프로세스• 분석 업무의 분리

    서로 다른 곳에서 분석 수행 : 다른 시스템, 다른 담당자• 개별적인 분석 애플리케이션 사용

    업무별 전문 패키지 사용 : 전문성은 좋으나 통합성은?• 주요 고찰 이슈 : 구축 및 유지 비용, 실시간 대응성

    DataDataWarehouseWarehouse

    DataIntegration

    Engine

    OLAPEngine

    MiningEngine

  • 현재 프로세스의 문제점

    • 데이터의 빈번한 이동데이터의 크기가 적을 때는 별 문제가 없음. 하지만, 분석해야 할 데이터의 크기가커진다면?(예:TB급의 고객 정보 분석)데이터의 크기가 커질수록 중요한 이슈로 대두됨

    데이터 중복 저장 비용

    데이터 이동에 따르는 시간 손실

    전문 패키지의 정보 확장성 및 성능 이슈

    • 업무 프로세스의 분리전체 분석 프로세스의 지연

    실시간 분석 및 대응이 불가능

  • 바람직한 정보 분석 프로세스

    • 한 곳에서 정보 관리 및 분석 수행데이터 이동을 최소화하여 서버간 이동에 따르는불필요한 시간 지연 제거

    중복 저장 불필요

    안전하고 효율적인 정보 관리

    Security, Scalability, Availability

    • 정보 분석 업무의 유기적 연결 및 차별화일반 정보 분석 업무의 상시 & 실 시간화

    단일 SQL로 정보 분석 업무 처리필요 시 전문 패키지를 통한 고급 분석 수행

  • 오라클의 정보 전략 :In-Database Analytics

    • 단일 DB 내에서통합된 정보 분석업무 지원

    Data WarehouseBuilt-in StatisticsOLAP OptionData Mining Option

    Data Warehousing

    ETL

    OLAP

    Data Mining

    Oracle 10Oracle 10gg DBDB

    Statistics

  • Data Warehousing

    ETL

    OLAP

    Data Mining

    Oracle 10Oracle 10gg DBDB

    Statistics

    Oracle Business IntelligenceKnow More, Do More, Spend Less!

    Query & ReportingOracle BI SolutionBI BeansOracle Reports

    Access & Assemble DataOracle Warehouse Builder

    REGION

    TIME

    PRODUCT

    Drill for DetailOLAP OptionSpreadsheet Add-In

    Mine for New InsightsOracle Data Mining OptionSpreadsheet Add-InStatisticsText Mining

  • In-Database Analytics의 장점• 기술적인 측면

    데이터는 항상 적절한 제어 하에 DB 상에 존재함복합 질의를 통해 직관적인 분석 처리 가능

    확장의 용이성 및 우수한 처리 성능

    Fast scoring : 단일 CPU 시스템에서 250만개의 레코드를단 6초 만에 점수 부여 작업을 마침

    • 비즈니스적인 측면실시간의 정보 분석 처리 가능

    TCO의 절감 가능

    Data Warehousing

    ETL

    OLAP

    Data Mining

    Oracle 10Oracle 10gg DBDB

    Statistics

  • In-Database Analytics : 사례

    • 예제 : DVD 마케팅 캠페인 시행 결과의 통계적 검정사전 정의된 분류 방법에 의해 반응 모델이 만들어져 있을때, 이를 이용하여 어떤 고객이 마케팅 캠페인에 응할것인가를 예측

    각각의 고객들이 캠페인 시행 이전 3개월과 이후 3개월동안 얼마만큼 DVD를 구매했는가를 분석예측된 고객들의 캠페인 성공률과 반응하지 않은고객들의 구매율을 서로 다른 지역과 회사별로 비교하고, 이 정보들의 통계적으로 유의한지의 여부를 검정

  • In-Database Analytics : 사례기존의 처리 방법

    • 1단계 : 데이터 마이닝 프로그램DB로부터 고객 데이터를 전달 받음프로그램 상에서 예측 작업 수행

    예측된 사용자 정보를 DB에 재 전송• 2단계 : DB 검색

    예측된 고객 정보를 로딩

    해당 고객들의 캠페인 전후 구매 상황을 검색

    캠페인 성공 여부 정보를 검색하여 정리

    • 3단계 : 통계 패키지캠페인 성공률 정보를 DB로부터 받음통계적 검증 작업을 수행

  • In-Database Analytics : 사례오라클 상에서의 처리 방법• 하나의 SQL로 수행 가능

    select responder, cust_region, count(*) as cnt,sum(post_purch – pre_purch) as tot_increase,avg(post_purch – pre_purch) as avg_increase,stats_t_test_paired(pre_purch, post_purch) as significance

    from (select cust_name,

    prediction(campaign_model using *) as responder,sum(case when purchase_date < 15-Apr-2005 then

    purchase_amt else 0 end) as pre_purch,sum(case when purchase_date >= 15-Apr-2005 then

    purchase_amt else 0 end) as post_purchfrom customers, sales, products@PRODDB where sales.cust_id = customers.cust_idand purchase_date between 15-Jan-2005 and 14-Jul-2005and sales.prod_id = products.prod_idand contains(prod_description, ‘DVD’) > 0

    group by cust_id, prediction(campaign_model using *) )group by rollup responder, cust_region order by 4 desc;

    기본 DB 정보 검색

    통계 : 유의성 검증

    마이닝 : 캠페인 예측

  • In-Database Analytics : 사례• 사례를 통해 본 오라클 방법의 장점

    데이터 이동이 전혀 없음(SQL 안에서 pipelining)분석 프로세스가 단순해 짐

    실시간 분석이 가능

    • 고려 사항DB와 DM, 통계를 모두 아는 전문가 필요일반 및 고급 분석 프로세스의 분리

    일반 분석 : 상시화 및 실시간 화고급 분석 : 전문화

  • DB상에서의 정보 분석 방안

  • 10g가 제공하는 통계 처리 기능들• Ranking functions

    rank, dense_rank, cume_dist, percent_rank, ntile

    • Window Aggregate functions (moving and cumulative)

    Avg, sum, min, max, count, variance, stddev, first_value, last_value

    • LAG/LEAD functionsDirect inter-row reference using offsets

    • Reporting Aggregate functionsSum, avg, min, max, variance, stddev, count, ratio_to_report

    • Statistical AggregatesCorrelation, linear regression family, covariance

    • Linear regressionFitting of an ordinary-least-squares regression line to a set of number pairs. Frequently combined with the COVAR_POP, COVAR_SAMP, and CORR functions.

    • Descriptive Statisticsaverage, standard deviation, variance, min, max, median (via percentile_count), mode, group-by & roll-upDBMS_STAT_FUNCS: summarizes numerical columns of a table and returns count, min, max, range, mean, stats_mode, variance, standard deviation, median, quantile values, +/- n sigma values, top/bottom 5 values

    • CorrelationsPearson’s correlation coefficients, Spearman's and Kendall's (both nonparametric).

    • Cross TabsEnhanced with % statistics: chi squared, phi coefficient, Cramer's V, contingency coefficient, Cohen's kappa

    • Hypothesis TestingStudent t-test , F-test, Binomial test, Wilcoxon Signed Ranks test, Chi-square, Mann Whitney test, Kolmogorov-Smirnov test, One-way ANOVA

    • Distribution FittingKolmogorov-Smirnov Test, Anderson-Darling Test, Chi-Squared Test, Normal, Uniform, Weibull, Exponential

    • Pareto Analysis (documented)80:20 rule, cumulative results table

    Note: Statistics and SQL Analytics are included in Oracle Database Standard Edition

  • In-Database Statistics• 통계 패키지로의 데이터 이동 없이 단순 통계분석 처리 가능(예:가설 검정)

    Note: Statistics and SQL Analytics are included in Oracle Database Standard Edition

  • OLAP 개요

    • OLAP의 중요성SQL로 처리가 힘든 Ad-Hoc 질의의 효율적인 처리

    다차원 정보 모델의 효율적인 처리

    빠른 처리 성능

    • 별도 OLAP 서버 구성의 단점구축과 유지에 따르는 고비용

    가용성과 확장성 문제

    임의적 API에 따른 애플리케이션 호환성 문제

  • 10g OLAP Option• DW 상에서 OLAP 동시 구현

    하나의 DB 상에서 대규모의 관계형 데이터와 다차원데이터 집합 동시 지원

    별도의 데이터 구축 작업 없이 매핑 작업만으로 다차원큐브의 신속한 구축 가능

    압축, 파티션, 병렬처리를 통한 신속한 Ad-Hoc 질의 처리다차원 데이터 타입에 대한 일반적인 SQL 인터페이스 지원OLAP API를 통한 최적화 및 확장 지원

    • 주요 장점빠른 데이터 처리 성능

    큐브 구축 및 질의 실행 모두 빨라짐

    손쉬운 사용

    SQL 및 OLAP API를 통한 손쉬운 개발 및 검색 가능

  • Oracle OLAP Platform

    Oracle Warehouse Builder Analytic Workspace Manager

    DatabaseOLAP Option: Query Analysis Planning

    OracleBIReports

    OracleHTML DB

    OracleBISpreadsheet

    Add-In

    Oracle Enterprise Planning &Budgeting

    Oracle BI Beans

    OracleBIDiscoverer

    OLAP

    OracleDemandPlanning

  • Case Study: Simple Queries

    1710

    17

    98

    14 16 14

    23

    0

    20

    40

    60

    80

    100

    120

    Analytic Workspace 14 MVs 214 MVs 518 MVs

    Time to build

    Time to execute simple queries

  • Case Study: OLAP Queries

    17 10 17

    98

    23

    411

    126147

    0

    50

    100

    150

    200

    250

    300

    350

    400

    450

    Analytic Workspace 14 MVs 214 MVs 518 MVs

    Time to build

    Time to execute OLAPqueries

  • Data Mining 개요• 대량의 데이터 안에서 숨겨진 패턴들과

    새로운 통찰적 지식을 찾아가는프로세스

    • Data Mining이 제공할 수 있는 가치목표 속성과 밀접히 연관된 요인들의 파악(Attribute Importance)고객 행위의 예측 (Classification)목표 고객 혹은 물품의 프로화일 구축(Decision Trees)샘플 정보의 세그먼트화 (Clustering)대상체 내에 존재하는 중요한 관련성의탐색 (Associations)사기 등과 같은 드문 사건의 파악(Anomaly Detection)

  • Data Mining 응용 사례금융– 경쟁 감손 (churn) – 사기 적발– 대출 부도 (Basel II)– 판매 기회 파악

    DB 마케팅– 목표 고객 대상 제품 캠페인– 교차 및 상향 판매 기회 파악

    통신– 이탈 고객 예측 및 일생 가치를

    가지는 목표 고객 탐색

    – 교차 판매 기회 파악

    보험, 공공– 회계 이상 체크 (Sarbanes-Oxley)– 의심되는 업무의 감사를 통한 비용

    절감

    유통– 충성 고객 프로그램

    – 교차 판매

    – 시장 바스켓 분석

    – 사기 적발

    생명 과학– 환자들과 연관된 의심 요인들 분석– 목표 유전자 및 단백질 발견– 신약 개발의 주도 물질 파악

  • Oracle Data Mining • Oracle mining platform

    PL/SQL APIJava APIOracle Data Miner (GUI)Spreadsheet Add-In

    • 지원하는 알고리즘Attribute importanceClassification, regression & predictionAnomaly detection Association rules Clustering Nonnegative matrix factorization BLAST

  • Oracle Data Mining 알고리즘과 응용 예제

    Attribute Importance• 목표 속성에 가장 큰 영향을 미치는

    속성들을 파악함고비용과 가장 밀접히 연관된 요인의파악

    Classification & Prediction• 다음의 경향이 가장 큰 고객을 예측

    캠페인 혹은 제안에 반응

    가장 많은 이익을 제공

    • 최고의 고객을 파악하고 프로파일 개발

    Regression• 수치적 예측을 수행

    평균 구매 금액 및 비용 예측

    A1 A2 A3 A4 A5 A6 A7

    Income

    Gender

    Status Gender HH Size

    >$50K 4

    Age

    Buy = 0 Buy = 1 Buy = 1 Buy = 0

  • Oracle Data Mining 알고리즘과 응용 예제

    Clustering• 자연스럽게 발생하는 그룹을 발견

    시장 세그먼테이션

    질병 유발 그룹 파악

    정상 및 비정상 행위의 구분

    Association Rules• 시장 바스켓에서 동시발생 물품 파악

    물품 결합을 제안

    보다 효율적인 제품 전시 지원

    Feature Extraction• 대표적인 속성 몇 가지로 축약

    clustering 및 text mining에 활용 F1 F2 F3 F4

  • Oracle Data Mining 10g R2Improve ease of use

    • 데이터 마이닝 모델의구축, 평가 및 적용을 위한GUI 제공

    Wizards 방식Mining 가이드 지원

    • 응용 개발을 위한 SQL & Java 코드 생성을 지원

    데이터 마이닝을 통해 얻은지식을 다른 BI 도구 및애플리케이션과 연계시켜 줌

  • metagroup.comCopyright © 2004 META Group, Inc. All rights reserved. METAspectrum 60.1

  • 오라클의 정보 분석 전략의 이점

    • Grid, RAC, 통합 BI,…• SQL & PL/SQL 사용 가능• 기존의 DB 기술 최대한 활용

    오라클 DB 기술을 최대한활용 가능

    • 다양한 운영 환경에서 분석애플리케이션 수행 가능

    복수의 H/W, O/S에서 운용가능

    • 대부분의 정보 분석 문제에대한 해결 방안을 제공

    넓은 범위 마이닝 및 통계처리 알고리즘 제공

    • 데이터 이동을 없애고 보안이슈에의 노출을 최소화 할수 있음

    • 빠른 정보 관리 체인 제공

    분석 애플리케이션을 위한플랫폼 제공

    BenefitIn-Database Analytics

  • 요약

    • DB는 더 이상 단순 데이터 관리의 장소가 아니며, 실시간 정보 분석의 핵심 요소임

    • 데이터 측면의 RTE 구현 방안DB의 통합

    단순화, 표준화, 전문화정보 전달 체인의 효율화

    통합 DB 상에서의 정보 분석정보 분석 업무의 개선

    • 단순 분석의 실시간화, 고급 분석의 전문화

    핵심 가치 : 정보 관리 및 분석의 실 시간화 및이를 통한 정보 회전율 증대