choose the right data integration solution · datastage architecture sun solaris, hp-ux, ibm aix,...
TRANSCRIPT
®
IBM Business Intelligence Solution Seminar 2005
© 2005 IBM Corporation
Choose the Right Data Integration Solution; Best Practices on EII/EAI/ETL
한국IBM 소프트웨어사업부DB2 Technical Sales BI Team이보영 차장 ([email protected])
IBM Business Intelligence Solution Seminar 2005
2
I. 개요
II. ETL, EII, EAI 솔루션의 주요 특징 정의
III. ETL, EII, EAI 솔루션의 주요 차별점 및 Best Practice
IV. 기업 환경에서 이를 적용하기 위한 아키텍쳐의 예
V. 요약
Agenda
IBM Business Intelligence Solution Seminar 2005
3
PeopleWired / Wireless Devices협업을 위한 24x7 access / real-time 요구사항
통합되지 않고 맞추어지지않은 정보
Processesapplication asset에 대한개발과 통합
legacy 및 packaged application서로 성격이 다른 내/외부의시스템
Information분산된 데이터 환경
서로 다른 data source 및data type변형되지 않고 일치하지않는 데이터
조직과 업무를 뛰어넘어
효율적이고 유연한 전사적 결합
조직과 업무를 뛰어넘어
효율적이고 유연한 전사적 결합
DW나 DM 등 모델을디자인하는 데만
30~50%의 시간을사용한다.
IT예산의 40%는 아마도통합에 사용되고 있을
것이다.
사람들은 주어진 시간의40%를 의미 있는 정보를
찾는 데 소비한다.
정보의 85%는 비정형데이터
통합 ; Integration
IBM Business Intelligence Solution Seminar 2005
4
Horizontal Integration is the New Challenge
SupplierNetworks
InternalSystems
CustomerConnections
Bridging the gap between business transformation and IT Bridging the gap between business transformation and IT
IBM Business Intelligence Solution Seminar 2005
5
Integration Challenges
정보의 정확성에 대한 신뢰 부족
설계의 기준과 공통된 포맷에 대한 인터페이스 부족
두 개 이상의 분산된 repository 및 어플리케이션 데이터를 merge하기위한 정확한 format과 semantic layer에 대한 정의
Integration Governance Model의 정의
레코드 정의, 구조, 인터페이스 및 전체 조직을 아우르는 data flow와같은 기술적 항목들을 남기기 위한 방법론의 생성
IBM Business Intelligence Solution Seminar 2005
6
유연한 전사 어플리케이션 환경은 3가지의 Layer를 가진다
Business LayerBusiness rules
Data Layer잘 정의된 통합 구조 ; 지속적인 update
Presentation Layer변화와 진화 ; web, PDAs, etc.
기업은 다음 단계에서의 데이터 통합을 선택할 수 있다
Application levelEII (data layer level)Consolidated database level
어플리케이션 통합은 workflow 및 다른 어플리케이션 트랜잭션에 종속되는action을 기반으로 이루어진다
어플리케이션 통합은 데이터 통합의 한 면을 포함한다
어플리케이션 통합 vs. 데이터 통합
IBM Business Intelligence Solution Seminar 2005
7
Design
Operate
Evolve
Upgradeto new version
Change OS & DB
Investigate bottlenecks
Change business rules
Reuse in another project
Upgrade source
systems
Developdata mart
Migrate fromdevelopment to
production
Visible Costs
Invisible Costs
10% of costs
90% of costs
데이터 통합의 관리 및 재실행
데이터 통합 프로젝트에서 변화에 대한 관리 및 재실행이 가장 중요한 핵심 부분이다.
IBM Business Intelligence Solution Seminar 2005
8
단계별 데이터 아키텍쳐 ; 다양한 사용자 요구사항에 부응
수집영역
• 2,3차 집계 데이터• 다차원 모델• 일별/월별 데이터
• 1차 집계 요약 데이터• 일별/월별 데이터
• 의사결정 데이터• 다차원 모델• 일별/월별 데이터
• 원천 시스템 데이터와 동일한 상세 수준 데이터
• 1차 정제 수준• 준실시간/일별/월별
• 주제영역별로 정리된 상세 수준의 데이터
• 3차 정규화 모델• 정제 완료된 데이터• 준실시간/일별/월별
수집영역 데이터 근접 실시간 제공최소의 데이터 가공, 신속한 데이터 제공
다차원 OLAP 분석(정형/비정형)
정형 조회사용자 Ad-hoc Query정제된 전사 통합 모델 데이터
정형조회/비정형/실시간/준 실시간 화면 조회
요약영역
통합영역
Raw Data Area
Subject Area
Summary Area
Require Specific Area
ExecutiveArea
L1
L2
L3
L4
L5
단계적 Recursive 정제 가공 수행필요한 단계에 필요한 가공
IBM Business Intelligence Solution Seminar 2005
9
주요 관점:Current Data데이터의 dynamic한 join정형/비정형 데이터
관계형/비관계형 데이터의 혼합형태
데이터를 복사해 오기에 여의치 않은
경우
Result Set이 적은 경우
주요 관점:Local performance정형 데이터
추출/변형/로드(ETL)복잡한 변환
사용자 메타데이터
매우 많은 양의 데이터
복제(Replication)데이터 변경분이 적은 경우
(near) real time 환경이 필요한 경우
데이터 분산 액세스 데이터 통합 액세스
데이터 분산 액세스 vs. 데이터 통합 액세스
IBM Business Intelligence Solution Seminar 2005
10
I. 개요
II. ETL, EII, EAI 솔루션의 주요 특징 정의
III. ETL, EII, EAI 솔루션의 주요 차별점 및 Best Practice
IV. 기업 환경에서 이를 적용하기 위한 아키텍쳐의 예
V. 요약
Agenda
IBM Business Intelligence Solution Seminar 2005
11
…
원시 데이터 소스
Data WarehouseData Mart
데이터 복제
ETL Data Mart
Data Mart
응용 프로그램
인터페이스를 이용한 응용프로그램 간의 호출 방식
EAI App2App1
MQIn Formatting & Mapping MQOutRouteToLabel
비정형 데이터
EII “뷰”를 통한 단일한 가상의 데이터
저장소 구성
App3
Data Warehouse
전사적 데이터 통합 방안
IBM Business Intelligence Solution Seminar 2005
12
ETL
Extract / Transform / Load대용량 데이터 처리에 적합하도록 설계 : 스케줄링 기반으로 실행
변환 로직이나 오브젝트 등을 재활용할 수 있어 생산성이 뛰어남
parallel 및 concurrent 워크로드
impact analysis를 포함한 메타데이터 관리에 효과적
ETL은 Extract(추출), Transform(변환), Load(적재)의 약자로서, 여러 개의 데이터 소스로부터데이터를 추출하고, 추출된 데이터를 정제하고 변환하여 또다른 데이터베이스, 즉 분석을 위한데이터 웨어하우스나 데이터 마트, 또는 비즈니스 요건에 따라 특정 운영 시스템에 데이터를로드하는 것을 의미한다.
ETL tool
IBM Business Intelligence Solution Seminar 2005
13
DataStage Architecture
Sun Solaris, HP-UX, IBM AIX, Compaq
Server
Repository
Designer
Director
Manager
Administrator
DataStage
Windows NT/2000 Server
Windows Client
DataWarehouse
MainframeQSAMVSAMDB2IMSIDMSAdabasDatacomOthers
Hash File
Sequentialor FTP
ODBC
Any SQL
Bulk LoadersDB2 UDBInformixRedBrickOracleBCP (Sybase & Microsoft)Sybase IQ
BulkLoaders
Sequentialor FTP
ODBC
StagedData
LoadUtilities
Hash File UniVerseUniData
Native API
DB2 UDBInformixOracleMicrosoft SQL ServerSybaseUniVerseUniData …
ChangeData Capture
MainframeData Access
Sequential
Meta dataRepository
Meta DataExchange
Meta data
Oracle 7 & 8 OCIInformix CLISybase OCNative API
병렬처리 ; Parallel Extender
IBM Business Intelligence Solution Seminar 2005
14
DataStage 기능
• ETL 작업 구현에 필요한 소스 및 타겟 DB의 테이블
레이아웃 등 메타데이터를 자동으로 Import 하여
활용하고 개발자 간에 공유함
- DBMS 접속을 통한 메타데이타 생성
- 일반적인 문서의 메타데이타 생성
- XML(Web) 문서의 메타데이타 생성
• ETL 작업 구현을 GUI 환경에서 Drag & Drop 방식으
로 누구나 쉽게 구현하고 수정할 수 있어 높은 개발 생
산성과 유지보수의 편리성을 보장함
• 또한 400여 개의 표준 함수를 제공함으로써 개발의 생
산성 및 편리성을 제공함
• 편리하게 사용자 정의 함수를 구현할 수 있음
• GUI 화면에서 데이터의 흐름을 보며, 실시간 모니터
링을 통해 튜닝을 쉽게 할 수 있고 처리 상황을 직접
보면서 모니터링이 가능함
• 실시간으로 제공되는 로그 분석을 통해 작업 결과를
검증함
• 여러 작업을 하나의 배치 프로그램으로 구성한 후, 병렬처리, 선행작업 처리, 작업결과 통보 등의 기능과 함
께 처리할 수 있으며 다양한 스케줄링 기능으로 운영
을 자동화함
IBM Business Intelligence Solution Seminar 2005
15
Integrated Information
비즈니스 응용 프로그램
Marketing e-Commerce Fulfillment
Enterprise Information Integration분산된 데이터의 단일 뷰 제공
정형/비정형 데이터 통합 ; 이기종 컨텐츠 통합
실시간으로 데이터 read/write 가능
분산 또는 복제, 물리적 통합 제공
가상의 데이터 저장소 제공
비즈니스 분석을 위한 변환 가능
미들웨어의 한 영역으로, 사용자 또는 어플리케이션이 분산되어 있는 전사적인 데이터를 마치단일 소스인 것처럼 액세스할 수 있도록 한다.
EII
IBM Business Intelligence Solution Seminar 2005
16
Wrapper
ServerServer
Nicknam
e
Nicknam
e
Nicknam
e
Wrapper : 특정 데이터 소스(Oracle, Sybase, MS SQL..)를 액세스할 수있도록 하는 라이브러리로서 데이터소스의 특성에 관한 정보를 포함
Server : 특정 데이터 소스를나타냄
Nickname : 원격 서버에 있는데이터를 지칭하는 로컬에서의 별칭
II 인스턴스에 포함되는 데이터:Global catalogUser dataMQT
DB2 Catalog
wrapper, server, nicknameServer의 속성Nickname의 속성Remote functions
WS Information Integrator
WebSphere Information Integrator 기본 구성 요소
IBM Business Intelligence Solution Seminar 2005
17
WS II는 DB2 기술에 기반
Nickname은 DB2 catalog에저장되어 어플리케이션에서는테이블처럼 사용됨
Federated Query의 실행 계획은DB2 cost-based optimizer에의해서 결정되고 선택됨
Optimizer는 분산 query를 WS II와원격 데이터 소스 사이에서 어떻게실행할지를 결정함. Cost-based optimizer에 의해서 각 소스로pushdown됨
원격으로 실행될 query의 각부분들은 각 소스의 native client library를 통해서 보내짐.
Nicknam
e
Nicknam
e
Table
DB2 cost-based optimizer
Client library Client library
Local Execution Plan + Remote SQL
WS Information Integrator
Wrapper Wrapper
WebSphere Information Integrator ; How it works
IBM Business Intelligence Solution Seminar 2005
18
단일 시스템에 존재하는 것처럼 분산된 정보를 액세스
Relationaldatabases
WebOther
CollaborationSystems
XMLWeb services
Packagedapplications
SQL
Content Repositories
and Imaging Systems
Workflow systems
Content
Mainframefiles
Mainframedatabases
SQL
Federation (aka Enterprise Information Integration)
각기 다른 위치에 저장된 복합적인 형태의 데이터 활용
IBM Business Intelligence Solution Seminar 2005
19
Enterprise Application Integration비즈니스 레벨의 프로세스 및 데이터 통합에 중점
비즈니스 프로세스와 데이터의 재사용 및 분배
어플리케이션 통합시 사용자에게 요구되어지는 어플리케이션에 대한 특정 지식의 깊이를감소시킴으로써 어플리케이션 통합 간소화에 중점
EAIEAI는 기업에서 운영되는 서로 다른 플랫폼(OS, DBMS 등) 및 서로 다른 어플리케이션(ERP, SCP, DW, CRM, Legacy 등)들간의 정보에 대한 전달, 연계, 통합 (Interface & Integration) 을 가능케해주는 Interface 솔루션이다. 즉, 조직 안팎의 서로 다른 어플리케이션 및 프로세스 사이에서 정보의이동 및 교환을 가능하게 하는 일련의 기술들이다.
IBM Business Intelligence Solution Seminar 2005
20
EAI의 구성
Adapter ; 송/수신 어플리케이션과 Middleware사이에서 데이터의 추출및 적재를 담당
; 경우에 따라 제품을 사용하거나 직접 제작 가능
; DB, File등은 물론 ERP, CRM 등 패키지 어플리케이션들과도 직접 연계
Middleware(MQ) ; 송/수신 시스템간(Integration Broker 포함) 데이터의 전달 담당
; 안정적인 데이터 전달, 인터페이스 표준화
Integration Broker(WMQI) ; 어플리케이션간의 데이터 형태 변형(Transformation)및
; 목적지 결정(Routing) 담당
EAI 구성
HUB
WMQWBI
시스템
Broker
RulesFormat
DB/FileAdapter
DBMS
SAMFile
DBAdapter
DBMS
SAMFile
InformationIntegrator
DBMS
SAMFile
IBM Business Intelligence Solution Seminar 2005
21
업무 A 와 업무 B 가 통신을 할 때,중간에 큐(Queue)라는 매개체를 놓고 간접 통신하는 방식
메세지(데이터) 송/수신의 타겟이 큐(Queue)이며, 큐(Queue)는 임시로 안전하게 데이터를 저장하는 장소입니다.
큐(Queue)에 수신되는 데이터는 기본적으로 FIFO (First In First Out)방식으로 처리되나 목적에 따라 우선 순위를 적용하여처리할 수 있습니다
FIFO (First In First Out)방식으로 처리되나 목적에 따라 우선 순위를 적용하여 처리할 수 있습니다
어플리케이션은 타겟이 되는 큐의 이름만 알고 있으면 되고, 큐의 실제 위치나,네트워크 상황,수신 시스템의 상황 등에 관계없이 가동됩니다
모든 플랫폼에 사용 가능한 공통 API제공 (C/C++, Java, COBOL 등)
MOM (Message-Oriented Middleware) 분야에서 세계 시장의 78%, 아시아태평양지역의 87% 점유
WebSphere MQ
A
B
Queue 1
ASAP(Default)Time IntervalEvent Interval
동기/비동기 처리(Synchronous/Asynchronous Processing); 송신 어플리케이션 A 는 수신 어플리케이션 B 의 가동 상태나
B 가 운영되는 시스템의 가동 상태에 무관하게 데이터를 전달할
수 있으며 수신 큐의 시동(Triggering) 조건을 규정함에 따라
어플리케이션 B 의 가동을 조절할 수 있다. 따라서 분산된
시스템 자원의 효율적인 가동 및 독립적인 가동 보장한다.
데이터 전달 보증(Assured Data Delivery); 한번 큐로 전달된 데이터는 반드시 큐를 통하여 수신
어플리케이션에 한번 전달되게 하는 "메시지 전달 보증 기술"을채택함으로써 상용환경(Commercial Environment)에서의
메시징 기술 적용을 가능하게 한다.
IBM Business Intelligence Solution Seminar 2005
22
I. 개요
II. ETL, EII, EAI 솔루션의 주요 특징 정의
III. ETL, EII, EAI 솔루션의 주요 차별점 및 Best Practice
IV. 기업 환경에서 이를 적용하기 위한 아키텍쳐의 예
V. 요약
Agenda
IBM Business Intelligence Solution Seminar 2005
23
• 비즈니스 레벨의 프로세스 및 데이터통합에 focus
• 비즈니스 프로세스와 데이터의 재사용및 분배
• API 기반의 어플리케이션
• real-time 또는 near real-time• 개별적인 event 또는 트랜잭션 기반으로데이터의 이동이 일어남
• 간단하고 기본적인 변환 또는 데이터 그자체만을 이동시키고자 할 때 강점
• workflow의 컨트롤이 가능
structured data와 unstructured data(컨텐트) 모두 처리 가능
real-time으로 data read/write 가능
데이터 모델과 metadata가 생성되기이전에 데이터 탐색 가능
remote source의 global access에 강점
성능, 예산, 가용성, 보안 등의 문제로데이터의 이동이 어려운 데이터 또는불필요한 데이터의 이동을 피하기 위한데이터의 위치에 대한 관리
가상의 데이터 저장소 제공
분산 또는 복제, 물리적 통합 제공
통합 정보의 metadata 관리
새로운 데이터 소스에 대한 유연한 확장성
제공
Data Grid
structured data 처리
Batch 작업으로 처리
한 번에 대용량 데이터 처리
계산이나 집계, 또는 많은 단계를 거쳐야하는 복잡한 변환도 쉽게 작성
관리자에 의한 스케줄에 기반한 실행
대부분의 툴이 GUI 기반으로써 직관적인view를 제공하며 생산성이 높음
개발된 모듈의 재사용성이 높음
impact analysis를 포함한 metadata 수집과 관리가 용이
Strength
• 조직 안팎에서 서로 다른 어플리케이션및 프로세스 사이에서 데이터의 이동 및교환 가능한 솔루션
• Websphere MQ
Middleware 영역
분산되어 있는 다양한 종류의 데이터소스를 마치 하나의 소스인 것처럼 단일 뷰
제공
Websphere Information Integrator
Extract, Transform, Load
여러 데이터 소스로부터 데이터를추출하여 변환하고 정제한 후 또다른데이터베이스 즉 DW나 DM, 혹은비즈니스 프로세스에 따라서는 또다른운영 시스템에 적재
• DataStage
정의
구분 EAIEIIETL
ETL vs. EII vs. EAI – Strengths and Challenges
IBM Business Intelligence Solution Seminar 2005
24
Challenge
구분
• 데이터 변환의 제약 - 간단한 데이터
변환
• 데이터 집계 제약
• 트랜잭션 당 10여개의 레코드 이동
• 개발하기가 복잡함
• 변환 작업의 재사용의 어려움
• metadata 관리의 어려움 ; metadata의사용 및 import/export
• Semantic integrity• 사용량이 많은 시간에는 network 부하
우려
데이터 변환의 제약 ; SQL 기반의 변환
• 여러 소스에 대하여 key를 match 시켜야 함
• 데이터 소스에 따라 data type mismatch• 소 스 시스템의 resource 사용 ; 소스시스템에 부하를 줄 수 있음
• 한 번에 수천~수만 레코드 처리
• 사용량이 많은 시간에는 network 부하 우려
단방향의 데이터 흐름
소스 시스템의 데이터 변경에 대한 관리가
어려움
많은 공간의 staging 영역이 필요함 ; 스토리지 낭비의 우려
out-of-sync이므로 소스 데이터가 DW에도달하기까지의 시간이 오래 걸림
실제 사용 여부와 상관없이 데이터 이동이
일어남
EAIEIIETL
ETL vs. EII vs. EAI – Strengths and Challenges
ETL tool
IBM Business Intelligence Solution Seminar 2005
25
• Small• 10여 레코드를 몇 개의
pipe를 통하여 처리
• Medium • 수십만~수백만 레코드
• Very large • 수백만~수십억 레코드 이상
한 번에 처리 가능한 데이터볼륨
• 간단한 변환• broker에 의해 구현 가능한
semantic transformation에제한됨
• SQL로 처리될 수 있는정도의 복잡도
• 매우 복잡한 변환도 쉽게처리
변환의 복잡도
• Low• 변환은 ESQL 프로그램기반으로 이루어지며, DB catalog 정보에 제한된metadata만을 사용할 수있다
• Medium • 변환은 SQL 기반으로이루어지며, view 등의database object를 이용하게된다
• Best• 일반적으로 ETL Job 모듈과프로세스의 재사용성이높다
데이터 변환 및정제/Metadata 관리의 효율성및 재사용성
• Messaging• Direct database connection• FTP 또는 direct database connection
데이터 이동 방법
• Transaction triggered –비동기식
• Transaction managed• (Near) Real-time
• Query time - Query (SQL) managed
• Real-time
• 스케줄에 의한 Batch Job• Daily - Monthly
Data 이동 시점
• 양방향• 양방향•단방향 – source to targetData Flow
EAIEIIETL
ETL vs. EII vs. EAI – 기술적 관점에서의 비교
IBM Business Intelligence Solution Seminar 2005
26
• rule 기반으로 광범위하게제공
• None• 스케줄링, Job flow에 따른이전 Job의 실행 여부, error 및 exception handling
Workflow Control
• Best • 단순한 데이터 이동이아니라 event 발생을지원하기 위한 로직 추가가능
• Limited• 소스 시스템의 trigger 기능에 의존적
• Very LimitedEvent Monitoring의 지원여부
• Limited support – custom build
• Limited support – custom build
• Full support Versioning
EAIEIIETL
ETL vs. EII vs. EAI – 기술적 관점에서의 비교
IBM Business Intelligence Solution Seminar 2005
27
ETL Best Practices
ETL은 일반적으로 대용량 I/O bound 작업
불필요한 staging step을 줄여주어야 함
속도가 빠른 storage 사용
뜻하지 않은 I/O를 피하라
“lookup” 프로세스에 주의
data file의 위치에 유의
ETL 툴 사용시 생산성 및 데이터 일관성 향상
data mart에서 data mart로 가는 작업은 피하는 것이 좋음
과도한 locking을 피해야 함
많은 수의 프로세스들을 병렬로 처리하는 것이 키
Key to running many concurrent processes in parallelQuery, Load, Backup이 동시에 허용되어야 함
ETL tool
IBM Business Intelligence Solution Seminar 2005
28
Integrated Information
비즈니스 응용 프로그램
Marketinge-CommerceFulfillmentEII Best Practices
일반적으로 규칙적이지 않은 ad-hoc 액세스에는 적합하지 않음
최상의 성능을 위해서 WII는 자주 사용되는 데이터를 캐쉬함으로써 query 실행 비용을 관리하도록 계획을 세움
WII는 query의 종류와 비용을 관리
DB2 Query Patroller
remote source 사이에 많은 데이터의 이동이 발생하는 operation의 경우WII는 꽤 많은 시간이 소요될 것이다
“permanent basis”에는 WII를 이용하여 “virtual warehouse” 구축을 시도하지 말라, 특히 ad-hoc 액세스가 일어날 것으로 예상되어진다면 더욱 그렇다
remote 소스에 대한 federated query의 영향을 항상 염두에 두어야 한다
Remote data에 대해서는 target access
데이터의 흐름은 remote 소스에서 federated server로두 개 이상의 remote 소스에서 사이즈가 큰 테이블을 조인하는 것은 피하라
IBM Business Intelligence Solution Seminar 2005
29
EAI Best Practices
Point-to-point 통합은 피하라
좀 더 나은 재사용성을 Hub와 broker 사용
어플리케이션 개발시 주의사항
선행되어야 할 내용에 대한 준비 및 계획이 필요함
연관되는 시스템에 미치는 영향도를 이해해야 함
데이터 흐름에 대한 시나리오 및 일어날 수도 있는 현상에 대한 이해가 필요
성능에 대한 모니터링
workflow에서 데이터의 일관성과 성능에 대한 병목현상을 trace할 수 있도록준비가 필요하다
IBM Business Intelligence Solution Seminar 2005
30
EII vs. EAI vs. ETL
When to use ETL데이터 통합
복잡한 변환
When to use EII일반적으로 다른 소스에서 select된 데이터를 기반으로 대용량의 repository에connect하고자 할 때
잘 디자인된 EDW 시스템을 확장하고자 할 때
소스 데이터가 다음의 특성을 가질 때– 자주 변하는 휘발성의 데이터
– 선택될 가능성이 매우 적은 데이터
– 언제라도 원하는 때에 접근이 가능한 데이터
– 변환 작업이 SQL 기능으로 처리할 수 있는 데이터
When to use EAI트랜잭션 단위로 데이터를 통합하거나 한 번에 적은 양의 데이터 통합
적은 양의 데이터만을 join함으로써 query를 수행할 수 있을 때
데이터 소스에 직접 액세스할 수 없을 때
Combination is normally used
IBM Business Intelligence Solution Seminar 2005
31
I. 개요
II. ETL, EII, EAI 솔루션의 주요 특징 정의
III. ETL, EII, EAI 솔루션의 주요 차별점 및 Best Practice
IV. 기업 환경에서 이를 적용하기 위한 아키텍쳐의 예
V. 요약
Agenda
IBM Business Intelligence Solution Seminar 2005
32
비즈니스 분석가
일반 사용자
DataWarehouse
Non-relationaldata
Real-timedata
WS Information Integrator
BI 툴
분석 어플리케이션
데이터 웨어하우스에는 없는 최신의 remote data(가격, 주문 정보 등)를 액세스하고자 할 때
DB2 웨어하우스가 파티션되어 있을 때 ; remote data를 포함하는 query는병렬로 처리된다
remote data의 사이즈가 클 때 ; 꼭 필요한 데이터에 대해서만 빠르게 액세스할수 있도록 optimization된 access path를 따라서 “target” 데이터만 액세스하도록한다
Extending the Data Warehouse
IBM Business Intelligence Solution Seminar 2005
33
Store A App
Store B App
Store C App
DataStage
WebSphere MQ
WebSphere MQ
WebSphere MQ
그림설명) MQStage를이용한 DataStage Job의예. 여기서는 MQ로들어오는데이터를일정한변환을거쳐 DB2에적재하도록되어있다.
POS 트랜잭션 데이터의 DW 반영
IBM Business Intelligence Solution Seminar 2005
34
ETL job에서 Federation이 사용될 수 있다
추출 및 lookup 조회
복잡한 join으로 가져와야 할 데이터를 간단하게 처리
unstructured data의 fetch 가능
SOA 기반의 external Web Services 까지도 확장할 수 있음
DataStage
DB2extract clean/transform lookup load
II (Federation)
source1 source2 source3 sourceA sourceB
II (Federation)
DataStage can leverage WS II
IBM Business Intelligence Solution Seminar 2005
35
CICS/VSAM
SQL
WBIServer
WS IIClassic Federation
Oracle
MS-SQLMS-SQLWrapper
ODBCWrapper
WS II
DB
2 SQ
L
vi
a JD
BC
WPS
DB
2 SQ
L
vi
a JD
BC
OracleWBI JDBC
Adapter
via ODBC
WBI JDBC
Adapter
OracleWrapper
BI Portal - EDW
E-Commerce – Mainfram
Call Center
DB2
EDW
WII와 MQ의 적용
IBM Business Intelligence Solution Seminar 2005
36
I. 개요
II. ETL, EII, EAI 솔루션의 주요 특징 정의
III. ETL, EII, EAI 솔루션의 주요 차별점 및 Best Practice
IV. 기업 환경에서 이를 적용하기 위한 아키텍쳐의 예
V. 요약
Agenda
IBM Business Intelligence Solution Seminar 2005
37
…
원시 데이터 소스
Data WarehouseData Mart
데이터 복제
ETL Data Mart
Data Mart
응용 프로그램
인터페이스를 이용한 응용프로그램 간의 호출 방식
EAI App2App1
MQIn Formatting & Mapping MQOutRouteToLabel
비정형 데이터
EII “뷰”를 통한 단일한 가상의 데이터
저장소 구성
App3
Data Warehouse
Session Summary ; 전사적 데이터 통합 방안
IBM Business Intelligence Solution Seminar 2005
38
변환이 복잡한 대용량 데이터의 통합
스케줄링에 의한 Batch Job
원하는 때에 원하는 데이터를 가져온다 – “right time”
데이터는 원래 있던 저장소에 그대로 있다
데이터가 변경되는 트랜잭션 발생 그 즉시 데이터 이동 및 반영 – “real time”
데이터 소스에 직접 접속할 수 없을 때
ETL - DataStage
EII –WebSphere Information Integrator
EAI – WebSphere MQ
Session Summary ; Quiz