choose the right data integration solution · datastage architecture sun solaris, hp-ux, ibm aix,...

38
® IBM Business Intelligence Solution Seminar 2005 © 2005 IBM Corporation Choose the Right Data Integration Solution ; Best Practices on EII/EAI/ETL 한국IBM 소프트웨어사업부 DB2 Technical Sales BI Team 이보영 차장 ([email protected])

Upload: others

Post on 22-Mar-2020

7 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Choose the Right Data Integration Solution · DataStage Architecture Sun Solaris, HP-UX, IBM AIX, Compaq Server Repository Designer Director Manager Administrator DataStage Windows

®

IBM Business Intelligence Solution Seminar 2005

© 2005 IBM Corporation

Choose the Right Data Integration Solution; Best Practices on EII/EAI/ETL

한국IBM 소프트웨어사업부DB2 Technical Sales BI Team이보영 차장 ([email protected])

Page 2: Choose the Right Data Integration Solution · DataStage Architecture Sun Solaris, HP-UX, IBM AIX, Compaq Server Repository Designer Director Manager Administrator DataStage Windows

IBM Business Intelligence Solution Seminar 2005

2

I. 개요

II. ETL, EII, EAI 솔루션의 주요 특징 정의

III. ETL, EII, EAI 솔루션의 주요 차별점 및 Best Practice

IV. 기업 환경에서 이를 적용하기 위한 아키텍쳐의 예

V. 요약

Agenda

Page 3: Choose the Right Data Integration Solution · DataStage Architecture Sun Solaris, HP-UX, IBM AIX, Compaq Server Repository Designer Director Manager Administrator DataStage Windows

IBM Business Intelligence Solution Seminar 2005

3

PeopleWired / Wireless Devices협업을 위한 24x7 access / real-time 요구사항

통합되지 않고 맞추어지지않은 정보

Processesapplication asset에 대한개발과 통합

legacy 및 packaged application서로 성격이 다른 내/외부의시스템

Information분산된 데이터 환경

서로 다른 data source 및data type변형되지 않고 일치하지않는 데이터

조직과 업무를 뛰어넘어

효율적이고 유연한 전사적 결합

조직과 업무를 뛰어넘어

효율적이고 유연한 전사적 결합

DW나 DM 등 모델을디자인하는 데만

30~50%의 시간을사용한다.

IT예산의 40%는 아마도통합에 사용되고 있을

것이다.

사람들은 주어진 시간의40%를 의미 있는 정보를

찾는 데 소비한다.

정보의 85%는 비정형데이터

통합 ; Integration

Page 4: Choose the Right Data Integration Solution · DataStage Architecture Sun Solaris, HP-UX, IBM AIX, Compaq Server Repository Designer Director Manager Administrator DataStage Windows

IBM Business Intelligence Solution Seminar 2005

4

Horizontal Integration is the New Challenge

SupplierNetworks

InternalSystems

CustomerConnections

Bridging the gap between business transformation and IT Bridging the gap between business transformation and IT

Page 5: Choose the Right Data Integration Solution · DataStage Architecture Sun Solaris, HP-UX, IBM AIX, Compaq Server Repository Designer Director Manager Administrator DataStage Windows

IBM Business Intelligence Solution Seminar 2005

5

Integration Challenges

정보의 정확성에 대한 신뢰 부족

설계의 기준과 공통된 포맷에 대한 인터페이스 부족

두 개 이상의 분산된 repository 및 어플리케이션 데이터를 merge하기위한 정확한 format과 semantic layer에 대한 정의

Integration Governance Model의 정의

레코드 정의, 구조, 인터페이스 및 전체 조직을 아우르는 data flow와같은 기술적 항목들을 남기기 위한 방법론의 생성

Page 6: Choose the Right Data Integration Solution · DataStage Architecture Sun Solaris, HP-UX, IBM AIX, Compaq Server Repository Designer Director Manager Administrator DataStage Windows

IBM Business Intelligence Solution Seminar 2005

6

유연한 전사 어플리케이션 환경은 3가지의 Layer를 가진다

Business LayerBusiness rules

Data Layer잘 정의된 통합 구조 ; 지속적인 update

Presentation Layer변화와 진화 ; web, PDAs, etc.

기업은 다음 단계에서의 데이터 통합을 선택할 수 있다

Application levelEII (data layer level)Consolidated database level

어플리케이션 통합은 workflow 및 다른 어플리케이션 트랜잭션에 종속되는action을 기반으로 이루어진다

어플리케이션 통합은 데이터 통합의 한 면을 포함한다

어플리케이션 통합 vs. 데이터 통합

Page 7: Choose the Right Data Integration Solution · DataStage Architecture Sun Solaris, HP-UX, IBM AIX, Compaq Server Repository Designer Director Manager Administrator DataStage Windows

IBM Business Intelligence Solution Seminar 2005

7

Design

Operate

Evolve

Upgradeto new version

Change OS & DB

Investigate bottlenecks

Change business rules

Reuse in another project

Upgrade source

systems

Developdata mart

Migrate fromdevelopment to

production

Visible Costs

Invisible Costs

10% of costs

90% of costs

데이터 통합의 관리 및 재실행

데이터 통합 프로젝트에서 변화에 대한 관리 및 재실행이 가장 중요한 핵심 부분이다.

Page 8: Choose the Right Data Integration Solution · DataStage Architecture Sun Solaris, HP-UX, IBM AIX, Compaq Server Repository Designer Director Manager Administrator DataStage Windows

IBM Business Intelligence Solution Seminar 2005

8

단계별 데이터 아키텍쳐 ; 다양한 사용자 요구사항에 부응

수집영역

• 2,3차 집계 데이터• 다차원 모델• 일별/월별 데이터

• 1차 집계 요약 데이터• 일별/월별 데이터

• 의사결정 데이터• 다차원 모델• 일별/월별 데이터

• 원천 시스템 데이터와 동일한 상세 수준 데이터

• 1차 정제 수준• 준실시간/일별/월별

• 주제영역별로 정리된 상세 수준의 데이터

• 3차 정규화 모델• 정제 완료된 데이터• 준실시간/일별/월별

수집영역 데이터 근접 실시간 제공최소의 데이터 가공, 신속한 데이터 제공

다차원 OLAP 분석(정형/비정형)

정형 조회사용자 Ad-hoc Query정제된 전사 통합 모델 데이터

정형조회/비정형/실시간/준 실시간 화면 조회

요약영역

통합영역

Raw Data Area

Subject Area

Summary Area

Require Specific Area

ExecutiveArea

L1

L2

L3

L4

L5

단계적 Recursive 정제 가공 수행필요한 단계에 필요한 가공

Page 9: Choose the Right Data Integration Solution · DataStage Architecture Sun Solaris, HP-UX, IBM AIX, Compaq Server Repository Designer Director Manager Administrator DataStage Windows

IBM Business Intelligence Solution Seminar 2005

9

주요 관점:Current Data데이터의 dynamic한 join정형/비정형 데이터

관계형/비관계형 데이터의 혼합형태

데이터를 복사해 오기에 여의치 않은

경우

Result Set이 적은 경우

주요 관점:Local performance정형 데이터

추출/변형/로드(ETL)복잡한 변환

사용자 메타데이터

매우 많은 양의 데이터

복제(Replication)데이터 변경분이 적은 경우

(near) real time 환경이 필요한 경우

데이터 분산 액세스 데이터 통합 액세스

데이터 분산 액세스 vs. 데이터 통합 액세스

Page 10: Choose the Right Data Integration Solution · DataStage Architecture Sun Solaris, HP-UX, IBM AIX, Compaq Server Repository Designer Director Manager Administrator DataStage Windows

IBM Business Intelligence Solution Seminar 2005

10

I. 개요

II. ETL, EII, EAI 솔루션의 주요 특징 정의

III. ETL, EII, EAI 솔루션의 주요 차별점 및 Best Practice

IV. 기업 환경에서 이를 적용하기 위한 아키텍쳐의 예

V. 요약

Agenda

Page 11: Choose the Right Data Integration Solution · DataStage Architecture Sun Solaris, HP-UX, IBM AIX, Compaq Server Repository Designer Director Manager Administrator DataStage Windows

IBM Business Intelligence Solution Seminar 2005

11

원시 데이터 소스

Data WarehouseData Mart

데이터 복제

ETL Data Mart

Data Mart

응용 프로그램

인터페이스를 이용한 응용프로그램 간의 호출 방식

EAI App2App1

MQIn Formatting & Mapping MQOutRouteToLabel

비정형 데이터

EII “뷰”를 통한 단일한 가상의 데이터

저장소 구성

App3

Data Warehouse

전사적 데이터 통합 방안

Page 12: Choose the Right Data Integration Solution · DataStage Architecture Sun Solaris, HP-UX, IBM AIX, Compaq Server Repository Designer Director Manager Administrator DataStage Windows

IBM Business Intelligence Solution Seminar 2005

12

ETL

Extract / Transform / Load대용량 데이터 처리에 적합하도록 설계 : 스케줄링 기반으로 실행

변환 로직이나 오브젝트 등을 재활용할 수 있어 생산성이 뛰어남

parallel 및 concurrent 워크로드

impact analysis를 포함한 메타데이터 관리에 효과적

ETL은 Extract(추출), Transform(변환), Load(적재)의 약자로서, 여러 개의 데이터 소스로부터데이터를 추출하고, 추출된 데이터를 정제하고 변환하여 또다른 데이터베이스, 즉 분석을 위한데이터 웨어하우스나 데이터 마트, 또는 비즈니스 요건에 따라 특정 운영 시스템에 데이터를로드하는 것을 의미한다.

ETL tool

Page 13: Choose the Right Data Integration Solution · DataStage Architecture Sun Solaris, HP-UX, IBM AIX, Compaq Server Repository Designer Director Manager Administrator DataStage Windows

IBM Business Intelligence Solution Seminar 2005

13

DataStage Architecture

Sun Solaris, HP-UX, IBM AIX, Compaq

Server

Repository

Designer

Director

Manager

Administrator

DataStage

Windows NT/2000 Server

Windows Client

DataWarehouse

MainframeQSAMVSAMDB2IMSIDMSAdabasDatacomOthers

Hash File

Sequentialor FTP

ODBC

Any SQL

Bulk LoadersDB2 UDBInformixRedBrickOracleBCP (Sybase & Microsoft)Sybase IQ

BulkLoaders

Sequentialor FTP

ODBC

StagedData

LoadUtilities

Hash File UniVerseUniData

Native API

DB2 UDBInformixOracleMicrosoft SQL ServerSybaseUniVerseUniData …

ChangeData Capture

MainframeData Access

Sequential

Meta dataRepository

Meta DataExchange

Meta data

Oracle 7 & 8 OCIInformix CLISybase OCNative API

병렬처리 ; Parallel Extender

Page 14: Choose the Right Data Integration Solution · DataStage Architecture Sun Solaris, HP-UX, IBM AIX, Compaq Server Repository Designer Director Manager Administrator DataStage Windows

IBM Business Intelligence Solution Seminar 2005

14

DataStage 기능

• ETL 작업 구현에 필요한 소스 및 타겟 DB의 테이블

레이아웃 등 메타데이터를 자동으로 Import 하여

활용하고 개발자 간에 공유함

- DBMS 접속을 통한 메타데이타 생성

- 일반적인 문서의 메타데이타 생성

- XML(Web) 문서의 메타데이타 생성

• ETL 작업 구현을 GUI 환경에서 Drag & Drop 방식으

로 누구나 쉽게 구현하고 수정할 수 있어 높은 개발 생

산성과 유지보수의 편리성을 보장함

• 또한 400여 개의 표준 함수를 제공함으로써 개발의 생

산성 및 편리성을 제공함

• 편리하게 사용자 정의 함수를 구현할 수 있음

• GUI 화면에서 데이터의 흐름을 보며, 실시간 모니터

링을 통해 튜닝을 쉽게 할 수 있고 처리 상황을 직접

보면서 모니터링이 가능함

• 실시간으로 제공되는 로그 분석을 통해 작업 결과를

검증함

• 여러 작업을 하나의 배치 프로그램으로 구성한 후, 병렬처리, 선행작업 처리, 작업결과 통보 등의 기능과 함

께 처리할 수 있으며 다양한 스케줄링 기능으로 운영

을 자동화함

Page 15: Choose the Right Data Integration Solution · DataStage Architecture Sun Solaris, HP-UX, IBM AIX, Compaq Server Repository Designer Director Manager Administrator DataStage Windows

IBM Business Intelligence Solution Seminar 2005

15

Integrated Information

비즈니스 응용 프로그램

Marketing e-Commerce Fulfillment

Enterprise Information Integration분산된 데이터의 단일 뷰 제공

정형/비정형 데이터 통합 ; 이기종 컨텐츠 통합

실시간으로 데이터 read/write 가능

분산 또는 복제, 물리적 통합 제공

가상의 데이터 저장소 제공

비즈니스 분석을 위한 변환 가능

미들웨어의 한 영역으로, 사용자 또는 어플리케이션이 분산되어 있는 전사적인 데이터를 마치단일 소스인 것처럼 액세스할 수 있도록 한다.

EII

Page 16: Choose the Right Data Integration Solution · DataStage Architecture Sun Solaris, HP-UX, IBM AIX, Compaq Server Repository Designer Director Manager Administrator DataStage Windows

IBM Business Intelligence Solution Seminar 2005

16

Wrapper

ServerServer

Nicknam

e

Nicknam

e

Nicknam

e

Wrapper : 특정 데이터 소스(Oracle, Sybase, MS SQL..)를 액세스할 수있도록 하는 라이브러리로서 데이터소스의 특성에 관한 정보를 포함

Server : 특정 데이터 소스를나타냄

Nickname : 원격 서버에 있는데이터를 지칭하는 로컬에서의 별칭

II 인스턴스에 포함되는 데이터:Global catalogUser dataMQT

DB2 Catalog

wrapper, server, nicknameServer의 속성Nickname의 속성Remote functions

WS Information Integrator

WebSphere Information Integrator 기본 구성 요소

Page 17: Choose the Right Data Integration Solution · DataStage Architecture Sun Solaris, HP-UX, IBM AIX, Compaq Server Repository Designer Director Manager Administrator DataStage Windows

IBM Business Intelligence Solution Seminar 2005

17

WS II는 DB2 기술에 기반

Nickname은 DB2 catalog에저장되어 어플리케이션에서는테이블처럼 사용됨

Federated Query의 실행 계획은DB2 cost-based optimizer에의해서 결정되고 선택됨

Optimizer는 분산 query를 WS II와원격 데이터 소스 사이에서 어떻게실행할지를 결정함. Cost-based optimizer에 의해서 각 소스로pushdown됨

원격으로 실행될 query의 각부분들은 각 소스의 native client library를 통해서 보내짐.

Nicknam

e

Nicknam

e

Table

DB2 cost-based optimizer

Client library Client library

Local Execution Plan + Remote SQL

WS Information Integrator

Wrapper Wrapper

WebSphere Information Integrator ; How it works

Page 18: Choose the Right Data Integration Solution · DataStage Architecture Sun Solaris, HP-UX, IBM AIX, Compaq Server Repository Designer Director Manager Administrator DataStage Windows

IBM Business Intelligence Solution Seminar 2005

18

단일 시스템에 존재하는 것처럼 분산된 정보를 액세스

Relationaldatabases

WebOther

CollaborationSystems

XMLWeb services

Packagedapplications

SQL

Content Repositories

and Imaging Systems

Workflow systems

Content

Mainframefiles

Mainframedatabases

SQL

Federation (aka Enterprise Information Integration)

각기 다른 위치에 저장된 복합적인 형태의 데이터 활용

Page 19: Choose the Right Data Integration Solution · DataStage Architecture Sun Solaris, HP-UX, IBM AIX, Compaq Server Repository Designer Director Manager Administrator DataStage Windows

IBM Business Intelligence Solution Seminar 2005

19

Enterprise Application Integration비즈니스 레벨의 프로세스 및 데이터 통합에 중점

비즈니스 프로세스와 데이터의 재사용 및 분배

어플리케이션 통합시 사용자에게 요구되어지는 어플리케이션에 대한 특정 지식의 깊이를감소시킴으로써 어플리케이션 통합 간소화에 중점

EAIEAI는 기업에서 운영되는 서로 다른 플랫폼(OS, DBMS 등) 및 서로 다른 어플리케이션(ERP, SCP, DW, CRM, Legacy 등)들간의 정보에 대한 전달, 연계, 통합 (Interface & Integration) 을 가능케해주는 Interface 솔루션이다. 즉, 조직 안팎의 서로 다른 어플리케이션 및 프로세스 사이에서 정보의이동 및 교환을 가능하게 하는 일련의 기술들이다.

Page 20: Choose the Right Data Integration Solution · DataStage Architecture Sun Solaris, HP-UX, IBM AIX, Compaq Server Repository Designer Director Manager Administrator DataStage Windows

IBM Business Intelligence Solution Seminar 2005

20

EAI의 구성

Adapter ; 송/수신 어플리케이션과 Middleware사이에서 데이터의 추출및 적재를 담당

; 경우에 따라 제품을 사용하거나 직접 제작 가능

; DB, File등은 물론 ERP, CRM 등 패키지 어플리케이션들과도 직접 연계

Middleware(MQ) ; 송/수신 시스템간(Integration Broker 포함) 데이터의 전달 담당

; 안정적인 데이터 전달, 인터페이스 표준화

Integration Broker(WMQI) ; 어플리케이션간의 데이터 형태 변형(Transformation)및

; 목적지 결정(Routing) 담당

EAI 구성

HUB

WMQWBI

시스템

Broker

RulesFormat

DB/FileAdapter

DBMS

SAMFile

DBAdapter

DBMS

SAMFile

InformationIntegrator

DBMS

SAMFile

Page 21: Choose the Right Data Integration Solution · DataStage Architecture Sun Solaris, HP-UX, IBM AIX, Compaq Server Repository Designer Director Manager Administrator DataStage Windows

IBM Business Intelligence Solution Seminar 2005

21

업무 A 와 업무 B 가 통신을 할 때,중간에 큐(Queue)라는 매개체를 놓고 간접 통신하는 방식

메세지(데이터) 송/수신의 타겟이 큐(Queue)이며, 큐(Queue)는 임시로 안전하게 데이터를 저장하는 장소입니다.

큐(Queue)에 수신되는 데이터는 기본적으로 FIFO (First In First Out)방식으로 처리되나 목적에 따라 우선 순위를 적용하여처리할 수 있습니다

FIFO (First In First Out)방식으로 처리되나 목적에 따라 우선 순위를 적용하여 처리할 수 있습니다

어플리케이션은 타겟이 되는 큐의 이름만 알고 있으면 되고, 큐의 실제 위치나,네트워크 상황,수신 시스템의 상황 등에 관계없이 가동됩니다

모든 플랫폼에 사용 가능한 공통 API제공 (C/C++, Java, COBOL 등)

MOM (Message-Oriented Middleware) 분야에서 세계 시장의 78%, 아시아태평양지역의 87% 점유

WebSphere MQ

A

B

Queue 1

ASAP(Default)Time IntervalEvent Interval

동기/비동기 처리(Synchronous/Asynchronous Processing); 송신 어플리케이션 A 는 수신 어플리케이션 B 의 가동 상태나

B 가 운영되는 시스템의 가동 상태에 무관하게 데이터를 전달할

수 있으며 수신 큐의 시동(Triggering) 조건을 규정함에 따라

어플리케이션 B 의 가동을 조절할 수 있다. 따라서 분산된

시스템 자원의 효율적인 가동 및 독립적인 가동 보장한다.

데이터 전달 보증(Assured Data Delivery); 한번 큐로 전달된 데이터는 반드시 큐를 통하여 수신

어플리케이션에 한번 전달되게 하는 "메시지 전달 보증 기술"을채택함으로써 상용환경(Commercial Environment)에서의

메시징 기술 적용을 가능하게 한다.

Page 22: Choose the Right Data Integration Solution · DataStage Architecture Sun Solaris, HP-UX, IBM AIX, Compaq Server Repository Designer Director Manager Administrator DataStage Windows

IBM Business Intelligence Solution Seminar 2005

22

I. 개요

II. ETL, EII, EAI 솔루션의 주요 특징 정의

III. ETL, EII, EAI 솔루션의 주요 차별점 및 Best Practice

IV. 기업 환경에서 이를 적용하기 위한 아키텍쳐의 예

V. 요약

Agenda

Page 23: Choose the Right Data Integration Solution · DataStage Architecture Sun Solaris, HP-UX, IBM AIX, Compaq Server Repository Designer Director Manager Administrator DataStage Windows

IBM Business Intelligence Solution Seminar 2005

23

• 비즈니스 레벨의 프로세스 및 데이터통합에 focus

• 비즈니스 프로세스와 데이터의 재사용및 분배

• API 기반의 어플리케이션

• real-time 또는 near real-time• 개별적인 event 또는 트랜잭션 기반으로데이터의 이동이 일어남

• 간단하고 기본적인 변환 또는 데이터 그자체만을 이동시키고자 할 때 강점

• workflow의 컨트롤이 가능

structured data와 unstructured data(컨텐트) 모두 처리 가능

real-time으로 data read/write 가능

데이터 모델과 metadata가 생성되기이전에 데이터 탐색 가능

remote source의 global access에 강점

성능, 예산, 가용성, 보안 등의 문제로데이터의 이동이 어려운 데이터 또는불필요한 데이터의 이동을 피하기 위한데이터의 위치에 대한 관리

가상의 데이터 저장소 제공

분산 또는 복제, 물리적 통합 제공

통합 정보의 metadata 관리

새로운 데이터 소스에 대한 유연한 확장성

제공

Data Grid

structured data 처리

Batch 작업으로 처리

한 번에 대용량 데이터 처리

계산이나 집계, 또는 많은 단계를 거쳐야하는 복잡한 변환도 쉽게 작성

관리자에 의한 스케줄에 기반한 실행

대부분의 툴이 GUI 기반으로써 직관적인view를 제공하며 생산성이 높음

개발된 모듈의 재사용성이 높음

impact analysis를 포함한 metadata 수집과 관리가 용이

Strength

• 조직 안팎에서 서로 다른 어플리케이션및 프로세스 사이에서 데이터의 이동 및교환 가능한 솔루션

• Websphere MQ

Middleware 영역

분산되어 있는 다양한 종류의 데이터소스를 마치 하나의 소스인 것처럼 단일 뷰

제공

Websphere Information Integrator

Extract, Transform, Load

여러 데이터 소스로부터 데이터를추출하여 변환하고 정제한 후 또다른데이터베이스 즉 DW나 DM, 혹은비즈니스 프로세스에 따라서는 또다른운영 시스템에 적재

• DataStage

정의

구분 EAIEIIETL

ETL vs. EII vs. EAI – Strengths and Challenges

Page 24: Choose the Right Data Integration Solution · DataStage Architecture Sun Solaris, HP-UX, IBM AIX, Compaq Server Repository Designer Director Manager Administrator DataStage Windows

IBM Business Intelligence Solution Seminar 2005

24

Challenge

구분

• 데이터 변환의 제약 - 간단한 데이터

변환

• 데이터 집계 제약

• 트랜잭션 당 10여개의 레코드 이동

• 개발하기가 복잡함

• 변환 작업의 재사용의 어려움

• metadata 관리의 어려움 ; metadata의사용 및 import/export

• Semantic integrity• 사용량이 많은 시간에는 network 부하

우려

데이터 변환의 제약 ; SQL 기반의 변환

• 여러 소스에 대하여 key를 match 시켜야 함

• 데이터 소스에 따라 data type mismatch• 소 스 시스템의 resource 사용 ; 소스시스템에 부하를 줄 수 있음

• 한 번에 수천~수만 레코드 처리

• 사용량이 많은 시간에는 network 부하 우려

단방향의 데이터 흐름

소스 시스템의 데이터 변경에 대한 관리가

어려움

많은 공간의 staging 영역이 필요함 ; 스토리지 낭비의 우려

out-of-sync이므로 소스 데이터가 DW에도달하기까지의 시간이 오래 걸림

실제 사용 여부와 상관없이 데이터 이동이

일어남

EAIEIIETL

ETL vs. EII vs. EAI – Strengths and Challenges

ETL tool

Page 25: Choose the Right Data Integration Solution · DataStage Architecture Sun Solaris, HP-UX, IBM AIX, Compaq Server Repository Designer Director Manager Administrator DataStage Windows

IBM Business Intelligence Solution Seminar 2005

25

• Small• 10여 레코드를 몇 개의

pipe를 통하여 처리

• Medium • 수십만~수백만 레코드

• Very large • 수백만~수십억 레코드 이상

한 번에 처리 가능한 데이터볼륨

• 간단한 변환• broker에 의해 구현 가능한

semantic transformation에제한됨

• SQL로 처리될 수 있는정도의 복잡도

• 매우 복잡한 변환도 쉽게처리

변환의 복잡도

• Low• 변환은 ESQL 프로그램기반으로 이루어지며, DB catalog 정보에 제한된metadata만을 사용할 수있다

• Medium • 변환은 SQL 기반으로이루어지며, view 등의database object를 이용하게된다

• Best• 일반적으로 ETL Job 모듈과프로세스의 재사용성이높다

데이터 변환 및정제/Metadata 관리의 효율성및 재사용성

• Messaging• Direct database connection• FTP 또는 direct database connection

데이터 이동 방법

• Transaction triggered –비동기식

• Transaction managed• (Near) Real-time

• Query time - Query (SQL) managed

• Real-time

• 스케줄에 의한 Batch Job• Daily - Monthly

Data 이동 시점

• 양방향• 양방향•단방향 – source to targetData Flow

EAIEIIETL

ETL vs. EII vs. EAI – 기술적 관점에서의 비교

Page 26: Choose the Right Data Integration Solution · DataStage Architecture Sun Solaris, HP-UX, IBM AIX, Compaq Server Repository Designer Director Manager Administrator DataStage Windows

IBM Business Intelligence Solution Seminar 2005

26

• rule 기반으로 광범위하게제공

• None• 스케줄링, Job flow에 따른이전 Job의 실행 여부, error 및 exception handling

Workflow Control

• Best • 단순한 데이터 이동이아니라 event 발생을지원하기 위한 로직 추가가능

• Limited• 소스 시스템의 trigger 기능에 의존적

• Very LimitedEvent Monitoring의 지원여부

• Limited support – custom build

• Limited support – custom build

• Full support Versioning

EAIEIIETL

ETL vs. EII vs. EAI – 기술적 관점에서의 비교

Page 27: Choose the Right Data Integration Solution · DataStage Architecture Sun Solaris, HP-UX, IBM AIX, Compaq Server Repository Designer Director Manager Administrator DataStage Windows

IBM Business Intelligence Solution Seminar 2005

27

ETL Best Practices

ETL은 일반적으로 대용량 I/O bound 작업

불필요한 staging step을 줄여주어야 함

속도가 빠른 storage 사용

뜻하지 않은 I/O를 피하라

“lookup” 프로세스에 주의

data file의 위치에 유의

ETL 툴 사용시 생산성 및 데이터 일관성 향상

data mart에서 data mart로 가는 작업은 피하는 것이 좋음

과도한 locking을 피해야 함

많은 수의 프로세스들을 병렬로 처리하는 것이 키

Key to running many concurrent processes in parallelQuery, Load, Backup이 동시에 허용되어야 함

ETL tool

Page 28: Choose the Right Data Integration Solution · DataStage Architecture Sun Solaris, HP-UX, IBM AIX, Compaq Server Repository Designer Director Manager Administrator DataStage Windows

IBM Business Intelligence Solution Seminar 2005

28

Integrated Information

비즈니스 응용 프로그램

Marketinge-CommerceFulfillmentEII Best Practices

일반적으로 규칙적이지 않은 ad-hoc 액세스에는 적합하지 않음

최상의 성능을 위해서 WII는 자주 사용되는 데이터를 캐쉬함으로써 query 실행 비용을 관리하도록 계획을 세움

WII는 query의 종류와 비용을 관리

DB2 Query Patroller

remote source 사이에 많은 데이터의 이동이 발생하는 operation의 경우WII는 꽤 많은 시간이 소요될 것이다

“permanent basis”에는 WII를 이용하여 “virtual warehouse” 구축을 시도하지 말라, 특히 ad-hoc 액세스가 일어날 것으로 예상되어진다면 더욱 그렇다

remote 소스에 대한 federated query의 영향을 항상 염두에 두어야 한다

Remote data에 대해서는 target access

데이터의 흐름은 remote 소스에서 federated server로두 개 이상의 remote 소스에서 사이즈가 큰 테이블을 조인하는 것은 피하라

Page 29: Choose the Right Data Integration Solution · DataStage Architecture Sun Solaris, HP-UX, IBM AIX, Compaq Server Repository Designer Director Manager Administrator DataStage Windows

IBM Business Intelligence Solution Seminar 2005

29

EAI Best Practices

Point-to-point 통합은 피하라

좀 더 나은 재사용성을 Hub와 broker 사용

어플리케이션 개발시 주의사항

선행되어야 할 내용에 대한 준비 및 계획이 필요함

연관되는 시스템에 미치는 영향도를 이해해야 함

데이터 흐름에 대한 시나리오 및 일어날 수도 있는 현상에 대한 이해가 필요

성능에 대한 모니터링

workflow에서 데이터의 일관성과 성능에 대한 병목현상을 trace할 수 있도록준비가 필요하다

Page 30: Choose the Right Data Integration Solution · DataStage Architecture Sun Solaris, HP-UX, IBM AIX, Compaq Server Repository Designer Director Manager Administrator DataStage Windows

IBM Business Intelligence Solution Seminar 2005

30

EII vs. EAI vs. ETL

When to use ETL데이터 통합

복잡한 변환

When to use EII일반적으로 다른 소스에서 select된 데이터를 기반으로 대용량의 repository에connect하고자 할 때

잘 디자인된 EDW 시스템을 확장하고자 할 때

소스 데이터가 다음의 특성을 가질 때– 자주 변하는 휘발성의 데이터

– 선택될 가능성이 매우 적은 데이터

– 언제라도 원하는 때에 접근이 가능한 데이터

– 변환 작업이 SQL 기능으로 처리할 수 있는 데이터

When to use EAI트랜잭션 단위로 데이터를 통합하거나 한 번에 적은 양의 데이터 통합

적은 양의 데이터만을 join함으로써 query를 수행할 수 있을 때

데이터 소스에 직접 액세스할 수 없을 때

Combination is normally used

Page 31: Choose the Right Data Integration Solution · DataStage Architecture Sun Solaris, HP-UX, IBM AIX, Compaq Server Repository Designer Director Manager Administrator DataStage Windows

IBM Business Intelligence Solution Seminar 2005

31

I. 개요

II. ETL, EII, EAI 솔루션의 주요 특징 정의

III. ETL, EII, EAI 솔루션의 주요 차별점 및 Best Practice

IV. 기업 환경에서 이를 적용하기 위한 아키텍쳐의 예

V. 요약

Agenda

Page 32: Choose the Right Data Integration Solution · DataStage Architecture Sun Solaris, HP-UX, IBM AIX, Compaq Server Repository Designer Director Manager Administrator DataStage Windows

IBM Business Intelligence Solution Seminar 2005

32

비즈니스 분석가

일반 사용자

DataWarehouse

Non-relationaldata

Real-timedata

WS Information Integrator

BI 툴

분석 어플리케이션

데이터 웨어하우스에는 없는 최신의 remote data(가격, 주문 정보 등)를 액세스하고자 할 때

DB2 웨어하우스가 파티션되어 있을 때 ; remote data를 포함하는 query는병렬로 처리된다

remote data의 사이즈가 클 때 ; 꼭 필요한 데이터에 대해서만 빠르게 액세스할수 있도록 optimization된 access path를 따라서 “target” 데이터만 액세스하도록한다

Extending the Data Warehouse

Page 33: Choose the Right Data Integration Solution · DataStage Architecture Sun Solaris, HP-UX, IBM AIX, Compaq Server Repository Designer Director Manager Administrator DataStage Windows

IBM Business Intelligence Solution Seminar 2005

33

Store A App

Store B App

Store C App

DataStage

WebSphere MQ

WebSphere MQ

WebSphere MQ

그림설명) MQStage를이용한 DataStage Job의예. 여기서는 MQ로들어오는데이터를일정한변환을거쳐 DB2에적재하도록되어있다.

POS 트랜잭션 데이터의 DW 반영

Page 34: Choose the Right Data Integration Solution · DataStage Architecture Sun Solaris, HP-UX, IBM AIX, Compaq Server Repository Designer Director Manager Administrator DataStage Windows

IBM Business Intelligence Solution Seminar 2005

34

ETL job에서 Federation이 사용될 수 있다

추출 및 lookup 조회

복잡한 join으로 가져와야 할 데이터를 간단하게 처리

unstructured data의 fetch 가능

SOA 기반의 external Web Services 까지도 확장할 수 있음

DataStage

DB2extract clean/transform lookup load

II (Federation)

source1 source2 source3 sourceA sourceB

II (Federation)

DataStage can leverage WS II

Page 35: Choose the Right Data Integration Solution · DataStage Architecture Sun Solaris, HP-UX, IBM AIX, Compaq Server Repository Designer Director Manager Administrator DataStage Windows

IBM Business Intelligence Solution Seminar 2005

35

CICS/VSAM

SQL

WBIServer

WS IIClassic Federation

Oracle

MS-SQLMS-SQLWrapper

ODBCWrapper

WS II

DB

2 SQ

L

vi

a JD

BC

WPS

DB

2 SQ

L

vi

a JD

BC

OracleWBI JDBC

Adapter

via ODBC

WBI JDBC

Adapter

OracleWrapper

BI Portal - EDW

E-Commerce – Mainfram

Call Center

DB2

EDW

WII와 MQ의 적용

Page 36: Choose the Right Data Integration Solution · DataStage Architecture Sun Solaris, HP-UX, IBM AIX, Compaq Server Repository Designer Director Manager Administrator DataStage Windows

IBM Business Intelligence Solution Seminar 2005

36

I. 개요

II. ETL, EII, EAI 솔루션의 주요 특징 정의

III. ETL, EII, EAI 솔루션의 주요 차별점 및 Best Practice

IV. 기업 환경에서 이를 적용하기 위한 아키텍쳐의 예

V. 요약

Agenda

Page 37: Choose the Right Data Integration Solution · DataStage Architecture Sun Solaris, HP-UX, IBM AIX, Compaq Server Repository Designer Director Manager Administrator DataStage Windows

IBM Business Intelligence Solution Seminar 2005

37

원시 데이터 소스

Data WarehouseData Mart

데이터 복제

ETL Data Mart

Data Mart

응용 프로그램

인터페이스를 이용한 응용프로그램 간의 호출 방식

EAI App2App1

MQIn Formatting & Mapping MQOutRouteToLabel

비정형 데이터

EII “뷰”를 통한 단일한 가상의 데이터

저장소 구성

App3

Data Warehouse

Session Summary ; 전사적 데이터 통합 방안

Page 38: Choose the Right Data Integration Solution · DataStage Architecture Sun Solaris, HP-UX, IBM AIX, Compaq Server Repository Designer Director Manager Administrator DataStage Windows

IBM Business Intelligence Solution Seminar 2005

38

변환이 복잡한 대용량 데이터의 통합

스케줄링에 의한 Batch Job

원하는 때에 원하는 데이터를 가져온다 – “right time”

데이터는 원래 있던 저장소에 그대로 있다

데이터가 변경되는 트랜잭션 발생 그 즉시 데이터 이동 및 반영 – “real time”

데이터 소스에 직접 접속할 수 없을 때

ETL - DataStage

EII –WebSphere Information Integrator

EAI – WebSphere MQ

Session Summary ; Quiz