아키텍처기반의데이터통합 - dbguide.net · 2005-07-25 · n 2004.9 gartner etl magic...
TRANSCRIPT
© 2005 IBM Corporation
아키텍처 기반의 데이터 통합데이터통합 실무 사례
한국어센셜, an IBM Company김장원 이사
IBM Software Group | WebSphere software
목 차
§ 한국어센셜, an IBM Company 소개
§ 데이터 통합의 유형
§ 데이터 통합을 위한 비즈니스 요건
§ 사례1) 대량 데이터 처리 사례
§ 사례2) 다양한 유형의 소스로부터의 데이터 통합사례
§ 사례3) 업무간 연계를 고려한 데이터 통합사례
§ 사례4) 실시간 업무요건에 따른 RTE 구현사례
IBM Software Group | WebSphere software
한국어센셜, an IBM Company 소개
어센셜은 기업의 다양한 데이터통합 요구를 충족시키는 단일 벤더에 의한 유일한전사데이터통합 솔루션 공급업체로서 기업의 데이터 통합을 위한
완벽한 제품 및 컨설팅을 제공함으로써 가치를 인정 받고 있습니다.
n 1986 데이터통합 전문기업 ‘Vmark’ 설립
n 1997.1 DataStage 출시
n 1998.2 Unidata와 합병하고 Ardent Software로 사명 변경
n 1998.6 메타 데이터관리 특허 기술업체 ‘Dovetail Software’ 인수
n 1999.4 메인프레임 솔루션 업체 ‘Prism Solution’인수
n 2000.3 Informix와 합병
n 2001.7 데이터베이스(DBMS) 사업부문을 10억 달러에 IBM에
매각, ‘어센셜소프트웨어’로 사명변경
n 2001.11 병렬 프로세싱 특허 기술 업체 ‘Torrent System’ 인수
n 2002.1 CMP미디어의 ‘Intelligent Enterprise’지가 발표한
‘2002년 가장 주목해야 할 기업’선정
n 2002.3 데이터 품질관리 솔루션 업체 ‘Vality Technology’인수
n 2003.8 데이터 가공 및 라우팅 솔루션 업체 ‘Mercator Software’를
인수함으로써 세계 최대의 독립적인 기업데이터통합공급사
로서 새롭게 탄생함
n 2004.1 CMP미디어의 ‘Intelligent Enterprise’지가 발표한
‘2004년 가장 주목해야 할 기업’선정
n 2004.4 Meta ETL Report – ETL 부문 리더로 선정
n 2004.9 Gartner ETL Magic Quadrant – ETL 부문 리더로 선정
n 2004.9 CRM Magazine Data Quality Award 수상
n 2005.4 IBM, 데이터통합 세계1위 기업 어센셜 11억불에 인수
n 기업의 데이터통합솔루션 시장의선두기업
n 연평균 $270M 매출액과 연간 46% 이상의 높은 성장률
n Global 2000대 기업을 중심으로3,000여 고객 확보
n Fortune 100대 기업 중 55%가어센셜의 제품을 도입
n 국내 140 여 고객사 확보 (최다고객사 확보)
n 풍부한 재무능력을 바탕으로 한고객솔루션제품의 지속적 확장
— Ascential 연혁 —
IBM Software Group | WebSphere software
§ 데이터 통합의 유형
- 초기적재 vs 변경적재
- Hand Coding vs ETL Tool
- 데이터 통합 Architecture 비교
IBM Software Group | WebSphere software
Legacy System 의 전체 데이터를 일정시점을 기준으로 Server System 에 반영하는 절차 입니다
• Data 초기이행은 주로 과거 데이터의 전환을 위한 이행 작업입니다.
• 가급적 업무부담을 적게 하고, 사용자 프로그램 작성 작업의 부담을 줄이는 방향으로 진행합니다.
• Legacy에 존재하는 파일을 가공하는 절차는 반드시 필요하며 그 방법에 대해서는 시스템/인적 자원을 충분히 고려하여
결정 하여야 합니다
• Legacy 시스템에 있는 방대한 데이터를 추출하는 방법은 DataStage와 같은 ETL Tool 를 사용하여 정제된 데이터를 생성하는
방법과 DB Utility 를 이용하여 원시 데이터 형태의 SAM file 로 전달하여 주는 방법이 있습니다
• 작성된 SAM file 은 ETL Tool 을 통해 데이터웨어하우스에변환하여 Server System 에 적재 합니다
■초기 데이터 적재 (Initial Loading)
■변경 데이터 적재 (Changed Data Capture)
초기적재 완료 후 Legacy 데이터의 변경사항 부분만을 추출하여 반영하는 절차 입니다.
• 변경 Data의 반영 주기(시간/일/월) 별로 분리 하여 따로 반영 합니다. 이때 반영 주기에 따른 Data일치성을 고려합니다.• Legacy 대량의 데이터인 경우 거래 log(User log)에 의한 변경데이터 적재를 기본원칙으로하고 데이터량이 적거나 거래log를사용하지 못 할 경우 Legacy시스템 Full Scan에 의한 unload방식을 추천합니다.
• 정보계의 경우 원장테이블에서 필요 데이터를 추출하여 적재하는 방식을 추천합니다.• 일 1회 보다 변경 주기가 빠른 작업은 스케쥴러 에 의하여 자동으로 반영 되도록 합니다.
변경사항 적재처리 방법은 고객상황에 가장 적합한 방법을 선정하여 변경 데이터를 적재합니다.
데이터 통합 유형 (초기적재 vs 변경적재)
IBM Software Group | WebSphere software
Source
(Legacy)
Temporary
Target
(DW/Mart)
데이터 통합 유형 (초기 적재 유형)§ Refresh (전체 데이터 대상)
수신 여신 회원 카드
Transactional Data
수신 여신 회원 카드
수신 여신 회원 카드
IBM Software Group | WebSphere software
Source
(Legacy)
Staging
Target
(DW/Mart)
데이터 통합 유형 (초기 적재 유형)
§ Incremental (점증적)
수신 여신 회원 카드
Transactional Data
수신 여신 회원 카드
수신 여신 회원 카드
수신 여신 회원 카드수신 여신 회원 카드
수신 여신 회원 카드수신 여신 회원 카드
IBM Software Group | WebSphere software
데이터 통합 유형 (초기적재 유형)
소스데이터 CDC 정책수립불필요소스 데이터 CDC
업무별정합성 Check업무별정합성 Check 타겟 데이터 정합성
프로젝트기간중데이터 Size 에따라 다르지만
보통 2~3 일정도 소요적재 소요 시간
Legacy 전체데이터Legacy 전체데이터대상 범위
모든업무 On-going대외업무일시중단업무 Risk
프로젝트종료시비영업일산정(구정,추석,연휴) 최종 이관 스케쥴
프로젝트기간중 Check & 완료실운영환경에서 Check시스템 Performance
소스데이터에대한일별 정합성검증소스데이터에대한정합성 일치소스 데이터 정합성
DW / 제조업 / SMBData Migration / 차세대주요 비즈니스 Area
Incremental(점증적)Refresh(전체 데이터 대상)구 분
Legacy 데이터의 특성과 비즈니스 요건에 따른 초기데이터 적재 방식을 선정해야 합니다
IBM Software Group | WebSphere software
데이터 통합 유형 (변경 적재 유형)§ 유저 Log 방식
- 금융권 디퍼드 시스템 (DBMS)
Data 부 처리여부SEQ테이블 이름업무구분
Key 부분 Data 부
디퍼드 시스템
수신 여신 회원 카드
§ Select / Load
§ 정보계 / 고객계
§ Select / Load
§ 정보계 / 고객계Load 프로그램
Transactional Data
IBM Software Group | WebSphere software
데이터 통합 유형 (변경 적재 유형)
§ 메시지 driven 방식
- 전문 방식(Text)
Data 부 처리여부SEQ테이블 이름업무구분
Key 부분 Data 부
디퍼드 시스템
수신 여신 회원 카드
§ SQL* Loader
§ DW / Data Mart
§ SQL* Loader
§ DW / Data Mart
Transactional Data
FTP Load 프로그램
IBM Software Group | WebSphere software
데이터 통합 유형 (변경 적재 유형)§ 메시지 driven 방식
- Message Queue (IBM)
Data 부 처리여부SEQ테이블 이름업무구분
Key 부분 Data 부
디퍼드 시스템
수신 여신 회원 카드
MQ Manager
Transactional Data
Data 부 처리여부SEQ테이블 이름업무구분
§ Extract / Load
§ DW / Data Mart
§ Extract / Load
§ DW / Data Mart
IBM Software Group | WebSphere software
데이터 통합 유형 (변경 적재 유형)
§ Time Stamp 방식
- 추출대상 테이블에 Time Stamp 컬럼 선언
수신 여신 회원 카드
Transactional Data
CDC 시스템
Select fromWhere timestamptBetween .. And ..
Select fromWhere timestamptBetween .. And ..
Select fromWhere timestamptBetween .. And ..
Select fromWhere timestamptBetween .. And ..
§ Select / Load
§ DW / Data Mart
§ Select / Load
§ DW / Data Mart
IBM Software Group | WebSphere software
데이터 통합 유형 (변경 적재 유형)§ Log Capture 방식
- BMC Log Master- CA Log Analyze- Oracle CDC
CDC SAM
수신 여신 회원 카드
Transactional Data
Load 시스템
§ DW / Data Mart§ DW / Data Mart
ArchiveLog
ArchiveLog
ArchiveLog
ArchiveLog
CDC SAM
Changed Data Capture Utility
CDC SAM
IBM Software Group | WebSphere software
데이터 통합 유형 (변경 적재 유형)
- 전체 테이블
- SP / DBA
- 프로젝트 인원
- Log Capture 를
Legacy Application
- 대용량 데이터
- 일 3~4 회
- Capture SAM File
- Log Capture Tool
- DBMS Architecture
- DBMS 에서 생성된
DB Log Capture
Log Capture
- 거래내역 /고객정보
- 고객사 개발자
- 프로젝트 인원
- 응답시간 지연
- 중/소 용량
- Right Time
- 메시지 전달을 위한
전용 소프트웨어
- 유저 프로그램
- 유저 프로그램
- 전문 방식(Text,EDI)
- Message Queue
메시지Queue
- 거래내역 /고객정보
- 고객사 개발자
- 프로젝트 인원
- 응답시간 지연
- 소 용량
- Right Time
- DBMS Select
- 유저 DBMS Insert
- 유저 프로그램
- 디퍼드 시스템
- DBMS
유저 Log
- DBMS Utility 실행- DBMS Index 추가Legacy
시스템 영향
- SP / DBA
- 프로젝트 인원- 프로젝트 인원개발 주체
- DBMS Utility- 유저 프로그램Key
Application
- 대상 테이블 갱신
- 추출 대상 테이블에
기 선언 되어있는
TimeStamp 컬럼
구현 방식
- 타겟 테이블
Truncate & Load- DBMS SelectCDC Output
- 소스 테이블 Unload- 소스 DB UpdateCDC Input
- 코드성 데이터- 거래내역 /고객정보구현 사례
- 소용량 데이터- 중/소 용량데이터 Size
- Batch Process(Daily/Weekly/Monthly)
- Right timeCDC 주기
RefreshTime Stamp구 분
Legacy 데이터의 특성과 타겟 시스템 요건에 따른 변경 데이터 적재 방식을 선정해야 합니다
IBM Software Group | WebSphere software
구분 프로그램작성 방식 ETL 방식
생산성각 플랫폼 , 데이터의 포맷에 따른 이행 프로그램 개발 및디버깅에 많은 인력 및 시간이 소요되며, 테스트 및 결과검증에도 많은 노력이 필요함
플랫폼 및 데이터 포맷에 독립적인 통합된GUI 환경에서 Top Down 방식으로 손쉽게 이행 로직을 구현할 수 있으며 , 자동
디버깅 기능 등을 활용하여 총 개발 시간 및 소요인력을 단축할 수
있음
데이터이행요건변경
Legacy데이터나 타겟 DB의 요건변경이 발생할 경우,관련 데이터이행 프로그램의 파악 및 로직 변경을수작업으로 수행
메타 DB를 통해 변경대상을 정확히 파악하고 , 메타DB의 데이터매핑 규칙 수정을 통해 변경내용을 반영한 후 이행프로그램을자동으로 재생성
데이터이행모니터링
타겟 DB에 대한 갱신이 정확한 지를 점검하기위해서는 주기적으로 양쪽 데이터값을 대사하여확인하여야 하며, 데이터의 불일치 시 원인을 발견하기곤란
데이터 갱신상태를 항시 모니터링하는 기능을 구현함으로써 데이터의 불일치를 근본적으로 방지하도록 설계또한 데이터의 불일치 발생시 모니터링 로그를 통해불일치 발생 레코드와 그 원인을 명확히 제공
데이터품질개선
모니터링을 통한 Legacy데이터 검증체계 부재로최초 프로그램 로직으로 구현된 검증기준 외의지속적인 기능 향상 곤란
지속적으로 Legacy데이터 오류를 유형별로 분류하여체계적으로 관리함으로써 , Legacy시스템의 데이터나애플리케이션에 대해 근본적인 오류발생원인 제거 가능
데이터오류대응
일괄처리 방식을 채택하므로 데이터 갱신 중에발생하는 오류에 대해 즉각적인 대처 곤란
데이터 갱신 오류가 발생시 실행을 중단하고오류를 수정한 후 재기동할 수 있어 즉각적인 대처 가능
프로젝트관리많은 개발자들이 투입되어 서로 다른 환경하에서프로젝트가 수행되므로 체계적인 프로젝트 관리 및표준화가 어려움
통합된 환경 하에서 Project, Job 단위의 Top Down 방식으로개발작업을 수행함으로 전체적인 작업의 진척도를 관리할 수 있고메타데이터의 공유 및 품질관리 기능을 통해 표준화 지원
툴을 이용한 ETL 방안이 생산성, 관리의 효율성, 데이터 품질확보 및 결과 검증의 용이성 등의 측면에서 우수함
데이터 통합 유형 (Hand Coding vs ETL Tool)
IBM Software Group | WebSphere software
데이터 통합의 유형 (Architecture 비교) FTP & ODS 방식
Case ①
OLTP환경 DW 환경
DBMS Copy
DWDWInfra
(ODS)
대용량 Disk
Etc_서버
①-1Copy
②-1Unload
①-2Unload
①-3FTP 전송
②-2FTP 전송
①-4SQL*Loader
②-3SQL*Loader
①-5SQL Script/
ETL
②-4SQL Script/
ETL
Case ②
Legacy
Case ① 데이터 흐름
①-1 : 운영계 DBMS Back-up 후에 DBMS Image Copy ①-2 : 전일 추가,변경된 데이터 또는 월 단위 발생 데이터를 SQL Script, Unload 를 통하여 SAM FILE추출①-3 : 추출된 SAM FILE을 FTP로 DW서버에 전송①-4 : DW서버에 전송된 SAM FILE을 SQL*Loader 를 통하여 ODS Table에 Loading①-5 : ODS Table 데이터를 SQL Script, ETL을 통하여 DW Table에 Loading
Case ② 데이터 흐름②-1 : 전일 추가,변경된 데이터 또는 월단위 발생 데이터를 SQL Script , Unload를 통하여 SAM FILE추출②-2 : 추출된 SAM FILE을 FTP로 DW서버에 전송②-3 : DW서버에 전송된 SAM FILE을 SQL*Loader 를 통하여 ODS Table에 Loading②-4 : ODS Table 데이터를 SQL Script , ETL 을 통하여 DW Table에 Loading
IBM Software Group | WebSphere software
데이터 통합의 유형 (Architecture 비교)DBMS Connect & ODS 방식
OLTP환경 DW 환경
DBMSCopy
DW
LegacyDWInfra
(ODS)Etc_서버
대용량 Disk
①-2SQL Script/
ETL
①-1Copy
①-3SQL Script/
ETL
②-1SQL Script/
ETL
②-2SQL Script/
ETL
Case ①
Case ②
Case ① 데이터 흐름
①-1 : 운영계 DBMS Back-up 후에 DBMS Image Copy
①-2 : EMC DISK의 일일 추가,변경된 데이터 또는 월단위 발생 데이터 (소량인 데이터)를 SQL Script/ETL 을 통하여추출 하여 ODS Table에 Loading
①-3 : ODS Table의 데이터를 SQL Script, ETL 을 통하여 추출하여 DW Table에 Loading
Case ② 데이터 흐름
②-1 : 기간시스템의 일일 추가,변경된 데이터 또는 월단위 발생 데이터 (소량인 데이터 )를 SQL Script/ETL 통하여
추출 하여 ODS Table에 Loading②-2 : ODS Table 데이터를 SQL Script, ETL 을 통하여 추출 하여 DW Table에 Loading
IBM Software Group | WebSphere software
데이터 통합의 유형 (Architecture 비교)FTP 방식 & DBMS Connect
OLTP환경 DW 환경
DBMSCopy
DW
WISE
Etc_서버
대용량 Disk
①-1Copy ①-2
SQL Script/ETL
Case ①
Case ②
③-2SQL*Loader/
ETL
②-1SQL Script/
ETL
③-1FTP 전송
Case ③
Case ① 데이터 흐름
①-1 : 운영계 DBMS Back-up 후에 DBMS Image Copy
①-2 : EMC DISK 데이터를 SQL Script ,ETL 을 통하여 데이터를 추출하여 DW Table에 Loading
Case ② 데이터 흐름②-1 : 기간시스템 Table 데이터를 SQL Script, ETL 을 통하여 데이터를 추출하여 DW Table에 Loading
Case ③ 데이터 흐름
③-1 : 외부통계자료나 부서에서 수집한 외부시장조사자료 ,경쟁사자료 등을 FTP를 통하여 DW서버에 전송
③-2 : 전송된 SAM FILE을 SQL*Loader, ETL 을 통하여 DW Table에 Loading
IBM Software Group | WebSphere software
§ 데이터 통합을 위한 비즈니스 요건
- 데이터 통합의 Key Point
- 데이터 통합의 주요 프로세스
- 품질 평가 유형
IBM Software Group | WebSphere software
기업 데이터 통합의 비즈니스 요건 (Key Point)
외부 시장데이터
외부 시장데이터
데이터/관련데이터
고객 데이터
운영 데이터운영 데이터 Reporting LayerReporting Layer
올랩(OLAP), 재무 리포트
원장
CLOBData
BLOB Data
임원진
운영 관리자
금융/재무관리자
Data Lineage and Audit Trail
계산 & 측정계산 & 측정
데이터통합데이터통합
데이터웨어하우스
데이터웨어하우스
• Data Reengineering (변환, 정리,통합)
• 표준화 및 매칭
• 중복 제거
• 지속적인데이터품질모니터링
• 예외 규정
• Establish and Capture Data Lineage
ü마스터데이터관리
ü레거시어플리케이션마이그레이션
ü애플리케이션 통합
IBM Software Group | WebSphere software
기업 데이터 통합의 비즈니스 요건 (주요 프로세스)
내 역주요 기능항 목
§데이터 값과 저장 구조를 기업내의 단일 표준으로 변환
§숫자나 코드성이 아닌 비정형 텍스트에 대한 표준화 및 정제 작업 수행
§고객 주소, 회사명, 고객 접촉 정보 등
데이터 표준화
데이터 정제
데이터 표준화 및정제
§전체 데이터를 대상으로 데이터 값 자체의 분석을 통한 구조 및 품질 수준의 이해
§자동적인 분석과 다양한 리포트를 통해 데이터 구조의 문제점을 파악
§업무규칙에 위배되는 예외 데이터의 추출 및 관리
Data Profiling
품질 측정
업무규칙 점검
데이터 품질 측정
§GUI 기반하의 실시간 트랜잭션 개발 기능
§데이터 통합을 위한 각종 프로그램을 SOA 기반의 웹서비스, 메시징 서비스 등으로의전환 지원
웹서비스 제공
실시간 처리 기능
실시간 트랜잭션
서비스
§각종 조회성 업무에 대해 실시간 데이터 조회 요건 충족
§실시간 정보조회를 위한 내/외부 시스템과의 인터페이스가 필요
실시간 정보Architecture정보조회 서비스
§주기젇 배치처리에 해당하며, 주기적으로 입력되는 데이터에 대한 핵심 항목에 대한사전 품질 점검 작업 및 데이터 로드
§완벽한 데이터 품질 점검을 위해 모든 항목에 대한 사후 점검이 필요
주기적인 CDC 적재주기적 입력 데이터
처리
§여러 어플리케이션들 간에 일관된 비즈니스 로직 적용이 가능한 데이터 가공
§GUI를 통한 손쉬운 데이터의 추출, 변환 및 적재 작업
데이터 추출
데이터 변환
데이터 적재
데이터 추출, 변환및 적재
IBM Software Group | WebSphere software
기업 데이터 통합의 비즈니스 요건 (품질평가 유형)
Business Rule 위배 Check조건 종속 관계(Biz Rule)
계산식에 위배된 Value Check산술규칙에 의한 Value
시간과 관련된 Data CheckTime 종속관계
Range를 벗어나는 Data CheckRange
Data Format의 유효성 체크Format
유효성
정규화 위배 Check정규화
Default 값을 가지는 Attribute별 측정치Default Value
PK 유일성 CheckPK 정의 (유일성 등)
무결성 Foreign Key 참조 무결성 CheckFK와 참조 무결성
1:1, 1:n 등의 Cardinality CheckRelation Rule
두가지 이상의 조합된 Value Check Value간의 집합개념으로서의 일치성
정합성
완전성
유형
Space 값을 가지는 Attribute별 측정치Space
Null 값을 가지는 Attribute별 측정치Null Value Check
설 명품질 측정 항목
IBM Software Group | WebSphere software
데이터통합 사례
§ 사례1) 대량 데이터 처리 사례
§ 사례2) 다양한 유형의 소스로부터의 데이터 통합사례
§ 사례3) 업무간 연계를 고려한 데이터 통합사례
§ 사례4) 실시간 업무요건에 따른 RTE 구현사례
IBM Software Group | WebSphere software
변환/Mapping
표준 Ruleset
ICISRS
ICISNS
VOC(ODS)
ICISRS
통합고객ID
수집영역
요약영역
통합영역
One DB Instance (UDB)
가공변환
요약집계
SMP Clustered – 병렬처리 아카텍쳐RAW CDR
근접실시간 수집
고객일변동분BATCH
MQ
DataStage
Miracom고객소량데이터
실시간처리
일마감 고장정보BATCH
MiracomOrder
실시간처리
DataStage
TivoliTWS
조치규칙System Log작업스케쥴
웹정형화면 Reportnet Powerplay MSTR
기준정보
Meta Data
Syncsort
MetaStage
품질평가로그
평가규칙
QualityStage
주소표준화/처리결과오류로그
데이터 수집
정렬/병합
정제/표준화
변환 요약
통합 축적
분류
DataStage
사례1) 대량 데이터 처리 사례 (K社)
IBM Software Group | WebSphere software
사례1) 대량 데이터 처리 사례 (K社)
DataStage 작업결과를Table, File 에 동시저장
추출, 정재, 변환, 적재근접실시간 수집
KTF
대량데이터
배치 수집MQ
E*SQL 수집영역 DB 통합영역DB
요약영역DB
추출, 정재, 변환, 적재
E*SQL
마트
요약/집계SQL*Net
FTP
ETT오류정보
작업결과정보
작업결과정보
작업결과정보
표준데이터정보
ETT오류정보
작업결과정보
표준데이터정보
표준 데이터 및 ETT 데이터 흐름 정보(MDR)품질 관리 서버 작업관리서버
MDR작업결과정보품질관리DB
수집 통합 요약 마트제공
Highway EAI
Channel
원천시스템
정액제
통화호트래픽
상호접속전략시스템PMIS
마케팅정보
IBIS
CRM(ICID,MCIF)
CRM
ABC
SEM
구내BIS
경영
IT-BSC
월추정매출
NetIS시설계
CAMA
ICIS
OMASERP
E-HRM
물류
���
NETIS
고속추출툴
E*SQL
ExportLoader
DataStage
SyncSort호출
E*SQLDB2 Load /
Import
변환/1차정제
(변동분추출,머지,중복제거)
추출
적재
DataStage
E*SQL
DB2 Load /
Import
QualityStage호출
변환
주소정제
추출
변환
추출 적재
적재
E*SQL
DataStage
변환
추출 적재
Reverse 변환/가공
적재
MetaStagePowerPlay
DataStage
ERWINReportsNet
MicroStrategy
IBM Software Group | WebSphere software
사례1) 대량 데이터 처리 사례 (W社)
DW
− CPU: Intel Pentium Ⅳ Xeon TM 2.8 GHz− CPU 수: 2CPU− Memory: 4GB− Disk: Internal 72GB
DW 서버 : NCR WM4950
− CPU : Intel Xeon 2GHZ− CPU 수 : 4 CPU− Memory : 8GB− Disk : External Disk : 100GB(RAID 5 구성)
ETL 서버 : HP rp5450
− CPU : Intel Pentium Ⅳ Xeon TM 2.8 GHz− CPU 수 : 2CPU− Memory: 1GB− Disk: Internal 90GB
AWS : NCR WM4475
External Disk : 1.32TB
− CPU : Intel Xeon 2.8GHZ− CPU 수 : 2CPU− Memory : 4GB− Disk : Internal 72GB
마이닝 서버 : HP ProLiant ML530 R02
− Drive 수 : 2− 용량 : 10TB− SLOT 수 : 50− 미디어 수 : 50
백업 장치 : ATL M1800
− CPU : Intel Xeon 2.8GHZ− CPU 수 : 1CPU (2CPU까지 확장 가능)− Memory : 4GB − Disk : Internal 72GB
레포팅 서버 : HP ProLiant ML530 R02
− CPU : Intel Xeon 2GHZ − CPU 수 : 2CPU (4CPU까지 확장 가능)− Memory : 2GB− Disk : Internal 72GB x 2
OLAP서버 : HP ProLiant ML570 R02
IBM Software Group | WebSphere software
사례1) 대량 데이터 처리 사례 (W社)
신신 정보계정보계
신신 계정계계정계
IBM M/FIBM M/F
DB2DB2
EDW EDW 시스템시스템
ee--MailMail
EMEM 반응정보반응정보
콜콜 센터센터
DM/TMDM/TM
반응정보반응정보
InternetInternet
세일즈팁
세일즈팁
반응정보반응정보
세일즈팁
세일즈팁
영업점영업점 창구창구
섭외정보반응정보섭외정보반응정보
상세상세 데이터데이터 영역으로서영역으로서시계열시계열 데이터데이터 축적축적(Data Subject Area)(Data Subject Area)
Customer
특정특정 사용사용 목적을목적을 위한위한요약요약 데이터데이터 및및
다차원다차원 모델모델 영역영역
재무분석
실적분석
리스크
거래분석
고객분석
수익분석
CRM System
ROLAP/ReportingROLAP/Reporting
((신계정계신계정계,,CRMS, CRMS, CRMCRM’’ssAsAs--is is Model)Model)
데이터데이터 가공가공//정재정재//변환변환//
Merge/Merge/Purge/Purge/
적재적재 영역영역
Account/Contract Product Area
Organization Event Campaign Channel
AssetsAccounting
/Finance
고객, 계좌, 거래조직, 채널, 지역자산, 재무, 상품사무량, 실적정보
전문가전문가 시스템시스템
관리관리 회계회계
성과성과 관리관리
기업기업 정보정보
BISBIS
채널에서 생성되는접촉 정보/반응 정보및 CRM 정보
데이터 전달 및 수집데이터 전달 및 수집
CRMSCRMS
EE
TT
CC
LL
LL
aa
yy
ee
rrApplication LayerApplication Layer
SummaryData
임원임원 정보정보
ERMSERMS
ALMALM
재무재무 계획계획
보고서
분석
StagingStagingLayerLayer
EDWEDWLayerLayer
Data MartData MartLayerLayer
데이터 전달 및 수집데이터 전달 및 수집
IBM Software Group | WebSphere software
계정계Host
정보계Host
과거Backup
Data
EDW 시스템Database 영역
OpenSystem
상용RDBMS
ETL 서버
Data StageAutoSys
lll
lll
1. 데이터추출
6. 통합 , 정제,변환, 적재
Metadata변환규칙
참조
TBL단위SAM.파일
EDW영역
Metadata영역
Staging
영역
Mart영역
7. 데이터복제/증식
소스 시스템
TBL단위SAM.파일
TBL단위SAM.파일
TBL단위SAM.파일
정보계Host DB
과거데이터 1. 데이터
추출
1. 데이터추출
(FastUnload)
계정계Host DB 1. 데이터 추출
(FastUnload)
2. 데이터적재
(TUF)
2. Metadata 참조
ESCON Channel
5. 데이터 적재(TUF)
5. 데이터 적재(TUF)
5. 데이터 적재(TUF)
TBL단위SAM.파일
TBL단위SAM.파일
TBL단위SAM.파일
DataStage
DataStage
DataStage
3. 프로그램 생성
4. 데이터 정재
4. 데이터 정재
4. 데이터 정재
Database File System소스 시스템 명
W社 시스템 환경 및 데이터 흐름을 분석해본 결과, 초기 데이터 이행을 위한 ETL전략은 Teradata에서 제공되는 유틸리티를 IBM에 탑재하여 SAM File을 Target System에 생성하지 않고 직접 Teradata의 Staging 영역으로 ESCON Channel을 이용하여 적재하는 것이다. 그리고, Open System의 경우 탑재된 TUF Utility를 사용하여 EDW 시스템으로 Network(TCP/IP)를통해 적재하는 것이다.
사례1) 대량 데이터 처리 사례 (W社)
IBM Software Group | WebSphere software
Database File System소스시스템 명
OpenSystem
상용RDBMS
lll
lll
데이터추출
TBL단위SAM.파일
ETL ETL 서버서버
Data StageAutoSys
데이터 추출(CLI )
데이터 적재(TUF)
소스소스 시스템시스템
신 계정계Host
EDW EDW 시스템시스템Database 영역
통합 , 정제,변환, 적재
Metadata변환규칙
참조
EDW영역
Metadata영역
Staging
영역
DB2
DB2 Archiv
eLog
ETT Data Stage
TableA
TableB
TableZ
ETT Data Stage
Table2
Table3
Table99
TERADATA Utilities
SAM File by source table
SAM File by target table
프로그램 생성
Metadata 참조
ExportFile
Log File에서변경 데이터 추출
LogMaster
Export Utility
변경데이터 Metadata
참조
Mart영역
데이터복제/증식
TBL단위SAM.파일
ESCON ESCON ChannelChannel
데이터 적재(TUF)
변경데이터에 대한 ETCL 방안은 DB2의 Active Log를 직접 Access하여 BMC-Log Master의 기능으로 변경 데이터를 추출하고, 이를 초기 ETCL 방안과 동일하게 처리하는 것이다. Open System의 경우 해당 데이터베이스의 변경분 추출 기능 및Table별 TimeStamp를 이용하여 변경분 추출 처리 후 해당 데이터를 초기분과 동일하게 처리한다.
사례1) 대량 데이터 처리 사례 (W社)
IBM Software Group | WebSphere software
W社 EDW Architecture는 Hub & Spoke Architecture가 아닌 중앙 집중화된 EDW Architecture를 기반으로설계되어 짐.
전행전행 데이터데이터 웨어하우스웨어하우스 관리관리
현업현업 및및 IT IT 사용자사용자
Data Staging Data Staging 영역영역
각각의각각의 운영운영 시스템시스템((계정계계정계, , 정보계정보계 및및채널채널 시스템시스템))으로부터으로부터 데이터를데이터를 추출하여추출하여EDW EDW 영역로영역로 데이터를데이터를 전달하기전달하기 전전데이터를데이터를 정제정제, , 가공가공 및및 적재하기적재하기 위한위한데이터데이터 영역영역
EDW EDW 영역영역((정규화정규화 Model)Model)
고객고객, , 상품상품, , 계좌계좌, , 내부조직내부조직, , 지역지역, , 캠페인캠페인,,거래거래((금융거래금융거래, , 조회조회, , 질의질의//불만불만, , 접촉접촉), ), 자산자산, , 재무재무, , 채널채널 등등 전행적인전행적인 데이터로서데이터로서 상세상세단위의단위의 데이터이며데이터이며 정규화된정규화된 데이터데이터 구조와구조와약간의약간의 요약요약 데이터로데이터로 구성된구성된 영역영역
논리논리 데이터데이터 마트마트 영역영역정규화정규화 또는또는 비정규화된비정규화된 데이터데이터 구조를구조를갖는갖는 요약된요약된 데이터데이터 SetSet으로서으로서 특정특정 목적의목적의ApplicationApplication을을 지원하기지원하기 위한위한 영역영역
계정계계정계 HOSTHOST 정보계정보계 HOSTHOST CRMCRM
DB2 DB2 상용 RDBMS
정보계정보계 시스템시스템
상용 RDBMS
외부외부 데이터데이터
재무분석
실적분석
리스크분석
거래분석
고객분석
수익분석
사례1) 대량 데이터 처리 사례 (W社)
IBM Software Group | WebSphere software
사례2) 다양한 유형의 소스로부터의 데이터 통합사례 (N社)
센 터 충남본부 강북본부 부산본부 대구본부 강남본부 전남본부 합계SAM 4 87 60 61 61 59 60 392
TABLE 67 3 6 6 3 9 3 97- 5 12 10 5 12 5 49
12 - - - - - - 124 - - - - - - 4- 1 12 1 5 1 1 21
326 - - - - - - 32623 - - - - - - 2310 - - - - - - 101 - - - - - - 12 - - - - - - 2
- ? ? ? ? ? ? 270198(코드)
33 - - - - - - 3313 - - - - - - 131 - - - - - - 125 50 50 50 50 50 50 325
521 146 140 128 124 131 119 1309합 계
HI_QMS
ANSWERSDELMONS
SDMS
TRUMANTIMS
수작업(개발중)
NEOSSFMINSA
CODE
EOCMS(개발중)
NPMS
TEMSNETSOLVER
KOSMOS
IBM Software Group | WebSphere software
강북본부
관리단
강남본부
Source System
Staging 단계
강북지역업무별 데이터
강남지역업무별 데이터
센터업무별 데이터
강남Staging
강원Staging
강북Staging
센터 통합 Staging
센터 통합 Staging
센터 통합 Staging
강남Staging
강원Staging
강북Staging
q Staging단계를 지역별로 ETCL한 후 코드공유를 위해 지역간 ETCL를 수행한다.q Staging단계에 생성된 데이터를 센터로 수집하기 위한 ETCL를 수행한다.q ODS, MDB단계계는 지역에서는 지역데이타를 ETCL하고, 센터에서는 지역에서 수집된 데이터를
ETCL하여 통합된 ODS와 MDB를 구성한다.
ODS 단계 MDB 단계
강북ODS
강남ODS
강북MDB
강남MDB
센터
통합ODS
센터
통합MDB
사례2) 다양한 유형의 소스로 부터의 데이터 통합사례 (K社N시스템)
IBM Software Group | WebSphere software
사례2) 다양한 유형의 소스로부터의 데이터 통합사례 (K社N시스템)
업무전산화 DB
DW ServerDW Server
다차원다차원 분석분석 DB(MDB)DB(MDB)
DELMONSDELMONS
TRUMAN, TEMSTRUMAN, TEMS
TIMSTIMS
ANSWERSANSWERS
Web/ReportingWeb/ReportingServerServer
ETCL ETCL 서버서버
DBDB
NetSolverNetSolver
DBDB
SAM파일
SDMSSDMS
DBDB
KOSMOSKOSMOSHIHI--QMSQMS
SAM FILE SAM FILE 직접연동직접연동(Type2)(Type2)
DB DB 직접연동직접연동
ORACLEORACLE
INFORMIXINFORMIX
ORACLEORACLE
FTPFTP전송전송
DB DB 직접연동직접연동
DB DB 직접연동직접연동
DB DB 직접연동직접연동
DB DB 직접연동직접연동
OLAPOLAP
NPMSNPMS EOCMSEOCMS
SENSESENSEOMAS/LOMAS/L
OMAS/COMAS/C
CODECODE로딩로딩
DBDB ORACLEORACLE
DBDB ORACLEORACLE
NeossNeoss FMFM
DBDB
DB DB 직접연동직접연동
MSMS--SQLSQL
INSAINSA
DBDB
DB DB 직접연동직접연동
ORACLEORACLE
ODSODS StagingStaging
통합 DB
SAM파일
SAM FILE SAM FILE 연동연동(Type1)(Type1)
수작업수작업
DBDB ORACLEORACLE
DB DB 직접연동직접연동
IBM Software Group | WebSphere software
ODS1 ODS2
DW1 DW2OLAP고객 /CRM기존업무
대용량
Disk 공유
Area(NAS )
계정계(Server)
외환
공제
카드
신탁
유통
여신
계정계(Host)
수신 추출적재
Socket,FTP
EAI
EAI
EAI Hub
(개발계 )신고객EAI
EAI
EAI Hub
(운영계 )
EAI
적재
EAI
HA
HA
1. 계정계 (UNISYS) à ODS
- EAI Hub(MQ) & Socket FTP
2. ODS à DW
3. ODS à 고객 / CRM
4. DW à 기존 업무
5. DW à OLAP 마트
1. 계정계 (UNISYS) à ODS
- EAI Hub(MQ) & Socket FTP
2. ODS à DW
3. ODS à 고객 / CRM
4. DW à 기존 업무
5. DW à OLAP 마트
※ 해당 작업 종료 후 다음작업 진행을 위한 Check File 을 송/수신 하여 Triggering 하였으므로
Waiting time 및 데이처 전송 오류 최소화(Check File 내용 : 기준일자, 데이터 건수)
사례3) 업무간 연계를 고려한 데이터 통합사례 (N社)
IBM Software Group | WebSphere software
HOSTHOST IFSIFS
(EBCDIC)(EBCDIC)DWDW DMDM
• Initial SAM• Incremental SAM• Initial SAM• Incremental SAM
• Initial TB
• Incremental TB
• Initial TB
• Incremental TB •Lookup TB•Fact / Dimension•Lookup TB•Fact / Dimension
•보조원장 TB•보조원장 TB
DataStage Job
•Summary TB•Summary TB
DW 적재 DM 적재
ASCiiASCii 변환된변환된SAMSAM
§ Initial Unload § Incremental :
Log Capture
§ Initial Unload § Incremental :
Log Capture
DB2 Unload(초기)BMC추출(변경)
HOST HOST 영역영역 DW DW 영역영역공유공유 Disk Disk 영역영역
사례3) 업무간 연계를 고려한 데이터 통합사례 (H社)
IBM Software Group | WebSphere software
OLTP
업무Log
MIS
E A I
SS Server
DW
SNAAdapter
DW연결서버
ODBCAdapter
MUX e*Way
대외계
OLTP/MIS 연결서버
SNA
ODBC
CRM WEB Server
ODBC
ODBC
SNA
TIS WEB Server
TCP/IP
ETT
분석가
deliveryCSCCRMS구매카드SMS등
인터넷뱅킹국제금융서버SWIFT유가증권등
DRDA
통신망
현재 데이터 흐름도
사례4) 실시간 업무요건에 따른 RTE 구현사례 (F社)
IBM Software Group | WebSphere software
CSCCRMS구매카드SMS 인터넷뱅킹국제금융서버SWIFT유가증권등
향후 데이터 흐름도
OLTP
E A I
SS Server
DW
SNAAdapter
ODBCAdapter
MUX e*Way
대외계
AP Server
ETT
ODBCAdapter
분석가
deliverydelivery
현업사용자
임시적
통신망
업무 DB 서버ETT
T I SSell
사례4) 실시간 업무요건에 따른 RTE 구현사례 (F社)
IBM Software Group | WebSphere software
OLTP
DW(Tera DB)
신정보 DB 서버
ETTETT
DeliveryDelivery
DeliveryDelivery
ETTETT
DB2DB2
OLTP
업무Log
MIS
대외계
DB2
DB2LOG
계정계
사례4) 실시간 업무요건에 따른 RTE 구현사례 (F社)
데이터 프로세스
IBM Software Group | WebSphere software
분산 Data 온라인 개발 유형 선택 프로세스
Data ?Data ?업무 개발요건 발생
업무 개발요건 발생
개발 유형 결정개발 유형 결정
분산
유형1유형1
-1 Day Data ?-1 Day Data ?
Delivery Delivery
공통모듈반복처리?
공통모듈반복처리?
AP&DB 서버공통 모듈 ?
AP&DB 서버공통 모듈 ?
AP서버공통 모듈 ?
AP서버공통 모듈 ?
집중
가능
사용
미사용
사용
No
No
Yes
미사용
Yes
유형1유형1 유형7유형7
유형3유형3
유형5유형5
유형4유형4
No
사례4) 실시간 업무요건에 따른 RTE 구현사례 (F社)
IBM Software Group | WebSphere software
Clien
t(Applet)
Web
Server(W
EB
ToB)
HTTPEnterprise Java Beans
EJB Adaptor
SunFire12K
Solaris
Java Virtual Machine – J2EE(1.3), J2SE Environment
Web Application Server - JEUS
Application Container
Component Framework - ebCFTM
EAI(e*GATE)
실적관리
여신종합관리
고객정보관리
수익관리
계리/
결산
대외보고업무
부수업무
RM
관리
명세/
자료
Consum
er Loan
환원자료
검사정보
DB
MS
(UD
B)
DB Connection
TX
Gatew
ay(Servle
t)
RMI
EJB Adaptor
Enterprise Java Beans
사례4) 실시간 업무요건에 따른 RTE 구현사례 (F社)
© 2005 IBM Corporation
Q & A