데이터웨어하우스 데이터 모델링 (data warehouse data modeling)

42
데데데데데데데데 데데데데데데데데 데데데 데데데 데데데 데데데 (Data Warehouse Data Modeling) (Data Warehouse Data Modeling)

Upload: adlai

Post on 21-Mar-2016

92 views

Category:

Documents


17 download

DESCRIPTION

데이터웨어하우스 데이터 모델링 (Data Warehouse Data Modeling). 목 차 (1). 제 1 장 데이터웨어하우스 데이터모델링 개요 DW 데이터의 특성 DW 모델링 개요 제 2 장 데이터 정의 원 데이터와 목적 데이터 갭 (Gap) 분석 및 해결 데이터 변형. 목 차 (2). 제 3 장 데이터웨어하우징 모델링 Dimensional Business Model Star Model Star Model 의 구축 Fact Table Fact Table 의 속성 - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: 데이터웨어하우스 데이터 모델링 (Data Warehouse Data Modeling)

데이터웨어하우스데이터웨어하우스데이터 모델링데이터 모델링

(Data Warehouse Data (Data Warehouse Data Modeling)Modeling)

Page 2: 데이터웨어하우스 데이터 모델링 (Data Warehouse Data Modeling)

DWM-2

목 차 (1)

제 1 장 데이터웨어하우스 데이터모델링 개요 DW 데이터의 특성 DW 모델링 개요

제 2 장 데이터 정의 원 데이터와 목적 데이터 갭 (Gap) 분석 및 해결 데이터 변형

Page 3: 데이터웨어하우스 데이터 모델링 (Data Warehouse Data Modeling)

DWM-3

목 차 (2)

제 3 장 데이터웨어하우징 모델링 Dimensional Business Model Star Model Star Model 의 구축 Fact Table Fact Table 의 속성 Dimension Tables Snowflake Model Multiple Fact Tables Multi Star Schema 외부참조 테이블 (Outboard Table) DW 내에서의 시간의 활용

Page 4: 데이터웨어하우스 데이터 모델링 (Data Warehouse Data Modeling)

DWM-4

목 차 (3)

제 4 장 고급 데이터웨어하우스 모델링 Dimension 속성의 변경 History의 관리 One Dimension Compare To Several Dimensions 계층구조 데이터의 모델링 차원내의 복수 계층

제 5 장 데이터의 집합화 요약 Table과 집합화 집합화 (Aggregation) Snowflake model과 요약 fact table 하나의 대규모 단일 fact table DW내에서 요약 Table의 관리 요약 Table 사용시의 주의할 사항 Granularity

Page 5: 데이터웨어하우스 데이터 모델링 (Data Warehouse Data Modeling)

DWM-5

제 1장 데이터웨어하우스 데이터모델링 개요 DW 데이터의 특성

DW는 데이터의 통합체 DW 데이터는 주제중심 DW 데이터는 …

DW 모델링 개요 정보요구를 모델로 DW 모델 주제영역 논리적 데이터모델링

Page 6: 데이터웨어하우스 데이터 모델링 (Data Warehouse Data Modeling)

DWM-6

DW는 데이터의 통합체 (Consolidation)

External Data

Internal Data

Manual Data

OperationalData Store

Data Warehouse

Data Marts

Page 7: 데이터웨어하우스 데이터 모델링 (Data Warehouse Data Modeling)

DWM-7

DW 데이터는 주제중심 (Subject Oriented)

적용업무에 의해서가 아닌 업무적 주제에 의한 분류 및 저장업무적 주제에 의한 분류 및 저장

수신 여신

외환 수출입공통 고객실적정보

적용업무에 의한 분류 데이터웨어하우스의 업무적 주제에 의한 분류

Page 8: 데이터웨어하우스 데이터 모델링 (Data Warehouse Data Modeling)

DWM-8

DW 데이터는 ... 데이터통합

데이터통합 데이터의 일관성 (Data Consistency) 데이터의 중복 (Data Redundancy)

Time Variant Key Time Element

비휘발성

Page 9: 데이터웨어하우스 데이터 모델링 (Data Warehouse Data Modeling)

DWM-9

정보요구를 모델로 정보요구 수집

JAD (Joint Application Development) Interviews Current Reports IT Report Backlog 대상업무와 관련된 업계의 출판물 경영진 , 관리자와의 Meetings

업무 프로세스가 아닌 데이터를 보는 관점 (View)에 주력

Page 10: 데이터웨어하우스 데이터 모델링 (Data Warehouse Data Modeling)

DWM-10

DW 모델

Subject AreaLogical DataModel

OperationalData Store

Snowflake SchemaPhysical Data Model

Star Schema Physical Data Model

Page 11: 데이터웨어하우스 데이터 모델링 (Data Warehouse Data Modeling)

DWM-11

주제영역 논리적 데이터모델링 Subject Area 정의 엔티티 (Entity) 정의 속성 (Attribute) 정의 관계 (Relationship) 정의 업무규칙 (Business Rule) 검증 Critical Business Measure 정의 추출데이터 추가 시간요소 추가

Page 12: 데이터웨어하우스 데이터 모델링 (Data Warehouse Data Modeling)

DWM-12

제 2장 데이터 정의 원 데이터와 목적 데이터 갭 (Gap) 분석 및 해결 데이터 변형

Page 13: 데이터웨어하우스 데이터 모델링 (Data Warehouse Data Modeling)

DWM-13

원 데이터와 목적 데이터 원 데이터 (Source Data)

다른 database, file, segment 들에 있는 data 나 외부에서 제공되는 data

운영 시스템에서 추출된다

목적 데이터 (Target Data) Data Warehouse database 의 data 가 되는 data

원 시스템 (Source System) 분석 ER-Diagram Database Catalogs Metadata

역공학 (Reverse Engineering) 을 활용하라 80:20 Rule 을 염두에 두라

Page 14: 데이터웨어하우스 데이터 모델링 (Data Warehouse Data Modeling)

DWM-14

갭 (Gap) 분석 및 해결 갭 (Gap) 분석

Data content Data format Data relationship Granularity

갭 (Gap) 의 해결 Ignore Adjust Compromise Postpone

Page 15: 데이터웨어하우스 데이터 모델링 (Data Warehouse Data Modeling)

DWM-15

데이터 변형 원시 시스템에서 추출된 데이터는 DW로 구성되기 전에 통합되고 변형된다 .

제품 번호 = 17A554322

17 A 5543 22

지역 Code영업구역 제품 Code제품 Size Code

Key들로 구축된 항목

Page 16: 데이터웨어하우스 데이터 모델링 (Data Warehouse Data Modeling)

DWM-16

제 3장 데이터웨어하우징 모델링

Dimensional Business Model Star Model Star Model의 구축 Fact Table Fact Table 의 속성 Dimension Tables Snowflake Model Multiple Fact Tables Multi Star Schema 외부참조 테이블 (Outboard Table) DW내에서의 시간의 활용

Page 17: 데이터웨어하우스 데이터 모델링 (Data Warehouse Data Modeling)

DWM-17

Dimensional Business Model

High level Dimensional Business Model

Geography

Dist.Channel

Product

Time

Dimension

Facts

SalesInventoryCosts

Page 18: 데이터웨어하우스 데이터 모델링 (Data Warehouse Data Modeling)

DWM-18

Star Model

분석 처리를 지원 Fact table Dimension table

장점 간단한 모델 사용자 중심 테이블 조인을 감소하여 성능 향상

단점 융통성이 적다 중복된 데이터를 갖는다 다수의 요약 테이블을 필요로 한다 Fact 테이블간의 조인이 어렵다

Page 19: 데이터웨어하우스 데이터 모델링 (Data Warehouse Data Modeling)

DWM-19

Star Model의 구축 주제 영역 사실 (Facts) 세분화 (Granularity) 차원 (Dimensions) 차원의 속성들 (Dimensional attributes)

속성의 특징 정적인가 동적인가

Page 20: 데이터웨어하우스 데이터 모델링 (Data Warehouse Data Modeling)

DWM-20

Fact Table

Major table 이라고도 한다 . Business 에 관한 수량적이거나 사실적인 data 를 갖는다 . 숫자로 나타내는 측정치가 정보로 질의된다 . 많은 수의 column 들과 수백만의 행을 갖는다 .

Product

Time

CustomerTime KeyProduct KeyCustomer KeyChannel Key

Sales Facts(Units, Price) Channel

Page 21: 데이터웨어하우스 데이터 모델링 (Data Warehouse Data Modeling)

DWM-21

Fact Table Attributes

Fact는 업무의 양적 특성을 보이는 속성이다 Fact table의 속성들은 외부 dimension key들이나 판매나 단위와 같은 수치적 특성들을 구분한다

Fact Data Additive Non-additive Semi-additive

Time Sales FactTime_KeyProduct_KeyStore_KeyPromotion_Key

Quantity_sold*Revenue*Cost*Customer_count Promotion

Store

Product

Additive Semi-Additive

Page 22: 데이터웨어하우스 데이터 모델링 (Data Warehouse Data Modeling)

DWM-22

Dimension Table

Minor table이라고도 한다 . Business의 차원을 반영하는 서술적인 data를 갖는다 . Fact table내의 각각의 row에 대하여 서술적인 정보를 갖는다 일반적으로 fact table에 비하여 그 양이 적다 시간 차원 테이블을 갖는다

Large Dimension Tables 모든 dimension table이 항상 작은 것은 아니다 고객에 관한 정보를 갖는 dimension table이라면 매우 커질 수 있다 이러한 복잡한 분석을 지원하기 위하여 보다 정교한 인덱스와 조인 기술을 필요로 한다

Page 23: 데이터웨어하우스 데이터 모델링 (Data Warehouse Data Modeling)

DWM-23

Snowflake Model

Star model 의 변형 fact table 구조는 그대로 유지하면서 모든 차원 정보를 3 차

정규형으로 저장 잇점

보다 적은 저장 공간을 필요로 한다 대부분의 많은 개발툴이 지원한다 데이터 중복을 최소로 한다

단점 보다 복잡해지므로 사용자의

이해도를 좀 더 필요로 한다 Sales

(units, price)

Products

Customer

Time

Channel

Segment

Category Time Period

Page 24: 데이터웨어하우스 데이터 모델링 (Data Warehouse Data Modeling)

DWM-24

Multiple Fact Table (1)

Snowstorm model이나 Snowflake model이라고도 한다 Fact table들이 dimension table을 통하여 연결된다

서로 다른 시간 Dimension을 적용할 수 있다 Period_IDProduct_IDMarket_IDUnitsDollarsDiscount%

Period_IDProduct_IDMarket_IDUnitsDollarsDiscount%

Product_IDProd_DescBrandSize

Market_IDMarket_DescDistrictRegion

Period_IDPeriod_DescQuarterYear

Page 25: 데이터웨어하우스 데이터 모델링 (Data Warehouse Data Modeling)

DWM-25

Multiple Fact Table (2)

DW Model 의 모든 table 들이 fact나 dimension 으로 나뉘어지는 것은 아니다

business 의 임의의 차원간의 다 -대 -다 관계를 해소하기 위하여 추가된다

Factless fact table Associative Dimension

Period_IDProduct_IDMarket_IDUnitsDollarsDiscount%

Product_IDProd_DescBrandSize

Market_IDMarket_DescDistrictRegion

Period_IDPeriod_DescQuarterYear

Group_IDGroup_Desc

Product_IDGroup_ID

Page 26: 데이터웨어하우스 데이터 모델링 (Data Warehouse Data Modeling)

DWM-26

Multi Star Schema

foreign key의 연결만으로 fact table의 각 행을 유일하게 구분할 수 없을 경우에 유도된다

Class_IDClass_Desc

Store_IDStore_NameRegionManager

UnitsPriceAmount

Store_IDSKU_IDDateReceipt_NbrReceipt_Line_Item

SKU_IDClass_IDDept_IDItem

Dept_IDDept_Desc

2 개의 2 차 dimension table 을 갖는 Multi star schema

Page 27: 데이터웨어하우스 데이터 모델링 (Data Warehouse Data Modeling)

DWM-27

외부참조 테이블 (Outboard Table) 임의의 Dimension table은 다른 Dimension table에 의하여 참조될 수 있다 참조되는 dimension table을 outboard, outrigger 혹은 2차 dimension table이라고도 한다

Period_IDProduct_IDMarket_IDUnitsDollarsDiscount%

Product_IDProd_DescBrandSize

Market_IDMarket_DescDistrict_IDRegion_ID

Period_IDPeriod_DescQuarterYear

District_IDDistrict_Desc

Region_IDRegion_Desc

Page 28: 데이터웨어하우스 데이터 모델링 (Data Warehouse Data Modeling)

DWM-28

DW내에서의 시간의 활용 DW 에 있어 시간의 표현은 필수요소

DW 내에서 시간의 단위에 대한 다양한 정의를 만족하는 시간의 계층을 정의해야 한다

시간은 어디에 저장되어야 하는가 ? 일반적으로 DW 내에서의 시간 dimension table 은 시간적인

요소로 fact table 에 저장된다

Multiple Time Hierachies Calendar 접근 시간에 대한 측정치는 간단하게 시작될 수 있으나 곧 매우

복잡한 개념으로 발전하게 된다

Page 29: 데이터웨어하우스 데이터 모델링 (Data Warehouse Data Modeling)

DWM-29

제 4장 고급 데이터웨어하우스 모델링 Dimension 속성의 변경 History의 관리 One Dimension Compare To Several Dimensions 계층구조 데이터의 모델링 차원내의 복수 계층

Page 30: 데이터웨어하우스 데이터 모델링 (Data Warehouse Data Modeling)

DWM-30

Dimension 속성의 변경 DW 는 history 를 저장한다 사용자의 요구사항이 저장되어져야 할것을 결정 변화는 추적가능해야 한다

사용할 수 있는 몇가지 방법들 history 를 전부 다시쓴다 record 를 추가함으로 history 의 유지 history table 을 이용한 history 유지 부분적 history 의 유지보수

Single Married Separated Divorced

Page 31: 데이터웨어하우스 데이터 모델링 (Data Warehouse Data Modeling)

DWM-31

History의 관리 History 다시 쓰기

구현이 쉽다 이전의 history 를 잃는다

Record 를 추가함으로 history 의 유지 차원이 증가하여 history 보존 시간적 제약은 필요하지 않다 일반화할 수 있는 Key 를 필요로 한다

History table 을 이용한 history 유지 History table 이 추가되어 Dimension 이 확장된다 History table 내에서의 key 를 무엇으로 할것인가

부분적 history 의 유지보수 Data 의 불안정에 대비하여야 한다

Single

Married

Separated

Divorced

Page 32: 데이터웨어하우스 데이터 모델링 (Data Warehouse Data Modeling)

DWM-32

One Dimension Compare To Several Dimensions

단일 차원 보다 적은 조합에 의한 보다 작은 Fact table을 만든다 dimension data의 분석과 유지를 어렵게 한다

복수 차원 다수의 조합에 의하여 fact table의 크기를 증가 시킨다 분석의 융통성을 증대 data 정의의 변화에 있어 보다 쉬운 방법을 제공 전반적인 유지보수를 쉽게 한다

Page 33: 데이터웨어하우스 데이터 모델링 (Data Warehouse Data Modeling)

DWM-33

계층구조 데이터의 모델링 계층 구조 데이터는 다음과 같이 표현된다

단일 계층 (차원 ; dimension) 복수 계층 (dimensions) 계층적 data는 dimension table에 저장된다 Dimension은 하나 이상의 계층을 가질 수 있다

여러 개의 모델이 사용 가능하다 Flat Recursive Combined 3NF

Page 34: 데이터웨어하우스 데이터 모델링 (Data Warehouse Data Modeling)

DWM-34

차원내의 복수 계층 테이블 항목의 사용 항목 계층의 생성 Drilling down

좀 더 자세히 Rolling Up

요약하여

모든 고객

State

Country

Sales Region

Sales Zone

Sales District

고객Dimension table내의 복수 계층

Page 35: 데이터웨어하우스 데이터 모델링 (Data Warehouse Data Modeling)

DWM-35

제 5장 데이터의 집합화와 요약 요약 Table과 집합화 집합화 (Aggregation) Snowflake model과 요약 fact table 하나의 대규모 단일 fact table DW내에서 요약 Table의 관리 요약 Table 사용시의 주의할 사항 Granularity

Page 36: 데이터웨어하우스 데이터 모델링 (Data Warehouse Data Modeling)

DWM-36

요약 Table과 집합화 (Aggregation)

요약된 데이터란 ? 미리 정의된 fact data 를 누적 직접적이고 쉽게 접근할 수 있도록 data 를 집합화

왜 요약된 데이터를 갖는가 ? 질의 응답시간을 개선하기 위하여 자원의 활용도를 최적화 하기 위하여 분석 처리를 강화하기 위하여

집합화된 data(Aggregated data) DW 내의 SUM, MAX, MIN, COUNT 등으로 미리 계산되고 요약된 da

ta 일반적으로 요약된 fact table 에 저장

Page 37: 데이터웨어하우스 데이터 모델링 (Data Warehouse Data Modeling)

DWM-37

집합화 (Aggregation)

Item

Geography

Product

Market

Store

Dept Class

Region

Geography와 product dimension에 대한 미리 저장된 집합화 Table

Page 38: 데이터웨어하우스 데이터 모델링 (Data Warehouse Data Modeling)

DWM-38

Snowflake model과 요약 fact tables Snowflake 구성

Dimension table 을 공유 가능하게 한다 보다 진보된 의사결정 tool 들의 사용을 쉽게한다 유연성

정규화를 요구한다 성능이 저하될 수 있다 대규모 dimension

DateKey

RegionID

ProductKey

TotalUnits

TotalSales

DateKey

StateID

ProductKey

TotalUnits

TotalSales

StoreKey

ProductKey

TotalUnits

TotalSales

StoreKey ...

StateID ...

RegionID ...

DenormalizedStore Dimension Table

Basic Fact Table

State Summary TableTotal by state, by product, by day

Region Summary TableTotal by region, by product, by day

Page 39: 데이터웨어하우스 데이터 모델링 (Data Warehouse Data Modeling)

DWM-39

하나의 대규모 단일 fact table 세부 fact data 와 요약된 data 를 같은 table 에

집합화 정보가 fact table 에 포함되어 있다 차원에서 level 을 관리하기 위하여 일반화된 key 가 필요하다

요약된 정보를 얻기위한 질의 절차가 간단하다

종종 OLAP 을 위하여 사용된다

유지보수 , 운영관리가 어렵다

Row Headers

Basic Grain RownsSummary

Rowns

Fact Table

Page 40: 데이터웨어하우스 데이터 모델링 (Data Warehouse Data Modeling)

DWM-40

DW내에서 요약 Table의 관리

1994/1995 1994 1997 1998

Yearlysummarydata Quarterly

summarydata

Monthlysummarydata

Last 12 monthsDaily detail

Page 41: 데이터웨어하우스 데이터 모델링 (Data Warehouse Data Modeling)

DWM-41

요약 Table 사용시의 주의할 사항 생성시의 제한 사항

모든 가능한 사항에 대한 고려는 엄청난 양의 자원을 필요로 한다

사용시의 주의할 사항 요구사항을 명확히 구분한다 향상될 수 있는 성능을 측정해 낸다 요약 table의 가치를 결정하여 더하거나 삭제한다 지속적인 재반영 (refresh)은 시간의 소모가 클 수 있다 원활한 운영에 부적합한 Tool을 사용하지는 않는가 제한된 확장성

Page 42: 데이터웨어하우스 데이터 모델링 (Data Warehouse Data Modeling)

DWM-42

Granularity

Grin DW 내의 세밀화의 수준 Granularity 의 수준은 database 의 크기와

database 가 지원할 수 있는 분석의 형태에 직접 영향을 준다

Low level of granularity high level of detail

한달 동안 고객이 사용한 각각의 통화에 대한 세부 정보

High level of granularity low level of detail

한달에 임의의 고객이 통화한 횟수