aws cloud 2017 - amazon redshift 기반 dw 와 비지니스 인텔리전스 구현 방법 (김일호...

43
Amazon Redshift 기반 DW 와 비지니스 인텔리전스 구현 방법

Upload: amazon-web-services-korea

Post on 26-Jan-2017

234 views

Category:

Technology


7 download

TRANSCRIPT

Page 1: AWS CLOUD 2017 - Amazon Redshift 기반 DW 와 비지니스 인텔리전스 구현 방법 (김일호 솔루션즈 아키텍트)

Amazon Redshift 기반 DW 와비지니스 인텔리전스 구현 방법

Page 2: AWS CLOUD 2017 - Amazon Redshift 기반 DW 와 비지니스 인텔리전스 구현 방법 (김일호 솔루션즈 아키텍트)

우리 Big data 분석 잘하고 있나? DW는?

• DW는 견적이 작지 않습니다.

• 데이터가 금방 차서 빨리 확장해야합니다.

• 아침에 보고서 내야하는데, DW접속이 안됩니다.

• DW백업을 해야할까요?

• 데이터가 커져서 로딩이 한 세월입니다.

• 다른 분석 서비스와 연동이 어렵습니다.

• 민감한 데이터인데 전송이나 저장 시 암호화는?

• 운영이나 S/W 패치는 누가 계속 봐줘야 할텐데…

Page 3: AWS CLOUD 2017 - Amazon Redshift 기반 DW 와 비지니스 인텔리전스 구현 방법 (김일호 솔루션즈 아키텍트)

AWS Big Data 관련 포트폴리오Collect Store Analyze

Amazon Kinesis Firehose

AWS Direct Connect

Amazon Snowball

Amazon Kinesis Analytics

Amazon KinesisStreams

Amazon S3 Amazon Glacier

Amazon CloudSearch

Amazon RDS, Amazon Aurora

Amazon Dynamo DB

Amazon Elasticsearch Service

Amazon EMR Amazon EC2

Amazon

Redshift

Amazon Machine

Learning

Amazon

QuickSight

AWS Data PipelineAWS Database Migration Service

Page 4: AWS CLOUD 2017 - Amazon Redshift 기반 DW 와 비지니스 인텔리전스 구현 방법 (김일호 솔루션즈 아키텍트)

Amazon Redshift

shift$1,000/TB/1년으로시작할수있는빠르고간단한 Patebyte 확장이

가능한데이터웨어하우징서비스입니다.

Page 5: AWS CLOUD 2017 - Amazon Redshift 기반 DW 와 비지니스 인텔리전스 구현 방법 (김일호 솔루션즈 아키텍트)

다양한 Amazon Redshift 사용 고객

Page 6: AWS CLOUD 2017 - Amazon Redshift 기반 DW 와 비지니스 인텔리전스 구현 방법 (김일호 솔루션즈 아키텍트)

왜 사용할까요? Business 관점

6

Page 7: AWS CLOUD 2017 - Amazon Redshift 기반 DW 와 비지니스 인텔리전스 구현 방법 (김일호 솔루션즈 아키텍트)

전형적인 데이터 웨어하우징

비지니스 보고 복잡한 분석 쿼리 및 파이프라인

보안 및 규정

손쉬운마이그레이션 –간단한 UI를지원한는 AWS Database Migration Service 지원

보안및규정 –종단간암호화, SOC 1/2/3, PCI-DSS, HIPAA, FedRAMP 준수

다양한파트너솔루션 –풍부한 BI 및 ETL 솔루션지원

Petabyte 규모의 다중Redshift 클러스터 사용.

보안 요건 만족

SQL Server에서 Redshift 전환. 비용 절감, 성능 향상

보안 규약 만족 및 57% 비용절약

대용량 데이터 입력및 갱신

Page 8: AWS CLOUD 2017 - Amazon Redshift 기반 DW 와 비지니스 인텔리전스 구현 방법 (김일호 솔루션즈 아키텍트)

로그 분석 시스템/서비스

IoT를 포함한 다양한 로그 데이터

분석

클릭 스트림이벤트 분석

시간 구간/변화에 따른 데이터

분석

낮은비용 –매우낮은비용으로대량의데이터분석가능

높은성능 – Massively Parallel Processing (MPP), 컬럼기반, 병렬데이터로딩, 쿼리최적화지원의아키텍쳐

준실시간데이터처리 –준실시간처리를위해 Amazon Kinesis Firehose를통해데이터로딩과마이크로배치업무지원

상호 데이터 분석 및 추천엔진. 25~100배 성능 향상

승차 비용을위한 승객 분석 및제품 개발에 활용

예측 광고와 분석 활용

Page 9: AWS CLOUD 2017 - Amazon Redshift 기반 DW 와 비지니스 인텔리전스 구현 방법 (김일호 솔루션즈 아키텍트)

비지니스 어플리케이션

다양한 사용자/부서BI 어플리케이션 지원

백엔드 서비스 활용 서비스 구조의 분석솔루션 구축 제공

관려형서비스 –프로비져닝, 백업, 업그레이드, 보안기능, 압축등의모든기능이관리형으로제공되어고객은비지니스에집중

사용시간과금 –초기비용없이사용한만큼과금되며, 필요하면다수의클러스터도바로생성

타 AWS 서비스와연동 –다른 AWS 서비스들과연동되어쉽게파이트라인을구성가능

Infosys Information

Platform (IIP) 를 AWS에구성

분석 서비스제공

제품 및 고객 분석시스템

Page 10: AWS CLOUD 2017 - Amazon Redshift 기반 DW 와 비지니스 인텔리전스 구현 방법 (김일호 솔루션즈 아키텍트)

수천이상의고객분들이 Mission-Critical 서비스에이미 Amazon Redshift를사용하고있습니다.

Page 11: AWS CLOUD 2017 - Amazon Redshift 기반 DW 와 비지니스 인텔리전스 구현 방법 (김일호 솔루션즈 아키텍트)

왜 사용할까요? Technology 관점

11

Page 12: AWS CLOUD 2017 - Amazon Redshift 기반 DW 와 비지니스 인텔리전스 구현 방법 (김일호 솔루션즈 아키텍트)

이점 #1: Amazon Redshift = 빠른 성능

노드 간 4GB/sec 통신이 가능하며 I/O 작업이 빠른

워크로드에 H/W를 최적화

향상된 네트워크 지원, 노드 당 1M Packet/sec

용량 최적화, 연산 최적화 노드 타입 지원

자동 패치

새 Dense Storage (HDD) 인스턴스 타입은 메모리 2x, 연산성능 2x, 디스크

대역폭 1.5x 향상이 있었으나, 동일한 가격.

Page 13: AWS CLOUD 2017 - Amazon Redshift 기반 DW 와 비지니스 인텔리전스 구현 방법 (김일호 솔루션즈 아키텍트)

이점 #2-1: Amazon Redshift = 낮은 비용

DS2 (HDD)Price Per Hour for

DS2.XL Single NodeEffective Annual

Price per TB compressed

On-Demand $ 0.850 $ 3,725

1 Year Reservation $ 0.500 $ 2,190

3 Year Reservation $ 0.228 $ 999

DC1 (SSD)Price Per Hour for DC1.L Single Node

Effective AnnualPrice per TB compressed

On-Demand $ 0.250 $ 13,690

1 Year Reservation $ 0.161 $ 8,795

3 Year Reservation $ 0.100 $ 5,500

Pricing is simple

노드수 x 시간비용

Leader 노드는무료

초기납입금액없음

사용한만큼만지불

N. Virginia region pricing

Page 14: AWS CLOUD 2017 - Amazon Redshift 기반 DW 와 비지니스 인텔리전스 구현 방법 (김일호 솔루션즈 아키텍트)

이점 #2-2: Amazon Redshift = 낮은 비용

Dense Storage (DS2.XL) 2 TB HDD, 31 GB RAM, 2 slices/4 cores

Single Node (2 TB)

Cluster 2-32 Nodes (4 TB – 64 TB)

Dense Storage (DS2.8XL) 16 TB HDD, 244 GB RAM, 16 slices/36 cores, 10 GigE

Cluster 2-128 Nodes (32 TB – 2 PB)

Note: Nodes not to scale

Page 15: AWS CLOUD 2017 - Amazon Redshift 기반 DW 와 비지니스 인텔리전스 구현 방법 (김일호 솔루션즈 아키텍트)

이점 #3-1: Amazon Redshift = 완전 관리형 서비스

지속적/증분백업노드간카피본지원

지속적증분백업을안전한 S3(Amazon

Simple Storage Service) 에저장

지속적증분백업을다른리젼으로복제지원

Streaming 복구지원으로빠른사용가능

Amazon S3

Amazon S3

Region 1

Region 2

Page 16: AWS CLOUD 2017 - Amazon Redshift 기반 DW 와 비지니스 인텔리전스 구현 방법 (김일호 솔루션즈 아키텍트)

이점 #3-2: Amazon Redshift = 완전 관리형 서비스

Amazon S3

Amazon S3

Region 1

Region 2

내결함을위한관리지원

디스크결함

노드결함

네트워크결함

Availability Zone/Region 수준의이벤트발생대비

Page 17: AWS CLOUD 2017 - Amazon Redshift 기반 DW 와 비지니스 인텔리전스 구현 방법 (김일호 솔루션즈 아키텍트)

이점 #4: 다양한 보안 기능• S3 로부터 암호화된 데이터 로딩

• SSL 을 이요한 암호화 통신 지원

• ECDHE perfect forward security 지원

• Amazon VPC 를 지용한 네트워크 보안

• 데이터 저장 시 암호화 지원

– 디스크 블럭 암호화와 S3 암호화 지원

– 블럭 키, 클러스터 키, 마스터 키 AES-256 암호화

– 기 보유 HSM, AWS CloudHSM & KMS 지원

• 데이터베이스 Audit logging 지원

• AWS CloudTrail 지원

• SOC 1/2/3, PCI-DSS, FedRAMP, BAA

10 GigE(HPC)

IngestionBackupRestore

Customer VPC

InternalVPC

JDBC/ODBC

Page 18: AWS CLOUD 2017 - Amazon Redshift 기반 DW 와 비지니스 인텔리전스 구현 방법 (김일호 솔루션즈 아키텍트)

이점 #5: 빠르게 지속적으로 새로운 기능 추가

• 지원 Region – N. Virginia, Oregon, Dublin, Tokyo, Singapore, Sydney, Frankfurt, GovCloud, N.California

• 보안 인증 – PCI, SOC 1/2/3

• 보안 기능 – Load/unload encrypted files, Resource-level IAM, Temporary credentials, HSM/CloudHSM, Audit Logging, KMS

• 관리편의기능 – Snapshot sharing, backup/restore progress indicators, SNS Alerts, faster cluster creation, cross-region backups, faster resize, WLM resource management

• 쿼리 – Regex, Cursors, MD5, SHA1, Time zone, workload queue timeout, approximate count distinct, distributed tables, concurrency increased to 50 from 15

• 데이터 로딩 – S3 Manifest, LZOP/LZO, JSON built-ins, UTF-8 4byte, invalid character substitution, CSV, auto datetime format detection, epoch, load from EMR/HDFS/SSH, BZIP2, AVRO, Kinesis Firehose

• 기능 추가 리스트: http://docs.aws.amazon.com/redshift/latest/dg/doc-history.html

Page 19: AWS CLOUD 2017 - Amazon Redshift 기반 DW 와 비지니스 인텔리전스 구현 방법 (김일호 솔루션즈 아키텍트)

이점 #6: 강력하고 편리한 기능 들

• Approximate 함수지원

• 사용자정의함수(UDF) 지원

• Machine Learning 연계기능

• Data Science 용이

Amazon ML

Page 20: AWS CLOUD 2017 - Amazon Redshift 기반 DW 와 비지니스 인텔리전스 구현 방법 (김일호 솔루션즈 아키텍트)

이점 #7: Amazon Redshift = 다양한 파트너 시스템/솔루션 지원

데이터통합 시스템통합비지니스인텔리젼스

Page 21: AWS CLOUD 2017 - Amazon Redshift 기반 DW 와 비지니스 인텔리전스 구현 방법 (김일호 솔루션즈 아키텍트)

이점 #8: 다양한 AWS 서비스와 통합 지원

DynamoDB

EMR

S3

EC2/SSH

RDS/Aurora

Amazon Redshift

Amazon Kinesis

MachineLearning

Data Pipeline

CloudSearch

Mobile Analytics

Page 22: AWS CLOUD 2017 - Amazon Redshift 기반 DW 와 비지니스 인텔리전스 구현 방법 (김일호 솔루션즈 아키텍트)

Use-case 소개

22

Page 23: AWS CLOUD 2017 - Amazon Redshift 기반 DW 와 비지니스 인텔리전스 구현 방법 (김일호 솔루션즈 아키텍트)

Amazon.com – 웹로그 분석

Amazon.com의 웹로그 분석1PB+ 워크로드, 일간 2TB 축적, 매년 67% 증가

가장 큰 테이블: 400 TB

고객 행동 파악 분석 필요 요건

현재 솔루션기존 DW—시간 당 일주일 치 분석

Hadoop—시간 당 한 달 치 분석

Page 24: AWS CLOUD 2017 - Amazon Redshift 기반 DW 와 비지니스 인텔리전스 구현 방법 (김일호 솔루션즈 아키텍트)

15개월 치 1PB 처리 쿼리에 약 14분 소요 !

500억 Row 데이터 로딩에 약 10분 소요!

210억 Row 데이터와 100억 Row 데이터 Join 쿼리의 경우 기존

Hive에서 3일 2 시간 !

파이프라인 로드에 기존 90 시간 (Oracle) to 8 시간 !

64 개 클러스터

800 노드

13PB 스토리지

2 데이터 베이스 관리자

Amazon

Redshift로

빠르고 쉽게~

Page 25: AWS CLOUD 2017 - Amazon Redshift 기반 DW 와 비지니스 인텔리전스 구현 방법 (김일호 솔루션즈 아키텍트)

기지국에서 수 Petabyte규모데이터 생성

확장이 어렵고 고비용 발생

기존 데이터센터와 같이안전하게 확장 가능한 방법이필요

NTT Docomo – 모바일 사용자 분석

Data

Source

ET

DirectConnect

Client

Forwarder

LoaderState

Management

SandboxRedshift

S3

Page 26: AWS CLOUD 2017 - Amazon Redshift 기반 DW 와 비지니스 인텔리전스 구현 방법 (김일호 솔루션즈 아키텍트)

기존 DW에서 마이그레이션 @ NTT Docomo

68 백만 고객

모바일 네트워크에서 매일 수십

Terabyte 데이터 생성

전체 6PB (비압축)

기존 DW: 데이터 센터 내 Greenplum

마이그레이션 후

125 node DS2.8XL cluster

4,500 vCPUs, 30TB RAM

6 PB uncompressed

10x 빠른 분석 쿼리

운영 업무와 새로운 분석 서비스도입에 50% 이상 시간 빠르게적용

Page 27: AWS CLOUD 2017 - Amazon Redshift 기반 DW 와 비지니스 인텔리전스 구현 방법 (김일호 솔루션즈 아키텍트)

GE, 요건 사항

• 디지털화를 기술 운영의 요건이 증가

• IoT 비지니스에 대한 집중과 비지니스와 머신들에서 생성되는 다양한 데이터 분석을 통해 Insight 확보

• 여러 기술적인 요건을 같이할 최고의 파트너가 필요. GE는 이미 9000개의 워크로드를 AWS로 마이그레이션 하고 있음

Page 28: AWS CLOUD 2017 - Amazon Redshift 기반 DW 와 비지니스 인텔리전스 구현 방법 (김일호 솔루션즈 아키텍트)

GE 데이터 웨어하우징 관련 고민

• 확장성, 서비스 연계성, 안정성, 그리고 빠른 개발환경 지원 등을 고민

• 빠르게 디지털화하면서 비지니스와 머신에서 생성되는 데이터 저장 분석을 위한 확장성이 필요

• Self-serve BI 전략을 위해 BI를 위한 컴퓨트 환경은유지해야 함

• 데이터가 늘고 사용이 늘면서 매우 안정적이고 강력한 플랫폼이 필요

• 쉽게 배우고 접근할 수 있는 분석 솔루션이 필요

Page 29: AWS CLOUD 2017 - Amazon Redshift 기반 DW 와 비지니스 인텔리전스 구현 방법 (김일호 솔루션즈 아키텍트)

솔루션 아키텍쳐• 데이터 소스: SAP

• 데이터 웨어하우스: – Amazon Redshift

• 데이터 병합: – Matillion ETL for

Amazon Redshift (AWS Marketplace)

– HVR

• 데이터 시각화: – Tableau

(AWS Marketplace)SAP

32 x DC1 Nodes

Amazon Redshift Cluster

Staging DWH

Matillion ETL

M3.Large

ELT

Tableau

CDC Data Replication (HVR)

Page 30: AWS CLOUD 2017 - Amazon Redshift 기반 DW 와 비지니스 인텔리전스 구현 방법 (김일호 솔루션즈 아키텍트)

Migration 을 도와드립니다.

30

Page 31: AWS CLOUD 2017 - Amazon Redshift 기반 DW 와 비지니스 인텔리전스 구현 방법 (김일호 솔루션즈 아키텍트)

수분내로바로마이그레이션을시작

이기종 DB 엔진지원: Aurora, Oracle,

SQL Server, MySQL and PostgreSQL

전체이관또는변경분이관지원

약 TB 에 $3 비용

문제발생시자동 DMS 인스턴스교환(AWS DMS)

Page 32: AWS CLOUD 2017 - Amazon Redshift 기반 DW 와 비지니스 인텔리전스 구현 방법 (김일호 솔루션즈 아키텍트)

ENGINE X Amazon Redshift

ETL 스크립트

SQL 코드

Adhoc . 쿼리

일반적인 마이그레이션 방법

스키마 변환 데이터베이스 마이그레이션

데이터 타입 매핑

압축 , 인코딩 , 소트 키 ,분산 키 등 선택

DDL 수행

스키마 & 데이터 변환 데이터 마이크레이션 수행SQL 코드 변경

전체 데이터 이관

변경 분 이관

Assess Gaps

Stored Procedures

Funct ions

1 2

3

4

Page 33: AWS CLOUD 2017 - Amazon Redshift 기반 DW 와 비지니스 인텔리전스 구현 방법 (김일호 솔루션즈 아키텍트)

몇 번의 클릭으로 스키마 변경

소스로 Oracle, Teradata, Greenplum그리고 Netezza 지원

자동 스키마 최적화 기능

어플리케이션 SQL code 변환

분석 후 상세 리포트 제공

AWS Schema Conversion Tool

(AWS SCT)

Page 34: AWS CLOUD 2017 - Amazon Redshift 기반 DW 와 비지니스 인텔리전스 구현 방법 (김일호 솔루션즈 아키텍트)

AWS Schema Conversion Tool

Page 35: AWS CLOUD 2017 - Amazon Redshift 기반 DW 와 비지니스 인텔리전스 구현 방법 (김일호 솔루션즈 아키텍트)

AWS DMS: Change data capture

Replication 인스턴스

소스데이터베이스

타겟데이터베이스

업데이트

t1 t2

t1

t2

트랜젝션 전체 이관후 변경분 복제

Page 36: AWS CLOUD 2017 - Amazon Redshift 기반 DW 와 비지니스 인텔리전스 구현 방법 (김일호 솔루션즈 아키텍트)

Beyond Amazon Redshift(다른 AWS 서비스들 과 연동)

36

Page 37: AWS CLOUD 2017 - Amazon Redshift 기반 DW 와 비지니스 인텔리전스 구현 방법 (김일호 솔루션즈 아키텍트)

Kinesis Stream, Kinesis Firehose

Page 38: AWS CLOUD 2017 - Amazon Redshift 기반 DW 와 비지니스 인텔리전스 구현 방법 (김일호 솔루션즈 아키텍트)

Elastic MapReduce

Page 39: AWS CLOUD 2017 - Amazon Redshift 기반 DW 와 비지니스 인텔리전스 구현 방법 (김일호 솔루션즈 아키텍트)

Amazon Machine Learning

Page 40: AWS CLOUD 2017 - Amazon Redshift 기반 DW 와 비지니스 인텔리전스 구현 방법 (김일호 솔루션즈 아키텍트)

Amazon QuickSight

Page 41: AWS CLOUD 2017 - Amazon Redshift 기반 DW 와 비지니스 인텔리전스 구현 방법 (김일호 솔루션즈 아키텍트)

QuickSight Architecture 예제

Amazon Redshift

BI 사용자Amazon S3 Amazon QuickSightVisualize

Page 42: AWS CLOUD 2017 - Amazon Redshift 기반 DW 와 비지니스 인텔리전스 구현 방법 (김일호 솔루션즈 아키텍트)

AWS Big Data 관련 포트폴리오Collect Store Analyze

Amazon Kinesis Firehose

AWS Direct Connect

Amazon Snowball

Amazon Kinesis Analytics

Amazon KinesisStreams

Amazon S3 Amazon Glacier

Amazon CloudSearch

Amazon RDS, Amazon Aurora

Amazon Dynamo DB

Amazon Elasticsearch Service

Amazon EMR Amazon EC2

Amazon

Redshift

Amazon Machine

Learning

Amazon

QuickSight

AWS Data PipelineAWS Database Migration Service

Page 43: AWS CLOUD 2017 - Amazon Redshift 기반 DW 와 비지니스 인텔리전스 구현 방법 (김일호 솔루션즈 아키텍트)

감사합니다