presentation title goes here with a maximum of three …netezza vertica actian vector actian matrix...

事例でみるAgile型次世代データプラットフォームの構築と運用

株式会社インサイトテクノロジーコンサルティング事業本部森田俊哉[email protected]

© Data Platform Conference Tokyo 2017. All Rights Reserved2

アジェンダ

インサイトテクノロジーのご紹介

急速に増え続けているデータマネージメントソフトウェアの選択肢

データプラットフォームのデータフロー

Attunity Replicate/CDCによる継続的なデータの取込み

データプラットフォーム事例

まとめ

© Data Platform Conference Tokyo 2017. All Rights Reserved

Insight Technology ?

コンサルティングサービスソフトウェアハードウェア

システム設計～運用まで

データベース総合ソリューション

データベースの様々な課題を

解決する各種ソフトウェア

高性能・低コスト・高信頼性

データベース専用マシン

データベースに関連するナレッジと技術力を追求し、ソフトウェア、ハードウェア、サービスを最適に組み合わせてお客様に提供する会社です。

高速・低コスト・セキュアなデータマネージメント環境を実現

データベースのセキュリティ保全ツール（自社開発）

マルチデータソースのリアルタイムレプリケーションツール

次世代型データプラットフォーム向け超高速データベース

データベースのパフォーマンス監視・分析ツール（自社開発）

HadoopNoSQL

急速に増え続けている

データマネージメントソフトウェアの選択肢

RDB


db tech showcase 2012

ORACLE

PostgreSQL

MySQL

SQL Server


db tech showcase 2017

ORACLE

PostgreSQL

MySQL

SQL Server

influxdbSQLite

APACHE

Spark

VERTICAPivotal

Greeplum

dashDB

cloudera

MAPR

prestoTREASURE

DATA

Azure

CosmosDB

cassandra

actian

IBM/DB2

mongoDBredis

hadoop

ENTERPRISE

DBHortonworks

kineticaMAPD

HeteroDB

Amazon

Redshift

Amazon

Aurora

SAP/HANA

MariaDB

MarkLogic

HP NonStop

SQL

Google

BigQuery

Google Cloud

Platform

Azure

SQL DW


データも適材適所に?! [データマネージメントソフトマッピング]

Mission Critical Leader Challenger

BigData

NoSQL

SQL on Hadoop

Niche playerCloud

ORACLE PostgreSQL

MySQLSQL Server

influxdb

VERTICAPivotal

Greeplum

cloudera

MAPRpresto

TREASURE

DATA

cassandra

IBM/DB2

mongoDB

hadoop

ENTERPRISE

DB

Hortonworks

kinetica

MAPD

HeteroDB

Amazon

Redshift

Amazon

Aurora

SAP/

HANA

MariaDB

MarkLogic

HP NonStop

SQL

Google

BigQuery

Azure

SQL DW

HiRDB

symfoware

NETEZZATERADATASybase

IQ

Couchbaseriak

Cloudera

IMPALA

HAWQ

Actian

VECTORH


データ分析基盤を構成する要素

どのデータを集めるか

収集

保存

どのようにデータを分析・活用するか？

データをどこに保存するか

データをどのように前処理し、分析しやすい形式にするか

どのようにデータを可視化し結果を伝えるか

運用はどうするべきか

表示

変換

分析

運用


データプラットフォームのデータフロー

Data Sources EDW/DM

Dashboards

Reports

Analytics

DATA LAKE

変換

分析

表示

保存

収集


データプラットフォームでの課題

Data Sources EDW/DM

Dashboards

Reports

Analytics

DATA LAKE

変換

分析

表示

保存

必要なデータを必要な時に柔軟に取り込み

大量データ蓄積時の拡張性とパフォーマンスの確保

データ取り込み頻度（リアルタイム）

頻繁に変わる様々なデータの取り込み

収集


次世代のデータプラットフォームは

事業の頻繁に変わる要求に対して素早く対応できるAgile型データプラットフォームであるべき

・オンデマンドで柔軟かつ高速な処理能力

・データの増加に対しても遅延無く容量を確保

クラウドを活用

・非構造化データを含むマルチデータソースに対して素早く柔軟にデータ連携を行いたい

・データプラットフォームでのデータ連携は、遅延無く行いたい

・必要に応じてデータを適切なプラットフォームへ高速に連携・削除（分析処理では、24×365必要なデータは少ない）

データ連携ツールを活用


Scripts ETL Tools

データ容量大大

データ連携の頻度断続的

（バッチ処理）断続的

データ連携の遅延 × △

データ加工カスタムコーディング複雑な加工までサポート

データ連携実装までの時間 × ×

データ連携実装の容易さ × △

データ連携の自動化 × ○

開発工数 × △

メンテナンスコスト × △

従来型データプラットフォームでのデータ連携の限界


Scripts ETL Tools

データ容量大大大

データ連携の頻度断続的

（バッチ処理）断続的

リアルタイム(ChangeDataCapture)

データ連携の遅延 × △ ○

データ加工カスタムコーディング複雑な加工までサポートシンプルな加工のみ

データ連携実装までの時間 × × ○

データ連携実装の容易さ × △ ○

データ連携の自動化 × ○ ○

開発工数 × △ ○

メンテナンスコスト × △ ○

Attunityは、データ分析基盤でリアルタイムデータ連携を実現


Hortonworks Hadoop Data LakesとAttunity Replicate/CDCによる継続的なデータの取込み


•企業内とクラウド間のデータデリバリを加速

•企業による迅速なデータの使用を可能に

•合理的な洞察で常に最適化

Attunity & Hortonworks: グローバルな成長

65カ国で2,000以上のユーザー

FinancialServices

ManufacturingIndustrials

GovernmentHealth Care

Technology / Telecommunications Other Industries

企業におけるデータマネジメント

On Premises | Cloud | Across Platforms

Atunity x Hortonworks 導入企業


Attunity Replicateのアーキテクチャ

Transfer

TransformFilter

Batch

CDC Incremental

In-Memory

File Channel

Batch

On PremisesPersistent Store

RDBMS

Hadoop

Data Warehouse

MainframeFiles

RDBMS

Hadoop

KafkaFiles

Data Warehouse

Cloud

Zero Footprint Architecture


エンタープライズクラスのCDC

フレキシブルで最適化されたCDCオプション

•リアルタイムおよび順番に適応されるトランザクション

•最適化されたバッチで適応された変更

•DWHのネイティブローダーで取込みおよび統合

•符号化された変更のストリーミングを伝達(Kafka message broker)

メモリとファイルに最適化されたデータ転送

Message Encoded CDC

Data Warehouse Ingest-Merge

Batch CDC

R1R1R2R1R2

R1R2

Transactional CDC SQL

n 2 1

SQL SQL


クラウドデータ転送に最適化

データセンターやクラウド間の

ハイスピードなデータ転送

•Amazon Web Services, Microsoft Azure and Google Cloudに対応

•独自の「Attunity File Channel」

•圧縮機能を使用してデータを削減、疎レコード(スパースレコード)を削除

•ネットワーク上での最適なデータ転送用にパラレルストリームでデータを分割

ファイルチャネル

ファイルチャネル

Attunity Replicate Server

Attunity Replicate Server

圧縮 – 並列化 – 暗号化

統合 – 解凍


マルチなプラットフォームに対応

RDBMS

Oracle

SQL Server

DB2 LUW

DB2 iSeries

DB2 z/OS

MySQL

PostgreSQL

Sybase ASE

Informix

Data Warehouse

Exadata

Teradata

Netezza

Vertica

Actian Vector

Actian Matrix

(SAP / HANA)

Hortonworks

Cloudera

MapR

Pivotal

Hadoop

IMS/DB

SQL M/P

Enscribe

RMS

VSAM

Legacy

Amazon RDS

Salesforce

Cloud

RDBMS

Oracle

SQL Server

DB2 LUW

MySQL

PostgreSQL

Sybase ASE

Informix

Data Warehouse

Exadata

Teradata

Netezza

Vertica

Pivotal DB

Pivotal HAWQ

Actian Vector

Sybase IQ

SAP / HANA

Hortonworks

Cloudera

MapR

(MapR Streams)

Pivotal

Hadoop

MongoDB

NoSQL

Amazon RDS/Redshift/EC2

(Kinesis)

Google Cloud SQL

Azure SQL Data Warehouse

Cloud

KafkaAzure Event Hub

Message Broker

targets

sources

20

Oracle

SQL

DB2

SAP


Attunity Replicate for HDP

Data Sources

Transactional CDC

Transactions applied in real-time, in order

CDCHigh-Volume, Batch CDC

R1R1R2R1R2

R1R2

SQL

n 2 1

SQL SQL

Query Based CDCSelect from XXX where

CONTEXT > prev-CONTEXT

Many Databases

Data WarehousesMainframe

....

HDP

Govern

an

ce

& I

nte

gra

tion

Secu

rity

Op

era

tion

sData Access

Data Management

YARN

Bulk Load

SQL Server

TERADATA

ORACLE

IBM/DB2


CDC

Kafkaへのデータストリーミング HDF HDP

MSG

n 2 1

MSG MSG

Data Streaming

Transaction logs

インメモリに最適化されたメタデータマネジメントとデータ転送

Bulk Load

MSG

n 2 1

MSG MSG

Data Streaming

Message broker

Message broker


OracleからHadoopへストリーミング

OracleとSQL ServerをKafkaへストリーミング

DB2 / SQL Server / Oracle上の4,500データベースをHadoopへ

DB2のメインフレームデータをより迅速に、より簡単にローディング

SAPデータをHortonworksクラスターへ

導入事例: Hortonworks and Attunity Replicate

Others:

https://www.rossstores.com/

https://www.rossstores.com/

http://ja.worldpay.com/global/about/company-overview

http://ja.worldpay.com/global/about/company-overview

http://www.caterpillar.com/ja.html

http://www.caterpillar.com/ja.html


Case Study : Ford

Results

DB2 MF

SQL Server

Oracle

全世界に、社員数20万人、50工場

•多様なアプリケーション（4500データベース）

•地理的広域に渡る大量のデータ

•分析の遅延 => 機会損失

Challenges

•KafkaでHadoopデータレイク上に一元管理

•Attunityで全ソース/ターゲットを最小時間で統合

•1,000,000ドル(1億円)削減

•グローバルな分析を中央集中化

Hadoop


BULK

CDC

BULK

BULK

CDC

Case Study : Ford

Databases

SQL ServerOracle

zOS/DB2


Case Study : Zurich Insurance

Results

DB2 MF SQL Server

1872年にチューリッヒを拠点に設立され、現在では日本を含む世界170カ国以上に展開

•パフォーマンス改善及び請求処理漏れ低減

•有効証券請求時にリアルタイムな情報を手に入れることがプロセス改善に必要

Challenges

•メタデータを含むトランザクションデータをニアリアルタイムでデータ分析基盤に反映することで現在発生しているイベントに対して遅延なく分析

•ソースデータとして社内外の無償・有償の外部データ及び社内の基幹データベースのデータを分析のために適用Hadoop


BULK

CDC

BULK

BULK

CDC

JSON

XML

TEXT

Case Study : Zurich Insurance

SQL ServerIBM DB2

zOS/DB2


Case Study : verizon

Results

SAP ERP

(Oracle)

PeopleSoft

(Oracle)

全世界に、社員数16万人

•PeopleSoftとSAP ERP上のデータを金融部門がレポーティングするために使用したい

•上記を含むあらゆるデータをHadoop上に遅延無く集約して分析を行いたい。

Challenges

•SAP ERPのOracleにある複雑なデータをデータディクショナリを反映した形式でHadoop DATA LAKEへリアルタイムに連携することが出来た。

•複数のツールでデータ抽出～レポーティングまで丸一日を要していたものが1/10以下の時間で処理出来た。

•データプラットフォームのメンテナンスコストも大幅に削減することが出来た。

Hadoop


BULK

CDC

BULK

BULK

CDC

Case Study : verizon

(for SAP)

(for SAP)Oracle

SAP PeopleSoft


Case Study : XEROX

Results

Actian

VectorActian

VectorH

全世界に、社員数5万人複合機製造販売

•OracleをベースとしたBI環境が非常に遅く＋高価

•大量のIOTデータを蓄積し、高速に分析するためのデータプラットフォームが必要

Challenges

•オンプレミスにカラムナーデータベースVectorを導入

•Azure上のHDInsightにもデータをデプロイしてSQL on HadoopであるVector-Hを導入し、分析に使用

•高速なVector/Vector-Hをデータプラットフォームに採用したことでデータの傾向を把握するために繰り返しクエリを発行することが出来るようになった。

Hadoop

HDInsight


BULK

CDC

Vector(Vector in Hadoop)

VectorH

Case Study : XEROX


Hadoopの力を借りてクラスタ化！- Vector in Hadoop (VectorH)

DataNode DataNode DataNode DataNode DataNode

NameNode

Vector

vector vector vector vector vector


クラウドのあいつと比べようDWH用ベンチマークのTPC-Hで

クラウド定番のDWHである某DBと比較してみよう

VectorH• クラウドで16vCPU, 122GB

Memory, NVMe SSD• DB設定についてはデフォルトのまま

VS

某DB• dc1.8xlargeを使用

32vCPU, 244GB Memory, SSD• 主キーの一部へDISTKEYを設定• カラムの圧縮設定はロード時の自動設定利用

• これまでと同様にTPC-Hで比較（使用する22クエリの実行時間を単純足し上げ）• TPC-Hデータベースのサイズ：1TB（Scale Factor=1000)• マシン構成が異なるため、実行結果はCPUコア数で比較• ストレージの違いによる差を減らすため、2回連続実行して2回目の結果を採用


VectorHの底力

0

100

200

300

400

500

600

700

48 64 80 96 112 128 144 160

秒

クラスタ全体のCPUコア数

TPC−H (SF=1000) クエリ実行時間

VectorH 某DB

• コア数でそろえるとVectorH側のノード数が多くなるため、ノード間通信が増えて処理速度には不利。

• にもかかわらず、処理は某DBの2/3程度の時間で完了。速度にして1.5倍。

(3nodes)

(6nodes)

(3nodes)

(2nodes)

(4nodes)

(5nodes)

(9nodes)

SQL on Hadoopもデータ分析基盤として実用領域に入った！


Oracle10g(10.2)

Virtual Server

Location : VM

Processor : 1 CORE

Memory : 2048MB

DEMO Environment

No TABLE NAME COUNT

1 CUSTOMER 30,000

2 DISTRICT 10

3 HISTORY 31,652

4 ITEM 100,000

5 STOCK 100,000

6 ORDERS 31,642

7 ORDER_LINE 317,137

8 NEW_ORDER 9,072

9 WAREHOUSE 1

100MB 619,514

データベース負荷テストベンチマーキング・ツール

TPC-C

HDP 2.6.2

Virtual Server

Location : VM

Processor : 1 CORE

Memory : 2048MB

Oracle


次世代のデータプラットフォームは

・オンデマンドで柔軟かつ高速な処理能力

・データの増加に対しても遅延無く容量を確保することが出来る

事業の頻繁に変わる要求に対して素早く対応できるAgile型データプラットフォームであるべき

・非構造化データを含むマルチデータソースに対して素早く柔軟にデータ連携が可能であること

・データプラットフォームでのデータ連携は、遅延無く行えること

・必要に応じてデータを適切なプラットフォームへ高速に連携・削除（分析処理では、24×365必要なデータでは、無い）

クラウドを活用

データ連携ツールを活用

データの構造も容量も大きく変化する中で素早く対応するために

Hadoop+(Cloud)は、必須な環境

ソースやターゲットとなるEDW/DMが変わっていく中でデータ連携ツール・ストリーミングテクノロジーは、キー

© Data Platform Conference Tokyo 2017. All Rights Reserved39 Copyright @2017 Insight Technology, Inc. All Right Reserved

記載されている会社名、サービス名、製品名は、株式会社インサイトテクノロジーおよび各社の商標または登録商標です。

Copyright 2017 Insight Technology, Inc. All Rights Reserved.

presentation title goes here with a maximum of three …netezza vertica actian vector actian matrix...

Documents