presentation title goes here with a maximum of three …netezza vertica actian vector actian matrix...
TRANSCRIPT
事例でみるAgile型次世代データプラットフォームの構築と運用
株式会社インサイトテクノロジーコンサルティング事業本部森田 俊哉[email protected]
© Data Platform Conference Tokyo 2017. All Rights Reserved2
アジェンダ
インサイトテクノロジーのご紹介
急速に増え続けているデータマネージメントソフトウェアの選択肢
データプラットフォームのデータフロー
Attunity Replicate/CDCによる継続的なデータの取込み
データプラットフォーム事例
まとめ
© Data Platform Conference Tokyo 2017. All Rights Reserved
Insight Technology ?
コンサルティングサービス ソフトウェア ハードウェア
システム設計~運用まで
データベース総合ソリューション
データベースの様々な課題を
解決する各種ソフトウェア
高性能・低コスト・高信頼性
データベース専用マシン
データベースに関連するナレッジと技術力を追求し、ソフトウェア、ハードウェア、サービスを最適に組み合わせてお客様に提供する会社です。
高速・低コスト・セキュア なデータマネージメント環境を実現
データベースのセキュリティ保全ツール(自社開発)
マルチデータソースのリアルタイムレプリケーションツール
次世代型データプラットフォーム向け 超高速データベース
データベースのパフォーマンス監視・分析ツール(自社開発)
© Data Platform Conference Tokyo 2017. All Rights Reserved4
HadoopNoSQL
急速に増え続けている
データマネージメントソフトウェアの選択肢
RDB
© Data Platform Conference Tokyo 2017. All Rights Reserved
db tech showcase 2012
ORACLE
PostgreSQL
MySQL
SQL Server
© Data Platform Conference Tokyo 2017. All Rights Reserved
db tech showcase 2017
ORACLE
PostgreSQL
MySQL
SQL Server
influxdbSQLite
APACHE
Spark
VERTICAPivotal
Greeplum
dashDB
cloudera
MAPR
prestoTREASURE
DATA
Azure
CosmosDB
cassandra
actian
IBM/DB2
mongoDBredis
hadoop
ENTERPRISE
DBHortonworks
kineticaMAPD
HeteroDB
Amazon
Redshift
Amazon
Aurora
SAP/HANA
MariaDB
MarkLogic
HP NonStop
SQL
BigQuery
Google Cloud
Platform
Azure
SQL DW
© Data Platform Conference Tokyo 2017. All Rights Reserved
データも適材適所に?! [データマネージメントソフトマッピング]
Mission Critical Leader Challenger
BigData
NoSQL
SQL on Hadoop
Niche playerCloud
ORACLE PostgreSQL
MySQLSQL Server
influxdb
VERTICAPivotal
Greeplum
cloudera
MAPRpresto
TREASURE
DATA
cassandra
IBM/DB2
mongoDB
hadoop
ENTERPRISE
DB
Hortonworks
kinetica
MAPD
HeteroDB
Amazon
Redshift
Amazon
Aurora
SAP/
HANA
MariaDB
MarkLogic
HP NonStop
SQL
BigQuery
Azure
SQL DW
HiRDB
symfoware
NETEZZATERADATASybase
IQ
Couchbaseriak
Cloudera
IMPALA
HAWQ
Actian
VECTORH
© Data Platform Conference Tokyo 2017. All Rights Reserved
データ分析基盤を構成する要素
どのデータを集めるか
収集
保存
どのようにデータを分析・活用するか?
データをどこに保存するか
データをどのように前処理し、分析しやすい形式にするか
どのようにデータを可視化し結果を伝えるか
運用はどうするべきか
表示
変換
分析
運用
© Data Platform Conference Tokyo 2017. All Rights Reserved
データプラットフォームのデータフロー
Data Sources EDW/DM
Dashboards
Reports
Analytics
DATA LAKE
変換
分析
表示
保存
収集
© Data Platform Conference Tokyo 2017. All Rights Reserved
データプラットフォームでの課題
Data Sources EDW/DM
Dashboards
Reports
Analytics
DATA LAKE
変換
分析
表示
保存
必要なデータを必要な時に柔軟に取り込み
大量データ蓄積時の拡張性とパフォーマンスの確保
データ取り込み頻度(リアルタイム)
頻繁に変わる様々なデータの取り込み
収集
© Data Platform Conference Tokyo 2017. All Rights Reserved
次世代のデータプラットフォームは
事業の頻繁に変わる要求に対して素早く対応できるAgile型データプラットフォームであるべき
・オンデマンドで柔軟かつ高速な処理能力
・データの増加に対しても遅延無く容量を確保
クラウドを活用
・非構造化データを含むマルチデータソースに対して素早く柔軟にデータ連携を行いたい
・データプラットフォームでのデータ連携は、遅延無く行いたい
・必要に応じてデータを適切なプラットフォームへ高速に連携・削除(分析処理では、24×365必要なデータは少ない)
データ連携ツールを活用
© Data Platform Conference Tokyo 2017. All Rights Reserved
Scripts ETL Tools
データ容量 大 大
データ連携の頻度断続的
(バッチ処理)断続的
データ連携の遅延 × △
データ加工 カスタムコーディング 複雑な加工までサポート
データ連携実装までの時間 × ×
データ連携実装の容易さ × △
データ連携の自動化 × ○
開発工数 × △
メンテナンスコスト × △
従来型データプラットフォームでのデータ連携の限界
© Data Platform Conference Tokyo 2017. All Rights Reserved
Scripts ETL Tools
データ容量 大 大 大
データ連携の頻度断続的
(バッチ処理)断続的
リアルタイム(ChangeDataCapture)
データ連携の遅延 × △ ○
データ加工 カスタムコーディング 複雑な加工までサポート シンプルな加工のみ
データ連携実装までの時間 × × ○
データ連携実装の容易さ × △ ○
データ連携の自動化 × ○ ○
開発工数 × △ ○
メンテナンスコスト × △ ○
Attunityは、データ分析基盤でリアルタイムデータ連携を実現
© Data Platform Conference Tokyo 2017. All Rights Reserved
Hortonworks Hadoop Data LakesとAttunity Replicate/CDCによる継続的なデータの取込み
© Data Platform Conference Tokyo 2017. All Rights Reserved
•企業内とクラウド間のデータデリバリを加速
•企業による迅速なデータの使用を可能に
•合理的な洞察で常に最適化
Attunity & Hortonworks: グローバルな成長
65カ国で2,000以上のユーザー
FinancialServices
ManufacturingIndustrials
GovernmentHealth Care
Technology / Telecommunications Other Industries
企業におけるデータマネジメント
On Premises | Cloud | Across Platforms
Atunity x Hortonworks 導入企業
© Data Platform Conference Tokyo 2017. All Rights Reserved
Attunity Replicateのアーキテクチャ
Transfer
TransformFilter
Batch
CDC Incremental
In-Memory
File Channel
Batch
On PremisesPersistent Store
RDBMS
Hadoop
Data Warehouse
MainframeFiles
RDBMS
Hadoop
KafkaFiles
Data Warehouse
Cloud
Zero Footprint Architecture
© Data Platform Conference Tokyo 2017. All Rights Reserved
エンタープライズクラスのCDC
フレキシブルで最適化されたCDCオプション
•リアルタイムおよび順番に適応されるトランザクション
•最適化されたバッチで適応された変更
•DWHのネイティブローダーで取込みおよび統合
•符号化された変更のストリーミングを伝達(Kafka message broker)
メモリとファイルに最適化されたデータ転送
Message Encoded CDC
Data Warehouse Ingest-Merge
Batch CDC
R1R1R2R1R2
R1R2
Transactional CDC SQL
n 2 1
SQL SQL
© Data Platform Conference Tokyo 2017. All Rights Reserved
クラウドデータ転送に最適化
データセンターやクラウド間の
ハイスピードなデータ転送
•Amazon Web Services, Microsoft Azure and Google Cloudに対応
•独自の「Attunity File Channel」
•圧縮機能を使用してデータを削減、疎レコード(スパースレコード)を削除
•ネットワーク上での最適なデータ転送用にパラレルストリームでデータを分割
ファイルチャネル
ファイルチャネル
Attunity Replicate Server
Attunity Replicate Server
圧縮 – 並列化 – 暗号化
統合 – 解凍
© Data Platform Conference Tokyo 2017. All Rights Reserved
マルチなプラットフォームに対応
RDBMS
Oracle
SQL Server
DB2 LUW
DB2 iSeries
DB2 z/OS
MySQL
PostgreSQL
Sybase ASE
Informix
Data Warehouse
Exadata
Teradata
Netezza
Vertica
Actian Vector
Actian Matrix
(SAP / HANA)
Hortonworks
Cloudera
MapR
Pivotal
Hadoop
IMS/DB
SQL M/P
Enscribe
RMS
VSAM
Legacy
Amazon RDS
Salesforce
Cloud
RDBMS
Oracle
SQL Server
DB2 LUW
MySQL
PostgreSQL
Sybase ASE
Informix
Data Warehouse
Exadata
Teradata
Netezza
Vertica
Pivotal DB
Pivotal HAWQ
Actian Vector
Sybase IQ
SAP / HANA
Hortonworks
Cloudera
MapR
(MapR Streams)
Pivotal
Hadoop
MongoDB
NoSQL
Amazon RDS/Redshift/EC2
(Kinesis)
Google Cloud SQL
Azure SQL Data Warehouse
Cloud
KafkaAzure Event Hub
Message Broker
targets
sources
20
Oracle
SQL
DB2
SAP
© Data Platform Conference Tokyo 2017. All Rights Reserved
Attunity Replicate for HDP
Data Sources
Transactional CDC
Transactions applied in real-time, in order
CDCHigh-Volume, Batch CDC
R1R1R2R1R2
R1R2
SQL
n 2 1
SQL SQL
Query Based CDCSelect from XXX where
CONTEXT > prev-CONTEXT
Many Databases
Data WarehousesMainframe
....
HDP
Govern
an
ce
& I
nte
gra
tion
Secu
rity
Op
era
tion
sData Access
Data Management
YARN
Bulk Load
SQL Server
TERADATA
ORACLE
IBM/DB2
© Data Platform Conference Tokyo 2017. All Rights Reserved
CDC
Kafkaへのデータストリーミング HDF HDP
MSG
n 2 1
MSG MSG
Data Streaming
Transaction logs
インメモリに最適化されたメタデータマネジメントとデータ転送
Bulk Load
MSG
n 2 1
MSG MSG
Data Streaming
Message broker
Message broker
急速に増え続けている
データマネージメントソフトウェアの選択肢
© Data Platform Conference Tokyo 2017. All Rights Reserved
OracleからHadoopへストリーミング
OracleとSQL ServerをKafkaへストリーミング
DB2 / SQL Server / Oracle上の4,500データベースをHadoopへ
DB2のメインフレームデータをより迅速に、より簡単にローディング
SAPデータをHortonworksクラスターへ
導入事例: Hortonworks and Attunity Replicate
Others:
© Data Platform Conference Tokyo 2017. All Rights Reserved
Case Study : Ford
Results
DB2 MF
SQL Server
Oracle
全世界に、社員数20万人、50工場
•多様なアプリケーション(4500データベース)
•地理的広域に渡る大量のデータ
•分析の遅延 => 機会損失
Challenges
•KafkaでHadoopデータレイク上に一元管理
•Attunityで全ソース/ターゲットを最小時間で統合
•1,000,000ドル(1億円)削減
•グローバルな分析を中央集中化
Hadoop
© Data Platform Conference Tokyo 2017. All Rights Reserved
BULK
CDC
BULK
BULK
CDC
Case Study : Ford
Databases
SQL ServerOracle
zOS/DB2
© Data Platform Conference Tokyo 2017. All Rights Reserved
Case Study : Zurich Insurance
Results
DB2 MF SQL Server
1872年にチューリッヒを拠点に設立され、現在では日本を含む世界170カ国以上に展開
•パフォーマンス改善及び請求処理漏れ低減
•有効証券請求時にリアルタイムな情報を手に入れることがプロセス改善に必要
Challenges
•メタデータを含むトランザクションデータをニアリアルタイムでデータ分析基盤に反映することで現在発生しているイベントに対して遅延なく分析
•ソースデータとして社内外の無償・有償の外部データ及び社内の基幹データベースのデータを分析のために適用Hadoop
© Data Platform Conference Tokyo 2017. All Rights Reserved
BULK
CDC
BULK
BULK
CDC
JSON
XML
TEXT
Case Study : Zurich Insurance
SQL ServerIBM DB2
zOS/DB2
© Data Platform Conference Tokyo 2017. All Rights Reserved
Case Study : verizon
Results
SAP ERP
(Oracle)
PeopleSoft
(Oracle)
全世界に、社員数16万人
•PeopleSoftとSAP ERP上のデータを金融部門がレポーティングするために使用したい
•上記を含むあらゆるデータをHadoop上に遅延無く集約して分析を行いたい。
Challenges
•SAP ERPのOracleにある複雑なデータをデータディクショナリを反映した形式でHadoop DATA LAKEへリアルタイムに連携することが出来た。
•複数のツールでデータ抽出~レポーティングまで丸一日を要していたものが1/10以下の時間で処理出来た。
•データプラットフォームのメンテナンスコストも大幅に削減することが出来た。
Hadoop
© Data Platform Conference Tokyo 2017. All Rights Reserved
BULK
CDC
BULK
BULK
CDC
Case Study : verizon
(for SAP)
(for SAP)Oracle
SAP PeopleSoft
© Data Platform Conference Tokyo 2017. All Rights Reserved
Case Study : XEROX
Results
Actian
VectorActian
VectorH
全世界に、社員数5万人 複合機製造販売
•OracleをベースとしたBI環境が非常に遅く+高価
•大量のIOTデータを蓄積し、高速に分析するためのデータプラットフォームが必要
Challenges
•オンプレミスにカラムナーデータベースVectorを導入
•Azure上のHDInsightにもデータをデプロイしてSQL on HadoopであるVector-Hを導入し、分析に使用
•高速なVector/Vector-Hをデータプラットフォームに採用したことでデータの傾向を把握するために繰り返しクエリを発行することが出来るようになった。
Hadoop
HDInsight
© Data Platform Conference Tokyo 2017. All Rights Reserved
BULK
CDC
Vector(Vector in Hadoop)
VectorH
Case Study : XEROX
© Data Platform Conference Tokyo 2017. All Rights Reserved
Hadoopの力を借りてクラスタ化!- Vector in Hadoop (VectorH)
DataNode DataNode DataNode DataNode DataNode
NameNode
Vector
vector vector vector vector vector
© Data Platform Conference Tokyo 2017. All Rights Reserved
クラウドのあいつと比べようDWH用ベンチマークのTPC-Hで
クラウド定番のDWHである某DBと比較してみよう
VectorH• クラウドで16vCPU, 122GB
Memory, NVMe SSD• DB設定についてはデフォルトのまま
VS
某DB• dc1.8xlargeを使用
32vCPU, 244GB Memory, SSD• 主キーの一部へDISTKEYを設定• カラムの圧縮設定はロード時の自動設定利用
• これまでと同様にTPC-Hで比較(使用する22クエリの実行時間を単純足し上げ)• TPC-Hデータベースのサイズ:1TB(Scale Factor=1000)• マシン構成が異なるため、実行結果はCPUコア数で比較• ストレージの違いによる差を減らすため、2回連続実行して2回目の結果を採用
© Data Platform Conference Tokyo 2017. All Rights Reserved
VectorHの底力
0
100
200
300
400
500
600
700
48 64 80 96 112 128 144 160
秒
クラスタ全体のCPUコア数
TPC−H (SF=1000) クエリ実行時間
VectorH 某DB
• コア数でそろえるとVectorH側のノード数が多くなるため、ノード間通信が増えて処理速度には不利。
• にもかかわらず、処理は某DBの2/3程度の時間で完了。速度にして1.5倍。
(3nodes)
(6nodes)
(3nodes)
(2nodes)
(4nodes)
(5nodes)
(9nodes)
SQL on Hadoopもデータ分析基盤として実用領域に入った!
急速に増え続けている
データマネージメントソフトウェアの選択肢
© Data Platform Conference Tokyo 2017. All Rights Reserved
Oracle10g(10.2)
Virtual Server
Location : VM
Processor : 1 CORE
Memory : 2048MB
DEMO Environment
No TABLE NAME COUNT
1 CUSTOMER 30,000
2 DISTRICT 10
3 HISTORY 31,652
4 ITEM 100,000
5 STOCK 100,000
6 ORDERS 31,642
7 ORDER_LINE 317,137
8 NEW_ORDER 9,072
9 WAREHOUSE 1
100MB 619,514
データベース負荷テストベンチ マーキング ・ ツール
TPC-C
HDP 2.6.2
Virtual Server
Location : VM
Processor : 1 CORE
Memory : 2048MB
Oracle
© Data Platform Conference Tokyo 2017. All Rights Reserved
次世代のデータプラットフォームは
・オンデマンドで柔軟かつ高速な処理能力
・データの増加に対しても遅延無く容量を確保することが出来る
事業の頻繁に変わる要求に対して素早く対応できるAgile型データプラットフォームであるべき
・非構造化データを含むマルチデータソースに対して素早く柔軟にデータ連携が可能であること
・データプラットフォームでのデータ連携は、遅延無く行えること
・必要に応じてデータを適切なプラットフォームへ高速に連携・削除(分析処理では、24×365必要なデータでは、無い)
クラウドを活用
データ連携ツールを活用
データの構造も容量も大きく変化する中で素早く対応するために
Hadoop+(Cloud)は、必須な環境
ソースやターゲットとなるEDW/DMが変わっていく中でデータ連携ツール・ストリーミングテクノロジーは、キー
© Data Platform Conference Tokyo 2017. All Rights Reserved39 Copyright @2017 Insight Technology, Inc. All Right Reserved
記載されている会社名、サービス名、製品名は、株式会社インサイトテクノロジーおよび各社の商標または登録商標です。
Copyright 2017 Insight Technology, Inc. All Rights Reserved.