ai/iotの導入に適したビッグデータ分析 ...dataplatform.jp/program/files/b-1.pdf ·...
TRANSCRIPT
1 © NEC Corporation 2017
AI/IoTの導入に適したビッグデータ分析プラットフォーム(Data Platform for Hadoop)とサービス
2017/10/10
NEC 辻 篤史、山川 聡
3 © NEC Corporation 2017
講演者紹介
▌辻 篤史 <[email protected]>
製品企画・ビッグデータプラットフォーム開発チーム
専門:オペレーティングシステム、インフラ運用
▌山川 聡 <[email protected]>
製品アーキテクト・ビッグデータプラットフォーム開発チームリーダー
専門:分散コンピューティング、ストレージシステム
6 © NEC Corporation 2017
デジタルデータの拡大
4.4ZB
2013
44ZB2020
Global Data volume
CAGR40%
IDC:2013 4.4ZB、2020 44ZB , ZB:Zeta byte(Zeta 10 to 21st power)
8 © NEC Corporation 2017
Hadoopの特長
柔軟なデータフロー設計が可能
• 多様なデータの取り込み、データフローに応じた加工処理に柔軟に対応可能
高いスケーラビリティ
• ノード追加によりリニアにスケールアウト可能
多様な製品・技術と親和性を持つエコシステム
• 様々な製品やデータ分析、データ処理、セキュリティ、ガバナンスなどに対応した新技術との親和性を確保
様々なデータに対応した統合プラットフォーム
• 構造化データ、セミ構造化データ、非構造化データを一つのプラットフォームで蓄積、処理可能
多様なデータ処理が可能な標準プラットフォーム
• ビッグデータの一括処理と分析のための繰り返し処理、バッチ処理とリアルタイム処理など多様な処理が可能
Hadoopエコシステム・多様なコンポーネント・多様なデータ処理
9 © NEC Corporation 2017
ビッグデータ活用の難しさ
ビッグデータ分析の要件(例)
• 非構造データに対応したデータ蓄積
• IoTと連携したリアルタイムのデータ取り込み
• AIを活用した高度分析
Hadoopシステムの設計要素
• HWアーキテクチャ選択/HWサイジング
• Hadoopコンポーネント/パラメータの組み合わせ
• 外部システムとの連携
X
複雑な設計複雑な要件
複雑なシステムとなるため、要件の達成ステップを決める必要あり
10 © NEC Corporation 2017
データドリブン企業への段階的変革
3 YearStart
Timeline
• 組織間Data Lake
• Deep Learning
デジタルトランスフォーメーション
• リアルタイム分析リスク管理
• 予測分析
• 不正検知
顧客管理
• 既存処理のオフロード
• BI / 可視化
• カスタマー 360度分析
• クロスセル/アップセル
Enterprise Data
Warehouse (EDW)
Optimazion
Predictive
Analytics
Real-Time Streaming
Analytics
Data-Driven
TransformationData Volume
32 TB
1 PB
見える化/コスト削減
データドリブン意思決定
Bigdata Journey
11 © NEC Corporation 2017
Bigdata Journey 実現に必要な要素:ビッグデータ基盤観点
データの見える化
顧客満足度向上(コンタクトセンター)
360度分析
クロスセル/アップセル
データレイク
分析プラットフォーム
ストレージ
分析処理基盤
分析プラットフォーム
ストレージ
分析処理基盤
拡張
分析プラットフォーム
ストレージ
分析処理基盤
拡張
分析プラットフォーム
ストレージ
分析処理基盤
拡張
顧客サーベイ
顧客行動データ
キャンペーン結果データ
顧客属性データ
顧客対応データ
顧客購入データ
製品データ
販売データ
顧客ID
12 © NEC Corporation 2017
Bigdata Journey 実現に必要な要素:運用観点
データの見える化
顧客満足度向上(コンタクトセンター)
360度分析
クロスセル/アップセル
運用オペレーション
分析プラットフォーム
ストレージ
分析処理基盤
分析プラットフォーム
ストレージ
分析処理基盤
分析プラットフォーム
ストレージ
分析処理基盤
分析プラットフォーム
ストレージ
分析処理基盤
拡張 拡張 拡張
システム導入:・設計・構築
システム拡張#1:・設計・構築・運用(拡張)
システム拡張#2:・設計・構築・運用(拡張)
システム拡張#3:・設計・構築・運用(拡張)・運用(SW更新)
13 © NEC Corporation 2017
ビッグデータ分析導入・運用のハードル
GovernanceIntegration
Tools Security
Data Access
Data Management
HDFS: Hadoop Distributed File System
YARN: Data Operating System
Falcon
Atlas
Sqoop
Flume
Kafka
NFS(HDFS)
WebHDFS(HDFS)
Data Lifecycle &Governance
Data Workflow
Operations
MahoutAmbari User
Views
Ranger
Knox
Atlas
HDFSEncryption
Ambari
ZooKeeper
Cloudbreak
Oozie
AdministrationAuthenticationAuthorizationAuditing Data
Protection
Provisioning,Managing, &Monitoring
Scheduling
MapReduce
Batch
Pig
Script
Hive
SQL
HbaseAccumuloPhoenix
NoSQL
Storm
Stream
Solr
Search
Spark
In-Mem
Zeppelin
導入(設計・構築) 運用
多様なコンポーネント
Hadoopを扱える専門技術者が不足
継続的な運用で必要になる拡張・アップグレードが困難
最適なコンポーネント構成がわからない
ビッグデータ分析を活用したビジネスケースの経験が不足
15 © NEC Corporation 2017
Hadoopを利用するための3つのポイント
Hadoopを扱える専門技術者が不足
継続的な運用で必要になる拡張・アップグレードが困難
最適なコンポーネント構成がわからない
ビッグデータ分析を活用したビジネスケースの経験が不足
標準オペレーション
ソリューションモデル
標準プラットフォーム
16 © NEC Corporation 2017
NECの提案
“Data Platform for Hadoop” としてアプライアンス/サービスを提供
標準オペレーション
ソリューションモデル
標準プラットフォームデータ活用の段階に合わせたHWアーキテクチャ選択
顧客の用途に最適なHadoopシステム構成
標準オペレーションを実現する3つの要素
17 © NEC Corporation 2017
事前検証済みビッグデータ分析基盤 Data Platform for Hadoop
すぐに分析を開始できるビッグデータ分析基盤と関連サービス
構造化データ
業務システムERP/CRMSCM…
非構造化データ
SNS センサー
Log
システムログ
準構造化データ
XML JSON
時系列XML JSON
設計・最適化済みのHDP基盤の提供
取り込み 加工 蓄積統合
関連付け分析 可視化
分析ツールとの連携
データフロー連携
Red Hat
SASTableau
etc.
18 © NEC Corporation 2017
データ活用の段階に合わせたHWアーキテクチャ選択
スモールスタート可能なデータレイクソリューションを導入
蓄積データの容量/種別の増加に合わせ、Express5800を追加しシステム拡張
AIを活用した高度分析のため、DX2000を追加し高いコンピューティング性能を確保
コンピュート/ストレージ拡張
コンピュート強化
Express5800 Express5800 Express5800 DX2000
既存データの見える化
多様なデータに基づく予測分析
AIを活用したデータドリブン
意思決定
19 © NEC Corporation 2017
顧客の用途に最適なHadoopシステム構成
Data Platform for Hadoop
既存データ
RDBMS
Mainframe
EDW(*)
Application
IoT連携
Data SystemData Sources
RDBMS EDW MPP
SNS
Sensors
SystemLog
Geospatialdata
BI/BAEDW 連携ツール
HDF
ソリューションモデルを設計/検証
データフロー制御
*Enterprise Data Warehouse
既存データの見える化
20 © NEC Corporation 2017
標準オペレーションを実現する3つの要素
標準オペレーション従来オペレーション
発生する問題
事前検証事前トレーニング
ツールドキュメント実行者スキル
設計 構築 テスト 受入
作業期間を短縮
実行者スキル
ドキュメント
ツール
設計 構築 受入
事前検証済み範囲
21 © NEC Corporation 2017
運用ライフサイクル全体をカバーするサービス
データの見える化
顧客満足度向上(コンタクトセンター)
360度分析
クロスセル/アップセル
分析プラットフォーム
ストレージ
分析処理基盤
分析プラットフォーム
ストレージ
分析処理基盤
分析プラットフォーム
ストレージ
分析処理基盤
分析プラットフォーム
ストレージ
分析処理基盤
拡張 拡張 拡張
システム導入:・設計サービス・構築サービス
システム拡張#1:・設計サービス・構築サービス・拡張サービス
システム拡張#2:・設計サービス・構築サービス・拡張サービス
システム拡張#3:・設計サービス・構築サービス・拡張サービス・SW更新サービス
システム運用ライフサイクル全体をカバーするサービス
23 © NEC Corporation 2017
活動事例紹介
Data Platform for Hadoopの開発における活動事例
▌標準プラットフォーム開発
▌ソリューションモデル開発
▌標準オペレーション開発
24 © NEC Corporation 2017
標準プラットフォーム開発の考え方
▌構築・運用プロセスにおける課題の露払い
▌安定性と性能の両立
▌最新のHadoopディストリビューションへの早期対応
標準PF
25 © NEC Corporation 2017
標準プラットフォームのライフサイクル管理
ライフサイクルを考慮したサポート体制の構築
Life cycle 1 Life cycle 2
continuous support and keep improving
keep improving
Hadoop結合ツール
Hadoop
OS
HW
複数のライフサイクルバージョン管理、ライフサイクル管理アップグレード検証
標準PF
26 © NEC Corporation 2017
プラットフォーム最適化への取り組み
H/W, OS, Hadoopの各層、統合スタックとしての最適化設計・検証の実施
サーバ
OS
HDFS,YARN, MR2, Spark, etc.
Hive, Pig, etc.
安定稼動・性能改善を目的としたチューニング
性能・機能観点での検証の実施
設計 検証
ベンチマークツール機能テストツール
カーネルチューニング
ハードウェアサイジング
パラメータチューニング
コンポーネントデザイン
標準PF
27 © NEC Corporation 2017
Hortonworks認定済みのプラットフォーム
プラットフォーム上で動作する機能と性能を事前に検証済み
Data Platform for Hadoop
標準PF
28 © NEC Corporation 2017
性能検証:TPC-DSを使ったクエリ処理性能比較
▌TCP-DS
大規模データを対象とした意思決定支援システムを実現するデータベースにおけるクエリ処理性能の計測
▌使用ツール
https://github.com/hortonworks/hive-testbench
▌実施概要
標準プラットフォーム構成(DX2000+RHEL+HDP2.6)における性能を検証
TPC-DSで規定された99種類のクエリのうち、ツールで対応している66種類のクエリを実行
事例
29 © NEC Corporation 2017
Hive-tezエンジンでのクエリ応答性能 ORC vs Parquet
列指向データ構造の形式の違いによるクエリ応答性能を比較検証
0
0.5
1
1.5
2
ORC ParquetORC Parquet
1.6
1.0
5TBのデータに対するクエリ応答時間の平均時間差
応答性能が高い
(ORCのケースを1とした場合のクエリ応答時間の比率の平均値)
事例
30 © NEC Corporation 2017
Hive-tezエンジンでのクエリ応答性能比較 チューニング(1)
Hive-tezのパラメータチューニング(ORC - 5TBデータセット)応答時間に影響を与えるパラメータ(A~E)を選定し、効果を検証
0
5
10
15
20
25
Config A Config B Config C Config D Config E
最短応答時間をたたき出したクエリ数
Config Aが優勢
0
10000
20000
30000
Config A Config B Config C Config D Config E
全クエリの実行にかかった時間(秒)
Config Dが優勢
事例
31 © NEC Corporation 2017
Hive-tezエンジンでのクエリ処理性能比較 チューニング(2)
0.9
0.95
1
1.05
1.1
1.15
1.2
Config A Config B Config C Config D Config E
応答性能が高い
5TBのデータセット対するクエリ応答時間の平均時間差(ORCのケースを1とした場合のクエリ処理時間の比率の平均値)
Config Aが最もパフォーマンスを出しやすい設定
1.0
1.07
1.16
1.06
1.01
事例
32 © NEC Corporation 2017
ソリューションモデル開発の考え方
提供価値の実現手段となる機能群の連携手法・運用方法をモデルとして確立
▌Bigdata Journeyを実現するソリューションモデル
▌機能要件・非機能要件を規定し設計と検証を実施
▌パートナーソリューション連携
ソリューション
33 © NEC Corporation 2017
Bigdata Journey
3 YearStart
Timeline
• 組織間Data Lake
• Deep Learning
デジタルトランスフォーメーション
• リアルタイム分析リスク管理
• 予測分析
• 不正検知
顧客管理
• 既存処理のオフロード
• BI / 可視化
• カスタマー 360度分析
• クロスセル/アップセル
Enterprise Data
Warehouse (EDW)
Optimazion
Predictive
Analytics
Real-Time Streaming
Analytics
Data-Driven
TransformationData Volume
32 TB
1 PB
見える化/コスト削減
データドリブン意思決定
ソリューション
34 © NEC Corporation 2017
各ステップで実現すべき要件と手段
EDW Optimization
(既存のEnterprise Data
Warehouseの強化)
テクノロジ• 既存のETL処理のHaoop基
盤へのオフロード
ビジネス• HadoopによるData Lakeの
構築• コスト削減
Predictive / Optimization(Advanced Analyticsによるシ
ステムの強化)
テクノロジ
• 構造化データ、SNS等の
非構造かデータのシング
ルプラットフォームへの
取り込みと分析
ビジネス
• 高い洞察に富んだ事業予
測を行うためのData
Lakeの強化
Real-Time Streaming
Analytics Model (Stream Analyticsによるシステ
ムの強化)
テクノロジ
• センサーデータの取り込
みによるリアルタイムイ
ベントの分析
ビジネス
• リアルタイムに適切な意
思決定を行うことによる
事業機会損失の回避
Data-Driven
Transformation Model ( “Hub & Spoke” Analyticsによる新たなビジネス機会
の発見)
• 構造データ、非構造
データを対象とした
バッチ、リアルタイム
処理機能の組織横断で
のシングルプラット
フォーム化
• 新たな事業機会の発見
と競争力の強化
ソリューション
35 © NEC Corporation 2017
EDW Optimizationからのスタート
34
21
EDW Optimization
(既存のEnterprise Data
Warehouseの強化)
Predictive / Optimization(Advanced Analyticsによるシ
ステムの強化)
Real-Time Streaming
Analytics Model (Stream Analyticsによるシステ
ムの強化)
Data-Driven
Transformation Model ( “Hub & Spoke” Analyticsによる新たなビジネス機会
の発見)
事例
39 © NEC Corporation 2017
DPHの導入 Step3 蓄積データを価値化する分析・学習機構の導入
Export
事例
Analytic&
Learning Logic
Analytic
Tool
40 © NEC Corporation 2017
パートナーソリューション連携: VUPICO社、SAP HANA/Vora
ヒストリカルデータとリアルタイムデータをシームレスに関連付けて高速分析できる End-to-End ソリューションを実現
ソリューション
41 © NEC Corporation 2017
パートナーソリューション連携: Syncsort社 DMX-h
Hadoopと連携する高速ETLエンジンを活用し、従来の構造化データとIoTなど新しいソースの非構造化データをコスト効率よく蓄積・分析
EDW
RDBMS EDW MPP
SyncsortDMX-h
SNS
センサーデータ
システムログ
位置データ
ETLデータソース ホットデータ の高速処理可視化分析
業務データ
メインフレーム
Data Platform for Hadoop
MS Excel
Tableau
SAS
など
長期データ蓄積
ソリューション
42 © NEC Corporation 2017
パートナーソリューション連携: IBMデータ分析ソリューション
IBM・Hortonworks とのパートナーシップに基づき、IBM社のHadoop向けデータ分析ミドルウェアを評価
ソリューション
43 © NEC Corporation 2017
標準オペレーション開発の考え方
プラットフォームと同様に運用におけるプロセスを標準化
▌サービスに利用するドキュメント/プロセス/ツールを標準開発
▌短期間で安定した成果を挙げるサービスとして提供
標準オペレーション
44 © NEC Corporation 2017
DPHサービス:構築サービス
標準化された構築サービスで導入期間を短縮
データ活用設計
HW・SWの選定
構築サービスを利用した場合
チューニング
サイジング
アプリケーションの開発と運用
データ活用設計
拡張性の設計
データ活用設計
アプリケーションの開発と運用
プラットフォームのの導入
プラットフォーム品質の安定
導入期間の短縮
個別SIの場合
プラットフォームのテスト
プラットフォームの設計と導入
標準オペレーション
46 © NEC Corporation 2017
Center of Excellence for Analytics Platforms and Solutions
インドにビッグデータ分析ソリューションの専門組織を設立
▌DPH関連ビジネスの客先提案
▌データ分析、運用サポート、技術支援
▌グローバル市場に対して一元的なサービスを提供
プレスリリース(2017年6月)
CoE : Center of Excellence~先端技術の知見や人材を集約した拠点~
47 © NEC Corporation 2017
NEC Global Serviceの展開
プラットフォームの導入~運用において発生するイベントに対する支援をEnd to Endで提供
Business Consulting
Data Engineering and
Analytics Modeling
Market Research
GTM Strategies
Business
Development
Product Design
and
Development
Customization
Business
Consulting
Data Engineering
and Analytics
Modeling
Solution Design
System Integration Solution
Identification and
Design
POC and Demos