ai/iotの導入に適したビッグデータ分析 ...dataplatform.jp/program/files/b-1.pdf ·...

48
1 © NEC Corporation 2017 AI/IoTの導入に適したビッグデータ分析プラットフォーム (Data Platform for Hadoop)とサービス 2017/10/10 NEC 辻 篤史、山川 聡

Upload: buituong

Post on 28-Apr-2018

236 views

Category:

Documents


6 download

TRANSCRIPT

1 © NEC Corporation 2017

AI/IoTの導入に適したビッグデータ分析プラットフォーム(Data Platform for Hadoop)とサービス

2017/10/10

NEC 辻 篤史、山川 聡

3 © NEC Corporation 2017

講演者紹介

▌辻 篤史 <[email protected]>

製品企画・ビッグデータプラットフォーム開発チーム

専門:オペレーティングシステム、インフラ運用

▌山川 聡 <[email protected]>

製品アーキテクト・ビッグデータプラットフォーム開発チームリーダー

専門:分散コンピューティング、ストレージシステム

目次

1. ビッグデータ分析の課題

2. AI/IoTに適した分析プラットフォーム

3. 活動事例紹介

4. NECが重視していること

1.ビッグデータ分析の課題

6 © NEC Corporation 2017

デジタルデータの拡大

4.4ZB

2013

44ZB2020

Global Data volume

CAGR40%

IDC:2013 4.4ZB、2020 44ZB , ZB:Zeta byte(Zeta 10 to 21st power)

7 © NEC Corporation 2017

Hadoopを利用したビッグデータ分析

社会価値実世界 サイバー世界

分析 対処連携人 モノ

環境

AI

Hadoop活用IoT連携

AI活用

8 © NEC Corporation 2017

Hadoopの特長

柔軟なデータフロー設計が可能

• 多様なデータの取り込み、データフローに応じた加工処理に柔軟に対応可能

高いスケーラビリティ

• ノード追加によりリニアにスケールアウト可能

多様な製品・技術と親和性を持つエコシステム

• 様々な製品やデータ分析、データ処理、セキュリティ、ガバナンスなどに対応した新技術との親和性を確保

様々なデータに対応した統合プラットフォーム

• 構造化データ、セミ構造化データ、非構造化データを一つのプラットフォームで蓄積、処理可能

多様なデータ処理が可能な標準プラットフォーム

• ビッグデータの一括処理と分析のための繰り返し処理、バッチ処理とリアルタイム処理など多様な処理が可能

Hadoopエコシステム・多様なコンポーネント・多様なデータ処理

9 © NEC Corporation 2017

ビッグデータ活用の難しさ

ビッグデータ分析の要件(例)

• 非構造データに対応したデータ蓄積

• IoTと連携したリアルタイムのデータ取り込み

• AIを活用した高度分析

Hadoopシステムの設計要素

• HWアーキテクチャ選択/HWサイジング

• Hadoopコンポーネント/パラメータの組み合わせ

• 外部システムとの連携

複雑な設計複雑な要件

複雑なシステムとなるため、要件の達成ステップを決める必要あり

10 © NEC Corporation 2017

データドリブン企業への段階的変革

3 YearStart

Timeline

• 組織間Data Lake

• Deep Learning

デジタルトランスフォーメーション

• リアルタイム分析リスク管理

• 予測分析

• 不正検知

顧客管理

• 既存処理のオフロード

• BI / 可視化

• カスタマー 360度分析

• クロスセル/アップセル

Enterprise Data

Warehouse (EDW)

Optimazion

Predictive

Analytics

Real-Time Streaming

Analytics

Data-Driven

TransformationData Volume

32 TB

1 PB

見える化/コスト削減

データドリブン意思決定

Bigdata Journey

11 © NEC Corporation 2017

Bigdata Journey 実現に必要な要素:ビッグデータ基盤観点

データの見える化

顧客満足度向上(コンタクトセンター)

360度分析

クロスセル/アップセル

データレイク

分析プラットフォーム

ストレージ

分析処理基盤

分析プラットフォーム

ストレージ

分析処理基盤

拡張

分析プラットフォーム

ストレージ

分析処理基盤

拡張

分析プラットフォーム

ストレージ

分析処理基盤

拡張

顧客サーベイ

顧客行動データ

キャンペーン結果データ

顧客属性データ

顧客対応データ

顧客購入データ

製品データ

販売データ

顧客ID

12 © NEC Corporation 2017

Bigdata Journey 実現に必要な要素:運用観点

データの見える化

顧客満足度向上(コンタクトセンター)

360度分析

クロスセル/アップセル

運用オペレーション

分析プラットフォーム

ストレージ

分析処理基盤

分析プラットフォーム

ストレージ

分析処理基盤

分析プラットフォーム

ストレージ

分析処理基盤

分析プラットフォーム

ストレージ

分析処理基盤

拡張 拡張 拡張

システム導入:・設計・構築

システム拡張#1:・設計・構築・運用(拡張)

システム拡張#2:・設計・構築・運用(拡張)

システム拡張#3:・設計・構築・運用(拡張)・運用(SW更新)

13 © NEC Corporation 2017

ビッグデータ分析導入・運用のハードル

GovernanceIntegration

Tools Security

Data Access

Data Management

HDFS: Hadoop Distributed File System

YARN: Data Operating System

Falcon

Atlas

Sqoop

Flume

Kafka

NFS(HDFS)

WebHDFS(HDFS)

Data Lifecycle &Governance

Data Workflow

Operations

MahoutAmbari User

Views

Ranger

Knox

Atlas

HDFSEncryption

Ambari

ZooKeeper

Cloudbreak

Oozie

AdministrationAuthenticationAuthorizationAuditing Data

Protection

Provisioning,Managing, &Monitoring

Scheduling

MapReduce

Batch

Pig

Script

Hive

SQL

HbaseAccumuloPhoenix

NoSQL

Storm

Stream

Solr

Search

Spark

In-Mem

Zeppelin

導入(設計・構築) 運用

多様なコンポーネント

Hadoopを扱える専門技術者が不足

継続的な運用で必要になる拡張・アップグレードが困難

最適なコンポーネント構成がわからない

ビッグデータ分析を活用したビジネスケースの経験が不足

2. IoT/AIに適した分析プラットフォーム

15 © NEC Corporation 2017

Hadoopを利用するための3つのポイント

Hadoopを扱える専門技術者が不足

継続的な運用で必要になる拡張・アップグレードが困難

最適なコンポーネント構成がわからない

ビッグデータ分析を活用したビジネスケースの経験が不足

標準オペレーション

ソリューションモデル

標準プラットフォーム

16 © NEC Corporation 2017

NECの提案

“Data Platform for Hadoop” としてアプライアンス/サービスを提供

標準オペレーション

ソリューションモデル

標準プラットフォームデータ活用の段階に合わせたHWアーキテクチャ選択

顧客の用途に最適なHadoopシステム構成

標準オペレーションを実現する3つの要素

17 © NEC Corporation 2017

事前検証済みビッグデータ分析基盤 Data Platform for Hadoop

すぐに分析を開始できるビッグデータ分析基盤と関連サービス

構造化データ

業務システムERP/CRMSCM…

非構造化データ

SNS センサー

Log

システムログ

準構造化データ

XML JSON

時系列XML JSON

設計・最適化済みのHDP基盤の提供

取り込み 加工 蓄積統合

関連付け分析 可視化

分析ツールとの連携

データフロー連携

Red Hat

SASTableau

etc.

18 © NEC Corporation 2017

データ活用の段階に合わせたHWアーキテクチャ選択

スモールスタート可能なデータレイクソリューションを導入

蓄積データの容量/種別の増加に合わせ、Express5800を追加しシステム拡張

AIを活用した高度分析のため、DX2000を追加し高いコンピューティング性能を確保

コンピュート/ストレージ拡張

コンピュート強化

Express5800 Express5800 Express5800 DX2000

既存データの見える化

多様なデータに基づく予測分析

AIを活用したデータドリブン

意思決定

19 © NEC Corporation 2017

顧客の用途に最適なHadoopシステム構成

Data Platform for Hadoop

既存データ

RDBMS

Mainframe

EDW(*)

Application

IoT連携

Data SystemData Sources

RDBMS EDW MPP

SNS

Sensors

SystemLog

Geospatialdata

BI/BAEDW 連携ツール

HDF

ソリューションモデルを設計/検証

データフロー制御

*Enterprise Data Warehouse

既存データの見える化

20 © NEC Corporation 2017

標準オペレーションを実現する3つの要素

標準オペレーション従来オペレーション

発生する問題

事前検証事前トレーニング

ツールドキュメント実行者スキル

設計 構築 テスト 受入

作業期間を短縮

実行者スキル

ドキュメント

ツール

設計 構築 受入

事前検証済み範囲

21 © NEC Corporation 2017

運用ライフサイクル全体をカバーするサービス

データの見える化

顧客満足度向上(コンタクトセンター)

360度分析

クロスセル/アップセル

分析プラットフォーム

ストレージ

分析処理基盤

分析プラットフォーム

ストレージ

分析処理基盤

分析プラットフォーム

ストレージ

分析処理基盤

分析プラットフォーム

ストレージ

分析処理基盤

拡張 拡張 拡張

システム導入:・設計サービス・構築サービス

システム拡張#1:・設計サービス・構築サービス・拡張サービス

システム拡張#2:・設計サービス・構築サービス・拡張サービス

システム拡張#3:・設計サービス・構築サービス・拡張サービス・SW更新サービス

システム運用ライフサイクル全体をカバーするサービス

3. 活動事例紹介

23 © NEC Corporation 2017

活動事例紹介

Data Platform for Hadoopの開発における活動事例

▌標準プラットフォーム開発

▌ソリューションモデル開発

▌標準オペレーション開発

24 © NEC Corporation 2017

標準プラットフォーム開発の考え方

▌構築・運用プロセスにおける課題の露払い

▌安定性と性能の両立

▌最新のHadoopディストリビューションへの早期対応

標準PF

25 © NEC Corporation 2017

標準プラットフォームのライフサイクル管理

ライフサイクルを考慮したサポート体制の構築

Life cycle 1 Life cycle 2

continuous support and keep improving

keep improving

Hadoop結合ツール

Hadoop

OS

HW

複数のライフサイクルバージョン管理、ライフサイクル管理アップグレード検証

標準PF

26 © NEC Corporation 2017

プラットフォーム最適化への取り組み

H/W, OS, Hadoopの各層、統合スタックとしての最適化設計・検証の実施

サーバ

OS

HDFS,YARN, MR2, Spark, etc.

Hive, Pig, etc.

安定稼動・性能改善を目的としたチューニング

性能・機能観点での検証の実施

設計 検証

ベンチマークツール機能テストツール

カーネルチューニング

ハードウェアサイジング

パラメータチューニング

コンポーネントデザイン

標準PF

27 © NEC Corporation 2017

Hortonworks認定済みのプラットフォーム

プラットフォーム上で動作する機能と性能を事前に検証済み

Data Platform for Hadoop

標準PF

28 © NEC Corporation 2017

性能検証:TPC-DSを使ったクエリ処理性能比較

▌TCP-DS

大規模データを対象とした意思決定支援システムを実現するデータベースにおけるクエリ処理性能の計測

▌使用ツール

https://github.com/hortonworks/hive-testbench

▌実施概要

標準プラットフォーム構成(DX2000+RHEL+HDP2.6)における性能を検証

TPC-DSで規定された99種類のクエリのうち、ツールで対応している66種類のクエリを実行

事例

29 © NEC Corporation 2017

Hive-tezエンジンでのクエリ応答性能 ORC vs Parquet

列指向データ構造の形式の違いによるクエリ応答性能を比較検証

0

0.5

1

1.5

2

ORC ParquetORC Parquet

1.6

1.0

5TBのデータに対するクエリ応答時間の平均時間差

応答性能が高い

(ORCのケースを1とした場合のクエリ応答時間の比率の平均値)

事例

30 © NEC Corporation 2017

Hive-tezエンジンでのクエリ応答性能比較 チューニング(1)

Hive-tezのパラメータチューニング(ORC - 5TBデータセット)応答時間に影響を与えるパラメータ(A~E)を選定し、効果を検証

0

5

10

15

20

25

Config A Config B Config C Config D Config E

最短応答時間をたたき出したクエリ数

Config Aが優勢

0

10000

20000

30000

Config A Config B Config C Config D Config E

全クエリの実行にかかった時間(秒)

Config Dが優勢

事例

31 © NEC Corporation 2017

Hive-tezエンジンでのクエリ処理性能比較 チューニング(2)

0.9

0.95

1

1.05

1.1

1.15

1.2

Config A Config B Config C Config D Config E

応答性能が高い

5TBのデータセット対するクエリ応答時間の平均時間差(ORCのケースを1とした場合のクエリ処理時間の比率の平均値)

Config Aが最もパフォーマンスを出しやすい設定

1.0

1.07

1.16

1.06

1.01

事例

32 © NEC Corporation 2017

ソリューションモデル開発の考え方

提供価値の実現手段となる機能群の連携手法・運用方法をモデルとして確立

▌Bigdata Journeyを実現するソリューションモデル

▌機能要件・非機能要件を規定し設計と検証を実施

▌パートナーソリューション連携

ソリューション

33 © NEC Corporation 2017

Bigdata Journey

3 YearStart

Timeline

• 組織間Data Lake

• Deep Learning

デジタルトランスフォーメーション

• リアルタイム分析リスク管理

• 予測分析

• 不正検知

顧客管理

• 既存処理のオフロード

• BI / 可視化

• カスタマー 360度分析

• クロスセル/アップセル

Enterprise Data

Warehouse (EDW)

Optimazion

Predictive

Analytics

Real-Time Streaming

Analytics

Data-Driven

TransformationData Volume

32 TB

1 PB

見える化/コスト削減

データドリブン意思決定

ソリューション

34 © NEC Corporation 2017

各ステップで実現すべき要件と手段

EDW Optimization

(既存のEnterprise Data

Warehouseの強化)

テクノロジ• 既存のETL処理のHaoop基

盤へのオフロード

ビジネス• HadoopによるData Lakeの

構築• コスト削減

Predictive / Optimization(Advanced Analyticsによるシ

ステムの強化)

テクノロジ

• 構造化データ、SNS等の

非構造かデータのシング

ルプラットフォームへの

取り込みと分析

ビジネス

• 高い洞察に富んだ事業予

測を行うためのData

Lakeの強化

Real-Time Streaming

Analytics Model (Stream Analyticsによるシステ

ムの強化)

テクノロジ

• センサーデータの取り込

みによるリアルタイムイ

ベントの分析

ビジネス

• リアルタイムに適切な意

思決定を行うことによる

事業機会損失の回避

Data-Driven

Transformation Model ( “Hub & Spoke” Analyticsによる新たなビジネス機会

の発見)

• 構造データ、非構造

データを対象とした

バッチ、リアルタイム

処理機能の組織横断で

のシングルプラット

フォーム化

• 新たな事業機会の発見

と競争力の強化

ソリューション

35 © NEC Corporation 2017

EDW Optimizationからのスタート

34

21

EDW Optimization

(既存のEnterprise Data

Warehouseの強化)

Predictive / Optimization(Advanced Analyticsによるシ

ステムの強化)

Real-Time Streaming

Analytics Model (Stream Analyticsによるシステ

ムの強化)

Data-Driven

Transformation Model ( “Hub & Spoke” Analyticsによる新たなビジネス機会

の発見)

事例

36 © NEC Corporation 2017

DPH導入前

37 © NEC Corporation 2017

DPHの導入 Step1:既存のETL処理のオフロード

Export

事例

38 © NEC Corporation 2017

DPHの導入 Step2 リアルタイムデータの処理への組み込み

Export

New Insight

事例

39 © NEC Corporation 2017

DPHの導入 Step3 蓄積データを価値化する分析・学習機構の導入

Export

事例

Analytic&

Learning Logic

Analytic

Tool

40 © NEC Corporation 2017

パートナーソリューション連携: VUPICO社、SAP HANA/Vora

ヒストリカルデータとリアルタイムデータをシームレスに関連付けて高速分析できる End-to-End ソリューションを実現

ソリューション

41 © NEC Corporation 2017

パートナーソリューション連携: Syncsort社 DMX-h

Hadoopと連携する高速ETLエンジンを活用し、従来の構造化データとIoTなど新しいソースの非構造化データをコスト効率よく蓄積・分析

EDW

RDBMS EDW MPP

SyncsortDMX-h

SNS

センサーデータ

システムログ

位置データ

ETLデータソース ホットデータ の高速処理可視化分析

業務データ

メインフレーム

Data Platform for Hadoop

MS Excel

Tableau

SAS

など

長期データ蓄積

ソリューション

42 © NEC Corporation 2017

パートナーソリューション連携: IBMデータ分析ソリューション

IBM・Hortonworks とのパートナーシップに基づき、IBM社のHadoop向けデータ分析ミドルウェアを評価

ソリューション

43 © NEC Corporation 2017

標準オペレーション開発の考え方

プラットフォームと同様に運用におけるプロセスを標準化

▌サービスに利用するドキュメント/プロセス/ツールを標準開発

▌短期間で安定した成果を挙げるサービスとして提供

標準オペレーション

44 © NEC Corporation 2017

DPHサービス:構築サービス

標準化された構築サービスで導入期間を短縮

データ活用設計

HW・SWの選定

構築サービスを利用した場合

チューニング

サイジング

アプリケーションの開発と運用

データ活用設計

拡張性の設計

データ活用設計

アプリケーションの開発と運用

プラットフォームのの導入

プラットフォーム品質の安定

導入期間の短縮

個別SIの場合

プラットフォームのテスト

プラットフォームの設計と導入

標準オペレーション

4. NECが重視していること

46 © NEC Corporation 2017

Center of Excellence for Analytics Platforms and Solutions

インドにビッグデータ分析ソリューションの専門組織を設立

▌DPH関連ビジネスの客先提案

▌データ分析、運用サポート、技術支援

▌グローバル市場に対して一元的なサービスを提供

プレスリリース(2017年6月)

CoE : Center of Excellence~先端技術の知見や人材を集約した拠点~

47 © NEC Corporation 2017

NEC Global Serviceの展開

プラットフォームの導入~運用において発生するイベントに対する支援をEnd to Endで提供

Business Consulting

Data Engineering and

Analytics Modeling

Market Research

GTM Strategies

Business

Development

Product Design

and

Development

Customization

Business

Consulting

Data Engineering

and Analytics

Modeling

Solution Design

System Integration Solution

Identification and

Design

POC and Demos