mapr on ucs hadoopはこう売ろう。難しくないhadoop ·...

© 2015 MapR Technologies © 2015 MapR Technologies

マップアール・テクノロジーズ株式会社

アライアンス&プロダクトマーケティング

三原茂

「MapR on UCS：Hadoopはこう売ろう。難しくないHadoopの提案」

© 2015 MapR Technologies

MapR企業概要ビッグデータのコアに

お客様の成長と共に

2X Revenue ‘13 – ‘14

80% of accounts expand 3X

90% software licenses

< 1% lifetime churn

> $1B in incremental revenue generated by 1 customer

700+ Customers

Apache Open Source

+ Innovation

日本のパートナー様

MapR Technologies Inc.

【Founder】 John Schroeder & M.C. Srivas

【設立】2009年【本社】カリフォルニア州サンノゼ

【従業員】約 300 人

【拠点】 13カ所（日本含）


• ビッグデータ時代のデータストア

– ファイル、データに関係なくあらゆるデータを蓄積可能

– ただし、単に溜めるだけではなく、データを加工するフレームワークや分析や検索するアプリが含まれる

– もちろん、分散処理、スケールアウト可能

• OSS

Hadoop（ハドゥープ）とは（１）？


HDFS (Hadoop Distributed File System)

分散ファイルシステム MapReduce

大規模分散処理フレームワーク

大きく2つのコンポーネントで構成：

データをブロックに分割して複数のサーバに分散配置／3つのレプリカを作成

Map/Reduceというシンプルな処理の組み合わせで、HDFS上にあるデータの分散処理を行う汎用的なフレームワーク

データをためるデータを加工する

Hadoopとは（２）？

処理の近くにデータを置く：データ（保管）と処理能力（加工・分析）をデータのある場所で！

設計当初から大規模、大容量、増加し続けるデータに対応（分散処理＆スケールアウト）


Hadoopの概要図

HDFS

MapReduce

Java API

Hadoop Ecosystem

管理システム

データ/ファイルを溜める

データ/ファイルを加工する

データ/ファイルを活用する


Hadoop（MapR）のパッケージ全体図～エコシステムも含めて提供～

MapR Data Platform (ランダム Read/Write)

MapR-FS (POSIX)

MapR-DB (Hbase互換高運用性 NoSQL)

セキュリティ

YARN

Pig

Cascading

Spark

バッチ

Spark Streaming

Storm*

ストリーミング

HBase

Solr

NoSQL ・検索

Juju

プロビジョニング・コーディネーション

Savannah*

Mahout

MLLib

機械学習・グラフ

GraphX

MapReduce v1 & v2

APACHE HADOOP および OSS エコシステム

実行エンジンデータガバナンス・オペレーション

ワークフロー・データガバナンス

Tez*

Accumulo*

Hive

Impala

Spark SQL

Drill*

SQL

Sentry* Oozie ZooKeep

er Sqoop

Knox* Whirr Falcon* Flume

データ統合・アクセス

HttpFS

Hue

NFS HDFS API

HBase API

JSON API

Map

R C

on

trol Syste

m

(運用

管理

・監

視)

* ディストリビューションに統合／認証予定

CLI

GU

I R

EST

API

商用ソフトウェア

分析アプリ（OSSベース）

分析アプリ

（商用製品）

データストアとデータ処理

（HDFS/MapReduce）

管理ツール


MapR 製品

管理ツール NFS アクセスパフォーマンス HA スナップショットミラーリング 24 X 7 サポートサブスクリプション

Hadoop (M5) ＆ NoSQL (M7)

管理ツール NFS アクセスパフォーマンスノード数の制限なし無料

Compute Engine

Also Available through:

Hbase互換のNoSQL DB M5の機能＋ HBaseの運用を簡素化 HBaseの高速化安定したレスポンスタイムファイル/テーブルの統合ス

ナップショット

M3 COMMUNITY EDITION

M5 ENTERPRISE EDITION

M7 （MapR-DB）

ENTERPRISE DATABASE EDITION


Data

• Gartner, "Forecast Analysis: Enterprise IT Spending by Vertical Industry Market, Worldwide, 2010-2016, 3Q12 Update.“

• Wall Street Journal, “Financial Services Companies Firms See Results from Big Data Push”, Jan. 27, 2014

$9,000

$40,000

<$1,000

2013 2014 2015 2016 2017

IT予算の伸び率

2.5%

データの増加率

40%

テラバイトあたりの

コスト

登場の背景：データの増大とコスト削減のギャップ

ストレージ DWH

ギャップ


HadoopとNoSQLのプレイヤー

Forrester Wave™Big Data Hadoop Solutions, Q1‘14

NoSQL: M7 (MapR-DB) Hadoop

Forrester Wave™ NoSQL Key-Value Databases, Q3 2014


Hadoop/NoSQLの主な用途

セールス/マーケティング

（売上/収益向上/顧客動向）

情報系IT

（ストレージとDWH最適化）

リスク回避

（予防保守/不正検知/余剰在庫）

基幹系IT

（バッチ高速化）

5

IoT/M2M

（リアルタイム、ストリーミング対応）

基本はデータレイク（エンタープライズデータハブ）によるデータのサイロの解消


MapRと他のHadoopとの違い（要約） • データの出し入れがしやすい

– POSIX準拠のNFSを利用し、他システムとデータ連係が容易

– ソフトウェアデファインドストレージ（スケールアウトNAS）として利用

• データ保護機能が充実

– バックアップ / スナップショット機能

– DR

– データアクセスの制御（セキュリティ）

• 高パフォーマンス

– ネームノードの分散化

– ファイルシステムのネイティブ化

• より容易な運用

– マルチテナント

– 高パフォーマンスと管理ノードが無いことによる台数削減

– 単一障害点の排除

• NoSQLがある

– Hbase互換（高運用性、高信頼性）

– ライセンスキーの入れ替えで利用可能

Webサーバー

ログ

データ

最新データ

リアルタイム

ダイレクト

ローカル


ビッグデータストレージ（分析ready）としてのMapR

DWH

ETL + Long Term Storage

DWH データ

ファイル

or

NAS

SAN

MapR

＋

IA Server

• 膨大、かつ増え続けるログデータ等をどこに保管？

• スケールアウト型のNASは種類が少なく高価

• 分析のためには、分析環境にデータ移行が必要で、想定以上に高コスト

• MapR上に置くことで、コスト効率良く保管

• 分析や活用のために他にデータ移動することなく、いつでもHadoopを使ってデータ処理

• バックアップやスナップショットが取れるのはMapRだけ

＜従来＞

＜これから＞

x86サーバ

ログ

ログ

Big Data Storage

Enterprise Storage


Zions Bank: ビッグデータストレージと不正検知

データプラットフォームを統合することでコスト効果高く、セキュリティ分析と不正検知を行う

不正を発見するチームとセキュリティ分析のチームが共同で利用するデータストアのプラットフォームを構築し、その上に統計モデリングを載せ、不正や不正につながる怪しい行動を発見する

“Zions Bankでは初めてセキュリティ分析のために全データを中央集権的に集め、利用したが、不正検知にもそのデータが使えることが分かっただけではなく、不正検知に非常に役に立つことがわかった

Michael Fowkes - SVP Fraud Operations and Security Analytics

• 既存のインフラはスケールしない

• この数年レポート作成に時間がより掛かるようになっていた

• データストレージコストを50%削減

• 1.2PBのデータからのクエリが24時間から30分に削減

• 限界の無いスケーラビリティにより、より多くのデータを使え、より正確なモデルと洞察を得られた

目的

チャレンジ

MapR利用のメリット

Business Impact


13

ソースシステム基幹系、業務系

ETL

DM

BI(ビジネス・インテリジェンス) DWH/DMのデータを分析ニーズに合った表、グラフ、レポートとして

表示通常Webベース(ブラウザ）

マイニング大量データから未来を予測

推測統計、パターン発見、検定などの数理を活用

ソースシステム基幹系、多数の業務系システム

様々な見るべき情報を保有配置やデータ品質はバラバラ

（従来はこれを一つづつ見ていた）

ETL

ETL

DWH

Mining

ETL（データ統合）複数のソースシステムから、一箇所

（DWH）にデータを集める抽出、変換、クレンジングを行う

DMの切り出しにもETLを活用

DWH（データウェアハウス）各種データを一元的に格納

大量の明細や長期間の履歴を保有多数のソースデータを高速で格納し、

日々更新するために最適化

DM（データマート）特定のユーザーや特定用途のため

に抽出した一部のデータ多数のユーザーが必要なデータを高速に検索・分析するために最適

化

既存分析（DWH）環境のどこに位置付くか？

Hadoop 大量データを溜め、処理、分析が

1カ所でできる新技術

BI

© 2014 MapR Technologies 14

既存DWHビジネスにクロスセル！

Hadoop

（NoSQL）

データ

統合

（ESB）

BI

DWH

• より多いデータを限られたコストで蓄積 • 非/準構造化データの取扱い • 機械学習やデータマイニングの基盤 • DWHからETL処理をオフロードし並列処理 • キューブに依存しないセルフサービス化

• IoTやストリーミングデータの活用

• データストリームの最適化 • データの前処理 • リアルタイムへの対応 • Drill経由でHadoopにアクセス

• セルフサービス化（アジャイルBI）

© MapR Technologies © MapR Technologies

DWH環境のニーズと現状のまとめ

1. コストを下げたい

2. データ量は増やしたい

3. データ種（構造化データ以外）も増やし、様々なニーズを拾いたい（ログデータに代表される）

4. 既存SQLをそのまま活かしたい

– BI等の既存ツールを継続利用したい

新テクノロジー「Hadoop」を活用し、ビッグデータ時代に合ったDWH環境に

マーケティング

在庫管理者

ストアマネージャ

分析官

経営層

アプリ

ユーザ

マイニング（機械学習）エンジン

データウェアハウス

データプラットフォーム

NFS

ビッグデータ時代の新DWH基盤概念図

活用分析収集・蓄積・加工

売上

画像・映像

位置情報

POSデータ

SNSや口コミ

Webログ

データソース

SQL on Hadoop / Hive NFS

在庫

全データを格納

（データのサイロを解消）

ETL処理を並列実行

（DWHからETLをオフロード）

Hadoop上のデータはスーパーセットとしてエコシス

テムから活用

Hadoopで抽出された

DWHで処理すべき構造化データを活用しレポート

（例：直近3ヶ月分）

Hadoop上の全データを用い、傾向分析等

（例：レコメンデーション、顧客動向）

NFS

BI

ビジネスニーズ

• 在庫把握と機会損失防止

• 配送状況把握＆ルート最適化

• 売上と利益向上

• 顧客動向把握

• 適正生産と在庫のコスト削減

• 企業運営、計画


Hadoop（MapR）導入のメリット：

DWHに入れるべきデータを選別でき、データ量とコストのバランスを取れる

DWH単独増設より圧倒的に低コストなため、現実解となる（1/2に削減）

どこまでもスケールするパフォーマンス（ETLが3倍）

あらゆるデータを格納・処理・活用

ソースから分析までの一環したデータフローを実現

機械学習等のHadoopアプリの利用により、傾向をつかみ、解約率の削減対策

お客様のDWHの課題：

増大するデータにDWHのみでは対応できない

コスト

パフォーマンス

非構造化データ（ログ等）への対応

VerizonのDWHモダン化事例

アクセスログ

顧客データ

Extract Clean Conform Transform

構造化データ

Data Warehouse and Analytics

構造化＆

非構造化データ

N1 N1 N1 N1 N1 …

Hadoop：データレイク

NFS

NFS

データソース

ETL処理

1. ベライゾンのユーザが日々どういう使い方をしているか、ユーザプロファイルや営業/請求についての詳細を知る

2. サービス品質とサービス向上への修理や増設の元データが欲しい

1. 解約率を下げる

2. DWH（ETL）関連コスト削減

機械学習 BI


Hadoopを既存DWHに使うメリット

1. 既存DWHには手を入れる必要が無い

2. BIやSQLといった資産をそのまま有効活用でき、ユーザビリティも変わらない

3. より多くのデータを活用可能

4. 構造化データ以外のログ等の多構造化データを活用可能

5. データ量に対してのコストが従来より非常に低い

6. 本格的なデータ活用時代における新テクノロジーにも対応可能な柔軟性（IoTやM2M等）

© 2015 MapR Technologies リアルタイム

検索・分析

テキスト/画像データ

解析処理機能

利用状況データ集計処理機能

データ蓄積機能

IoT

デバイス視聴データ

モニタリング

リアルタイムなデータストリーミング処理

利用データ集計機能

利用予測機能

業務系情報提供

（レポートや業務系）

データ収集データ蓄積・分析データ活用

MapR-DB

フィードバック

（レコメンデーション）

サンプル画像/動画

表示

ESB

BI

Tableau

Erastic Search

リアルタイムでビッグデータを収集・分析 IoT時代のあらゆるデータをリアルタイムで分析・検索

従来からのDB、ERP、

CRM等の基幹系からの

DWHやデータマート

ユーザーへ

リアルタイムで

フィードバック

（営業・マーケティング）

Apache Drill

Mahout

Spark

傾向分析

（予防保守、不正検知）

DWH

フィナンシャル

レポート

モダン化されたDWH

SNS等ネットのデータ


エンタープライズ用Hadoopのために！ Apache Hadoopをエンタープライズで利用する際に問題となる点を1つ1つ解消

Apache Hadoop

HDFS

MapReduce

MapR FS

MapReduce

Java API Java API 100%互換

強化・改善（ネイティブ化）

ランダムR/W NFSアクセス分散NameNode ミラーリングスナップショットボリューム

JobTracker HA Direct Shuffle

様々な機能強化

パフォーマンスや運用性を上げるためのアーキテクチャ設計・再実装

• ロックの排除による並列処理の最適化

• ビルトイン圧縮によるI/O削減

• 分散NameNode

• RPC経由のShuffle転送

• Java GCの影響の排除

• オープンスタンダードなAPI

0

2000

4000

6000

8000

10000

12000

14000

16000

18000

0 1000 2000 3000 4000 5000 6000

File

cre

ate

s/s

Files (M)

0 100 200 400 600 800 1000

MapR

Benchmark: File creates (100B)

Hardware: 10 nodes, 2 x 4 cores, 24

GB RAM, 12 x 1 TB 7200 RPM

ベンチマーク例

0

100

200

300

400

0 0.5 1 1.5

File

cre

ate

s/s

Files (M)

他のディストリビューション


MapRの最小構成（推奨）

2U

2p/12c

12本のデータディスク

2本のOSディスク

最小サーバ数：4

他ディストリビューションの最小構成（推奨）

1U（管理）& 2U（スレーブ）

2p/8c（管理） & 2p/12c（スレーブ）

OSディスク

4本のディスク（管理）

12本のディスク（スレーブ）

最小サーバ数：7


まとめ

• Hadoopは技術用語が先行したため、難しく思えるが、分析用DB（RDBではない）と理解して構いません

• ポストRDBの時代にトランザクションDB以外のDWH（オペレーショナル）や分析DB、さらにはIoTデータの受け皿としてビジネスチャンスが大きい

• まずは、ストレージコストの削減やDWHのコスト削減がターゲット

• Hadoopにもいくつかディストリビューションがあるが、全てが同じではなく、MapRが最もエンタープライズ向き

• スケールアウト可能なシステムは、プロビジョニングの仕組みが必要なため、UCSとの組合せはさらに運用性を向上させる

• 是非ご覧ください！https://www.youtube.com/watch?v=SMTzoa8LUwQ

mapr on ucs hadoopはこう売ろう。 難しくないhadoop ·...

Documents

mapr on ucs hadoopはこう売ろう。難しくないhadoop ·...