mapr on ucs hadoopはこう売ろう。 難しくないhadoop ·...
TRANSCRIPT
© 2015 MapR Technologies © 2015 MapR Technologies
マップアール・テクノロジーズ株式会社
アライアンス&プロダクトマーケティング
三原 茂
「MapR on UCS:Hadoopはこう売ろう。難しくないHadoopの提案」
© 2015 MapR Technologies
MapR企業概要 ビッグデータ のコアに
お客様の成長 と共に
2X Revenue ‘13 – ‘14
80% of accounts expand 3X
90% software licenses
< 1% lifetime churn
> $1B in incremental revenue generated by 1 customer
700+ Customers
Apache Open Source
+ Innovation
日本のパートナー様
MapR Technologies Inc.
【Founder】 John Schroeder & M.C. Srivas
【設立】2009年 【本社】カリフォルニア州 サンノゼ
【従業員】約 300 人
【拠点】 13カ所(日本含)
© 2015 MapR Technologies
• ビッグデータ時代のデータストア
– ファイル、データに関係なくあらゆるデータを蓄積可能
– ただし、単に溜めるだけではなく、データを加工するフレームワークや分析や検索するアプリが含まれる
– もちろん、分散処理、スケールアウト可能
• OSS
Hadoop(ハドゥープ)とは(1)?
© 2015 MapR Technologies
HDFS (Hadoop Distributed File System)
分散ファイルシステム MapReduce
大規模分散処理フレームワーク
大きく2つのコンポーネントで構成:
データをブロックに分割して複数のサーバに分散配置/3つのレプリカを作成
Map/Reduceというシンプルな処理の組み合わせで、HDFS上にあるデータの分散処理を行う汎用的なフレームワーク
データをためる データを加工する
Hadoopとは(2)?
処理の近くにデータを置く:データ(保管)と処理能力(加工・分析)をデータのある場所で!
設計当初から大規模、大容量、増加し続けるデータに対応(分散処理&スケールアウト)
© 2015 MapR Technologies
Hadoopの概要図
HDFS
MapReduce
Java API
Hadoop Ecosystem
管理システム
データ/ファイルを溜める
データ/ファイルを加工する
データ/ファイルを活用する
© 2015 MapR Technologies
Hadoop(MapR)のパッケージ全体図 ~エコシステムも含めて提供~
MapR Data Platform (ランダム Read/Write)
MapR-FS (POSIX)
MapR-DB (Hbase互換高運用性 NoSQL)
セキュリティ
YARN
Pig
Cascading
Spark
バッチ
Spark Streaming
Storm*
ストリーミング
HBase
Solr
NoSQL ・検索
Juju
プロビジョニ ング・コーディ ネーション
Savannah*
Mahout
MLLib
機械学習 ・グラフ
GraphX
MapReduce v1 & v2
APACHE HADOOP および OSS エコシステム
実行エンジン データガバナンス・オペレーション
ワークフロー ・データ ガバナンス
Tez*
Accumulo*
Hive
Impala
Spark SQL
Drill*
SQL
Sentry* Oozie ZooKeep
er Sqoop
Knox* Whirr Falcon* Flume
データ 統合・ アクセス
HttpFS
Hue
NFS HDFS API
HBase API
JSON API
Map
R C
on
trol Syste
m
(運用
管理
・監
視)
* ディストリビューションに統合/認証予定
CLI
GU
I R
EST
API
商用ソフトウェア
分析アプリ(OSSベース)
分析アプリ
(商用製品)
データストアとデータ処理
(HDFS/MapReduce)
管理ツール
© 2015 MapR Technologies
MapR 製品
管理ツール NFS アクセス パフォーマンス HA スナップショット ミラーリング 24 X 7 サポート サブスクリプション
Hadoop (M5) & NoSQL (M7)
管理ツール NFS アクセス パフォーマンス ノード数の制限なし 無料
Compute Engine
Also Available through:
Hbase互換のNoSQL DB M5の機能+ HBaseの運用を簡素化 HBaseの高速化 安定したレスポンスタイム ファイル/テーブルの統合ス
ナップショット
M3 COMMUNITY EDITION
M5 ENTERPRISE EDITION
M7 (MapR-DB)
ENTERPRISE DATABASE EDITION
© 2015 MapR Technologies
Data
• Gartner, "Forecast Analysis: Enterprise IT Spending by Vertical Industry Market, Worldwide, 2010-2016, 3Q12 Update.“
• Wall Street Journal, “Financial Services Companies Firms See Results from Big Data Push”, Jan. 27, 2014
$9,000
$40,000
<$1,000
2013 2014 2015 2016 2017
IT予算の伸び率
2.5%
データの増加率
40%
テラバイトあたりの
コスト
登場の背景:データの増大とコスト削減の ギャップ
ストレージ DWH
ギャップ
© 2015 MapR Technologies
HadoopとNoSQLのプレイヤー
Forrester Wave™Big Data Hadoop Solutions, Q1‘14
NoSQL: M7 (MapR-DB) Hadoop
Forrester Wave™ NoSQL Key-Value Databases, Q3 2014
© 2015 MapR Technologies
Hadoop/NoSQLの主な用途
セールス/マーケティング
(売上/収益向上/顧客動向)
情報系IT
(ストレージとDWH最適化)
リスク回避
(予防保守/不正検知/余剰在庫)
基幹系IT
(バッチ高速化)
5
IoT/M2M
(リアルタイム、ストリーミング対応)
基本はデータレイク(エンタープライズデータハブ)によるデータのサイロの解消
© 2015 MapR Technologies
MapRと他のHadoopとの違い(要約) • データの出し入れがしやすい
– POSIX準拠のNFSを利用し、他システムとデータ連係が容易
– ソフトウェアデファインドストレージ(スケールアウトNAS)として利用
• データ保護機能が充実
– バックアップ / スナップショット機能
– DR
– データアクセスの制御(セキュリティ)
• 高パフォーマンス
– ネームノードの分散化
– ファイルシステムのネイティブ化
• より容易な運用
– マルチテナント
– 高パフォーマンスと管理ノードが無いことによる台数削減
– 単一障害点の排除
• NoSQLがある
– Hbase互換(高運用性、高信頼性)
– ライセンスキーの入れ替えで利用可能
Webサーバー
ログ
データ
最新データ
リアルタイム
ダイレクト
ローカル
© 2015 MapR Technologies
ビッグデータストレージ(分析ready) としてのMapR
DWH
ETL + Long Term Storage
DWH データ
ファイル
or
NAS
SAN
MapR
+
IA Server
• 膨大、かつ増え続けるログデータ等 をどこに保管?
• スケールアウト型のNASは種類が少なく 高価
• 分析のためには、分析環境にデータ移行が必要で、 想定以上に高コスト
• MapR上に置くことで、 コスト効率良く保管
• 分析や活用のために他にデータ移動することなく、いつでもHadoopを使ってデータ処理
• バックアップやスナップショットが取れるのはMapRだけ
<従来>
<これから>
x86サーバ
ログ
ログ
Big Data Storage
Enterprise Storage
© 2015 MapR Technologies
Zions Bank: ビッグデータストレージと不正検知
データプラットフォームを統合することでコスト効果高く、セキュリティ分析と不正検知を行う
不正を発見するチームとセキュリティ分析のチームが共同で利用するデータストアのプラットフォームを構築し、その上に統計モデリングを載せ、不正や不正につながる怪しい行動を発見する
“Zions Bankでは初めてセキュリティ分析のために全データを中央集権的に集め、利用したが、不正検知にもそのデータが使えることが分かっただけではなく、不正検知に非常に役に立つことがわかった
Michael Fowkes - SVP Fraud Operations and Security Analytics
• 既存のインフラはスケールしない
• この数年レポート作成に時間がより掛かるようになっていた
• データストレージコストを50%削減
• 1.2PBのデータからのクエリが24時間から30分に削減
• 限界の無いスケーラビリティにより、より多くのデータを使え、より正確なモデルと洞察を得られた
目的
チャレンジ
MapR利用のメリット
Business Impact
© 2015 MapR Technologies
13
ソースシステム 基幹系、業務系
ETL
DM
BI(ビジネス・インテリジェンス) DWH/DMのデータを分析ニーズに合った表、グラフ、レポートとして
表示 通常Webベース(ブラウザ)
マイニング 大量データから未来を予測
推測統計、パターン発見、検定などの数理を活用
ソースシステム 基幹系、多数の業務系システム
様々な見るべき情報を保有 配置やデータ品質はバラバラ
(従来はこれを一つづつ見ていた)
ETL
ETL
DWH
Mining
ETL(データ統合) 複数のソースシステムから、一箇所
(DWH)にデータを集める 抽出、変換、クレンジングを行う
DMの切り出しにもETLを活用
DWH(データウェアハウス) 各種データを一元的に格納
大量の明細や長期間の履歴を保有 多数のソースデータを高速で格納し、
日々更新するために最適化
DM(データマート) 特定のユーザーや特定用途のため
に抽出した一部のデータ 多数のユーザーが必要なデータを高速に検索・分析するために最適
化
既存分析(DWH)環境のどこに位置付くか?
Hadoop 大量データを溜め、処理、分析が
1カ所でできる新技術
BI
© 2014 MapR Technologies 14
既存DWHビジネスにクロスセル!
Hadoop
(NoSQL)
データ
統合
(ESB)
BI
DWH
• より多いデータを限られたコストで蓄積 • 非/準構造化データの取扱い • 機械学習やデータマイニングの基盤 • DWHからETL処理をオフロードし並列処理 • キューブに依存しないセルフサービス化
• IoTやストリーミングデータ の活用
• データストリームの最適化 • データの前処理 • リアルタイムへの対応 • Drill経由でHadoopにアクセス
• セルフサービス化(アジャイルBI)
© MapR Technologies © MapR Technologies
DWH環境のニーズと現状のまとめ
1. コストを下げたい
2. データ量は増やしたい
3. データ種(構造化データ以外)も増やし、 様々なニーズを拾いたい(ログデータに代表される)
4. 既存SQLをそのまま活かしたい
– BI等の既存ツールを継続利用したい
新テクノロジー「Hadoop」を活用し、ビッグデータ時代に合ったDWH環境に
マーケティング
在庫管理者
ストア マネージャ
分析官
経営層
アプリ
ユーザ
マイニング(機械学習)エンジン
データウェアハウス
データ プラットフォーム
NFS
ビッグデータ時代の新DWH基盤概念図
活用 分析 収集・蓄積・加工
売上
画像・映像
位置情報
POSデータ
SNSや 口コミ
Webログ
データ ソース
SQL on Hadoop / Hive NFS
在庫
全データを格納
(データのサイロを解消)
ETL処理を並列実行
(DWHからETLを オフロード)
Hadoop上のデータはスーパーセットとしてエコシス
テムから活用
Hadoopで抽出された
DWHで処理すべき構造化データを活用しレポート
(例:直近3ヶ月分)
Hadoop上の全データを用い、 傾向分析等
(例:レコメンデーション、 顧客動向)
NFS
BI
ビジネスニーズ
• 在庫把握と機会損失防止
• 配送状況把握&ルート最適化
• 売上と利益向上
• 顧客動向把握
• 適正生産と在庫のコスト削減
• 企業運営、計画
© 2015 MapR Technologies
Hadoop(MapR)導入のメリット:
DWHに入れるべきデータを選別でき、 データ量とコストのバランスを取れる
DWH単独増設より圧倒的に低コストなため、現実解となる(1/2に削減)
どこまでもスケールするパフォーマンス (ETLが3倍)
あらゆるデータを格納・処理・活用
ソースから分析までの一環した データフローを実現
機械学習等のHadoopアプリの利用により、傾向をつかみ、解約率の削減対策
お客様のDWHの課題:
増大するデータにDWHのみでは対応できない
コスト
パフォーマンス
非構造化データ(ログ等)への対応
VerizonのDWHモダン化事例
アクセス ログ
顧客データ
Extract Clean Conform Transform
構造化データ
Data Warehouse and Analytics
構造化 &
非構造化 データ
N1 N1 N1 N1 N1 …
Hadoop: データレイク
NFS
NFS
データソース
ETL処理
1. ベライゾンのユーザが日々どういう使い方をしているか、 ユーザプロファイルや営業/請求についての詳細を知る
2. サービス品質とサービス向上への修理や増設の元データが欲しい
1. 解約率を下げる
2. DWH(ETL)関連コスト削減
機械学習 BI
© 2015 MapR Technologies
Hadoopを既存DWHに使うメリット
1. 既存DWHには手を入れる必要が無い
2. BIやSQLといった資産をそのまま有効活用でき、ユーザビリティも変わらない
3. より多くのデータを活用可能
4. 構造化データ以外のログ等の多構造化データを活用可能
5. データ量に対してのコストが従来より非常に低い
6. 本格的なデータ活用時代における新テクノロジーにも対応可能な柔軟性(IoTやM2M等)
© 2015 MapR Technologies リアルタイム
検索・分析
テキスト/画像データ
解析処理機能
利用状況データ 集計処理機能
データ蓄積機能
IoT
デバイス 視聴データ
モニタリング
リアルタイムな データストリーミング処理
利用データ 集計機能
利用 予測機能
業務系情報提供
(レポートや業務系)
データ収集 データ蓄積・分析 データ活用
MapR-DB
フィードバック
(レコメンデーション)
サンプル画像/動画
表示
ESB
BI
Tableau
Erastic Search
リアルタイムでビッグデータを収集・分析 IoT時代のあらゆるデータをリアルタイムで分析・検索
従来からのDB、ERP、
CRM等の基幹系からの
DWHやデータマート
ユーザーへ
リアルタイムで
フィードバック
(営業・マーケティング)
Apache Drill
Mahout
Spark
傾向分析
(予防保守、不正検知)
DWH
フィナンシャル
レポート
モダン化されたDWH
SNS等ネットのデータ
© 2015 MapR Technologies
エンタープライズ用Hadoopのために! Apache Hadoopをエンタープライズで利用する際に問題となる点を1つ1つ解消
Apache Hadoop
HDFS
MapReduce
MapR FS
MapReduce
Java API Java API 100%互換
強化・改善 (ネイティブ化)
ランダムR/W NFSアクセス 分散NameNode ミラーリング スナップショット ボリューム
JobTracker HA Direct Shuffle
様々な機能強化
パフォーマンスや運用性を上げるための アーキテクチャ設計・再実装
• ロックの排除による並列処理の最適化
• ビルトイン圧縮によるI/O削減
• 分散NameNode
• RPC経由のShuffle転送
• Java GCの影響の排除
• オープンスタンダードなAPI
0
2000
4000
6000
8000
10000
12000
14000
16000
18000
0 1000 2000 3000 4000 5000 6000
File
cre
ate
s/s
Files (M)
0 100 200 400 600 800 1000
MapR
Benchmark: File creates (100B)
Hardware: 10 nodes, 2 x 4 cores, 24
GB RAM, 12 x 1 TB 7200 RPM
ベンチマーク例
0
100
200
300
400
0 0.5 1 1.5
File
cre
ate
s/s
Files (M)
他のディストリビューション
© 2015 MapR Technologies
MapRの最小構成(推奨)
2U
2p/12c
12本のデータディスク
2本のOSディスク
最小サーバ数:4
他ディストリビューションの最小構成(推奨)
1U(管理)& 2U(スレーブ)
2p/8c(管理) & 2p/12c(スレーブ)
OSディスク
4本のディスク(管理)
12本のディスク(スレーブ)
最小サーバ数:7
© 2015 MapR Technologies
まとめ
• Hadoopは技術用語が先行したため、難しく思えるが、分析用DB(RDBではない)と理解して構いません
• ポストRDBの時代にトランザクションDB以外のDWH(オペレーショナル)や分析DB、さらにはIoTデータの受け皿としてビジネスチャンスが大きい
• まずは、ストレージコストの削減やDWHのコスト削減がターゲット
• Hadoopにもいくつかディストリビューションがあるが、全てが同じではなく、MapRが最もエンタープライズ向き
• スケールアウト可能なシステムは、プロビジョニングの仕組みが必要なため、UCSとの組合せはさらに運用性を向上させる
• 是非ご覧ください!https://www.youtube.com/watch?v=SMTzoa8LUwQ
© 2015 MapR Technologies