[azure deep dive] spark と azure hdinsight によるビッグ データ分析入門 (2017/03/27)
TRANSCRIPT
本イベントの資料https://aka.ms/add201703
※本セッションでお伝えする内容は 2017/3/27 時点の情報です。
参考リンク: https://www.openhub.net/
ディスクから
読み込み
ディスクへ
書き込み
ディスクから
読み込み
ディスクへ
書き込み
HDFS HDFS HDFS
140
120
100
80
40
20
0
60
Hadoop
Spark
100 GB のデータを、100ノードで
線形回帰分析を行った時の比較
Cassandra クラスター
レプリケーション
Japan
Asia
Pacific
Australia
North
America
Europe,
Middle East
& Africa
South
AmericaIndia
✓ スマホ・タブレットから、毎月 16億セッション
✓ 2千万以上 のサブスクライバー
✓ 3千万以上 の Outlook が、iOS / Android で動作
https://spark-summit.org/east-
2016/events/using-spark-to-power-
the-office-365-delve-organization-
analytics/
MLlib /
SparkMLGraphX
✓ マイクロソフトのサポート付き SLA 99.9%
✓ HDP (Hortonworks Data Platform) がベース
✓ Azureとの連携部分を強化
Hortonworksとマイクロソフトが協業し、Sparkをマネージドサービスとして提供
2016年4月
Spark 1.6.0
(Linux)
Spark 1.3.1 (Windows)
正式リリース
プレビュー
リリース
設計 構築 開発 テスト
設計 構築 開発 テスト
設計 構築 開発 テスト
設計開
発テスト
プラグインを活用した
開発により
納期の短縮化が可能
ZookeeperZookeeperZookeeper マスターノード
ヘッドノード
ワーカーノード
BLOB ストレージ
ヘッドノードは2重化がデフォルト
デフォルトのストレージとして使用
(I/F が HDFS)
ワーカーノード
ワーカーノード ノード追加はポータルから簡単に可能
BLOB ストレージ
ワーカーノード BLOB ストレージは Azure の各サービスが使用するため、他サービスとの親和性が良くツールも豊富
Spark を削除しても、BLOB のデータは全て残る。次回 Spark デプロイ時に再利用も可能
hadoop コマンドも利用可能
Azure Data Lake Store
ワーカーノード
ワーカーノード
ワーカーノード
ワーカーノード
Livy
外部アプリ
ワーカーノード
ワーカーノード
Cloudera とマイクロソフトの
OSS プロジェクト
http://livy.io/
•
•
•
•
REST I/F の仕様はこちらhttps://msdn.microsoft.com/ja-jp/library/mt613023.aspx