[azure deep dive] spark と azure hdinsight によるビッグ データ分析入門 (2017/03/27)

38
本イベントの資料 https://aka.ms/add201703 ※本セッションでお伝えする内容は 2017/3/27 時点の情報です。

Upload: naoki-sato

Post on 11-Apr-2017

145 views

Category:

Software


0 download

TRANSCRIPT

Page 1: [Azure Deep Dive] Spark と Azure HDInsight によるビッグ データ分析入門 (2017/03/27)

本イベントの資料https://aka.ms/add201703

※本セッションでお伝えする内容は 2017/3/27 時点の情報です。

Page 2: [Azure Deep Dive] Spark と Azure HDInsight によるビッグ データ分析入門 (2017/03/27)
Page 3: [Azure Deep Dive] Spark と Azure HDInsight によるビッグ データ分析入門 (2017/03/27)
Page 4: [Azure Deep Dive] Spark と Azure HDInsight によるビッグ データ分析入門 (2017/03/27)
Page 5: [Azure Deep Dive] Spark と Azure HDInsight によるビッグ データ分析入門 (2017/03/27)
Page 6: [Azure Deep Dive] Spark と Azure HDInsight によるビッグ データ分析入門 (2017/03/27)
Page 7: [Azure Deep Dive] Spark と Azure HDInsight によるビッグ データ分析入門 (2017/03/27)
Page 8: [Azure Deep Dive] Spark と Azure HDInsight によるビッグ データ分析入門 (2017/03/27)
Page 9: [Azure Deep Dive] Spark と Azure HDInsight によるビッグ データ分析入門 (2017/03/27)
Page 10: [Azure Deep Dive] Spark と Azure HDInsight によるビッグ データ分析入門 (2017/03/27)

参考リンク: https://www.openhub.net/

Page 11: [Azure Deep Dive] Spark と Azure HDInsight によるビッグ データ分析入門 (2017/03/27)
Page 12: [Azure Deep Dive] Spark と Azure HDInsight によるビッグ データ分析入門 (2017/03/27)

ディスクから

読み込み

ディスクへ

書き込み

ディスクから

読み込み

ディスクへ

書き込み

HDFS HDFS HDFS

Page 13: [Azure Deep Dive] Spark と Azure HDInsight によるビッグ データ分析入門 (2017/03/27)

140

120

100

80

40

20

0

60

Hadoop

Spark

100 GB のデータを、100ノードで

線形回帰分析を行った時の比較

Page 14: [Azure Deep Dive] Spark と Azure HDInsight によるビッグ データ分析入門 (2017/03/27)

Cassandra クラスター

レプリケーション

Japan

Asia

Pacific

Australia

North

America

Europe,

Middle East

& Africa

South

AmericaIndia

✓ スマホ・タブレットから、毎月 16億セッション

✓ 2千万以上 のサブスクライバー

✓ 3千万以上 の Outlook が、iOS / Android で動作

https://spark-summit.org/east-

2016/events/using-spark-to-power-

the-office-365-delve-organization-

analytics/

Page 15: [Azure Deep Dive] Spark と Azure HDInsight によるビッグ データ分析入門 (2017/03/27)

MLlib /

SparkMLGraphX

Page 16: [Azure Deep Dive] Spark と Azure HDInsight によるビッグ データ分析入門 (2017/03/27)
Page 17: [Azure Deep Dive] Spark と Azure HDInsight によるビッグ データ分析入門 (2017/03/27)
Page 18: [Azure Deep Dive] Spark と Azure HDInsight によるビッグ データ分析入門 (2017/03/27)
Page 19: [Azure Deep Dive] Spark と Azure HDInsight によるビッグ データ分析入門 (2017/03/27)
Page 20: [Azure Deep Dive] Spark と Azure HDInsight によるビッグ データ分析入門 (2017/03/27)

✓ マイクロソフトのサポート付き SLA 99.9%

✓ HDP (Hortonworks Data Platform) がベース

✓ Azureとの連携部分を強化

Hortonworksとマイクロソフトが協業し、Sparkをマネージドサービスとして提供

Page 21: [Azure Deep Dive] Spark と Azure HDInsight によるビッグ データ分析入門 (2017/03/27)

2016年4月

Spark 1.6.0

(Linux)

Spark 1.3.1 (Windows)

正式リリース

プレビュー

リリース

Page 22: [Azure Deep Dive] Spark と Azure HDInsight によるビッグ データ分析入門 (2017/03/27)
Page 23: [Azure Deep Dive] Spark と Azure HDInsight によるビッグ データ分析入門 (2017/03/27)
Page 24: [Azure Deep Dive] Spark と Azure HDInsight によるビッグ データ分析入門 (2017/03/27)

設計 構築 開発 テスト

設計 構築 開発 テスト

Page 25: [Azure Deep Dive] Spark と Azure HDInsight によるビッグ データ分析入門 (2017/03/27)
Page 26: [Azure Deep Dive] Spark と Azure HDInsight によるビッグ データ分析入門 (2017/03/27)

設計 構築 開発 テスト

設計開

発テスト

プラグインを活用した

開発により

納期の短縮化が可能

Page 27: [Azure Deep Dive] Spark と Azure HDInsight によるビッグ データ分析入門 (2017/03/27)
Page 28: [Azure Deep Dive] Spark と Azure HDInsight によるビッグ データ分析入門 (2017/03/27)

ZookeeperZookeeperZookeeper マスターノード

ヘッドノード

ワーカーノード

BLOB ストレージ

ヘッドノードは2重化がデフォルト

デフォルトのストレージとして使用

(I/F が HDFS)

ワーカーノード

ワーカーノード ノード追加はポータルから簡単に可能

Page 29: [Azure Deep Dive] Spark と Azure HDInsight によるビッグ データ分析入門 (2017/03/27)

BLOB ストレージ

ワーカーノード BLOB ストレージは Azure の各サービスが使用するため、他サービスとの親和性が良くツールも豊富

Spark を削除しても、BLOB のデータは全て残る。次回 Spark デプロイ時に再利用も可能

hadoop コマンドも利用可能

Page 30: [Azure Deep Dive] Spark と Azure HDInsight によるビッグ データ分析入門 (2017/03/27)

Azure Data Lake Store

ワーカーノード

ワーカーノード

ワーカーノード

Page 31: [Azure Deep Dive] Spark と Azure HDInsight によるビッグ データ分析入門 (2017/03/27)
Page 32: [Azure Deep Dive] Spark と Azure HDInsight によるビッグ データ分析入門 (2017/03/27)
Page 33: [Azure Deep Dive] Spark と Azure HDInsight によるビッグ データ分析入門 (2017/03/27)

ワーカーノード

Livy

外部アプリ

ワーカーノード

ワーカーノード

Page 34: [Azure Deep Dive] Spark と Azure HDInsight によるビッグ データ分析入門 (2017/03/27)

Cloudera とマイクロソフトの

OSS プロジェクト

http://livy.io/

Page 35: [Azure Deep Dive] Spark と Azure HDInsight によるビッグ データ分析入門 (2017/03/27)

REST I/F の仕様はこちらhttps://msdn.microsoft.com/ja-jp/library/mt613023.aspx

Page 36: [Azure Deep Dive] Spark と Azure HDInsight によるビッグ データ分析入門 (2017/03/27)
Page 37: [Azure Deep Dive] Spark と Azure HDInsight によるビッグ データ分析入門 (2017/03/27)
Page 38: [Azure Deep Dive] Spark と Azure HDInsight によるビッグ データ分析入門 (2017/03/27)