[azure deep dive] spark と azure hdinsight によるビッグ データ分析入門 (2017/03/27)

Post on 11-Apr-2017

145 Views

Category:

Software

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

本イベントの資料https://aka.ms/add201703

※本セッションでお伝えする内容は 2017/3/27 時点の情報です。

参考リンク: https://www.openhub.net/

ディスクから

読み込み

ディスクへ

書き込み

ディスクから

読み込み

ディスクへ

書き込み

HDFS HDFS HDFS

140

120

100

80

40

20

0

60

Hadoop

Spark

100 GB のデータを、100ノードで

線形回帰分析を行った時の比較

Cassandra クラスター

レプリケーション

Japan

Asia

Pacific

Australia

North

America

Europe,

Middle East

& Africa

South

AmericaIndia

✓ スマホ・タブレットから、毎月 16億セッション

✓ 2千万以上 のサブスクライバー

✓ 3千万以上 の Outlook が、iOS / Android で動作

https://spark-summit.org/east-

2016/events/using-spark-to-power-

the-office-365-delve-organization-

analytics/

MLlib /

SparkMLGraphX

✓ マイクロソフトのサポート付き SLA 99.9%

✓ HDP (Hortonworks Data Platform) がベース

✓ Azureとの連携部分を強化

Hortonworksとマイクロソフトが協業し、Sparkをマネージドサービスとして提供

2016年4月

Spark 1.6.0

(Linux)

Spark 1.3.1 (Windows)

正式リリース

プレビュー

リリース

設計 構築 開発 テスト

設計 構築 開発 テスト

設計 構築 開発 テスト

設計開

発テスト

プラグインを活用した

開発により

納期の短縮化が可能

ZookeeperZookeeperZookeeper マスターノード

ヘッドノード

ワーカーノード

BLOB ストレージ

ヘッドノードは2重化がデフォルト

デフォルトのストレージとして使用

(I/F が HDFS)

ワーカーノード

ワーカーノード ノード追加はポータルから簡単に可能

BLOB ストレージ

ワーカーノード BLOB ストレージは Azure の各サービスが使用するため、他サービスとの親和性が良くツールも豊富

Spark を削除しても、BLOB のデータは全て残る。次回 Spark デプロイ時に再利用も可能

hadoop コマンドも利用可能

Azure Data Lake Store

ワーカーノード

ワーカーノード

ワーカーノード

ワーカーノード

Livy

外部アプリ

ワーカーノード

ワーカーノード

Cloudera とマイクロソフトの

OSS プロジェクト

http://livy.io/

REST I/F の仕様はこちらhttps://msdn.microsoft.com/ja-jp/library/mt613023.aspx

top related