web & mobile 05 06 08 · hadoop,spark,interactive query (llap),kafka,storm,hbase,r server...

19
http://azureplatform.azurewebsites.net/ 13 Management Tools 04 Web & Mobile 09 Internet of Things 01 Compute 06 Databases 10 Enterprise Integration 02 Networking 07 Analytics 11 Security + Identity 05 Containers 03 Storage 08 AI + Machine Learning 12 Developer Tools 14 Microsoft Azure Stack 1

Upload: others

Post on 20-May-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Web & Mobile 05 06 08 · Hadoop,Spark,Interactive query (LLAP),Kafka,Storm,HBase,R Server 向けに最適化されたクラスターをAzure 上に即時作成 ... Apache Spark は、分散イン

http://azureplatform.azurewebsites.net/

13

Management Tools

04

Web & Mobile

09

Internet of Things

01

Compute

06

Databases

10

Enterprise Integration

02

Networking

07

Analytics

11

Security + Identity

05

Containers

03

Storage

08

AI + Machine Learning

12

Developer Tools

14

Microsoft Azure Stack

1

Page 2: Web & Mobile 05 06 08 · Hadoop,Spark,Interactive query (LLAP),Kafka,Storm,HBase,R Server 向けに最適化されたクラスターをAzure 上に即時作成 ... Apache Spark は、分散イン

07

Analytics

Page 3: Web & Mobile 05 06 08 · Hadoop,Spark,Interactive query (LLAP),Kafka,Storm,HBase,R Server 向けに最適化されたクラスターをAzure 上に即時作成 ... Apache Spark は、分散イン

Azure HDInsight

https://docs.microsoft.com/ja-jp/azure/hdinsight/

3

Azure HDInsight は、Hortonworks Data Platform (HDP)ベースの Hadoop クラウド PaaS 型サービス

クラウドネイティブHadoop, Spark, Interactive query (LLAP), Kafka, Storm, HBase, R Server 向けに最適化されたクラスターを Azure 上に即時作成可能

低コストでスケーラブルクラスターをオンデマンドで作成、スケールアップ&ダウンが可能

セキュリティとコンプライアンスAzure Active Directory, VNet との統合、暗号化のサポートにより、企業のデータ資産を保護

監視Azure Log Analytics の統合によって、すべてのクラスターを監視できる一元化されたインターフェイスを提供

生産性Scala, Python, R, Java, .NET に対応した Visual Studio, Eclipse, IntelliJ などの優れた生産性を持つツールを利用可能

機能拡張スクリプトアクションを使ってコンポーネント (Hue, Presto など) を導入したり、エッジノードを追加したり、定評のある他のビッグデータアプリケーションと連携したりすることで、HDInsight のクラスターを拡張可能

SELECT * FROM hivesampletable;

Page 4: Web & Mobile 05 06 08 · Hadoop,Spark,Interactive query (LLAP),Kafka,Storm,HBase,R Server 向けに最適化されたクラスターをAzure 上に即時作成 ... Apache Spark は、分散イン

Azure HDInsightSpark

https://docs.microsoft.com/ja-jp/azure/hdinsight/spark/apache-spark-overview

4

Apache Spark は、分散インメモリ型のビッグデータ分析プラットフォームで、Azure HDInsight - Spark は、PaaS 型サービスとして提供。

Spark クラスターを即時作成Azure Portal, PowerShell, HDInsight .NET SDK を利用して、HDInsight に新しい Spark クラスターを数分で作成可能。

使いやすさJupyter Notebook と Zeppelin Notebook をすぐに利用可能。

REST APIジョブの送信と監視をリモートで実行する REST API ベースのSpark ジョブサーバーである Livy を構成済み。

BIツールとの統合Power BI や Tableau などの BI ツールへのコネクタを提供。

Azure サービスとの統合追加のストレージとして Azure Data Lake Store を構成可能。Azure Event Hubs へのコネクタにより、Kafkaに加え、Event Hubs を使用したストリーミングアプリケーションを作成可能。

SSD へのキャッシュデータのキャッシュ先を、メモリまたはクラスターノードに取り付けられている SSD から選択可能。

スケーラビリティクラスターを拡大、縮小可能。

Page 5: Web & Mobile 05 06 08 · Hadoop,Spark,Interactive query (LLAP),Kafka,Storm,HBase,R Server 向けに最適化されたクラスターをAzure 上に即時作成 ... Apache Spark は、分散イン

Azure HDInsightKafka

https://docs.microsoft.com/ja-jp/azure/hdinsight/kafka/apache-kafka-introduction

5

Apache Kafka は、オープンソースの分散ストリームプラットフォームで、Azure HDInsight - Kafka は、PaaS 型サービスとして提供。

Kafka クラスターを即時作成Azure Portal, PowerShell, HDInsight .NET SDK を利用して、HDInsight に新しい Kafka クラスターを数分で作成可能。

発行-購読のメッセージングパターンKafka トピックにレコードを発行するためのプロデューサーAPI とトピックの購読の為のコンシューマー API を提供。

ストリーム処理Kafka 0.10.0.0 (HDInsight バージョン 3.5 および 3.6) では、Storm や Spark を必要とせずに、ストリーミングソリューションを構築できるストリーミング API を提供。

水平スケールKafka は、HDInsight クラスター内のノード間でストリームを分割。コンシューマープロセスを各パーティションと関連付けることで、負荷分散を実現可能。

順番どおりに処理各パーティション内で、レコードは受信された順番にストリームに格納され、パーティション単位でレコードが順番通りに確実に処理される。

スケーラビリティクラスターを拡大、縮小可能

# SSH でクラスター (ヘッドノード) に接続 (ssh [email protected])

# test という名称のトピックを生成

# test トピックにレコードを書き込む

# テキストメッセージ入力 & Enter キーを繰り返し、最後に Ctrl + C

Page 6: Web & Mobile 05 06 08 · Hadoop,Spark,Interactive query (LLAP),Kafka,Storm,HBase,R Server 向けに最適化されたクラスターをAzure 上に即時作成 ... Apache Spark は、分散イン

Azure HDInsightStorm

https://docs.microsoft.com/ja-jp/azure/hdinsight/storm/apache-storm-overview

6

Apache Stormは、分散型でフォールトトレランスに優れたオープンソースのリアルタイムストリーム処理プラットフォームで、Azure HDInsight - Storm は、PaaS 型サービスとして提供。

Storm クラスターを即時作成Azure Portal, PowerShell, HDInsight .NET SDK を利用して、HDInsight に新しい Strom クラスターを数分で作成可能。

様々な言語でソリューションを作成Storm コンポーネントは、Java、C#、Python など、さまざまな言語で作成可能。

• C# トポロジの開発・管理・監視を目的として、Visual Studio と HDInsight を連携させることが可能。詳細は、HDInsight Tools for Visual Studio を使用した C# Storm トポロジの開発を参照

• Trident Java インターフェイスをサポート。複数メッセージを 1 回の処理で、トランザクションを用いたデータストア永続化、共通的なストリーム分析操作のセットをサポートする Storm トポロジの作成が可能

Azure サービスとの統合Azure Event Hubs, Azure SQL Database, Azure Storage, Azure Data Lake Store など、様々な Azure サービスを使ってストリーミングパイプラインを作成可能。

スケーラビリティクラスターを拡大、縮小可能。

# SSH でクラスター (ヘッドノード) に接続 (ssh [email protected])

https://clustername.azurehdinsight.net/stormui

Page 7: Web & Mobile 05 06 08 · Hadoop,Spark,Interactive query (LLAP),Kafka,Storm,HBase,R Server 向けに最適化されたクラスターをAzure 上に即時作成 ... Apache Spark は、分散イン

Azure HDInsightHBase

https://docs.microsoft.com/ja-jp/azure/hdinsight/hbase/apache-hbase-overview

7

Apache HBase は、オープンソースの NoSQL データベースで、Azure HDInsight - HBase は、PaaS 型サービスとして提供。

HBase クラスターを即時作成Azure Portal, PowerShell, HDInsight .NET SDK を利用して、HDInsight に新しい HBase クラスターを数分で作成可能。

Azure HDInsight での HBase の実装方法クラスターは、Azure Storage または Azure Data Lake Store にデータを直接格納するよう構成されている。

HDInsight HBase 内のデータの管理方法

• HBase 内のデータは、HBase シェルから create, get, put,scan というコマンドを使用して管理可能。

• HBase の C# API を使用してデータを管理することも可能。プログラミングモデルについては、HDInsight の Hadoop 環境での HBase の使用を参照。

HBase のユースケース

• Key-Value ストア:メッセージシステムにストアに適合

• SNS分析/時系列分析:OpenTSDB のストアとして利用

• リアルタイムクエリ:Phoenix のストアとして利用

• アプリプラットフォーム:Phoenix, OpenTSDB, Kiji, Titan などのアプリケーションは、HBase の最上層で実行される

スケーラビリティクラスターを拡大、縮小可能

# SSH でクラスター (ヘッドノード) に接続 (ssh [email protected])

# HBase shell を起動

hbase shell

create 'Contacts','Personal','Office’

list

put 'Contacts','1000','Personal:Name','John Dole'

put 'Contacts','1000','Personal:Phone','1-425-000-0001'

put 'Contacts','1000','Office:Phone','1-425-000-0002'

put 'Contacts','1000','Office:Address','1111 San Gabriel Dr.'

scan 'Contacts'

get 'Contacts','1000'

Beeline を使用して Hive を起動

# SSH でクラスター (ヘッドノード) に接続 (ssh [email protected])

beeline -u 'jdbc:hive2://localhost:10001/;transportMode=http' -n admin

外部テーブルの作成と参照

CREATE EXTERNAL TABLE hbasecontacts(rowkey STRING, name STRING, homephone STRING, officephone STRING, officeaddress STRING)

STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler'

WITH SERDEPROPERTIES ('hbase.columns.mapping' = ':key,Personal:Name,Personal:Phone,Office:Phone,Office:Address')

TBLPROPERTIES ('hbase.table.name' = 'Contacts’);

SELECT * FROM hbasecontacts;

Page 8: Web & Mobile 05 06 08 · Hadoop,Spark,Interactive query (LLAP),Kafka,Storm,HBase,R Server 向けに最適化されたクラスターをAzure 上に即時作成 ... Apache Spark は、分散イン

Azure HDInsightIntegration with Azure Log AnalyticsHadoop と Spark のワークロードに対して、エンタープライズグレードのモニタリング機能を提供

https://docs.microsoft.com/ja-jp/azure/hdinsight/hdinsight-hadoop-oms-log-analytics-tutorial

8

• すべての HDInsight クラスターと関連する Azure

リソースをシングルプレーンで監視可能。

• 拡張されたワークロードに特化したダッシュボードと洗練された分析クエリ言語による高度な分析が可能。

• 複数のオープンソースサービスからデータを収集し、関連付けを行うことが可能。

• 組込みの Log Analytics アラートインフラストラクチャーを用いて、クリティカルな問題に 対するアラートを上げることが可能。

• Hadoop, Yarn, Spark, Kafka, Storm, HBase, Hive のログとメトリクスを1カ所で管理することで、トラブルシューティングを迅速に実施可能。

• インタラクティブクエリーを利用することで、リッチなログ探索を実行可能。

Page 9: Web & Mobile 05 06 08 · Hadoop,Spark,Interactive query (LLAP),Kafka,Storm,HBase,R Server 向けに最適化されたクラスターをAzure 上に即時作成 ... Apache Spark は、分散イン

VSCode Integration with HDInsight

クロスプラットフォームエディターであるVisual Studio Codeと Spark & Hive ワークロードの統合

https://docs.microsoft.com/ja-jp/azure/hdinsight/hdinsight-for-vscode?branch=pr-en-us-26060

9

• IntelliSense, Auto Suggest, Auto Complete, エラーマーカーなどのような組込みの Python 言語サービスを提供。

• PySpark インタラクティブにより、1行から複数行のステートメント実行が可能

• PySpark インタラクティブクエリの結果を表示したり、CSV, JSON, Excel フォーマットにエクスポートが可能。

• HDInsight クラスター管理とクエリ送信の統合

• Spark UI や Yarn UI にリンクし、トラブルシューティングが可能

Page 10: Web & Mobile 05 06 08 · Hadoop,Spark,Interactive query (LLAP),Kafka,Storm,HBase,R Server 向けに最適化されたクラスターをAzure 上に即時作成 ... Apache Spark は、分散イン

Advanced development tools for Spark

複数の Spark 実行環境 (Executor) で動作するSpark アプリケーションの分散デバッグ

https://docs.microsoft.com/ja-jp/azure/hdinsight/spark/apache-spark-intellij-tool-plugin

https://docs.microsoft.com/ja-jp/azure/hdinsight/spark/apache-spark-intellij-tool-debug-remotely-through-ssh 10

• IntelliJ を使って、HDInsight クラスター上の Spark

アプリケーションをリモートで実行&デバッグ可能。

• Driver と Executor のコード両方にブレークポイントを設定可能。Executor コードのデバッグを利用して、開発者が RDD の値を見たり、分散タスク操作を追跡したり、ステップ実行することで、データに関連したエラーを発見し易くできる。

• Spark の外部ライブラリにブレークポイントを設定することで、Spark コードや Framework の中にステップインできる。

• Driver と Executor の両方の実行ログをコンソールパネルで見ることができる。

Page 11: Web & Mobile 05 06 08 · Hadoop,Spark,Interactive query (LLAP),Kafka,Storm,HBase,R Server 向けに最適化されたクラスターをAzure 上に即時作成 ... Apache Spark は、分散イン

Enterprise Security Package for HDInsight

https://docs.microsoft.com/en-us/azure/hdinsight/hdinsight-domain-joined-introduction

11

Hadoop, Spark, インタラクティブクエリワークロードに対するエンタープライズグレードのセキュリティを提供

認証

Azure Active Directory Domain Services を使用して、ドメイン参加済み HDInsight クラスターを仮想ネットワークに作成可能。ドメイン資格情報を使用して、クラスターと対話する他の承認済みエンドポイント (Hue, Ambari Views, ODBC,JDBC, PowerShell, REST API など) で認証を行うことも可能。

承認

管理者はクラスターリソースのロールベースのアクセス制御ポリシーを定義可能。管理者は Apache Ranger を構成してHive のアクセス制御ポリシーを設定可能。

監査

管理者は HDInsight クラスターリソースとデータへのすべてのアクセスを表示し、レポートを作成可能。ドメイン参加済み HDInsight クラスターでは、使い慣れた Apache Ranger UI を使用して監査ログを検索。Ranger はログの保存と検索にApache Solr を使用。

暗号化

HDInsight クラスター, Azure Blob Storage, Azure Data Lake Store のデータストアは、保存データの透過的なサーバー側暗号化をサポート。

Page 12: Web & Mobile 05 06 08 · Hadoop,Spark,Interactive query (LLAP),Kafka,Storm,HBase,R Server 向けに最適化されたクラスターをAzure 上に即時作成 ... Apache Spark は、分散イン

Azure Stream Analytics

SQL ベースで、リアルタイムストリーム分析/処理が可能なスケーラブルなプラットフォーム

入力

ストリームデータとして IoT Hub, Event Hubs, Blob Storageへの直接接続が可能。参照データとして Blob Storage を別途構成することも可能

出力

永続ストレージ (Blob & Table Storage, SQL Database, Data Lake Store, Cosmos DB) への格納、一時ストレージ (Event Hubs, Service Bus Topic & Queue) を介した自動化、Power BI へのリアルタイムプッシュ、Functions へのプッシュが可能

容易な編集&分析

SQL ライクな Stream Analytics クエリ言語による容易な編集と分析が可能

ユーザー定義関数・ユーザー定義集計との統合

[関数]の[追加]から JavaScript ベースのユーザー定義関数(UDF) やユーザー定義集計 (UDA) が作成でき、Stream Analytics クエリ言語から呼び出し可能

Azure Machine Learning との統合

[関数]の[追加]から Azure ML スコア付け Web サービスの呼び出しを定義でき、Stream Analytics クエリ言語から UDF として呼び出し可能

https://docs.microsoft.com/ja-jp/azure/stream-analytics/stream-analytics-introduction

12

Page 13: Web & Mobile 05 06 08 · Hadoop,Spark,Interactive query (LLAP),Kafka,Storm,HBase,R Server 向けに最適化されたクラスターをAzure 上に即時作成 ... Apache Spark は、分散イン

Azure Data Lake Analytics

Azure Data Lake Analytics は、ビッグデータをシンプルに扱うことができるオンデマンド分析ジョブサービス

動的スケーリング

リソースを動的にプロビジョニングする為、エクサバイト規模のデータも分析が可能。ジョブが完了するとリソースは自動的に縮小され、使用した処理能力分だけ支払いで済む。

U-SQL:シンプルで使い易く、強力で、拡張が可能

U-SQL は、Microsoft 内のビッグデータシステムを支えているものと同じ分散ランタイムをベースにしており、シンプルで使い易い宣言的な特性の C# の表現力で拡張するクエリ言語。

使い慣れたツールで、高い生産性と最適化を実現

Data Lake Analytics は Visual Studio 上でのコード実行、デバッグ、チューニングが可能。U-SQL ジョブは視覚化されるので、コードがどのように大規模に実行されるのかを可視化可能。

高いセキュリティ

Data Lake Analytics は、Active Directory と統合されており、ユーザー管理とアクセス制御、監視と監査の機能も組み込まれている。

リーズナブルな料金と高いコスト効率

Data Lake Analytics は、ジョブ実行時のみ課金され、それ以外の定常的なコンピューティング費用は不要。

https://docs.microsoft.com/ja-jp/azure/stream-analytics/stream-analytics-introduction

13

U-SQL は、Azure 上の様々なデータソースへのクエリが可能

利用統計 (compute hours) の可視化

U-SQL スクリプトの編集

U-SQL ジョブの実行

実行ジョブのキャンセル

ジョブを実行可能なユーザーのプロビジョニング

ジョブ管理チャートの可視化

Data Lake Analytics アカウントの作成

Page 14: Web & Mobile 05 06 08 · Hadoop,Spark,Interactive query (LLAP),Kafka,Storm,HBase,R Server 向けに最適化されたクラスターをAzure 上に即時作成 ... Apache Spark は、分散イン

Azure Data Catalog

Azure Data Catalog は、様々なデータソースをメタデータ化することで、欲しいデータ、貴重なデータを見つけることを容易にする

様々なデータソースを登録

Azure の各種 Data Services, SharePoint, 多様な RDB リソース, HTTP エンドポイント, Hadoop など、50 以上のデータソースを登録可能。

組織内のカタログを検索・編集

メタデータを基に検索したり、内容をプレビューしたり、検索条件を保存したり、注釈を付けたり、ドキュメントと関連付けたりすることが可能。

Azure AD によるユーザー管理

高度なセキュリティと検索容易性のバランスを取ることは、極めて重要であり、Azure AD を利用することで、システム管理者は安心を、利用者は利便性を享受することが可能。

https://docs.microsoft.com/ja-jp/azure/data-catalog/data-catalog-what-is-data-catalog

14

Page 15: Web & Mobile 05 06 08 · Hadoop,Spark,Interactive query (LLAP),Kafka,Storm,HBase,R Server 向けに最適化されたクラスターをAzure 上に即時作成 ... Apache Spark は、分散イン

Azure Analysis Services

https://docs.microsoft.com/ja-jp/azure/analysis-services/

15

Azure Analysis Services は、SSAS (SQL Server Analysis Services) のインメモリ分析 DB をAzure の PaaS として提供

Azure Portal 上でサービスを作成Azure Portal から Azure Analysis Services の環境を作成することが可能

Azure Portal 上でのデザインAzure Portal から Web デザイナーを立ち上げて、表形式のインメモリ分析モデルをデザインすることが可能

SQL Server Data Tools によるデザインSQL Server Data Tools (SSDT: 無償ツール) を利用して、表形式のインメモリ分析モデルをデザインし、Azure Analysis Services にディプロイすることが可能

Power BI, Excel, 3rdパーティ製品による分析Power BI Desktop / Power BI Services, Excel, Tableau などから Azure Analysis Services に対して、ダイレクトクエリによる分析と可視化を行うことが可能

Page 16: Web & Mobile 05 06 08 · Hadoop,Spark,Interactive query (LLAP),Kafka,Storm,HBase,R Server 向けに最適化されたクラスターをAzure 上に即時作成 ... Apache Spark は、分散イン

Azure Event HubsAzure Event Hubs は大規模なデータストリーミングプラットフォームであり、毎秒数百万のイベントを受け取って処理できるイベントインジェストサービス

イベント生成元/発行元

イベントハブにデータを送信するエンティティ。イベントはAMQP 1.0 または HTTPS を介して発行される。

キャプチャ

Event Hubs ストリーミングデータをキャプチャし、Azure Blob Storage, Azure Data Lake Store に格納することが可能。

パーティション

各コンシューマーイベントは、ストリームの特定のサブセットまたはパーティションのみを読み取ることが可能。

SAS トークン

イベント発行元を識別および認証を行う。

イベントコンシューマー

イベントハブからイベントデータを読み取るエンティティ。イベントコンシューマーは AMQP 1.0 を介して接続。

コンシューマーグループ

複数のコンシューマーアプリケーションに個別のイベントストリームビューを提供することで、コンシューマーごとに独立した操作を実現。

スループットユニット

1 スループットユニット当たり、Ingress=1秒あたり最大で1 MB または 1,000 events, Egress=1秒あたり最大で 2 MB

https://docs.microsoft.com/ja-jp/azure/event-hubs/event-hubs-what-is-event-hubs

16

Azure Event Hubs は、デバイスや Web からの大規模なストリーミングデータの入り口であり、デバイス観点では Azure IoT Hub と良く似ている。使い分けについては、デバイス管理が必要かどうかで判断。Event Hubs 特有の機能としては、キャプチャがある。

Azure Event Hubs は、パーティションとスループット ユニットによるスケール機能を持つ。

✓ 大規模なストリーミング プラットフォームを即時作成

✓ Azure Storage Blob, Azure Data Lake Store へのキャプチャ

✓ Azure Stream Analytics によるリアルタイム分析

✓ 自動化された高度な可用性

などの恩恵をすぐに享受できる

Page 17: Web & Mobile 05 06 08 · Hadoop,Spark,Interactive query (LLAP),Kafka,Storm,HBase,R Server 向けに最適化されたクラスターをAzure 上に即時作成 ... Apache Spark は、分散イン

Power BI EmbeddedPower BI Embedded は、ISV や開発者がPower BI の機能を簡単に使えるようにするサービス

前提事項

Power BI Embedded を利用する為には、Power BI テナントが存在する必要があり、その為には、組織内のユーザーが少なくとも 1 名、Power BI にサインアップしておく必要がある。

Azure AD にアプリケーションを登録

カスタムアプリケーションへの埋め込みにあたっては、Azure AD に登録されたアプリケーションが必要。アプリケーションの Azure AD への登録方法は「Azure AD アプリを登録して Power BI コンテンツを埋め込む」を参照。

アプリケーションにコンテンツを埋め込む

Power BI コンテンツ (ダッシュボード、タイル、レポート)

の埋め込みには、REST API と JavaScript API を使用。詳細は、

「ダッシュボード、タイル、レポートをアプリケーションに統合する」を参照。

容量を取得して運用環境に移行

アプリケーションを運用環境に移行するには、Azure にPower BI Embedded の容量 (専用のコンピューティングリソース) を作成すると、Power BI 管理ポータルから割り当てを確認できる。詳細は、「Create Power BI Embedded capacity in the Azure portal 」を参照。

https://docs.microsoft.com/ja-jp/azure/power-bi-embedded/what-is-power-bi-embedded

17

✓ ISV であれば、Power BI Desktop を使って無料でビジュアルの作成を始めることができ、ビジュアル分析機能の開発にかかる労力を最小化して市場投入までの時間を短縮。データに関するエクスペリエンスを差別化して競合をリードすることも、埋め込んだ分析機能により新たな価値を創造することができる。

✓ 開発者であれば、ビジュアルや分析の開発に時間を費やすことなく、アプリケーションの核となる部分の開発に集中でき、レポートやダッシュボードに関するお客様からの要求にすばやく対応し、API と SDK を使って簡単に埋め込むことができる。

✓ エンドユーザーであれば、デバイスを問わずデータと文脈に基づいた意思決定をすばやく、かつ自信を持って下すことができる。

Power BI Embedded の容量を作成

(=仮想マシンリソースを割り当てる)

Power BI 管理ポータル (Power BI サービスの上部の歯車から選択) で、Power BI Embedded の割り当て容量を確認

Page 18: Web & Mobile 05 06 08 · Hadoop,Spark,Interactive query (LLAP),Kafka,Storm,HBase,R Server 向けに最適化されたクラスターをAzure 上に即時作成 ... Apache Spark は、分散イン

Azure Databricks

https://docs.microsoft.com/ja-jp/azure/azure-databricks/

18

Azure Databricks は、Apache Spark ベースの完全マネージド型分析プラットフォーム

クラウド内の完全に管理された Spark クラスター

• 即時のクラスター作成、クラスターの複製が可能

• クラスターを動的かつ自動的にスケールアップ&ダウンでき、チーム間での共有が可能

• REST API を使ってプログラムからクラスターを利用可能

• Spark 上に構築されたセキュリティ保護されたデータ統合機能により、Hub 型のデータ統合が可能

• I/O レイヤと処理レイヤを最適化し、高速な Spark 処理を実現

コラボレーション ワークスペース

• R, Python, Scala, SQL を Notebook で利用可能

• 数回のクリックでデータを視覚化でき、Matplotlib, ggplot, d3 などの使い慣れたツールを使うことが可能

• 対話型ダッシュボードを使って、動的なレポートを作成可能

Transactional Data Lake

• Azure Databricks Delta による読み取り一貫性と更新をサポート

エンタープライズ セキュリティ

• Azure AD と統合され、ノートブック、クラスター、ジョブ、およびデータに対してきめ細かいユーザー権限を設定可能

• ディプロイ時に VNet に統合

Azure データサービス、Power BI サービスとの統合

• SQL Data Warehouse, Cosmos DB, Data Lake Store, Blob Storage などのサービスとネイティブに統合

• Power BI とのリッチな統合、Tableau などの BI 製品とはJDBC/ODBC クラスターエンドポイントを介して利用可能

Page 19: Web & Mobile 05 06 08 · Hadoop,Spark,Interactive query (LLAP),Kafka,Storm,HBase,R Server 向けに最適化されたクラスターをAzure 上に即時作成 ... Apache Spark は、分散イン

Databricks を選択する理由:圧倒的な高性能

◆Spark on AWS よりも 5 倍高速

TPC-DS 性能 (DBR 3.0)-単体性能

◆Presto on AWS よりも 8 倍高速(ANSI SQL 標準に対応したよりリッチなクエリ)

◆オンプレミスの Cloudera Impala より 3 倍高速

TPC-DS 性能 (DBR 3.0)-複数ユーザーによる同時実行性能