de:code 2019 DP05
最新 Azure Big Data デザイン概論ー IoT からビジネスデータまで統合導線設計
AzureCAT / Azure Global
Microsoft Corporation
佐々木明夫
現代の技術環境
セキュリティとプライバシー保護と秘匿性
自由な選択肢どこからでも
どのデータへもアクセス
データウェアハウス
データレイク
オペレーション・業務DB
ソーシャル業務 グラフ IoT画像・動画CRM
ハイブリッド
データウェアハウス
データレイク
オペレーション・業務DB
モデリングトレイン
Databricks
HDInsight
Data Lake Analyticsカスタムアプリ
センサーデバイス
保存
Azure Data
Lake Storage
インジェスト
Data Factory(Data movement, pipelines & orchestration)
Machine
Learning
Cosmos DB
SQL Data
Warehouse
Analysis Services
Event Hub
IoT Hub
SQL Database
分析ダッシュボード
予測
レポート
Intelligence
全体像
ビジネスアプリ
1001
SQLKafka
Advanced Analytics
Social
LOB
Graph
IoT
Image
CRM
INGEST STORE PREP & TRAIN MODEL & SERVE
Data orchestration
and monitoring
Big data store Analytics engines Data warehouse
BI + Reporting
ビッグデータ&データウェアハウス
Real Time Analytics
Azure関連サービス群
Azure Data
Factory
Azure Import/Export
service
Azure SDKAzure CLI
Cognitive servicesBot serviceAzure Search Azure Data Catalog
Azure ExpressRoute Azure network
security groups
Azure Functions Visual StudioOperations
Management Suite
Azure Active Directory Azure key
management service
Azure Blob Storage Azure Data Lake
Storage
Azure IoT Hub Azure event hubs
Kafka on Azure HDInsight
Azure SQL data warehouseAzure SQL DB Azure Cosmos DB Azure Analysis Services Power BI
Azure Data
Lake Analytics
Azure
HDInsight
Azure
Databricks
Azure
HDInsight
Azure
Databricks
Azure Stream
Analytics
Azure ML Azure
Databricks
ML Server
Azure Data
Factory
Azure Import/Export
service
Azure SDKAzure CLI
Cognitive servicesBot serviceAzure Search Azure Data Catalog
Azure ExpressRoute Azure network
security groups
Azure Functions Visual StudioOperations
Management Suite
Azure Active Directory Azure key
management service
Azure Blob Storage Azure Data Lake
Storage
Azure IoT Hub Azure event hubs
Kafka on Azure HDInsight
Azure SQL data warehouseAzure SQL DB Azure Cosmos DB Azure Analysis Services Power BI
Azure Data
Lake Analytics
Azure
HDInsight
Azure
Databricks
Azure
HDInsight
Azure
Databricks
Azure Stream
Analytics
Azure ML Azure
Databricks
ML Server
ビッグデータと高度データ分析
新世代データウェアハウス
“データウェアハウスにすべてのデータを集約したい”
高度データ分析
“ロスト危機にある顧客を特定したい”
リアルタイム分析
“リアルタイムで端末機器からインサイトを得たい”
新世代データウェアハウスはデータウェアハウスのETLを越えたビッグデータ機能を提供すると定義。
新世代データウェアハウス
“データウェアハウスにすべてのデータを集約したい”
高度データ分析
“ロスト危機にある顧客を特定したい”
リアルタイム分析
“リアルタイムで端末機器からインサイトを得たい”
伝送 保存 加工Train(トレイン)
モデル化、出力
新世代データウェアハウス
Azure Blob Storage
Logs, files and media
(非構造化)
Azure SQL Data
Warehouse
Azure Data Factory
Azure Analysis
Services
Azure Databricks(Python, Scala, Spark SQL)
Polybase
Business/custom apps
(構造化)
Power BI
Azure also supports other Big Data services like Azure HDInsight and Azure Data Lake to allow customers to tailor the above architecture to meet their unique needs.
高度データ分析(Advanced analytics)高度データ分析はとは機械学習や深層学習の技術を活用して予兆、規則性の特定を行います。
新世代データウェアハウス
“データウェアハウスにすべてのデータを集約したい”
高度データ分析
“ロスト危機にある顧客を特定したい”
リアルタイム分析
“リアルタイムで端末機器からインサイトを得たい”
INGEST STORE PREP & TRAIN MODEL & SERVE
高度データ分析( A D V A N C E D A N A L Y T I C S )
Azure Blob Storage
Logs, files and media
(unstructured)
Azure SQL Data
Warehouse
Azure Data Factory
Azure Analysis
Services
Polybase
Business/custom apps
(Structured)
Power BI
AzureはAzure HDInsightやAzure Data Lakeなど更に大規模なビッグデータ環境に合わせてコンポーネント単位で切り替えが可能。
Azure Databricks(Python, Scala, Spark SQL)
Azure Databricks(Spark ML, Spark R, SparklyR)
Intelligent Apps
Cosmos DB
リアルタイム分析—別名ストリームアナリティクス—データが生成されると即時処理し、得られたインサイトから早期対応できる一連の運用と定義。
新世代データウェアハウス
“データウェアハウスにすべてのデータを集約したい”
高度データ分析
“ロスト危機にある顧客を特定したい”
リアルタイム分析
“リアルタイムで端末機器からインサイトを得たい”
INGEST STORE PREP & TRAIN MODEL & SERVE
リアルタイム分析
Logs, files and media
(unstructured)
Sensors and IoT
(unstructured)
HDInsight
(Kafka)
Power BIAzure Databricks(Python, Scala, Spark SQL)
Intelligent Apps
Cosmos DBEvent Hub
IoT HubAzure Databricks
(Spark ML, Spark R, SparklyR)
Azure Blob Storage
Batch Data
(Apps, logs)Azure Data Factory
INGEST STORE PREP & TRAIN MODEL & SERVE
A Z U R Eラムダパターン
Azure Blob Storage
Batch Data
(Apps, logs)
Streaming Data
(web, sensors &
IoT)
Azure Data Factory
HDInsight
(Kafka)
Power BIAzure Databricks(Python, Scala, Spark SQL)
Azure SQL Data
WarehouseAzure Analysis
Services
IoT Hub
Event HubIntelligent Apps
Cosmos DBAzure Databricks(Spark ML, Spark R, SparklyR)
新世代データウェアハウスはデータウェアハウスのETLを越えたビッグデータ機能を提供すると定義。
新世代データウェアハウス
“データウェアハウスにすべてのデータを集約したい”
高度データ分析
“ロスト危機にある顧客を特定したい”
リアルタイム分析
“リアルタイムで端末機器からインサイトを得たい”
出力データ処理入力
構成要素の骨組み
伝送と保存
データウェアハウス処理前に行うデータ加工と格納を行う
ダッシュボード
Business and custom
apps(structured)
Logs, files, and media
(unstructured)
r
データ処理ストレージに格納
Data Lake Store Azure Storage
出力用ストレージ
Azure SQL DW
AAS
Cosmos DB
業務引用データ
Cosmos DB SQL DB
アプリケーション
HDInsight Azure Data Lake Analytics
Azure Databricks
Data
factory
Azure Import/Export
Service
APIs, CLI, and
GUI tools
Azure Data
Box
データ伝送制御と手段
データ伝送:データソース(情報生成する端末)からデータ処理を開始する最初の保存領域まで伝送する工程と仕組みと定義する。
特性と機能における比較
選択する経路 低遅延(5 to 10 ms) 秘匿性 信頼性
インターネット X Good
VPN X Good
ExpressRoute
(専用線)X X Best
特性と機能における比較
Azure Import/Export service Azure Data Box
物理構成 内部 SATA HDDs、またはSDD セキュア、改ざん防止、単体HWアプライアンス
物流をマイクロソフトが管理 X 〇
パートナー製品とインテグレーション X 〇
購買、複数ドライブへデータ移動の運用管理コスト
X 〇
Azure CLI AzCopy PowerShell AdlCopy Distcp Sqoop PolyBaseHadoop
command line
利用可能なプラットホームLinux, OS X,
Windows
Linux,
WindowsWindows
Linux, OS X,
Windows
Hadoop/
HDInsight *
Hadoop/
HDInsight *
Windows with
SQL Server
instance, Azure
SQL Data
Warehouse
Hadoop/
HDInsight *
リレーショナルDBへ双方向コピー X X X X X 〇 〇 X
blob storageへのコピー 〇 〇 〇 X 〇 〇 〇 〇
blob storageからのコピー 〇 〇 〇 〇 〇 〇 〇 X
data lake storeへのコピー X X 〇 〇 〇 〇 〇 〇
data lake storeからのコピー X X 〇 〇 〇 〇 〇 X
ビッグデータに最適化 X X X 〇 ** 〇 〇 〇 *** 〇
* Linux, OS X, Windowからコマンドライン、シェルから実行可能。** AdlCopyはAzure Data Lake Analytics アカウントからビッグデータ伝送の用途に最適化されている。*** PolyBaseパフォーマンス向上方法としてHadoopに処理をまかせ、 PolyBase scale-out groupsを利用してSQL Serverインスタンス群とHadoopノード群間で並列伝送が可能。
特性と機能における比較
Azure Storage Explorer Azure Portal* Azure Data Factory
リレーショナルDBへのコピー X X 〇
blob storageへコピー 〇 X 〇
blob storageからのコピー 〇 X 〇
data lake storeへコピー X X 〇
data lake storeからのコピー X X 〇
blob storageへアップロード 〇 〇 〇
data lake storeへアップロード 〇 〇 〇
データ伝送の制御オーケストレーション
X X 〇
データ変換のカスタマイズ
X X 〇
GUIツール特性と機能における比較
ストレージへのデータ伝送
Applications
Dashboards
Business/custom apps
(structured)
Logs, files, and media
(unstructured)
r
Azure
Storage/
Data Lake
Store
データ伝送制御
Azure Data
Factory
加工無しでファイルをスケジューリングして
Data Lakeに格納
データストレージ
Data ingest:保持されるストレージで、その後処理を行う各処理エンジンがデータソースとしてアクセスするターゲットになります。
要件項目 備考
キャパシティ最大容量
テラ、ペタバイト級のデータ量を経済的に保存可能であるべき、ストレージがオブジェクト数と関連メタデータの格納できる仕様であること。
パフォーマンスデータ伝送のスピードに合わせて高速に保存できる必要がある、広帯域、高スループット、低遅延が望まれる。
マルチティア(長期保存対応)
月、年単位の長期保存に合わせ経済性に耐えるオプションを備えておくこと。(ホット、クール、アーカイブ)
マルチオブジェクトサイズ
オブジェクトは個別に保存管理可能が可能なこと—ギガバイト、テラバイト
レプリケーション複製機能
保全性、帯域、データガバナンス: LRS vs GRS
ファイルストレージ要件
Azure Data Lake Storage Azure Blob Storage containers
用途 Optimized storage for big data analytics workloadsGeneral purpose object store for a wide variety of
storage scenarios
構成 階層型ファイルシステム Object store with flat namespace
API REST API over HTTPS REST API over HTTP/HTTPS
Analytics workload performanceOptimized performance for parallel analytics workloads, high
throughput and IOPS分析用途の最適化されていない
サイズ制限 理論上の上限無し Max 500 TB per account and 4.75 TB per file
ジオ(大陸)間の冗長Locally-redundant (multiple copies of data in one Azure region)
Blobと同等化予定
Locally redundant (LRS), globally redundant (GRS), and
read-access globally redundant (RA-GRS). See Azure
Storage replication for more information
提供状況 サービス開始済 サービス開始済
提供データセンター 限定的(拡大予定) 全Azureリージョン対応
ファイルストレージ特性と機能における比較
Applications
DashboardsBusiness/custom apps
(structured)
Logs, files, and media
(unstructured)
r
データ保存ストレージ
Azure Storage/
Data Lake Store
データ伝送制御
Azure Data
Factory
加工無しでファイルをスケジューリングして
Data Lakeに格納
データを初期記憶領域に配置
Applications
DashboardsBusiness/custom apps
(structured)
Logs, files, and media
(unstructured)
r
データ保存ストレージ
Azure Storage/
Data Lake Store
データ伝送制御
Azure Data
Factory
加工無しでファイルをスケジューリングして
Data Lakeに格納
SQL DB
Transactional storage
アプリケーションが直接トランザクションデータを管理する
データを初期記憶領域に配置
データ処理
要件 備考
スケーラビリティ容量許容値
処理力: 容量、速度許容範囲:価格限度
言語の選択 テクノロジーの選択:Python, Java, U-SQL, HiveQL, and R
制御方法の選択Azure Storage、Azure Data Lake Storeへ。SQL Data Warehouseなどの外部データソースへのクエリ
データ処理要件
データプロセシング:クレンジング、構造化、集約など分析処理が可能なようにデータを整える作業。このシナリオではバッチ処理(自動制御)にてデータウェアハウスにアップロードされる。
Azure Data Lake
Analytics
HDInsight with
Spark
HDInsight with
Hive
HDInsight with
Hive LLAP
SQL Data
WarehouseAzure Databricks
マネージドサービス
〇 〇 〇 〇 〇 〇
自動スケーリング X X X X X 〇
処理の一時停止(ポーズ)
X X X X 〇 〇
プログラミング U-SQLPython, Scala, Java, R,
SQLHiveQL HiveQL T-SQL
Python, Scala, Java,
SQL, R
プログラミング手法
宣言型と命令型 宣言型と命令型 宣言型 宣言型 宣言型 宣言型と命令型
価格モデルジョブ単位(ジョブx時間xユニット)
クラスタ/時間単位
クラスタ/時間単位
クラスタ/時間単位
クラスタ/時間単位
クラスタ/時間単位
データのバッチ処理特性と機能における比較
Azure Data Lake
Analytics
HDInsight with
Spark
HDInsight with
Hive
HDInsight with
Hive LLAP
SQL Data
WarehouseAzure Databricks
Access Azure Data Lake Store 〇 〇 〇 〇 〇 〇
Azure Storageへのクエリ 〇 〇 〇 〇 〇 〇
外部のリレーショナルデータベースへの九会あり(Azure SQL Database, SQL
Server on VM, Azure SQL Data
Warehouseなど)
〇 〇 〇 X 〇 〇
データのバッチ処理特性と機能における比較
Azure Data Lake
Analytics
HDInsight with
Spark
HDInsight with
Hive
HDInsight with
Hive LLAP
SQL Data
WarehouseAzure Databricks
スケールアウト単位 ジョブ単位 クラスタ単位 クラスタ単位 クラスタ単位処理ユニット(DWU)
クラスタ単位
高速スケールアウト(1分以下)
〇 X X X X 〇
インメモリのデータキャッシング
X 〇 X 〇 〇 〇
データのバッチ処理特性と機能における比較
Applications
DashboardsBusiness/custom apps
(structured)
Logs, files, and media
(unstructured)
r
Ingest storage
Azure Storage/
Data Lake Store
Data loading
Azure Data
Factory
Load flat files
into data lake on a
schedule
SQL DB
Transactional storage
Applications
manage their
transactional data
directly
Data processing
Read data from
files using DBFS
Orchestration
Azure Data
Factory
Extract and
transform relational
data
Load into SQL
DW tables
Azure Databricks
Azure Databrickでのデータ処理
Data serving とは分析クライアント(アプリケーション)やレポート生成ツール用に処理、加工されたデータ出力を指します。
データウェアハウスはバッチ処理と比較してより柔軟なクエリと高速なサービスを提供します。
SQL Database SQL Data Warehouse Azure Analysis Services
マージ度サービス 〇 (Azure SQL Database) 〇 〇
主要データベースも捏リレーショナル (columnar format
columnstore index利用時)Relational tables + columnar storage
Tabular +
MOLAP semantic model
SQL サポート 〇 〇 X
高速サービスの最適化されている〇(memory-optimized tables and
hash ・ nonclustered index)X X
Data serving特性と機能における比較
SQL Database SQL Data Warehouse Azure Analysis Services
Redundant regional servers for high availability
リージョン内でサーバの冗長化〇 (Azure SQL Database) 〇 X
クエリのスケールアウト X 〇 〇
動的パフォーマンス向上(スケールアっプ)
〇 (Azure SQL Database) 〇 〇
データのインメモリキャッシングをサポート
〇 〇 〇
Data serving特性と機能における比較
Applications
DashboardsBusiness/custom apps
(structured)
Logs, files, and media
(unstructured)
r
Ingest storage
Azure Storage/
Data Lake Store
Data loading
Azure Data
Factory
Load flat files
into data lake on a
schedule
SQL DB
Transactional storage
Applications
manage their
transactional data
directly
Data processing
DBFSでデータを読み込む
Orchestration
Azure Data
Factory
リレーショナルデータを抽出、変換
SQL DW
テーブルに書き込み
Azure Databricks
Serving storage
Azure SQL DW
処理済みのデータをテーブルに書き込み分析用に最適化
AzureデータウェアハウスパターンAzure Databricksでデータ処理
Hybrid architectures
ハイブリッド・アーキテクチャはデータストレージ、処理、提供をオンプレ、クラウド環境にわたり提供可能な形態を提供する。
遅延(5 -10 ms)
セキュアな伝送 信頼性
公衆インターネット X Good
VPN X Good
ExpressRoute(専用線) X X Best
A side-by-side comparison of the connectivity options
想定要件 備考
データパイプランをハイブリッド上で運用
Data Management Gateway と Azure Data Factory 利用。圧縮、並列伝送、リトライを組み込む。
SQL Server Integration Services
(SSIS)をクラウドで走らせるSSIS integration runtime (IR)を Azure Data Factoryにプロビジョニング。Azure Data Factory はSSISのオーケストレーションが可能。
ノンリレーショナルなデータをAzureに転送して処理、加工
Azure Data Factory:データパイプラインの管理処理、加工エンジン; Azure HDInsight Hadoop, Spark, Azure Data Lake Analytics, Azure
Machine Learning
Azure data factoryを選択するAzure Data Factoryがハイブリッド環境におけるデータパイプラン制御に合うパターン
Applications
Dashboards
Logs, files, and media
(unstructured)
r
Ingest storage Data processing
Azure
Storage/
Data Lake
Storage
Serving storage
SQL DW
Data loading
Azure Data
Factory
Read data from
files using DBFS
Load data into
tables optimized
for analytics
Enable querying via
TDS-compatible
clientsOn-premises
file share
Data
Management
Gateway
On-premises
Load data on a
scheduled basis
Azure Databricks
Azureデータウェアハウスパターンオンプレミスからデータをアップロード
セキュリティ
セキュリティ:
機密性の高いデータの保護とコンプライス要件に適合する機能と環境を提供する。
Azure Data Lake Store Azure Blob Storage containers
API REST API over HTTPS REST API over HTTP/HTTPS
データ運用制御:認証 Azure Active Directory Identities
共通鍵account access keys
shared access signature keys,
role-based access control (RBAC)
データ運用制御:認可POSIX access control lists (ACLs)
Azure Active Directory IDベース、ファイルとフォルダ単位ACL
アカウントレベル認証 account access keys.
アカウント、コンテナ、ブロブレベル認証 shared access
signature keys
保存状態時の暗号化➢ Transparent, server side
➢ With service-managed keys
➢ With customer-managed keys in Azure Key Vault
➢ Transparent, server side
➢ With service-managed keys
➢ With customer-managed keys in Azure Key Vault
(coming soon)
➢ Client-side encryption
運用管理(例:新規アカウント)
Role-based access control (RBAC) – アカウント管理用にAzure
が提供Role-based access control (RBAC)アカウント管理用にAzureが提供
データストレージのセキュリティA side-by-side comparison of the capabilities and features
Azure Data Lake
AnalyticsHDInsight with Spark
Apache Hive on
HDInsight
Hive LLAP on
HDInsightAzure Databricks
認証 Azure Active Directory XLocal/Azure Active
Directory *
Local/Azure Active
Directory *
Azure Active Directory
(native/built-in)
認可 〇 X 〇 * 〇 * 〇
監査(オーディット) 〇 X 〇 * 〇 * 〇
保持時の暗号化 〇 〇 〇 〇 〇
Rowレベルセキュリティ X X 〇 * 〇 * X
ファイヤーウォールサポート
〇 〇 〇 *** 〇 *** ロードマップ
Dynamic data masking
動的データマスキングX X 〇 * 〇 * X
* domain-joined HDInsight clusterが必須要件。** Transparent Data Encryption (TDE) が保存中のデータ暗号化、複合化に必要。*** Azure virtual network 利用時に使用可能。
データのバッチ処理セキュリティA side-by-side comparison of the capabilities and features
SQL Database SQL Data Warehouse Azure Analysis Services Azure Cosmos DB
認証 SQL/Azure Active Directory SQL/Azure Active Directory Azure Active Directory
Database users and Azure Active
Directory via access control
(IAM)
認可 〇 〇 〇〇 (hash-based message
authentication code (HMAC))
監査(オーディット) 〇 〇〇 (when integrated with Azure
Monitor resource diagnostic
logs)
〇 (through audit logging and
activity logs)
保持時の暗号化 〇 ** 〇 ** 〇 〇
Row-level security 〇 X〇 (through object-level security
in model)X
ファイヤーウォールサポート
〇 〇 〇 〇
Dynamic data masking
動的データマスキング〇 X X X
** Transparent Data Encryption (TDE) が保存中のデータ暗号化、複合化に必要。*** Azure virtual network 利用時に使用可能。
Data serving securityA side-by-side comparison of the capabilities and features
Applications
DashboardsBusiness/custom apps
(structured)
Logs, files, and media
(unstructured)
r
Ingest storage
Azure Storage/
Data Lake Storage
Data loading
Azure Data
Factory
Load flat files
into data lake on a
schedule
SQL DB
Transactional storage
Applications
manage their
transactional data
directly
Data processing
Read data from
files using DBFS
Orchestration
Azure Data
Factory
Extract and
transform relational
data
Load into SQL
DW tables
Azure Databricks
Serving storage
Azure SQL DW
Load processed
data into tables
optimized for
analytics
Modern data warehousing pattern in AzureData processing with Azure Databricks
Advanced analyticsAdvanced analytics is the process of applying machine learning and deep learning techniques to data for the purpose of creating predictive and prescriptive insights
新世代データウェアハウス
“データウェアハウスにすべてのデータを集約したい”
高度データ分析
“ロスト危機にある顧客を特定したい”
リアルタイム分析
“リアルタイムで端末機器からインサイトを得たい”
Advanced analytics Canonical operations
Model
Collect
data
Prepare
data
Train
model
Evaluate
model
Deploy
model
Data collection and understanding, modeling, and deployment
Applications
DashboardsBusiness/custom apps
(structured)
Logs, files, and media
(unstructured)
r
Sensors and IoT
(unstructured)
Azure Data
Lake storageAzure
Storage
HDInsight Azure Databricks
Azure ML ML server
モデルのトレーニング
長期保存ストレージ データ処理
Azure Data Lake Analytics
Azure ML Studio
SQL Server (in-database ML)
Azure Databricks(Spark ML)
Data Science VM
Cosmos DB
データサービス
SQL DB
SQL DW
Azure Analysis Services
Cosmos DB
Batch AI
SQL DB
Azure Data
Factory
データオーケストレーション
Azure Container Service
モデルのホスティング
SQL Server (in-database ML)
Advanced analytics pattern in Azure
Advanced analytics pattern in Azure
Applications
Azure Data
Lake StoreHDInsight
(Spark cluster)
Azure ML Workbench and CLI
Scoring service
(Container in
Azure Container Service)
Model scoring
Read
training
data
Azure MLModel
Management
2) Register
model
Container registry
3) Upload
containerized
model
4) Deploy
container
instances Invoke
scoring web
service
1) Train
model
Model training
Deploy a trained model as a scalable web service
リアルタイム分析Realtime Analytics
Real-time analytics—also called stream analytics—is the practice of processing data as soon as it’s generated in order to enable very quick analysis and insight for timely action
新世代データウェアハウス
“データウェアハウスにすべてのデータを集約したい”
高度データ分析
“ロスト危機にある顧客を特定したい”
リアルタイム分析
“リアルタイムで端末機器からインサイトを得たい”
ストリーミング技術を必要とするIOTソリューション
携帯のサイト管理
コネクテッド・カー
物流の監視管理
Personnel tracking and crowd control
ライドシェア
ジオ・フェンシング
フリート管理
施設マネジメント
レーシングカーのテレメトリー
工場管理と監視
Real-time applications
Real-time dashboardsBusiness/custom apps
(structured)
Logs, files, and media
(unstructured)
r
Sensors and IoT
(unstructured)
Event hubs IoT hub Kafka on HDInsight Azure Stream
Analytics
Storm on
HDInsightAzure Databricks
(Spark Streaming)
Azure ML Studio
R Server Azure Databricks
(Spark ML)
機械学習
ストリーム・インジェスト
長期保持ストレージ
ストリーム分析
Data Lake Storage SQL DB Cosmos DB Azure Blob Storage
Real-time applications
Real-time dashboards
Trained model
Train
model
Model training
Score events
Scoring events
Business/custom apps
(structured)
Logs, files, and media
(unstructured)
r
Sensors and IoT
(unstructured)
ストリーミングと機械学習Streaming data can be used for training a model and for scoring events against a trained model
▪ コンプライス要件を満たすため(raw data)
▪ Fバッチ処理によるビッグデー
タ分析を時間差で行う。
▪ 機械学習モデル化のトレーニ
ングデータとして活用
Event Hubs IoT Hub Kafka on HDInsight Stream
Analytics
Storm on
HDInsight Azure Databricks
(Spark Streaming)
ストリームデータのインジェスト
長期保有用のストレージ
ストリーム分析
Rawデータ データ処理
ストリーミングデータの保存
Azure Storage
Polybase
Azure SQL Data Warehouse
Azure Data Factory
Analytical dashboards
Web and mobile appsAzure Data Factory
Azure Databricks
(Spark ML, SparkR, sparklyr)
Azure Databricks
(Spark)
Azure HDInsight
(Kafka)
Azure Cosmos DB
Business/custom apps
(structured)
Logs, files, and media
(unstructured)
r
参考:構成パターン
General data architecture
Data sources
Stream processing
Batch processing
Analytical data store
Data storage
Analytics and
Reporting
Orchestration
Realtime message ingestion
OLTP
Data sources
Stream processing
Batch processing
Analytical data store
Data storageAnalytics
and Reporting
Orchestration
Realtime message ingestion
OLTP Systems- Azure SQL Database- Azure SQL Database Managed Instance- SQL Server in Azure VM- Azure Database for MySQL - Azure Database for PostgreSQL
Client Apps- Azure Web Apps- Azure API Apps- Mobile Apps- Desktop Apps
Big data Lambda architecture
Data sources
Stream processing
Batch processing
Analytical data store
Data storage
Analytics and
Reporting
Orchestration
Realtime message ingestion
Batch Layer
Speed Layer
Serving Layer
Historical Reports
Live Reports
Big data batch technologies
Data sources
Stream processing
Batch processing
• U-SQL• Hive• Pig• Spark
Analytical data store
• SQL DW• Spark SQL• HBase• Hive
Data storage
• Azure Storage (Blob)• Azure Data Lake Store
Analytics and Reporting
• Azure Analysis Services
• Power BI• Excel
Orchestration
• Azure Data Factory• Oozie /Sqoop
Realtime message ingestion
Big data real-time technologies
Data sources
Stream processing
• Azure Stream Analytics
• Storm• Spark Streaming
Batch processing
Analytical data store
• SQL DW• Spark SQL• HBase• Hive
Data storage
• Azure Storage (Blob)• Azure Data Lake Store Analytics and
Reporting
• Azure Analysis Services
• Power BI• Excel
Realtime message ingestion
• Azure Event Hub• Azure IoT Hub• Kafka
Orchestration
Big data analytical reporting
Data sources
Stream processing
Batch processing
• R Server• Hive• Spark
Analytical data store
• Spark SQL• Interactive
Hive
Data storage
• Azure Storage (Blob)• Azure Data Lake Store
Analytics and Reporting
• Jupyter• Ambari• Beeline• ODBC
Orchestration
Realtime message ingestion
Big data ML architecture
Data sources
Stream processing
• Azure Stream Analytics
• Storm• Spark Streaming
Analytical data store
• SQL DW• Spark SQL• HBase• Hive
Data storage
• Azure Storage (Blob)• Azure Data Lake Store Analytics and
Reporting
• Azure Analysis Services
• Power BI• Excel• Jupyter
Orchestration
Realtime message ingestion
• Azure Event Hub• Azure IoT Hub• Kafka
Machine Learning
• Azure Machine Learning• Spark ML
Batch processing
• U-SQL• Hive• Pig• Spark
Data sources
Stream processing
Batch processing
Analytical data store
Data storage
Analytics and
Reporting
Orchestration
Realtime message broker
Machine Learning
• Azure Machine Learning• Spark ML• R Server
OLTP > OLAP BI architecture
Data Sources
(LOB Apps)
Stream processing
• Azure Stream Analytics
Batch processing
• SQL• Custom
Analytical data store
• Azure SQL DW
Data storage• Azure SQL Database• SQL Server• Cosmos DB
Analytics and
Reporting• Azure
Analysis Services
• Power BI
Orchestration• ETL via SSIS / ADF
Realtime message ingestion• Event Hub• IoT Hub
参考:Azure構成パターン
インジェスト データ格納 データ成型トレイン
モデリング出力
Azure Data Lake Storage
Logs (unstructured)
Azure Data Factory
Azure Databricks
Media (unstructured)
Files (unstructured)
Polybase
Business/custom apps
(structured)
Azure SQL Data
Warehouse
Azure Analysis
Services
Power BI
現 代 の デ ー タ ウ ェ ア ハ ウ ス
INGEST STORE PREP & TRAIN MODEL & SERVE
Modern Data Warehouse
Azure Blob Storage
Logs, files and media
(unstructured)
Azure SQL Data
Warehouse
Azure Data Factory
Azure Analysis
Services
Azure Data Factory
Azure Databricks /
HDInsight
Polybase
Business/custom apps
(Structured)
Operational Reports
&
Analytical Dashboards
(PowerBI)
Advanced Analytics on Big Data
INGEST STORE PREP & TRAIN MODEL & SERVE
Azure Blob Storage
Business/custom apps
(Structured)
Logs, files and media
(unstructured)
Azure SQL Data
Warehouse
Azure Data Factory
Azure Analysis
Services
Azure Data Factory
Polybase
Azure Databricks /
HDInsight
Operational Reports
&
Analytical Dashboards
(PowerBI)
Azure Machine Learning
SQL Machine Learning
INGEST STORE PREP & TRAIN MODEL & SERVE
Cosmos DB
Business/custom apps
(structured)
Files (unstructured)
Media (unstructured)
Logs (unstructured)
Azure Data Lake StorageAzure Data Factory Azure SQL Data
Warehouse
Azure Analysis
Services
Power BI
PolyBase
SparkR
Azure Databricks Apps
A D V A N C E D A N A L Y T I C S
INGEST STORE PREP & TRAIN MODEL & SERVE
Real time analytics
Azure Blob Storage
Polybase
Business/custom apps
(Structured)
Logs, files and media
(unstructured)
Azure SQL Data
Warehouse
Azure Analysis
Services
Azure Data Factory
Sensors and IoT
(unstructured)
Azure HDInsight (Kafka)
Azure IoT Hub
Operational Reports
&
Analytical Dashboards
(PowerBI)
Azure Databricks /
HDInsight
INGEST STORE PREP & TRAIN MODEL & SERVE
REAL-TIME ANALYTICS
Sensors and IoT
(unstructured)
Apache Kafka for
HDInsight Cosmos DB
Files (unstructured)
Media (unstructured)
Logs (unstructured)
Azure Data Factory
Azure Databricks
Real-time apps
Business/custom apps
(structured)
Azure SQL Data
Warehouse
Azure Analysis
Services
Power BI
PolyBase
Azure Data Lake Storage
© 2018 Microsoft Corporation. All rights reserved.
本情報の内容(添付文書、リンク先などを含む)は、作成日時点でのものであり、予告なく変更される場合があります。
© 2019 Microsoft Corporation. All rights reserved.
本情報の内容 (添付文書、リンク先などを含む) は、de:code 2019 開催日 (2019年5月29~30日) 時点のものであり、予告なく変更される場合があります。
本コンテンツの著作権、および本コンテンツ中に出てくる商標権、団体名、ロゴ、製品、サービスなどはそれぞれ、各権利保有者に帰属します。