やりたいことから考えるmicrosoft azure 上の...

134
db analytics showcase Sapporo 2017

Upload: daisuke-masubuchi

Post on 21-Jan-2018

410 views

Category:

Technology


3 download

TRANSCRIPT

Page 1: やりたいことから考えるMicrosoft Azure 上の データストアの選び方とデータサイエンティスト向け活用法。KVSからDWHまで

db analytics showcase Sapporo 2017

Microsoft アカウント

Microsoft Azure 無料サブスクリプション

Visual Studio 無料サブスクリプション

Python SDK Windows版のインストール

Python SDK Mac のインストール

Microsoft Developer Network

Azure コマンドラインインタフェースのインストール

AzCopy コマンドラインツール (Azure Storage 用)

ストレージエクスプローラーWindows版のインストール

ストレージエクスプローラーMac版のインストール

システム形態の変遷

クライアント

サーバークラウド上のサーバーやサービスAPIを

組み合わせたマッシュアップシステム

スタンドアロン

システム

従来のWebアプリ

Webサービス

httpsazuremicrosoftcomja-jpresourcestemplates

Computational Network Toolkit (CNTK)

Vowpal Wabbit XGBoost Rattle

mxnet Weka Apache Drill

CUDA CUDNN Nvidia Driver

GPU based Deep

Learning Tools

Use Deep Learning

Toolkit for DSVMUbuntu Edition Only

Microsoft

Cognitive Toolkit

(CNTK)

Y Y

Tensorflow Y Y

MXNet Y Y

Caffe amp Caffe2 N Y

Torch N Y

Theano N Y

Keras N Y

NVidia Digits N Y

CUDA CUDNN

Nvidia DriverY Y

httpsazuremicrosoftcomja-

jpdocumentationlearning-pathsdata-science-process

Platform Services

Infrastructure Services

Web Apps

MobileApps

APIManagement

API Apps

Logic Apps

Notification Hubs

Content DeliveryNetwork (CDN)

Media Services

BizTalkServices

HybridConnections

Service Bus

StorageQueues

HybridOperations

Backup

StorSimple

Azure SiteRecovery

ImportExport

SQL Database

DocumentDB

RedisCache

AzureSearch

StorageTables

DataWarehouse

Azure AD Health Monitoring

AD PrivilegedIdentity Management

OperationalAnalytics

Cloud Services

BatchRemoteApp

ServiceFabric

Visual Studio

AppInsights

Azure SDK

VS Online

Domain Services

HDInsight MachineLearning

StreamAnalytics

Data Factory

EventHubs

MobileEngagement

Data Lake

IoT Hub

Data Catalog

Security amp Management

Azure ActiveDirectory

Multi-FactorAuthentication

Automation

Portal

Key Vault

StoreMarketplace

VM Image Galleryamp VM Depot

Azure ADB2C

Scheduler

The Azure Platform

様々なアプリ開発が行われています

Web amp mobile Business apps Microservice apps

Development amp test Big data amp analytics Internet of Things

Backup recovery

amp archive

High Performance

ComputingDigital media

Identity amp security

Mediaamp CDN

Integration Developerservices

Data

Analytics amp IoT

MY APP

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

①大量データの受け入れ

②リアルタイム処理データの集約

③データの蓄積

構造化非構造化文書など様々な形式での保存

④データの加工移行

⑥機械学習

⑦Hadoop解析

⑧マイクロソフト技術を用いた分散解析

⑨通常のRMSが機能を追加した企業向けRを使用した解析

⑪クラウドベースの Self-Service BI 機能

⑫機械学習の予測モデルを業務システムなどから呼び出し可能にするサービス

外部クラウドなどからのデータ取り込み

②リアルタイム処理データの加工

⑤ディープラーニング

⑩Excelを用いた可視化

Cognitive Services API

Azure Gallery

Microsoft R Server

Azure Machine Learning Studio

Cognitive Toolkit Tensor Flow

Seamlessly blend technologies

Azure Data Lake Analytics

取り扱いたいデータタイプ

Audio video images Meaningless without adding some structure

非構造データUnstructured

構造化データStructured

CSV Columnar Storage (Parquet ORC) Strict data model structure

JSON XML sensor data social media device data web logs Flexible data model structure

文書など緩やかな構造を持つ半構造データ

Semi-Structured

Azure Storage様々な文書Blobデータテーブル形式のデータが保存可能なストレージ

SQL DatabaseSQL Server 2016 と同等の機能を提供する PaaS 型データベース サービス

Azure Database for MySQLPostgreSQLPaaS 型データベース サービス のMySQLPostgreSQL版

Cosmos DBマルチデータモデルのグローバル分散DB

Azure Data Lake Storeビッグ データの分析ワークロードに対応する大規模データ格納エリア

Azure SQL Data Warehouseペタバイト単位のストレージを有した PaaS 型データ ウェアハウス サービス

IoT Hub

Event Hubs

Data Warehouse

Data Factory

App Insights Log Analytics

Monitor

CDN

Search Power BI

Blob Storage Pillars

Open amp

Interoperable

Manageable amp

Cost Efficient

Scalable amp

Performant

Secure amp

Compliant

Durable amp

Available

Machine Learning

Stream Analytics

Batch

Functions

Data Lake Analytics

Azure HDInsight

Big Data Use Cases

Ingest amp ETL Streaming Analytics amp Machine Learning Data Aggregation Presentation

QueuesReliable queues at

scale for cloud

services

ファイルを保存する際にはこの3つの選択肢があります

httpsdocsmicrosoftcomja-jpazurestoragestorage-decide-blobs-files-disks

OS

アプリ アプリ アプリ アプリ

BLOB

効率

利用

仮想マシン

+BLOB

001log

002log

003log

004log

EN

EN

EN

EN

EN

EN

PS

PS

PS

PS ENEN

001log

002log

003log

004log

disk1vhd

PS = パーティション サーバー

EN = エクステント ノード

001log

002log

003log

004log

EN

EN

EN

EN

EN

EN

PS

PS

PS

PS ENEN

Block 1 Block 4Block 3Block 2

Imagejpg

Sparse File 512 byte aligned

51

2

10

24

15

36

20

48

25

60

AZCopy ndash Robocopy for Azure StorageStorage Explorer ndash Cross platform UX

Data Movement Library on CoreCLR

Python client library

仮想マシンSQL Enterprise

DS4 の場合

8 Core 28 GB RAM

Disk 0

読み取り書き込み Disk 1

Disk 2

P30

読み取りのみ

C

システム

D

キャッシュ

永続性あり 永続性なし 永続性あり (複数ボリュームの分割やストライプの構成が可能)

Premium Storage

デフォルト作成(仮想マシン付属) ユーザーが任意に追加

OS

Page ファイル

DBMS Exe

SQL Server バッファープール拡張

httpsazuremicrosoftcomja-jpdocumentationarticlesvirtual-machines-sql-server-performance-best-practices

httpsazuremicrosoftcomja-jpdocumentationarticlesvirtual-machines-sql-server-use-premium-storage

Disk n

P30

読み取りのみ

E

SQL データ(ページ圧縮)

Temp DB

Disk 3

P30

なし

F

Transaction-

Log

Disk Cache

344GB

最大Disk IOPS

256MBsec

P30合計の

600MBsは出ない

NTFSアロケーションユニットサイズ 64KB

データベース ページ圧縮 有効

Table用Index用Temp DB用に別

ドライブに拡張可能

キャッシュ設定は添付の

URLを参照

最大Disk IOPS

200MBsec

最大Disk IOPS

200MBsec

最大Disk IOPS

200MBsec

フルマネージドの RDBMS

データベース

RDBMS

OS

Azure が管理

利用者が管理

VM上の RDBMS

ホスト OS

仮想化

フルコントロール

データベース

RDBMS

OS

仮想化

ホスト OS

容易な管理

Azure Database

SQL Server物理マシン仮想マシン

SQL Server on Azure VM仮想マシン

SQL Database Data WarehousePaaS

物理マシン仮想マシン

VM Template Market place仮想マシン

Azure Database for MySQL PostgreSQL

論理データベース

Write

Write Ack

Ack

Read

value write

Ack

特徴

無停止フェールオーバー

無停止スケールアップ(プラン変更)

自動パフォーマンスチューニング

スループット指定によるプロビジョニング

データベース トランザクション ユニット (DTU) とエラスティック データベース トランザクション ユニット (eDTU) の説明

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-what-is-a-dtu

Azure SQL Database Query Performance Insight

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-query-performance

Query Store is turned on by default for Azure SQL Database

httpsazuremicrosoftcomja-jpupdatesquery-store-on-is-the-new-default-for-azure-sql-database

Queries

SQL Database

Deeper Insight

Query

Store

SQL Database Advisor

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-advisor

Azure Portal を使用した SQL Database Advisor

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-advisor-portal

領域 改善後

新しいインデックス提案が作成されるまで 18時間以内

T-SQL文が実行されるまでのタイムラグ 即時(数分以内)

「悪い」チューニング内容に対しての検知時間 1時間以内

次のインデックス提案が行われるまでの待ち時

間即時(数分以内)

導入までの総時間 1日以内

SQL Database の脅威の検出

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-threat-detection

コントロールノード

SQLDB

Azure Blob Storage(WASB)

100 DWU lt gt 2000 DWUコントロールノード

ユーザーからの接続コンピュートとストレージの調整

コンピュートノード

コンピュートノード

コンピュートノード

コンピュートノード

SQLDB

SQLDB

SQLDB

SQLDB

Azure Blob Storage(WASB)

コントロールノード

SQLDB コントロールノード

D51

D52

D53

D60

hellip

D41

D42

D43

D50

hellip

コンピュートノード

D31

D32

D33

D40hellip

D21

D22

D23

D30

hellip

D11

D12

D13

D20

hellip

D1

D2

D3

D10

hellip

SQL DB

Azure Blob Storage(WASB)

コントロールノード

SQLDB コントロールノード

コンピュートノード

D51

D52

D53

D60

hellipコンピュートノード

D41

D42

D43

D50

hellip

コンピュートノード

D31

D32

D33

D40hellip

コンピュートノード

D21

D22

D23

D30

hellip

コンピュートノード

D11

D12

D13

D20

hellip

コンピュートノード

D1

D2

D3

D10

hellip

SQL DB

SQL DB

SQL DB

SQL DB

SQL DB

SQL DB

54

データ無制限のストレージ と 分析プラットフォーム

無制限のストレージ(エクサバイト超)

ネイティブ HDFS に基づく実装

HDInsight Hortonworks Cloudera との統合

全ての HDFS 準拠プロジェクトとの親和性

(Spark Storm Flume Sqoop Kafka R etc)

Azure Data Lake Store- Hadoop Distributed File System (HDFS) For The Cloud

構造化データと非構造化データに対するデータ処理

宣言型の SQL 文 とカスタムコード (UDF UDT UDO hellip )

ローカルとリモートに対するクエリ

バッチ型インタラクティブ型ストリーミング型(in the future)

Azure Data Lake Analytics- New Query Language U-SQL

ETL パイプライン

スキーマの定義Relational

LOB

Applications

Schema-on-Write

直ちに必要でないデータは全て捨てられるかアーカイブされている

無限に保存 分析 結果の参照

あらゆるデータ

ソースからの

データ収集

Schema-on-Read

全データ取込要件にかかわらず

全データ格納そのままのフォーマットでスキーマ定義なし

分析実行Hadoopのような分析エンジンの利用

インタラクティブクエリ

バッチ型クエリ

機械学習

データウェアハウス

リアルタイム分析

リレーショナル

デバイス

観察仮説集まったデータから仮説をたてる

58

無制限のサイズ

ギガバイトからペタバイトのサイズの単一ファイル

巨大なスループットを必要とする大規模な分析システムを実現

あらゆるスループットに自動最適化

ペタバイト超のデータの並列コンピューティング

同一リージョン内に3つのコピーを自動的に作成

インストールやチューニングは不要

数分で稼働開始

必要に応じてどのようなサイズにもスケールアウト可能

データウェアハウスデータレイクストア

非構造Rawデータ(ログ文書バイナリ)

Tier 1

MachineLearning

Data LakeAnalytics HDInsight

目的に合わせた

データウェハウス分析処理

(売上分析経営分析)

データウェハウスに格納しきれなかった

過去データ関連データを連結して分析

ハードウェアの性能限界によって行えなかった処理量の分析を実現

ディスクコンピューティング

非構造データの

分析処理

(画像音声映像など)

広範囲のデータを利用した

機械学習統計解析処理

などによる高度分析

SQL Data Warehouse

Data LakeAnalytics HDInsight

Data LakeAnalytics

構造化データ半構造データ

分析用に加工(csv等)

Tier 2

アーカイブデータTier 2 DWHのアーカイブ

Tier 3

Analytics

Storage

HDInsight(ldquomanaged clustersrdquo)

Azure Data Lake Analytics

Azure Data Lake Store

Azure Data Lake

LOB Applications

SocialDevices

Clickstream

Sensors

Video

Web

Relational

HDInsight

Data Lake Analytics

Machine Learning

Spark

R

Azure Data Lake Store

Azure Data Lake Store

Azure Storage Blob

外部表Azure SQLData Warehouse

HDInsight

開発者は OSS に馴染んでいる Java Eclipse Hive etc

マネージド Hadoop クラスタにおいてカスタマイズ管理が可能でフレキシビリティがある

Azure Data Lake Analytics

C SQL amp PowerShell のスキル

経験を活かせる

利便性効率性自動スケール

ジョブ実行の仕組みが提供される

(New)

(New)

一般的なパターン

処理読み込み 保存

INSERT

OUTPUT

OUTPUT

SELECThellip

FROMhellip

WHEREhellip

+

PythonR

EXTRACT

EXTRACT

SELECT

SELECT

Azure

Data

Lake

Azure

Data

Lake

Azure

SQL

DB

Azure

Storage

Blobs

Azure

Storage

Blobs

RowSet RowSet

Cognitive Services

REFERENCE ASSEMBLY WebLogExtASM

rs =

EXTRACT

UserID string

Start DateTime

End DateTime

Region string

SitesVisited string

PagesVisited string

FROM ldquoLogsWebLogRecordstxtrdquo

USING WebLogExtractor ()

result = SELECT UserID

(EndSubtract(Start))TotalSeconds AS Duration

FROM rs ORDER BY Duration DESC FETCH 10

OUTPUT result TO ldquoLogsResultstop10tsv

USING OutputterTsv()

bull 型定義は C の型定義と同じ

bull データをファイルから抽出読み込み

するときにスキーマが必要

Data Lake Store 内 のファイル

独自形式を解析するカスタム関数

C の関数

行セット(中間テーブルの概念

に近い)

TSV形式で書き込む関数

U-SQL ジョブのサブミットAzure PortalやVisual StudioのAzure Data Lake ToolsからU-SQLジョブをサブミット可能

67

進捗

統計情報

従来型の処理分析 Azure Data Lake を中心とした処理分析

Business apps

Custom apps

Sensors and devices

ADL StorePeople

非構造化データも含めてあらゆるデータを格納

Azure SQL DW

Azure AD

Power BI

ADF

ADL Analytics

bull 処理分析業務の大半はデータ準備作業が占めるbull 処理分析業務に手間時間が必要

Business apps

Custom apps

Sensors and devices

HDInsight

ユーザー管理認証

データの連携

Power BI

File System

Database

Database

Hadoop

DWH

Data Mart

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

①大量データの受け入れ

②リアルタイム処理データの集約

③データの蓄積

構造化非構造化文書など様々な形式での保存

④データの加工移行

⑥機械学習

⑦Hadoop解析

⑧マイクロソフト技術を用いた分散解析

⑨通常のRMSが機能を追加した企業向けRを使用した解析

⑪クラウドベースの Self-Service BI 機能

⑫機械学習の予測モデルを業務システムなどから呼び出し可能にするサービス

外部クラウドなどからのデータ取り込み

②リアルタイム処理データの加工

⑤ディープラーニング

⑩Excelを用いた可視化

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

リアルタイム

バッチ

Data Factory Tools for Visual Studio

Azure Portal

Azure TableStorage

(Web ログレコード)

Data Factory

HDInsight

(Web ログをファイルにして

バッチ処理で集計)

SQL Database

(集計データをDB テーブルに格納)

Power BI

社内システム

DataManagement

Gateway

SQL Database

Data Warehouse

Blob Storage

Table Storage

httpportalazurecom

接続

メッセージ作成

メッセージ送信

var cs = ldquo接続文字列rdquovar path = ldquoイベントハブ名rdquovar eh = EventHubClientCreateFromConnectionString(cs path)

var msg = new user = thisUserIdentityNamelevel = leveltimestamp = demoTimestamp

var json = JsonConvertSerializeObject(msg)

ehSend(new EventData(EncodingUTF8GetBytes(json)))

EventProcessorHostを使う

bull

bull

bull

Functionsを使う

bull

bull

IEventProcessorProcessEventAsync(msg)

IEventProcessorProcessEventAsync(msg)

Run(string msg)

Azure azure-sdk-for-python

Point of Service Devices

Self CheckoutStations

Kiosks

Smart Phones

SlatesTablets

PCsLaptops

Servers

Digital Signs

DiagnosticEquipmentRemote Medical

MonitorsLogic

Controllers

SpecializedDevicesThin

Clients

Handhelds

Security

POS Terminals

AutomationDevices

VendingMachines

Kinect

ATM

Stream Analytics

入力 出力クエリデータストリーム

参照

bull ldquo入力rdquoldquo出力rdquoをクリックしそれぞれ作成

bull ldquoクエリrdquoをクリックしクエリを定義bull 作業が終わったらldquo開始rdquoで実

行開始

SELECT

INTO

FROM

SELECT user level AS SATLevel timestamp

INTO

FROM

デバイス接続性とデバイス管理およびブローカーサービス

データ管理と高度な分析 情報活用業務の生産性とプロセスの最適化

IoT Agent Gateway

予兆原因の学習モデル

ダッシュボード

参照ERPbull 顧客bull 設備bull 担当者

Notification Hubs

通知

予兆イベント

メンテ方法の推奨

bull ヘルス状態bull インシデント管理bull 対応のディスパッチ

現地技術要員のモバイルデバイス

オペレーションセンター

bull イベント ドア開閉軸アライメントキャビン速度モーター温度など

bull アラーム 故障アラームエラーコードなど

httpisstkeazurewebsitesnet

Event Hub

Stream Analytics

Azure ML

制御機器とセンサーのデータ

マシンデータの蓄積

メンテナンス方法の学習モデル

Machine Learning

Blob Storage

セルフサービス分析

Power BI

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce

cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-

system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of

your data while making it faster to get up and running with

batch streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources

so you can run queries on exabytes of data Includes U-

SQL a new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully

managed NoSQL database service that indexes stores and

queries data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

What do all of these have in common

They can all use Azure Analysis Services

Azure Analysis Services

Azure Analysis Services

BI semantic model

Business logic amp metrics

Data modeling

Security

Azure Analysis Services

Lifecycle management

In-memory cache

On-premises

Cloud

Data sources

SQL Database

SQL Data Warehouse

Other data sources

SQL Server

Analytics platform

system

Other data sources

On-premises

Cloud

Client tools

Power BI

Excel

Third party BI tools

Power BI Desktop

Rich semantic modelling

locatioidentifier

identifiertype

fieldidentifier

numberofunitssoldtodate

remaningnumber

Numberofuntissoldtoday

receivedback

productidentifier

descriptionline1

descriptionline2

qtyafterqtysales

familyidentifier

Source DataComplex raw data optimized for processing

Semantic ModelRich business user friendly semantic model

Product Id

Product Name

Product Description

Category

Category Id

Category Name

Category Description

Sub Category

Product Id

Shelf qty

Return qty

Order qty

Sale qty

Cloud Data

On-Premises

Data

Azure Analysis Services

Lightning fast queries

データ管理をきっかけに処理を実行

Web Glue

Bots IoT

DOMINOS STORES

Key Vault

Azure Active Directory

Azure Files

SSIS FRANCHISEE

AZURE WEST EUROPE

Azure Function

KEMPSSDESSRS

IN- AND EXTERNAL DATA SOURCES

orderprocessing

O365

App Insights

indexhtml

Azure Functions Proxies

couponprocessing

Use Bindings in Your Codefunctionjson

bindings [type httpTriggerdirection inwebHookType genericJsonname req

type httpdirection outname res

type queuename eventOutputqueueName aievents1connectionAiStorageConnectiondirection out

]

public static class OrderHandler

[FunctionName(OrderWebhook)]public static async TaskltHttpResponseMessagegt Run(

[HttpTrigger] HttpRequestMessage req[Queue(aievents1 Connection = AiStorageConnection)]

IAsyncCollectorltStringgt eventOutputTraceWriter log)

logInfo($Webhook was triggered)

string jsonContent = await reqContentReadAsStringAsync()dynamic data = JsonConvertDeserializeObject(jsonContent)

await eventOutputAddAsync(JsonConvertSerializeObject(GetLogData(data)))

int orderId = PlaceOrder(data)

return reqCreateResponse(HttpStatusCodeOK new orderNumber = orderId )

bull Workflow in the cloud

bull Powerful control flow

bull Connect functions and APIs

bull Declarative definition to persist in source control and drive deployments

Logic AppsCloud APIs and platform

bull Supports over 125 built-in connectors

bull Scales to meet your needs

bull Enables rapid development

bull Extends with custom APIs and

Functions

API connections

bull Authenticate once and reuse

Big Data Solutions Decision Tree

httpsbiz-excellencecom20160830big-data-dt

Machine Learning Solutions Decision Tree

httpsbiz-excellencecom20160913machine-

learning-dt

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of your

data while making it faster to get up and running with batch

streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources so

you can run queries on exabytes of data Includes U-SQL a

new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully managed

NoSQL database service that indexes stores and queries

data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

Microsoft Big Data Portfolio

SQL Server Stretch

Business intelligence

Machine learning analytics

Insights

Azure SQL Database

SQL Server 2016

SQL Server 2016 Fast Track

Azure SQL DW

ADLS amp ADLA

DocumentDB

HDInsight

Hadoop

Analytics Platform System

Sequential Scale Out + AcrossScale Up

Key

Relational Non-relational

On

-pre

mis

es

Clo

ud

Microsoft has solutions covering

and connecting all four

quadrants ndash thatrsquos why SQL

Server is one of the most utilized

databases in the world

Azure

Data Lake Store

Azure

Blob StoragePurpose Optimized for big data analytics General purpose bulk storage

Use Cases Batch Interactive Streaming App backend backup data media storage for

streaming

Units of Storage Accounts Folders Files Accounts Containers Blobs

Structure Hierarchical File System Flat namespace

WebHDFS Implements WebHDFS No (WASB)

Security AD SAS keys

Storage Auto SharedFiles chunked Manually manage expansionFiles intact

Service State Generally Available PolyBase

just supported

Generally Available

Billing Pay for data stored and for IO Pay for data stored and for IO

Region Availability Two US regions (Other regions coming soon) All Azure Regions

ADL Store vs Blob Store

httpsdocsmicrosoftcomen-usazuredata-lake-storedata-lake-store-comparison-with-blob-storage

Want Hadoop

Need exact same on-prem

Need interactive streaming

MandatoryNo strong opinion

Azure Marketplace (IaaS)

bull Need all workloads exactly like on-

premises

bull Need 100 HortonworksClouderaMapR

Azure HDInsight

bull Most Hadoop workloads

bull Fully managed by Microsoft

bull Sell HDI + ADLS

bull Stickier to Microsoft than VMs

bull Can do interactive (Spark) and streaming

(StormSpark)

Azure Data Lake Analytics

bull Easiest experience for admin no sense of

clusters instant scale per job

bull Easiest experience for developers Visual

StudioU-SQL (C+SQL)

bull Sell ADLA + ADLS

bull Batch workloads only

Need everything exactly like on-prem

Need core projects Yes Batch is OK

Always present ADLA if NET or Visual Studio Shop

If NET or VS shop

Azure SQL DW HDInsight Hive HDInsight Spark Azure Data Lake SQL Server (IaaS)

Volume Petabytes Petabytes Petabytes Petabytes Terabytes

Security Encryption TD

Audit

ADLS Apache

Ranger

ADLS AAD Security

Groups (data)

Encryption TD

Audit

Languages T-SQL HiveQL SparkSQL HiveQL

Scala Java Python

R

U-SQL T-SQL

Extensibility No Yes NETSerDe Yes Packages Yes NET Yes NET CLR

External File

Types

ORC TXT

Parquet RCFile

ORC CSV Parquet

+ others

Parquet JSON

Hive + others

Many ORC TXT Parquet

RCFile

Admin Low-Medium Medium-High Medium-High Low High

Cost Model DWU Nodes amp VM Nodes amp VM UnitsJobs VM

Schema

Definition

Schema on Write

Polybase

Schema on Read Schema on Read Schema on Read Schema on Write

Polybase

Max DB Size 240TB Comp (5X

= 1PB)

Unlimited 64TB (64 1TB drives)

機械学習 Deep Learning 深層強化学習

画像解析

音声解析

データ分類異常検知 顧客グルーピング

数値予測売上予測 需要予測 品質管理

ラベル分類不良品分析 故障予測 チャーン分析

機械学習より強力な分析

自律学習型ロボット

自動運転車

テキストや画像等の自動生成

活用例

主に多層のニューラルネットワークを用いた手法での分析

分析のためには莫大なデータ量計算量知識スキルを要する

統計に基づいた手法での分析

そのため比較的少ないデータ量と計算量で分析を行うことができる

定義したあるべき姿に従い試行錯誤をして自ら学習を行うための分析手法である強化学習と深層学習を組み合わせた分析

Azure Machine Learning Cognitive Toolkit GPU Instance (N-Series)

マイクロソフトが提供する技術

テキストデータ機器のログデータなど

画像データ監視カメラの録画データ 機器の外観画像 顔画像など

動画データ監視カメラの録画データ 機器の稼働状況 人の作業映像など

音声データマイクからの収集データ 稼働音 室内音 人の音声など

数値データセンサーデータ 機器の制御データ計測データなど672342345

機械学習統計理論に基づいた分析手法を用いる用意するべきデータ量と処理する計算量の敷居が低め導入しやすい

Deep Learningデータ量が大きいため強力な分析手法が必要「膨大なデータ量を用意」「莫大な計算量を処理」が必要で敷居が非常に高い導入にはそれなりの覚悟が必要

Action

People

Automated Systems

Apps

Web

Mobile

Bots

Intelligence

Dashboards amp Visualizations

Cortana

Bot Framework

Cognitive Services

Power BI

Information Management

Event Hubs

Data Catalog

Data Factory

Machine Learning and Analytics

HDInsight

Stream Analytics

Intelligence

Data Lake Analytics

Machine Learning

Big Data Stores

SQL Data Warehouse

Data Lake Store

Data Sources

Apps

Sensors amp Devices

Data

Cortana Intelligence Suite

学習済み

モデル利用

学習モデル

作成

機械学習 教師あり学習

教師なし学習

強化学習

決定木

線形回帰

SVM

ロジスティック回帰

ニューラルネットワーク

クラスタリング

次元削減

Q学習

K-mean法

主成分分析

正準相関分析

ディープニューラルネットワーク

畳みこみニューラルネットワーク

再帰的ニューラルネットワーク

回帰結合ニューラルネットワーク

httpsazuremicrosoftcomen-usservicescognitive-services

わずか数行のコードで強力なアルゴリズムを持つアプリの作成が可能ですiOSAndroidWindows などのプラットフォームを問わず機能します

httpsazuremicrosoftcomja-jpservicesmachine-learning

ユーザーは簡単に予測分析ソリューションを構築デプロイ共有できます

httpswwwyoutubecomwatchv=9gDDO5ldT-4ampfeature=youtube

AI技術を利用したディープラーニング(深層学習)ツールキットです旧称「CNTK」から改名されました

ソースコード httpsgithubcomMicrosoftCNTK

SearchSpeech

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

コカコーラ誕生100周年キャンペーン

コカコーラボトルを「100歳」と認識

bull 自撮り写真をUp結果をSNS拡散

ナビタイムジャパン様

自然言語入力による路線検索BOT

bull ユーザーとの新たな接点(LINE)

bull 自然言語入力

Vision Language Knowledge

Vision Knowledge SearchSpeech Language

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

Microsoft SupportVirtual Agent

自然言語入力による自動応答サポート窓口

bull 過去QampAデータ解析に基づく回答抽出

bull 定型外はldquo人対応rdquo

UBER

登録ドライバーをスマホ経由で顔認証

VOLVO

表情からの危険予測

Search

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

アロバ様

監視カメラによる店舗内行動分析

bull 顔認識による 顧客識別

bull 表情分析

東京サマーランド様にて導入済み

HmComm様

コールセンターソリューション

bull 会話をテキスト化キーワードを解析

bull 過去QampA検索

bull 内容をCRM保存

Vision KnowledgeSpeech Language

導入事例東京サマーランド様

Video

Intelligent KioskhttpsgithubcomMicrosoftCognitive-Samples-IntelligentKiosk

ldquo(want to|request)rdquo

HoloLens

Page 2: やりたいことから考えるMicrosoft Azure 上の データストアの選び方とデータサイエンティスト向け活用法。KVSからDWHまで

Microsoft アカウント

Microsoft Azure 無料サブスクリプション

Visual Studio 無料サブスクリプション

Python SDK Windows版のインストール

Python SDK Mac のインストール

Microsoft Developer Network

Azure コマンドラインインタフェースのインストール

AzCopy コマンドラインツール (Azure Storage 用)

ストレージエクスプローラーWindows版のインストール

ストレージエクスプローラーMac版のインストール

システム形態の変遷

クライアント

サーバークラウド上のサーバーやサービスAPIを

組み合わせたマッシュアップシステム

スタンドアロン

システム

従来のWebアプリ

Webサービス

httpsazuremicrosoftcomja-jpresourcestemplates

Computational Network Toolkit (CNTK)

Vowpal Wabbit XGBoost Rattle

mxnet Weka Apache Drill

CUDA CUDNN Nvidia Driver

GPU based Deep

Learning Tools

Use Deep Learning

Toolkit for DSVMUbuntu Edition Only

Microsoft

Cognitive Toolkit

(CNTK)

Y Y

Tensorflow Y Y

MXNet Y Y

Caffe amp Caffe2 N Y

Torch N Y

Theano N Y

Keras N Y

NVidia Digits N Y

CUDA CUDNN

Nvidia DriverY Y

httpsazuremicrosoftcomja-

jpdocumentationlearning-pathsdata-science-process

Platform Services

Infrastructure Services

Web Apps

MobileApps

APIManagement

API Apps

Logic Apps

Notification Hubs

Content DeliveryNetwork (CDN)

Media Services

BizTalkServices

HybridConnections

Service Bus

StorageQueues

HybridOperations

Backup

StorSimple

Azure SiteRecovery

ImportExport

SQL Database

DocumentDB

RedisCache

AzureSearch

StorageTables

DataWarehouse

Azure AD Health Monitoring

AD PrivilegedIdentity Management

OperationalAnalytics

Cloud Services

BatchRemoteApp

ServiceFabric

Visual Studio

AppInsights

Azure SDK

VS Online

Domain Services

HDInsight MachineLearning

StreamAnalytics

Data Factory

EventHubs

MobileEngagement

Data Lake

IoT Hub

Data Catalog

Security amp Management

Azure ActiveDirectory

Multi-FactorAuthentication

Automation

Portal

Key Vault

StoreMarketplace

VM Image Galleryamp VM Depot

Azure ADB2C

Scheduler

The Azure Platform

様々なアプリ開発が行われています

Web amp mobile Business apps Microservice apps

Development amp test Big data amp analytics Internet of Things

Backup recovery

amp archive

High Performance

ComputingDigital media

Identity amp security

Mediaamp CDN

Integration Developerservices

Data

Analytics amp IoT

MY APP

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

①大量データの受け入れ

②リアルタイム処理データの集約

③データの蓄積

構造化非構造化文書など様々な形式での保存

④データの加工移行

⑥機械学習

⑦Hadoop解析

⑧マイクロソフト技術を用いた分散解析

⑨通常のRMSが機能を追加した企業向けRを使用した解析

⑪クラウドベースの Self-Service BI 機能

⑫機械学習の予測モデルを業務システムなどから呼び出し可能にするサービス

外部クラウドなどからのデータ取り込み

②リアルタイム処理データの加工

⑤ディープラーニング

⑩Excelを用いた可視化

Cognitive Services API

Azure Gallery

Microsoft R Server

Azure Machine Learning Studio

Cognitive Toolkit Tensor Flow

Seamlessly blend technologies

Azure Data Lake Analytics

取り扱いたいデータタイプ

Audio video images Meaningless without adding some structure

非構造データUnstructured

構造化データStructured

CSV Columnar Storage (Parquet ORC) Strict data model structure

JSON XML sensor data social media device data web logs Flexible data model structure

文書など緩やかな構造を持つ半構造データ

Semi-Structured

Azure Storage様々な文書Blobデータテーブル形式のデータが保存可能なストレージ

SQL DatabaseSQL Server 2016 と同等の機能を提供する PaaS 型データベース サービス

Azure Database for MySQLPostgreSQLPaaS 型データベース サービス のMySQLPostgreSQL版

Cosmos DBマルチデータモデルのグローバル分散DB

Azure Data Lake Storeビッグ データの分析ワークロードに対応する大規模データ格納エリア

Azure SQL Data Warehouseペタバイト単位のストレージを有した PaaS 型データ ウェアハウス サービス

IoT Hub

Event Hubs

Data Warehouse

Data Factory

App Insights Log Analytics

Monitor

CDN

Search Power BI

Blob Storage Pillars

Open amp

Interoperable

Manageable amp

Cost Efficient

Scalable amp

Performant

Secure amp

Compliant

Durable amp

Available

Machine Learning

Stream Analytics

Batch

Functions

Data Lake Analytics

Azure HDInsight

Big Data Use Cases

Ingest amp ETL Streaming Analytics amp Machine Learning Data Aggregation Presentation

QueuesReliable queues at

scale for cloud

services

ファイルを保存する際にはこの3つの選択肢があります

httpsdocsmicrosoftcomja-jpazurestoragestorage-decide-blobs-files-disks

OS

アプリ アプリ アプリ アプリ

BLOB

効率

利用

仮想マシン

+BLOB

001log

002log

003log

004log

EN

EN

EN

EN

EN

EN

PS

PS

PS

PS ENEN

001log

002log

003log

004log

disk1vhd

PS = パーティション サーバー

EN = エクステント ノード

001log

002log

003log

004log

EN

EN

EN

EN

EN

EN

PS

PS

PS

PS ENEN

Block 1 Block 4Block 3Block 2

Imagejpg

Sparse File 512 byte aligned

51

2

10

24

15

36

20

48

25

60

AZCopy ndash Robocopy for Azure StorageStorage Explorer ndash Cross platform UX

Data Movement Library on CoreCLR

Python client library

仮想マシンSQL Enterprise

DS4 の場合

8 Core 28 GB RAM

Disk 0

読み取り書き込み Disk 1

Disk 2

P30

読み取りのみ

C

システム

D

キャッシュ

永続性あり 永続性なし 永続性あり (複数ボリュームの分割やストライプの構成が可能)

Premium Storage

デフォルト作成(仮想マシン付属) ユーザーが任意に追加

OS

Page ファイル

DBMS Exe

SQL Server バッファープール拡張

httpsazuremicrosoftcomja-jpdocumentationarticlesvirtual-machines-sql-server-performance-best-practices

httpsazuremicrosoftcomja-jpdocumentationarticlesvirtual-machines-sql-server-use-premium-storage

Disk n

P30

読み取りのみ

E

SQL データ(ページ圧縮)

Temp DB

Disk 3

P30

なし

F

Transaction-

Log

Disk Cache

344GB

最大Disk IOPS

256MBsec

P30合計の

600MBsは出ない

NTFSアロケーションユニットサイズ 64KB

データベース ページ圧縮 有効

Table用Index用Temp DB用に別

ドライブに拡張可能

キャッシュ設定は添付の

URLを参照

最大Disk IOPS

200MBsec

最大Disk IOPS

200MBsec

最大Disk IOPS

200MBsec

フルマネージドの RDBMS

データベース

RDBMS

OS

Azure が管理

利用者が管理

VM上の RDBMS

ホスト OS

仮想化

フルコントロール

データベース

RDBMS

OS

仮想化

ホスト OS

容易な管理

Azure Database

SQL Server物理マシン仮想マシン

SQL Server on Azure VM仮想マシン

SQL Database Data WarehousePaaS

物理マシン仮想マシン

VM Template Market place仮想マシン

Azure Database for MySQL PostgreSQL

論理データベース

Write

Write Ack

Ack

Read

value write

Ack

特徴

無停止フェールオーバー

無停止スケールアップ(プラン変更)

自動パフォーマンスチューニング

スループット指定によるプロビジョニング

データベース トランザクション ユニット (DTU) とエラスティック データベース トランザクション ユニット (eDTU) の説明

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-what-is-a-dtu

Azure SQL Database Query Performance Insight

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-query-performance

Query Store is turned on by default for Azure SQL Database

httpsazuremicrosoftcomja-jpupdatesquery-store-on-is-the-new-default-for-azure-sql-database

Queries

SQL Database

Deeper Insight

Query

Store

SQL Database Advisor

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-advisor

Azure Portal を使用した SQL Database Advisor

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-advisor-portal

領域 改善後

新しいインデックス提案が作成されるまで 18時間以内

T-SQL文が実行されるまでのタイムラグ 即時(数分以内)

「悪い」チューニング内容に対しての検知時間 1時間以内

次のインデックス提案が行われるまでの待ち時

間即時(数分以内)

導入までの総時間 1日以内

SQL Database の脅威の検出

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-threat-detection

コントロールノード

SQLDB

Azure Blob Storage(WASB)

100 DWU lt gt 2000 DWUコントロールノード

ユーザーからの接続コンピュートとストレージの調整

コンピュートノード

コンピュートノード

コンピュートノード

コンピュートノード

SQLDB

SQLDB

SQLDB

SQLDB

Azure Blob Storage(WASB)

コントロールノード

SQLDB コントロールノード

D51

D52

D53

D60

hellip

D41

D42

D43

D50

hellip

コンピュートノード

D31

D32

D33

D40hellip

D21

D22

D23

D30

hellip

D11

D12

D13

D20

hellip

D1

D2

D3

D10

hellip

SQL DB

Azure Blob Storage(WASB)

コントロールノード

SQLDB コントロールノード

コンピュートノード

D51

D52

D53

D60

hellipコンピュートノード

D41

D42

D43

D50

hellip

コンピュートノード

D31

D32

D33

D40hellip

コンピュートノード

D21

D22

D23

D30

hellip

コンピュートノード

D11

D12

D13

D20

hellip

コンピュートノード

D1

D2

D3

D10

hellip

SQL DB

SQL DB

SQL DB

SQL DB

SQL DB

SQL DB

54

データ無制限のストレージ と 分析プラットフォーム

無制限のストレージ(エクサバイト超)

ネイティブ HDFS に基づく実装

HDInsight Hortonworks Cloudera との統合

全ての HDFS 準拠プロジェクトとの親和性

(Spark Storm Flume Sqoop Kafka R etc)

Azure Data Lake Store- Hadoop Distributed File System (HDFS) For The Cloud

構造化データと非構造化データに対するデータ処理

宣言型の SQL 文 とカスタムコード (UDF UDT UDO hellip )

ローカルとリモートに対するクエリ

バッチ型インタラクティブ型ストリーミング型(in the future)

Azure Data Lake Analytics- New Query Language U-SQL

ETL パイプライン

スキーマの定義Relational

LOB

Applications

Schema-on-Write

直ちに必要でないデータは全て捨てられるかアーカイブされている

無限に保存 分析 結果の参照

あらゆるデータ

ソースからの

データ収集

Schema-on-Read

全データ取込要件にかかわらず

全データ格納そのままのフォーマットでスキーマ定義なし

分析実行Hadoopのような分析エンジンの利用

インタラクティブクエリ

バッチ型クエリ

機械学習

データウェアハウス

リアルタイム分析

リレーショナル

デバイス

観察仮説集まったデータから仮説をたてる

58

無制限のサイズ

ギガバイトからペタバイトのサイズの単一ファイル

巨大なスループットを必要とする大規模な分析システムを実現

あらゆるスループットに自動最適化

ペタバイト超のデータの並列コンピューティング

同一リージョン内に3つのコピーを自動的に作成

インストールやチューニングは不要

数分で稼働開始

必要に応じてどのようなサイズにもスケールアウト可能

データウェアハウスデータレイクストア

非構造Rawデータ(ログ文書バイナリ)

Tier 1

MachineLearning

Data LakeAnalytics HDInsight

目的に合わせた

データウェハウス分析処理

(売上分析経営分析)

データウェハウスに格納しきれなかった

過去データ関連データを連結して分析

ハードウェアの性能限界によって行えなかった処理量の分析を実現

ディスクコンピューティング

非構造データの

分析処理

(画像音声映像など)

広範囲のデータを利用した

機械学習統計解析処理

などによる高度分析

SQL Data Warehouse

Data LakeAnalytics HDInsight

Data LakeAnalytics

構造化データ半構造データ

分析用に加工(csv等)

Tier 2

アーカイブデータTier 2 DWHのアーカイブ

Tier 3

Analytics

Storage

HDInsight(ldquomanaged clustersrdquo)

Azure Data Lake Analytics

Azure Data Lake Store

Azure Data Lake

LOB Applications

SocialDevices

Clickstream

Sensors

Video

Web

Relational

HDInsight

Data Lake Analytics

Machine Learning

Spark

R

Azure Data Lake Store

Azure Data Lake Store

Azure Storage Blob

外部表Azure SQLData Warehouse

HDInsight

開発者は OSS に馴染んでいる Java Eclipse Hive etc

マネージド Hadoop クラスタにおいてカスタマイズ管理が可能でフレキシビリティがある

Azure Data Lake Analytics

C SQL amp PowerShell のスキル

経験を活かせる

利便性効率性自動スケール

ジョブ実行の仕組みが提供される

(New)

(New)

一般的なパターン

処理読み込み 保存

INSERT

OUTPUT

OUTPUT

SELECThellip

FROMhellip

WHEREhellip

+

PythonR

EXTRACT

EXTRACT

SELECT

SELECT

Azure

Data

Lake

Azure

Data

Lake

Azure

SQL

DB

Azure

Storage

Blobs

Azure

Storage

Blobs

RowSet RowSet

Cognitive Services

REFERENCE ASSEMBLY WebLogExtASM

rs =

EXTRACT

UserID string

Start DateTime

End DateTime

Region string

SitesVisited string

PagesVisited string

FROM ldquoLogsWebLogRecordstxtrdquo

USING WebLogExtractor ()

result = SELECT UserID

(EndSubtract(Start))TotalSeconds AS Duration

FROM rs ORDER BY Duration DESC FETCH 10

OUTPUT result TO ldquoLogsResultstop10tsv

USING OutputterTsv()

bull 型定義は C の型定義と同じ

bull データをファイルから抽出読み込み

するときにスキーマが必要

Data Lake Store 内 のファイル

独自形式を解析するカスタム関数

C の関数

行セット(中間テーブルの概念

に近い)

TSV形式で書き込む関数

U-SQL ジョブのサブミットAzure PortalやVisual StudioのAzure Data Lake ToolsからU-SQLジョブをサブミット可能

67

進捗

統計情報

従来型の処理分析 Azure Data Lake を中心とした処理分析

Business apps

Custom apps

Sensors and devices

ADL StorePeople

非構造化データも含めてあらゆるデータを格納

Azure SQL DW

Azure AD

Power BI

ADF

ADL Analytics

bull 処理分析業務の大半はデータ準備作業が占めるbull 処理分析業務に手間時間が必要

Business apps

Custom apps

Sensors and devices

HDInsight

ユーザー管理認証

データの連携

Power BI

File System

Database

Database

Hadoop

DWH

Data Mart

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

①大量データの受け入れ

②リアルタイム処理データの集約

③データの蓄積

構造化非構造化文書など様々な形式での保存

④データの加工移行

⑥機械学習

⑦Hadoop解析

⑧マイクロソフト技術を用いた分散解析

⑨通常のRMSが機能を追加した企業向けRを使用した解析

⑪クラウドベースの Self-Service BI 機能

⑫機械学習の予測モデルを業務システムなどから呼び出し可能にするサービス

外部クラウドなどからのデータ取り込み

②リアルタイム処理データの加工

⑤ディープラーニング

⑩Excelを用いた可視化

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

リアルタイム

バッチ

Data Factory Tools for Visual Studio

Azure Portal

Azure TableStorage

(Web ログレコード)

Data Factory

HDInsight

(Web ログをファイルにして

バッチ処理で集計)

SQL Database

(集計データをDB テーブルに格納)

Power BI

社内システム

DataManagement

Gateway

SQL Database

Data Warehouse

Blob Storage

Table Storage

httpportalazurecom

接続

メッセージ作成

メッセージ送信

var cs = ldquo接続文字列rdquovar path = ldquoイベントハブ名rdquovar eh = EventHubClientCreateFromConnectionString(cs path)

var msg = new user = thisUserIdentityNamelevel = leveltimestamp = demoTimestamp

var json = JsonConvertSerializeObject(msg)

ehSend(new EventData(EncodingUTF8GetBytes(json)))

EventProcessorHostを使う

bull

bull

bull

Functionsを使う

bull

bull

IEventProcessorProcessEventAsync(msg)

IEventProcessorProcessEventAsync(msg)

Run(string msg)

Azure azure-sdk-for-python

Point of Service Devices

Self CheckoutStations

Kiosks

Smart Phones

SlatesTablets

PCsLaptops

Servers

Digital Signs

DiagnosticEquipmentRemote Medical

MonitorsLogic

Controllers

SpecializedDevicesThin

Clients

Handhelds

Security

POS Terminals

AutomationDevices

VendingMachines

Kinect

ATM

Stream Analytics

入力 出力クエリデータストリーム

参照

bull ldquo入力rdquoldquo出力rdquoをクリックしそれぞれ作成

bull ldquoクエリrdquoをクリックしクエリを定義bull 作業が終わったらldquo開始rdquoで実

行開始

SELECT

INTO

FROM

SELECT user level AS SATLevel timestamp

INTO

FROM

デバイス接続性とデバイス管理およびブローカーサービス

データ管理と高度な分析 情報活用業務の生産性とプロセスの最適化

IoT Agent Gateway

予兆原因の学習モデル

ダッシュボード

参照ERPbull 顧客bull 設備bull 担当者

Notification Hubs

通知

予兆イベント

メンテ方法の推奨

bull ヘルス状態bull インシデント管理bull 対応のディスパッチ

現地技術要員のモバイルデバイス

オペレーションセンター

bull イベント ドア開閉軸アライメントキャビン速度モーター温度など

bull アラーム 故障アラームエラーコードなど

httpisstkeazurewebsitesnet

Event Hub

Stream Analytics

Azure ML

制御機器とセンサーのデータ

マシンデータの蓄積

メンテナンス方法の学習モデル

Machine Learning

Blob Storage

セルフサービス分析

Power BI

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce

cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-

system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of

your data while making it faster to get up and running with

batch streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources

so you can run queries on exabytes of data Includes U-

SQL a new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully

managed NoSQL database service that indexes stores and

queries data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

What do all of these have in common

They can all use Azure Analysis Services

Azure Analysis Services

Azure Analysis Services

BI semantic model

Business logic amp metrics

Data modeling

Security

Azure Analysis Services

Lifecycle management

In-memory cache

On-premises

Cloud

Data sources

SQL Database

SQL Data Warehouse

Other data sources

SQL Server

Analytics platform

system

Other data sources

On-premises

Cloud

Client tools

Power BI

Excel

Third party BI tools

Power BI Desktop

Rich semantic modelling

locatioidentifier

identifiertype

fieldidentifier

numberofunitssoldtodate

remaningnumber

Numberofuntissoldtoday

receivedback

productidentifier

descriptionline1

descriptionline2

qtyafterqtysales

familyidentifier

Source DataComplex raw data optimized for processing

Semantic ModelRich business user friendly semantic model

Product Id

Product Name

Product Description

Category

Category Id

Category Name

Category Description

Sub Category

Product Id

Shelf qty

Return qty

Order qty

Sale qty

Cloud Data

On-Premises

Data

Azure Analysis Services

Lightning fast queries

データ管理をきっかけに処理を実行

Web Glue

Bots IoT

DOMINOS STORES

Key Vault

Azure Active Directory

Azure Files

SSIS FRANCHISEE

AZURE WEST EUROPE

Azure Function

KEMPSSDESSRS

IN- AND EXTERNAL DATA SOURCES

orderprocessing

O365

App Insights

indexhtml

Azure Functions Proxies

couponprocessing

Use Bindings in Your Codefunctionjson

bindings [type httpTriggerdirection inwebHookType genericJsonname req

type httpdirection outname res

type queuename eventOutputqueueName aievents1connectionAiStorageConnectiondirection out

]

public static class OrderHandler

[FunctionName(OrderWebhook)]public static async TaskltHttpResponseMessagegt Run(

[HttpTrigger] HttpRequestMessage req[Queue(aievents1 Connection = AiStorageConnection)]

IAsyncCollectorltStringgt eventOutputTraceWriter log)

logInfo($Webhook was triggered)

string jsonContent = await reqContentReadAsStringAsync()dynamic data = JsonConvertDeserializeObject(jsonContent)

await eventOutputAddAsync(JsonConvertSerializeObject(GetLogData(data)))

int orderId = PlaceOrder(data)

return reqCreateResponse(HttpStatusCodeOK new orderNumber = orderId )

bull Workflow in the cloud

bull Powerful control flow

bull Connect functions and APIs

bull Declarative definition to persist in source control and drive deployments

Logic AppsCloud APIs and platform

bull Supports over 125 built-in connectors

bull Scales to meet your needs

bull Enables rapid development

bull Extends with custom APIs and

Functions

API connections

bull Authenticate once and reuse

Big Data Solutions Decision Tree

httpsbiz-excellencecom20160830big-data-dt

Machine Learning Solutions Decision Tree

httpsbiz-excellencecom20160913machine-

learning-dt

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of your

data while making it faster to get up and running with batch

streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources so

you can run queries on exabytes of data Includes U-SQL a

new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully managed

NoSQL database service that indexes stores and queries

data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

Microsoft Big Data Portfolio

SQL Server Stretch

Business intelligence

Machine learning analytics

Insights

Azure SQL Database

SQL Server 2016

SQL Server 2016 Fast Track

Azure SQL DW

ADLS amp ADLA

DocumentDB

HDInsight

Hadoop

Analytics Platform System

Sequential Scale Out + AcrossScale Up

Key

Relational Non-relational

On

-pre

mis

es

Clo

ud

Microsoft has solutions covering

and connecting all four

quadrants ndash thatrsquos why SQL

Server is one of the most utilized

databases in the world

Azure

Data Lake Store

Azure

Blob StoragePurpose Optimized for big data analytics General purpose bulk storage

Use Cases Batch Interactive Streaming App backend backup data media storage for

streaming

Units of Storage Accounts Folders Files Accounts Containers Blobs

Structure Hierarchical File System Flat namespace

WebHDFS Implements WebHDFS No (WASB)

Security AD SAS keys

Storage Auto SharedFiles chunked Manually manage expansionFiles intact

Service State Generally Available PolyBase

just supported

Generally Available

Billing Pay for data stored and for IO Pay for data stored and for IO

Region Availability Two US regions (Other regions coming soon) All Azure Regions

ADL Store vs Blob Store

httpsdocsmicrosoftcomen-usazuredata-lake-storedata-lake-store-comparison-with-blob-storage

Want Hadoop

Need exact same on-prem

Need interactive streaming

MandatoryNo strong opinion

Azure Marketplace (IaaS)

bull Need all workloads exactly like on-

premises

bull Need 100 HortonworksClouderaMapR

Azure HDInsight

bull Most Hadoop workloads

bull Fully managed by Microsoft

bull Sell HDI + ADLS

bull Stickier to Microsoft than VMs

bull Can do interactive (Spark) and streaming

(StormSpark)

Azure Data Lake Analytics

bull Easiest experience for admin no sense of

clusters instant scale per job

bull Easiest experience for developers Visual

StudioU-SQL (C+SQL)

bull Sell ADLA + ADLS

bull Batch workloads only

Need everything exactly like on-prem

Need core projects Yes Batch is OK

Always present ADLA if NET or Visual Studio Shop

If NET or VS shop

Azure SQL DW HDInsight Hive HDInsight Spark Azure Data Lake SQL Server (IaaS)

Volume Petabytes Petabytes Petabytes Petabytes Terabytes

Security Encryption TD

Audit

ADLS Apache

Ranger

ADLS AAD Security

Groups (data)

Encryption TD

Audit

Languages T-SQL HiveQL SparkSQL HiveQL

Scala Java Python

R

U-SQL T-SQL

Extensibility No Yes NETSerDe Yes Packages Yes NET Yes NET CLR

External File

Types

ORC TXT

Parquet RCFile

ORC CSV Parquet

+ others

Parquet JSON

Hive + others

Many ORC TXT Parquet

RCFile

Admin Low-Medium Medium-High Medium-High Low High

Cost Model DWU Nodes amp VM Nodes amp VM UnitsJobs VM

Schema

Definition

Schema on Write

Polybase

Schema on Read Schema on Read Schema on Read Schema on Write

Polybase

Max DB Size 240TB Comp (5X

= 1PB)

Unlimited 64TB (64 1TB drives)

機械学習 Deep Learning 深層強化学習

画像解析

音声解析

データ分類異常検知 顧客グルーピング

数値予測売上予測 需要予測 品質管理

ラベル分類不良品分析 故障予測 チャーン分析

機械学習より強力な分析

自律学習型ロボット

自動運転車

テキストや画像等の自動生成

活用例

主に多層のニューラルネットワークを用いた手法での分析

分析のためには莫大なデータ量計算量知識スキルを要する

統計に基づいた手法での分析

そのため比較的少ないデータ量と計算量で分析を行うことができる

定義したあるべき姿に従い試行錯誤をして自ら学習を行うための分析手法である強化学習と深層学習を組み合わせた分析

Azure Machine Learning Cognitive Toolkit GPU Instance (N-Series)

マイクロソフトが提供する技術

テキストデータ機器のログデータなど

画像データ監視カメラの録画データ 機器の外観画像 顔画像など

動画データ監視カメラの録画データ 機器の稼働状況 人の作業映像など

音声データマイクからの収集データ 稼働音 室内音 人の音声など

数値データセンサーデータ 機器の制御データ計測データなど672342345

機械学習統計理論に基づいた分析手法を用いる用意するべきデータ量と処理する計算量の敷居が低め導入しやすい

Deep Learningデータ量が大きいため強力な分析手法が必要「膨大なデータ量を用意」「莫大な計算量を処理」が必要で敷居が非常に高い導入にはそれなりの覚悟が必要

Action

People

Automated Systems

Apps

Web

Mobile

Bots

Intelligence

Dashboards amp Visualizations

Cortana

Bot Framework

Cognitive Services

Power BI

Information Management

Event Hubs

Data Catalog

Data Factory

Machine Learning and Analytics

HDInsight

Stream Analytics

Intelligence

Data Lake Analytics

Machine Learning

Big Data Stores

SQL Data Warehouse

Data Lake Store

Data Sources

Apps

Sensors amp Devices

Data

Cortana Intelligence Suite

学習済み

モデル利用

学習モデル

作成

機械学習 教師あり学習

教師なし学習

強化学習

決定木

線形回帰

SVM

ロジスティック回帰

ニューラルネットワーク

クラスタリング

次元削減

Q学習

K-mean法

主成分分析

正準相関分析

ディープニューラルネットワーク

畳みこみニューラルネットワーク

再帰的ニューラルネットワーク

回帰結合ニューラルネットワーク

httpsazuremicrosoftcomen-usservicescognitive-services

わずか数行のコードで強力なアルゴリズムを持つアプリの作成が可能ですiOSAndroidWindows などのプラットフォームを問わず機能します

httpsazuremicrosoftcomja-jpservicesmachine-learning

ユーザーは簡単に予測分析ソリューションを構築デプロイ共有できます

httpswwwyoutubecomwatchv=9gDDO5ldT-4ampfeature=youtube

AI技術を利用したディープラーニング(深層学習)ツールキットです旧称「CNTK」から改名されました

ソースコード httpsgithubcomMicrosoftCNTK

SearchSpeech

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

コカコーラ誕生100周年キャンペーン

コカコーラボトルを「100歳」と認識

bull 自撮り写真をUp結果をSNS拡散

ナビタイムジャパン様

自然言語入力による路線検索BOT

bull ユーザーとの新たな接点(LINE)

bull 自然言語入力

Vision Language Knowledge

Vision Knowledge SearchSpeech Language

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

Microsoft SupportVirtual Agent

自然言語入力による自動応答サポート窓口

bull 過去QampAデータ解析に基づく回答抽出

bull 定型外はldquo人対応rdquo

UBER

登録ドライバーをスマホ経由で顔認証

VOLVO

表情からの危険予測

Search

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

アロバ様

監視カメラによる店舗内行動分析

bull 顔認識による 顧客識別

bull 表情分析

東京サマーランド様にて導入済み

HmComm様

コールセンターソリューション

bull 会話をテキスト化キーワードを解析

bull 過去QampA検索

bull 内容をCRM保存

Vision KnowledgeSpeech Language

導入事例東京サマーランド様

Video

Intelligent KioskhttpsgithubcomMicrosoftCognitive-Samples-IntelligentKiosk

ldquo(want to|request)rdquo

HoloLens

Page 3: やりたいことから考えるMicrosoft Azure 上の データストアの選び方とデータサイエンティスト向け活用法。KVSからDWHまで

システム形態の変遷

クライアント

サーバークラウド上のサーバーやサービスAPIを

組み合わせたマッシュアップシステム

スタンドアロン

システム

従来のWebアプリ

Webサービス

httpsazuremicrosoftcomja-jpresourcestemplates

Computational Network Toolkit (CNTK)

Vowpal Wabbit XGBoost Rattle

mxnet Weka Apache Drill

CUDA CUDNN Nvidia Driver

GPU based Deep

Learning Tools

Use Deep Learning

Toolkit for DSVMUbuntu Edition Only

Microsoft

Cognitive Toolkit

(CNTK)

Y Y

Tensorflow Y Y

MXNet Y Y

Caffe amp Caffe2 N Y

Torch N Y

Theano N Y

Keras N Y

NVidia Digits N Y

CUDA CUDNN

Nvidia DriverY Y

httpsazuremicrosoftcomja-

jpdocumentationlearning-pathsdata-science-process

Platform Services

Infrastructure Services

Web Apps

MobileApps

APIManagement

API Apps

Logic Apps

Notification Hubs

Content DeliveryNetwork (CDN)

Media Services

BizTalkServices

HybridConnections

Service Bus

StorageQueues

HybridOperations

Backup

StorSimple

Azure SiteRecovery

ImportExport

SQL Database

DocumentDB

RedisCache

AzureSearch

StorageTables

DataWarehouse

Azure AD Health Monitoring

AD PrivilegedIdentity Management

OperationalAnalytics

Cloud Services

BatchRemoteApp

ServiceFabric

Visual Studio

AppInsights

Azure SDK

VS Online

Domain Services

HDInsight MachineLearning

StreamAnalytics

Data Factory

EventHubs

MobileEngagement

Data Lake

IoT Hub

Data Catalog

Security amp Management

Azure ActiveDirectory

Multi-FactorAuthentication

Automation

Portal

Key Vault

StoreMarketplace

VM Image Galleryamp VM Depot

Azure ADB2C

Scheduler

The Azure Platform

様々なアプリ開発が行われています

Web amp mobile Business apps Microservice apps

Development amp test Big data amp analytics Internet of Things

Backup recovery

amp archive

High Performance

ComputingDigital media

Identity amp security

Mediaamp CDN

Integration Developerservices

Data

Analytics amp IoT

MY APP

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

①大量データの受け入れ

②リアルタイム処理データの集約

③データの蓄積

構造化非構造化文書など様々な形式での保存

④データの加工移行

⑥機械学習

⑦Hadoop解析

⑧マイクロソフト技術を用いた分散解析

⑨通常のRMSが機能を追加した企業向けRを使用した解析

⑪クラウドベースの Self-Service BI 機能

⑫機械学習の予測モデルを業務システムなどから呼び出し可能にするサービス

外部クラウドなどからのデータ取り込み

②リアルタイム処理データの加工

⑤ディープラーニング

⑩Excelを用いた可視化

Cognitive Services API

Azure Gallery

Microsoft R Server

Azure Machine Learning Studio

Cognitive Toolkit Tensor Flow

Seamlessly blend technologies

Azure Data Lake Analytics

取り扱いたいデータタイプ

Audio video images Meaningless without adding some structure

非構造データUnstructured

構造化データStructured

CSV Columnar Storage (Parquet ORC) Strict data model structure

JSON XML sensor data social media device data web logs Flexible data model structure

文書など緩やかな構造を持つ半構造データ

Semi-Structured

Azure Storage様々な文書Blobデータテーブル形式のデータが保存可能なストレージ

SQL DatabaseSQL Server 2016 と同等の機能を提供する PaaS 型データベース サービス

Azure Database for MySQLPostgreSQLPaaS 型データベース サービス のMySQLPostgreSQL版

Cosmos DBマルチデータモデルのグローバル分散DB

Azure Data Lake Storeビッグ データの分析ワークロードに対応する大規模データ格納エリア

Azure SQL Data Warehouseペタバイト単位のストレージを有した PaaS 型データ ウェアハウス サービス

IoT Hub

Event Hubs

Data Warehouse

Data Factory

App Insights Log Analytics

Monitor

CDN

Search Power BI

Blob Storage Pillars

Open amp

Interoperable

Manageable amp

Cost Efficient

Scalable amp

Performant

Secure amp

Compliant

Durable amp

Available

Machine Learning

Stream Analytics

Batch

Functions

Data Lake Analytics

Azure HDInsight

Big Data Use Cases

Ingest amp ETL Streaming Analytics amp Machine Learning Data Aggregation Presentation

QueuesReliable queues at

scale for cloud

services

ファイルを保存する際にはこの3つの選択肢があります

httpsdocsmicrosoftcomja-jpazurestoragestorage-decide-blobs-files-disks

OS

アプリ アプリ アプリ アプリ

BLOB

効率

利用

仮想マシン

+BLOB

001log

002log

003log

004log

EN

EN

EN

EN

EN

EN

PS

PS

PS

PS ENEN

001log

002log

003log

004log

disk1vhd

PS = パーティション サーバー

EN = エクステント ノード

001log

002log

003log

004log

EN

EN

EN

EN

EN

EN

PS

PS

PS

PS ENEN

Block 1 Block 4Block 3Block 2

Imagejpg

Sparse File 512 byte aligned

51

2

10

24

15

36

20

48

25

60

AZCopy ndash Robocopy for Azure StorageStorage Explorer ndash Cross platform UX

Data Movement Library on CoreCLR

Python client library

仮想マシンSQL Enterprise

DS4 の場合

8 Core 28 GB RAM

Disk 0

読み取り書き込み Disk 1

Disk 2

P30

読み取りのみ

C

システム

D

キャッシュ

永続性あり 永続性なし 永続性あり (複数ボリュームの分割やストライプの構成が可能)

Premium Storage

デフォルト作成(仮想マシン付属) ユーザーが任意に追加

OS

Page ファイル

DBMS Exe

SQL Server バッファープール拡張

httpsazuremicrosoftcomja-jpdocumentationarticlesvirtual-machines-sql-server-performance-best-practices

httpsazuremicrosoftcomja-jpdocumentationarticlesvirtual-machines-sql-server-use-premium-storage

Disk n

P30

読み取りのみ

E

SQL データ(ページ圧縮)

Temp DB

Disk 3

P30

なし

F

Transaction-

Log

Disk Cache

344GB

最大Disk IOPS

256MBsec

P30合計の

600MBsは出ない

NTFSアロケーションユニットサイズ 64KB

データベース ページ圧縮 有効

Table用Index用Temp DB用に別

ドライブに拡張可能

キャッシュ設定は添付の

URLを参照

最大Disk IOPS

200MBsec

最大Disk IOPS

200MBsec

最大Disk IOPS

200MBsec

フルマネージドの RDBMS

データベース

RDBMS

OS

Azure が管理

利用者が管理

VM上の RDBMS

ホスト OS

仮想化

フルコントロール

データベース

RDBMS

OS

仮想化

ホスト OS

容易な管理

Azure Database

SQL Server物理マシン仮想マシン

SQL Server on Azure VM仮想マシン

SQL Database Data WarehousePaaS

物理マシン仮想マシン

VM Template Market place仮想マシン

Azure Database for MySQL PostgreSQL

論理データベース

Write

Write Ack

Ack

Read

value write

Ack

特徴

無停止フェールオーバー

無停止スケールアップ(プラン変更)

自動パフォーマンスチューニング

スループット指定によるプロビジョニング

データベース トランザクション ユニット (DTU) とエラスティック データベース トランザクション ユニット (eDTU) の説明

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-what-is-a-dtu

Azure SQL Database Query Performance Insight

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-query-performance

Query Store is turned on by default for Azure SQL Database

httpsazuremicrosoftcomja-jpupdatesquery-store-on-is-the-new-default-for-azure-sql-database

Queries

SQL Database

Deeper Insight

Query

Store

SQL Database Advisor

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-advisor

Azure Portal を使用した SQL Database Advisor

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-advisor-portal

領域 改善後

新しいインデックス提案が作成されるまで 18時間以内

T-SQL文が実行されるまでのタイムラグ 即時(数分以内)

「悪い」チューニング内容に対しての検知時間 1時間以内

次のインデックス提案が行われるまでの待ち時

間即時(数分以内)

導入までの総時間 1日以内

SQL Database の脅威の検出

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-threat-detection

コントロールノード

SQLDB

Azure Blob Storage(WASB)

100 DWU lt gt 2000 DWUコントロールノード

ユーザーからの接続コンピュートとストレージの調整

コンピュートノード

コンピュートノード

コンピュートノード

コンピュートノード

SQLDB

SQLDB

SQLDB

SQLDB

Azure Blob Storage(WASB)

コントロールノード

SQLDB コントロールノード

D51

D52

D53

D60

hellip

D41

D42

D43

D50

hellip

コンピュートノード

D31

D32

D33

D40hellip

D21

D22

D23

D30

hellip

D11

D12

D13

D20

hellip

D1

D2

D3

D10

hellip

SQL DB

Azure Blob Storage(WASB)

コントロールノード

SQLDB コントロールノード

コンピュートノード

D51

D52

D53

D60

hellipコンピュートノード

D41

D42

D43

D50

hellip

コンピュートノード

D31

D32

D33

D40hellip

コンピュートノード

D21

D22

D23

D30

hellip

コンピュートノード

D11

D12

D13

D20

hellip

コンピュートノード

D1

D2

D3

D10

hellip

SQL DB

SQL DB

SQL DB

SQL DB

SQL DB

SQL DB

54

データ無制限のストレージ と 分析プラットフォーム

無制限のストレージ(エクサバイト超)

ネイティブ HDFS に基づく実装

HDInsight Hortonworks Cloudera との統合

全ての HDFS 準拠プロジェクトとの親和性

(Spark Storm Flume Sqoop Kafka R etc)

Azure Data Lake Store- Hadoop Distributed File System (HDFS) For The Cloud

構造化データと非構造化データに対するデータ処理

宣言型の SQL 文 とカスタムコード (UDF UDT UDO hellip )

ローカルとリモートに対するクエリ

バッチ型インタラクティブ型ストリーミング型(in the future)

Azure Data Lake Analytics- New Query Language U-SQL

ETL パイプライン

スキーマの定義Relational

LOB

Applications

Schema-on-Write

直ちに必要でないデータは全て捨てられるかアーカイブされている

無限に保存 分析 結果の参照

あらゆるデータ

ソースからの

データ収集

Schema-on-Read

全データ取込要件にかかわらず

全データ格納そのままのフォーマットでスキーマ定義なし

分析実行Hadoopのような分析エンジンの利用

インタラクティブクエリ

バッチ型クエリ

機械学習

データウェアハウス

リアルタイム分析

リレーショナル

デバイス

観察仮説集まったデータから仮説をたてる

58

無制限のサイズ

ギガバイトからペタバイトのサイズの単一ファイル

巨大なスループットを必要とする大規模な分析システムを実現

あらゆるスループットに自動最適化

ペタバイト超のデータの並列コンピューティング

同一リージョン内に3つのコピーを自動的に作成

インストールやチューニングは不要

数分で稼働開始

必要に応じてどのようなサイズにもスケールアウト可能

データウェアハウスデータレイクストア

非構造Rawデータ(ログ文書バイナリ)

Tier 1

MachineLearning

Data LakeAnalytics HDInsight

目的に合わせた

データウェハウス分析処理

(売上分析経営分析)

データウェハウスに格納しきれなかった

過去データ関連データを連結して分析

ハードウェアの性能限界によって行えなかった処理量の分析を実現

ディスクコンピューティング

非構造データの

分析処理

(画像音声映像など)

広範囲のデータを利用した

機械学習統計解析処理

などによる高度分析

SQL Data Warehouse

Data LakeAnalytics HDInsight

Data LakeAnalytics

構造化データ半構造データ

分析用に加工(csv等)

Tier 2

アーカイブデータTier 2 DWHのアーカイブ

Tier 3

Analytics

Storage

HDInsight(ldquomanaged clustersrdquo)

Azure Data Lake Analytics

Azure Data Lake Store

Azure Data Lake

LOB Applications

SocialDevices

Clickstream

Sensors

Video

Web

Relational

HDInsight

Data Lake Analytics

Machine Learning

Spark

R

Azure Data Lake Store

Azure Data Lake Store

Azure Storage Blob

外部表Azure SQLData Warehouse

HDInsight

開発者は OSS に馴染んでいる Java Eclipse Hive etc

マネージド Hadoop クラスタにおいてカスタマイズ管理が可能でフレキシビリティがある

Azure Data Lake Analytics

C SQL amp PowerShell のスキル

経験を活かせる

利便性効率性自動スケール

ジョブ実行の仕組みが提供される

(New)

(New)

一般的なパターン

処理読み込み 保存

INSERT

OUTPUT

OUTPUT

SELECThellip

FROMhellip

WHEREhellip

+

PythonR

EXTRACT

EXTRACT

SELECT

SELECT

Azure

Data

Lake

Azure

Data

Lake

Azure

SQL

DB

Azure

Storage

Blobs

Azure

Storage

Blobs

RowSet RowSet

Cognitive Services

REFERENCE ASSEMBLY WebLogExtASM

rs =

EXTRACT

UserID string

Start DateTime

End DateTime

Region string

SitesVisited string

PagesVisited string

FROM ldquoLogsWebLogRecordstxtrdquo

USING WebLogExtractor ()

result = SELECT UserID

(EndSubtract(Start))TotalSeconds AS Duration

FROM rs ORDER BY Duration DESC FETCH 10

OUTPUT result TO ldquoLogsResultstop10tsv

USING OutputterTsv()

bull 型定義は C の型定義と同じ

bull データをファイルから抽出読み込み

するときにスキーマが必要

Data Lake Store 内 のファイル

独自形式を解析するカスタム関数

C の関数

行セット(中間テーブルの概念

に近い)

TSV形式で書き込む関数

U-SQL ジョブのサブミットAzure PortalやVisual StudioのAzure Data Lake ToolsからU-SQLジョブをサブミット可能

67

進捗

統計情報

従来型の処理分析 Azure Data Lake を中心とした処理分析

Business apps

Custom apps

Sensors and devices

ADL StorePeople

非構造化データも含めてあらゆるデータを格納

Azure SQL DW

Azure AD

Power BI

ADF

ADL Analytics

bull 処理分析業務の大半はデータ準備作業が占めるbull 処理分析業務に手間時間が必要

Business apps

Custom apps

Sensors and devices

HDInsight

ユーザー管理認証

データの連携

Power BI

File System

Database

Database

Hadoop

DWH

Data Mart

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

①大量データの受け入れ

②リアルタイム処理データの集約

③データの蓄積

構造化非構造化文書など様々な形式での保存

④データの加工移行

⑥機械学習

⑦Hadoop解析

⑧マイクロソフト技術を用いた分散解析

⑨通常のRMSが機能を追加した企業向けRを使用した解析

⑪クラウドベースの Self-Service BI 機能

⑫機械学習の予測モデルを業務システムなどから呼び出し可能にするサービス

外部クラウドなどからのデータ取り込み

②リアルタイム処理データの加工

⑤ディープラーニング

⑩Excelを用いた可視化

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

リアルタイム

バッチ

Data Factory Tools for Visual Studio

Azure Portal

Azure TableStorage

(Web ログレコード)

Data Factory

HDInsight

(Web ログをファイルにして

バッチ処理で集計)

SQL Database

(集計データをDB テーブルに格納)

Power BI

社内システム

DataManagement

Gateway

SQL Database

Data Warehouse

Blob Storage

Table Storage

httpportalazurecom

接続

メッセージ作成

メッセージ送信

var cs = ldquo接続文字列rdquovar path = ldquoイベントハブ名rdquovar eh = EventHubClientCreateFromConnectionString(cs path)

var msg = new user = thisUserIdentityNamelevel = leveltimestamp = demoTimestamp

var json = JsonConvertSerializeObject(msg)

ehSend(new EventData(EncodingUTF8GetBytes(json)))

EventProcessorHostを使う

bull

bull

bull

Functionsを使う

bull

bull

IEventProcessorProcessEventAsync(msg)

IEventProcessorProcessEventAsync(msg)

Run(string msg)

Azure azure-sdk-for-python

Point of Service Devices

Self CheckoutStations

Kiosks

Smart Phones

SlatesTablets

PCsLaptops

Servers

Digital Signs

DiagnosticEquipmentRemote Medical

MonitorsLogic

Controllers

SpecializedDevicesThin

Clients

Handhelds

Security

POS Terminals

AutomationDevices

VendingMachines

Kinect

ATM

Stream Analytics

入力 出力クエリデータストリーム

参照

bull ldquo入力rdquoldquo出力rdquoをクリックしそれぞれ作成

bull ldquoクエリrdquoをクリックしクエリを定義bull 作業が終わったらldquo開始rdquoで実

行開始

SELECT

INTO

FROM

SELECT user level AS SATLevel timestamp

INTO

FROM

デバイス接続性とデバイス管理およびブローカーサービス

データ管理と高度な分析 情報活用業務の生産性とプロセスの最適化

IoT Agent Gateway

予兆原因の学習モデル

ダッシュボード

参照ERPbull 顧客bull 設備bull 担当者

Notification Hubs

通知

予兆イベント

メンテ方法の推奨

bull ヘルス状態bull インシデント管理bull 対応のディスパッチ

現地技術要員のモバイルデバイス

オペレーションセンター

bull イベント ドア開閉軸アライメントキャビン速度モーター温度など

bull アラーム 故障アラームエラーコードなど

httpisstkeazurewebsitesnet

Event Hub

Stream Analytics

Azure ML

制御機器とセンサーのデータ

マシンデータの蓄積

メンテナンス方法の学習モデル

Machine Learning

Blob Storage

セルフサービス分析

Power BI

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce

cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-

system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of

your data while making it faster to get up and running with

batch streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources

so you can run queries on exabytes of data Includes U-

SQL a new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully

managed NoSQL database service that indexes stores and

queries data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

What do all of these have in common

They can all use Azure Analysis Services

Azure Analysis Services

Azure Analysis Services

BI semantic model

Business logic amp metrics

Data modeling

Security

Azure Analysis Services

Lifecycle management

In-memory cache

On-premises

Cloud

Data sources

SQL Database

SQL Data Warehouse

Other data sources

SQL Server

Analytics platform

system

Other data sources

On-premises

Cloud

Client tools

Power BI

Excel

Third party BI tools

Power BI Desktop

Rich semantic modelling

locatioidentifier

identifiertype

fieldidentifier

numberofunitssoldtodate

remaningnumber

Numberofuntissoldtoday

receivedback

productidentifier

descriptionline1

descriptionline2

qtyafterqtysales

familyidentifier

Source DataComplex raw data optimized for processing

Semantic ModelRich business user friendly semantic model

Product Id

Product Name

Product Description

Category

Category Id

Category Name

Category Description

Sub Category

Product Id

Shelf qty

Return qty

Order qty

Sale qty

Cloud Data

On-Premises

Data

Azure Analysis Services

Lightning fast queries

データ管理をきっかけに処理を実行

Web Glue

Bots IoT

DOMINOS STORES

Key Vault

Azure Active Directory

Azure Files

SSIS FRANCHISEE

AZURE WEST EUROPE

Azure Function

KEMPSSDESSRS

IN- AND EXTERNAL DATA SOURCES

orderprocessing

O365

App Insights

indexhtml

Azure Functions Proxies

couponprocessing

Use Bindings in Your Codefunctionjson

bindings [type httpTriggerdirection inwebHookType genericJsonname req

type httpdirection outname res

type queuename eventOutputqueueName aievents1connectionAiStorageConnectiondirection out

]

public static class OrderHandler

[FunctionName(OrderWebhook)]public static async TaskltHttpResponseMessagegt Run(

[HttpTrigger] HttpRequestMessage req[Queue(aievents1 Connection = AiStorageConnection)]

IAsyncCollectorltStringgt eventOutputTraceWriter log)

logInfo($Webhook was triggered)

string jsonContent = await reqContentReadAsStringAsync()dynamic data = JsonConvertDeserializeObject(jsonContent)

await eventOutputAddAsync(JsonConvertSerializeObject(GetLogData(data)))

int orderId = PlaceOrder(data)

return reqCreateResponse(HttpStatusCodeOK new orderNumber = orderId )

bull Workflow in the cloud

bull Powerful control flow

bull Connect functions and APIs

bull Declarative definition to persist in source control and drive deployments

Logic AppsCloud APIs and platform

bull Supports over 125 built-in connectors

bull Scales to meet your needs

bull Enables rapid development

bull Extends with custom APIs and

Functions

API connections

bull Authenticate once and reuse

Big Data Solutions Decision Tree

httpsbiz-excellencecom20160830big-data-dt

Machine Learning Solutions Decision Tree

httpsbiz-excellencecom20160913machine-

learning-dt

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of your

data while making it faster to get up and running with batch

streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources so

you can run queries on exabytes of data Includes U-SQL a

new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully managed

NoSQL database service that indexes stores and queries

data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

Microsoft Big Data Portfolio

SQL Server Stretch

Business intelligence

Machine learning analytics

Insights

Azure SQL Database

SQL Server 2016

SQL Server 2016 Fast Track

Azure SQL DW

ADLS amp ADLA

DocumentDB

HDInsight

Hadoop

Analytics Platform System

Sequential Scale Out + AcrossScale Up

Key

Relational Non-relational

On

-pre

mis

es

Clo

ud

Microsoft has solutions covering

and connecting all four

quadrants ndash thatrsquos why SQL

Server is one of the most utilized

databases in the world

Azure

Data Lake Store

Azure

Blob StoragePurpose Optimized for big data analytics General purpose bulk storage

Use Cases Batch Interactive Streaming App backend backup data media storage for

streaming

Units of Storage Accounts Folders Files Accounts Containers Blobs

Structure Hierarchical File System Flat namespace

WebHDFS Implements WebHDFS No (WASB)

Security AD SAS keys

Storage Auto SharedFiles chunked Manually manage expansionFiles intact

Service State Generally Available PolyBase

just supported

Generally Available

Billing Pay for data stored and for IO Pay for data stored and for IO

Region Availability Two US regions (Other regions coming soon) All Azure Regions

ADL Store vs Blob Store

httpsdocsmicrosoftcomen-usazuredata-lake-storedata-lake-store-comparison-with-blob-storage

Want Hadoop

Need exact same on-prem

Need interactive streaming

MandatoryNo strong opinion

Azure Marketplace (IaaS)

bull Need all workloads exactly like on-

premises

bull Need 100 HortonworksClouderaMapR

Azure HDInsight

bull Most Hadoop workloads

bull Fully managed by Microsoft

bull Sell HDI + ADLS

bull Stickier to Microsoft than VMs

bull Can do interactive (Spark) and streaming

(StormSpark)

Azure Data Lake Analytics

bull Easiest experience for admin no sense of

clusters instant scale per job

bull Easiest experience for developers Visual

StudioU-SQL (C+SQL)

bull Sell ADLA + ADLS

bull Batch workloads only

Need everything exactly like on-prem

Need core projects Yes Batch is OK

Always present ADLA if NET or Visual Studio Shop

If NET or VS shop

Azure SQL DW HDInsight Hive HDInsight Spark Azure Data Lake SQL Server (IaaS)

Volume Petabytes Petabytes Petabytes Petabytes Terabytes

Security Encryption TD

Audit

ADLS Apache

Ranger

ADLS AAD Security

Groups (data)

Encryption TD

Audit

Languages T-SQL HiveQL SparkSQL HiveQL

Scala Java Python

R

U-SQL T-SQL

Extensibility No Yes NETSerDe Yes Packages Yes NET Yes NET CLR

External File

Types

ORC TXT

Parquet RCFile

ORC CSV Parquet

+ others

Parquet JSON

Hive + others

Many ORC TXT Parquet

RCFile

Admin Low-Medium Medium-High Medium-High Low High

Cost Model DWU Nodes amp VM Nodes amp VM UnitsJobs VM

Schema

Definition

Schema on Write

Polybase

Schema on Read Schema on Read Schema on Read Schema on Write

Polybase

Max DB Size 240TB Comp (5X

= 1PB)

Unlimited 64TB (64 1TB drives)

機械学習 Deep Learning 深層強化学習

画像解析

音声解析

データ分類異常検知 顧客グルーピング

数値予測売上予測 需要予測 品質管理

ラベル分類不良品分析 故障予測 チャーン分析

機械学習より強力な分析

自律学習型ロボット

自動運転車

テキストや画像等の自動生成

活用例

主に多層のニューラルネットワークを用いた手法での分析

分析のためには莫大なデータ量計算量知識スキルを要する

統計に基づいた手法での分析

そのため比較的少ないデータ量と計算量で分析を行うことができる

定義したあるべき姿に従い試行錯誤をして自ら学習を行うための分析手法である強化学習と深層学習を組み合わせた分析

Azure Machine Learning Cognitive Toolkit GPU Instance (N-Series)

マイクロソフトが提供する技術

テキストデータ機器のログデータなど

画像データ監視カメラの録画データ 機器の外観画像 顔画像など

動画データ監視カメラの録画データ 機器の稼働状況 人の作業映像など

音声データマイクからの収集データ 稼働音 室内音 人の音声など

数値データセンサーデータ 機器の制御データ計測データなど672342345

機械学習統計理論に基づいた分析手法を用いる用意するべきデータ量と処理する計算量の敷居が低め導入しやすい

Deep Learningデータ量が大きいため強力な分析手法が必要「膨大なデータ量を用意」「莫大な計算量を処理」が必要で敷居が非常に高い導入にはそれなりの覚悟が必要

Action

People

Automated Systems

Apps

Web

Mobile

Bots

Intelligence

Dashboards amp Visualizations

Cortana

Bot Framework

Cognitive Services

Power BI

Information Management

Event Hubs

Data Catalog

Data Factory

Machine Learning and Analytics

HDInsight

Stream Analytics

Intelligence

Data Lake Analytics

Machine Learning

Big Data Stores

SQL Data Warehouse

Data Lake Store

Data Sources

Apps

Sensors amp Devices

Data

Cortana Intelligence Suite

学習済み

モデル利用

学習モデル

作成

機械学習 教師あり学習

教師なし学習

強化学習

決定木

線形回帰

SVM

ロジスティック回帰

ニューラルネットワーク

クラスタリング

次元削減

Q学習

K-mean法

主成分分析

正準相関分析

ディープニューラルネットワーク

畳みこみニューラルネットワーク

再帰的ニューラルネットワーク

回帰結合ニューラルネットワーク

httpsazuremicrosoftcomen-usservicescognitive-services

わずか数行のコードで強力なアルゴリズムを持つアプリの作成が可能ですiOSAndroidWindows などのプラットフォームを問わず機能します

httpsazuremicrosoftcomja-jpservicesmachine-learning

ユーザーは簡単に予測分析ソリューションを構築デプロイ共有できます

httpswwwyoutubecomwatchv=9gDDO5ldT-4ampfeature=youtube

AI技術を利用したディープラーニング(深層学習)ツールキットです旧称「CNTK」から改名されました

ソースコード httpsgithubcomMicrosoftCNTK

SearchSpeech

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

コカコーラ誕生100周年キャンペーン

コカコーラボトルを「100歳」と認識

bull 自撮り写真をUp結果をSNS拡散

ナビタイムジャパン様

自然言語入力による路線検索BOT

bull ユーザーとの新たな接点(LINE)

bull 自然言語入力

Vision Language Knowledge

Vision Knowledge SearchSpeech Language

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

Microsoft SupportVirtual Agent

自然言語入力による自動応答サポート窓口

bull 過去QampAデータ解析に基づく回答抽出

bull 定型外はldquo人対応rdquo

UBER

登録ドライバーをスマホ経由で顔認証

VOLVO

表情からの危険予測

Search

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

アロバ様

監視カメラによる店舗内行動分析

bull 顔認識による 顧客識別

bull 表情分析

東京サマーランド様にて導入済み

HmComm様

コールセンターソリューション

bull 会話をテキスト化キーワードを解析

bull 過去QampA検索

bull 内容をCRM保存

Vision KnowledgeSpeech Language

導入事例東京サマーランド様

Video

Intelligent KioskhttpsgithubcomMicrosoftCognitive-Samples-IntelligentKiosk

ldquo(want to|request)rdquo

HoloLens

Page 4: やりたいことから考えるMicrosoft Azure 上の データストアの選び方とデータサイエンティスト向け活用法。KVSからDWHまで

httpsazuremicrosoftcomja-jpresourcestemplates

Computational Network Toolkit (CNTK)

Vowpal Wabbit XGBoost Rattle

mxnet Weka Apache Drill

CUDA CUDNN Nvidia Driver

GPU based Deep

Learning Tools

Use Deep Learning

Toolkit for DSVMUbuntu Edition Only

Microsoft

Cognitive Toolkit

(CNTK)

Y Y

Tensorflow Y Y

MXNet Y Y

Caffe amp Caffe2 N Y

Torch N Y

Theano N Y

Keras N Y

NVidia Digits N Y

CUDA CUDNN

Nvidia DriverY Y

httpsazuremicrosoftcomja-

jpdocumentationlearning-pathsdata-science-process

Platform Services

Infrastructure Services

Web Apps

MobileApps

APIManagement

API Apps

Logic Apps

Notification Hubs

Content DeliveryNetwork (CDN)

Media Services

BizTalkServices

HybridConnections

Service Bus

StorageQueues

HybridOperations

Backup

StorSimple

Azure SiteRecovery

ImportExport

SQL Database

DocumentDB

RedisCache

AzureSearch

StorageTables

DataWarehouse

Azure AD Health Monitoring

AD PrivilegedIdentity Management

OperationalAnalytics

Cloud Services

BatchRemoteApp

ServiceFabric

Visual Studio

AppInsights

Azure SDK

VS Online

Domain Services

HDInsight MachineLearning

StreamAnalytics

Data Factory

EventHubs

MobileEngagement

Data Lake

IoT Hub

Data Catalog

Security amp Management

Azure ActiveDirectory

Multi-FactorAuthentication

Automation

Portal

Key Vault

StoreMarketplace

VM Image Galleryamp VM Depot

Azure ADB2C

Scheduler

The Azure Platform

様々なアプリ開発が行われています

Web amp mobile Business apps Microservice apps

Development amp test Big data amp analytics Internet of Things

Backup recovery

amp archive

High Performance

ComputingDigital media

Identity amp security

Mediaamp CDN

Integration Developerservices

Data

Analytics amp IoT

MY APP

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

①大量データの受け入れ

②リアルタイム処理データの集約

③データの蓄積

構造化非構造化文書など様々な形式での保存

④データの加工移行

⑥機械学習

⑦Hadoop解析

⑧マイクロソフト技術を用いた分散解析

⑨通常のRMSが機能を追加した企業向けRを使用した解析

⑪クラウドベースの Self-Service BI 機能

⑫機械学習の予測モデルを業務システムなどから呼び出し可能にするサービス

外部クラウドなどからのデータ取り込み

②リアルタイム処理データの加工

⑤ディープラーニング

⑩Excelを用いた可視化

Cognitive Services API

Azure Gallery

Microsoft R Server

Azure Machine Learning Studio

Cognitive Toolkit Tensor Flow

Seamlessly blend technologies

Azure Data Lake Analytics

取り扱いたいデータタイプ

Audio video images Meaningless without adding some structure

非構造データUnstructured

構造化データStructured

CSV Columnar Storage (Parquet ORC) Strict data model structure

JSON XML sensor data social media device data web logs Flexible data model structure

文書など緩やかな構造を持つ半構造データ

Semi-Structured

Azure Storage様々な文書Blobデータテーブル形式のデータが保存可能なストレージ

SQL DatabaseSQL Server 2016 と同等の機能を提供する PaaS 型データベース サービス

Azure Database for MySQLPostgreSQLPaaS 型データベース サービス のMySQLPostgreSQL版

Cosmos DBマルチデータモデルのグローバル分散DB

Azure Data Lake Storeビッグ データの分析ワークロードに対応する大規模データ格納エリア

Azure SQL Data Warehouseペタバイト単位のストレージを有した PaaS 型データ ウェアハウス サービス

IoT Hub

Event Hubs

Data Warehouse

Data Factory

App Insights Log Analytics

Monitor

CDN

Search Power BI

Blob Storage Pillars

Open amp

Interoperable

Manageable amp

Cost Efficient

Scalable amp

Performant

Secure amp

Compliant

Durable amp

Available

Machine Learning

Stream Analytics

Batch

Functions

Data Lake Analytics

Azure HDInsight

Big Data Use Cases

Ingest amp ETL Streaming Analytics amp Machine Learning Data Aggregation Presentation

QueuesReliable queues at

scale for cloud

services

ファイルを保存する際にはこの3つの選択肢があります

httpsdocsmicrosoftcomja-jpazurestoragestorage-decide-blobs-files-disks

OS

アプリ アプリ アプリ アプリ

BLOB

効率

利用

仮想マシン

+BLOB

001log

002log

003log

004log

EN

EN

EN

EN

EN

EN

PS

PS

PS

PS ENEN

001log

002log

003log

004log

disk1vhd

PS = パーティション サーバー

EN = エクステント ノード

001log

002log

003log

004log

EN

EN

EN

EN

EN

EN

PS

PS

PS

PS ENEN

Block 1 Block 4Block 3Block 2

Imagejpg

Sparse File 512 byte aligned

51

2

10

24

15

36

20

48

25

60

AZCopy ndash Robocopy for Azure StorageStorage Explorer ndash Cross platform UX

Data Movement Library on CoreCLR

Python client library

仮想マシンSQL Enterprise

DS4 の場合

8 Core 28 GB RAM

Disk 0

読み取り書き込み Disk 1

Disk 2

P30

読み取りのみ

C

システム

D

キャッシュ

永続性あり 永続性なし 永続性あり (複数ボリュームの分割やストライプの構成が可能)

Premium Storage

デフォルト作成(仮想マシン付属) ユーザーが任意に追加

OS

Page ファイル

DBMS Exe

SQL Server バッファープール拡張

httpsazuremicrosoftcomja-jpdocumentationarticlesvirtual-machines-sql-server-performance-best-practices

httpsazuremicrosoftcomja-jpdocumentationarticlesvirtual-machines-sql-server-use-premium-storage

Disk n

P30

読み取りのみ

E

SQL データ(ページ圧縮)

Temp DB

Disk 3

P30

なし

F

Transaction-

Log

Disk Cache

344GB

最大Disk IOPS

256MBsec

P30合計の

600MBsは出ない

NTFSアロケーションユニットサイズ 64KB

データベース ページ圧縮 有効

Table用Index用Temp DB用に別

ドライブに拡張可能

キャッシュ設定は添付の

URLを参照

最大Disk IOPS

200MBsec

最大Disk IOPS

200MBsec

最大Disk IOPS

200MBsec

フルマネージドの RDBMS

データベース

RDBMS

OS

Azure が管理

利用者が管理

VM上の RDBMS

ホスト OS

仮想化

フルコントロール

データベース

RDBMS

OS

仮想化

ホスト OS

容易な管理

Azure Database

SQL Server物理マシン仮想マシン

SQL Server on Azure VM仮想マシン

SQL Database Data WarehousePaaS

物理マシン仮想マシン

VM Template Market place仮想マシン

Azure Database for MySQL PostgreSQL

論理データベース

Write

Write Ack

Ack

Read

value write

Ack

特徴

無停止フェールオーバー

無停止スケールアップ(プラン変更)

自動パフォーマンスチューニング

スループット指定によるプロビジョニング

データベース トランザクション ユニット (DTU) とエラスティック データベース トランザクション ユニット (eDTU) の説明

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-what-is-a-dtu

Azure SQL Database Query Performance Insight

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-query-performance

Query Store is turned on by default for Azure SQL Database

httpsazuremicrosoftcomja-jpupdatesquery-store-on-is-the-new-default-for-azure-sql-database

Queries

SQL Database

Deeper Insight

Query

Store

SQL Database Advisor

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-advisor

Azure Portal を使用した SQL Database Advisor

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-advisor-portal

領域 改善後

新しいインデックス提案が作成されるまで 18時間以内

T-SQL文が実行されるまでのタイムラグ 即時(数分以内)

「悪い」チューニング内容に対しての検知時間 1時間以内

次のインデックス提案が行われるまでの待ち時

間即時(数分以内)

導入までの総時間 1日以内

SQL Database の脅威の検出

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-threat-detection

コントロールノード

SQLDB

Azure Blob Storage(WASB)

100 DWU lt gt 2000 DWUコントロールノード

ユーザーからの接続コンピュートとストレージの調整

コンピュートノード

コンピュートノード

コンピュートノード

コンピュートノード

SQLDB

SQLDB

SQLDB

SQLDB

Azure Blob Storage(WASB)

コントロールノード

SQLDB コントロールノード

D51

D52

D53

D60

hellip

D41

D42

D43

D50

hellip

コンピュートノード

D31

D32

D33

D40hellip

D21

D22

D23

D30

hellip

D11

D12

D13

D20

hellip

D1

D2

D3

D10

hellip

SQL DB

Azure Blob Storage(WASB)

コントロールノード

SQLDB コントロールノード

コンピュートノード

D51

D52

D53

D60

hellipコンピュートノード

D41

D42

D43

D50

hellip

コンピュートノード

D31

D32

D33

D40hellip

コンピュートノード

D21

D22

D23

D30

hellip

コンピュートノード

D11

D12

D13

D20

hellip

コンピュートノード

D1

D2

D3

D10

hellip

SQL DB

SQL DB

SQL DB

SQL DB

SQL DB

SQL DB

54

データ無制限のストレージ と 分析プラットフォーム

無制限のストレージ(エクサバイト超)

ネイティブ HDFS に基づく実装

HDInsight Hortonworks Cloudera との統合

全ての HDFS 準拠プロジェクトとの親和性

(Spark Storm Flume Sqoop Kafka R etc)

Azure Data Lake Store- Hadoop Distributed File System (HDFS) For The Cloud

構造化データと非構造化データに対するデータ処理

宣言型の SQL 文 とカスタムコード (UDF UDT UDO hellip )

ローカルとリモートに対するクエリ

バッチ型インタラクティブ型ストリーミング型(in the future)

Azure Data Lake Analytics- New Query Language U-SQL

ETL パイプライン

スキーマの定義Relational

LOB

Applications

Schema-on-Write

直ちに必要でないデータは全て捨てられるかアーカイブされている

無限に保存 分析 結果の参照

あらゆるデータ

ソースからの

データ収集

Schema-on-Read

全データ取込要件にかかわらず

全データ格納そのままのフォーマットでスキーマ定義なし

分析実行Hadoopのような分析エンジンの利用

インタラクティブクエリ

バッチ型クエリ

機械学習

データウェアハウス

リアルタイム分析

リレーショナル

デバイス

観察仮説集まったデータから仮説をたてる

58

無制限のサイズ

ギガバイトからペタバイトのサイズの単一ファイル

巨大なスループットを必要とする大規模な分析システムを実現

あらゆるスループットに自動最適化

ペタバイト超のデータの並列コンピューティング

同一リージョン内に3つのコピーを自動的に作成

インストールやチューニングは不要

数分で稼働開始

必要に応じてどのようなサイズにもスケールアウト可能

データウェアハウスデータレイクストア

非構造Rawデータ(ログ文書バイナリ)

Tier 1

MachineLearning

Data LakeAnalytics HDInsight

目的に合わせた

データウェハウス分析処理

(売上分析経営分析)

データウェハウスに格納しきれなかった

過去データ関連データを連結して分析

ハードウェアの性能限界によって行えなかった処理量の分析を実現

ディスクコンピューティング

非構造データの

分析処理

(画像音声映像など)

広範囲のデータを利用した

機械学習統計解析処理

などによる高度分析

SQL Data Warehouse

Data LakeAnalytics HDInsight

Data LakeAnalytics

構造化データ半構造データ

分析用に加工(csv等)

Tier 2

アーカイブデータTier 2 DWHのアーカイブ

Tier 3

Analytics

Storage

HDInsight(ldquomanaged clustersrdquo)

Azure Data Lake Analytics

Azure Data Lake Store

Azure Data Lake

LOB Applications

SocialDevices

Clickstream

Sensors

Video

Web

Relational

HDInsight

Data Lake Analytics

Machine Learning

Spark

R

Azure Data Lake Store

Azure Data Lake Store

Azure Storage Blob

外部表Azure SQLData Warehouse

HDInsight

開発者は OSS に馴染んでいる Java Eclipse Hive etc

マネージド Hadoop クラスタにおいてカスタマイズ管理が可能でフレキシビリティがある

Azure Data Lake Analytics

C SQL amp PowerShell のスキル

経験を活かせる

利便性効率性自動スケール

ジョブ実行の仕組みが提供される

(New)

(New)

一般的なパターン

処理読み込み 保存

INSERT

OUTPUT

OUTPUT

SELECThellip

FROMhellip

WHEREhellip

+

PythonR

EXTRACT

EXTRACT

SELECT

SELECT

Azure

Data

Lake

Azure

Data

Lake

Azure

SQL

DB

Azure

Storage

Blobs

Azure

Storage

Blobs

RowSet RowSet

Cognitive Services

REFERENCE ASSEMBLY WebLogExtASM

rs =

EXTRACT

UserID string

Start DateTime

End DateTime

Region string

SitesVisited string

PagesVisited string

FROM ldquoLogsWebLogRecordstxtrdquo

USING WebLogExtractor ()

result = SELECT UserID

(EndSubtract(Start))TotalSeconds AS Duration

FROM rs ORDER BY Duration DESC FETCH 10

OUTPUT result TO ldquoLogsResultstop10tsv

USING OutputterTsv()

bull 型定義は C の型定義と同じ

bull データをファイルから抽出読み込み

するときにスキーマが必要

Data Lake Store 内 のファイル

独自形式を解析するカスタム関数

C の関数

行セット(中間テーブルの概念

に近い)

TSV形式で書き込む関数

U-SQL ジョブのサブミットAzure PortalやVisual StudioのAzure Data Lake ToolsからU-SQLジョブをサブミット可能

67

進捗

統計情報

従来型の処理分析 Azure Data Lake を中心とした処理分析

Business apps

Custom apps

Sensors and devices

ADL StorePeople

非構造化データも含めてあらゆるデータを格納

Azure SQL DW

Azure AD

Power BI

ADF

ADL Analytics

bull 処理分析業務の大半はデータ準備作業が占めるbull 処理分析業務に手間時間が必要

Business apps

Custom apps

Sensors and devices

HDInsight

ユーザー管理認証

データの連携

Power BI

File System

Database

Database

Hadoop

DWH

Data Mart

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

①大量データの受け入れ

②リアルタイム処理データの集約

③データの蓄積

構造化非構造化文書など様々な形式での保存

④データの加工移行

⑥機械学習

⑦Hadoop解析

⑧マイクロソフト技術を用いた分散解析

⑨通常のRMSが機能を追加した企業向けRを使用した解析

⑪クラウドベースの Self-Service BI 機能

⑫機械学習の予測モデルを業務システムなどから呼び出し可能にするサービス

外部クラウドなどからのデータ取り込み

②リアルタイム処理データの加工

⑤ディープラーニング

⑩Excelを用いた可視化

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

リアルタイム

バッチ

Data Factory Tools for Visual Studio

Azure Portal

Azure TableStorage

(Web ログレコード)

Data Factory

HDInsight

(Web ログをファイルにして

バッチ処理で集計)

SQL Database

(集計データをDB テーブルに格納)

Power BI

社内システム

DataManagement

Gateway

SQL Database

Data Warehouse

Blob Storage

Table Storage

httpportalazurecom

接続

メッセージ作成

メッセージ送信

var cs = ldquo接続文字列rdquovar path = ldquoイベントハブ名rdquovar eh = EventHubClientCreateFromConnectionString(cs path)

var msg = new user = thisUserIdentityNamelevel = leveltimestamp = demoTimestamp

var json = JsonConvertSerializeObject(msg)

ehSend(new EventData(EncodingUTF8GetBytes(json)))

EventProcessorHostを使う

bull

bull

bull

Functionsを使う

bull

bull

IEventProcessorProcessEventAsync(msg)

IEventProcessorProcessEventAsync(msg)

Run(string msg)

Azure azure-sdk-for-python

Point of Service Devices

Self CheckoutStations

Kiosks

Smart Phones

SlatesTablets

PCsLaptops

Servers

Digital Signs

DiagnosticEquipmentRemote Medical

MonitorsLogic

Controllers

SpecializedDevicesThin

Clients

Handhelds

Security

POS Terminals

AutomationDevices

VendingMachines

Kinect

ATM

Stream Analytics

入力 出力クエリデータストリーム

参照

bull ldquo入力rdquoldquo出力rdquoをクリックしそれぞれ作成

bull ldquoクエリrdquoをクリックしクエリを定義bull 作業が終わったらldquo開始rdquoで実

行開始

SELECT

INTO

FROM

SELECT user level AS SATLevel timestamp

INTO

FROM

デバイス接続性とデバイス管理およびブローカーサービス

データ管理と高度な分析 情報活用業務の生産性とプロセスの最適化

IoT Agent Gateway

予兆原因の学習モデル

ダッシュボード

参照ERPbull 顧客bull 設備bull 担当者

Notification Hubs

通知

予兆イベント

メンテ方法の推奨

bull ヘルス状態bull インシデント管理bull 対応のディスパッチ

現地技術要員のモバイルデバイス

オペレーションセンター

bull イベント ドア開閉軸アライメントキャビン速度モーター温度など

bull アラーム 故障アラームエラーコードなど

httpisstkeazurewebsitesnet

Event Hub

Stream Analytics

Azure ML

制御機器とセンサーのデータ

マシンデータの蓄積

メンテナンス方法の学習モデル

Machine Learning

Blob Storage

セルフサービス分析

Power BI

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce

cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-

system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of

your data while making it faster to get up and running with

batch streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources

so you can run queries on exabytes of data Includes U-

SQL a new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully

managed NoSQL database service that indexes stores and

queries data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

What do all of these have in common

They can all use Azure Analysis Services

Azure Analysis Services

Azure Analysis Services

BI semantic model

Business logic amp metrics

Data modeling

Security

Azure Analysis Services

Lifecycle management

In-memory cache

On-premises

Cloud

Data sources

SQL Database

SQL Data Warehouse

Other data sources

SQL Server

Analytics platform

system

Other data sources

On-premises

Cloud

Client tools

Power BI

Excel

Third party BI tools

Power BI Desktop

Rich semantic modelling

locatioidentifier

identifiertype

fieldidentifier

numberofunitssoldtodate

remaningnumber

Numberofuntissoldtoday

receivedback

productidentifier

descriptionline1

descriptionline2

qtyafterqtysales

familyidentifier

Source DataComplex raw data optimized for processing

Semantic ModelRich business user friendly semantic model

Product Id

Product Name

Product Description

Category

Category Id

Category Name

Category Description

Sub Category

Product Id

Shelf qty

Return qty

Order qty

Sale qty

Cloud Data

On-Premises

Data

Azure Analysis Services

Lightning fast queries

データ管理をきっかけに処理を実行

Web Glue

Bots IoT

DOMINOS STORES

Key Vault

Azure Active Directory

Azure Files

SSIS FRANCHISEE

AZURE WEST EUROPE

Azure Function

KEMPSSDESSRS

IN- AND EXTERNAL DATA SOURCES

orderprocessing

O365

App Insights

indexhtml

Azure Functions Proxies

couponprocessing

Use Bindings in Your Codefunctionjson

bindings [type httpTriggerdirection inwebHookType genericJsonname req

type httpdirection outname res

type queuename eventOutputqueueName aievents1connectionAiStorageConnectiondirection out

]

public static class OrderHandler

[FunctionName(OrderWebhook)]public static async TaskltHttpResponseMessagegt Run(

[HttpTrigger] HttpRequestMessage req[Queue(aievents1 Connection = AiStorageConnection)]

IAsyncCollectorltStringgt eventOutputTraceWriter log)

logInfo($Webhook was triggered)

string jsonContent = await reqContentReadAsStringAsync()dynamic data = JsonConvertDeserializeObject(jsonContent)

await eventOutputAddAsync(JsonConvertSerializeObject(GetLogData(data)))

int orderId = PlaceOrder(data)

return reqCreateResponse(HttpStatusCodeOK new orderNumber = orderId )

bull Workflow in the cloud

bull Powerful control flow

bull Connect functions and APIs

bull Declarative definition to persist in source control and drive deployments

Logic AppsCloud APIs and platform

bull Supports over 125 built-in connectors

bull Scales to meet your needs

bull Enables rapid development

bull Extends with custom APIs and

Functions

API connections

bull Authenticate once and reuse

Big Data Solutions Decision Tree

httpsbiz-excellencecom20160830big-data-dt

Machine Learning Solutions Decision Tree

httpsbiz-excellencecom20160913machine-

learning-dt

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of your

data while making it faster to get up and running with batch

streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources so

you can run queries on exabytes of data Includes U-SQL a

new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully managed

NoSQL database service that indexes stores and queries

data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

Microsoft Big Data Portfolio

SQL Server Stretch

Business intelligence

Machine learning analytics

Insights

Azure SQL Database

SQL Server 2016

SQL Server 2016 Fast Track

Azure SQL DW

ADLS amp ADLA

DocumentDB

HDInsight

Hadoop

Analytics Platform System

Sequential Scale Out + AcrossScale Up

Key

Relational Non-relational

On

-pre

mis

es

Clo

ud

Microsoft has solutions covering

and connecting all four

quadrants ndash thatrsquos why SQL

Server is one of the most utilized

databases in the world

Azure

Data Lake Store

Azure

Blob StoragePurpose Optimized for big data analytics General purpose bulk storage

Use Cases Batch Interactive Streaming App backend backup data media storage for

streaming

Units of Storage Accounts Folders Files Accounts Containers Blobs

Structure Hierarchical File System Flat namespace

WebHDFS Implements WebHDFS No (WASB)

Security AD SAS keys

Storage Auto SharedFiles chunked Manually manage expansionFiles intact

Service State Generally Available PolyBase

just supported

Generally Available

Billing Pay for data stored and for IO Pay for data stored and for IO

Region Availability Two US regions (Other regions coming soon) All Azure Regions

ADL Store vs Blob Store

httpsdocsmicrosoftcomen-usazuredata-lake-storedata-lake-store-comparison-with-blob-storage

Want Hadoop

Need exact same on-prem

Need interactive streaming

MandatoryNo strong opinion

Azure Marketplace (IaaS)

bull Need all workloads exactly like on-

premises

bull Need 100 HortonworksClouderaMapR

Azure HDInsight

bull Most Hadoop workloads

bull Fully managed by Microsoft

bull Sell HDI + ADLS

bull Stickier to Microsoft than VMs

bull Can do interactive (Spark) and streaming

(StormSpark)

Azure Data Lake Analytics

bull Easiest experience for admin no sense of

clusters instant scale per job

bull Easiest experience for developers Visual

StudioU-SQL (C+SQL)

bull Sell ADLA + ADLS

bull Batch workloads only

Need everything exactly like on-prem

Need core projects Yes Batch is OK

Always present ADLA if NET or Visual Studio Shop

If NET or VS shop

Azure SQL DW HDInsight Hive HDInsight Spark Azure Data Lake SQL Server (IaaS)

Volume Petabytes Petabytes Petabytes Petabytes Terabytes

Security Encryption TD

Audit

ADLS Apache

Ranger

ADLS AAD Security

Groups (data)

Encryption TD

Audit

Languages T-SQL HiveQL SparkSQL HiveQL

Scala Java Python

R

U-SQL T-SQL

Extensibility No Yes NETSerDe Yes Packages Yes NET Yes NET CLR

External File

Types

ORC TXT

Parquet RCFile

ORC CSV Parquet

+ others

Parquet JSON

Hive + others

Many ORC TXT Parquet

RCFile

Admin Low-Medium Medium-High Medium-High Low High

Cost Model DWU Nodes amp VM Nodes amp VM UnitsJobs VM

Schema

Definition

Schema on Write

Polybase

Schema on Read Schema on Read Schema on Read Schema on Write

Polybase

Max DB Size 240TB Comp (5X

= 1PB)

Unlimited 64TB (64 1TB drives)

機械学習 Deep Learning 深層強化学習

画像解析

音声解析

データ分類異常検知 顧客グルーピング

数値予測売上予測 需要予測 品質管理

ラベル分類不良品分析 故障予測 チャーン分析

機械学習より強力な分析

自律学習型ロボット

自動運転車

テキストや画像等の自動生成

活用例

主に多層のニューラルネットワークを用いた手法での分析

分析のためには莫大なデータ量計算量知識スキルを要する

統計に基づいた手法での分析

そのため比較的少ないデータ量と計算量で分析を行うことができる

定義したあるべき姿に従い試行錯誤をして自ら学習を行うための分析手法である強化学習と深層学習を組み合わせた分析

Azure Machine Learning Cognitive Toolkit GPU Instance (N-Series)

マイクロソフトが提供する技術

テキストデータ機器のログデータなど

画像データ監視カメラの録画データ 機器の外観画像 顔画像など

動画データ監視カメラの録画データ 機器の稼働状況 人の作業映像など

音声データマイクからの収集データ 稼働音 室内音 人の音声など

数値データセンサーデータ 機器の制御データ計測データなど672342345

機械学習統計理論に基づいた分析手法を用いる用意するべきデータ量と処理する計算量の敷居が低め導入しやすい

Deep Learningデータ量が大きいため強力な分析手法が必要「膨大なデータ量を用意」「莫大な計算量を処理」が必要で敷居が非常に高い導入にはそれなりの覚悟が必要

Action

People

Automated Systems

Apps

Web

Mobile

Bots

Intelligence

Dashboards amp Visualizations

Cortana

Bot Framework

Cognitive Services

Power BI

Information Management

Event Hubs

Data Catalog

Data Factory

Machine Learning and Analytics

HDInsight

Stream Analytics

Intelligence

Data Lake Analytics

Machine Learning

Big Data Stores

SQL Data Warehouse

Data Lake Store

Data Sources

Apps

Sensors amp Devices

Data

Cortana Intelligence Suite

学習済み

モデル利用

学習モデル

作成

機械学習 教師あり学習

教師なし学習

強化学習

決定木

線形回帰

SVM

ロジスティック回帰

ニューラルネットワーク

クラスタリング

次元削減

Q学習

K-mean法

主成分分析

正準相関分析

ディープニューラルネットワーク

畳みこみニューラルネットワーク

再帰的ニューラルネットワーク

回帰結合ニューラルネットワーク

httpsazuremicrosoftcomen-usservicescognitive-services

わずか数行のコードで強力なアルゴリズムを持つアプリの作成が可能ですiOSAndroidWindows などのプラットフォームを問わず機能します

httpsazuremicrosoftcomja-jpservicesmachine-learning

ユーザーは簡単に予測分析ソリューションを構築デプロイ共有できます

httpswwwyoutubecomwatchv=9gDDO5ldT-4ampfeature=youtube

AI技術を利用したディープラーニング(深層学習)ツールキットです旧称「CNTK」から改名されました

ソースコード httpsgithubcomMicrosoftCNTK

SearchSpeech

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

コカコーラ誕生100周年キャンペーン

コカコーラボトルを「100歳」と認識

bull 自撮り写真をUp結果をSNS拡散

ナビタイムジャパン様

自然言語入力による路線検索BOT

bull ユーザーとの新たな接点(LINE)

bull 自然言語入力

Vision Language Knowledge

Vision Knowledge SearchSpeech Language

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

Microsoft SupportVirtual Agent

自然言語入力による自動応答サポート窓口

bull 過去QampAデータ解析に基づく回答抽出

bull 定型外はldquo人対応rdquo

UBER

登録ドライバーをスマホ経由で顔認証

VOLVO

表情からの危険予測

Search

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

アロバ様

監視カメラによる店舗内行動分析

bull 顔認識による 顧客識別

bull 表情分析

東京サマーランド様にて導入済み

HmComm様

コールセンターソリューション

bull 会話をテキスト化キーワードを解析

bull 過去QampA検索

bull 内容をCRM保存

Vision KnowledgeSpeech Language

導入事例東京サマーランド様

Video

Intelligent KioskhttpsgithubcomMicrosoftCognitive-Samples-IntelligentKiosk

ldquo(want to|request)rdquo

HoloLens

Page 5: やりたいことから考えるMicrosoft Azure 上の データストアの選び方とデータサイエンティスト向け活用法。KVSからDWHまで

Computational Network Toolkit (CNTK)

Vowpal Wabbit XGBoost Rattle

mxnet Weka Apache Drill

CUDA CUDNN Nvidia Driver

GPU based Deep

Learning Tools

Use Deep Learning

Toolkit for DSVMUbuntu Edition Only

Microsoft

Cognitive Toolkit

(CNTK)

Y Y

Tensorflow Y Y

MXNet Y Y

Caffe amp Caffe2 N Y

Torch N Y

Theano N Y

Keras N Y

NVidia Digits N Y

CUDA CUDNN

Nvidia DriverY Y

httpsazuremicrosoftcomja-

jpdocumentationlearning-pathsdata-science-process

Platform Services

Infrastructure Services

Web Apps

MobileApps

APIManagement

API Apps

Logic Apps

Notification Hubs

Content DeliveryNetwork (CDN)

Media Services

BizTalkServices

HybridConnections

Service Bus

StorageQueues

HybridOperations

Backup

StorSimple

Azure SiteRecovery

ImportExport

SQL Database

DocumentDB

RedisCache

AzureSearch

StorageTables

DataWarehouse

Azure AD Health Monitoring

AD PrivilegedIdentity Management

OperationalAnalytics

Cloud Services

BatchRemoteApp

ServiceFabric

Visual Studio

AppInsights

Azure SDK

VS Online

Domain Services

HDInsight MachineLearning

StreamAnalytics

Data Factory

EventHubs

MobileEngagement

Data Lake

IoT Hub

Data Catalog

Security amp Management

Azure ActiveDirectory

Multi-FactorAuthentication

Automation

Portal

Key Vault

StoreMarketplace

VM Image Galleryamp VM Depot

Azure ADB2C

Scheduler

The Azure Platform

様々なアプリ開発が行われています

Web amp mobile Business apps Microservice apps

Development amp test Big data amp analytics Internet of Things

Backup recovery

amp archive

High Performance

ComputingDigital media

Identity amp security

Mediaamp CDN

Integration Developerservices

Data

Analytics amp IoT

MY APP

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

①大量データの受け入れ

②リアルタイム処理データの集約

③データの蓄積

構造化非構造化文書など様々な形式での保存

④データの加工移行

⑥機械学習

⑦Hadoop解析

⑧マイクロソフト技術を用いた分散解析

⑨通常のRMSが機能を追加した企業向けRを使用した解析

⑪クラウドベースの Self-Service BI 機能

⑫機械学習の予測モデルを業務システムなどから呼び出し可能にするサービス

外部クラウドなどからのデータ取り込み

②リアルタイム処理データの加工

⑤ディープラーニング

⑩Excelを用いた可視化

Cognitive Services API

Azure Gallery

Microsoft R Server

Azure Machine Learning Studio

Cognitive Toolkit Tensor Flow

Seamlessly blend technologies

Azure Data Lake Analytics

取り扱いたいデータタイプ

Audio video images Meaningless without adding some structure

非構造データUnstructured

構造化データStructured

CSV Columnar Storage (Parquet ORC) Strict data model structure

JSON XML sensor data social media device data web logs Flexible data model structure

文書など緩やかな構造を持つ半構造データ

Semi-Structured

Azure Storage様々な文書Blobデータテーブル形式のデータが保存可能なストレージ

SQL DatabaseSQL Server 2016 と同等の機能を提供する PaaS 型データベース サービス

Azure Database for MySQLPostgreSQLPaaS 型データベース サービス のMySQLPostgreSQL版

Cosmos DBマルチデータモデルのグローバル分散DB

Azure Data Lake Storeビッグ データの分析ワークロードに対応する大規模データ格納エリア

Azure SQL Data Warehouseペタバイト単位のストレージを有した PaaS 型データ ウェアハウス サービス

IoT Hub

Event Hubs

Data Warehouse

Data Factory

App Insights Log Analytics

Monitor

CDN

Search Power BI

Blob Storage Pillars

Open amp

Interoperable

Manageable amp

Cost Efficient

Scalable amp

Performant

Secure amp

Compliant

Durable amp

Available

Machine Learning

Stream Analytics

Batch

Functions

Data Lake Analytics

Azure HDInsight

Big Data Use Cases

Ingest amp ETL Streaming Analytics amp Machine Learning Data Aggregation Presentation

QueuesReliable queues at

scale for cloud

services

ファイルを保存する際にはこの3つの選択肢があります

httpsdocsmicrosoftcomja-jpazurestoragestorage-decide-blobs-files-disks

OS

アプリ アプリ アプリ アプリ

BLOB

効率

利用

仮想マシン

+BLOB

001log

002log

003log

004log

EN

EN

EN

EN

EN

EN

PS

PS

PS

PS ENEN

001log

002log

003log

004log

disk1vhd

PS = パーティション サーバー

EN = エクステント ノード

001log

002log

003log

004log

EN

EN

EN

EN

EN

EN

PS

PS

PS

PS ENEN

Block 1 Block 4Block 3Block 2

Imagejpg

Sparse File 512 byte aligned

51

2

10

24

15

36

20

48

25

60

AZCopy ndash Robocopy for Azure StorageStorage Explorer ndash Cross platform UX

Data Movement Library on CoreCLR

Python client library

仮想マシンSQL Enterprise

DS4 の場合

8 Core 28 GB RAM

Disk 0

読み取り書き込み Disk 1

Disk 2

P30

読み取りのみ

C

システム

D

キャッシュ

永続性あり 永続性なし 永続性あり (複数ボリュームの分割やストライプの構成が可能)

Premium Storage

デフォルト作成(仮想マシン付属) ユーザーが任意に追加

OS

Page ファイル

DBMS Exe

SQL Server バッファープール拡張

httpsazuremicrosoftcomja-jpdocumentationarticlesvirtual-machines-sql-server-performance-best-practices

httpsazuremicrosoftcomja-jpdocumentationarticlesvirtual-machines-sql-server-use-premium-storage

Disk n

P30

読み取りのみ

E

SQL データ(ページ圧縮)

Temp DB

Disk 3

P30

なし

F

Transaction-

Log

Disk Cache

344GB

最大Disk IOPS

256MBsec

P30合計の

600MBsは出ない

NTFSアロケーションユニットサイズ 64KB

データベース ページ圧縮 有効

Table用Index用Temp DB用に別

ドライブに拡張可能

キャッシュ設定は添付の

URLを参照

最大Disk IOPS

200MBsec

最大Disk IOPS

200MBsec

最大Disk IOPS

200MBsec

フルマネージドの RDBMS

データベース

RDBMS

OS

Azure が管理

利用者が管理

VM上の RDBMS

ホスト OS

仮想化

フルコントロール

データベース

RDBMS

OS

仮想化

ホスト OS

容易な管理

Azure Database

SQL Server物理マシン仮想マシン

SQL Server on Azure VM仮想マシン

SQL Database Data WarehousePaaS

物理マシン仮想マシン

VM Template Market place仮想マシン

Azure Database for MySQL PostgreSQL

論理データベース

Write

Write Ack

Ack

Read

value write

Ack

特徴

無停止フェールオーバー

無停止スケールアップ(プラン変更)

自動パフォーマンスチューニング

スループット指定によるプロビジョニング

データベース トランザクション ユニット (DTU) とエラスティック データベース トランザクション ユニット (eDTU) の説明

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-what-is-a-dtu

Azure SQL Database Query Performance Insight

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-query-performance

Query Store is turned on by default for Azure SQL Database

httpsazuremicrosoftcomja-jpupdatesquery-store-on-is-the-new-default-for-azure-sql-database

Queries

SQL Database

Deeper Insight

Query

Store

SQL Database Advisor

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-advisor

Azure Portal を使用した SQL Database Advisor

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-advisor-portal

領域 改善後

新しいインデックス提案が作成されるまで 18時間以内

T-SQL文が実行されるまでのタイムラグ 即時(数分以内)

「悪い」チューニング内容に対しての検知時間 1時間以内

次のインデックス提案が行われるまでの待ち時

間即時(数分以内)

導入までの総時間 1日以内

SQL Database の脅威の検出

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-threat-detection

コントロールノード

SQLDB

Azure Blob Storage(WASB)

100 DWU lt gt 2000 DWUコントロールノード

ユーザーからの接続コンピュートとストレージの調整

コンピュートノード

コンピュートノード

コンピュートノード

コンピュートノード

SQLDB

SQLDB

SQLDB

SQLDB

Azure Blob Storage(WASB)

コントロールノード

SQLDB コントロールノード

D51

D52

D53

D60

hellip

D41

D42

D43

D50

hellip

コンピュートノード

D31

D32

D33

D40hellip

D21

D22

D23

D30

hellip

D11

D12

D13

D20

hellip

D1

D2

D3

D10

hellip

SQL DB

Azure Blob Storage(WASB)

コントロールノード

SQLDB コントロールノード

コンピュートノード

D51

D52

D53

D60

hellipコンピュートノード

D41

D42

D43

D50

hellip

コンピュートノード

D31

D32

D33

D40hellip

コンピュートノード

D21

D22

D23

D30

hellip

コンピュートノード

D11

D12

D13

D20

hellip

コンピュートノード

D1

D2

D3

D10

hellip

SQL DB

SQL DB

SQL DB

SQL DB

SQL DB

SQL DB

54

データ無制限のストレージ と 分析プラットフォーム

無制限のストレージ(エクサバイト超)

ネイティブ HDFS に基づく実装

HDInsight Hortonworks Cloudera との統合

全ての HDFS 準拠プロジェクトとの親和性

(Spark Storm Flume Sqoop Kafka R etc)

Azure Data Lake Store- Hadoop Distributed File System (HDFS) For The Cloud

構造化データと非構造化データに対するデータ処理

宣言型の SQL 文 とカスタムコード (UDF UDT UDO hellip )

ローカルとリモートに対するクエリ

バッチ型インタラクティブ型ストリーミング型(in the future)

Azure Data Lake Analytics- New Query Language U-SQL

ETL パイプライン

スキーマの定義Relational

LOB

Applications

Schema-on-Write

直ちに必要でないデータは全て捨てられるかアーカイブされている

無限に保存 分析 結果の参照

あらゆるデータ

ソースからの

データ収集

Schema-on-Read

全データ取込要件にかかわらず

全データ格納そのままのフォーマットでスキーマ定義なし

分析実行Hadoopのような分析エンジンの利用

インタラクティブクエリ

バッチ型クエリ

機械学習

データウェアハウス

リアルタイム分析

リレーショナル

デバイス

観察仮説集まったデータから仮説をたてる

58

無制限のサイズ

ギガバイトからペタバイトのサイズの単一ファイル

巨大なスループットを必要とする大規模な分析システムを実現

あらゆるスループットに自動最適化

ペタバイト超のデータの並列コンピューティング

同一リージョン内に3つのコピーを自動的に作成

インストールやチューニングは不要

数分で稼働開始

必要に応じてどのようなサイズにもスケールアウト可能

データウェアハウスデータレイクストア

非構造Rawデータ(ログ文書バイナリ)

Tier 1

MachineLearning

Data LakeAnalytics HDInsight

目的に合わせた

データウェハウス分析処理

(売上分析経営分析)

データウェハウスに格納しきれなかった

過去データ関連データを連結して分析

ハードウェアの性能限界によって行えなかった処理量の分析を実現

ディスクコンピューティング

非構造データの

分析処理

(画像音声映像など)

広範囲のデータを利用した

機械学習統計解析処理

などによる高度分析

SQL Data Warehouse

Data LakeAnalytics HDInsight

Data LakeAnalytics

構造化データ半構造データ

分析用に加工(csv等)

Tier 2

アーカイブデータTier 2 DWHのアーカイブ

Tier 3

Analytics

Storage

HDInsight(ldquomanaged clustersrdquo)

Azure Data Lake Analytics

Azure Data Lake Store

Azure Data Lake

LOB Applications

SocialDevices

Clickstream

Sensors

Video

Web

Relational

HDInsight

Data Lake Analytics

Machine Learning

Spark

R

Azure Data Lake Store

Azure Data Lake Store

Azure Storage Blob

外部表Azure SQLData Warehouse

HDInsight

開発者は OSS に馴染んでいる Java Eclipse Hive etc

マネージド Hadoop クラスタにおいてカスタマイズ管理が可能でフレキシビリティがある

Azure Data Lake Analytics

C SQL amp PowerShell のスキル

経験を活かせる

利便性効率性自動スケール

ジョブ実行の仕組みが提供される

(New)

(New)

一般的なパターン

処理読み込み 保存

INSERT

OUTPUT

OUTPUT

SELECThellip

FROMhellip

WHEREhellip

+

PythonR

EXTRACT

EXTRACT

SELECT

SELECT

Azure

Data

Lake

Azure

Data

Lake

Azure

SQL

DB

Azure

Storage

Blobs

Azure

Storage

Blobs

RowSet RowSet

Cognitive Services

REFERENCE ASSEMBLY WebLogExtASM

rs =

EXTRACT

UserID string

Start DateTime

End DateTime

Region string

SitesVisited string

PagesVisited string

FROM ldquoLogsWebLogRecordstxtrdquo

USING WebLogExtractor ()

result = SELECT UserID

(EndSubtract(Start))TotalSeconds AS Duration

FROM rs ORDER BY Duration DESC FETCH 10

OUTPUT result TO ldquoLogsResultstop10tsv

USING OutputterTsv()

bull 型定義は C の型定義と同じ

bull データをファイルから抽出読み込み

するときにスキーマが必要

Data Lake Store 内 のファイル

独自形式を解析するカスタム関数

C の関数

行セット(中間テーブルの概念

に近い)

TSV形式で書き込む関数

U-SQL ジョブのサブミットAzure PortalやVisual StudioのAzure Data Lake ToolsからU-SQLジョブをサブミット可能

67

進捗

統計情報

従来型の処理分析 Azure Data Lake を中心とした処理分析

Business apps

Custom apps

Sensors and devices

ADL StorePeople

非構造化データも含めてあらゆるデータを格納

Azure SQL DW

Azure AD

Power BI

ADF

ADL Analytics

bull 処理分析業務の大半はデータ準備作業が占めるbull 処理分析業務に手間時間が必要

Business apps

Custom apps

Sensors and devices

HDInsight

ユーザー管理認証

データの連携

Power BI

File System

Database

Database

Hadoop

DWH

Data Mart

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

①大量データの受け入れ

②リアルタイム処理データの集約

③データの蓄積

構造化非構造化文書など様々な形式での保存

④データの加工移行

⑥機械学習

⑦Hadoop解析

⑧マイクロソフト技術を用いた分散解析

⑨通常のRMSが機能を追加した企業向けRを使用した解析

⑪クラウドベースの Self-Service BI 機能

⑫機械学習の予測モデルを業務システムなどから呼び出し可能にするサービス

外部クラウドなどからのデータ取り込み

②リアルタイム処理データの加工

⑤ディープラーニング

⑩Excelを用いた可視化

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

リアルタイム

バッチ

Data Factory Tools for Visual Studio

Azure Portal

Azure TableStorage

(Web ログレコード)

Data Factory

HDInsight

(Web ログをファイルにして

バッチ処理で集計)

SQL Database

(集計データをDB テーブルに格納)

Power BI

社内システム

DataManagement

Gateway

SQL Database

Data Warehouse

Blob Storage

Table Storage

httpportalazurecom

接続

メッセージ作成

メッセージ送信

var cs = ldquo接続文字列rdquovar path = ldquoイベントハブ名rdquovar eh = EventHubClientCreateFromConnectionString(cs path)

var msg = new user = thisUserIdentityNamelevel = leveltimestamp = demoTimestamp

var json = JsonConvertSerializeObject(msg)

ehSend(new EventData(EncodingUTF8GetBytes(json)))

EventProcessorHostを使う

bull

bull

bull

Functionsを使う

bull

bull

IEventProcessorProcessEventAsync(msg)

IEventProcessorProcessEventAsync(msg)

Run(string msg)

Azure azure-sdk-for-python

Point of Service Devices

Self CheckoutStations

Kiosks

Smart Phones

SlatesTablets

PCsLaptops

Servers

Digital Signs

DiagnosticEquipmentRemote Medical

MonitorsLogic

Controllers

SpecializedDevicesThin

Clients

Handhelds

Security

POS Terminals

AutomationDevices

VendingMachines

Kinect

ATM

Stream Analytics

入力 出力クエリデータストリーム

参照

bull ldquo入力rdquoldquo出力rdquoをクリックしそれぞれ作成

bull ldquoクエリrdquoをクリックしクエリを定義bull 作業が終わったらldquo開始rdquoで実

行開始

SELECT

INTO

FROM

SELECT user level AS SATLevel timestamp

INTO

FROM

デバイス接続性とデバイス管理およびブローカーサービス

データ管理と高度な分析 情報活用業務の生産性とプロセスの最適化

IoT Agent Gateway

予兆原因の学習モデル

ダッシュボード

参照ERPbull 顧客bull 設備bull 担当者

Notification Hubs

通知

予兆イベント

メンテ方法の推奨

bull ヘルス状態bull インシデント管理bull 対応のディスパッチ

現地技術要員のモバイルデバイス

オペレーションセンター

bull イベント ドア開閉軸アライメントキャビン速度モーター温度など

bull アラーム 故障アラームエラーコードなど

httpisstkeazurewebsitesnet

Event Hub

Stream Analytics

Azure ML

制御機器とセンサーのデータ

マシンデータの蓄積

メンテナンス方法の学習モデル

Machine Learning

Blob Storage

セルフサービス分析

Power BI

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce

cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-

system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of

your data while making it faster to get up and running with

batch streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources

so you can run queries on exabytes of data Includes U-

SQL a new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully

managed NoSQL database service that indexes stores and

queries data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

What do all of these have in common

They can all use Azure Analysis Services

Azure Analysis Services

Azure Analysis Services

BI semantic model

Business logic amp metrics

Data modeling

Security

Azure Analysis Services

Lifecycle management

In-memory cache

On-premises

Cloud

Data sources

SQL Database

SQL Data Warehouse

Other data sources

SQL Server

Analytics platform

system

Other data sources

On-premises

Cloud

Client tools

Power BI

Excel

Third party BI tools

Power BI Desktop

Rich semantic modelling

locatioidentifier

identifiertype

fieldidentifier

numberofunitssoldtodate

remaningnumber

Numberofuntissoldtoday

receivedback

productidentifier

descriptionline1

descriptionline2

qtyafterqtysales

familyidentifier

Source DataComplex raw data optimized for processing

Semantic ModelRich business user friendly semantic model

Product Id

Product Name

Product Description

Category

Category Id

Category Name

Category Description

Sub Category

Product Id

Shelf qty

Return qty

Order qty

Sale qty

Cloud Data

On-Premises

Data

Azure Analysis Services

Lightning fast queries

データ管理をきっかけに処理を実行

Web Glue

Bots IoT

DOMINOS STORES

Key Vault

Azure Active Directory

Azure Files

SSIS FRANCHISEE

AZURE WEST EUROPE

Azure Function

KEMPSSDESSRS

IN- AND EXTERNAL DATA SOURCES

orderprocessing

O365

App Insights

indexhtml

Azure Functions Proxies

couponprocessing

Use Bindings in Your Codefunctionjson

bindings [type httpTriggerdirection inwebHookType genericJsonname req

type httpdirection outname res

type queuename eventOutputqueueName aievents1connectionAiStorageConnectiondirection out

]

public static class OrderHandler

[FunctionName(OrderWebhook)]public static async TaskltHttpResponseMessagegt Run(

[HttpTrigger] HttpRequestMessage req[Queue(aievents1 Connection = AiStorageConnection)]

IAsyncCollectorltStringgt eventOutputTraceWriter log)

logInfo($Webhook was triggered)

string jsonContent = await reqContentReadAsStringAsync()dynamic data = JsonConvertDeserializeObject(jsonContent)

await eventOutputAddAsync(JsonConvertSerializeObject(GetLogData(data)))

int orderId = PlaceOrder(data)

return reqCreateResponse(HttpStatusCodeOK new orderNumber = orderId )

bull Workflow in the cloud

bull Powerful control flow

bull Connect functions and APIs

bull Declarative definition to persist in source control and drive deployments

Logic AppsCloud APIs and platform

bull Supports over 125 built-in connectors

bull Scales to meet your needs

bull Enables rapid development

bull Extends with custom APIs and

Functions

API connections

bull Authenticate once and reuse

Big Data Solutions Decision Tree

httpsbiz-excellencecom20160830big-data-dt

Machine Learning Solutions Decision Tree

httpsbiz-excellencecom20160913machine-

learning-dt

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of your

data while making it faster to get up and running with batch

streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources so

you can run queries on exabytes of data Includes U-SQL a

new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully managed

NoSQL database service that indexes stores and queries

data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

Microsoft Big Data Portfolio

SQL Server Stretch

Business intelligence

Machine learning analytics

Insights

Azure SQL Database

SQL Server 2016

SQL Server 2016 Fast Track

Azure SQL DW

ADLS amp ADLA

DocumentDB

HDInsight

Hadoop

Analytics Platform System

Sequential Scale Out + AcrossScale Up

Key

Relational Non-relational

On

-pre

mis

es

Clo

ud

Microsoft has solutions covering

and connecting all four

quadrants ndash thatrsquos why SQL

Server is one of the most utilized

databases in the world

Azure

Data Lake Store

Azure

Blob StoragePurpose Optimized for big data analytics General purpose bulk storage

Use Cases Batch Interactive Streaming App backend backup data media storage for

streaming

Units of Storage Accounts Folders Files Accounts Containers Blobs

Structure Hierarchical File System Flat namespace

WebHDFS Implements WebHDFS No (WASB)

Security AD SAS keys

Storage Auto SharedFiles chunked Manually manage expansionFiles intact

Service State Generally Available PolyBase

just supported

Generally Available

Billing Pay for data stored and for IO Pay for data stored and for IO

Region Availability Two US regions (Other regions coming soon) All Azure Regions

ADL Store vs Blob Store

httpsdocsmicrosoftcomen-usazuredata-lake-storedata-lake-store-comparison-with-blob-storage

Want Hadoop

Need exact same on-prem

Need interactive streaming

MandatoryNo strong opinion

Azure Marketplace (IaaS)

bull Need all workloads exactly like on-

premises

bull Need 100 HortonworksClouderaMapR

Azure HDInsight

bull Most Hadoop workloads

bull Fully managed by Microsoft

bull Sell HDI + ADLS

bull Stickier to Microsoft than VMs

bull Can do interactive (Spark) and streaming

(StormSpark)

Azure Data Lake Analytics

bull Easiest experience for admin no sense of

clusters instant scale per job

bull Easiest experience for developers Visual

StudioU-SQL (C+SQL)

bull Sell ADLA + ADLS

bull Batch workloads only

Need everything exactly like on-prem

Need core projects Yes Batch is OK

Always present ADLA if NET or Visual Studio Shop

If NET or VS shop

Azure SQL DW HDInsight Hive HDInsight Spark Azure Data Lake SQL Server (IaaS)

Volume Petabytes Petabytes Petabytes Petabytes Terabytes

Security Encryption TD

Audit

ADLS Apache

Ranger

ADLS AAD Security

Groups (data)

Encryption TD

Audit

Languages T-SQL HiveQL SparkSQL HiveQL

Scala Java Python

R

U-SQL T-SQL

Extensibility No Yes NETSerDe Yes Packages Yes NET Yes NET CLR

External File

Types

ORC TXT

Parquet RCFile

ORC CSV Parquet

+ others

Parquet JSON

Hive + others

Many ORC TXT Parquet

RCFile

Admin Low-Medium Medium-High Medium-High Low High

Cost Model DWU Nodes amp VM Nodes amp VM UnitsJobs VM

Schema

Definition

Schema on Write

Polybase

Schema on Read Schema on Read Schema on Read Schema on Write

Polybase

Max DB Size 240TB Comp (5X

= 1PB)

Unlimited 64TB (64 1TB drives)

機械学習 Deep Learning 深層強化学習

画像解析

音声解析

データ分類異常検知 顧客グルーピング

数値予測売上予測 需要予測 品質管理

ラベル分類不良品分析 故障予測 チャーン分析

機械学習より強力な分析

自律学習型ロボット

自動運転車

テキストや画像等の自動生成

活用例

主に多層のニューラルネットワークを用いた手法での分析

分析のためには莫大なデータ量計算量知識スキルを要する

統計に基づいた手法での分析

そのため比較的少ないデータ量と計算量で分析を行うことができる

定義したあるべき姿に従い試行錯誤をして自ら学習を行うための分析手法である強化学習と深層学習を組み合わせた分析

Azure Machine Learning Cognitive Toolkit GPU Instance (N-Series)

マイクロソフトが提供する技術

テキストデータ機器のログデータなど

画像データ監視カメラの録画データ 機器の外観画像 顔画像など

動画データ監視カメラの録画データ 機器の稼働状況 人の作業映像など

音声データマイクからの収集データ 稼働音 室内音 人の音声など

数値データセンサーデータ 機器の制御データ計測データなど672342345

機械学習統計理論に基づいた分析手法を用いる用意するべきデータ量と処理する計算量の敷居が低め導入しやすい

Deep Learningデータ量が大きいため強力な分析手法が必要「膨大なデータ量を用意」「莫大な計算量を処理」が必要で敷居が非常に高い導入にはそれなりの覚悟が必要

Action

People

Automated Systems

Apps

Web

Mobile

Bots

Intelligence

Dashboards amp Visualizations

Cortana

Bot Framework

Cognitive Services

Power BI

Information Management

Event Hubs

Data Catalog

Data Factory

Machine Learning and Analytics

HDInsight

Stream Analytics

Intelligence

Data Lake Analytics

Machine Learning

Big Data Stores

SQL Data Warehouse

Data Lake Store

Data Sources

Apps

Sensors amp Devices

Data

Cortana Intelligence Suite

学習済み

モデル利用

学習モデル

作成

機械学習 教師あり学習

教師なし学習

強化学習

決定木

線形回帰

SVM

ロジスティック回帰

ニューラルネットワーク

クラスタリング

次元削減

Q学習

K-mean法

主成分分析

正準相関分析

ディープニューラルネットワーク

畳みこみニューラルネットワーク

再帰的ニューラルネットワーク

回帰結合ニューラルネットワーク

httpsazuremicrosoftcomen-usservicescognitive-services

わずか数行のコードで強力なアルゴリズムを持つアプリの作成が可能ですiOSAndroidWindows などのプラットフォームを問わず機能します

httpsazuremicrosoftcomja-jpservicesmachine-learning

ユーザーは簡単に予測分析ソリューションを構築デプロイ共有できます

httpswwwyoutubecomwatchv=9gDDO5ldT-4ampfeature=youtube

AI技術を利用したディープラーニング(深層学習)ツールキットです旧称「CNTK」から改名されました

ソースコード httpsgithubcomMicrosoftCNTK

SearchSpeech

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

コカコーラ誕生100周年キャンペーン

コカコーラボトルを「100歳」と認識

bull 自撮り写真をUp結果をSNS拡散

ナビタイムジャパン様

自然言語入力による路線検索BOT

bull ユーザーとの新たな接点(LINE)

bull 自然言語入力

Vision Language Knowledge

Vision Knowledge SearchSpeech Language

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

Microsoft SupportVirtual Agent

自然言語入力による自動応答サポート窓口

bull 過去QampAデータ解析に基づく回答抽出

bull 定型外はldquo人対応rdquo

UBER

登録ドライバーをスマホ経由で顔認証

VOLVO

表情からの危険予測

Search

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

アロバ様

監視カメラによる店舗内行動分析

bull 顔認識による 顧客識別

bull 表情分析

東京サマーランド様にて導入済み

HmComm様

コールセンターソリューション

bull 会話をテキスト化キーワードを解析

bull 過去QampA検索

bull 内容をCRM保存

Vision KnowledgeSpeech Language

導入事例東京サマーランド様

Video

Intelligent KioskhttpsgithubcomMicrosoftCognitive-Samples-IntelligentKiosk

ldquo(want to|request)rdquo

HoloLens

Page 6: やりたいことから考えるMicrosoft Azure 上の データストアの選び方とデータサイエンティスト向け活用法。KVSからDWHまで

httpsazuremicrosoftcomja-

jpdocumentationlearning-pathsdata-science-process

Platform Services

Infrastructure Services

Web Apps

MobileApps

APIManagement

API Apps

Logic Apps

Notification Hubs

Content DeliveryNetwork (CDN)

Media Services

BizTalkServices

HybridConnections

Service Bus

StorageQueues

HybridOperations

Backup

StorSimple

Azure SiteRecovery

ImportExport

SQL Database

DocumentDB

RedisCache

AzureSearch

StorageTables

DataWarehouse

Azure AD Health Monitoring

AD PrivilegedIdentity Management

OperationalAnalytics

Cloud Services

BatchRemoteApp

ServiceFabric

Visual Studio

AppInsights

Azure SDK

VS Online

Domain Services

HDInsight MachineLearning

StreamAnalytics

Data Factory

EventHubs

MobileEngagement

Data Lake

IoT Hub

Data Catalog

Security amp Management

Azure ActiveDirectory

Multi-FactorAuthentication

Automation

Portal

Key Vault

StoreMarketplace

VM Image Galleryamp VM Depot

Azure ADB2C

Scheduler

The Azure Platform

様々なアプリ開発が行われています

Web amp mobile Business apps Microservice apps

Development amp test Big data amp analytics Internet of Things

Backup recovery

amp archive

High Performance

ComputingDigital media

Identity amp security

Mediaamp CDN

Integration Developerservices

Data

Analytics amp IoT

MY APP

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

①大量データの受け入れ

②リアルタイム処理データの集約

③データの蓄積

構造化非構造化文書など様々な形式での保存

④データの加工移行

⑥機械学習

⑦Hadoop解析

⑧マイクロソフト技術を用いた分散解析

⑨通常のRMSが機能を追加した企業向けRを使用した解析

⑪クラウドベースの Self-Service BI 機能

⑫機械学習の予測モデルを業務システムなどから呼び出し可能にするサービス

外部クラウドなどからのデータ取り込み

②リアルタイム処理データの加工

⑤ディープラーニング

⑩Excelを用いた可視化

Cognitive Services API

Azure Gallery

Microsoft R Server

Azure Machine Learning Studio

Cognitive Toolkit Tensor Flow

Seamlessly blend technologies

Azure Data Lake Analytics

取り扱いたいデータタイプ

Audio video images Meaningless without adding some structure

非構造データUnstructured

構造化データStructured

CSV Columnar Storage (Parquet ORC) Strict data model structure

JSON XML sensor data social media device data web logs Flexible data model structure

文書など緩やかな構造を持つ半構造データ

Semi-Structured

Azure Storage様々な文書Blobデータテーブル形式のデータが保存可能なストレージ

SQL DatabaseSQL Server 2016 と同等の機能を提供する PaaS 型データベース サービス

Azure Database for MySQLPostgreSQLPaaS 型データベース サービス のMySQLPostgreSQL版

Cosmos DBマルチデータモデルのグローバル分散DB

Azure Data Lake Storeビッグ データの分析ワークロードに対応する大規模データ格納エリア

Azure SQL Data Warehouseペタバイト単位のストレージを有した PaaS 型データ ウェアハウス サービス

IoT Hub

Event Hubs

Data Warehouse

Data Factory

App Insights Log Analytics

Monitor

CDN

Search Power BI

Blob Storage Pillars

Open amp

Interoperable

Manageable amp

Cost Efficient

Scalable amp

Performant

Secure amp

Compliant

Durable amp

Available

Machine Learning

Stream Analytics

Batch

Functions

Data Lake Analytics

Azure HDInsight

Big Data Use Cases

Ingest amp ETL Streaming Analytics amp Machine Learning Data Aggregation Presentation

QueuesReliable queues at

scale for cloud

services

ファイルを保存する際にはこの3つの選択肢があります

httpsdocsmicrosoftcomja-jpazurestoragestorage-decide-blobs-files-disks

OS

アプリ アプリ アプリ アプリ

BLOB

効率

利用

仮想マシン

+BLOB

001log

002log

003log

004log

EN

EN

EN

EN

EN

EN

PS

PS

PS

PS ENEN

001log

002log

003log

004log

disk1vhd

PS = パーティション サーバー

EN = エクステント ノード

001log

002log

003log

004log

EN

EN

EN

EN

EN

EN

PS

PS

PS

PS ENEN

Block 1 Block 4Block 3Block 2

Imagejpg

Sparse File 512 byte aligned

51

2

10

24

15

36

20

48

25

60

AZCopy ndash Robocopy for Azure StorageStorage Explorer ndash Cross platform UX

Data Movement Library on CoreCLR

Python client library

仮想マシンSQL Enterprise

DS4 の場合

8 Core 28 GB RAM

Disk 0

読み取り書き込み Disk 1

Disk 2

P30

読み取りのみ

C

システム

D

キャッシュ

永続性あり 永続性なし 永続性あり (複数ボリュームの分割やストライプの構成が可能)

Premium Storage

デフォルト作成(仮想マシン付属) ユーザーが任意に追加

OS

Page ファイル

DBMS Exe

SQL Server バッファープール拡張

httpsazuremicrosoftcomja-jpdocumentationarticlesvirtual-machines-sql-server-performance-best-practices

httpsazuremicrosoftcomja-jpdocumentationarticlesvirtual-machines-sql-server-use-premium-storage

Disk n

P30

読み取りのみ

E

SQL データ(ページ圧縮)

Temp DB

Disk 3

P30

なし

F

Transaction-

Log

Disk Cache

344GB

最大Disk IOPS

256MBsec

P30合計の

600MBsは出ない

NTFSアロケーションユニットサイズ 64KB

データベース ページ圧縮 有効

Table用Index用Temp DB用に別

ドライブに拡張可能

キャッシュ設定は添付の

URLを参照

最大Disk IOPS

200MBsec

最大Disk IOPS

200MBsec

最大Disk IOPS

200MBsec

フルマネージドの RDBMS

データベース

RDBMS

OS

Azure が管理

利用者が管理

VM上の RDBMS

ホスト OS

仮想化

フルコントロール

データベース

RDBMS

OS

仮想化

ホスト OS

容易な管理

Azure Database

SQL Server物理マシン仮想マシン

SQL Server on Azure VM仮想マシン

SQL Database Data WarehousePaaS

物理マシン仮想マシン

VM Template Market place仮想マシン

Azure Database for MySQL PostgreSQL

論理データベース

Write

Write Ack

Ack

Read

value write

Ack

特徴

無停止フェールオーバー

無停止スケールアップ(プラン変更)

自動パフォーマンスチューニング

スループット指定によるプロビジョニング

データベース トランザクション ユニット (DTU) とエラスティック データベース トランザクション ユニット (eDTU) の説明

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-what-is-a-dtu

Azure SQL Database Query Performance Insight

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-query-performance

Query Store is turned on by default for Azure SQL Database

httpsazuremicrosoftcomja-jpupdatesquery-store-on-is-the-new-default-for-azure-sql-database

Queries

SQL Database

Deeper Insight

Query

Store

SQL Database Advisor

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-advisor

Azure Portal を使用した SQL Database Advisor

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-advisor-portal

領域 改善後

新しいインデックス提案が作成されるまで 18時間以内

T-SQL文が実行されるまでのタイムラグ 即時(数分以内)

「悪い」チューニング内容に対しての検知時間 1時間以内

次のインデックス提案が行われるまでの待ち時

間即時(数分以内)

導入までの総時間 1日以内

SQL Database の脅威の検出

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-threat-detection

コントロールノード

SQLDB

Azure Blob Storage(WASB)

100 DWU lt gt 2000 DWUコントロールノード

ユーザーからの接続コンピュートとストレージの調整

コンピュートノード

コンピュートノード

コンピュートノード

コンピュートノード

SQLDB

SQLDB

SQLDB

SQLDB

Azure Blob Storage(WASB)

コントロールノード

SQLDB コントロールノード

D51

D52

D53

D60

hellip

D41

D42

D43

D50

hellip

コンピュートノード

D31

D32

D33

D40hellip

D21

D22

D23

D30

hellip

D11

D12

D13

D20

hellip

D1

D2

D3

D10

hellip

SQL DB

Azure Blob Storage(WASB)

コントロールノード

SQLDB コントロールノード

コンピュートノード

D51

D52

D53

D60

hellipコンピュートノード

D41

D42

D43

D50

hellip

コンピュートノード

D31

D32

D33

D40hellip

コンピュートノード

D21

D22

D23

D30

hellip

コンピュートノード

D11

D12

D13

D20

hellip

コンピュートノード

D1

D2

D3

D10

hellip

SQL DB

SQL DB

SQL DB

SQL DB

SQL DB

SQL DB

54

データ無制限のストレージ と 分析プラットフォーム

無制限のストレージ(エクサバイト超)

ネイティブ HDFS に基づく実装

HDInsight Hortonworks Cloudera との統合

全ての HDFS 準拠プロジェクトとの親和性

(Spark Storm Flume Sqoop Kafka R etc)

Azure Data Lake Store- Hadoop Distributed File System (HDFS) For The Cloud

構造化データと非構造化データに対するデータ処理

宣言型の SQL 文 とカスタムコード (UDF UDT UDO hellip )

ローカルとリモートに対するクエリ

バッチ型インタラクティブ型ストリーミング型(in the future)

Azure Data Lake Analytics- New Query Language U-SQL

ETL パイプライン

スキーマの定義Relational

LOB

Applications

Schema-on-Write

直ちに必要でないデータは全て捨てられるかアーカイブされている

無限に保存 分析 結果の参照

あらゆるデータ

ソースからの

データ収集

Schema-on-Read

全データ取込要件にかかわらず

全データ格納そのままのフォーマットでスキーマ定義なし

分析実行Hadoopのような分析エンジンの利用

インタラクティブクエリ

バッチ型クエリ

機械学習

データウェアハウス

リアルタイム分析

リレーショナル

デバイス

観察仮説集まったデータから仮説をたてる

58

無制限のサイズ

ギガバイトからペタバイトのサイズの単一ファイル

巨大なスループットを必要とする大規模な分析システムを実現

あらゆるスループットに自動最適化

ペタバイト超のデータの並列コンピューティング

同一リージョン内に3つのコピーを自動的に作成

インストールやチューニングは不要

数分で稼働開始

必要に応じてどのようなサイズにもスケールアウト可能

データウェアハウスデータレイクストア

非構造Rawデータ(ログ文書バイナリ)

Tier 1

MachineLearning

Data LakeAnalytics HDInsight

目的に合わせた

データウェハウス分析処理

(売上分析経営分析)

データウェハウスに格納しきれなかった

過去データ関連データを連結して分析

ハードウェアの性能限界によって行えなかった処理量の分析を実現

ディスクコンピューティング

非構造データの

分析処理

(画像音声映像など)

広範囲のデータを利用した

機械学習統計解析処理

などによる高度分析

SQL Data Warehouse

Data LakeAnalytics HDInsight

Data LakeAnalytics

構造化データ半構造データ

分析用に加工(csv等)

Tier 2

アーカイブデータTier 2 DWHのアーカイブ

Tier 3

Analytics

Storage

HDInsight(ldquomanaged clustersrdquo)

Azure Data Lake Analytics

Azure Data Lake Store

Azure Data Lake

LOB Applications

SocialDevices

Clickstream

Sensors

Video

Web

Relational

HDInsight

Data Lake Analytics

Machine Learning

Spark

R

Azure Data Lake Store

Azure Data Lake Store

Azure Storage Blob

外部表Azure SQLData Warehouse

HDInsight

開発者は OSS に馴染んでいる Java Eclipse Hive etc

マネージド Hadoop クラスタにおいてカスタマイズ管理が可能でフレキシビリティがある

Azure Data Lake Analytics

C SQL amp PowerShell のスキル

経験を活かせる

利便性効率性自動スケール

ジョブ実行の仕組みが提供される

(New)

(New)

一般的なパターン

処理読み込み 保存

INSERT

OUTPUT

OUTPUT

SELECThellip

FROMhellip

WHEREhellip

+

PythonR

EXTRACT

EXTRACT

SELECT

SELECT

Azure

Data

Lake

Azure

Data

Lake

Azure

SQL

DB

Azure

Storage

Blobs

Azure

Storage

Blobs

RowSet RowSet

Cognitive Services

REFERENCE ASSEMBLY WebLogExtASM

rs =

EXTRACT

UserID string

Start DateTime

End DateTime

Region string

SitesVisited string

PagesVisited string

FROM ldquoLogsWebLogRecordstxtrdquo

USING WebLogExtractor ()

result = SELECT UserID

(EndSubtract(Start))TotalSeconds AS Duration

FROM rs ORDER BY Duration DESC FETCH 10

OUTPUT result TO ldquoLogsResultstop10tsv

USING OutputterTsv()

bull 型定義は C の型定義と同じ

bull データをファイルから抽出読み込み

するときにスキーマが必要

Data Lake Store 内 のファイル

独自形式を解析するカスタム関数

C の関数

行セット(中間テーブルの概念

に近い)

TSV形式で書き込む関数

U-SQL ジョブのサブミットAzure PortalやVisual StudioのAzure Data Lake ToolsからU-SQLジョブをサブミット可能

67

進捗

統計情報

従来型の処理分析 Azure Data Lake を中心とした処理分析

Business apps

Custom apps

Sensors and devices

ADL StorePeople

非構造化データも含めてあらゆるデータを格納

Azure SQL DW

Azure AD

Power BI

ADF

ADL Analytics

bull 処理分析業務の大半はデータ準備作業が占めるbull 処理分析業務に手間時間が必要

Business apps

Custom apps

Sensors and devices

HDInsight

ユーザー管理認証

データの連携

Power BI

File System

Database

Database

Hadoop

DWH

Data Mart

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

①大量データの受け入れ

②リアルタイム処理データの集約

③データの蓄積

構造化非構造化文書など様々な形式での保存

④データの加工移行

⑥機械学習

⑦Hadoop解析

⑧マイクロソフト技術を用いた分散解析

⑨通常のRMSが機能を追加した企業向けRを使用した解析

⑪クラウドベースの Self-Service BI 機能

⑫機械学習の予測モデルを業務システムなどから呼び出し可能にするサービス

外部クラウドなどからのデータ取り込み

②リアルタイム処理データの加工

⑤ディープラーニング

⑩Excelを用いた可視化

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

リアルタイム

バッチ

Data Factory Tools for Visual Studio

Azure Portal

Azure TableStorage

(Web ログレコード)

Data Factory

HDInsight

(Web ログをファイルにして

バッチ処理で集計)

SQL Database

(集計データをDB テーブルに格納)

Power BI

社内システム

DataManagement

Gateway

SQL Database

Data Warehouse

Blob Storage

Table Storage

httpportalazurecom

接続

メッセージ作成

メッセージ送信

var cs = ldquo接続文字列rdquovar path = ldquoイベントハブ名rdquovar eh = EventHubClientCreateFromConnectionString(cs path)

var msg = new user = thisUserIdentityNamelevel = leveltimestamp = demoTimestamp

var json = JsonConvertSerializeObject(msg)

ehSend(new EventData(EncodingUTF8GetBytes(json)))

EventProcessorHostを使う

bull

bull

bull

Functionsを使う

bull

bull

IEventProcessorProcessEventAsync(msg)

IEventProcessorProcessEventAsync(msg)

Run(string msg)

Azure azure-sdk-for-python

Point of Service Devices

Self CheckoutStations

Kiosks

Smart Phones

SlatesTablets

PCsLaptops

Servers

Digital Signs

DiagnosticEquipmentRemote Medical

MonitorsLogic

Controllers

SpecializedDevicesThin

Clients

Handhelds

Security

POS Terminals

AutomationDevices

VendingMachines

Kinect

ATM

Stream Analytics

入力 出力クエリデータストリーム

参照

bull ldquo入力rdquoldquo出力rdquoをクリックしそれぞれ作成

bull ldquoクエリrdquoをクリックしクエリを定義bull 作業が終わったらldquo開始rdquoで実

行開始

SELECT

INTO

FROM

SELECT user level AS SATLevel timestamp

INTO

FROM

デバイス接続性とデバイス管理およびブローカーサービス

データ管理と高度な分析 情報活用業務の生産性とプロセスの最適化

IoT Agent Gateway

予兆原因の学習モデル

ダッシュボード

参照ERPbull 顧客bull 設備bull 担当者

Notification Hubs

通知

予兆イベント

メンテ方法の推奨

bull ヘルス状態bull インシデント管理bull 対応のディスパッチ

現地技術要員のモバイルデバイス

オペレーションセンター

bull イベント ドア開閉軸アライメントキャビン速度モーター温度など

bull アラーム 故障アラームエラーコードなど

httpisstkeazurewebsitesnet

Event Hub

Stream Analytics

Azure ML

制御機器とセンサーのデータ

マシンデータの蓄積

メンテナンス方法の学習モデル

Machine Learning

Blob Storage

セルフサービス分析

Power BI

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce

cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-

system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of

your data while making it faster to get up and running with

batch streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources

so you can run queries on exabytes of data Includes U-

SQL a new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully

managed NoSQL database service that indexes stores and

queries data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

What do all of these have in common

They can all use Azure Analysis Services

Azure Analysis Services

Azure Analysis Services

BI semantic model

Business logic amp metrics

Data modeling

Security

Azure Analysis Services

Lifecycle management

In-memory cache

On-premises

Cloud

Data sources

SQL Database

SQL Data Warehouse

Other data sources

SQL Server

Analytics platform

system

Other data sources

On-premises

Cloud

Client tools

Power BI

Excel

Third party BI tools

Power BI Desktop

Rich semantic modelling

locatioidentifier

identifiertype

fieldidentifier

numberofunitssoldtodate

remaningnumber

Numberofuntissoldtoday

receivedback

productidentifier

descriptionline1

descriptionline2

qtyafterqtysales

familyidentifier

Source DataComplex raw data optimized for processing

Semantic ModelRich business user friendly semantic model

Product Id

Product Name

Product Description

Category

Category Id

Category Name

Category Description

Sub Category

Product Id

Shelf qty

Return qty

Order qty

Sale qty

Cloud Data

On-Premises

Data

Azure Analysis Services

Lightning fast queries

データ管理をきっかけに処理を実行

Web Glue

Bots IoT

DOMINOS STORES

Key Vault

Azure Active Directory

Azure Files

SSIS FRANCHISEE

AZURE WEST EUROPE

Azure Function

KEMPSSDESSRS

IN- AND EXTERNAL DATA SOURCES

orderprocessing

O365

App Insights

indexhtml

Azure Functions Proxies

couponprocessing

Use Bindings in Your Codefunctionjson

bindings [type httpTriggerdirection inwebHookType genericJsonname req

type httpdirection outname res

type queuename eventOutputqueueName aievents1connectionAiStorageConnectiondirection out

]

public static class OrderHandler

[FunctionName(OrderWebhook)]public static async TaskltHttpResponseMessagegt Run(

[HttpTrigger] HttpRequestMessage req[Queue(aievents1 Connection = AiStorageConnection)]

IAsyncCollectorltStringgt eventOutputTraceWriter log)

logInfo($Webhook was triggered)

string jsonContent = await reqContentReadAsStringAsync()dynamic data = JsonConvertDeserializeObject(jsonContent)

await eventOutputAddAsync(JsonConvertSerializeObject(GetLogData(data)))

int orderId = PlaceOrder(data)

return reqCreateResponse(HttpStatusCodeOK new orderNumber = orderId )

bull Workflow in the cloud

bull Powerful control flow

bull Connect functions and APIs

bull Declarative definition to persist in source control and drive deployments

Logic AppsCloud APIs and platform

bull Supports over 125 built-in connectors

bull Scales to meet your needs

bull Enables rapid development

bull Extends with custom APIs and

Functions

API connections

bull Authenticate once and reuse

Big Data Solutions Decision Tree

httpsbiz-excellencecom20160830big-data-dt

Machine Learning Solutions Decision Tree

httpsbiz-excellencecom20160913machine-

learning-dt

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of your

data while making it faster to get up and running with batch

streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources so

you can run queries on exabytes of data Includes U-SQL a

new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully managed

NoSQL database service that indexes stores and queries

data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

Microsoft Big Data Portfolio

SQL Server Stretch

Business intelligence

Machine learning analytics

Insights

Azure SQL Database

SQL Server 2016

SQL Server 2016 Fast Track

Azure SQL DW

ADLS amp ADLA

DocumentDB

HDInsight

Hadoop

Analytics Platform System

Sequential Scale Out + AcrossScale Up

Key

Relational Non-relational

On

-pre

mis

es

Clo

ud

Microsoft has solutions covering

and connecting all four

quadrants ndash thatrsquos why SQL

Server is one of the most utilized

databases in the world

Azure

Data Lake Store

Azure

Blob StoragePurpose Optimized for big data analytics General purpose bulk storage

Use Cases Batch Interactive Streaming App backend backup data media storage for

streaming

Units of Storage Accounts Folders Files Accounts Containers Blobs

Structure Hierarchical File System Flat namespace

WebHDFS Implements WebHDFS No (WASB)

Security AD SAS keys

Storage Auto SharedFiles chunked Manually manage expansionFiles intact

Service State Generally Available PolyBase

just supported

Generally Available

Billing Pay for data stored and for IO Pay for data stored and for IO

Region Availability Two US regions (Other regions coming soon) All Azure Regions

ADL Store vs Blob Store

httpsdocsmicrosoftcomen-usazuredata-lake-storedata-lake-store-comparison-with-blob-storage

Want Hadoop

Need exact same on-prem

Need interactive streaming

MandatoryNo strong opinion

Azure Marketplace (IaaS)

bull Need all workloads exactly like on-

premises

bull Need 100 HortonworksClouderaMapR

Azure HDInsight

bull Most Hadoop workloads

bull Fully managed by Microsoft

bull Sell HDI + ADLS

bull Stickier to Microsoft than VMs

bull Can do interactive (Spark) and streaming

(StormSpark)

Azure Data Lake Analytics

bull Easiest experience for admin no sense of

clusters instant scale per job

bull Easiest experience for developers Visual

StudioU-SQL (C+SQL)

bull Sell ADLA + ADLS

bull Batch workloads only

Need everything exactly like on-prem

Need core projects Yes Batch is OK

Always present ADLA if NET or Visual Studio Shop

If NET or VS shop

Azure SQL DW HDInsight Hive HDInsight Spark Azure Data Lake SQL Server (IaaS)

Volume Petabytes Petabytes Petabytes Petabytes Terabytes

Security Encryption TD

Audit

ADLS Apache

Ranger

ADLS AAD Security

Groups (data)

Encryption TD

Audit

Languages T-SQL HiveQL SparkSQL HiveQL

Scala Java Python

R

U-SQL T-SQL

Extensibility No Yes NETSerDe Yes Packages Yes NET Yes NET CLR

External File

Types

ORC TXT

Parquet RCFile

ORC CSV Parquet

+ others

Parquet JSON

Hive + others

Many ORC TXT Parquet

RCFile

Admin Low-Medium Medium-High Medium-High Low High

Cost Model DWU Nodes amp VM Nodes amp VM UnitsJobs VM

Schema

Definition

Schema on Write

Polybase

Schema on Read Schema on Read Schema on Read Schema on Write

Polybase

Max DB Size 240TB Comp (5X

= 1PB)

Unlimited 64TB (64 1TB drives)

機械学習 Deep Learning 深層強化学習

画像解析

音声解析

データ分類異常検知 顧客グルーピング

数値予測売上予測 需要予測 品質管理

ラベル分類不良品分析 故障予測 チャーン分析

機械学習より強力な分析

自律学習型ロボット

自動運転車

テキストや画像等の自動生成

活用例

主に多層のニューラルネットワークを用いた手法での分析

分析のためには莫大なデータ量計算量知識スキルを要する

統計に基づいた手法での分析

そのため比較的少ないデータ量と計算量で分析を行うことができる

定義したあるべき姿に従い試行錯誤をして自ら学習を行うための分析手法である強化学習と深層学習を組み合わせた分析

Azure Machine Learning Cognitive Toolkit GPU Instance (N-Series)

マイクロソフトが提供する技術

テキストデータ機器のログデータなど

画像データ監視カメラの録画データ 機器の外観画像 顔画像など

動画データ監視カメラの録画データ 機器の稼働状況 人の作業映像など

音声データマイクからの収集データ 稼働音 室内音 人の音声など

数値データセンサーデータ 機器の制御データ計測データなど672342345

機械学習統計理論に基づいた分析手法を用いる用意するべきデータ量と処理する計算量の敷居が低め導入しやすい

Deep Learningデータ量が大きいため強力な分析手法が必要「膨大なデータ量を用意」「莫大な計算量を処理」が必要で敷居が非常に高い導入にはそれなりの覚悟が必要

Action

People

Automated Systems

Apps

Web

Mobile

Bots

Intelligence

Dashboards amp Visualizations

Cortana

Bot Framework

Cognitive Services

Power BI

Information Management

Event Hubs

Data Catalog

Data Factory

Machine Learning and Analytics

HDInsight

Stream Analytics

Intelligence

Data Lake Analytics

Machine Learning

Big Data Stores

SQL Data Warehouse

Data Lake Store

Data Sources

Apps

Sensors amp Devices

Data

Cortana Intelligence Suite

学習済み

モデル利用

学習モデル

作成

機械学習 教師あり学習

教師なし学習

強化学習

決定木

線形回帰

SVM

ロジスティック回帰

ニューラルネットワーク

クラスタリング

次元削減

Q学習

K-mean法

主成分分析

正準相関分析

ディープニューラルネットワーク

畳みこみニューラルネットワーク

再帰的ニューラルネットワーク

回帰結合ニューラルネットワーク

httpsazuremicrosoftcomen-usservicescognitive-services

わずか数行のコードで強力なアルゴリズムを持つアプリの作成が可能ですiOSAndroidWindows などのプラットフォームを問わず機能します

httpsazuremicrosoftcomja-jpservicesmachine-learning

ユーザーは簡単に予測分析ソリューションを構築デプロイ共有できます

httpswwwyoutubecomwatchv=9gDDO5ldT-4ampfeature=youtube

AI技術を利用したディープラーニング(深層学習)ツールキットです旧称「CNTK」から改名されました

ソースコード httpsgithubcomMicrosoftCNTK

SearchSpeech

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

コカコーラ誕生100周年キャンペーン

コカコーラボトルを「100歳」と認識

bull 自撮り写真をUp結果をSNS拡散

ナビタイムジャパン様

自然言語入力による路線検索BOT

bull ユーザーとの新たな接点(LINE)

bull 自然言語入力

Vision Language Knowledge

Vision Knowledge SearchSpeech Language

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

Microsoft SupportVirtual Agent

自然言語入力による自動応答サポート窓口

bull 過去QampAデータ解析に基づく回答抽出

bull 定型外はldquo人対応rdquo

UBER

登録ドライバーをスマホ経由で顔認証

VOLVO

表情からの危険予測

Search

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

アロバ様

監視カメラによる店舗内行動分析

bull 顔認識による 顧客識別

bull 表情分析

東京サマーランド様にて導入済み

HmComm様

コールセンターソリューション

bull 会話をテキスト化キーワードを解析

bull 過去QampA検索

bull 内容をCRM保存

Vision KnowledgeSpeech Language

導入事例東京サマーランド様

Video

Intelligent KioskhttpsgithubcomMicrosoftCognitive-Samples-IntelligentKiosk

ldquo(want to|request)rdquo

HoloLens

Page 7: やりたいことから考えるMicrosoft Azure 上の データストアの選び方とデータサイエンティスト向け活用法。KVSからDWHまで

Platform Services

Infrastructure Services

Web Apps

MobileApps

APIManagement

API Apps

Logic Apps

Notification Hubs

Content DeliveryNetwork (CDN)

Media Services

BizTalkServices

HybridConnections

Service Bus

StorageQueues

HybridOperations

Backup

StorSimple

Azure SiteRecovery

ImportExport

SQL Database

DocumentDB

RedisCache

AzureSearch

StorageTables

DataWarehouse

Azure AD Health Monitoring

AD PrivilegedIdentity Management

OperationalAnalytics

Cloud Services

BatchRemoteApp

ServiceFabric

Visual Studio

AppInsights

Azure SDK

VS Online

Domain Services

HDInsight MachineLearning

StreamAnalytics

Data Factory

EventHubs

MobileEngagement

Data Lake

IoT Hub

Data Catalog

Security amp Management

Azure ActiveDirectory

Multi-FactorAuthentication

Automation

Portal

Key Vault

StoreMarketplace

VM Image Galleryamp VM Depot

Azure ADB2C

Scheduler

The Azure Platform

様々なアプリ開発が行われています

Web amp mobile Business apps Microservice apps

Development amp test Big data amp analytics Internet of Things

Backup recovery

amp archive

High Performance

ComputingDigital media

Identity amp security

Mediaamp CDN

Integration Developerservices

Data

Analytics amp IoT

MY APP

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

①大量データの受け入れ

②リアルタイム処理データの集約

③データの蓄積

構造化非構造化文書など様々な形式での保存

④データの加工移行

⑥機械学習

⑦Hadoop解析

⑧マイクロソフト技術を用いた分散解析

⑨通常のRMSが機能を追加した企業向けRを使用した解析

⑪クラウドベースの Self-Service BI 機能

⑫機械学習の予測モデルを業務システムなどから呼び出し可能にするサービス

外部クラウドなどからのデータ取り込み

②リアルタイム処理データの加工

⑤ディープラーニング

⑩Excelを用いた可視化

Cognitive Services API

Azure Gallery

Microsoft R Server

Azure Machine Learning Studio

Cognitive Toolkit Tensor Flow

Seamlessly blend technologies

Azure Data Lake Analytics

取り扱いたいデータタイプ

Audio video images Meaningless without adding some structure

非構造データUnstructured

構造化データStructured

CSV Columnar Storage (Parquet ORC) Strict data model structure

JSON XML sensor data social media device data web logs Flexible data model structure

文書など緩やかな構造を持つ半構造データ

Semi-Structured

Azure Storage様々な文書Blobデータテーブル形式のデータが保存可能なストレージ

SQL DatabaseSQL Server 2016 と同等の機能を提供する PaaS 型データベース サービス

Azure Database for MySQLPostgreSQLPaaS 型データベース サービス のMySQLPostgreSQL版

Cosmos DBマルチデータモデルのグローバル分散DB

Azure Data Lake Storeビッグ データの分析ワークロードに対応する大規模データ格納エリア

Azure SQL Data Warehouseペタバイト単位のストレージを有した PaaS 型データ ウェアハウス サービス

IoT Hub

Event Hubs

Data Warehouse

Data Factory

App Insights Log Analytics

Monitor

CDN

Search Power BI

Blob Storage Pillars

Open amp

Interoperable

Manageable amp

Cost Efficient

Scalable amp

Performant

Secure amp

Compliant

Durable amp

Available

Machine Learning

Stream Analytics

Batch

Functions

Data Lake Analytics

Azure HDInsight

Big Data Use Cases

Ingest amp ETL Streaming Analytics amp Machine Learning Data Aggregation Presentation

QueuesReliable queues at

scale for cloud

services

ファイルを保存する際にはこの3つの選択肢があります

httpsdocsmicrosoftcomja-jpazurestoragestorage-decide-blobs-files-disks

OS

アプリ アプリ アプリ アプリ

BLOB

効率

利用

仮想マシン

+BLOB

001log

002log

003log

004log

EN

EN

EN

EN

EN

EN

PS

PS

PS

PS ENEN

001log

002log

003log

004log

disk1vhd

PS = パーティション サーバー

EN = エクステント ノード

001log

002log

003log

004log

EN

EN

EN

EN

EN

EN

PS

PS

PS

PS ENEN

Block 1 Block 4Block 3Block 2

Imagejpg

Sparse File 512 byte aligned

51

2

10

24

15

36

20

48

25

60

AZCopy ndash Robocopy for Azure StorageStorage Explorer ndash Cross platform UX

Data Movement Library on CoreCLR

Python client library

仮想マシンSQL Enterprise

DS4 の場合

8 Core 28 GB RAM

Disk 0

読み取り書き込み Disk 1

Disk 2

P30

読み取りのみ

C

システム

D

キャッシュ

永続性あり 永続性なし 永続性あり (複数ボリュームの分割やストライプの構成が可能)

Premium Storage

デフォルト作成(仮想マシン付属) ユーザーが任意に追加

OS

Page ファイル

DBMS Exe

SQL Server バッファープール拡張

httpsazuremicrosoftcomja-jpdocumentationarticlesvirtual-machines-sql-server-performance-best-practices

httpsazuremicrosoftcomja-jpdocumentationarticlesvirtual-machines-sql-server-use-premium-storage

Disk n

P30

読み取りのみ

E

SQL データ(ページ圧縮)

Temp DB

Disk 3

P30

なし

F

Transaction-

Log

Disk Cache

344GB

最大Disk IOPS

256MBsec

P30合計の

600MBsは出ない

NTFSアロケーションユニットサイズ 64KB

データベース ページ圧縮 有効

Table用Index用Temp DB用に別

ドライブに拡張可能

キャッシュ設定は添付の

URLを参照

最大Disk IOPS

200MBsec

最大Disk IOPS

200MBsec

最大Disk IOPS

200MBsec

フルマネージドの RDBMS

データベース

RDBMS

OS

Azure が管理

利用者が管理

VM上の RDBMS

ホスト OS

仮想化

フルコントロール

データベース

RDBMS

OS

仮想化

ホスト OS

容易な管理

Azure Database

SQL Server物理マシン仮想マシン

SQL Server on Azure VM仮想マシン

SQL Database Data WarehousePaaS

物理マシン仮想マシン

VM Template Market place仮想マシン

Azure Database for MySQL PostgreSQL

論理データベース

Write

Write Ack

Ack

Read

value write

Ack

特徴

無停止フェールオーバー

無停止スケールアップ(プラン変更)

自動パフォーマンスチューニング

スループット指定によるプロビジョニング

データベース トランザクション ユニット (DTU) とエラスティック データベース トランザクション ユニット (eDTU) の説明

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-what-is-a-dtu

Azure SQL Database Query Performance Insight

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-query-performance

Query Store is turned on by default for Azure SQL Database

httpsazuremicrosoftcomja-jpupdatesquery-store-on-is-the-new-default-for-azure-sql-database

Queries

SQL Database

Deeper Insight

Query

Store

SQL Database Advisor

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-advisor

Azure Portal を使用した SQL Database Advisor

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-advisor-portal

領域 改善後

新しいインデックス提案が作成されるまで 18時間以内

T-SQL文が実行されるまでのタイムラグ 即時(数分以内)

「悪い」チューニング内容に対しての検知時間 1時間以内

次のインデックス提案が行われるまでの待ち時

間即時(数分以内)

導入までの総時間 1日以内

SQL Database の脅威の検出

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-threat-detection

コントロールノード

SQLDB

Azure Blob Storage(WASB)

100 DWU lt gt 2000 DWUコントロールノード

ユーザーからの接続コンピュートとストレージの調整

コンピュートノード

コンピュートノード

コンピュートノード

コンピュートノード

SQLDB

SQLDB

SQLDB

SQLDB

Azure Blob Storage(WASB)

コントロールノード

SQLDB コントロールノード

D51

D52

D53

D60

hellip

D41

D42

D43

D50

hellip

コンピュートノード

D31

D32

D33

D40hellip

D21

D22

D23

D30

hellip

D11

D12

D13

D20

hellip

D1

D2

D3

D10

hellip

SQL DB

Azure Blob Storage(WASB)

コントロールノード

SQLDB コントロールノード

コンピュートノード

D51

D52

D53

D60

hellipコンピュートノード

D41

D42

D43

D50

hellip

コンピュートノード

D31

D32

D33

D40hellip

コンピュートノード

D21

D22

D23

D30

hellip

コンピュートノード

D11

D12

D13

D20

hellip

コンピュートノード

D1

D2

D3

D10

hellip

SQL DB

SQL DB

SQL DB

SQL DB

SQL DB

SQL DB

54

データ無制限のストレージ と 分析プラットフォーム

無制限のストレージ(エクサバイト超)

ネイティブ HDFS に基づく実装

HDInsight Hortonworks Cloudera との統合

全ての HDFS 準拠プロジェクトとの親和性

(Spark Storm Flume Sqoop Kafka R etc)

Azure Data Lake Store- Hadoop Distributed File System (HDFS) For The Cloud

構造化データと非構造化データに対するデータ処理

宣言型の SQL 文 とカスタムコード (UDF UDT UDO hellip )

ローカルとリモートに対するクエリ

バッチ型インタラクティブ型ストリーミング型(in the future)

Azure Data Lake Analytics- New Query Language U-SQL

ETL パイプライン

スキーマの定義Relational

LOB

Applications

Schema-on-Write

直ちに必要でないデータは全て捨てられるかアーカイブされている

無限に保存 分析 結果の参照

あらゆるデータ

ソースからの

データ収集

Schema-on-Read

全データ取込要件にかかわらず

全データ格納そのままのフォーマットでスキーマ定義なし

分析実行Hadoopのような分析エンジンの利用

インタラクティブクエリ

バッチ型クエリ

機械学習

データウェアハウス

リアルタイム分析

リレーショナル

デバイス

観察仮説集まったデータから仮説をたてる

58

無制限のサイズ

ギガバイトからペタバイトのサイズの単一ファイル

巨大なスループットを必要とする大規模な分析システムを実現

あらゆるスループットに自動最適化

ペタバイト超のデータの並列コンピューティング

同一リージョン内に3つのコピーを自動的に作成

インストールやチューニングは不要

数分で稼働開始

必要に応じてどのようなサイズにもスケールアウト可能

データウェアハウスデータレイクストア

非構造Rawデータ(ログ文書バイナリ)

Tier 1

MachineLearning

Data LakeAnalytics HDInsight

目的に合わせた

データウェハウス分析処理

(売上分析経営分析)

データウェハウスに格納しきれなかった

過去データ関連データを連結して分析

ハードウェアの性能限界によって行えなかった処理量の分析を実現

ディスクコンピューティング

非構造データの

分析処理

(画像音声映像など)

広範囲のデータを利用した

機械学習統計解析処理

などによる高度分析

SQL Data Warehouse

Data LakeAnalytics HDInsight

Data LakeAnalytics

構造化データ半構造データ

分析用に加工(csv等)

Tier 2

アーカイブデータTier 2 DWHのアーカイブ

Tier 3

Analytics

Storage

HDInsight(ldquomanaged clustersrdquo)

Azure Data Lake Analytics

Azure Data Lake Store

Azure Data Lake

LOB Applications

SocialDevices

Clickstream

Sensors

Video

Web

Relational

HDInsight

Data Lake Analytics

Machine Learning

Spark

R

Azure Data Lake Store

Azure Data Lake Store

Azure Storage Blob

外部表Azure SQLData Warehouse

HDInsight

開発者は OSS に馴染んでいる Java Eclipse Hive etc

マネージド Hadoop クラスタにおいてカスタマイズ管理が可能でフレキシビリティがある

Azure Data Lake Analytics

C SQL amp PowerShell のスキル

経験を活かせる

利便性効率性自動スケール

ジョブ実行の仕組みが提供される

(New)

(New)

一般的なパターン

処理読み込み 保存

INSERT

OUTPUT

OUTPUT

SELECThellip

FROMhellip

WHEREhellip

+

PythonR

EXTRACT

EXTRACT

SELECT

SELECT

Azure

Data

Lake

Azure

Data

Lake

Azure

SQL

DB

Azure

Storage

Blobs

Azure

Storage

Blobs

RowSet RowSet

Cognitive Services

REFERENCE ASSEMBLY WebLogExtASM

rs =

EXTRACT

UserID string

Start DateTime

End DateTime

Region string

SitesVisited string

PagesVisited string

FROM ldquoLogsWebLogRecordstxtrdquo

USING WebLogExtractor ()

result = SELECT UserID

(EndSubtract(Start))TotalSeconds AS Duration

FROM rs ORDER BY Duration DESC FETCH 10

OUTPUT result TO ldquoLogsResultstop10tsv

USING OutputterTsv()

bull 型定義は C の型定義と同じ

bull データをファイルから抽出読み込み

するときにスキーマが必要

Data Lake Store 内 のファイル

独自形式を解析するカスタム関数

C の関数

行セット(中間テーブルの概念

に近い)

TSV形式で書き込む関数

U-SQL ジョブのサブミットAzure PortalやVisual StudioのAzure Data Lake ToolsからU-SQLジョブをサブミット可能

67

進捗

統計情報

従来型の処理分析 Azure Data Lake を中心とした処理分析

Business apps

Custom apps

Sensors and devices

ADL StorePeople

非構造化データも含めてあらゆるデータを格納

Azure SQL DW

Azure AD

Power BI

ADF

ADL Analytics

bull 処理分析業務の大半はデータ準備作業が占めるbull 処理分析業務に手間時間が必要

Business apps

Custom apps

Sensors and devices

HDInsight

ユーザー管理認証

データの連携

Power BI

File System

Database

Database

Hadoop

DWH

Data Mart

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

①大量データの受け入れ

②リアルタイム処理データの集約

③データの蓄積

構造化非構造化文書など様々な形式での保存

④データの加工移行

⑥機械学習

⑦Hadoop解析

⑧マイクロソフト技術を用いた分散解析

⑨通常のRMSが機能を追加した企業向けRを使用した解析

⑪クラウドベースの Self-Service BI 機能

⑫機械学習の予測モデルを業務システムなどから呼び出し可能にするサービス

外部クラウドなどからのデータ取り込み

②リアルタイム処理データの加工

⑤ディープラーニング

⑩Excelを用いた可視化

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

リアルタイム

バッチ

Data Factory Tools for Visual Studio

Azure Portal

Azure TableStorage

(Web ログレコード)

Data Factory

HDInsight

(Web ログをファイルにして

バッチ処理で集計)

SQL Database

(集計データをDB テーブルに格納)

Power BI

社内システム

DataManagement

Gateway

SQL Database

Data Warehouse

Blob Storage

Table Storage

httpportalazurecom

接続

メッセージ作成

メッセージ送信

var cs = ldquo接続文字列rdquovar path = ldquoイベントハブ名rdquovar eh = EventHubClientCreateFromConnectionString(cs path)

var msg = new user = thisUserIdentityNamelevel = leveltimestamp = demoTimestamp

var json = JsonConvertSerializeObject(msg)

ehSend(new EventData(EncodingUTF8GetBytes(json)))

EventProcessorHostを使う

bull

bull

bull

Functionsを使う

bull

bull

IEventProcessorProcessEventAsync(msg)

IEventProcessorProcessEventAsync(msg)

Run(string msg)

Azure azure-sdk-for-python

Point of Service Devices

Self CheckoutStations

Kiosks

Smart Phones

SlatesTablets

PCsLaptops

Servers

Digital Signs

DiagnosticEquipmentRemote Medical

MonitorsLogic

Controllers

SpecializedDevicesThin

Clients

Handhelds

Security

POS Terminals

AutomationDevices

VendingMachines

Kinect

ATM

Stream Analytics

入力 出力クエリデータストリーム

参照

bull ldquo入力rdquoldquo出力rdquoをクリックしそれぞれ作成

bull ldquoクエリrdquoをクリックしクエリを定義bull 作業が終わったらldquo開始rdquoで実

行開始

SELECT

INTO

FROM

SELECT user level AS SATLevel timestamp

INTO

FROM

デバイス接続性とデバイス管理およびブローカーサービス

データ管理と高度な分析 情報活用業務の生産性とプロセスの最適化

IoT Agent Gateway

予兆原因の学習モデル

ダッシュボード

参照ERPbull 顧客bull 設備bull 担当者

Notification Hubs

通知

予兆イベント

メンテ方法の推奨

bull ヘルス状態bull インシデント管理bull 対応のディスパッチ

現地技術要員のモバイルデバイス

オペレーションセンター

bull イベント ドア開閉軸アライメントキャビン速度モーター温度など

bull アラーム 故障アラームエラーコードなど

httpisstkeazurewebsitesnet

Event Hub

Stream Analytics

Azure ML

制御機器とセンサーのデータ

マシンデータの蓄積

メンテナンス方法の学習モデル

Machine Learning

Blob Storage

セルフサービス分析

Power BI

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce

cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-

system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of

your data while making it faster to get up and running with

batch streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources

so you can run queries on exabytes of data Includes U-

SQL a new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully

managed NoSQL database service that indexes stores and

queries data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

What do all of these have in common

They can all use Azure Analysis Services

Azure Analysis Services

Azure Analysis Services

BI semantic model

Business logic amp metrics

Data modeling

Security

Azure Analysis Services

Lifecycle management

In-memory cache

On-premises

Cloud

Data sources

SQL Database

SQL Data Warehouse

Other data sources

SQL Server

Analytics platform

system

Other data sources

On-premises

Cloud

Client tools

Power BI

Excel

Third party BI tools

Power BI Desktop

Rich semantic modelling

locatioidentifier

identifiertype

fieldidentifier

numberofunitssoldtodate

remaningnumber

Numberofuntissoldtoday

receivedback

productidentifier

descriptionline1

descriptionline2

qtyafterqtysales

familyidentifier

Source DataComplex raw data optimized for processing

Semantic ModelRich business user friendly semantic model

Product Id

Product Name

Product Description

Category

Category Id

Category Name

Category Description

Sub Category

Product Id

Shelf qty

Return qty

Order qty

Sale qty

Cloud Data

On-Premises

Data

Azure Analysis Services

Lightning fast queries

データ管理をきっかけに処理を実行

Web Glue

Bots IoT

DOMINOS STORES

Key Vault

Azure Active Directory

Azure Files

SSIS FRANCHISEE

AZURE WEST EUROPE

Azure Function

KEMPSSDESSRS

IN- AND EXTERNAL DATA SOURCES

orderprocessing

O365

App Insights

indexhtml

Azure Functions Proxies

couponprocessing

Use Bindings in Your Codefunctionjson

bindings [type httpTriggerdirection inwebHookType genericJsonname req

type httpdirection outname res

type queuename eventOutputqueueName aievents1connectionAiStorageConnectiondirection out

]

public static class OrderHandler

[FunctionName(OrderWebhook)]public static async TaskltHttpResponseMessagegt Run(

[HttpTrigger] HttpRequestMessage req[Queue(aievents1 Connection = AiStorageConnection)]

IAsyncCollectorltStringgt eventOutputTraceWriter log)

logInfo($Webhook was triggered)

string jsonContent = await reqContentReadAsStringAsync()dynamic data = JsonConvertDeserializeObject(jsonContent)

await eventOutputAddAsync(JsonConvertSerializeObject(GetLogData(data)))

int orderId = PlaceOrder(data)

return reqCreateResponse(HttpStatusCodeOK new orderNumber = orderId )

bull Workflow in the cloud

bull Powerful control flow

bull Connect functions and APIs

bull Declarative definition to persist in source control and drive deployments

Logic AppsCloud APIs and platform

bull Supports over 125 built-in connectors

bull Scales to meet your needs

bull Enables rapid development

bull Extends with custom APIs and

Functions

API connections

bull Authenticate once and reuse

Big Data Solutions Decision Tree

httpsbiz-excellencecom20160830big-data-dt

Machine Learning Solutions Decision Tree

httpsbiz-excellencecom20160913machine-

learning-dt

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of your

data while making it faster to get up and running with batch

streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources so

you can run queries on exabytes of data Includes U-SQL a

new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully managed

NoSQL database service that indexes stores and queries

data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

Microsoft Big Data Portfolio

SQL Server Stretch

Business intelligence

Machine learning analytics

Insights

Azure SQL Database

SQL Server 2016

SQL Server 2016 Fast Track

Azure SQL DW

ADLS amp ADLA

DocumentDB

HDInsight

Hadoop

Analytics Platform System

Sequential Scale Out + AcrossScale Up

Key

Relational Non-relational

On

-pre

mis

es

Clo

ud

Microsoft has solutions covering

and connecting all four

quadrants ndash thatrsquos why SQL

Server is one of the most utilized

databases in the world

Azure

Data Lake Store

Azure

Blob StoragePurpose Optimized for big data analytics General purpose bulk storage

Use Cases Batch Interactive Streaming App backend backup data media storage for

streaming

Units of Storage Accounts Folders Files Accounts Containers Blobs

Structure Hierarchical File System Flat namespace

WebHDFS Implements WebHDFS No (WASB)

Security AD SAS keys

Storage Auto SharedFiles chunked Manually manage expansionFiles intact

Service State Generally Available PolyBase

just supported

Generally Available

Billing Pay for data stored and for IO Pay for data stored and for IO

Region Availability Two US regions (Other regions coming soon) All Azure Regions

ADL Store vs Blob Store

httpsdocsmicrosoftcomen-usazuredata-lake-storedata-lake-store-comparison-with-blob-storage

Want Hadoop

Need exact same on-prem

Need interactive streaming

MandatoryNo strong opinion

Azure Marketplace (IaaS)

bull Need all workloads exactly like on-

premises

bull Need 100 HortonworksClouderaMapR

Azure HDInsight

bull Most Hadoop workloads

bull Fully managed by Microsoft

bull Sell HDI + ADLS

bull Stickier to Microsoft than VMs

bull Can do interactive (Spark) and streaming

(StormSpark)

Azure Data Lake Analytics

bull Easiest experience for admin no sense of

clusters instant scale per job

bull Easiest experience for developers Visual

StudioU-SQL (C+SQL)

bull Sell ADLA + ADLS

bull Batch workloads only

Need everything exactly like on-prem

Need core projects Yes Batch is OK

Always present ADLA if NET or Visual Studio Shop

If NET or VS shop

Azure SQL DW HDInsight Hive HDInsight Spark Azure Data Lake SQL Server (IaaS)

Volume Petabytes Petabytes Petabytes Petabytes Terabytes

Security Encryption TD

Audit

ADLS Apache

Ranger

ADLS AAD Security

Groups (data)

Encryption TD

Audit

Languages T-SQL HiveQL SparkSQL HiveQL

Scala Java Python

R

U-SQL T-SQL

Extensibility No Yes NETSerDe Yes Packages Yes NET Yes NET CLR

External File

Types

ORC TXT

Parquet RCFile

ORC CSV Parquet

+ others

Parquet JSON

Hive + others

Many ORC TXT Parquet

RCFile

Admin Low-Medium Medium-High Medium-High Low High

Cost Model DWU Nodes amp VM Nodes amp VM UnitsJobs VM

Schema

Definition

Schema on Write

Polybase

Schema on Read Schema on Read Schema on Read Schema on Write

Polybase

Max DB Size 240TB Comp (5X

= 1PB)

Unlimited 64TB (64 1TB drives)

機械学習 Deep Learning 深層強化学習

画像解析

音声解析

データ分類異常検知 顧客グルーピング

数値予測売上予測 需要予測 品質管理

ラベル分類不良品分析 故障予測 チャーン分析

機械学習より強力な分析

自律学習型ロボット

自動運転車

テキストや画像等の自動生成

活用例

主に多層のニューラルネットワークを用いた手法での分析

分析のためには莫大なデータ量計算量知識スキルを要する

統計に基づいた手法での分析

そのため比較的少ないデータ量と計算量で分析を行うことができる

定義したあるべき姿に従い試行錯誤をして自ら学習を行うための分析手法である強化学習と深層学習を組み合わせた分析

Azure Machine Learning Cognitive Toolkit GPU Instance (N-Series)

マイクロソフトが提供する技術

テキストデータ機器のログデータなど

画像データ監視カメラの録画データ 機器の外観画像 顔画像など

動画データ監視カメラの録画データ 機器の稼働状況 人の作業映像など

音声データマイクからの収集データ 稼働音 室内音 人の音声など

数値データセンサーデータ 機器の制御データ計測データなど672342345

機械学習統計理論に基づいた分析手法を用いる用意するべきデータ量と処理する計算量の敷居が低め導入しやすい

Deep Learningデータ量が大きいため強力な分析手法が必要「膨大なデータ量を用意」「莫大な計算量を処理」が必要で敷居が非常に高い導入にはそれなりの覚悟が必要

Action

People

Automated Systems

Apps

Web

Mobile

Bots

Intelligence

Dashboards amp Visualizations

Cortana

Bot Framework

Cognitive Services

Power BI

Information Management

Event Hubs

Data Catalog

Data Factory

Machine Learning and Analytics

HDInsight

Stream Analytics

Intelligence

Data Lake Analytics

Machine Learning

Big Data Stores

SQL Data Warehouse

Data Lake Store

Data Sources

Apps

Sensors amp Devices

Data

Cortana Intelligence Suite

学習済み

モデル利用

学習モデル

作成

機械学習 教師あり学習

教師なし学習

強化学習

決定木

線形回帰

SVM

ロジスティック回帰

ニューラルネットワーク

クラスタリング

次元削減

Q学習

K-mean法

主成分分析

正準相関分析

ディープニューラルネットワーク

畳みこみニューラルネットワーク

再帰的ニューラルネットワーク

回帰結合ニューラルネットワーク

httpsazuremicrosoftcomen-usservicescognitive-services

わずか数行のコードで強力なアルゴリズムを持つアプリの作成が可能ですiOSAndroidWindows などのプラットフォームを問わず機能します

httpsazuremicrosoftcomja-jpservicesmachine-learning

ユーザーは簡単に予測分析ソリューションを構築デプロイ共有できます

httpswwwyoutubecomwatchv=9gDDO5ldT-4ampfeature=youtube

AI技術を利用したディープラーニング(深層学習)ツールキットです旧称「CNTK」から改名されました

ソースコード httpsgithubcomMicrosoftCNTK

SearchSpeech

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

コカコーラ誕生100周年キャンペーン

コカコーラボトルを「100歳」と認識

bull 自撮り写真をUp結果をSNS拡散

ナビタイムジャパン様

自然言語入力による路線検索BOT

bull ユーザーとの新たな接点(LINE)

bull 自然言語入力

Vision Language Knowledge

Vision Knowledge SearchSpeech Language

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

Microsoft SupportVirtual Agent

自然言語入力による自動応答サポート窓口

bull 過去QampAデータ解析に基づく回答抽出

bull 定型外はldquo人対応rdquo

UBER

登録ドライバーをスマホ経由で顔認証

VOLVO

表情からの危険予測

Search

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

アロバ様

監視カメラによる店舗内行動分析

bull 顔認識による 顧客識別

bull 表情分析

東京サマーランド様にて導入済み

HmComm様

コールセンターソリューション

bull 会話をテキスト化キーワードを解析

bull 過去QampA検索

bull 内容をCRM保存

Vision KnowledgeSpeech Language

導入事例東京サマーランド様

Video

Intelligent KioskhttpsgithubcomMicrosoftCognitive-Samples-IntelligentKiosk

ldquo(want to|request)rdquo

HoloLens

Page 8: やりたいことから考えるMicrosoft Azure 上の データストアの選び方とデータサイエンティスト向け活用法。KVSからDWHまで

様々なアプリ開発が行われています

Web amp mobile Business apps Microservice apps

Development amp test Big data amp analytics Internet of Things

Backup recovery

amp archive

High Performance

ComputingDigital media

Identity amp security

Mediaamp CDN

Integration Developerservices

Data

Analytics amp IoT

MY APP

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

①大量データの受け入れ

②リアルタイム処理データの集約

③データの蓄積

構造化非構造化文書など様々な形式での保存

④データの加工移行

⑥機械学習

⑦Hadoop解析

⑧マイクロソフト技術を用いた分散解析

⑨通常のRMSが機能を追加した企業向けRを使用した解析

⑪クラウドベースの Self-Service BI 機能

⑫機械学習の予測モデルを業務システムなどから呼び出し可能にするサービス

外部クラウドなどからのデータ取り込み

②リアルタイム処理データの加工

⑤ディープラーニング

⑩Excelを用いた可視化

Cognitive Services API

Azure Gallery

Microsoft R Server

Azure Machine Learning Studio

Cognitive Toolkit Tensor Flow

Seamlessly blend technologies

Azure Data Lake Analytics

取り扱いたいデータタイプ

Audio video images Meaningless without adding some structure

非構造データUnstructured

構造化データStructured

CSV Columnar Storage (Parquet ORC) Strict data model structure

JSON XML sensor data social media device data web logs Flexible data model structure

文書など緩やかな構造を持つ半構造データ

Semi-Structured

Azure Storage様々な文書Blobデータテーブル形式のデータが保存可能なストレージ

SQL DatabaseSQL Server 2016 と同等の機能を提供する PaaS 型データベース サービス

Azure Database for MySQLPostgreSQLPaaS 型データベース サービス のMySQLPostgreSQL版

Cosmos DBマルチデータモデルのグローバル分散DB

Azure Data Lake Storeビッグ データの分析ワークロードに対応する大規模データ格納エリア

Azure SQL Data Warehouseペタバイト単位のストレージを有した PaaS 型データ ウェアハウス サービス

IoT Hub

Event Hubs

Data Warehouse

Data Factory

App Insights Log Analytics

Monitor

CDN

Search Power BI

Blob Storage Pillars

Open amp

Interoperable

Manageable amp

Cost Efficient

Scalable amp

Performant

Secure amp

Compliant

Durable amp

Available

Machine Learning

Stream Analytics

Batch

Functions

Data Lake Analytics

Azure HDInsight

Big Data Use Cases

Ingest amp ETL Streaming Analytics amp Machine Learning Data Aggregation Presentation

QueuesReliable queues at

scale for cloud

services

ファイルを保存する際にはこの3つの選択肢があります

httpsdocsmicrosoftcomja-jpazurestoragestorage-decide-blobs-files-disks

OS

アプリ アプリ アプリ アプリ

BLOB

効率

利用

仮想マシン

+BLOB

001log

002log

003log

004log

EN

EN

EN

EN

EN

EN

PS

PS

PS

PS ENEN

001log

002log

003log

004log

disk1vhd

PS = パーティション サーバー

EN = エクステント ノード

001log

002log

003log

004log

EN

EN

EN

EN

EN

EN

PS

PS

PS

PS ENEN

Block 1 Block 4Block 3Block 2

Imagejpg

Sparse File 512 byte aligned

51

2

10

24

15

36

20

48

25

60

AZCopy ndash Robocopy for Azure StorageStorage Explorer ndash Cross platform UX

Data Movement Library on CoreCLR

Python client library

仮想マシンSQL Enterprise

DS4 の場合

8 Core 28 GB RAM

Disk 0

読み取り書き込み Disk 1

Disk 2

P30

読み取りのみ

C

システム

D

キャッシュ

永続性あり 永続性なし 永続性あり (複数ボリュームの分割やストライプの構成が可能)

Premium Storage

デフォルト作成(仮想マシン付属) ユーザーが任意に追加

OS

Page ファイル

DBMS Exe

SQL Server バッファープール拡張

httpsazuremicrosoftcomja-jpdocumentationarticlesvirtual-machines-sql-server-performance-best-practices

httpsazuremicrosoftcomja-jpdocumentationarticlesvirtual-machines-sql-server-use-premium-storage

Disk n

P30

読み取りのみ

E

SQL データ(ページ圧縮)

Temp DB

Disk 3

P30

なし

F

Transaction-

Log

Disk Cache

344GB

最大Disk IOPS

256MBsec

P30合計の

600MBsは出ない

NTFSアロケーションユニットサイズ 64KB

データベース ページ圧縮 有効

Table用Index用Temp DB用に別

ドライブに拡張可能

キャッシュ設定は添付の

URLを参照

最大Disk IOPS

200MBsec

最大Disk IOPS

200MBsec

最大Disk IOPS

200MBsec

フルマネージドの RDBMS

データベース

RDBMS

OS

Azure が管理

利用者が管理

VM上の RDBMS

ホスト OS

仮想化

フルコントロール

データベース

RDBMS

OS

仮想化

ホスト OS

容易な管理

Azure Database

SQL Server物理マシン仮想マシン

SQL Server on Azure VM仮想マシン

SQL Database Data WarehousePaaS

物理マシン仮想マシン

VM Template Market place仮想マシン

Azure Database for MySQL PostgreSQL

論理データベース

Write

Write Ack

Ack

Read

value write

Ack

特徴

無停止フェールオーバー

無停止スケールアップ(プラン変更)

自動パフォーマンスチューニング

スループット指定によるプロビジョニング

データベース トランザクション ユニット (DTU) とエラスティック データベース トランザクション ユニット (eDTU) の説明

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-what-is-a-dtu

Azure SQL Database Query Performance Insight

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-query-performance

Query Store is turned on by default for Azure SQL Database

httpsazuremicrosoftcomja-jpupdatesquery-store-on-is-the-new-default-for-azure-sql-database

Queries

SQL Database

Deeper Insight

Query

Store

SQL Database Advisor

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-advisor

Azure Portal を使用した SQL Database Advisor

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-advisor-portal

領域 改善後

新しいインデックス提案が作成されるまで 18時間以内

T-SQL文が実行されるまでのタイムラグ 即時(数分以内)

「悪い」チューニング内容に対しての検知時間 1時間以内

次のインデックス提案が行われるまでの待ち時

間即時(数分以内)

導入までの総時間 1日以内

SQL Database の脅威の検出

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-threat-detection

コントロールノード

SQLDB

Azure Blob Storage(WASB)

100 DWU lt gt 2000 DWUコントロールノード

ユーザーからの接続コンピュートとストレージの調整

コンピュートノード

コンピュートノード

コンピュートノード

コンピュートノード

SQLDB

SQLDB

SQLDB

SQLDB

Azure Blob Storage(WASB)

コントロールノード

SQLDB コントロールノード

D51

D52

D53

D60

hellip

D41

D42

D43

D50

hellip

コンピュートノード

D31

D32

D33

D40hellip

D21

D22

D23

D30

hellip

D11

D12

D13

D20

hellip

D1

D2

D3

D10

hellip

SQL DB

Azure Blob Storage(WASB)

コントロールノード

SQLDB コントロールノード

コンピュートノード

D51

D52

D53

D60

hellipコンピュートノード

D41

D42

D43

D50

hellip

コンピュートノード

D31

D32

D33

D40hellip

コンピュートノード

D21

D22

D23

D30

hellip

コンピュートノード

D11

D12

D13

D20

hellip

コンピュートノード

D1

D2

D3

D10

hellip

SQL DB

SQL DB

SQL DB

SQL DB

SQL DB

SQL DB

54

データ無制限のストレージ と 分析プラットフォーム

無制限のストレージ(エクサバイト超)

ネイティブ HDFS に基づく実装

HDInsight Hortonworks Cloudera との統合

全ての HDFS 準拠プロジェクトとの親和性

(Spark Storm Flume Sqoop Kafka R etc)

Azure Data Lake Store- Hadoop Distributed File System (HDFS) For The Cloud

構造化データと非構造化データに対するデータ処理

宣言型の SQL 文 とカスタムコード (UDF UDT UDO hellip )

ローカルとリモートに対するクエリ

バッチ型インタラクティブ型ストリーミング型(in the future)

Azure Data Lake Analytics- New Query Language U-SQL

ETL パイプライン

スキーマの定義Relational

LOB

Applications

Schema-on-Write

直ちに必要でないデータは全て捨てられるかアーカイブされている

無限に保存 分析 結果の参照

あらゆるデータ

ソースからの

データ収集

Schema-on-Read

全データ取込要件にかかわらず

全データ格納そのままのフォーマットでスキーマ定義なし

分析実行Hadoopのような分析エンジンの利用

インタラクティブクエリ

バッチ型クエリ

機械学習

データウェアハウス

リアルタイム分析

リレーショナル

デバイス

観察仮説集まったデータから仮説をたてる

58

無制限のサイズ

ギガバイトからペタバイトのサイズの単一ファイル

巨大なスループットを必要とする大規模な分析システムを実現

あらゆるスループットに自動最適化

ペタバイト超のデータの並列コンピューティング

同一リージョン内に3つのコピーを自動的に作成

インストールやチューニングは不要

数分で稼働開始

必要に応じてどのようなサイズにもスケールアウト可能

データウェアハウスデータレイクストア

非構造Rawデータ(ログ文書バイナリ)

Tier 1

MachineLearning

Data LakeAnalytics HDInsight

目的に合わせた

データウェハウス分析処理

(売上分析経営分析)

データウェハウスに格納しきれなかった

過去データ関連データを連結して分析

ハードウェアの性能限界によって行えなかった処理量の分析を実現

ディスクコンピューティング

非構造データの

分析処理

(画像音声映像など)

広範囲のデータを利用した

機械学習統計解析処理

などによる高度分析

SQL Data Warehouse

Data LakeAnalytics HDInsight

Data LakeAnalytics

構造化データ半構造データ

分析用に加工(csv等)

Tier 2

アーカイブデータTier 2 DWHのアーカイブ

Tier 3

Analytics

Storage

HDInsight(ldquomanaged clustersrdquo)

Azure Data Lake Analytics

Azure Data Lake Store

Azure Data Lake

LOB Applications

SocialDevices

Clickstream

Sensors

Video

Web

Relational

HDInsight

Data Lake Analytics

Machine Learning

Spark

R

Azure Data Lake Store

Azure Data Lake Store

Azure Storage Blob

外部表Azure SQLData Warehouse

HDInsight

開発者は OSS に馴染んでいる Java Eclipse Hive etc

マネージド Hadoop クラスタにおいてカスタマイズ管理が可能でフレキシビリティがある

Azure Data Lake Analytics

C SQL amp PowerShell のスキル

経験を活かせる

利便性効率性自動スケール

ジョブ実行の仕組みが提供される

(New)

(New)

一般的なパターン

処理読み込み 保存

INSERT

OUTPUT

OUTPUT

SELECThellip

FROMhellip

WHEREhellip

+

PythonR

EXTRACT

EXTRACT

SELECT

SELECT

Azure

Data

Lake

Azure

Data

Lake

Azure

SQL

DB

Azure

Storage

Blobs

Azure

Storage

Blobs

RowSet RowSet

Cognitive Services

REFERENCE ASSEMBLY WebLogExtASM

rs =

EXTRACT

UserID string

Start DateTime

End DateTime

Region string

SitesVisited string

PagesVisited string

FROM ldquoLogsWebLogRecordstxtrdquo

USING WebLogExtractor ()

result = SELECT UserID

(EndSubtract(Start))TotalSeconds AS Duration

FROM rs ORDER BY Duration DESC FETCH 10

OUTPUT result TO ldquoLogsResultstop10tsv

USING OutputterTsv()

bull 型定義は C の型定義と同じ

bull データをファイルから抽出読み込み

するときにスキーマが必要

Data Lake Store 内 のファイル

独自形式を解析するカスタム関数

C の関数

行セット(中間テーブルの概念

に近い)

TSV形式で書き込む関数

U-SQL ジョブのサブミットAzure PortalやVisual StudioのAzure Data Lake ToolsからU-SQLジョブをサブミット可能

67

進捗

統計情報

従来型の処理分析 Azure Data Lake を中心とした処理分析

Business apps

Custom apps

Sensors and devices

ADL StorePeople

非構造化データも含めてあらゆるデータを格納

Azure SQL DW

Azure AD

Power BI

ADF

ADL Analytics

bull 処理分析業務の大半はデータ準備作業が占めるbull 処理分析業務に手間時間が必要

Business apps

Custom apps

Sensors and devices

HDInsight

ユーザー管理認証

データの連携

Power BI

File System

Database

Database

Hadoop

DWH

Data Mart

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

①大量データの受け入れ

②リアルタイム処理データの集約

③データの蓄積

構造化非構造化文書など様々な形式での保存

④データの加工移行

⑥機械学習

⑦Hadoop解析

⑧マイクロソフト技術を用いた分散解析

⑨通常のRMSが機能を追加した企業向けRを使用した解析

⑪クラウドベースの Self-Service BI 機能

⑫機械学習の予測モデルを業務システムなどから呼び出し可能にするサービス

外部クラウドなどからのデータ取り込み

②リアルタイム処理データの加工

⑤ディープラーニング

⑩Excelを用いた可視化

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

リアルタイム

バッチ

Data Factory Tools for Visual Studio

Azure Portal

Azure TableStorage

(Web ログレコード)

Data Factory

HDInsight

(Web ログをファイルにして

バッチ処理で集計)

SQL Database

(集計データをDB テーブルに格納)

Power BI

社内システム

DataManagement

Gateway

SQL Database

Data Warehouse

Blob Storage

Table Storage

httpportalazurecom

接続

メッセージ作成

メッセージ送信

var cs = ldquo接続文字列rdquovar path = ldquoイベントハブ名rdquovar eh = EventHubClientCreateFromConnectionString(cs path)

var msg = new user = thisUserIdentityNamelevel = leveltimestamp = demoTimestamp

var json = JsonConvertSerializeObject(msg)

ehSend(new EventData(EncodingUTF8GetBytes(json)))

EventProcessorHostを使う

bull

bull

bull

Functionsを使う

bull

bull

IEventProcessorProcessEventAsync(msg)

IEventProcessorProcessEventAsync(msg)

Run(string msg)

Azure azure-sdk-for-python

Point of Service Devices

Self CheckoutStations

Kiosks

Smart Phones

SlatesTablets

PCsLaptops

Servers

Digital Signs

DiagnosticEquipmentRemote Medical

MonitorsLogic

Controllers

SpecializedDevicesThin

Clients

Handhelds

Security

POS Terminals

AutomationDevices

VendingMachines

Kinect

ATM

Stream Analytics

入力 出力クエリデータストリーム

参照

bull ldquo入力rdquoldquo出力rdquoをクリックしそれぞれ作成

bull ldquoクエリrdquoをクリックしクエリを定義bull 作業が終わったらldquo開始rdquoで実

行開始

SELECT

INTO

FROM

SELECT user level AS SATLevel timestamp

INTO

FROM

デバイス接続性とデバイス管理およびブローカーサービス

データ管理と高度な分析 情報活用業務の生産性とプロセスの最適化

IoT Agent Gateway

予兆原因の学習モデル

ダッシュボード

参照ERPbull 顧客bull 設備bull 担当者

Notification Hubs

通知

予兆イベント

メンテ方法の推奨

bull ヘルス状態bull インシデント管理bull 対応のディスパッチ

現地技術要員のモバイルデバイス

オペレーションセンター

bull イベント ドア開閉軸アライメントキャビン速度モーター温度など

bull アラーム 故障アラームエラーコードなど

httpisstkeazurewebsitesnet

Event Hub

Stream Analytics

Azure ML

制御機器とセンサーのデータ

マシンデータの蓄積

メンテナンス方法の学習モデル

Machine Learning

Blob Storage

セルフサービス分析

Power BI

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce

cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-

system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of

your data while making it faster to get up and running with

batch streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources

so you can run queries on exabytes of data Includes U-

SQL a new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully

managed NoSQL database service that indexes stores and

queries data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

What do all of these have in common

They can all use Azure Analysis Services

Azure Analysis Services

Azure Analysis Services

BI semantic model

Business logic amp metrics

Data modeling

Security

Azure Analysis Services

Lifecycle management

In-memory cache

On-premises

Cloud

Data sources

SQL Database

SQL Data Warehouse

Other data sources

SQL Server

Analytics platform

system

Other data sources

On-premises

Cloud

Client tools

Power BI

Excel

Third party BI tools

Power BI Desktop

Rich semantic modelling

locatioidentifier

identifiertype

fieldidentifier

numberofunitssoldtodate

remaningnumber

Numberofuntissoldtoday

receivedback

productidentifier

descriptionline1

descriptionline2

qtyafterqtysales

familyidentifier

Source DataComplex raw data optimized for processing

Semantic ModelRich business user friendly semantic model

Product Id

Product Name

Product Description

Category

Category Id

Category Name

Category Description

Sub Category

Product Id

Shelf qty

Return qty

Order qty

Sale qty

Cloud Data

On-Premises

Data

Azure Analysis Services

Lightning fast queries

データ管理をきっかけに処理を実行

Web Glue

Bots IoT

DOMINOS STORES

Key Vault

Azure Active Directory

Azure Files

SSIS FRANCHISEE

AZURE WEST EUROPE

Azure Function

KEMPSSDESSRS

IN- AND EXTERNAL DATA SOURCES

orderprocessing

O365

App Insights

indexhtml

Azure Functions Proxies

couponprocessing

Use Bindings in Your Codefunctionjson

bindings [type httpTriggerdirection inwebHookType genericJsonname req

type httpdirection outname res

type queuename eventOutputqueueName aievents1connectionAiStorageConnectiondirection out

]

public static class OrderHandler

[FunctionName(OrderWebhook)]public static async TaskltHttpResponseMessagegt Run(

[HttpTrigger] HttpRequestMessage req[Queue(aievents1 Connection = AiStorageConnection)]

IAsyncCollectorltStringgt eventOutputTraceWriter log)

logInfo($Webhook was triggered)

string jsonContent = await reqContentReadAsStringAsync()dynamic data = JsonConvertDeserializeObject(jsonContent)

await eventOutputAddAsync(JsonConvertSerializeObject(GetLogData(data)))

int orderId = PlaceOrder(data)

return reqCreateResponse(HttpStatusCodeOK new orderNumber = orderId )

bull Workflow in the cloud

bull Powerful control flow

bull Connect functions and APIs

bull Declarative definition to persist in source control and drive deployments

Logic AppsCloud APIs and platform

bull Supports over 125 built-in connectors

bull Scales to meet your needs

bull Enables rapid development

bull Extends with custom APIs and

Functions

API connections

bull Authenticate once and reuse

Big Data Solutions Decision Tree

httpsbiz-excellencecom20160830big-data-dt

Machine Learning Solutions Decision Tree

httpsbiz-excellencecom20160913machine-

learning-dt

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of your

data while making it faster to get up and running with batch

streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources so

you can run queries on exabytes of data Includes U-SQL a

new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully managed

NoSQL database service that indexes stores and queries

data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

Microsoft Big Data Portfolio

SQL Server Stretch

Business intelligence

Machine learning analytics

Insights

Azure SQL Database

SQL Server 2016

SQL Server 2016 Fast Track

Azure SQL DW

ADLS amp ADLA

DocumentDB

HDInsight

Hadoop

Analytics Platform System

Sequential Scale Out + AcrossScale Up

Key

Relational Non-relational

On

-pre

mis

es

Clo

ud

Microsoft has solutions covering

and connecting all four

quadrants ndash thatrsquos why SQL

Server is one of the most utilized

databases in the world

Azure

Data Lake Store

Azure

Blob StoragePurpose Optimized for big data analytics General purpose bulk storage

Use Cases Batch Interactive Streaming App backend backup data media storage for

streaming

Units of Storage Accounts Folders Files Accounts Containers Blobs

Structure Hierarchical File System Flat namespace

WebHDFS Implements WebHDFS No (WASB)

Security AD SAS keys

Storage Auto SharedFiles chunked Manually manage expansionFiles intact

Service State Generally Available PolyBase

just supported

Generally Available

Billing Pay for data stored and for IO Pay for data stored and for IO

Region Availability Two US regions (Other regions coming soon) All Azure Regions

ADL Store vs Blob Store

httpsdocsmicrosoftcomen-usazuredata-lake-storedata-lake-store-comparison-with-blob-storage

Want Hadoop

Need exact same on-prem

Need interactive streaming

MandatoryNo strong opinion

Azure Marketplace (IaaS)

bull Need all workloads exactly like on-

premises

bull Need 100 HortonworksClouderaMapR

Azure HDInsight

bull Most Hadoop workloads

bull Fully managed by Microsoft

bull Sell HDI + ADLS

bull Stickier to Microsoft than VMs

bull Can do interactive (Spark) and streaming

(StormSpark)

Azure Data Lake Analytics

bull Easiest experience for admin no sense of

clusters instant scale per job

bull Easiest experience for developers Visual

StudioU-SQL (C+SQL)

bull Sell ADLA + ADLS

bull Batch workloads only

Need everything exactly like on-prem

Need core projects Yes Batch is OK

Always present ADLA if NET or Visual Studio Shop

If NET or VS shop

Azure SQL DW HDInsight Hive HDInsight Spark Azure Data Lake SQL Server (IaaS)

Volume Petabytes Petabytes Petabytes Petabytes Terabytes

Security Encryption TD

Audit

ADLS Apache

Ranger

ADLS AAD Security

Groups (data)

Encryption TD

Audit

Languages T-SQL HiveQL SparkSQL HiveQL

Scala Java Python

R

U-SQL T-SQL

Extensibility No Yes NETSerDe Yes Packages Yes NET Yes NET CLR

External File

Types

ORC TXT

Parquet RCFile

ORC CSV Parquet

+ others

Parquet JSON

Hive + others

Many ORC TXT Parquet

RCFile

Admin Low-Medium Medium-High Medium-High Low High

Cost Model DWU Nodes amp VM Nodes amp VM UnitsJobs VM

Schema

Definition

Schema on Write

Polybase

Schema on Read Schema on Read Schema on Read Schema on Write

Polybase

Max DB Size 240TB Comp (5X

= 1PB)

Unlimited 64TB (64 1TB drives)

機械学習 Deep Learning 深層強化学習

画像解析

音声解析

データ分類異常検知 顧客グルーピング

数値予測売上予測 需要予測 品質管理

ラベル分類不良品分析 故障予測 チャーン分析

機械学習より強力な分析

自律学習型ロボット

自動運転車

テキストや画像等の自動生成

活用例

主に多層のニューラルネットワークを用いた手法での分析

分析のためには莫大なデータ量計算量知識スキルを要する

統計に基づいた手法での分析

そのため比較的少ないデータ量と計算量で分析を行うことができる

定義したあるべき姿に従い試行錯誤をして自ら学習を行うための分析手法である強化学習と深層学習を組み合わせた分析

Azure Machine Learning Cognitive Toolkit GPU Instance (N-Series)

マイクロソフトが提供する技術

テキストデータ機器のログデータなど

画像データ監視カメラの録画データ 機器の外観画像 顔画像など

動画データ監視カメラの録画データ 機器の稼働状況 人の作業映像など

音声データマイクからの収集データ 稼働音 室内音 人の音声など

数値データセンサーデータ 機器の制御データ計測データなど672342345

機械学習統計理論に基づいた分析手法を用いる用意するべきデータ量と処理する計算量の敷居が低め導入しやすい

Deep Learningデータ量が大きいため強力な分析手法が必要「膨大なデータ量を用意」「莫大な計算量を処理」が必要で敷居が非常に高い導入にはそれなりの覚悟が必要

Action

People

Automated Systems

Apps

Web

Mobile

Bots

Intelligence

Dashboards amp Visualizations

Cortana

Bot Framework

Cognitive Services

Power BI

Information Management

Event Hubs

Data Catalog

Data Factory

Machine Learning and Analytics

HDInsight

Stream Analytics

Intelligence

Data Lake Analytics

Machine Learning

Big Data Stores

SQL Data Warehouse

Data Lake Store

Data Sources

Apps

Sensors amp Devices

Data

Cortana Intelligence Suite

学習済み

モデル利用

学習モデル

作成

機械学習 教師あり学習

教師なし学習

強化学習

決定木

線形回帰

SVM

ロジスティック回帰

ニューラルネットワーク

クラスタリング

次元削減

Q学習

K-mean法

主成分分析

正準相関分析

ディープニューラルネットワーク

畳みこみニューラルネットワーク

再帰的ニューラルネットワーク

回帰結合ニューラルネットワーク

httpsazuremicrosoftcomen-usservicescognitive-services

わずか数行のコードで強力なアルゴリズムを持つアプリの作成が可能ですiOSAndroidWindows などのプラットフォームを問わず機能します

httpsazuremicrosoftcomja-jpservicesmachine-learning

ユーザーは簡単に予測分析ソリューションを構築デプロイ共有できます

httpswwwyoutubecomwatchv=9gDDO5ldT-4ampfeature=youtube

AI技術を利用したディープラーニング(深層学習)ツールキットです旧称「CNTK」から改名されました

ソースコード httpsgithubcomMicrosoftCNTK

SearchSpeech

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

コカコーラ誕生100周年キャンペーン

コカコーラボトルを「100歳」と認識

bull 自撮り写真をUp結果をSNS拡散

ナビタイムジャパン様

自然言語入力による路線検索BOT

bull ユーザーとの新たな接点(LINE)

bull 自然言語入力

Vision Language Knowledge

Vision Knowledge SearchSpeech Language

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

Microsoft SupportVirtual Agent

自然言語入力による自動応答サポート窓口

bull 過去QampAデータ解析に基づく回答抽出

bull 定型外はldquo人対応rdquo

UBER

登録ドライバーをスマホ経由で顔認証

VOLVO

表情からの危険予測

Search

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

アロバ様

監視カメラによる店舗内行動分析

bull 顔認識による 顧客識別

bull 表情分析

東京サマーランド様にて導入済み

HmComm様

コールセンターソリューション

bull 会話をテキスト化キーワードを解析

bull 過去QampA検索

bull 内容をCRM保存

Vision KnowledgeSpeech Language

導入事例東京サマーランド様

Video

Intelligent KioskhttpsgithubcomMicrosoftCognitive-Samples-IntelligentKiosk

ldquo(want to|request)rdquo

HoloLens

Page 9: やりたいことから考えるMicrosoft Azure 上の データストアの選び方とデータサイエンティスト向け活用法。KVSからDWHまで

Identity amp security

Mediaamp CDN

Integration Developerservices

Data

Analytics amp IoT

MY APP

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

①大量データの受け入れ

②リアルタイム処理データの集約

③データの蓄積

構造化非構造化文書など様々な形式での保存

④データの加工移行

⑥機械学習

⑦Hadoop解析

⑧マイクロソフト技術を用いた分散解析

⑨通常のRMSが機能を追加した企業向けRを使用した解析

⑪クラウドベースの Self-Service BI 機能

⑫機械学習の予測モデルを業務システムなどから呼び出し可能にするサービス

外部クラウドなどからのデータ取り込み

②リアルタイム処理データの加工

⑤ディープラーニング

⑩Excelを用いた可視化

Cognitive Services API

Azure Gallery

Microsoft R Server

Azure Machine Learning Studio

Cognitive Toolkit Tensor Flow

Seamlessly blend technologies

Azure Data Lake Analytics

取り扱いたいデータタイプ

Audio video images Meaningless without adding some structure

非構造データUnstructured

構造化データStructured

CSV Columnar Storage (Parquet ORC) Strict data model structure

JSON XML sensor data social media device data web logs Flexible data model structure

文書など緩やかな構造を持つ半構造データ

Semi-Structured

Azure Storage様々な文書Blobデータテーブル形式のデータが保存可能なストレージ

SQL DatabaseSQL Server 2016 と同等の機能を提供する PaaS 型データベース サービス

Azure Database for MySQLPostgreSQLPaaS 型データベース サービス のMySQLPostgreSQL版

Cosmos DBマルチデータモデルのグローバル分散DB

Azure Data Lake Storeビッグ データの分析ワークロードに対応する大規模データ格納エリア

Azure SQL Data Warehouseペタバイト単位のストレージを有した PaaS 型データ ウェアハウス サービス

IoT Hub

Event Hubs

Data Warehouse

Data Factory

App Insights Log Analytics

Monitor

CDN

Search Power BI

Blob Storage Pillars

Open amp

Interoperable

Manageable amp

Cost Efficient

Scalable amp

Performant

Secure amp

Compliant

Durable amp

Available

Machine Learning

Stream Analytics

Batch

Functions

Data Lake Analytics

Azure HDInsight

Big Data Use Cases

Ingest amp ETL Streaming Analytics amp Machine Learning Data Aggregation Presentation

QueuesReliable queues at

scale for cloud

services

ファイルを保存する際にはこの3つの選択肢があります

httpsdocsmicrosoftcomja-jpazurestoragestorage-decide-blobs-files-disks

OS

アプリ アプリ アプリ アプリ

BLOB

効率

利用

仮想マシン

+BLOB

001log

002log

003log

004log

EN

EN

EN

EN

EN

EN

PS

PS

PS

PS ENEN

001log

002log

003log

004log

disk1vhd

PS = パーティション サーバー

EN = エクステント ノード

001log

002log

003log

004log

EN

EN

EN

EN

EN

EN

PS

PS

PS

PS ENEN

Block 1 Block 4Block 3Block 2

Imagejpg

Sparse File 512 byte aligned

51

2

10

24

15

36

20

48

25

60

AZCopy ndash Robocopy for Azure StorageStorage Explorer ndash Cross platform UX

Data Movement Library on CoreCLR

Python client library

仮想マシンSQL Enterprise

DS4 の場合

8 Core 28 GB RAM

Disk 0

読み取り書き込み Disk 1

Disk 2

P30

読み取りのみ

C

システム

D

キャッシュ

永続性あり 永続性なし 永続性あり (複数ボリュームの分割やストライプの構成が可能)

Premium Storage

デフォルト作成(仮想マシン付属) ユーザーが任意に追加

OS

Page ファイル

DBMS Exe

SQL Server バッファープール拡張

httpsazuremicrosoftcomja-jpdocumentationarticlesvirtual-machines-sql-server-performance-best-practices

httpsazuremicrosoftcomja-jpdocumentationarticlesvirtual-machines-sql-server-use-premium-storage

Disk n

P30

読み取りのみ

E

SQL データ(ページ圧縮)

Temp DB

Disk 3

P30

なし

F

Transaction-

Log

Disk Cache

344GB

最大Disk IOPS

256MBsec

P30合計の

600MBsは出ない

NTFSアロケーションユニットサイズ 64KB

データベース ページ圧縮 有効

Table用Index用Temp DB用に別

ドライブに拡張可能

キャッシュ設定は添付の

URLを参照

最大Disk IOPS

200MBsec

最大Disk IOPS

200MBsec

最大Disk IOPS

200MBsec

フルマネージドの RDBMS

データベース

RDBMS

OS

Azure が管理

利用者が管理

VM上の RDBMS

ホスト OS

仮想化

フルコントロール

データベース

RDBMS

OS

仮想化

ホスト OS

容易な管理

Azure Database

SQL Server物理マシン仮想マシン

SQL Server on Azure VM仮想マシン

SQL Database Data WarehousePaaS

物理マシン仮想マシン

VM Template Market place仮想マシン

Azure Database for MySQL PostgreSQL

論理データベース

Write

Write Ack

Ack

Read

value write

Ack

特徴

無停止フェールオーバー

無停止スケールアップ(プラン変更)

自動パフォーマンスチューニング

スループット指定によるプロビジョニング

データベース トランザクション ユニット (DTU) とエラスティック データベース トランザクション ユニット (eDTU) の説明

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-what-is-a-dtu

Azure SQL Database Query Performance Insight

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-query-performance

Query Store is turned on by default for Azure SQL Database

httpsazuremicrosoftcomja-jpupdatesquery-store-on-is-the-new-default-for-azure-sql-database

Queries

SQL Database

Deeper Insight

Query

Store

SQL Database Advisor

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-advisor

Azure Portal を使用した SQL Database Advisor

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-advisor-portal

領域 改善後

新しいインデックス提案が作成されるまで 18時間以内

T-SQL文が実行されるまでのタイムラグ 即時(数分以内)

「悪い」チューニング内容に対しての検知時間 1時間以内

次のインデックス提案が行われるまでの待ち時

間即時(数分以内)

導入までの総時間 1日以内

SQL Database の脅威の検出

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-threat-detection

コントロールノード

SQLDB

Azure Blob Storage(WASB)

100 DWU lt gt 2000 DWUコントロールノード

ユーザーからの接続コンピュートとストレージの調整

コンピュートノード

コンピュートノード

コンピュートノード

コンピュートノード

SQLDB

SQLDB

SQLDB

SQLDB

Azure Blob Storage(WASB)

コントロールノード

SQLDB コントロールノード

D51

D52

D53

D60

hellip

D41

D42

D43

D50

hellip

コンピュートノード

D31

D32

D33

D40hellip

D21

D22

D23

D30

hellip

D11

D12

D13

D20

hellip

D1

D2

D3

D10

hellip

SQL DB

Azure Blob Storage(WASB)

コントロールノード

SQLDB コントロールノード

コンピュートノード

D51

D52

D53

D60

hellipコンピュートノード

D41

D42

D43

D50

hellip

コンピュートノード

D31

D32

D33

D40hellip

コンピュートノード

D21

D22

D23

D30

hellip

コンピュートノード

D11

D12

D13

D20

hellip

コンピュートノード

D1

D2

D3

D10

hellip

SQL DB

SQL DB

SQL DB

SQL DB

SQL DB

SQL DB

54

データ無制限のストレージ と 分析プラットフォーム

無制限のストレージ(エクサバイト超)

ネイティブ HDFS に基づく実装

HDInsight Hortonworks Cloudera との統合

全ての HDFS 準拠プロジェクトとの親和性

(Spark Storm Flume Sqoop Kafka R etc)

Azure Data Lake Store- Hadoop Distributed File System (HDFS) For The Cloud

構造化データと非構造化データに対するデータ処理

宣言型の SQL 文 とカスタムコード (UDF UDT UDO hellip )

ローカルとリモートに対するクエリ

バッチ型インタラクティブ型ストリーミング型(in the future)

Azure Data Lake Analytics- New Query Language U-SQL

ETL パイプライン

スキーマの定義Relational

LOB

Applications

Schema-on-Write

直ちに必要でないデータは全て捨てられるかアーカイブされている

無限に保存 分析 結果の参照

あらゆるデータ

ソースからの

データ収集

Schema-on-Read

全データ取込要件にかかわらず

全データ格納そのままのフォーマットでスキーマ定義なし

分析実行Hadoopのような分析エンジンの利用

インタラクティブクエリ

バッチ型クエリ

機械学習

データウェアハウス

リアルタイム分析

リレーショナル

デバイス

観察仮説集まったデータから仮説をたてる

58

無制限のサイズ

ギガバイトからペタバイトのサイズの単一ファイル

巨大なスループットを必要とする大規模な分析システムを実現

あらゆるスループットに自動最適化

ペタバイト超のデータの並列コンピューティング

同一リージョン内に3つのコピーを自動的に作成

インストールやチューニングは不要

数分で稼働開始

必要に応じてどのようなサイズにもスケールアウト可能

データウェアハウスデータレイクストア

非構造Rawデータ(ログ文書バイナリ)

Tier 1

MachineLearning

Data LakeAnalytics HDInsight

目的に合わせた

データウェハウス分析処理

(売上分析経営分析)

データウェハウスに格納しきれなかった

過去データ関連データを連結して分析

ハードウェアの性能限界によって行えなかった処理量の分析を実現

ディスクコンピューティング

非構造データの

分析処理

(画像音声映像など)

広範囲のデータを利用した

機械学習統計解析処理

などによる高度分析

SQL Data Warehouse

Data LakeAnalytics HDInsight

Data LakeAnalytics

構造化データ半構造データ

分析用に加工(csv等)

Tier 2

アーカイブデータTier 2 DWHのアーカイブ

Tier 3

Analytics

Storage

HDInsight(ldquomanaged clustersrdquo)

Azure Data Lake Analytics

Azure Data Lake Store

Azure Data Lake

LOB Applications

SocialDevices

Clickstream

Sensors

Video

Web

Relational

HDInsight

Data Lake Analytics

Machine Learning

Spark

R

Azure Data Lake Store

Azure Data Lake Store

Azure Storage Blob

外部表Azure SQLData Warehouse

HDInsight

開発者は OSS に馴染んでいる Java Eclipse Hive etc

マネージド Hadoop クラスタにおいてカスタマイズ管理が可能でフレキシビリティがある

Azure Data Lake Analytics

C SQL amp PowerShell のスキル

経験を活かせる

利便性効率性自動スケール

ジョブ実行の仕組みが提供される

(New)

(New)

一般的なパターン

処理読み込み 保存

INSERT

OUTPUT

OUTPUT

SELECThellip

FROMhellip

WHEREhellip

+

PythonR

EXTRACT

EXTRACT

SELECT

SELECT

Azure

Data

Lake

Azure

Data

Lake

Azure

SQL

DB

Azure

Storage

Blobs

Azure

Storage

Blobs

RowSet RowSet

Cognitive Services

REFERENCE ASSEMBLY WebLogExtASM

rs =

EXTRACT

UserID string

Start DateTime

End DateTime

Region string

SitesVisited string

PagesVisited string

FROM ldquoLogsWebLogRecordstxtrdquo

USING WebLogExtractor ()

result = SELECT UserID

(EndSubtract(Start))TotalSeconds AS Duration

FROM rs ORDER BY Duration DESC FETCH 10

OUTPUT result TO ldquoLogsResultstop10tsv

USING OutputterTsv()

bull 型定義は C の型定義と同じ

bull データをファイルから抽出読み込み

するときにスキーマが必要

Data Lake Store 内 のファイル

独自形式を解析するカスタム関数

C の関数

行セット(中間テーブルの概念

に近い)

TSV形式で書き込む関数

U-SQL ジョブのサブミットAzure PortalやVisual StudioのAzure Data Lake ToolsからU-SQLジョブをサブミット可能

67

進捗

統計情報

従来型の処理分析 Azure Data Lake を中心とした処理分析

Business apps

Custom apps

Sensors and devices

ADL StorePeople

非構造化データも含めてあらゆるデータを格納

Azure SQL DW

Azure AD

Power BI

ADF

ADL Analytics

bull 処理分析業務の大半はデータ準備作業が占めるbull 処理分析業務に手間時間が必要

Business apps

Custom apps

Sensors and devices

HDInsight

ユーザー管理認証

データの連携

Power BI

File System

Database

Database

Hadoop

DWH

Data Mart

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

①大量データの受け入れ

②リアルタイム処理データの集約

③データの蓄積

構造化非構造化文書など様々な形式での保存

④データの加工移行

⑥機械学習

⑦Hadoop解析

⑧マイクロソフト技術を用いた分散解析

⑨通常のRMSが機能を追加した企業向けRを使用した解析

⑪クラウドベースの Self-Service BI 機能

⑫機械学習の予測モデルを業務システムなどから呼び出し可能にするサービス

外部クラウドなどからのデータ取り込み

②リアルタイム処理データの加工

⑤ディープラーニング

⑩Excelを用いた可視化

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

リアルタイム

バッチ

Data Factory Tools for Visual Studio

Azure Portal

Azure TableStorage

(Web ログレコード)

Data Factory

HDInsight

(Web ログをファイルにして

バッチ処理で集計)

SQL Database

(集計データをDB テーブルに格納)

Power BI

社内システム

DataManagement

Gateway

SQL Database

Data Warehouse

Blob Storage

Table Storage

httpportalazurecom

接続

メッセージ作成

メッセージ送信

var cs = ldquo接続文字列rdquovar path = ldquoイベントハブ名rdquovar eh = EventHubClientCreateFromConnectionString(cs path)

var msg = new user = thisUserIdentityNamelevel = leveltimestamp = demoTimestamp

var json = JsonConvertSerializeObject(msg)

ehSend(new EventData(EncodingUTF8GetBytes(json)))

EventProcessorHostを使う

bull

bull

bull

Functionsを使う

bull

bull

IEventProcessorProcessEventAsync(msg)

IEventProcessorProcessEventAsync(msg)

Run(string msg)

Azure azure-sdk-for-python

Point of Service Devices

Self CheckoutStations

Kiosks

Smart Phones

SlatesTablets

PCsLaptops

Servers

Digital Signs

DiagnosticEquipmentRemote Medical

MonitorsLogic

Controllers

SpecializedDevicesThin

Clients

Handhelds

Security

POS Terminals

AutomationDevices

VendingMachines

Kinect

ATM

Stream Analytics

入力 出力クエリデータストリーム

参照

bull ldquo入力rdquoldquo出力rdquoをクリックしそれぞれ作成

bull ldquoクエリrdquoをクリックしクエリを定義bull 作業が終わったらldquo開始rdquoで実

行開始

SELECT

INTO

FROM

SELECT user level AS SATLevel timestamp

INTO

FROM

デバイス接続性とデバイス管理およびブローカーサービス

データ管理と高度な分析 情報活用業務の生産性とプロセスの最適化

IoT Agent Gateway

予兆原因の学習モデル

ダッシュボード

参照ERPbull 顧客bull 設備bull 担当者

Notification Hubs

通知

予兆イベント

メンテ方法の推奨

bull ヘルス状態bull インシデント管理bull 対応のディスパッチ

現地技術要員のモバイルデバイス

オペレーションセンター

bull イベント ドア開閉軸アライメントキャビン速度モーター温度など

bull アラーム 故障アラームエラーコードなど

httpisstkeazurewebsitesnet

Event Hub

Stream Analytics

Azure ML

制御機器とセンサーのデータ

マシンデータの蓄積

メンテナンス方法の学習モデル

Machine Learning

Blob Storage

セルフサービス分析

Power BI

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce

cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-

system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of

your data while making it faster to get up and running with

batch streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources

so you can run queries on exabytes of data Includes U-

SQL a new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully

managed NoSQL database service that indexes stores and

queries data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

What do all of these have in common

They can all use Azure Analysis Services

Azure Analysis Services

Azure Analysis Services

BI semantic model

Business logic amp metrics

Data modeling

Security

Azure Analysis Services

Lifecycle management

In-memory cache

On-premises

Cloud

Data sources

SQL Database

SQL Data Warehouse

Other data sources

SQL Server

Analytics platform

system

Other data sources

On-premises

Cloud

Client tools

Power BI

Excel

Third party BI tools

Power BI Desktop

Rich semantic modelling

locatioidentifier

identifiertype

fieldidentifier

numberofunitssoldtodate

remaningnumber

Numberofuntissoldtoday

receivedback

productidentifier

descriptionline1

descriptionline2

qtyafterqtysales

familyidentifier

Source DataComplex raw data optimized for processing

Semantic ModelRich business user friendly semantic model

Product Id

Product Name

Product Description

Category

Category Id

Category Name

Category Description

Sub Category

Product Id

Shelf qty

Return qty

Order qty

Sale qty

Cloud Data

On-Premises

Data

Azure Analysis Services

Lightning fast queries

データ管理をきっかけに処理を実行

Web Glue

Bots IoT

DOMINOS STORES

Key Vault

Azure Active Directory

Azure Files

SSIS FRANCHISEE

AZURE WEST EUROPE

Azure Function

KEMPSSDESSRS

IN- AND EXTERNAL DATA SOURCES

orderprocessing

O365

App Insights

indexhtml

Azure Functions Proxies

couponprocessing

Use Bindings in Your Codefunctionjson

bindings [type httpTriggerdirection inwebHookType genericJsonname req

type httpdirection outname res

type queuename eventOutputqueueName aievents1connectionAiStorageConnectiondirection out

]

public static class OrderHandler

[FunctionName(OrderWebhook)]public static async TaskltHttpResponseMessagegt Run(

[HttpTrigger] HttpRequestMessage req[Queue(aievents1 Connection = AiStorageConnection)]

IAsyncCollectorltStringgt eventOutputTraceWriter log)

logInfo($Webhook was triggered)

string jsonContent = await reqContentReadAsStringAsync()dynamic data = JsonConvertDeserializeObject(jsonContent)

await eventOutputAddAsync(JsonConvertSerializeObject(GetLogData(data)))

int orderId = PlaceOrder(data)

return reqCreateResponse(HttpStatusCodeOK new orderNumber = orderId )

bull Workflow in the cloud

bull Powerful control flow

bull Connect functions and APIs

bull Declarative definition to persist in source control and drive deployments

Logic AppsCloud APIs and platform

bull Supports over 125 built-in connectors

bull Scales to meet your needs

bull Enables rapid development

bull Extends with custom APIs and

Functions

API connections

bull Authenticate once and reuse

Big Data Solutions Decision Tree

httpsbiz-excellencecom20160830big-data-dt

Machine Learning Solutions Decision Tree

httpsbiz-excellencecom20160913machine-

learning-dt

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of your

data while making it faster to get up and running with batch

streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources so

you can run queries on exabytes of data Includes U-SQL a

new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully managed

NoSQL database service that indexes stores and queries

data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

Microsoft Big Data Portfolio

SQL Server Stretch

Business intelligence

Machine learning analytics

Insights

Azure SQL Database

SQL Server 2016

SQL Server 2016 Fast Track

Azure SQL DW

ADLS amp ADLA

DocumentDB

HDInsight

Hadoop

Analytics Platform System

Sequential Scale Out + AcrossScale Up

Key

Relational Non-relational

On

-pre

mis

es

Clo

ud

Microsoft has solutions covering

and connecting all four

quadrants ndash thatrsquos why SQL

Server is one of the most utilized

databases in the world

Azure

Data Lake Store

Azure

Blob StoragePurpose Optimized for big data analytics General purpose bulk storage

Use Cases Batch Interactive Streaming App backend backup data media storage for

streaming

Units of Storage Accounts Folders Files Accounts Containers Blobs

Structure Hierarchical File System Flat namespace

WebHDFS Implements WebHDFS No (WASB)

Security AD SAS keys

Storage Auto SharedFiles chunked Manually manage expansionFiles intact

Service State Generally Available PolyBase

just supported

Generally Available

Billing Pay for data stored and for IO Pay for data stored and for IO

Region Availability Two US regions (Other regions coming soon) All Azure Regions

ADL Store vs Blob Store

httpsdocsmicrosoftcomen-usazuredata-lake-storedata-lake-store-comparison-with-blob-storage

Want Hadoop

Need exact same on-prem

Need interactive streaming

MandatoryNo strong opinion

Azure Marketplace (IaaS)

bull Need all workloads exactly like on-

premises

bull Need 100 HortonworksClouderaMapR

Azure HDInsight

bull Most Hadoop workloads

bull Fully managed by Microsoft

bull Sell HDI + ADLS

bull Stickier to Microsoft than VMs

bull Can do interactive (Spark) and streaming

(StormSpark)

Azure Data Lake Analytics

bull Easiest experience for admin no sense of

clusters instant scale per job

bull Easiest experience for developers Visual

StudioU-SQL (C+SQL)

bull Sell ADLA + ADLS

bull Batch workloads only

Need everything exactly like on-prem

Need core projects Yes Batch is OK

Always present ADLA if NET or Visual Studio Shop

If NET or VS shop

Azure SQL DW HDInsight Hive HDInsight Spark Azure Data Lake SQL Server (IaaS)

Volume Petabytes Petabytes Petabytes Petabytes Terabytes

Security Encryption TD

Audit

ADLS Apache

Ranger

ADLS AAD Security

Groups (data)

Encryption TD

Audit

Languages T-SQL HiveQL SparkSQL HiveQL

Scala Java Python

R

U-SQL T-SQL

Extensibility No Yes NETSerDe Yes Packages Yes NET Yes NET CLR

External File

Types

ORC TXT

Parquet RCFile

ORC CSV Parquet

+ others

Parquet JSON

Hive + others

Many ORC TXT Parquet

RCFile

Admin Low-Medium Medium-High Medium-High Low High

Cost Model DWU Nodes amp VM Nodes amp VM UnitsJobs VM

Schema

Definition

Schema on Write

Polybase

Schema on Read Schema on Read Schema on Read Schema on Write

Polybase

Max DB Size 240TB Comp (5X

= 1PB)

Unlimited 64TB (64 1TB drives)

機械学習 Deep Learning 深層強化学習

画像解析

音声解析

データ分類異常検知 顧客グルーピング

数値予測売上予測 需要予測 品質管理

ラベル分類不良品分析 故障予測 チャーン分析

機械学習より強力な分析

自律学習型ロボット

自動運転車

テキストや画像等の自動生成

活用例

主に多層のニューラルネットワークを用いた手法での分析

分析のためには莫大なデータ量計算量知識スキルを要する

統計に基づいた手法での分析

そのため比較的少ないデータ量と計算量で分析を行うことができる

定義したあるべき姿に従い試行錯誤をして自ら学習を行うための分析手法である強化学習と深層学習を組み合わせた分析

Azure Machine Learning Cognitive Toolkit GPU Instance (N-Series)

マイクロソフトが提供する技術

テキストデータ機器のログデータなど

画像データ監視カメラの録画データ 機器の外観画像 顔画像など

動画データ監視カメラの録画データ 機器の稼働状況 人の作業映像など

音声データマイクからの収集データ 稼働音 室内音 人の音声など

数値データセンサーデータ 機器の制御データ計測データなど672342345

機械学習統計理論に基づいた分析手法を用いる用意するべきデータ量と処理する計算量の敷居が低め導入しやすい

Deep Learningデータ量が大きいため強力な分析手法が必要「膨大なデータ量を用意」「莫大な計算量を処理」が必要で敷居が非常に高い導入にはそれなりの覚悟が必要

Action

People

Automated Systems

Apps

Web

Mobile

Bots

Intelligence

Dashboards amp Visualizations

Cortana

Bot Framework

Cognitive Services

Power BI

Information Management

Event Hubs

Data Catalog

Data Factory

Machine Learning and Analytics

HDInsight

Stream Analytics

Intelligence

Data Lake Analytics

Machine Learning

Big Data Stores

SQL Data Warehouse

Data Lake Store

Data Sources

Apps

Sensors amp Devices

Data

Cortana Intelligence Suite

学習済み

モデル利用

学習モデル

作成

機械学習 教師あり学習

教師なし学習

強化学習

決定木

線形回帰

SVM

ロジスティック回帰

ニューラルネットワーク

クラスタリング

次元削減

Q学習

K-mean法

主成分分析

正準相関分析

ディープニューラルネットワーク

畳みこみニューラルネットワーク

再帰的ニューラルネットワーク

回帰結合ニューラルネットワーク

httpsazuremicrosoftcomen-usservicescognitive-services

わずか数行のコードで強力なアルゴリズムを持つアプリの作成が可能ですiOSAndroidWindows などのプラットフォームを問わず機能します

httpsazuremicrosoftcomja-jpservicesmachine-learning

ユーザーは簡単に予測分析ソリューションを構築デプロイ共有できます

httpswwwyoutubecomwatchv=9gDDO5ldT-4ampfeature=youtube

AI技術を利用したディープラーニング(深層学習)ツールキットです旧称「CNTK」から改名されました

ソースコード httpsgithubcomMicrosoftCNTK

SearchSpeech

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

コカコーラ誕生100周年キャンペーン

コカコーラボトルを「100歳」と認識

bull 自撮り写真をUp結果をSNS拡散

ナビタイムジャパン様

自然言語入力による路線検索BOT

bull ユーザーとの新たな接点(LINE)

bull 自然言語入力

Vision Language Knowledge

Vision Knowledge SearchSpeech Language

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

Microsoft SupportVirtual Agent

自然言語入力による自動応答サポート窓口

bull 過去QampAデータ解析に基づく回答抽出

bull 定型外はldquo人対応rdquo

UBER

登録ドライバーをスマホ経由で顔認証

VOLVO

表情からの危険予測

Search

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

アロバ様

監視カメラによる店舗内行動分析

bull 顔認識による 顧客識別

bull 表情分析

東京サマーランド様にて導入済み

HmComm様

コールセンターソリューション

bull 会話をテキスト化キーワードを解析

bull 過去QampA検索

bull 内容をCRM保存

Vision KnowledgeSpeech Language

導入事例東京サマーランド様

Video

Intelligent KioskhttpsgithubcomMicrosoftCognitive-Samples-IntelligentKiosk

ldquo(want to|request)rdquo

HoloLens

Page 10: やりたいことから考えるMicrosoft Azure 上の データストアの選び方とデータサイエンティスト向け活用法。KVSからDWHまで

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

①大量データの受け入れ

②リアルタイム処理データの集約

③データの蓄積

構造化非構造化文書など様々な形式での保存

④データの加工移行

⑥機械学習

⑦Hadoop解析

⑧マイクロソフト技術を用いた分散解析

⑨通常のRMSが機能を追加した企業向けRを使用した解析

⑪クラウドベースの Self-Service BI 機能

⑫機械学習の予測モデルを業務システムなどから呼び出し可能にするサービス

外部クラウドなどからのデータ取り込み

②リアルタイム処理データの加工

⑤ディープラーニング

⑩Excelを用いた可視化

Cognitive Services API

Azure Gallery

Microsoft R Server

Azure Machine Learning Studio

Cognitive Toolkit Tensor Flow

Seamlessly blend technologies

Azure Data Lake Analytics

取り扱いたいデータタイプ

Audio video images Meaningless without adding some structure

非構造データUnstructured

構造化データStructured

CSV Columnar Storage (Parquet ORC) Strict data model structure

JSON XML sensor data social media device data web logs Flexible data model structure

文書など緩やかな構造を持つ半構造データ

Semi-Structured

Azure Storage様々な文書Blobデータテーブル形式のデータが保存可能なストレージ

SQL DatabaseSQL Server 2016 と同等の機能を提供する PaaS 型データベース サービス

Azure Database for MySQLPostgreSQLPaaS 型データベース サービス のMySQLPostgreSQL版

Cosmos DBマルチデータモデルのグローバル分散DB

Azure Data Lake Storeビッグ データの分析ワークロードに対応する大規模データ格納エリア

Azure SQL Data Warehouseペタバイト単位のストレージを有した PaaS 型データ ウェアハウス サービス

IoT Hub

Event Hubs

Data Warehouse

Data Factory

App Insights Log Analytics

Monitor

CDN

Search Power BI

Blob Storage Pillars

Open amp

Interoperable

Manageable amp

Cost Efficient

Scalable amp

Performant

Secure amp

Compliant

Durable amp

Available

Machine Learning

Stream Analytics

Batch

Functions

Data Lake Analytics

Azure HDInsight

Big Data Use Cases

Ingest amp ETL Streaming Analytics amp Machine Learning Data Aggregation Presentation

QueuesReliable queues at

scale for cloud

services

ファイルを保存する際にはこの3つの選択肢があります

httpsdocsmicrosoftcomja-jpazurestoragestorage-decide-blobs-files-disks

OS

アプリ アプリ アプリ アプリ

BLOB

効率

利用

仮想マシン

+BLOB

001log

002log

003log

004log

EN

EN

EN

EN

EN

EN

PS

PS

PS

PS ENEN

001log

002log

003log

004log

disk1vhd

PS = パーティション サーバー

EN = エクステント ノード

001log

002log

003log

004log

EN

EN

EN

EN

EN

EN

PS

PS

PS

PS ENEN

Block 1 Block 4Block 3Block 2

Imagejpg

Sparse File 512 byte aligned

51

2

10

24

15

36

20

48

25

60

AZCopy ndash Robocopy for Azure StorageStorage Explorer ndash Cross platform UX

Data Movement Library on CoreCLR

Python client library

仮想マシンSQL Enterprise

DS4 の場合

8 Core 28 GB RAM

Disk 0

読み取り書き込み Disk 1

Disk 2

P30

読み取りのみ

C

システム

D

キャッシュ

永続性あり 永続性なし 永続性あり (複数ボリュームの分割やストライプの構成が可能)

Premium Storage

デフォルト作成(仮想マシン付属) ユーザーが任意に追加

OS

Page ファイル

DBMS Exe

SQL Server バッファープール拡張

httpsazuremicrosoftcomja-jpdocumentationarticlesvirtual-machines-sql-server-performance-best-practices

httpsazuremicrosoftcomja-jpdocumentationarticlesvirtual-machines-sql-server-use-premium-storage

Disk n

P30

読み取りのみ

E

SQL データ(ページ圧縮)

Temp DB

Disk 3

P30

なし

F

Transaction-

Log

Disk Cache

344GB

最大Disk IOPS

256MBsec

P30合計の

600MBsは出ない

NTFSアロケーションユニットサイズ 64KB

データベース ページ圧縮 有効

Table用Index用Temp DB用に別

ドライブに拡張可能

キャッシュ設定は添付の

URLを参照

最大Disk IOPS

200MBsec

最大Disk IOPS

200MBsec

最大Disk IOPS

200MBsec

フルマネージドの RDBMS

データベース

RDBMS

OS

Azure が管理

利用者が管理

VM上の RDBMS

ホスト OS

仮想化

フルコントロール

データベース

RDBMS

OS

仮想化

ホスト OS

容易な管理

Azure Database

SQL Server物理マシン仮想マシン

SQL Server on Azure VM仮想マシン

SQL Database Data WarehousePaaS

物理マシン仮想マシン

VM Template Market place仮想マシン

Azure Database for MySQL PostgreSQL

論理データベース

Write

Write Ack

Ack

Read

value write

Ack

特徴

無停止フェールオーバー

無停止スケールアップ(プラン変更)

自動パフォーマンスチューニング

スループット指定によるプロビジョニング

データベース トランザクション ユニット (DTU) とエラスティック データベース トランザクション ユニット (eDTU) の説明

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-what-is-a-dtu

Azure SQL Database Query Performance Insight

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-query-performance

Query Store is turned on by default for Azure SQL Database

httpsazuremicrosoftcomja-jpupdatesquery-store-on-is-the-new-default-for-azure-sql-database

Queries

SQL Database

Deeper Insight

Query

Store

SQL Database Advisor

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-advisor

Azure Portal を使用した SQL Database Advisor

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-advisor-portal

領域 改善後

新しいインデックス提案が作成されるまで 18時間以内

T-SQL文が実行されるまでのタイムラグ 即時(数分以内)

「悪い」チューニング内容に対しての検知時間 1時間以内

次のインデックス提案が行われるまでの待ち時

間即時(数分以内)

導入までの総時間 1日以内

SQL Database の脅威の検出

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-threat-detection

コントロールノード

SQLDB

Azure Blob Storage(WASB)

100 DWU lt gt 2000 DWUコントロールノード

ユーザーからの接続コンピュートとストレージの調整

コンピュートノード

コンピュートノード

コンピュートノード

コンピュートノード

SQLDB

SQLDB

SQLDB

SQLDB

Azure Blob Storage(WASB)

コントロールノード

SQLDB コントロールノード

D51

D52

D53

D60

hellip

D41

D42

D43

D50

hellip

コンピュートノード

D31

D32

D33

D40hellip

D21

D22

D23

D30

hellip

D11

D12

D13

D20

hellip

D1

D2

D3

D10

hellip

SQL DB

Azure Blob Storage(WASB)

コントロールノード

SQLDB コントロールノード

コンピュートノード

D51

D52

D53

D60

hellipコンピュートノード

D41

D42

D43

D50

hellip

コンピュートノード

D31

D32

D33

D40hellip

コンピュートノード

D21

D22

D23

D30

hellip

コンピュートノード

D11

D12

D13

D20

hellip

コンピュートノード

D1

D2

D3

D10

hellip

SQL DB

SQL DB

SQL DB

SQL DB

SQL DB

SQL DB

54

データ無制限のストレージ と 分析プラットフォーム

無制限のストレージ(エクサバイト超)

ネイティブ HDFS に基づく実装

HDInsight Hortonworks Cloudera との統合

全ての HDFS 準拠プロジェクトとの親和性

(Spark Storm Flume Sqoop Kafka R etc)

Azure Data Lake Store- Hadoop Distributed File System (HDFS) For The Cloud

構造化データと非構造化データに対するデータ処理

宣言型の SQL 文 とカスタムコード (UDF UDT UDO hellip )

ローカルとリモートに対するクエリ

バッチ型インタラクティブ型ストリーミング型(in the future)

Azure Data Lake Analytics- New Query Language U-SQL

ETL パイプライン

スキーマの定義Relational

LOB

Applications

Schema-on-Write

直ちに必要でないデータは全て捨てられるかアーカイブされている

無限に保存 分析 結果の参照

あらゆるデータ

ソースからの

データ収集

Schema-on-Read

全データ取込要件にかかわらず

全データ格納そのままのフォーマットでスキーマ定義なし

分析実行Hadoopのような分析エンジンの利用

インタラクティブクエリ

バッチ型クエリ

機械学習

データウェアハウス

リアルタイム分析

リレーショナル

デバイス

観察仮説集まったデータから仮説をたてる

58

無制限のサイズ

ギガバイトからペタバイトのサイズの単一ファイル

巨大なスループットを必要とする大規模な分析システムを実現

あらゆるスループットに自動最適化

ペタバイト超のデータの並列コンピューティング

同一リージョン内に3つのコピーを自動的に作成

インストールやチューニングは不要

数分で稼働開始

必要に応じてどのようなサイズにもスケールアウト可能

データウェアハウスデータレイクストア

非構造Rawデータ(ログ文書バイナリ)

Tier 1

MachineLearning

Data LakeAnalytics HDInsight

目的に合わせた

データウェハウス分析処理

(売上分析経営分析)

データウェハウスに格納しきれなかった

過去データ関連データを連結して分析

ハードウェアの性能限界によって行えなかった処理量の分析を実現

ディスクコンピューティング

非構造データの

分析処理

(画像音声映像など)

広範囲のデータを利用した

機械学習統計解析処理

などによる高度分析

SQL Data Warehouse

Data LakeAnalytics HDInsight

Data LakeAnalytics

構造化データ半構造データ

分析用に加工(csv等)

Tier 2

アーカイブデータTier 2 DWHのアーカイブ

Tier 3

Analytics

Storage

HDInsight(ldquomanaged clustersrdquo)

Azure Data Lake Analytics

Azure Data Lake Store

Azure Data Lake

LOB Applications

SocialDevices

Clickstream

Sensors

Video

Web

Relational

HDInsight

Data Lake Analytics

Machine Learning

Spark

R

Azure Data Lake Store

Azure Data Lake Store

Azure Storage Blob

外部表Azure SQLData Warehouse

HDInsight

開発者は OSS に馴染んでいる Java Eclipse Hive etc

マネージド Hadoop クラスタにおいてカスタマイズ管理が可能でフレキシビリティがある

Azure Data Lake Analytics

C SQL amp PowerShell のスキル

経験を活かせる

利便性効率性自動スケール

ジョブ実行の仕組みが提供される

(New)

(New)

一般的なパターン

処理読み込み 保存

INSERT

OUTPUT

OUTPUT

SELECThellip

FROMhellip

WHEREhellip

+

PythonR

EXTRACT

EXTRACT

SELECT

SELECT

Azure

Data

Lake

Azure

Data

Lake

Azure

SQL

DB

Azure

Storage

Blobs

Azure

Storage

Blobs

RowSet RowSet

Cognitive Services

REFERENCE ASSEMBLY WebLogExtASM

rs =

EXTRACT

UserID string

Start DateTime

End DateTime

Region string

SitesVisited string

PagesVisited string

FROM ldquoLogsWebLogRecordstxtrdquo

USING WebLogExtractor ()

result = SELECT UserID

(EndSubtract(Start))TotalSeconds AS Duration

FROM rs ORDER BY Duration DESC FETCH 10

OUTPUT result TO ldquoLogsResultstop10tsv

USING OutputterTsv()

bull 型定義は C の型定義と同じ

bull データをファイルから抽出読み込み

するときにスキーマが必要

Data Lake Store 内 のファイル

独自形式を解析するカスタム関数

C の関数

行セット(中間テーブルの概念

に近い)

TSV形式で書き込む関数

U-SQL ジョブのサブミットAzure PortalやVisual StudioのAzure Data Lake ToolsからU-SQLジョブをサブミット可能

67

進捗

統計情報

従来型の処理分析 Azure Data Lake を中心とした処理分析

Business apps

Custom apps

Sensors and devices

ADL StorePeople

非構造化データも含めてあらゆるデータを格納

Azure SQL DW

Azure AD

Power BI

ADF

ADL Analytics

bull 処理分析業務の大半はデータ準備作業が占めるbull 処理分析業務に手間時間が必要

Business apps

Custom apps

Sensors and devices

HDInsight

ユーザー管理認証

データの連携

Power BI

File System

Database

Database

Hadoop

DWH

Data Mart

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

①大量データの受け入れ

②リアルタイム処理データの集約

③データの蓄積

構造化非構造化文書など様々な形式での保存

④データの加工移行

⑥機械学習

⑦Hadoop解析

⑧マイクロソフト技術を用いた分散解析

⑨通常のRMSが機能を追加した企業向けRを使用した解析

⑪クラウドベースの Self-Service BI 機能

⑫機械学習の予測モデルを業務システムなどから呼び出し可能にするサービス

外部クラウドなどからのデータ取り込み

②リアルタイム処理データの加工

⑤ディープラーニング

⑩Excelを用いた可視化

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

リアルタイム

バッチ

Data Factory Tools for Visual Studio

Azure Portal

Azure TableStorage

(Web ログレコード)

Data Factory

HDInsight

(Web ログをファイルにして

バッチ処理で集計)

SQL Database

(集計データをDB テーブルに格納)

Power BI

社内システム

DataManagement

Gateway

SQL Database

Data Warehouse

Blob Storage

Table Storage

httpportalazurecom

接続

メッセージ作成

メッセージ送信

var cs = ldquo接続文字列rdquovar path = ldquoイベントハブ名rdquovar eh = EventHubClientCreateFromConnectionString(cs path)

var msg = new user = thisUserIdentityNamelevel = leveltimestamp = demoTimestamp

var json = JsonConvertSerializeObject(msg)

ehSend(new EventData(EncodingUTF8GetBytes(json)))

EventProcessorHostを使う

bull

bull

bull

Functionsを使う

bull

bull

IEventProcessorProcessEventAsync(msg)

IEventProcessorProcessEventAsync(msg)

Run(string msg)

Azure azure-sdk-for-python

Point of Service Devices

Self CheckoutStations

Kiosks

Smart Phones

SlatesTablets

PCsLaptops

Servers

Digital Signs

DiagnosticEquipmentRemote Medical

MonitorsLogic

Controllers

SpecializedDevicesThin

Clients

Handhelds

Security

POS Terminals

AutomationDevices

VendingMachines

Kinect

ATM

Stream Analytics

入力 出力クエリデータストリーム

参照

bull ldquo入力rdquoldquo出力rdquoをクリックしそれぞれ作成

bull ldquoクエリrdquoをクリックしクエリを定義bull 作業が終わったらldquo開始rdquoで実

行開始

SELECT

INTO

FROM

SELECT user level AS SATLevel timestamp

INTO

FROM

デバイス接続性とデバイス管理およびブローカーサービス

データ管理と高度な分析 情報活用業務の生産性とプロセスの最適化

IoT Agent Gateway

予兆原因の学習モデル

ダッシュボード

参照ERPbull 顧客bull 設備bull 担当者

Notification Hubs

通知

予兆イベント

メンテ方法の推奨

bull ヘルス状態bull インシデント管理bull 対応のディスパッチ

現地技術要員のモバイルデバイス

オペレーションセンター

bull イベント ドア開閉軸アライメントキャビン速度モーター温度など

bull アラーム 故障アラームエラーコードなど

httpisstkeazurewebsitesnet

Event Hub

Stream Analytics

Azure ML

制御機器とセンサーのデータ

マシンデータの蓄積

メンテナンス方法の学習モデル

Machine Learning

Blob Storage

セルフサービス分析

Power BI

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce

cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-

system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of

your data while making it faster to get up and running with

batch streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources

so you can run queries on exabytes of data Includes U-

SQL a new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully

managed NoSQL database service that indexes stores and

queries data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

What do all of these have in common

They can all use Azure Analysis Services

Azure Analysis Services

Azure Analysis Services

BI semantic model

Business logic amp metrics

Data modeling

Security

Azure Analysis Services

Lifecycle management

In-memory cache

On-premises

Cloud

Data sources

SQL Database

SQL Data Warehouse

Other data sources

SQL Server

Analytics platform

system

Other data sources

On-premises

Cloud

Client tools

Power BI

Excel

Third party BI tools

Power BI Desktop

Rich semantic modelling

locatioidentifier

identifiertype

fieldidentifier

numberofunitssoldtodate

remaningnumber

Numberofuntissoldtoday

receivedback

productidentifier

descriptionline1

descriptionline2

qtyafterqtysales

familyidentifier

Source DataComplex raw data optimized for processing

Semantic ModelRich business user friendly semantic model

Product Id

Product Name

Product Description

Category

Category Id

Category Name

Category Description

Sub Category

Product Id

Shelf qty

Return qty

Order qty

Sale qty

Cloud Data

On-Premises

Data

Azure Analysis Services

Lightning fast queries

データ管理をきっかけに処理を実行

Web Glue

Bots IoT

DOMINOS STORES

Key Vault

Azure Active Directory

Azure Files

SSIS FRANCHISEE

AZURE WEST EUROPE

Azure Function

KEMPSSDESSRS

IN- AND EXTERNAL DATA SOURCES

orderprocessing

O365

App Insights

indexhtml

Azure Functions Proxies

couponprocessing

Use Bindings in Your Codefunctionjson

bindings [type httpTriggerdirection inwebHookType genericJsonname req

type httpdirection outname res

type queuename eventOutputqueueName aievents1connectionAiStorageConnectiondirection out

]

public static class OrderHandler

[FunctionName(OrderWebhook)]public static async TaskltHttpResponseMessagegt Run(

[HttpTrigger] HttpRequestMessage req[Queue(aievents1 Connection = AiStorageConnection)]

IAsyncCollectorltStringgt eventOutputTraceWriter log)

logInfo($Webhook was triggered)

string jsonContent = await reqContentReadAsStringAsync()dynamic data = JsonConvertDeserializeObject(jsonContent)

await eventOutputAddAsync(JsonConvertSerializeObject(GetLogData(data)))

int orderId = PlaceOrder(data)

return reqCreateResponse(HttpStatusCodeOK new orderNumber = orderId )

bull Workflow in the cloud

bull Powerful control flow

bull Connect functions and APIs

bull Declarative definition to persist in source control and drive deployments

Logic AppsCloud APIs and platform

bull Supports over 125 built-in connectors

bull Scales to meet your needs

bull Enables rapid development

bull Extends with custom APIs and

Functions

API connections

bull Authenticate once and reuse

Big Data Solutions Decision Tree

httpsbiz-excellencecom20160830big-data-dt

Machine Learning Solutions Decision Tree

httpsbiz-excellencecom20160913machine-

learning-dt

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of your

data while making it faster to get up and running with batch

streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources so

you can run queries on exabytes of data Includes U-SQL a

new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully managed

NoSQL database service that indexes stores and queries

data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

Microsoft Big Data Portfolio

SQL Server Stretch

Business intelligence

Machine learning analytics

Insights

Azure SQL Database

SQL Server 2016

SQL Server 2016 Fast Track

Azure SQL DW

ADLS amp ADLA

DocumentDB

HDInsight

Hadoop

Analytics Platform System

Sequential Scale Out + AcrossScale Up

Key

Relational Non-relational

On

-pre

mis

es

Clo

ud

Microsoft has solutions covering

and connecting all four

quadrants ndash thatrsquos why SQL

Server is one of the most utilized

databases in the world

Azure

Data Lake Store

Azure

Blob StoragePurpose Optimized for big data analytics General purpose bulk storage

Use Cases Batch Interactive Streaming App backend backup data media storage for

streaming

Units of Storage Accounts Folders Files Accounts Containers Blobs

Structure Hierarchical File System Flat namespace

WebHDFS Implements WebHDFS No (WASB)

Security AD SAS keys

Storage Auto SharedFiles chunked Manually manage expansionFiles intact

Service State Generally Available PolyBase

just supported

Generally Available

Billing Pay for data stored and for IO Pay for data stored and for IO

Region Availability Two US regions (Other regions coming soon) All Azure Regions

ADL Store vs Blob Store

httpsdocsmicrosoftcomen-usazuredata-lake-storedata-lake-store-comparison-with-blob-storage

Want Hadoop

Need exact same on-prem

Need interactive streaming

MandatoryNo strong opinion

Azure Marketplace (IaaS)

bull Need all workloads exactly like on-

premises

bull Need 100 HortonworksClouderaMapR

Azure HDInsight

bull Most Hadoop workloads

bull Fully managed by Microsoft

bull Sell HDI + ADLS

bull Stickier to Microsoft than VMs

bull Can do interactive (Spark) and streaming

(StormSpark)

Azure Data Lake Analytics

bull Easiest experience for admin no sense of

clusters instant scale per job

bull Easiest experience for developers Visual

StudioU-SQL (C+SQL)

bull Sell ADLA + ADLS

bull Batch workloads only

Need everything exactly like on-prem

Need core projects Yes Batch is OK

Always present ADLA if NET or Visual Studio Shop

If NET or VS shop

Azure SQL DW HDInsight Hive HDInsight Spark Azure Data Lake SQL Server (IaaS)

Volume Petabytes Petabytes Petabytes Petabytes Terabytes

Security Encryption TD

Audit

ADLS Apache

Ranger

ADLS AAD Security

Groups (data)

Encryption TD

Audit

Languages T-SQL HiveQL SparkSQL HiveQL

Scala Java Python

R

U-SQL T-SQL

Extensibility No Yes NETSerDe Yes Packages Yes NET Yes NET CLR

External File

Types

ORC TXT

Parquet RCFile

ORC CSV Parquet

+ others

Parquet JSON

Hive + others

Many ORC TXT Parquet

RCFile

Admin Low-Medium Medium-High Medium-High Low High

Cost Model DWU Nodes amp VM Nodes amp VM UnitsJobs VM

Schema

Definition

Schema on Write

Polybase

Schema on Read Schema on Read Schema on Read Schema on Write

Polybase

Max DB Size 240TB Comp (5X

= 1PB)

Unlimited 64TB (64 1TB drives)

機械学習 Deep Learning 深層強化学習

画像解析

音声解析

データ分類異常検知 顧客グルーピング

数値予測売上予測 需要予測 品質管理

ラベル分類不良品分析 故障予測 チャーン分析

機械学習より強力な分析

自律学習型ロボット

自動運転車

テキストや画像等の自動生成

活用例

主に多層のニューラルネットワークを用いた手法での分析

分析のためには莫大なデータ量計算量知識スキルを要する

統計に基づいた手法での分析

そのため比較的少ないデータ量と計算量で分析を行うことができる

定義したあるべき姿に従い試行錯誤をして自ら学習を行うための分析手法である強化学習と深層学習を組み合わせた分析

Azure Machine Learning Cognitive Toolkit GPU Instance (N-Series)

マイクロソフトが提供する技術

テキストデータ機器のログデータなど

画像データ監視カメラの録画データ 機器の外観画像 顔画像など

動画データ監視カメラの録画データ 機器の稼働状況 人の作業映像など

音声データマイクからの収集データ 稼働音 室内音 人の音声など

数値データセンサーデータ 機器の制御データ計測データなど672342345

機械学習統計理論に基づいた分析手法を用いる用意するべきデータ量と処理する計算量の敷居が低め導入しやすい

Deep Learningデータ量が大きいため強力な分析手法が必要「膨大なデータ量を用意」「莫大な計算量を処理」が必要で敷居が非常に高い導入にはそれなりの覚悟が必要

Action

People

Automated Systems

Apps

Web

Mobile

Bots

Intelligence

Dashboards amp Visualizations

Cortana

Bot Framework

Cognitive Services

Power BI

Information Management

Event Hubs

Data Catalog

Data Factory

Machine Learning and Analytics

HDInsight

Stream Analytics

Intelligence

Data Lake Analytics

Machine Learning

Big Data Stores

SQL Data Warehouse

Data Lake Store

Data Sources

Apps

Sensors amp Devices

Data

Cortana Intelligence Suite

学習済み

モデル利用

学習モデル

作成

機械学習 教師あり学習

教師なし学習

強化学習

決定木

線形回帰

SVM

ロジスティック回帰

ニューラルネットワーク

クラスタリング

次元削減

Q学習

K-mean法

主成分分析

正準相関分析

ディープニューラルネットワーク

畳みこみニューラルネットワーク

再帰的ニューラルネットワーク

回帰結合ニューラルネットワーク

httpsazuremicrosoftcomen-usservicescognitive-services

わずか数行のコードで強力なアルゴリズムを持つアプリの作成が可能ですiOSAndroidWindows などのプラットフォームを問わず機能します

httpsazuremicrosoftcomja-jpservicesmachine-learning

ユーザーは簡単に予測分析ソリューションを構築デプロイ共有できます

httpswwwyoutubecomwatchv=9gDDO5ldT-4ampfeature=youtube

AI技術を利用したディープラーニング(深層学習)ツールキットです旧称「CNTK」から改名されました

ソースコード httpsgithubcomMicrosoftCNTK

SearchSpeech

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

コカコーラ誕生100周年キャンペーン

コカコーラボトルを「100歳」と認識

bull 自撮り写真をUp結果をSNS拡散

ナビタイムジャパン様

自然言語入力による路線検索BOT

bull ユーザーとの新たな接点(LINE)

bull 自然言語入力

Vision Language Knowledge

Vision Knowledge SearchSpeech Language

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

Microsoft SupportVirtual Agent

自然言語入力による自動応答サポート窓口

bull 過去QampAデータ解析に基づく回答抽出

bull 定型外はldquo人対応rdquo

UBER

登録ドライバーをスマホ経由で顔認証

VOLVO

表情からの危険予測

Search

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

アロバ様

監視カメラによる店舗内行動分析

bull 顔認識による 顧客識別

bull 表情分析

東京サマーランド様にて導入済み

HmComm様

コールセンターソリューション

bull 会話をテキスト化キーワードを解析

bull 過去QampA検索

bull 内容をCRM保存

Vision KnowledgeSpeech Language

導入事例東京サマーランド様

Video

Intelligent KioskhttpsgithubcomMicrosoftCognitive-Samples-IntelligentKiosk

ldquo(want to|request)rdquo

HoloLens

Page 11: やりたいことから考えるMicrosoft Azure 上の データストアの選び方とデータサイエンティスト向け活用法。KVSからDWHまで

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

①大量データの受け入れ

②リアルタイム処理データの集約

③データの蓄積

構造化非構造化文書など様々な形式での保存

④データの加工移行

⑥機械学習

⑦Hadoop解析

⑧マイクロソフト技術を用いた分散解析

⑨通常のRMSが機能を追加した企業向けRを使用した解析

⑪クラウドベースの Self-Service BI 機能

⑫機械学習の予測モデルを業務システムなどから呼び出し可能にするサービス

外部クラウドなどからのデータ取り込み

②リアルタイム処理データの加工

⑤ディープラーニング

⑩Excelを用いた可視化

Cognitive Services API

Azure Gallery

Microsoft R Server

Azure Machine Learning Studio

Cognitive Toolkit Tensor Flow

Seamlessly blend technologies

Azure Data Lake Analytics

取り扱いたいデータタイプ

Audio video images Meaningless without adding some structure

非構造データUnstructured

構造化データStructured

CSV Columnar Storage (Parquet ORC) Strict data model structure

JSON XML sensor data social media device data web logs Flexible data model structure

文書など緩やかな構造を持つ半構造データ

Semi-Structured

Azure Storage様々な文書Blobデータテーブル形式のデータが保存可能なストレージ

SQL DatabaseSQL Server 2016 と同等の機能を提供する PaaS 型データベース サービス

Azure Database for MySQLPostgreSQLPaaS 型データベース サービス のMySQLPostgreSQL版

Cosmos DBマルチデータモデルのグローバル分散DB

Azure Data Lake Storeビッグ データの分析ワークロードに対応する大規模データ格納エリア

Azure SQL Data Warehouseペタバイト単位のストレージを有した PaaS 型データ ウェアハウス サービス

IoT Hub

Event Hubs

Data Warehouse

Data Factory

App Insights Log Analytics

Monitor

CDN

Search Power BI

Blob Storage Pillars

Open amp

Interoperable

Manageable amp

Cost Efficient

Scalable amp

Performant

Secure amp

Compliant

Durable amp

Available

Machine Learning

Stream Analytics

Batch

Functions

Data Lake Analytics

Azure HDInsight

Big Data Use Cases

Ingest amp ETL Streaming Analytics amp Machine Learning Data Aggregation Presentation

QueuesReliable queues at

scale for cloud

services

ファイルを保存する際にはこの3つの選択肢があります

httpsdocsmicrosoftcomja-jpazurestoragestorage-decide-blobs-files-disks

OS

アプリ アプリ アプリ アプリ

BLOB

効率

利用

仮想マシン

+BLOB

001log

002log

003log

004log

EN

EN

EN

EN

EN

EN

PS

PS

PS

PS ENEN

001log

002log

003log

004log

disk1vhd

PS = パーティション サーバー

EN = エクステント ノード

001log

002log

003log

004log

EN

EN

EN

EN

EN

EN

PS

PS

PS

PS ENEN

Block 1 Block 4Block 3Block 2

Imagejpg

Sparse File 512 byte aligned

51

2

10

24

15

36

20

48

25

60

AZCopy ndash Robocopy for Azure StorageStorage Explorer ndash Cross platform UX

Data Movement Library on CoreCLR

Python client library

仮想マシンSQL Enterprise

DS4 の場合

8 Core 28 GB RAM

Disk 0

読み取り書き込み Disk 1

Disk 2

P30

読み取りのみ

C

システム

D

キャッシュ

永続性あり 永続性なし 永続性あり (複数ボリュームの分割やストライプの構成が可能)

Premium Storage

デフォルト作成(仮想マシン付属) ユーザーが任意に追加

OS

Page ファイル

DBMS Exe

SQL Server バッファープール拡張

httpsazuremicrosoftcomja-jpdocumentationarticlesvirtual-machines-sql-server-performance-best-practices

httpsazuremicrosoftcomja-jpdocumentationarticlesvirtual-machines-sql-server-use-premium-storage

Disk n

P30

読み取りのみ

E

SQL データ(ページ圧縮)

Temp DB

Disk 3

P30

なし

F

Transaction-

Log

Disk Cache

344GB

最大Disk IOPS

256MBsec

P30合計の

600MBsは出ない

NTFSアロケーションユニットサイズ 64KB

データベース ページ圧縮 有効

Table用Index用Temp DB用に別

ドライブに拡張可能

キャッシュ設定は添付の

URLを参照

最大Disk IOPS

200MBsec

最大Disk IOPS

200MBsec

最大Disk IOPS

200MBsec

フルマネージドの RDBMS

データベース

RDBMS

OS

Azure が管理

利用者が管理

VM上の RDBMS

ホスト OS

仮想化

フルコントロール

データベース

RDBMS

OS

仮想化

ホスト OS

容易な管理

Azure Database

SQL Server物理マシン仮想マシン

SQL Server on Azure VM仮想マシン

SQL Database Data WarehousePaaS

物理マシン仮想マシン

VM Template Market place仮想マシン

Azure Database for MySQL PostgreSQL

論理データベース

Write

Write Ack

Ack

Read

value write

Ack

特徴

無停止フェールオーバー

無停止スケールアップ(プラン変更)

自動パフォーマンスチューニング

スループット指定によるプロビジョニング

データベース トランザクション ユニット (DTU) とエラスティック データベース トランザクション ユニット (eDTU) の説明

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-what-is-a-dtu

Azure SQL Database Query Performance Insight

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-query-performance

Query Store is turned on by default for Azure SQL Database

httpsazuremicrosoftcomja-jpupdatesquery-store-on-is-the-new-default-for-azure-sql-database

Queries

SQL Database

Deeper Insight

Query

Store

SQL Database Advisor

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-advisor

Azure Portal を使用した SQL Database Advisor

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-advisor-portal

領域 改善後

新しいインデックス提案が作成されるまで 18時間以内

T-SQL文が実行されるまでのタイムラグ 即時(数分以内)

「悪い」チューニング内容に対しての検知時間 1時間以内

次のインデックス提案が行われるまでの待ち時

間即時(数分以内)

導入までの総時間 1日以内

SQL Database の脅威の検出

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-threat-detection

コントロールノード

SQLDB

Azure Blob Storage(WASB)

100 DWU lt gt 2000 DWUコントロールノード

ユーザーからの接続コンピュートとストレージの調整

コンピュートノード

コンピュートノード

コンピュートノード

コンピュートノード

SQLDB

SQLDB

SQLDB

SQLDB

Azure Blob Storage(WASB)

コントロールノード

SQLDB コントロールノード

D51

D52

D53

D60

hellip

D41

D42

D43

D50

hellip

コンピュートノード

D31

D32

D33

D40hellip

D21

D22

D23

D30

hellip

D11

D12

D13

D20

hellip

D1

D2

D3

D10

hellip

SQL DB

Azure Blob Storage(WASB)

コントロールノード

SQLDB コントロールノード

コンピュートノード

D51

D52

D53

D60

hellipコンピュートノード

D41

D42

D43

D50

hellip

コンピュートノード

D31

D32

D33

D40hellip

コンピュートノード

D21

D22

D23

D30

hellip

コンピュートノード

D11

D12

D13

D20

hellip

コンピュートノード

D1

D2

D3

D10

hellip

SQL DB

SQL DB

SQL DB

SQL DB

SQL DB

SQL DB

54

データ無制限のストレージ と 分析プラットフォーム

無制限のストレージ(エクサバイト超)

ネイティブ HDFS に基づく実装

HDInsight Hortonworks Cloudera との統合

全ての HDFS 準拠プロジェクトとの親和性

(Spark Storm Flume Sqoop Kafka R etc)

Azure Data Lake Store- Hadoop Distributed File System (HDFS) For The Cloud

構造化データと非構造化データに対するデータ処理

宣言型の SQL 文 とカスタムコード (UDF UDT UDO hellip )

ローカルとリモートに対するクエリ

バッチ型インタラクティブ型ストリーミング型(in the future)

Azure Data Lake Analytics- New Query Language U-SQL

ETL パイプライン

スキーマの定義Relational

LOB

Applications

Schema-on-Write

直ちに必要でないデータは全て捨てられるかアーカイブされている

無限に保存 分析 結果の参照

あらゆるデータ

ソースからの

データ収集

Schema-on-Read

全データ取込要件にかかわらず

全データ格納そのままのフォーマットでスキーマ定義なし

分析実行Hadoopのような分析エンジンの利用

インタラクティブクエリ

バッチ型クエリ

機械学習

データウェアハウス

リアルタイム分析

リレーショナル

デバイス

観察仮説集まったデータから仮説をたてる

58

無制限のサイズ

ギガバイトからペタバイトのサイズの単一ファイル

巨大なスループットを必要とする大規模な分析システムを実現

あらゆるスループットに自動最適化

ペタバイト超のデータの並列コンピューティング

同一リージョン内に3つのコピーを自動的に作成

インストールやチューニングは不要

数分で稼働開始

必要に応じてどのようなサイズにもスケールアウト可能

データウェアハウスデータレイクストア

非構造Rawデータ(ログ文書バイナリ)

Tier 1

MachineLearning

Data LakeAnalytics HDInsight

目的に合わせた

データウェハウス分析処理

(売上分析経営分析)

データウェハウスに格納しきれなかった

過去データ関連データを連結して分析

ハードウェアの性能限界によって行えなかった処理量の分析を実現

ディスクコンピューティング

非構造データの

分析処理

(画像音声映像など)

広範囲のデータを利用した

機械学習統計解析処理

などによる高度分析

SQL Data Warehouse

Data LakeAnalytics HDInsight

Data LakeAnalytics

構造化データ半構造データ

分析用に加工(csv等)

Tier 2

アーカイブデータTier 2 DWHのアーカイブ

Tier 3

Analytics

Storage

HDInsight(ldquomanaged clustersrdquo)

Azure Data Lake Analytics

Azure Data Lake Store

Azure Data Lake

LOB Applications

SocialDevices

Clickstream

Sensors

Video

Web

Relational

HDInsight

Data Lake Analytics

Machine Learning

Spark

R

Azure Data Lake Store

Azure Data Lake Store

Azure Storage Blob

外部表Azure SQLData Warehouse

HDInsight

開発者は OSS に馴染んでいる Java Eclipse Hive etc

マネージド Hadoop クラスタにおいてカスタマイズ管理が可能でフレキシビリティがある

Azure Data Lake Analytics

C SQL amp PowerShell のスキル

経験を活かせる

利便性効率性自動スケール

ジョブ実行の仕組みが提供される

(New)

(New)

一般的なパターン

処理読み込み 保存

INSERT

OUTPUT

OUTPUT

SELECThellip

FROMhellip

WHEREhellip

+

PythonR

EXTRACT

EXTRACT

SELECT

SELECT

Azure

Data

Lake

Azure

Data

Lake

Azure

SQL

DB

Azure

Storage

Blobs

Azure

Storage

Blobs

RowSet RowSet

Cognitive Services

REFERENCE ASSEMBLY WebLogExtASM

rs =

EXTRACT

UserID string

Start DateTime

End DateTime

Region string

SitesVisited string

PagesVisited string

FROM ldquoLogsWebLogRecordstxtrdquo

USING WebLogExtractor ()

result = SELECT UserID

(EndSubtract(Start))TotalSeconds AS Duration

FROM rs ORDER BY Duration DESC FETCH 10

OUTPUT result TO ldquoLogsResultstop10tsv

USING OutputterTsv()

bull 型定義は C の型定義と同じ

bull データをファイルから抽出読み込み

するときにスキーマが必要

Data Lake Store 内 のファイル

独自形式を解析するカスタム関数

C の関数

行セット(中間テーブルの概念

に近い)

TSV形式で書き込む関数

U-SQL ジョブのサブミットAzure PortalやVisual StudioのAzure Data Lake ToolsからU-SQLジョブをサブミット可能

67

進捗

統計情報

従来型の処理分析 Azure Data Lake を中心とした処理分析

Business apps

Custom apps

Sensors and devices

ADL StorePeople

非構造化データも含めてあらゆるデータを格納

Azure SQL DW

Azure AD

Power BI

ADF

ADL Analytics

bull 処理分析業務の大半はデータ準備作業が占めるbull 処理分析業務に手間時間が必要

Business apps

Custom apps

Sensors and devices

HDInsight

ユーザー管理認証

データの連携

Power BI

File System

Database

Database

Hadoop

DWH

Data Mart

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

①大量データの受け入れ

②リアルタイム処理データの集約

③データの蓄積

構造化非構造化文書など様々な形式での保存

④データの加工移行

⑥機械学習

⑦Hadoop解析

⑧マイクロソフト技術を用いた分散解析

⑨通常のRMSが機能を追加した企業向けRを使用した解析

⑪クラウドベースの Self-Service BI 機能

⑫機械学習の予測モデルを業務システムなどから呼び出し可能にするサービス

外部クラウドなどからのデータ取り込み

②リアルタイム処理データの加工

⑤ディープラーニング

⑩Excelを用いた可視化

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

リアルタイム

バッチ

Data Factory Tools for Visual Studio

Azure Portal

Azure TableStorage

(Web ログレコード)

Data Factory

HDInsight

(Web ログをファイルにして

バッチ処理で集計)

SQL Database

(集計データをDB テーブルに格納)

Power BI

社内システム

DataManagement

Gateway

SQL Database

Data Warehouse

Blob Storage

Table Storage

httpportalazurecom

接続

メッセージ作成

メッセージ送信

var cs = ldquo接続文字列rdquovar path = ldquoイベントハブ名rdquovar eh = EventHubClientCreateFromConnectionString(cs path)

var msg = new user = thisUserIdentityNamelevel = leveltimestamp = demoTimestamp

var json = JsonConvertSerializeObject(msg)

ehSend(new EventData(EncodingUTF8GetBytes(json)))

EventProcessorHostを使う

bull

bull

bull

Functionsを使う

bull

bull

IEventProcessorProcessEventAsync(msg)

IEventProcessorProcessEventAsync(msg)

Run(string msg)

Azure azure-sdk-for-python

Point of Service Devices

Self CheckoutStations

Kiosks

Smart Phones

SlatesTablets

PCsLaptops

Servers

Digital Signs

DiagnosticEquipmentRemote Medical

MonitorsLogic

Controllers

SpecializedDevicesThin

Clients

Handhelds

Security

POS Terminals

AutomationDevices

VendingMachines

Kinect

ATM

Stream Analytics

入力 出力クエリデータストリーム

参照

bull ldquo入力rdquoldquo出力rdquoをクリックしそれぞれ作成

bull ldquoクエリrdquoをクリックしクエリを定義bull 作業が終わったらldquo開始rdquoで実

行開始

SELECT

INTO

FROM

SELECT user level AS SATLevel timestamp

INTO

FROM

デバイス接続性とデバイス管理およびブローカーサービス

データ管理と高度な分析 情報活用業務の生産性とプロセスの最適化

IoT Agent Gateway

予兆原因の学習モデル

ダッシュボード

参照ERPbull 顧客bull 設備bull 担当者

Notification Hubs

通知

予兆イベント

メンテ方法の推奨

bull ヘルス状態bull インシデント管理bull 対応のディスパッチ

現地技術要員のモバイルデバイス

オペレーションセンター

bull イベント ドア開閉軸アライメントキャビン速度モーター温度など

bull アラーム 故障アラームエラーコードなど

httpisstkeazurewebsitesnet

Event Hub

Stream Analytics

Azure ML

制御機器とセンサーのデータ

マシンデータの蓄積

メンテナンス方法の学習モデル

Machine Learning

Blob Storage

セルフサービス分析

Power BI

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce

cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-

system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of

your data while making it faster to get up and running with

batch streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources

so you can run queries on exabytes of data Includes U-

SQL a new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully

managed NoSQL database service that indexes stores and

queries data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

What do all of these have in common

They can all use Azure Analysis Services

Azure Analysis Services

Azure Analysis Services

BI semantic model

Business logic amp metrics

Data modeling

Security

Azure Analysis Services

Lifecycle management

In-memory cache

On-premises

Cloud

Data sources

SQL Database

SQL Data Warehouse

Other data sources

SQL Server

Analytics platform

system

Other data sources

On-premises

Cloud

Client tools

Power BI

Excel

Third party BI tools

Power BI Desktop

Rich semantic modelling

locatioidentifier

identifiertype

fieldidentifier

numberofunitssoldtodate

remaningnumber

Numberofuntissoldtoday

receivedback

productidentifier

descriptionline1

descriptionline2

qtyafterqtysales

familyidentifier

Source DataComplex raw data optimized for processing

Semantic ModelRich business user friendly semantic model

Product Id

Product Name

Product Description

Category

Category Id

Category Name

Category Description

Sub Category

Product Id

Shelf qty

Return qty

Order qty

Sale qty

Cloud Data

On-Premises

Data

Azure Analysis Services

Lightning fast queries

データ管理をきっかけに処理を実行

Web Glue

Bots IoT

DOMINOS STORES

Key Vault

Azure Active Directory

Azure Files

SSIS FRANCHISEE

AZURE WEST EUROPE

Azure Function

KEMPSSDESSRS

IN- AND EXTERNAL DATA SOURCES

orderprocessing

O365

App Insights

indexhtml

Azure Functions Proxies

couponprocessing

Use Bindings in Your Codefunctionjson

bindings [type httpTriggerdirection inwebHookType genericJsonname req

type httpdirection outname res

type queuename eventOutputqueueName aievents1connectionAiStorageConnectiondirection out

]

public static class OrderHandler

[FunctionName(OrderWebhook)]public static async TaskltHttpResponseMessagegt Run(

[HttpTrigger] HttpRequestMessage req[Queue(aievents1 Connection = AiStorageConnection)]

IAsyncCollectorltStringgt eventOutputTraceWriter log)

logInfo($Webhook was triggered)

string jsonContent = await reqContentReadAsStringAsync()dynamic data = JsonConvertDeserializeObject(jsonContent)

await eventOutputAddAsync(JsonConvertSerializeObject(GetLogData(data)))

int orderId = PlaceOrder(data)

return reqCreateResponse(HttpStatusCodeOK new orderNumber = orderId )

bull Workflow in the cloud

bull Powerful control flow

bull Connect functions and APIs

bull Declarative definition to persist in source control and drive deployments

Logic AppsCloud APIs and platform

bull Supports over 125 built-in connectors

bull Scales to meet your needs

bull Enables rapid development

bull Extends with custom APIs and

Functions

API connections

bull Authenticate once and reuse

Big Data Solutions Decision Tree

httpsbiz-excellencecom20160830big-data-dt

Machine Learning Solutions Decision Tree

httpsbiz-excellencecom20160913machine-

learning-dt

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of your

data while making it faster to get up and running with batch

streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources so

you can run queries on exabytes of data Includes U-SQL a

new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully managed

NoSQL database service that indexes stores and queries

data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

Microsoft Big Data Portfolio

SQL Server Stretch

Business intelligence

Machine learning analytics

Insights

Azure SQL Database

SQL Server 2016

SQL Server 2016 Fast Track

Azure SQL DW

ADLS amp ADLA

DocumentDB

HDInsight

Hadoop

Analytics Platform System

Sequential Scale Out + AcrossScale Up

Key

Relational Non-relational

On

-pre

mis

es

Clo

ud

Microsoft has solutions covering

and connecting all four

quadrants ndash thatrsquos why SQL

Server is one of the most utilized

databases in the world

Azure

Data Lake Store

Azure

Blob StoragePurpose Optimized for big data analytics General purpose bulk storage

Use Cases Batch Interactive Streaming App backend backup data media storage for

streaming

Units of Storage Accounts Folders Files Accounts Containers Blobs

Structure Hierarchical File System Flat namespace

WebHDFS Implements WebHDFS No (WASB)

Security AD SAS keys

Storage Auto SharedFiles chunked Manually manage expansionFiles intact

Service State Generally Available PolyBase

just supported

Generally Available

Billing Pay for data stored and for IO Pay for data stored and for IO

Region Availability Two US regions (Other regions coming soon) All Azure Regions

ADL Store vs Blob Store

httpsdocsmicrosoftcomen-usazuredata-lake-storedata-lake-store-comparison-with-blob-storage

Want Hadoop

Need exact same on-prem

Need interactive streaming

MandatoryNo strong opinion

Azure Marketplace (IaaS)

bull Need all workloads exactly like on-

premises

bull Need 100 HortonworksClouderaMapR

Azure HDInsight

bull Most Hadoop workloads

bull Fully managed by Microsoft

bull Sell HDI + ADLS

bull Stickier to Microsoft than VMs

bull Can do interactive (Spark) and streaming

(StormSpark)

Azure Data Lake Analytics

bull Easiest experience for admin no sense of

clusters instant scale per job

bull Easiest experience for developers Visual

StudioU-SQL (C+SQL)

bull Sell ADLA + ADLS

bull Batch workloads only

Need everything exactly like on-prem

Need core projects Yes Batch is OK

Always present ADLA if NET or Visual Studio Shop

If NET or VS shop

Azure SQL DW HDInsight Hive HDInsight Spark Azure Data Lake SQL Server (IaaS)

Volume Petabytes Petabytes Petabytes Petabytes Terabytes

Security Encryption TD

Audit

ADLS Apache

Ranger

ADLS AAD Security

Groups (data)

Encryption TD

Audit

Languages T-SQL HiveQL SparkSQL HiveQL

Scala Java Python

R

U-SQL T-SQL

Extensibility No Yes NETSerDe Yes Packages Yes NET Yes NET CLR

External File

Types

ORC TXT

Parquet RCFile

ORC CSV Parquet

+ others

Parquet JSON

Hive + others

Many ORC TXT Parquet

RCFile

Admin Low-Medium Medium-High Medium-High Low High

Cost Model DWU Nodes amp VM Nodes amp VM UnitsJobs VM

Schema

Definition

Schema on Write

Polybase

Schema on Read Schema on Read Schema on Read Schema on Write

Polybase

Max DB Size 240TB Comp (5X

= 1PB)

Unlimited 64TB (64 1TB drives)

機械学習 Deep Learning 深層強化学習

画像解析

音声解析

データ分類異常検知 顧客グルーピング

数値予測売上予測 需要予測 品質管理

ラベル分類不良品分析 故障予測 チャーン分析

機械学習より強力な分析

自律学習型ロボット

自動運転車

テキストや画像等の自動生成

活用例

主に多層のニューラルネットワークを用いた手法での分析

分析のためには莫大なデータ量計算量知識スキルを要する

統計に基づいた手法での分析

そのため比較的少ないデータ量と計算量で分析を行うことができる

定義したあるべき姿に従い試行錯誤をして自ら学習を行うための分析手法である強化学習と深層学習を組み合わせた分析

Azure Machine Learning Cognitive Toolkit GPU Instance (N-Series)

マイクロソフトが提供する技術

テキストデータ機器のログデータなど

画像データ監視カメラの録画データ 機器の外観画像 顔画像など

動画データ監視カメラの録画データ 機器の稼働状況 人の作業映像など

音声データマイクからの収集データ 稼働音 室内音 人の音声など

数値データセンサーデータ 機器の制御データ計測データなど672342345

機械学習統計理論に基づいた分析手法を用いる用意するべきデータ量と処理する計算量の敷居が低め導入しやすい

Deep Learningデータ量が大きいため強力な分析手法が必要「膨大なデータ量を用意」「莫大な計算量を処理」が必要で敷居が非常に高い導入にはそれなりの覚悟が必要

Action

People

Automated Systems

Apps

Web

Mobile

Bots

Intelligence

Dashboards amp Visualizations

Cortana

Bot Framework

Cognitive Services

Power BI

Information Management

Event Hubs

Data Catalog

Data Factory

Machine Learning and Analytics

HDInsight

Stream Analytics

Intelligence

Data Lake Analytics

Machine Learning

Big Data Stores

SQL Data Warehouse

Data Lake Store

Data Sources

Apps

Sensors amp Devices

Data

Cortana Intelligence Suite

学習済み

モデル利用

学習モデル

作成

機械学習 教師あり学習

教師なし学習

強化学習

決定木

線形回帰

SVM

ロジスティック回帰

ニューラルネットワーク

クラスタリング

次元削減

Q学習

K-mean法

主成分分析

正準相関分析

ディープニューラルネットワーク

畳みこみニューラルネットワーク

再帰的ニューラルネットワーク

回帰結合ニューラルネットワーク

httpsazuremicrosoftcomen-usservicescognitive-services

わずか数行のコードで強力なアルゴリズムを持つアプリの作成が可能ですiOSAndroidWindows などのプラットフォームを問わず機能します

httpsazuremicrosoftcomja-jpservicesmachine-learning

ユーザーは簡単に予測分析ソリューションを構築デプロイ共有できます

httpswwwyoutubecomwatchv=9gDDO5ldT-4ampfeature=youtube

AI技術を利用したディープラーニング(深層学習)ツールキットです旧称「CNTK」から改名されました

ソースコード httpsgithubcomMicrosoftCNTK

SearchSpeech

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

コカコーラ誕生100周年キャンペーン

コカコーラボトルを「100歳」と認識

bull 自撮り写真をUp結果をSNS拡散

ナビタイムジャパン様

自然言語入力による路線検索BOT

bull ユーザーとの新たな接点(LINE)

bull 自然言語入力

Vision Language Knowledge

Vision Knowledge SearchSpeech Language

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

Microsoft SupportVirtual Agent

自然言語入力による自動応答サポート窓口

bull 過去QampAデータ解析に基づく回答抽出

bull 定型外はldquo人対応rdquo

UBER

登録ドライバーをスマホ経由で顔認証

VOLVO

表情からの危険予測

Search

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

アロバ様

監視カメラによる店舗内行動分析

bull 顔認識による 顧客識別

bull 表情分析

東京サマーランド様にて導入済み

HmComm様

コールセンターソリューション

bull 会話をテキスト化キーワードを解析

bull 過去QampA検索

bull 内容をCRM保存

Vision KnowledgeSpeech Language

導入事例東京サマーランド様

Video

Intelligent KioskhttpsgithubcomMicrosoftCognitive-Samples-IntelligentKiosk

ldquo(want to|request)rdquo

HoloLens

Page 12: やりたいことから考えるMicrosoft Azure 上の データストアの選び方とデータサイエンティスト向け活用法。KVSからDWHまで

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

①大量データの受け入れ

②リアルタイム処理データの集約

③データの蓄積

構造化非構造化文書など様々な形式での保存

④データの加工移行

⑥機械学習

⑦Hadoop解析

⑧マイクロソフト技術を用いた分散解析

⑨通常のRMSが機能を追加した企業向けRを使用した解析

⑪クラウドベースの Self-Service BI 機能

⑫機械学習の予測モデルを業務システムなどから呼び出し可能にするサービス

外部クラウドなどからのデータ取り込み

②リアルタイム処理データの加工

⑤ディープラーニング

⑩Excelを用いた可視化

Cognitive Services API

Azure Gallery

Microsoft R Server

Azure Machine Learning Studio

Cognitive Toolkit Tensor Flow

Seamlessly blend technologies

Azure Data Lake Analytics

取り扱いたいデータタイプ

Audio video images Meaningless without adding some structure

非構造データUnstructured

構造化データStructured

CSV Columnar Storage (Parquet ORC) Strict data model structure

JSON XML sensor data social media device data web logs Flexible data model structure

文書など緩やかな構造を持つ半構造データ

Semi-Structured

Azure Storage様々な文書Blobデータテーブル形式のデータが保存可能なストレージ

SQL DatabaseSQL Server 2016 と同等の機能を提供する PaaS 型データベース サービス

Azure Database for MySQLPostgreSQLPaaS 型データベース サービス のMySQLPostgreSQL版

Cosmos DBマルチデータモデルのグローバル分散DB

Azure Data Lake Storeビッグ データの分析ワークロードに対応する大規模データ格納エリア

Azure SQL Data Warehouseペタバイト単位のストレージを有した PaaS 型データ ウェアハウス サービス

IoT Hub

Event Hubs

Data Warehouse

Data Factory

App Insights Log Analytics

Monitor

CDN

Search Power BI

Blob Storage Pillars

Open amp

Interoperable

Manageable amp

Cost Efficient

Scalable amp

Performant

Secure amp

Compliant

Durable amp

Available

Machine Learning

Stream Analytics

Batch

Functions

Data Lake Analytics

Azure HDInsight

Big Data Use Cases

Ingest amp ETL Streaming Analytics amp Machine Learning Data Aggregation Presentation

QueuesReliable queues at

scale for cloud

services

ファイルを保存する際にはこの3つの選択肢があります

httpsdocsmicrosoftcomja-jpazurestoragestorage-decide-blobs-files-disks

OS

アプリ アプリ アプリ アプリ

BLOB

効率

利用

仮想マシン

+BLOB

001log

002log

003log

004log

EN

EN

EN

EN

EN

EN

PS

PS

PS

PS ENEN

001log

002log

003log

004log

disk1vhd

PS = パーティション サーバー

EN = エクステント ノード

001log

002log

003log

004log

EN

EN

EN

EN

EN

EN

PS

PS

PS

PS ENEN

Block 1 Block 4Block 3Block 2

Imagejpg

Sparse File 512 byte aligned

51

2

10

24

15

36

20

48

25

60

AZCopy ndash Robocopy for Azure StorageStorage Explorer ndash Cross platform UX

Data Movement Library on CoreCLR

Python client library

仮想マシンSQL Enterprise

DS4 の場合

8 Core 28 GB RAM

Disk 0

読み取り書き込み Disk 1

Disk 2

P30

読み取りのみ

C

システム

D

キャッシュ

永続性あり 永続性なし 永続性あり (複数ボリュームの分割やストライプの構成が可能)

Premium Storage

デフォルト作成(仮想マシン付属) ユーザーが任意に追加

OS

Page ファイル

DBMS Exe

SQL Server バッファープール拡張

httpsazuremicrosoftcomja-jpdocumentationarticlesvirtual-machines-sql-server-performance-best-practices

httpsazuremicrosoftcomja-jpdocumentationarticlesvirtual-machines-sql-server-use-premium-storage

Disk n

P30

読み取りのみ

E

SQL データ(ページ圧縮)

Temp DB

Disk 3

P30

なし

F

Transaction-

Log

Disk Cache

344GB

最大Disk IOPS

256MBsec

P30合計の

600MBsは出ない

NTFSアロケーションユニットサイズ 64KB

データベース ページ圧縮 有効

Table用Index用Temp DB用に別

ドライブに拡張可能

キャッシュ設定は添付の

URLを参照

最大Disk IOPS

200MBsec

最大Disk IOPS

200MBsec

最大Disk IOPS

200MBsec

フルマネージドの RDBMS

データベース

RDBMS

OS

Azure が管理

利用者が管理

VM上の RDBMS

ホスト OS

仮想化

フルコントロール

データベース

RDBMS

OS

仮想化

ホスト OS

容易な管理

Azure Database

SQL Server物理マシン仮想マシン

SQL Server on Azure VM仮想マシン

SQL Database Data WarehousePaaS

物理マシン仮想マシン

VM Template Market place仮想マシン

Azure Database for MySQL PostgreSQL

論理データベース

Write

Write Ack

Ack

Read

value write

Ack

特徴

無停止フェールオーバー

無停止スケールアップ(プラン変更)

自動パフォーマンスチューニング

スループット指定によるプロビジョニング

データベース トランザクション ユニット (DTU) とエラスティック データベース トランザクション ユニット (eDTU) の説明

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-what-is-a-dtu

Azure SQL Database Query Performance Insight

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-query-performance

Query Store is turned on by default for Azure SQL Database

httpsazuremicrosoftcomja-jpupdatesquery-store-on-is-the-new-default-for-azure-sql-database

Queries

SQL Database

Deeper Insight

Query

Store

SQL Database Advisor

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-advisor

Azure Portal を使用した SQL Database Advisor

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-advisor-portal

領域 改善後

新しいインデックス提案が作成されるまで 18時間以内

T-SQL文が実行されるまでのタイムラグ 即時(数分以内)

「悪い」チューニング内容に対しての検知時間 1時間以内

次のインデックス提案が行われるまでの待ち時

間即時(数分以内)

導入までの総時間 1日以内

SQL Database の脅威の検出

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-threat-detection

コントロールノード

SQLDB

Azure Blob Storage(WASB)

100 DWU lt gt 2000 DWUコントロールノード

ユーザーからの接続コンピュートとストレージの調整

コンピュートノード

コンピュートノード

コンピュートノード

コンピュートノード

SQLDB

SQLDB

SQLDB

SQLDB

Azure Blob Storage(WASB)

コントロールノード

SQLDB コントロールノード

D51

D52

D53

D60

hellip

D41

D42

D43

D50

hellip

コンピュートノード

D31

D32

D33

D40hellip

D21

D22

D23

D30

hellip

D11

D12

D13

D20

hellip

D1

D2

D3

D10

hellip

SQL DB

Azure Blob Storage(WASB)

コントロールノード

SQLDB コントロールノード

コンピュートノード

D51

D52

D53

D60

hellipコンピュートノード

D41

D42

D43

D50

hellip

コンピュートノード

D31

D32

D33

D40hellip

コンピュートノード

D21

D22

D23

D30

hellip

コンピュートノード

D11

D12

D13

D20

hellip

コンピュートノード

D1

D2

D3

D10

hellip

SQL DB

SQL DB

SQL DB

SQL DB

SQL DB

SQL DB

54

データ無制限のストレージ と 分析プラットフォーム

無制限のストレージ(エクサバイト超)

ネイティブ HDFS に基づく実装

HDInsight Hortonworks Cloudera との統合

全ての HDFS 準拠プロジェクトとの親和性

(Spark Storm Flume Sqoop Kafka R etc)

Azure Data Lake Store- Hadoop Distributed File System (HDFS) For The Cloud

構造化データと非構造化データに対するデータ処理

宣言型の SQL 文 とカスタムコード (UDF UDT UDO hellip )

ローカルとリモートに対するクエリ

バッチ型インタラクティブ型ストリーミング型(in the future)

Azure Data Lake Analytics- New Query Language U-SQL

ETL パイプライン

スキーマの定義Relational

LOB

Applications

Schema-on-Write

直ちに必要でないデータは全て捨てられるかアーカイブされている

無限に保存 分析 結果の参照

あらゆるデータ

ソースからの

データ収集

Schema-on-Read

全データ取込要件にかかわらず

全データ格納そのままのフォーマットでスキーマ定義なし

分析実行Hadoopのような分析エンジンの利用

インタラクティブクエリ

バッチ型クエリ

機械学習

データウェアハウス

リアルタイム分析

リレーショナル

デバイス

観察仮説集まったデータから仮説をたてる

58

無制限のサイズ

ギガバイトからペタバイトのサイズの単一ファイル

巨大なスループットを必要とする大規模な分析システムを実現

あらゆるスループットに自動最適化

ペタバイト超のデータの並列コンピューティング

同一リージョン内に3つのコピーを自動的に作成

インストールやチューニングは不要

数分で稼働開始

必要に応じてどのようなサイズにもスケールアウト可能

データウェアハウスデータレイクストア

非構造Rawデータ(ログ文書バイナリ)

Tier 1

MachineLearning

Data LakeAnalytics HDInsight

目的に合わせた

データウェハウス分析処理

(売上分析経営分析)

データウェハウスに格納しきれなかった

過去データ関連データを連結して分析

ハードウェアの性能限界によって行えなかった処理量の分析を実現

ディスクコンピューティング

非構造データの

分析処理

(画像音声映像など)

広範囲のデータを利用した

機械学習統計解析処理

などによる高度分析

SQL Data Warehouse

Data LakeAnalytics HDInsight

Data LakeAnalytics

構造化データ半構造データ

分析用に加工(csv等)

Tier 2

アーカイブデータTier 2 DWHのアーカイブ

Tier 3

Analytics

Storage

HDInsight(ldquomanaged clustersrdquo)

Azure Data Lake Analytics

Azure Data Lake Store

Azure Data Lake

LOB Applications

SocialDevices

Clickstream

Sensors

Video

Web

Relational

HDInsight

Data Lake Analytics

Machine Learning

Spark

R

Azure Data Lake Store

Azure Data Lake Store

Azure Storage Blob

外部表Azure SQLData Warehouse

HDInsight

開発者は OSS に馴染んでいる Java Eclipse Hive etc

マネージド Hadoop クラスタにおいてカスタマイズ管理が可能でフレキシビリティがある

Azure Data Lake Analytics

C SQL amp PowerShell のスキル

経験を活かせる

利便性効率性自動スケール

ジョブ実行の仕組みが提供される

(New)

(New)

一般的なパターン

処理読み込み 保存

INSERT

OUTPUT

OUTPUT

SELECThellip

FROMhellip

WHEREhellip

+

PythonR

EXTRACT

EXTRACT

SELECT

SELECT

Azure

Data

Lake

Azure

Data

Lake

Azure

SQL

DB

Azure

Storage

Blobs

Azure

Storage

Blobs

RowSet RowSet

Cognitive Services

REFERENCE ASSEMBLY WebLogExtASM

rs =

EXTRACT

UserID string

Start DateTime

End DateTime

Region string

SitesVisited string

PagesVisited string

FROM ldquoLogsWebLogRecordstxtrdquo

USING WebLogExtractor ()

result = SELECT UserID

(EndSubtract(Start))TotalSeconds AS Duration

FROM rs ORDER BY Duration DESC FETCH 10

OUTPUT result TO ldquoLogsResultstop10tsv

USING OutputterTsv()

bull 型定義は C の型定義と同じ

bull データをファイルから抽出読み込み

するときにスキーマが必要

Data Lake Store 内 のファイル

独自形式を解析するカスタム関数

C の関数

行セット(中間テーブルの概念

に近い)

TSV形式で書き込む関数

U-SQL ジョブのサブミットAzure PortalやVisual StudioのAzure Data Lake ToolsからU-SQLジョブをサブミット可能

67

進捗

統計情報

従来型の処理分析 Azure Data Lake を中心とした処理分析

Business apps

Custom apps

Sensors and devices

ADL StorePeople

非構造化データも含めてあらゆるデータを格納

Azure SQL DW

Azure AD

Power BI

ADF

ADL Analytics

bull 処理分析業務の大半はデータ準備作業が占めるbull 処理分析業務に手間時間が必要

Business apps

Custom apps

Sensors and devices

HDInsight

ユーザー管理認証

データの連携

Power BI

File System

Database

Database

Hadoop

DWH

Data Mart

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

①大量データの受け入れ

②リアルタイム処理データの集約

③データの蓄積

構造化非構造化文書など様々な形式での保存

④データの加工移行

⑥機械学習

⑦Hadoop解析

⑧マイクロソフト技術を用いた分散解析

⑨通常のRMSが機能を追加した企業向けRを使用した解析

⑪クラウドベースの Self-Service BI 機能

⑫機械学習の予測モデルを業務システムなどから呼び出し可能にするサービス

外部クラウドなどからのデータ取り込み

②リアルタイム処理データの加工

⑤ディープラーニング

⑩Excelを用いた可視化

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

リアルタイム

バッチ

Data Factory Tools for Visual Studio

Azure Portal

Azure TableStorage

(Web ログレコード)

Data Factory

HDInsight

(Web ログをファイルにして

バッチ処理で集計)

SQL Database

(集計データをDB テーブルに格納)

Power BI

社内システム

DataManagement

Gateway

SQL Database

Data Warehouse

Blob Storage

Table Storage

httpportalazurecom

接続

メッセージ作成

メッセージ送信

var cs = ldquo接続文字列rdquovar path = ldquoイベントハブ名rdquovar eh = EventHubClientCreateFromConnectionString(cs path)

var msg = new user = thisUserIdentityNamelevel = leveltimestamp = demoTimestamp

var json = JsonConvertSerializeObject(msg)

ehSend(new EventData(EncodingUTF8GetBytes(json)))

EventProcessorHostを使う

bull

bull

bull

Functionsを使う

bull

bull

IEventProcessorProcessEventAsync(msg)

IEventProcessorProcessEventAsync(msg)

Run(string msg)

Azure azure-sdk-for-python

Point of Service Devices

Self CheckoutStations

Kiosks

Smart Phones

SlatesTablets

PCsLaptops

Servers

Digital Signs

DiagnosticEquipmentRemote Medical

MonitorsLogic

Controllers

SpecializedDevicesThin

Clients

Handhelds

Security

POS Terminals

AutomationDevices

VendingMachines

Kinect

ATM

Stream Analytics

入力 出力クエリデータストリーム

参照

bull ldquo入力rdquoldquo出力rdquoをクリックしそれぞれ作成

bull ldquoクエリrdquoをクリックしクエリを定義bull 作業が終わったらldquo開始rdquoで実

行開始

SELECT

INTO

FROM

SELECT user level AS SATLevel timestamp

INTO

FROM

デバイス接続性とデバイス管理およびブローカーサービス

データ管理と高度な分析 情報活用業務の生産性とプロセスの最適化

IoT Agent Gateway

予兆原因の学習モデル

ダッシュボード

参照ERPbull 顧客bull 設備bull 担当者

Notification Hubs

通知

予兆イベント

メンテ方法の推奨

bull ヘルス状態bull インシデント管理bull 対応のディスパッチ

現地技術要員のモバイルデバイス

オペレーションセンター

bull イベント ドア開閉軸アライメントキャビン速度モーター温度など

bull アラーム 故障アラームエラーコードなど

httpisstkeazurewebsitesnet

Event Hub

Stream Analytics

Azure ML

制御機器とセンサーのデータ

マシンデータの蓄積

メンテナンス方法の学習モデル

Machine Learning

Blob Storage

セルフサービス分析

Power BI

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce

cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-

system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of

your data while making it faster to get up and running with

batch streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources

so you can run queries on exabytes of data Includes U-

SQL a new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully

managed NoSQL database service that indexes stores and

queries data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

What do all of these have in common

They can all use Azure Analysis Services

Azure Analysis Services

Azure Analysis Services

BI semantic model

Business logic amp metrics

Data modeling

Security

Azure Analysis Services

Lifecycle management

In-memory cache

On-premises

Cloud

Data sources

SQL Database

SQL Data Warehouse

Other data sources

SQL Server

Analytics platform

system

Other data sources

On-premises

Cloud

Client tools

Power BI

Excel

Third party BI tools

Power BI Desktop

Rich semantic modelling

locatioidentifier

identifiertype

fieldidentifier

numberofunitssoldtodate

remaningnumber

Numberofuntissoldtoday

receivedback

productidentifier

descriptionline1

descriptionline2

qtyafterqtysales

familyidentifier

Source DataComplex raw data optimized for processing

Semantic ModelRich business user friendly semantic model

Product Id

Product Name

Product Description

Category

Category Id

Category Name

Category Description

Sub Category

Product Id

Shelf qty

Return qty

Order qty

Sale qty

Cloud Data

On-Premises

Data

Azure Analysis Services

Lightning fast queries

データ管理をきっかけに処理を実行

Web Glue

Bots IoT

DOMINOS STORES

Key Vault

Azure Active Directory

Azure Files

SSIS FRANCHISEE

AZURE WEST EUROPE

Azure Function

KEMPSSDESSRS

IN- AND EXTERNAL DATA SOURCES

orderprocessing

O365

App Insights

indexhtml

Azure Functions Proxies

couponprocessing

Use Bindings in Your Codefunctionjson

bindings [type httpTriggerdirection inwebHookType genericJsonname req

type httpdirection outname res

type queuename eventOutputqueueName aievents1connectionAiStorageConnectiondirection out

]

public static class OrderHandler

[FunctionName(OrderWebhook)]public static async TaskltHttpResponseMessagegt Run(

[HttpTrigger] HttpRequestMessage req[Queue(aievents1 Connection = AiStorageConnection)]

IAsyncCollectorltStringgt eventOutputTraceWriter log)

logInfo($Webhook was triggered)

string jsonContent = await reqContentReadAsStringAsync()dynamic data = JsonConvertDeserializeObject(jsonContent)

await eventOutputAddAsync(JsonConvertSerializeObject(GetLogData(data)))

int orderId = PlaceOrder(data)

return reqCreateResponse(HttpStatusCodeOK new orderNumber = orderId )

bull Workflow in the cloud

bull Powerful control flow

bull Connect functions and APIs

bull Declarative definition to persist in source control and drive deployments

Logic AppsCloud APIs and platform

bull Supports over 125 built-in connectors

bull Scales to meet your needs

bull Enables rapid development

bull Extends with custom APIs and

Functions

API connections

bull Authenticate once and reuse

Big Data Solutions Decision Tree

httpsbiz-excellencecom20160830big-data-dt

Machine Learning Solutions Decision Tree

httpsbiz-excellencecom20160913machine-

learning-dt

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of your

data while making it faster to get up and running with batch

streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources so

you can run queries on exabytes of data Includes U-SQL a

new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully managed

NoSQL database service that indexes stores and queries

data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

Microsoft Big Data Portfolio

SQL Server Stretch

Business intelligence

Machine learning analytics

Insights

Azure SQL Database

SQL Server 2016

SQL Server 2016 Fast Track

Azure SQL DW

ADLS amp ADLA

DocumentDB

HDInsight

Hadoop

Analytics Platform System

Sequential Scale Out + AcrossScale Up

Key

Relational Non-relational

On

-pre

mis

es

Clo

ud

Microsoft has solutions covering

and connecting all four

quadrants ndash thatrsquos why SQL

Server is one of the most utilized

databases in the world

Azure

Data Lake Store

Azure

Blob StoragePurpose Optimized for big data analytics General purpose bulk storage

Use Cases Batch Interactive Streaming App backend backup data media storage for

streaming

Units of Storage Accounts Folders Files Accounts Containers Blobs

Structure Hierarchical File System Flat namespace

WebHDFS Implements WebHDFS No (WASB)

Security AD SAS keys

Storage Auto SharedFiles chunked Manually manage expansionFiles intact

Service State Generally Available PolyBase

just supported

Generally Available

Billing Pay for data stored and for IO Pay for data stored and for IO

Region Availability Two US regions (Other regions coming soon) All Azure Regions

ADL Store vs Blob Store

httpsdocsmicrosoftcomen-usazuredata-lake-storedata-lake-store-comparison-with-blob-storage

Want Hadoop

Need exact same on-prem

Need interactive streaming

MandatoryNo strong opinion

Azure Marketplace (IaaS)

bull Need all workloads exactly like on-

premises

bull Need 100 HortonworksClouderaMapR

Azure HDInsight

bull Most Hadoop workloads

bull Fully managed by Microsoft

bull Sell HDI + ADLS

bull Stickier to Microsoft than VMs

bull Can do interactive (Spark) and streaming

(StormSpark)

Azure Data Lake Analytics

bull Easiest experience for admin no sense of

clusters instant scale per job

bull Easiest experience for developers Visual

StudioU-SQL (C+SQL)

bull Sell ADLA + ADLS

bull Batch workloads only

Need everything exactly like on-prem

Need core projects Yes Batch is OK

Always present ADLA if NET or Visual Studio Shop

If NET or VS shop

Azure SQL DW HDInsight Hive HDInsight Spark Azure Data Lake SQL Server (IaaS)

Volume Petabytes Petabytes Petabytes Petabytes Terabytes

Security Encryption TD

Audit

ADLS Apache

Ranger

ADLS AAD Security

Groups (data)

Encryption TD

Audit

Languages T-SQL HiveQL SparkSQL HiveQL

Scala Java Python

R

U-SQL T-SQL

Extensibility No Yes NETSerDe Yes Packages Yes NET Yes NET CLR

External File

Types

ORC TXT

Parquet RCFile

ORC CSV Parquet

+ others

Parquet JSON

Hive + others

Many ORC TXT Parquet

RCFile

Admin Low-Medium Medium-High Medium-High Low High

Cost Model DWU Nodes amp VM Nodes amp VM UnitsJobs VM

Schema

Definition

Schema on Write

Polybase

Schema on Read Schema on Read Schema on Read Schema on Write

Polybase

Max DB Size 240TB Comp (5X

= 1PB)

Unlimited 64TB (64 1TB drives)

機械学習 Deep Learning 深層強化学習

画像解析

音声解析

データ分類異常検知 顧客グルーピング

数値予測売上予測 需要予測 品質管理

ラベル分類不良品分析 故障予測 チャーン分析

機械学習より強力な分析

自律学習型ロボット

自動運転車

テキストや画像等の自動生成

活用例

主に多層のニューラルネットワークを用いた手法での分析

分析のためには莫大なデータ量計算量知識スキルを要する

統計に基づいた手法での分析

そのため比較的少ないデータ量と計算量で分析を行うことができる

定義したあるべき姿に従い試行錯誤をして自ら学習を行うための分析手法である強化学習と深層学習を組み合わせた分析

Azure Machine Learning Cognitive Toolkit GPU Instance (N-Series)

マイクロソフトが提供する技術

テキストデータ機器のログデータなど

画像データ監視カメラの録画データ 機器の外観画像 顔画像など

動画データ監視カメラの録画データ 機器の稼働状況 人の作業映像など

音声データマイクからの収集データ 稼働音 室内音 人の音声など

数値データセンサーデータ 機器の制御データ計測データなど672342345

機械学習統計理論に基づいた分析手法を用いる用意するべきデータ量と処理する計算量の敷居が低め導入しやすい

Deep Learningデータ量が大きいため強力な分析手法が必要「膨大なデータ量を用意」「莫大な計算量を処理」が必要で敷居が非常に高い導入にはそれなりの覚悟が必要

Action

People

Automated Systems

Apps

Web

Mobile

Bots

Intelligence

Dashboards amp Visualizations

Cortana

Bot Framework

Cognitive Services

Power BI

Information Management

Event Hubs

Data Catalog

Data Factory

Machine Learning and Analytics

HDInsight

Stream Analytics

Intelligence

Data Lake Analytics

Machine Learning

Big Data Stores

SQL Data Warehouse

Data Lake Store

Data Sources

Apps

Sensors amp Devices

Data

Cortana Intelligence Suite

学習済み

モデル利用

学習モデル

作成

機械学習 教師あり学習

教師なし学習

強化学習

決定木

線形回帰

SVM

ロジスティック回帰

ニューラルネットワーク

クラスタリング

次元削減

Q学習

K-mean法

主成分分析

正準相関分析

ディープニューラルネットワーク

畳みこみニューラルネットワーク

再帰的ニューラルネットワーク

回帰結合ニューラルネットワーク

httpsazuremicrosoftcomen-usservicescognitive-services

わずか数行のコードで強力なアルゴリズムを持つアプリの作成が可能ですiOSAndroidWindows などのプラットフォームを問わず機能します

httpsazuremicrosoftcomja-jpservicesmachine-learning

ユーザーは簡単に予測分析ソリューションを構築デプロイ共有できます

httpswwwyoutubecomwatchv=9gDDO5ldT-4ampfeature=youtube

AI技術を利用したディープラーニング(深層学習)ツールキットです旧称「CNTK」から改名されました

ソースコード httpsgithubcomMicrosoftCNTK

SearchSpeech

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

コカコーラ誕生100周年キャンペーン

コカコーラボトルを「100歳」と認識

bull 自撮り写真をUp結果をSNS拡散

ナビタイムジャパン様

自然言語入力による路線検索BOT

bull ユーザーとの新たな接点(LINE)

bull 自然言語入力

Vision Language Knowledge

Vision Knowledge SearchSpeech Language

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

Microsoft SupportVirtual Agent

自然言語入力による自動応答サポート窓口

bull 過去QampAデータ解析に基づく回答抽出

bull 定型外はldquo人対応rdquo

UBER

登録ドライバーをスマホ経由で顔認証

VOLVO

表情からの危険予測

Search

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

アロバ様

監視カメラによる店舗内行動分析

bull 顔認識による 顧客識別

bull 表情分析

東京サマーランド様にて導入済み

HmComm様

コールセンターソリューション

bull 会話をテキスト化キーワードを解析

bull 過去QampA検索

bull 内容をCRM保存

Vision KnowledgeSpeech Language

導入事例東京サマーランド様

Video

Intelligent KioskhttpsgithubcomMicrosoftCognitive-Samples-IntelligentKiosk

ldquo(want to|request)rdquo

HoloLens

Page 13: やりたいことから考えるMicrosoft Azure 上の データストアの選び方とデータサイエンティスト向け活用法。KVSからDWHまで

Cognitive Services API

Azure Gallery

Microsoft R Server

Azure Machine Learning Studio

Cognitive Toolkit Tensor Flow

Seamlessly blend technologies

Azure Data Lake Analytics

取り扱いたいデータタイプ

Audio video images Meaningless without adding some structure

非構造データUnstructured

構造化データStructured

CSV Columnar Storage (Parquet ORC) Strict data model structure

JSON XML sensor data social media device data web logs Flexible data model structure

文書など緩やかな構造を持つ半構造データ

Semi-Structured

Azure Storage様々な文書Blobデータテーブル形式のデータが保存可能なストレージ

SQL DatabaseSQL Server 2016 と同等の機能を提供する PaaS 型データベース サービス

Azure Database for MySQLPostgreSQLPaaS 型データベース サービス のMySQLPostgreSQL版

Cosmos DBマルチデータモデルのグローバル分散DB

Azure Data Lake Storeビッグ データの分析ワークロードに対応する大規模データ格納エリア

Azure SQL Data Warehouseペタバイト単位のストレージを有した PaaS 型データ ウェアハウス サービス

IoT Hub

Event Hubs

Data Warehouse

Data Factory

App Insights Log Analytics

Monitor

CDN

Search Power BI

Blob Storage Pillars

Open amp

Interoperable

Manageable amp

Cost Efficient

Scalable amp

Performant

Secure amp

Compliant

Durable amp

Available

Machine Learning

Stream Analytics

Batch

Functions

Data Lake Analytics

Azure HDInsight

Big Data Use Cases

Ingest amp ETL Streaming Analytics amp Machine Learning Data Aggregation Presentation

QueuesReliable queues at

scale for cloud

services

ファイルを保存する際にはこの3つの選択肢があります

httpsdocsmicrosoftcomja-jpazurestoragestorage-decide-blobs-files-disks

OS

アプリ アプリ アプリ アプリ

BLOB

効率

利用

仮想マシン

+BLOB

001log

002log

003log

004log

EN

EN

EN

EN

EN

EN

PS

PS

PS

PS ENEN

001log

002log

003log

004log

disk1vhd

PS = パーティション サーバー

EN = エクステント ノード

001log

002log

003log

004log

EN

EN

EN

EN

EN

EN

PS

PS

PS

PS ENEN

Block 1 Block 4Block 3Block 2

Imagejpg

Sparse File 512 byte aligned

51

2

10

24

15

36

20

48

25

60

AZCopy ndash Robocopy for Azure StorageStorage Explorer ndash Cross platform UX

Data Movement Library on CoreCLR

Python client library

仮想マシンSQL Enterprise

DS4 の場合

8 Core 28 GB RAM

Disk 0

読み取り書き込み Disk 1

Disk 2

P30

読み取りのみ

C

システム

D

キャッシュ

永続性あり 永続性なし 永続性あり (複数ボリュームの分割やストライプの構成が可能)

Premium Storage

デフォルト作成(仮想マシン付属) ユーザーが任意に追加

OS

Page ファイル

DBMS Exe

SQL Server バッファープール拡張

httpsazuremicrosoftcomja-jpdocumentationarticlesvirtual-machines-sql-server-performance-best-practices

httpsazuremicrosoftcomja-jpdocumentationarticlesvirtual-machines-sql-server-use-premium-storage

Disk n

P30

読み取りのみ

E

SQL データ(ページ圧縮)

Temp DB

Disk 3

P30

なし

F

Transaction-

Log

Disk Cache

344GB

最大Disk IOPS

256MBsec

P30合計の

600MBsは出ない

NTFSアロケーションユニットサイズ 64KB

データベース ページ圧縮 有効

Table用Index用Temp DB用に別

ドライブに拡張可能

キャッシュ設定は添付の

URLを参照

最大Disk IOPS

200MBsec

最大Disk IOPS

200MBsec

最大Disk IOPS

200MBsec

フルマネージドの RDBMS

データベース

RDBMS

OS

Azure が管理

利用者が管理

VM上の RDBMS

ホスト OS

仮想化

フルコントロール

データベース

RDBMS

OS

仮想化

ホスト OS

容易な管理

Azure Database

SQL Server物理マシン仮想マシン

SQL Server on Azure VM仮想マシン

SQL Database Data WarehousePaaS

物理マシン仮想マシン

VM Template Market place仮想マシン

Azure Database for MySQL PostgreSQL

論理データベース

Write

Write Ack

Ack

Read

value write

Ack

特徴

無停止フェールオーバー

無停止スケールアップ(プラン変更)

自動パフォーマンスチューニング

スループット指定によるプロビジョニング

データベース トランザクション ユニット (DTU) とエラスティック データベース トランザクション ユニット (eDTU) の説明

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-what-is-a-dtu

Azure SQL Database Query Performance Insight

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-query-performance

Query Store is turned on by default for Azure SQL Database

httpsazuremicrosoftcomja-jpupdatesquery-store-on-is-the-new-default-for-azure-sql-database

Queries

SQL Database

Deeper Insight

Query

Store

SQL Database Advisor

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-advisor

Azure Portal を使用した SQL Database Advisor

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-advisor-portal

領域 改善後

新しいインデックス提案が作成されるまで 18時間以内

T-SQL文が実行されるまでのタイムラグ 即時(数分以内)

「悪い」チューニング内容に対しての検知時間 1時間以内

次のインデックス提案が行われるまでの待ち時

間即時(数分以内)

導入までの総時間 1日以内

SQL Database の脅威の検出

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-threat-detection

コントロールノード

SQLDB

Azure Blob Storage(WASB)

100 DWU lt gt 2000 DWUコントロールノード

ユーザーからの接続コンピュートとストレージの調整

コンピュートノード

コンピュートノード

コンピュートノード

コンピュートノード

SQLDB

SQLDB

SQLDB

SQLDB

Azure Blob Storage(WASB)

コントロールノード

SQLDB コントロールノード

D51

D52

D53

D60

hellip

D41

D42

D43

D50

hellip

コンピュートノード

D31

D32

D33

D40hellip

D21

D22

D23

D30

hellip

D11

D12

D13

D20

hellip

D1

D2

D3

D10

hellip

SQL DB

Azure Blob Storage(WASB)

コントロールノード

SQLDB コントロールノード

コンピュートノード

D51

D52

D53

D60

hellipコンピュートノード

D41

D42

D43

D50

hellip

コンピュートノード

D31

D32

D33

D40hellip

コンピュートノード

D21

D22

D23

D30

hellip

コンピュートノード

D11

D12

D13

D20

hellip

コンピュートノード

D1

D2

D3

D10

hellip

SQL DB

SQL DB

SQL DB

SQL DB

SQL DB

SQL DB

54

データ無制限のストレージ と 分析プラットフォーム

無制限のストレージ(エクサバイト超)

ネイティブ HDFS に基づく実装

HDInsight Hortonworks Cloudera との統合

全ての HDFS 準拠プロジェクトとの親和性

(Spark Storm Flume Sqoop Kafka R etc)

Azure Data Lake Store- Hadoop Distributed File System (HDFS) For The Cloud

構造化データと非構造化データに対するデータ処理

宣言型の SQL 文 とカスタムコード (UDF UDT UDO hellip )

ローカルとリモートに対するクエリ

バッチ型インタラクティブ型ストリーミング型(in the future)

Azure Data Lake Analytics- New Query Language U-SQL

ETL パイプライン

スキーマの定義Relational

LOB

Applications

Schema-on-Write

直ちに必要でないデータは全て捨てられるかアーカイブされている

無限に保存 分析 結果の参照

あらゆるデータ

ソースからの

データ収集

Schema-on-Read

全データ取込要件にかかわらず

全データ格納そのままのフォーマットでスキーマ定義なし

分析実行Hadoopのような分析エンジンの利用

インタラクティブクエリ

バッチ型クエリ

機械学習

データウェアハウス

リアルタイム分析

リレーショナル

デバイス

観察仮説集まったデータから仮説をたてる

58

無制限のサイズ

ギガバイトからペタバイトのサイズの単一ファイル

巨大なスループットを必要とする大規模な分析システムを実現

あらゆるスループットに自動最適化

ペタバイト超のデータの並列コンピューティング

同一リージョン内に3つのコピーを自動的に作成

インストールやチューニングは不要

数分で稼働開始

必要に応じてどのようなサイズにもスケールアウト可能

データウェアハウスデータレイクストア

非構造Rawデータ(ログ文書バイナリ)

Tier 1

MachineLearning

Data LakeAnalytics HDInsight

目的に合わせた

データウェハウス分析処理

(売上分析経営分析)

データウェハウスに格納しきれなかった

過去データ関連データを連結して分析

ハードウェアの性能限界によって行えなかった処理量の分析を実現

ディスクコンピューティング

非構造データの

分析処理

(画像音声映像など)

広範囲のデータを利用した

機械学習統計解析処理

などによる高度分析

SQL Data Warehouse

Data LakeAnalytics HDInsight

Data LakeAnalytics

構造化データ半構造データ

分析用に加工(csv等)

Tier 2

アーカイブデータTier 2 DWHのアーカイブ

Tier 3

Analytics

Storage

HDInsight(ldquomanaged clustersrdquo)

Azure Data Lake Analytics

Azure Data Lake Store

Azure Data Lake

LOB Applications

SocialDevices

Clickstream

Sensors

Video

Web

Relational

HDInsight

Data Lake Analytics

Machine Learning

Spark

R

Azure Data Lake Store

Azure Data Lake Store

Azure Storage Blob

外部表Azure SQLData Warehouse

HDInsight

開発者は OSS に馴染んでいる Java Eclipse Hive etc

マネージド Hadoop クラスタにおいてカスタマイズ管理が可能でフレキシビリティがある

Azure Data Lake Analytics

C SQL amp PowerShell のスキル

経験を活かせる

利便性効率性自動スケール

ジョブ実行の仕組みが提供される

(New)

(New)

一般的なパターン

処理読み込み 保存

INSERT

OUTPUT

OUTPUT

SELECThellip

FROMhellip

WHEREhellip

+

PythonR

EXTRACT

EXTRACT

SELECT

SELECT

Azure

Data

Lake

Azure

Data

Lake

Azure

SQL

DB

Azure

Storage

Blobs

Azure

Storage

Blobs

RowSet RowSet

Cognitive Services

REFERENCE ASSEMBLY WebLogExtASM

rs =

EXTRACT

UserID string

Start DateTime

End DateTime

Region string

SitesVisited string

PagesVisited string

FROM ldquoLogsWebLogRecordstxtrdquo

USING WebLogExtractor ()

result = SELECT UserID

(EndSubtract(Start))TotalSeconds AS Duration

FROM rs ORDER BY Duration DESC FETCH 10

OUTPUT result TO ldquoLogsResultstop10tsv

USING OutputterTsv()

bull 型定義は C の型定義と同じ

bull データをファイルから抽出読み込み

するときにスキーマが必要

Data Lake Store 内 のファイル

独自形式を解析するカスタム関数

C の関数

行セット(中間テーブルの概念

に近い)

TSV形式で書き込む関数

U-SQL ジョブのサブミットAzure PortalやVisual StudioのAzure Data Lake ToolsからU-SQLジョブをサブミット可能

67

進捗

統計情報

従来型の処理分析 Azure Data Lake を中心とした処理分析

Business apps

Custom apps

Sensors and devices

ADL StorePeople

非構造化データも含めてあらゆるデータを格納

Azure SQL DW

Azure AD

Power BI

ADF

ADL Analytics

bull 処理分析業務の大半はデータ準備作業が占めるbull 処理分析業務に手間時間が必要

Business apps

Custom apps

Sensors and devices

HDInsight

ユーザー管理認証

データの連携

Power BI

File System

Database

Database

Hadoop

DWH

Data Mart

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

①大量データの受け入れ

②リアルタイム処理データの集約

③データの蓄積

構造化非構造化文書など様々な形式での保存

④データの加工移行

⑥機械学習

⑦Hadoop解析

⑧マイクロソフト技術を用いた分散解析

⑨通常のRMSが機能を追加した企業向けRを使用した解析

⑪クラウドベースの Self-Service BI 機能

⑫機械学習の予測モデルを業務システムなどから呼び出し可能にするサービス

外部クラウドなどからのデータ取り込み

②リアルタイム処理データの加工

⑤ディープラーニング

⑩Excelを用いた可視化

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

リアルタイム

バッチ

Data Factory Tools for Visual Studio

Azure Portal

Azure TableStorage

(Web ログレコード)

Data Factory

HDInsight

(Web ログをファイルにして

バッチ処理で集計)

SQL Database

(集計データをDB テーブルに格納)

Power BI

社内システム

DataManagement

Gateway

SQL Database

Data Warehouse

Blob Storage

Table Storage

httpportalazurecom

接続

メッセージ作成

メッセージ送信

var cs = ldquo接続文字列rdquovar path = ldquoイベントハブ名rdquovar eh = EventHubClientCreateFromConnectionString(cs path)

var msg = new user = thisUserIdentityNamelevel = leveltimestamp = demoTimestamp

var json = JsonConvertSerializeObject(msg)

ehSend(new EventData(EncodingUTF8GetBytes(json)))

EventProcessorHostを使う

bull

bull

bull

Functionsを使う

bull

bull

IEventProcessorProcessEventAsync(msg)

IEventProcessorProcessEventAsync(msg)

Run(string msg)

Azure azure-sdk-for-python

Point of Service Devices

Self CheckoutStations

Kiosks

Smart Phones

SlatesTablets

PCsLaptops

Servers

Digital Signs

DiagnosticEquipmentRemote Medical

MonitorsLogic

Controllers

SpecializedDevicesThin

Clients

Handhelds

Security

POS Terminals

AutomationDevices

VendingMachines

Kinect

ATM

Stream Analytics

入力 出力クエリデータストリーム

参照

bull ldquo入力rdquoldquo出力rdquoをクリックしそれぞれ作成

bull ldquoクエリrdquoをクリックしクエリを定義bull 作業が終わったらldquo開始rdquoで実

行開始

SELECT

INTO

FROM

SELECT user level AS SATLevel timestamp

INTO

FROM

デバイス接続性とデバイス管理およびブローカーサービス

データ管理と高度な分析 情報活用業務の生産性とプロセスの最適化

IoT Agent Gateway

予兆原因の学習モデル

ダッシュボード

参照ERPbull 顧客bull 設備bull 担当者

Notification Hubs

通知

予兆イベント

メンテ方法の推奨

bull ヘルス状態bull インシデント管理bull 対応のディスパッチ

現地技術要員のモバイルデバイス

オペレーションセンター

bull イベント ドア開閉軸アライメントキャビン速度モーター温度など

bull アラーム 故障アラームエラーコードなど

httpisstkeazurewebsitesnet

Event Hub

Stream Analytics

Azure ML

制御機器とセンサーのデータ

マシンデータの蓄積

メンテナンス方法の学習モデル

Machine Learning

Blob Storage

セルフサービス分析

Power BI

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce

cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-

system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of

your data while making it faster to get up and running with

batch streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources

so you can run queries on exabytes of data Includes U-

SQL a new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully

managed NoSQL database service that indexes stores and

queries data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

What do all of these have in common

They can all use Azure Analysis Services

Azure Analysis Services

Azure Analysis Services

BI semantic model

Business logic amp metrics

Data modeling

Security

Azure Analysis Services

Lifecycle management

In-memory cache

On-premises

Cloud

Data sources

SQL Database

SQL Data Warehouse

Other data sources

SQL Server

Analytics platform

system

Other data sources

On-premises

Cloud

Client tools

Power BI

Excel

Third party BI tools

Power BI Desktop

Rich semantic modelling

locatioidentifier

identifiertype

fieldidentifier

numberofunitssoldtodate

remaningnumber

Numberofuntissoldtoday

receivedback

productidentifier

descriptionline1

descriptionline2

qtyafterqtysales

familyidentifier

Source DataComplex raw data optimized for processing

Semantic ModelRich business user friendly semantic model

Product Id

Product Name

Product Description

Category

Category Id

Category Name

Category Description

Sub Category

Product Id

Shelf qty

Return qty

Order qty

Sale qty

Cloud Data

On-Premises

Data

Azure Analysis Services

Lightning fast queries

データ管理をきっかけに処理を実行

Web Glue

Bots IoT

DOMINOS STORES

Key Vault

Azure Active Directory

Azure Files

SSIS FRANCHISEE

AZURE WEST EUROPE

Azure Function

KEMPSSDESSRS

IN- AND EXTERNAL DATA SOURCES

orderprocessing

O365

App Insights

indexhtml

Azure Functions Proxies

couponprocessing

Use Bindings in Your Codefunctionjson

bindings [type httpTriggerdirection inwebHookType genericJsonname req

type httpdirection outname res

type queuename eventOutputqueueName aievents1connectionAiStorageConnectiondirection out

]

public static class OrderHandler

[FunctionName(OrderWebhook)]public static async TaskltHttpResponseMessagegt Run(

[HttpTrigger] HttpRequestMessage req[Queue(aievents1 Connection = AiStorageConnection)]

IAsyncCollectorltStringgt eventOutputTraceWriter log)

logInfo($Webhook was triggered)

string jsonContent = await reqContentReadAsStringAsync()dynamic data = JsonConvertDeserializeObject(jsonContent)

await eventOutputAddAsync(JsonConvertSerializeObject(GetLogData(data)))

int orderId = PlaceOrder(data)

return reqCreateResponse(HttpStatusCodeOK new orderNumber = orderId )

bull Workflow in the cloud

bull Powerful control flow

bull Connect functions and APIs

bull Declarative definition to persist in source control and drive deployments

Logic AppsCloud APIs and platform

bull Supports over 125 built-in connectors

bull Scales to meet your needs

bull Enables rapid development

bull Extends with custom APIs and

Functions

API connections

bull Authenticate once and reuse

Big Data Solutions Decision Tree

httpsbiz-excellencecom20160830big-data-dt

Machine Learning Solutions Decision Tree

httpsbiz-excellencecom20160913machine-

learning-dt

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of your

data while making it faster to get up and running with batch

streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources so

you can run queries on exabytes of data Includes U-SQL a

new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully managed

NoSQL database service that indexes stores and queries

data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

Microsoft Big Data Portfolio

SQL Server Stretch

Business intelligence

Machine learning analytics

Insights

Azure SQL Database

SQL Server 2016

SQL Server 2016 Fast Track

Azure SQL DW

ADLS amp ADLA

DocumentDB

HDInsight

Hadoop

Analytics Platform System

Sequential Scale Out + AcrossScale Up

Key

Relational Non-relational

On

-pre

mis

es

Clo

ud

Microsoft has solutions covering

and connecting all four

quadrants ndash thatrsquos why SQL

Server is one of the most utilized

databases in the world

Azure

Data Lake Store

Azure

Blob StoragePurpose Optimized for big data analytics General purpose bulk storage

Use Cases Batch Interactive Streaming App backend backup data media storage for

streaming

Units of Storage Accounts Folders Files Accounts Containers Blobs

Structure Hierarchical File System Flat namespace

WebHDFS Implements WebHDFS No (WASB)

Security AD SAS keys

Storage Auto SharedFiles chunked Manually manage expansionFiles intact

Service State Generally Available PolyBase

just supported

Generally Available

Billing Pay for data stored and for IO Pay for data stored and for IO

Region Availability Two US regions (Other regions coming soon) All Azure Regions

ADL Store vs Blob Store

httpsdocsmicrosoftcomen-usazuredata-lake-storedata-lake-store-comparison-with-blob-storage

Want Hadoop

Need exact same on-prem

Need interactive streaming

MandatoryNo strong opinion

Azure Marketplace (IaaS)

bull Need all workloads exactly like on-

premises

bull Need 100 HortonworksClouderaMapR

Azure HDInsight

bull Most Hadoop workloads

bull Fully managed by Microsoft

bull Sell HDI + ADLS

bull Stickier to Microsoft than VMs

bull Can do interactive (Spark) and streaming

(StormSpark)

Azure Data Lake Analytics

bull Easiest experience for admin no sense of

clusters instant scale per job

bull Easiest experience for developers Visual

StudioU-SQL (C+SQL)

bull Sell ADLA + ADLS

bull Batch workloads only

Need everything exactly like on-prem

Need core projects Yes Batch is OK

Always present ADLA if NET or Visual Studio Shop

If NET or VS shop

Azure SQL DW HDInsight Hive HDInsight Spark Azure Data Lake SQL Server (IaaS)

Volume Petabytes Petabytes Petabytes Petabytes Terabytes

Security Encryption TD

Audit

ADLS Apache

Ranger

ADLS AAD Security

Groups (data)

Encryption TD

Audit

Languages T-SQL HiveQL SparkSQL HiveQL

Scala Java Python

R

U-SQL T-SQL

Extensibility No Yes NETSerDe Yes Packages Yes NET Yes NET CLR

External File

Types

ORC TXT

Parquet RCFile

ORC CSV Parquet

+ others

Parquet JSON

Hive + others

Many ORC TXT Parquet

RCFile

Admin Low-Medium Medium-High Medium-High Low High

Cost Model DWU Nodes amp VM Nodes amp VM UnitsJobs VM

Schema

Definition

Schema on Write

Polybase

Schema on Read Schema on Read Schema on Read Schema on Write

Polybase

Max DB Size 240TB Comp (5X

= 1PB)

Unlimited 64TB (64 1TB drives)

機械学習 Deep Learning 深層強化学習

画像解析

音声解析

データ分類異常検知 顧客グルーピング

数値予測売上予測 需要予測 品質管理

ラベル分類不良品分析 故障予測 チャーン分析

機械学習より強力な分析

自律学習型ロボット

自動運転車

テキストや画像等の自動生成

活用例

主に多層のニューラルネットワークを用いた手法での分析

分析のためには莫大なデータ量計算量知識スキルを要する

統計に基づいた手法での分析

そのため比較的少ないデータ量と計算量で分析を行うことができる

定義したあるべき姿に従い試行錯誤をして自ら学習を行うための分析手法である強化学習と深層学習を組み合わせた分析

Azure Machine Learning Cognitive Toolkit GPU Instance (N-Series)

マイクロソフトが提供する技術

テキストデータ機器のログデータなど

画像データ監視カメラの録画データ 機器の外観画像 顔画像など

動画データ監視カメラの録画データ 機器の稼働状況 人の作業映像など

音声データマイクからの収集データ 稼働音 室内音 人の音声など

数値データセンサーデータ 機器の制御データ計測データなど672342345

機械学習統計理論に基づいた分析手法を用いる用意するべきデータ量と処理する計算量の敷居が低め導入しやすい

Deep Learningデータ量が大きいため強力な分析手法が必要「膨大なデータ量を用意」「莫大な計算量を処理」が必要で敷居が非常に高い導入にはそれなりの覚悟が必要

Action

People

Automated Systems

Apps

Web

Mobile

Bots

Intelligence

Dashboards amp Visualizations

Cortana

Bot Framework

Cognitive Services

Power BI

Information Management

Event Hubs

Data Catalog

Data Factory

Machine Learning and Analytics

HDInsight

Stream Analytics

Intelligence

Data Lake Analytics

Machine Learning

Big Data Stores

SQL Data Warehouse

Data Lake Store

Data Sources

Apps

Sensors amp Devices

Data

Cortana Intelligence Suite

学習済み

モデル利用

学習モデル

作成

機械学習 教師あり学習

教師なし学習

強化学習

決定木

線形回帰

SVM

ロジスティック回帰

ニューラルネットワーク

クラスタリング

次元削減

Q学習

K-mean法

主成分分析

正準相関分析

ディープニューラルネットワーク

畳みこみニューラルネットワーク

再帰的ニューラルネットワーク

回帰結合ニューラルネットワーク

httpsazuremicrosoftcomen-usservicescognitive-services

わずか数行のコードで強力なアルゴリズムを持つアプリの作成が可能ですiOSAndroidWindows などのプラットフォームを問わず機能します

httpsazuremicrosoftcomja-jpservicesmachine-learning

ユーザーは簡単に予測分析ソリューションを構築デプロイ共有できます

httpswwwyoutubecomwatchv=9gDDO5ldT-4ampfeature=youtube

AI技術を利用したディープラーニング(深層学習)ツールキットです旧称「CNTK」から改名されました

ソースコード httpsgithubcomMicrosoftCNTK

SearchSpeech

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

コカコーラ誕生100周年キャンペーン

コカコーラボトルを「100歳」と認識

bull 自撮り写真をUp結果をSNS拡散

ナビタイムジャパン様

自然言語入力による路線検索BOT

bull ユーザーとの新たな接点(LINE)

bull 自然言語入力

Vision Language Knowledge

Vision Knowledge SearchSpeech Language

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

Microsoft SupportVirtual Agent

自然言語入力による自動応答サポート窓口

bull 過去QampAデータ解析に基づく回答抽出

bull 定型外はldquo人対応rdquo

UBER

登録ドライバーをスマホ経由で顔認証

VOLVO

表情からの危険予測

Search

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

アロバ様

監視カメラによる店舗内行動分析

bull 顔認識による 顧客識別

bull 表情分析

東京サマーランド様にて導入済み

HmComm様

コールセンターソリューション

bull 会話をテキスト化キーワードを解析

bull 過去QampA検索

bull 内容をCRM保存

Vision KnowledgeSpeech Language

導入事例東京サマーランド様

Video

Intelligent KioskhttpsgithubcomMicrosoftCognitive-Samples-IntelligentKiosk

ldquo(want to|request)rdquo

HoloLens

Page 14: やりたいことから考えるMicrosoft Azure 上の データストアの選び方とデータサイエンティスト向け活用法。KVSからDWHまで

Microsoft R Server

Azure Machine Learning Studio

Cognitive Toolkit Tensor Flow

Seamlessly blend technologies

Azure Data Lake Analytics

取り扱いたいデータタイプ

Audio video images Meaningless without adding some structure

非構造データUnstructured

構造化データStructured

CSV Columnar Storage (Parquet ORC) Strict data model structure

JSON XML sensor data social media device data web logs Flexible data model structure

文書など緩やかな構造を持つ半構造データ

Semi-Structured

Azure Storage様々な文書Blobデータテーブル形式のデータが保存可能なストレージ

SQL DatabaseSQL Server 2016 と同等の機能を提供する PaaS 型データベース サービス

Azure Database for MySQLPostgreSQLPaaS 型データベース サービス のMySQLPostgreSQL版

Cosmos DBマルチデータモデルのグローバル分散DB

Azure Data Lake Storeビッグ データの分析ワークロードに対応する大規模データ格納エリア

Azure SQL Data Warehouseペタバイト単位のストレージを有した PaaS 型データ ウェアハウス サービス

IoT Hub

Event Hubs

Data Warehouse

Data Factory

App Insights Log Analytics

Monitor

CDN

Search Power BI

Blob Storage Pillars

Open amp

Interoperable

Manageable amp

Cost Efficient

Scalable amp

Performant

Secure amp

Compliant

Durable amp

Available

Machine Learning

Stream Analytics

Batch

Functions

Data Lake Analytics

Azure HDInsight

Big Data Use Cases

Ingest amp ETL Streaming Analytics amp Machine Learning Data Aggregation Presentation

QueuesReliable queues at

scale for cloud

services

ファイルを保存する際にはこの3つの選択肢があります

httpsdocsmicrosoftcomja-jpazurestoragestorage-decide-blobs-files-disks

OS

アプリ アプリ アプリ アプリ

BLOB

効率

利用

仮想マシン

+BLOB

001log

002log

003log

004log

EN

EN

EN

EN

EN

EN

PS

PS

PS

PS ENEN

001log

002log

003log

004log

disk1vhd

PS = パーティション サーバー

EN = エクステント ノード

001log

002log

003log

004log

EN

EN

EN

EN

EN

EN

PS

PS

PS

PS ENEN

Block 1 Block 4Block 3Block 2

Imagejpg

Sparse File 512 byte aligned

51

2

10

24

15

36

20

48

25

60

AZCopy ndash Robocopy for Azure StorageStorage Explorer ndash Cross platform UX

Data Movement Library on CoreCLR

Python client library

仮想マシンSQL Enterprise

DS4 の場合

8 Core 28 GB RAM

Disk 0

読み取り書き込み Disk 1

Disk 2

P30

読み取りのみ

C

システム

D

キャッシュ

永続性あり 永続性なし 永続性あり (複数ボリュームの分割やストライプの構成が可能)

Premium Storage

デフォルト作成(仮想マシン付属) ユーザーが任意に追加

OS

Page ファイル

DBMS Exe

SQL Server バッファープール拡張

httpsazuremicrosoftcomja-jpdocumentationarticlesvirtual-machines-sql-server-performance-best-practices

httpsazuremicrosoftcomja-jpdocumentationarticlesvirtual-machines-sql-server-use-premium-storage

Disk n

P30

読み取りのみ

E

SQL データ(ページ圧縮)

Temp DB

Disk 3

P30

なし

F

Transaction-

Log

Disk Cache

344GB

最大Disk IOPS

256MBsec

P30合計の

600MBsは出ない

NTFSアロケーションユニットサイズ 64KB

データベース ページ圧縮 有効

Table用Index用Temp DB用に別

ドライブに拡張可能

キャッシュ設定は添付の

URLを参照

最大Disk IOPS

200MBsec

最大Disk IOPS

200MBsec

最大Disk IOPS

200MBsec

フルマネージドの RDBMS

データベース

RDBMS

OS

Azure が管理

利用者が管理

VM上の RDBMS

ホスト OS

仮想化

フルコントロール

データベース

RDBMS

OS

仮想化

ホスト OS

容易な管理

Azure Database

SQL Server物理マシン仮想マシン

SQL Server on Azure VM仮想マシン

SQL Database Data WarehousePaaS

物理マシン仮想マシン

VM Template Market place仮想マシン

Azure Database for MySQL PostgreSQL

論理データベース

Write

Write Ack

Ack

Read

value write

Ack

特徴

無停止フェールオーバー

無停止スケールアップ(プラン変更)

自動パフォーマンスチューニング

スループット指定によるプロビジョニング

データベース トランザクション ユニット (DTU) とエラスティック データベース トランザクション ユニット (eDTU) の説明

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-what-is-a-dtu

Azure SQL Database Query Performance Insight

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-query-performance

Query Store is turned on by default for Azure SQL Database

httpsazuremicrosoftcomja-jpupdatesquery-store-on-is-the-new-default-for-azure-sql-database

Queries

SQL Database

Deeper Insight

Query

Store

SQL Database Advisor

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-advisor

Azure Portal を使用した SQL Database Advisor

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-advisor-portal

領域 改善後

新しいインデックス提案が作成されるまで 18時間以内

T-SQL文が実行されるまでのタイムラグ 即時(数分以内)

「悪い」チューニング内容に対しての検知時間 1時間以内

次のインデックス提案が行われるまでの待ち時

間即時(数分以内)

導入までの総時間 1日以内

SQL Database の脅威の検出

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-threat-detection

コントロールノード

SQLDB

Azure Blob Storage(WASB)

100 DWU lt gt 2000 DWUコントロールノード

ユーザーからの接続コンピュートとストレージの調整

コンピュートノード

コンピュートノード

コンピュートノード

コンピュートノード

SQLDB

SQLDB

SQLDB

SQLDB

Azure Blob Storage(WASB)

コントロールノード

SQLDB コントロールノード

D51

D52

D53

D60

hellip

D41

D42

D43

D50

hellip

コンピュートノード

D31

D32

D33

D40hellip

D21

D22

D23

D30

hellip

D11

D12

D13

D20

hellip

D1

D2

D3

D10

hellip

SQL DB

Azure Blob Storage(WASB)

コントロールノード

SQLDB コントロールノード

コンピュートノード

D51

D52

D53

D60

hellipコンピュートノード

D41

D42

D43

D50

hellip

コンピュートノード

D31

D32

D33

D40hellip

コンピュートノード

D21

D22

D23

D30

hellip

コンピュートノード

D11

D12

D13

D20

hellip

コンピュートノード

D1

D2

D3

D10

hellip

SQL DB

SQL DB

SQL DB

SQL DB

SQL DB

SQL DB

54

データ無制限のストレージ と 分析プラットフォーム

無制限のストレージ(エクサバイト超)

ネイティブ HDFS に基づく実装

HDInsight Hortonworks Cloudera との統合

全ての HDFS 準拠プロジェクトとの親和性

(Spark Storm Flume Sqoop Kafka R etc)

Azure Data Lake Store- Hadoop Distributed File System (HDFS) For The Cloud

構造化データと非構造化データに対するデータ処理

宣言型の SQL 文 とカスタムコード (UDF UDT UDO hellip )

ローカルとリモートに対するクエリ

バッチ型インタラクティブ型ストリーミング型(in the future)

Azure Data Lake Analytics- New Query Language U-SQL

ETL パイプライン

スキーマの定義Relational

LOB

Applications

Schema-on-Write

直ちに必要でないデータは全て捨てられるかアーカイブされている

無限に保存 分析 結果の参照

あらゆるデータ

ソースからの

データ収集

Schema-on-Read

全データ取込要件にかかわらず

全データ格納そのままのフォーマットでスキーマ定義なし

分析実行Hadoopのような分析エンジンの利用

インタラクティブクエリ

バッチ型クエリ

機械学習

データウェアハウス

リアルタイム分析

リレーショナル

デバイス

観察仮説集まったデータから仮説をたてる

58

無制限のサイズ

ギガバイトからペタバイトのサイズの単一ファイル

巨大なスループットを必要とする大規模な分析システムを実現

あらゆるスループットに自動最適化

ペタバイト超のデータの並列コンピューティング

同一リージョン内に3つのコピーを自動的に作成

インストールやチューニングは不要

数分で稼働開始

必要に応じてどのようなサイズにもスケールアウト可能

データウェアハウスデータレイクストア

非構造Rawデータ(ログ文書バイナリ)

Tier 1

MachineLearning

Data LakeAnalytics HDInsight

目的に合わせた

データウェハウス分析処理

(売上分析経営分析)

データウェハウスに格納しきれなかった

過去データ関連データを連結して分析

ハードウェアの性能限界によって行えなかった処理量の分析を実現

ディスクコンピューティング

非構造データの

分析処理

(画像音声映像など)

広範囲のデータを利用した

機械学習統計解析処理

などによる高度分析

SQL Data Warehouse

Data LakeAnalytics HDInsight

Data LakeAnalytics

構造化データ半構造データ

分析用に加工(csv等)

Tier 2

アーカイブデータTier 2 DWHのアーカイブ

Tier 3

Analytics

Storage

HDInsight(ldquomanaged clustersrdquo)

Azure Data Lake Analytics

Azure Data Lake Store

Azure Data Lake

LOB Applications

SocialDevices

Clickstream

Sensors

Video

Web

Relational

HDInsight

Data Lake Analytics

Machine Learning

Spark

R

Azure Data Lake Store

Azure Data Lake Store

Azure Storage Blob

外部表Azure SQLData Warehouse

HDInsight

開発者は OSS に馴染んでいる Java Eclipse Hive etc

マネージド Hadoop クラスタにおいてカスタマイズ管理が可能でフレキシビリティがある

Azure Data Lake Analytics

C SQL amp PowerShell のスキル

経験を活かせる

利便性効率性自動スケール

ジョブ実行の仕組みが提供される

(New)

(New)

一般的なパターン

処理読み込み 保存

INSERT

OUTPUT

OUTPUT

SELECThellip

FROMhellip

WHEREhellip

+

PythonR

EXTRACT

EXTRACT

SELECT

SELECT

Azure

Data

Lake

Azure

Data

Lake

Azure

SQL

DB

Azure

Storage

Blobs

Azure

Storage

Blobs

RowSet RowSet

Cognitive Services

REFERENCE ASSEMBLY WebLogExtASM

rs =

EXTRACT

UserID string

Start DateTime

End DateTime

Region string

SitesVisited string

PagesVisited string

FROM ldquoLogsWebLogRecordstxtrdquo

USING WebLogExtractor ()

result = SELECT UserID

(EndSubtract(Start))TotalSeconds AS Duration

FROM rs ORDER BY Duration DESC FETCH 10

OUTPUT result TO ldquoLogsResultstop10tsv

USING OutputterTsv()

bull 型定義は C の型定義と同じ

bull データをファイルから抽出読み込み

するときにスキーマが必要

Data Lake Store 内 のファイル

独自形式を解析するカスタム関数

C の関数

行セット(中間テーブルの概念

に近い)

TSV形式で書き込む関数

U-SQL ジョブのサブミットAzure PortalやVisual StudioのAzure Data Lake ToolsからU-SQLジョブをサブミット可能

67

進捗

統計情報

従来型の処理分析 Azure Data Lake を中心とした処理分析

Business apps

Custom apps

Sensors and devices

ADL StorePeople

非構造化データも含めてあらゆるデータを格納

Azure SQL DW

Azure AD

Power BI

ADF

ADL Analytics

bull 処理分析業務の大半はデータ準備作業が占めるbull 処理分析業務に手間時間が必要

Business apps

Custom apps

Sensors and devices

HDInsight

ユーザー管理認証

データの連携

Power BI

File System

Database

Database

Hadoop

DWH

Data Mart

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

①大量データの受け入れ

②リアルタイム処理データの集約

③データの蓄積

構造化非構造化文書など様々な形式での保存

④データの加工移行

⑥機械学習

⑦Hadoop解析

⑧マイクロソフト技術を用いた分散解析

⑨通常のRMSが機能を追加した企業向けRを使用した解析

⑪クラウドベースの Self-Service BI 機能

⑫機械学習の予測モデルを業務システムなどから呼び出し可能にするサービス

外部クラウドなどからのデータ取り込み

②リアルタイム処理データの加工

⑤ディープラーニング

⑩Excelを用いた可視化

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

リアルタイム

バッチ

Data Factory Tools for Visual Studio

Azure Portal

Azure TableStorage

(Web ログレコード)

Data Factory

HDInsight

(Web ログをファイルにして

バッチ処理で集計)

SQL Database

(集計データをDB テーブルに格納)

Power BI

社内システム

DataManagement

Gateway

SQL Database

Data Warehouse

Blob Storage

Table Storage

httpportalazurecom

接続

メッセージ作成

メッセージ送信

var cs = ldquo接続文字列rdquovar path = ldquoイベントハブ名rdquovar eh = EventHubClientCreateFromConnectionString(cs path)

var msg = new user = thisUserIdentityNamelevel = leveltimestamp = demoTimestamp

var json = JsonConvertSerializeObject(msg)

ehSend(new EventData(EncodingUTF8GetBytes(json)))

EventProcessorHostを使う

bull

bull

bull

Functionsを使う

bull

bull

IEventProcessorProcessEventAsync(msg)

IEventProcessorProcessEventAsync(msg)

Run(string msg)

Azure azure-sdk-for-python

Point of Service Devices

Self CheckoutStations

Kiosks

Smart Phones

SlatesTablets

PCsLaptops

Servers

Digital Signs

DiagnosticEquipmentRemote Medical

MonitorsLogic

Controllers

SpecializedDevicesThin

Clients

Handhelds

Security

POS Terminals

AutomationDevices

VendingMachines

Kinect

ATM

Stream Analytics

入力 出力クエリデータストリーム

参照

bull ldquo入力rdquoldquo出力rdquoをクリックしそれぞれ作成

bull ldquoクエリrdquoをクリックしクエリを定義bull 作業が終わったらldquo開始rdquoで実

行開始

SELECT

INTO

FROM

SELECT user level AS SATLevel timestamp

INTO

FROM

デバイス接続性とデバイス管理およびブローカーサービス

データ管理と高度な分析 情報活用業務の生産性とプロセスの最適化

IoT Agent Gateway

予兆原因の学習モデル

ダッシュボード

参照ERPbull 顧客bull 設備bull 担当者

Notification Hubs

通知

予兆イベント

メンテ方法の推奨

bull ヘルス状態bull インシデント管理bull 対応のディスパッチ

現地技術要員のモバイルデバイス

オペレーションセンター

bull イベント ドア開閉軸アライメントキャビン速度モーター温度など

bull アラーム 故障アラームエラーコードなど

httpisstkeazurewebsitesnet

Event Hub

Stream Analytics

Azure ML

制御機器とセンサーのデータ

マシンデータの蓄積

メンテナンス方法の学習モデル

Machine Learning

Blob Storage

セルフサービス分析

Power BI

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce

cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-

system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of

your data while making it faster to get up and running with

batch streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources

so you can run queries on exabytes of data Includes U-

SQL a new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully

managed NoSQL database service that indexes stores and

queries data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

What do all of these have in common

They can all use Azure Analysis Services

Azure Analysis Services

Azure Analysis Services

BI semantic model

Business logic amp metrics

Data modeling

Security

Azure Analysis Services

Lifecycle management

In-memory cache

On-premises

Cloud

Data sources

SQL Database

SQL Data Warehouse

Other data sources

SQL Server

Analytics platform

system

Other data sources

On-premises

Cloud

Client tools

Power BI

Excel

Third party BI tools

Power BI Desktop

Rich semantic modelling

locatioidentifier

identifiertype

fieldidentifier

numberofunitssoldtodate

remaningnumber

Numberofuntissoldtoday

receivedback

productidentifier

descriptionline1

descriptionline2

qtyafterqtysales

familyidentifier

Source DataComplex raw data optimized for processing

Semantic ModelRich business user friendly semantic model

Product Id

Product Name

Product Description

Category

Category Id

Category Name

Category Description

Sub Category

Product Id

Shelf qty

Return qty

Order qty

Sale qty

Cloud Data

On-Premises

Data

Azure Analysis Services

Lightning fast queries

データ管理をきっかけに処理を実行

Web Glue

Bots IoT

DOMINOS STORES

Key Vault

Azure Active Directory

Azure Files

SSIS FRANCHISEE

AZURE WEST EUROPE

Azure Function

KEMPSSDESSRS

IN- AND EXTERNAL DATA SOURCES

orderprocessing

O365

App Insights

indexhtml

Azure Functions Proxies

couponprocessing

Use Bindings in Your Codefunctionjson

bindings [type httpTriggerdirection inwebHookType genericJsonname req

type httpdirection outname res

type queuename eventOutputqueueName aievents1connectionAiStorageConnectiondirection out

]

public static class OrderHandler

[FunctionName(OrderWebhook)]public static async TaskltHttpResponseMessagegt Run(

[HttpTrigger] HttpRequestMessage req[Queue(aievents1 Connection = AiStorageConnection)]

IAsyncCollectorltStringgt eventOutputTraceWriter log)

logInfo($Webhook was triggered)

string jsonContent = await reqContentReadAsStringAsync()dynamic data = JsonConvertDeserializeObject(jsonContent)

await eventOutputAddAsync(JsonConvertSerializeObject(GetLogData(data)))

int orderId = PlaceOrder(data)

return reqCreateResponse(HttpStatusCodeOK new orderNumber = orderId )

bull Workflow in the cloud

bull Powerful control flow

bull Connect functions and APIs

bull Declarative definition to persist in source control and drive deployments

Logic AppsCloud APIs and platform

bull Supports over 125 built-in connectors

bull Scales to meet your needs

bull Enables rapid development

bull Extends with custom APIs and

Functions

API connections

bull Authenticate once and reuse

Big Data Solutions Decision Tree

httpsbiz-excellencecom20160830big-data-dt

Machine Learning Solutions Decision Tree

httpsbiz-excellencecom20160913machine-

learning-dt

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of your

data while making it faster to get up and running with batch

streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources so

you can run queries on exabytes of data Includes U-SQL a

new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully managed

NoSQL database service that indexes stores and queries

data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

Microsoft Big Data Portfolio

SQL Server Stretch

Business intelligence

Machine learning analytics

Insights

Azure SQL Database

SQL Server 2016

SQL Server 2016 Fast Track

Azure SQL DW

ADLS amp ADLA

DocumentDB

HDInsight

Hadoop

Analytics Platform System

Sequential Scale Out + AcrossScale Up

Key

Relational Non-relational

On

-pre

mis

es

Clo

ud

Microsoft has solutions covering

and connecting all four

quadrants ndash thatrsquos why SQL

Server is one of the most utilized

databases in the world

Azure

Data Lake Store

Azure

Blob StoragePurpose Optimized for big data analytics General purpose bulk storage

Use Cases Batch Interactive Streaming App backend backup data media storage for

streaming

Units of Storage Accounts Folders Files Accounts Containers Blobs

Structure Hierarchical File System Flat namespace

WebHDFS Implements WebHDFS No (WASB)

Security AD SAS keys

Storage Auto SharedFiles chunked Manually manage expansionFiles intact

Service State Generally Available PolyBase

just supported

Generally Available

Billing Pay for data stored and for IO Pay for data stored and for IO

Region Availability Two US regions (Other regions coming soon) All Azure Regions

ADL Store vs Blob Store

httpsdocsmicrosoftcomen-usazuredata-lake-storedata-lake-store-comparison-with-blob-storage

Want Hadoop

Need exact same on-prem

Need interactive streaming

MandatoryNo strong opinion

Azure Marketplace (IaaS)

bull Need all workloads exactly like on-

premises

bull Need 100 HortonworksClouderaMapR

Azure HDInsight

bull Most Hadoop workloads

bull Fully managed by Microsoft

bull Sell HDI + ADLS

bull Stickier to Microsoft than VMs

bull Can do interactive (Spark) and streaming

(StormSpark)

Azure Data Lake Analytics

bull Easiest experience for admin no sense of

clusters instant scale per job

bull Easiest experience for developers Visual

StudioU-SQL (C+SQL)

bull Sell ADLA + ADLS

bull Batch workloads only

Need everything exactly like on-prem

Need core projects Yes Batch is OK

Always present ADLA if NET or Visual Studio Shop

If NET or VS shop

Azure SQL DW HDInsight Hive HDInsight Spark Azure Data Lake SQL Server (IaaS)

Volume Petabytes Petabytes Petabytes Petabytes Terabytes

Security Encryption TD

Audit

ADLS Apache

Ranger

ADLS AAD Security

Groups (data)

Encryption TD

Audit

Languages T-SQL HiveQL SparkSQL HiveQL

Scala Java Python

R

U-SQL T-SQL

Extensibility No Yes NETSerDe Yes Packages Yes NET Yes NET CLR

External File

Types

ORC TXT

Parquet RCFile

ORC CSV Parquet

+ others

Parquet JSON

Hive + others

Many ORC TXT Parquet

RCFile

Admin Low-Medium Medium-High Medium-High Low High

Cost Model DWU Nodes amp VM Nodes amp VM UnitsJobs VM

Schema

Definition

Schema on Write

Polybase

Schema on Read Schema on Read Schema on Read Schema on Write

Polybase

Max DB Size 240TB Comp (5X

= 1PB)

Unlimited 64TB (64 1TB drives)

機械学習 Deep Learning 深層強化学習

画像解析

音声解析

データ分類異常検知 顧客グルーピング

数値予測売上予測 需要予測 品質管理

ラベル分類不良品分析 故障予測 チャーン分析

機械学習より強力な分析

自律学習型ロボット

自動運転車

テキストや画像等の自動生成

活用例

主に多層のニューラルネットワークを用いた手法での分析

分析のためには莫大なデータ量計算量知識スキルを要する

統計に基づいた手法での分析

そのため比較的少ないデータ量と計算量で分析を行うことができる

定義したあるべき姿に従い試行錯誤をして自ら学習を行うための分析手法である強化学習と深層学習を組み合わせた分析

Azure Machine Learning Cognitive Toolkit GPU Instance (N-Series)

マイクロソフトが提供する技術

テキストデータ機器のログデータなど

画像データ監視カメラの録画データ 機器の外観画像 顔画像など

動画データ監視カメラの録画データ 機器の稼働状況 人の作業映像など

音声データマイクからの収集データ 稼働音 室内音 人の音声など

数値データセンサーデータ 機器の制御データ計測データなど672342345

機械学習統計理論に基づいた分析手法を用いる用意するべきデータ量と処理する計算量の敷居が低め導入しやすい

Deep Learningデータ量が大きいため強力な分析手法が必要「膨大なデータ量を用意」「莫大な計算量を処理」が必要で敷居が非常に高い導入にはそれなりの覚悟が必要

Action

People

Automated Systems

Apps

Web

Mobile

Bots

Intelligence

Dashboards amp Visualizations

Cortana

Bot Framework

Cognitive Services

Power BI

Information Management

Event Hubs

Data Catalog

Data Factory

Machine Learning and Analytics

HDInsight

Stream Analytics

Intelligence

Data Lake Analytics

Machine Learning

Big Data Stores

SQL Data Warehouse

Data Lake Store

Data Sources

Apps

Sensors amp Devices

Data

Cortana Intelligence Suite

学習済み

モデル利用

学習モデル

作成

機械学習 教師あり学習

教師なし学習

強化学習

決定木

線形回帰

SVM

ロジスティック回帰

ニューラルネットワーク

クラスタリング

次元削減

Q学習

K-mean法

主成分分析

正準相関分析

ディープニューラルネットワーク

畳みこみニューラルネットワーク

再帰的ニューラルネットワーク

回帰結合ニューラルネットワーク

httpsazuremicrosoftcomen-usservicescognitive-services

わずか数行のコードで強力なアルゴリズムを持つアプリの作成が可能ですiOSAndroidWindows などのプラットフォームを問わず機能します

httpsazuremicrosoftcomja-jpservicesmachine-learning

ユーザーは簡単に予測分析ソリューションを構築デプロイ共有できます

httpswwwyoutubecomwatchv=9gDDO5ldT-4ampfeature=youtube

AI技術を利用したディープラーニング(深層学習)ツールキットです旧称「CNTK」から改名されました

ソースコード httpsgithubcomMicrosoftCNTK

SearchSpeech

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

コカコーラ誕生100周年キャンペーン

コカコーラボトルを「100歳」と認識

bull 自撮り写真をUp結果をSNS拡散

ナビタイムジャパン様

自然言語入力による路線検索BOT

bull ユーザーとの新たな接点(LINE)

bull 自然言語入力

Vision Language Knowledge

Vision Knowledge SearchSpeech Language

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

Microsoft SupportVirtual Agent

自然言語入力による自動応答サポート窓口

bull 過去QampAデータ解析に基づく回答抽出

bull 定型外はldquo人対応rdquo

UBER

登録ドライバーをスマホ経由で顔認証

VOLVO

表情からの危険予測

Search

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

アロバ様

監視カメラによる店舗内行動分析

bull 顔認識による 顧客識別

bull 表情分析

東京サマーランド様にて導入済み

HmComm様

コールセンターソリューション

bull 会話をテキスト化キーワードを解析

bull 過去QampA検索

bull 内容をCRM保存

Vision KnowledgeSpeech Language

導入事例東京サマーランド様

Video

Intelligent KioskhttpsgithubcomMicrosoftCognitive-Samples-IntelligentKiosk

ldquo(want to|request)rdquo

HoloLens

Page 15: やりたいことから考えるMicrosoft Azure 上の データストアの選び方とデータサイエンティスト向け活用法。KVSからDWHまで

Cognitive Toolkit Tensor Flow

Seamlessly blend technologies

Azure Data Lake Analytics

取り扱いたいデータタイプ

Audio video images Meaningless without adding some structure

非構造データUnstructured

構造化データStructured

CSV Columnar Storage (Parquet ORC) Strict data model structure

JSON XML sensor data social media device data web logs Flexible data model structure

文書など緩やかな構造を持つ半構造データ

Semi-Structured

Azure Storage様々な文書Blobデータテーブル形式のデータが保存可能なストレージ

SQL DatabaseSQL Server 2016 と同等の機能を提供する PaaS 型データベース サービス

Azure Database for MySQLPostgreSQLPaaS 型データベース サービス のMySQLPostgreSQL版

Cosmos DBマルチデータモデルのグローバル分散DB

Azure Data Lake Storeビッグ データの分析ワークロードに対応する大規模データ格納エリア

Azure SQL Data Warehouseペタバイト単位のストレージを有した PaaS 型データ ウェアハウス サービス

IoT Hub

Event Hubs

Data Warehouse

Data Factory

App Insights Log Analytics

Monitor

CDN

Search Power BI

Blob Storage Pillars

Open amp

Interoperable

Manageable amp

Cost Efficient

Scalable amp

Performant

Secure amp

Compliant

Durable amp

Available

Machine Learning

Stream Analytics

Batch

Functions

Data Lake Analytics

Azure HDInsight

Big Data Use Cases

Ingest amp ETL Streaming Analytics amp Machine Learning Data Aggregation Presentation

QueuesReliable queues at

scale for cloud

services

ファイルを保存する際にはこの3つの選択肢があります

httpsdocsmicrosoftcomja-jpazurestoragestorage-decide-blobs-files-disks

OS

アプリ アプリ アプリ アプリ

BLOB

効率

利用

仮想マシン

+BLOB

001log

002log

003log

004log

EN

EN

EN

EN

EN

EN

PS

PS

PS

PS ENEN

001log

002log

003log

004log

disk1vhd

PS = パーティション サーバー

EN = エクステント ノード

001log

002log

003log

004log

EN

EN

EN

EN

EN

EN

PS

PS

PS

PS ENEN

Block 1 Block 4Block 3Block 2

Imagejpg

Sparse File 512 byte aligned

51

2

10

24

15

36

20

48

25

60

AZCopy ndash Robocopy for Azure StorageStorage Explorer ndash Cross platform UX

Data Movement Library on CoreCLR

Python client library

仮想マシンSQL Enterprise

DS4 の場合

8 Core 28 GB RAM

Disk 0

読み取り書き込み Disk 1

Disk 2

P30

読み取りのみ

C

システム

D

キャッシュ

永続性あり 永続性なし 永続性あり (複数ボリュームの分割やストライプの構成が可能)

Premium Storage

デフォルト作成(仮想マシン付属) ユーザーが任意に追加

OS

Page ファイル

DBMS Exe

SQL Server バッファープール拡張

httpsazuremicrosoftcomja-jpdocumentationarticlesvirtual-machines-sql-server-performance-best-practices

httpsazuremicrosoftcomja-jpdocumentationarticlesvirtual-machines-sql-server-use-premium-storage

Disk n

P30

読み取りのみ

E

SQL データ(ページ圧縮)

Temp DB

Disk 3

P30

なし

F

Transaction-

Log

Disk Cache

344GB

最大Disk IOPS

256MBsec

P30合計の

600MBsは出ない

NTFSアロケーションユニットサイズ 64KB

データベース ページ圧縮 有効

Table用Index用Temp DB用に別

ドライブに拡張可能

キャッシュ設定は添付の

URLを参照

最大Disk IOPS

200MBsec

最大Disk IOPS

200MBsec

最大Disk IOPS

200MBsec

フルマネージドの RDBMS

データベース

RDBMS

OS

Azure が管理

利用者が管理

VM上の RDBMS

ホスト OS

仮想化

フルコントロール

データベース

RDBMS

OS

仮想化

ホスト OS

容易な管理

Azure Database

SQL Server物理マシン仮想マシン

SQL Server on Azure VM仮想マシン

SQL Database Data WarehousePaaS

物理マシン仮想マシン

VM Template Market place仮想マシン

Azure Database for MySQL PostgreSQL

論理データベース

Write

Write Ack

Ack

Read

value write

Ack

特徴

無停止フェールオーバー

無停止スケールアップ(プラン変更)

自動パフォーマンスチューニング

スループット指定によるプロビジョニング

データベース トランザクション ユニット (DTU) とエラスティック データベース トランザクション ユニット (eDTU) の説明

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-what-is-a-dtu

Azure SQL Database Query Performance Insight

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-query-performance

Query Store is turned on by default for Azure SQL Database

httpsazuremicrosoftcomja-jpupdatesquery-store-on-is-the-new-default-for-azure-sql-database

Queries

SQL Database

Deeper Insight

Query

Store

SQL Database Advisor

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-advisor

Azure Portal を使用した SQL Database Advisor

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-advisor-portal

領域 改善後

新しいインデックス提案が作成されるまで 18時間以内

T-SQL文が実行されるまでのタイムラグ 即時(数分以内)

「悪い」チューニング内容に対しての検知時間 1時間以内

次のインデックス提案が行われるまでの待ち時

間即時(数分以内)

導入までの総時間 1日以内

SQL Database の脅威の検出

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-threat-detection

コントロールノード

SQLDB

Azure Blob Storage(WASB)

100 DWU lt gt 2000 DWUコントロールノード

ユーザーからの接続コンピュートとストレージの調整

コンピュートノード

コンピュートノード

コンピュートノード

コンピュートノード

SQLDB

SQLDB

SQLDB

SQLDB

Azure Blob Storage(WASB)

コントロールノード

SQLDB コントロールノード

D51

D52

D53

D60

hellip

D41

D42

D43

D50

hellip

コンピュートノード

D31

D32

D33

D40hellip

D21

D22

D23

D30

hellip

D11

D12

D13

D20

hellip

D1

D2

D3

D10

hellip

SQL DB

Azure Blob Storage(WASB)

コントロールノード

SQLDB コントロールノード

コンピュートノード

D51

D52

D53

D60

hellipコンピュートノード

D41

D42

D43

D50

hellip

コンピュートノード

D31

D32

D33

D40hellip

コンピュートノード

D21

D22

D23

D30

hellip

コンピュートノード

D11

D12

D13

D20

hellip

コンピュートノード

D1

D2

D3

D10

hellip

SQL DB

SQL DB

SQL DB

SQL DB

SQL DB

SQL DB

54

データ無制限のストレージ と 分析プラットフォーム

無制限のストレージ(エクサバイト超)

ネイティブ HDFS に基づく実装

HDInsight Hortonworks Cloudera との統合

全ての HDFS 準拠プロジェクトとの親和性

(Spark Storm Flume Sqoop Kafka R etc)

Azure Data Lake Store- Hadoop Distributed File System (HDFS) For The Cloud

構造化データと非構造化データに対するデータ処理

宣言型の SQL 文 とカスタムコード (UDF UDT UDO hellip )

ローカルとリモートに対するクエリ

バッチ型インタラクティブ型ストリーミング型(in the future)

Azure Data Lake Analytics- New Query Language U-SQL

ETL パイプライン

スキーマの定義Relational

LOB

Applications

Schema-on-Write

直ちに必要でないデータは全て捨てられるかアーカイブされている

無限に保存 分析 結果の参照

あらゆるデータ

ソースからの

データ収集

Schema-on-Read

全データ取込要件にかかわらず

全データ格納そのままのフォーマットでスキーマ定義なし

分析実行Hadoopのような分析エンジンの利用

インタラクティブクエリ

バッチ型クエリ

機械学習

データウェアハウス

リアルタイム分析

リレーショナル

デバイス

観察仮説集まったデータから仮説をたてる

58

無制限のサイズ

ギガバイトからペタバイトのサイズの単一ファイル

巨大なスループットを必要とする大規模な分析システムを実現

あらゆるスループットに自動最適化

ペタバイト超のデータの並列コンピューティング

同一リージョン内に3つのコピーを自動的に作成

インストールやチューニングは不要

数分で稼働開始

必要に応じてどのようなサイズにもスケールアウト可能

データウェアハウスデータレイクストア

非構造Rawデータ(ログ文書バイナリ)

Tier 1

MachineLearning

Data LakeAnalytics HDInsight

目的に合わせた

データウェハウス分析処理

(売上分析経営分析)

データウェハウスに格納しきれなかった

過去データ関連データを連結して分析

ハードウェアの性能限界によって行えなかった処理量の分析を実現

ディスクコンピューティング

非構造データの

分析処理

(画像音声映像など)

広範囲のデータを利用した

機械学習統計解析処理

などによる高度分析

SQL Data Warehouse

Data LakeAnalytics HDInsight

Data LakeAnalytics

構造化データ半構造データ

分析用に加工(csv等)

Tier 2

アーカイブデータTier 2 DWHのアーカイブ

Tier 3

Analytics

Storage

HDInsight(ldquomanaged clustersrdquo)

Azure Data Lake Analytics

Azure Data Lake Store

Azure Data Lake

LOB Applications

SocialDevices

Clickstream

Sensors

Video

Web

Relational

HDInsight

Data Lake Analytics

Machine Learning

Spark

R

Azure Data Lake Store

Azure Data Lake Store

Azure Storage Blob

外部表Azure SQLData Warehouse

HDInsight

開発者は OSS に馴染んでいる Java Eclipse Hive etc

マネージド Hadoop クラスタにおいてカスタマイズ管理が可能でフレキシビリティがある

Azure Data Lake Analytics

C SQL amp PowerShell のスキル

経験を活かせる

利便性効率性自動スケール

ジョブ実行の仕組みが提供される

(New)

(New)

一般的なパターン

処理読み込み 保存

INSERT

OUTPUT

OUTPUT

SELECThellip

FROMhellip

WHEREhellip

+

PythonR

EXTRACT

EXTRACT

SELECT

SELECT

Azure

Data

Lake

Azure

Data

Lake

Azure

SQL

DB

Azure

Storage

Blobs

Azure

Storage

Blobs

RowSet RowSet

Cognitive Services

REFERENCE ASSEMBLY WebLogExtASM

rs =

EXTRACT

UserID string

Start DateTime

End DateTime

Region string

SitesVisited string

PagesVisited string

FROM ldquoLogsWebLogRecordstxtrdquo

USING WebLogExtractor ()

result = SELECT UserID

(EndSubtract(Start))TotalSeconds AS Duration

FROM rs ORDER BY Duration DESC FETCH 10

OUTPUT result TO ldquoLogsResultstop10tsv

USING OutputterTsv()

bull 型定義は C の型定義と同じ

bull データをファイルから抽出読み込み

するときにスキーマが必要

Data Lake Store 内 のファイル

独自形式を解析するカスタム関数

C の関数

行セット(中間テーブルの概念

に近い)

TSV形式で書き込む関数

U-SQL ジョブのサブミットAzure PortalやVisual StudioのAzure Data Lake ToolsからU-SQLジョブをサブミット可能

67

進捗

統計情報

従来型の処理分析 Azure Data Lake を中心とした処理分析

Business apps

Custom apps

Sensors and devices

ADL StorePeople

非構造化データも含めてあらゆるデータを格納

Azure SQL DW

Azure AD

Power BI

ADF

ADL Analytics

bull 処理分析業務の大半はデータ準備作業が占めるbull 処理分析業務に手間時間が必要

Business apps

Custom apps

Sensors and devices

HDInsight

ユーザー管理認証

データの連携

Power BI

File System

Database

Database

Hadoop

DWH

Data Mart

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

①大量データの受け入れ

②リアルタイム処理データの集約

③データの蓄積

構造化非構造化文書など様々な形式での保存

④データの加工移行

⑥機械学習

⑦Hadoop解析

⑧マイクロソフト技術を用いた分散解析

⑨通常のRMSが機能を追加した企業向けRを使用した解析

⑪クラウドベースの Self-Service BI 機能

⑫機械学習の予測モデルを業務システムなどから呼び出し可能にするサービス

外部クラウドなどからのデータ取り込み

②リアルタイム処理データの加工

⑤ディープラーニング

⑩Excelを用いた可視化

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

リアルタイム

バッチ

Data Factory Tools for Visual Studio

Azure Portal

Azure TableStorage

(Web ログレコード)

Data Factory

HDInsight

(Web ログをファイルにして

バッチ処理で集計)

SQL Database

(集計データをDB テーブルに格納)

Power BI

社内システム

DataManagement

Gateway

SQL Database

Data Warehouse

Blob Storage

Table Storage

httpportalazurecom

接続

メッセージ作成

メッセージ送信

var cs = ldquo接続文字列rdquovar path = ldquoイベントハブ名rdquovar eh = EventHubClientCreateFromConnectionString(cs path)

var msg = new user = thisUserIdentityNamelevel = leveltimestamp = demoTimestamp

var json = JsonConvertSerializeObject(msg)

ehSend(new EventData(EncodingUTF8GetBytes(json)))

EventProcessorHostを使う

bull

bull

bull

Functionsを使う

bull

bull

IEventProcessorProcessEventAsync(msg)

IEventProcessorProcessEventAsync(msg)

Run(string msg)

Azure azure-sdk-for-python

Point of Service Devices

Self CheckoutStations

Kiosks

Smart Phones

SlatesTablets

PCsLaptops

Servers

Digital Signs

DiagnosticEquipmentRemote Medical

MonitorsLogic

Controllers

SpecializedDevicesThin

Clients

Handhelds

Security

POS Terminals

AutomationDevices

VendingMachines

Kinect

ATM

Stream Analytics

入力 出力クエリデータストリーム

参照

bull ldquo入力rdquoldquo出力rdquoをクリックしそれぞれ作成

bull ldquoクエリrdquoをクリックしクエリを定義bull 作業が終わったらldquo開始rdquoで実

行開始

SELECT

INTO

FROM

SELECT user level AS SATLevel timestamp

INTO

FROM

デバイス接続性とデバイス管理およびブローカーサービス

データ管理と高度な分析 情報活用業務の生産性とプロセスの最適化

IoT Agent Gateway

予兆原因の学習モデル

ダッシュボード

参照ERPbull 顧客bull 設備bull 担当者

Notification Hubs

通知

予兆イベント

メンテ方法の推奨

bull ヘルス状態bull インシデント管理bull 対応のディスパッチ

現地技術要員のモバイルデバイス

オペレーションセンター

bull イベント ドア開閉軸アライメントキャビン速度モーター温度など

bull アラーム 故障アラームエラーコードなど

httpisstkeazurewebsitesnet

Event Hub

Stream Analytics

Azure ML

制御機器とセンサーのデータ

マシンデータの蓄積

メンテナンス方法の学習モデル

Machine Learning

Blob Storage

セルフサービス分析

Power BI

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce

cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-

system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of

your data while making it faster to get up and running with

batch streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources

so you can run queries on exabytes of data Includes U-

SQL a new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully

managed NoSQL database service that indexes stores and

queries data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

What do all of these have in common

They can all use Azure Analysis Services

Azure Analysis Services

Azure Analysis Services

BI semantic model

Business logic amp metrics

Data modeling

Security

Azure Analysis Services

Lifecycle management

In-memory cache

On-premises

Cloud

Data sources

SQL Database

SQL Data Warehouse

Other data sources

SQL Server

Analytics platform

system

Other data sources

On-premises

Cloud

Client tools

Power BI

Excel

Third party BI tools

Power BI Desktop

Rich semantic modelling

locatioidentifier

identifiertype

fieldidentifier

numberofunitssoldtodate

remaningnumber

Numberofuntissoldtoday

receivedback

productidentifier

descriptionline1

descriptionline2

qtyafterqtysales

familyidentifier

Source DataComplex raw data optimized for processing

Semantic ModelRich business user friendly semantic model

Product Id

Product Name

Product Description

Category

Category Id

Category Name

Category Description

Sub Category

Product Id

Shelf qty

Return qty

Order qty

Sale qty

Cloud Data

On-Premises

Data

Azure Analysis Services

Lightning fast queries

データ管理をきっかけに処理を実行

Web Glue

Bots IoT

DOMINOS STORES

Key Vault

Azure Active Directory

Azure Files

SSIS FRANCHISEE

AZURE WEST EUROPE

Azure Function

KEMPSSDESSRS

IN- AND EXTERNAL DATA SOURCES

orderprocessing

O365

App Insights

indexhtml

Azure Functions Proxies

couponprocessing

Use Bindings in Your Codefunctionjson

bindings [type httpTriggerdirection inwebHookType genericJsonname req

type httpdirection outname res

type queuename eventOutputqueueName aievents1connectionAiStorageConnectiondirection out

]

public static class OrderHandler

[FunctionName(OrderWebhook)]public static async TaskltHttpResponseMessagegt Run(

[HttpTrigger] HttpRequestMessage req[Queue(aievents1 Connection = AiStorageConnection)]

IAsyncCollectorltStringgt eventOutputTraceWriter log)

logInfo($Webhook was triggered)

string jsonContent = await reqContentReadAsStringAsync()dynamic data = JsonConvertDeserializeObject(jsonContent)

await eventOutputAddAsync(JsonConvertSerializeObject(GetLogData(data)))

int orderId = PlaceOrder(data)

return reqCreateResponse(HttpStatusCodeOK new orderNumber = orderId )

bull Workflow in the cloud

bull Powerful control flow

bull Connect functions and APIs

bull Declarative definition to persist in source control and drive deployments

Logic AppsCloud APIs and platform

bull Supports over 125 built-in connectors

bull Scales to meet your needs

bull Enables rapid development

bull Extends with custom APIs and

Functions

API connections

bull Authenticate once and reuse

Big Data Solutions Decision Tree

httpsbiz-excellencecom20160830big-data-dt

Machine Learning Solutions Decision Tree

httpsbiz-excellencecom20160913machine-

learning-dt

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of your

data while making it faster to get up and running with batch

streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources so

you can run queries on exabytes of data Includes U-SQL a

new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully managed

NoSQL database service that indexes stores and queries

data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

Microsoft Big Data Portfolio

SQL Server Stretch

Business intelligence

Machine learning analytics

Insights

Azure SQL Database

SQL Server 2016

SQL Server 2016 Fast Track

Azure SQL DW

ADLS amp ADLA

DocumentDB

HDInsight

Hadoop

Analytics Platform System

Sequential Scale Out + AcrossScale Up

Key

Relational Non-relational

On

-pre

mis

es

Clo

ud

Microsoft has solutions covering

and connecting all four

quadrants ndash thatrsquos why SQL

Server is one of the most utilized

databases in the world

Azure

Data Lake Store

Azure

Blob StoragePurpose Optimized for big data analytics General purpose bulk storage

Use Cases Batch Interactive Streaming App backend backup data media storage for

streaming

Units of Storage Accounts Folders Files Accounts Containers Blobs

Structure Hierarchical File System Flat namespace

WebHDFS Implements WebHDFS No (WASB)

Security AD SAS keys

Storage Auto SharedFiles chunked Manually manage expansionFiles intact

Service State Generally Available PolyBase

just supported

Generally Available

Billing Pay for data stored and for IO Pay for data stored and for IO

Region Availability Two US regions (Other regions coming soon) All Azure Regions

ADL Store vs Blob Store

httpsdocsmicrosoftcomen-usazuredata-lake-storedata-lake-store-comparison-with-blob-storage

Want Hadoop

Need exact same on-prem

Need interactive streaming

MandatoryNo strong opinion

Azure Marketplace (IaaS)

bull Need all workloads exactly like on-

premises

bull Need 100 HortonworksClouderaMapR

Azure HDInsight

bull Most Hadoop workloads

bull Fully managed by Microsoft

bull Sell HDI + ADLS

bull Stickier to Microsoft than VMs

bull Can do interactive (Spark) and streaming

(StormSpark)

Azure Data Lake Analytics

bull Easiest experience for admin no sense of

clusters instant scale per job

bull Easiest experience for developers Visual

StudioU-SQL (C+SQL)

bull Sell ADLA + ADLS

bull Batch workloads only

Need everything exactly like on-prem

Need core projects Yes Batch is OK

Always present ADLA if NET or Visual Studio Shop

If NET or VS shop

Azure SQL DW HDInsight Hive HDInsight Spark Azure Data Lake SQL Server (IaaS)

Volume Petabytes Petabytes Petabytes Petabytes Terabytes

Security Encryption TD

Audit

ADLS Apache

Ranger

ADLS AAD Security

Groups (data)

Encryption TD

Audit

Languages T-SQL HiveQL SparkSQL HiveQL

Scala Java Python

R

U-SQL T-SQL

Extensibility No Yes NETSerDe Yes Packages Yes NET Yes NET CLR

External File

Types

ORC TXT

Parquet RCFile

ORC CSV Parquet

+ others

Parquet JSON

Hive + others

Many ORC TXT Parquet

RCFile

Admin Low-Medium Medium-High Medium-High Low High

Cost Model DWU Nodes amp VM Nodes amp VM UnitsJobs VM

Schema

Definition

Schema on Write

Polybase

Schema on Read Schema on Read Schema on Read Schema on Write

Polybase

Max DB Size 240TB Comp (5X

= 1PB)

Unlimited 64TB (64 1TB drives)

機械学習 Deep Learning 深層強化学習

画像解析

音声解析

データ分類異常検知 顧客グルーピング

数値予測売上予測 需要予測 品質管理

ラベル分類不良品分析 故障予測 チャーン分析

機械学習より強力な分析

自律学習型ロボット

自動運転車

テキストや画像等の自動生成

活用例

主に多層のニューラルネットワークを用いた手法での分析

分析のためには莫大なデータ量計算量知識スキルを要する

統計に基づいた手法での分析

そのため比較的少ないデータ量と計算量で分析を行うことができる

定義したあるべき姿に従い試行錯誤をして自ら学習を行うための分析手法である強化学習と深層学習を組み合わせた分析

Azure Machine Learning Cognitive Toolkit GPU Instance (N-Series)

マイクロソフトが提供する技術

テキストデータ機器のログデータなど

画像データ監視カメラの録画データ 機器の外観画像 顔画像など

動画データ監視カメラの録画データ 機器の稼働状況 人の作業映像など

音声データマイクからの収集データ 稼働音 室内音 人の音声など

数値データセンサーデータ 機器の制御データ計測データなど672342345

機械学習統計理論に基づいた分析手法を用いる用意するべきデータ量と処理する計算量の敷居が低め導入しやすい

Deep Learningデータ量が大きいため強力な分析手法が必要「膨大なデータ量を用意」「莫大な計算量を処理」が必要で敷居が非常に高い導入にはそれなりの覚悟が必要

Action

People

Automated Systems

Apps

Web

Mobile

Bots

Intelligence

Dashboards amp Visualizations

Cortana

Bot Framework

Cognitive Services

Power BI

Information Management

Event Hubs

Data Catalog

Data Factory

Machine Learning and Analytics

HDInsight

Stream Analytics

Intelligence

Data Lake Analytics

Machine Learning

Big Data Stores

SQL Data Warehouse

Data Lake Store

Data Sources

Apps

Sensors amp Devices

Data

Cortana Intelligence Suite

学習済み

モデル利用

学習モデル

作成

機械学習 教師あり学習

教師なし学習

強化学習

決定木

線形回帰

SVM

ロジスティック回帰

ニューラルネットワーク

クラスタリング

次元削減

Q学習

K-mean法

主成分分析

正準相関分析

ディープニューラルネットワーク

畳みこみニューラルネットワーク

再帰的ニューラルネットワーク

回帰結合ニューラルネットワーク

httpsazuremicrosoftcomen-usservicescognitive-services

わずか数行のコードで強力なアルゴリズムを持つアプリの作成が可能ですiOSAndroidWindows などのプラットフォームを問わず機能します

httpsazuremicrosoftcomja-jpservicesmachine-learning

ユーザーは簡単に予測分析ソリューションを構築デプロイ共有できます

httpswwwyoutubecomwatchv=9gDDO5ldT-4ampfeature=youtube

AI技術を利用したディープラーニング(深層学習)ツールキットです旧称「CNTK」から改名されました

ソースコード httpsgithubcomMicrosoftCNTK

SearchSpeech

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

コカコーラ誕生100周年キャンペーン

コカコーラボトルを「100歳」と認識

bull 自撮り写真をUp結果をSNS拡散

ナビタイムジャパン様

自然言語入力による路線検索BOT

bull ユーザーとの新たな接点(LINE)

bull 自然言語入力

Vision Language Knowledge

Vision Knowledge SearchSpeech Language

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

Microsoft SupportVirtual Agent

自然言語入力による自動応答サポート窓口

bull 過去QampAデータ解析に基づく回答抽出

bull 定型外はldquo人対応rdquo

UBER

登録ドライバーをスマホ経由で顔認証

VOLVO

表情からの危険予測

Search

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

アロバ様

監視カメラによる店舗内行動分析

bull 顔認識による 顧客識別

bull 表情分析

東京サマーランド様にて導入済み

HmComm様

コールセンターソリューション

bull 会話をテキスト化キーワードを解析

bull 過去QampA検索

bull 内容をCRM保存

Vision KnowledgeSpeech Language

導入事例東京サマーランド様

Video

Intelligent KioskhttpsgithubcomMicrosoftCognitive-Samples-IntelligentKiosk

ldquo(want to|request)rdquo

HoloLens

Page 16: やりたいことから考えるMicrosoft Azure 上の データストアの選び方とデータサイエンティスト向け活用法。KVSからDWHまで

Seamlessly blend technologies

Azure Data Lake Analytics

取り扱いたいデータタイプ

Audio video images Meaningless without adding some structure

非構造データUnstructured

構造化データStructured

CSV Columnar Storage (Parquet ORC) Strict data model structure

JSON XML sensor data social media device data web logs Flexible data model structure

文書など緩やかな構造を持つ半構造データ

Semi-Structured

Azure Storage様々な文書Blobデータテーブル形式のデータが保存可能なストレージ

SQL DatabaseSQL Server 2016 と同等の機能を提供する PaaS 型データベース サービス

Azure Database for MySQLPostgreSQLPaaS 型データベース サービス のMySQLPostgreSQL版

Cosmos DBマルチデータモデルのグローバル分散DB

Azure Data Lake Storeビッグ データの分析ワークロードに対応する大規模データ格納エリア

Azure SQL Data Warehouseペタバイト単位のストレージを有した PaaS 型データ ウェアハウス サービス

IoT Hub

Event Hubs

Data Warehouse

Data Factory

App Insights Log Analytics

Monitor

CDN

Search Power BI

Blob Storage Pillars

Open amp

Interoperable

Manageable amp

Cost Efficient

Scalable amp

Performant

Secure amp

Compliant

Durable amp

Available

Machine Learning

Stream Analytics

Batch

Functions

Data Lake Analytics

Azure HDInsight

Big Data Use Cases

Ingest amp ETL Streaming Analytics amp Machine Learning Data Aggregation Presentation

QueuesReliable queues at

scale for cloud

services

ファイルを保存する際にはこの3つの選択肢があります

httpsdocsmicrosoftcomja-jpazurestoragestorage-decide-blobs-files-disks

OS

アプリ アプリ アプリ アプリ

BLOB

効率

利用

仮想マシン

+BLOB

001log

002log

003log

004log

EN

EN

EN

EN

EN

EN

PS

PS

PS

PS ENEN

001log

002log

003log

004log

disk1vhd

PS = パーティション サーバー

EN = エクステント ノード

001log

002log

003log

004log

EN

EN

EN

EN

EN

EN

PS

PS

PS

PS ENEN

Block 1 Block 4Block 3Block 2

Imagejpg

Sparse File 512 byte aligned

51

2

10

24

15

36

20

48

25

60

AZCopy ndash Robocopy for Azure StorageStorage Explorer ndash Cross platform UX

Data Movement Library on CoreCLR

Python client library

仮想マシンSQL Enterprise

DS4 の場合

8 Core 28 GB RAM

Disk 0

読み取り書き込み Disk 1

Disk 2

P30

読み取りのみ

C

システム

D

キャッシュ

永続性あり 永続性なし 永続性あり (複数ボリュームの分割やストライプの構成が可能)

Premium Storage

デフォルト作成(仮想マシン付属) ユーザーが任意に追加

OS

Page ファイル

DBMS Exe

SQL Server バッファープール拡張

httpsazuremicrosoftcomja-jpdocumentationarticlesvirtual-machines-sql-server-performance-best-practices

httpsazuremicrosoftcomja-jpdocumentationarticlesvirtual-machines-sql-server-use-premium-storage

Disk n

P30

読み取りのみ

E

SQL データ(ページ圧縮)

Temp DB

Disk 3

P30

なし

F

Transaction-

Log

Disk Cache

344GB

最大Disk IOPS

256MBsec

P30合計の

600MBsは出ない

NTFSアロケーションユニットサイズ 64KB

データベース ページ圧縮 有効

Table用Index用Temp DB用に別

ドライブに拡張可能

キャッシュ設定は添付の

URLを参照

最大Disk IOPS

200MBsec

最大Disk IOPS

200MBsec

最大Disk IOPS

200MBsec

フルマネージドの RDBMS

データベース

RDBMS

OS

Azure が管理

利用者が管理

VM上の RDBMS

ホスト OS

仮想化

フルコントロール

データベース

RDBMS

OS

仮想化

ホスト OS

容易な管理

Azure Database

SQL Server物理マシン仮想マシン

SQL Server on Azure VM仮想マシン

SQL Database Data WarehousePaaS

物理マシン仮想マシン

VM Template Market place仮想マシン

Azure Database for MySQL PostgreSQL

論理データベース

Write

Write Ack

Ack

Read

value write

Ack

特徴

無停止フェールオーバー

無停止スケールアップ(プラン変更)

自動パフォーマンスチューニング

スループット指定によるプロビジョニング

データベース トランザクション ユニット (DTU) とエラスティック データベース トランザクション ユニット (eDTU) の説明

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-what-is-a-dtu

Azure SQL Database Query Performance Insight

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-query-performance

Query Store is turned on by default for Azure SQL Database

httpsazuremicrosoftcomja-jpupdatesquery-store-on-is-the-new-default-for-azure-sql-database

Queries

SQL Database

Deeper Insight

Query

Store

SQL Database Advisor

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-advisor

Azure Portal を使用した SQL Database Advisor

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-advisor-portal

領域 改善後

新しいインデックス提案が作成されるまで 18時間以内

T-SQL文が実行されるまでのタイムラグ 即時(数分以内)

「悪い」チューニング内容に対しての検知時間 1時間以内

次のインデックス提案が行われるまでの待ち時

間即時(数分以内)

導入までの総時間 1日以内

SQL Database の脅威の検出

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-threat-detection

コントロールノード

SQLDB

Azure Blob Storage(WASB)

100 DWU lt gt 2000 DWUコントロールノード

ユーザーからの接続コンピュートとストレージの調整

コンピュートノード

コンピュートノード

コンピュートノード

コンピュートノード

SQLDB

SQLDB

SQLDB

SQLDB

Azure Blob Storage(WASB)

コントロールノード

SQLDB コントロールノード

D51

D52

D53

D60

hellip

D41

D42

D43

D50

hellip

コンピュートノード

D31

D32

D33

D40hellip

D21

D22

D23

D30

hellip

D11

D12

D13

D20

hellip

D1

D2

D3

D10

hellip

SQL DB

Azure Blob Storage(WASB)

コントロールノード

SQLDB コントロールノード

コンピュートノード

D51

D52

D53

D60

hellipコンピュートノード

D41

D42

D43

D50

hellip

コンピュートノード

D31

D32

D33

D40hellip

コンピュートノード

D21

D22

D23

D30

hellip

コンピュートノード

D11

D12

D13

D20

hellip

コンピュートノード

D1

D2

D3

D10

hellip

SQL DB

SQL DB

SQL DB

SQL DB

SQL DB

SQL DB

54

データ無制限のストレージ と 分析プラットフォーム

無制限のストレージ(エクサバイト超)

ネイティブ HDFS に基づく実装

HDInsight Hortonworks Cloudera との統合

全ての HDFS 準拠プロジェクトとの親和性

(Spark Storm Flume Sqoop Kafka R etc)

Azure Data Lake Store- Hadoop Distributed File System (HDFS) For The Cloud

構造化データと非構造化データに対するデータ処理

宣言型の SQL 文 とカスタムコード (UDF UDT UDO hellip )

ローカルとリモートに対するクエリ

バッチ型インタラクティブ型ストリーミング型(in the future)

Azure Data Lake Analytics- New Query Language U-SQL

ETL パイプライン

スキーマの定義Relational

LOB

Applications

Schema-on-Write

直ちに必要でないデータは全て捨てられるかアーカイブされている

無限に保存 分析 結果の参照

あらゆるデータ

ソースからの

データ収集

Schema-on-Read

全データ取込要件にかかわらず

全データ格納そのままのフォーマットでスキーマ定義なし

分析実行Hadoopのような分析エンジンの利用

インタラクティブクエリ

バッチ型クエリ

機械学習

データウェアハウス

リアルタイム分析

リレーショナル

デバイス

観察仮説集まったデータから仮説をたてる

58

無制限のサイズ

ギガバイトからペタバイトのサイズの単一ファイル

巨大なスループットを必要とする大規模な分析システムを実現

あらゆるスループットに自動最適化

ペタバイト超のデータの並列コンピューティング

同一リージョン内に3つのコピーを自動的に作成

インストールやチューニングは不要

数分で稼働開始

必要に応じてどのようなサイズにもスケールアウト可能

データウェアハウスデータレイクストア

非構造Rawデータ(ログ文書バイナリ)

Tier 1

MachineLearning

Data LakeAnalytics HDInsight

目的に合わせた

データウェハウス分析処理

(売上分析経営分析)

データウェハウスに格納しきれなかった

過去データ関連データを連結して分析

ハードウェアの性能限界によって行えなかった処理量の分析を実現

ディスクコンピューティング

非構造データの

分析処理

(画像音声映像など)

広範囲のデータを利用した

機械学習統計解析処理

などによる高度分析

SQL Data Warehouse

Data LakeAnalytics HDInsight

Data LakeAnalytics

構造化データ半構造データ

分析用に加工(csv等)

Tier 2

アーカイブデータTier 2 DWHのアーカイブ

Tier 3

Analytics

Storage

HDInsight(ldquomanaged clustersrdquo)

Azure Data Lake Analytics

Azure Data Lake Store

Azure Data Lake

LOB Applications

SocialDevices

Clickstream

Sensors

Video

Web

Relational

HDInsight

Data Lake Analytics

Machine Learning

Spark

R

Azure Data Lake Store

Azure Data Lake Store

Azure Storage Blob

外部表Azure SQLData Warehouse

HDInsight

開発者は OSS に馴染んでいる Java Eclipse Hive etc

マネージド Hadoop クラスタにおいてカスタマイズ管理が可能でフレキシビリティがある

Azure Data Lake Analytics

C SQL amp PowerShell のスキル

経験を活かせる

利便性効率性自動スケール

ジョブ実行の仕組みが提供される

(New)

(New)

一般的なパターン

処理読み込み 保存

INSERT

OUTPUT

OUTPUT

SELECThellip

FROMhellip

WHEREhellip

+

PythonR

EXTRACT

EXTRACT

SELECT

SELECT

Azure

Data

Lake

Azure

Data

Lake

Azure

SQL

DB

Azure

Storage

Blobs

Azure

Storage

Blobs

RowSet RowSet

Cognitive Services

REFERENCE ASSEMBLY WebLogExtASM

rs =

EXTRACT

UserID string

Start DateTime

End DateTime

Region string

SitesVisited string

PagesVisited string

FROM ldquoLogsWebLogRecordstxtrdquo

USING WebLogExtractor ()

result = SELECT UserID

(EndSubtract(Start))TotalSeconds AS Duration

FROM rs ORDER BY Duration DESC FETCH 10

OUTPUT result TO ldquoLogsResultstop10tsv

USING OutputterTsv()

bull 型定義は C の型定義と同じ

bull データをファイルから抽出読み込み

するときにスキーマが必要

Data Lake Store 内 のファイル

独自形式を解析するカスタム関数

C の関数

行セット(中間テーブルの概念

に近い)

TSV形式で書き込む関数

U-SQL ジョブのサブミットAzure PortalやVisual StudioのAzure Data Lake ToolsからU-SQLジョブをサブミット可能

67

進捗

統計情報

従来型の処理分析 Azure Data Lake を中心とした処理分析

Business apps

Custom apps

Sensors and devices

ADL StorePeople

非構造化データも含めてあらゆるデータを格納

Azure SQL DW

Azure AD

Power BI

ADF

ADL Analytics

bull 処理分析業務の大半はデータ準備作業が占めるbull 処理分析業務に手間時間が必要

Business apps

Custom apps

Sensors and devices

HDInsight

ユーザー管理認証

データの連携

Power BI

File System

Database

Database

Hadoop

DWH

Data Mart

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

①大量データの受け入れ

②リアルタイム処理データの集約

③データの蓄積

構造化非構造化文書など様々な形式での保存

④データの加工移行

⑥機械学習

⑦Hadoop解析

⑧マイクロソフト技術を用いた分散解析

⑨通常のRMSが機能を追加した企業向けRを使用した解析

⑪クラウドベースの Self-Service BI 機能

⑫機械学習の予測モデルを業務システムなどから呼び出し可能にするサービス

外部クラウドなどからのデータ取り込み

②リアルタイム処理データの加工

⑤ディープラーニング

⑩Excelを用いた可視化

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

リアルタイム

バッチ

Data Factory Tools for Visual Studio

Azure Portal

Azure TableStorage

(Web ログレコード)

Data Factory

HDInsight

(Web ログをファイルにして

バッチ処理で集計)

SQL Database

(集計データをDB テーブルに格納)

Power BI

社内システム

DataManagement

Gateway

SQL Database

Data Warehouse

Blob Storage

Table Storage

httpportalazurecom

接続

メッセージ作成

メッセージ送信

var cs = ldquo接続文字列rdquovar path = ldquoイベントハブ名rdquovar eh = EventHubClientCreateFromConnectionString(cs path)

var msg = new user = thisUserIdentityNamelevel = leveltimestamp = demoTimestamp

var json = JsonConvertSerializeObject(msg)

ehSend(new EventData(EncodingUTF8GetBytes(json)))

EventProcessorHostを使う

bull

bull

bull

Functionsを使う

bull

bull

IEventProcessorProcessEventAsync(msg)

IEventProcessorProcessEventAsync(msg)

Run(string msg)

Azure azure-sdk-for-python

Point of Service Devices

Self CheckoutStations

Kiosks

Smart Phones

SlatesTablets

PCsLaptops

Servers

Digital Signs

DiagnosticEquipmentRemote Medical

MonitorsLogic

Controllers

SpecializedDevicesThin

Clients

Handhelds

Security

POS Terminals

AutomationDevices

VendingMachines

Kinect

ATM

Stream Analytics

入力 出力クエリデータストリーム

参照

bull ldquo入力rdquoldquo出力rdquoをクリックしそれぞれ作成

bull ldquoクエリrdquoをクリックしクエリを定義bull 作業が終わったらldquo開始rdquoで実

行開始

SELECT

INTO

FROM

SELECT user level AS SATLevel timestamp

INTO

FROM

デバイス接続性とデバイス管理およびブローカーサービス

データ管理と高度な分析 情報活用業務の生産性とプロセスの最適化

IoT Agent Gateway

予兆原因の学習モデル

ダッシュボード

参照ERPbull 顧客bull 設備bull 担当者

Notification Hubs

通知

予兆イベント

メンテ方法の推奨

bull ヘルス状態bull インシデント管理bull 対応のディスパッチ

現地技術要員のモバイルデバイス

オペレーションセンター

bull イベント ドア開閉軸アライメントキャビン速度モーター温度など

bull アラーム 故障アラームエラーコードなど

httpisstkeazurewebsitesnet

Event Hub

Stream Analytics

Azure ML

制御機器とセンサーのデータ

マシンデータの蓄積

メンテナンス方法の学習モデル

Machine Learning

Blob Storage

セルフサービス分析

Power BI

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce

cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-

system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of

your data while making it faster to get up and running with

batch streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources

so you can run queries on exabytes of data Includes U-

SQL a new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully

managed NoSQL database service that indexes stores and

queries data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

What do all of these have in common

They can all use Azure Analysis Services

Azure Analysis Services

Azure Analysis Services

BI semantic model

Business logic amp metrics

Data modeling

Security

Azure Analysis Services

Lifecycle management

In-memory cache

On-premises

Cloud

Data sources

SQL Database

SQL Data Warehouse

Other data sources

SQL Server

Analytics platform

system

Other data sources

On-premises

Cloud

Client tools

Power BI

Excel

Third party BI tools

Power BI Desktop

Rich semantic modelling

locatioidentifier

identifiertype

fieldidentifier

numberofunitssoldtodate

remaningnumber

Numberofuntissoldtoday

receivedback

productidentifier

descriptionline1

descriptionline2

qtyafterqtysales

familyidentifier

Source DataComplex raw data optimized for processing

Semantic ModelRich business user friendly semantic model

Product Id

Product Name

Product Description

Category

Category Id

Category Name

Category Description

Sub Category

Product Id

Shelf qty

Return qty

Order qty

Sale qty

Cloud Data

On-Premises

Data

Azure Analysis Services

Lightning fast queries

データ管理をきっかけに処理を実行

Web Glue

Bots IoT

DOMINOS STORES

Key Vault

Azure Active Directory

Azure Files

SSIS FRANCHISEE

AZURE WEST EUROPE

Azure Function

KEMPSSDESSRS

IN- AND EXTERNAL DATA SOURCES

orderprocessing

O365

App Insights

indexhtml

Azure Functions Proxies

couponprocessing

Use Bindings in Your Codefunctionjson

bindings [type httpTriggerdirection inwebHookType genericJsonname req

type httpdirection outname res

type queuename eventOutputqueueName aievents1connectionAiStorageConnectiondirection out

]

public static class OrderHandler

[FunctionName(OrderWebhook)]public static async TaskltHttpResponseMessagegt Run(

[HttpTrigger] HttpRequestMessage req[Queue(aievents1 Connection = AiStorageConnection)]

IAsyncCollectorltStringgt eventOutputTraceWriter log)

logInfo($Webhook was triggered)

string jsonContent = await reqContentReadAsStringAsync()dynamic data = JsonConvertDeserializeObject(jsonContent)

await eventOutputAddAsync(JsonConvertSerializeObject(GetLogData(data)))

int orderId = PlaceOrder(data)

return reqCreateResponse(HttpStatusCodeOK new orderNumber = orderId )

bull Workflow in the cloud

bull Powerful control flow

bull Connect functions and APIs

bull Declarative definition to persist in source control and drive deployments

Logic AppsCloud APIs and platform

bull Supports over 125 built-in connectors

bull Scales to meet your needs

bull Enables rapid development

bull Extends with custom APIs and

Functions

API connections

bull Authenticate once and reuse

Big Data Solutions Decision Tree

httpsbiz-excellencecom20160830big-data-dt

Machine Learning Solutions Decision Tree

httpsbiz-excellencecom20160913machine-

learning-dt

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of your

data while making it faster to get up and running with batch

streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources so

you can run queries on exabytes of data Includes U-SQL a

new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully managed

NoSQL database service that indexes stores and queries

data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

Microsoft Big Data Portfolio

SQL Server Stretch

Business intelligence

Machine learning analytics

Insights

Azure SQL Database

SQL Server 2016

SQL Server 2016 Fast Track

Azure SQL DW

ADLS amp ADLA

DocumentDB

HDInsight

Hadoop

Analytics Platform System

Sequential Scale Out + AcrossScale Up

Key

Relational Non-relational

On

-pre

mis

es

Clo

ud

Microsoft has solutions covering

and connecting all four

quadrants ndash thatrsquos why SQL

Server is one of the most utilized

databases in the world

Azure

Data Lake Store

Azure

Blob StoragePurpose Optimized for big data analytics General purpose bulk storage

Use Cases Batch Interactive Streaming App backend backup data media storage for

streaming

Units of Storage Accounts Folders Files Accounts Containers Blobs

Structure Hierarchical File System Flat namespace

WebHDFS Implements WebHDFS No (WASB)

Security AD SAS keys

Storage Auto SharedFiles chunked Manually manage expansionFiles intact

Service State Generally Available PolyBase

just supported

Generally Available

Billing Pay for data stored and for IO Pay for data stored and for IO

Region Availability Two US regions (Other regions coming soon) All Azure Regions

ADL Store vs Blob Store

httpsdocsmicrosoftcomen-usazuredata-lake-storedata-lake-store-comparison-with-blob-storage

Want Hadoop

Need exact same on-prem

Need interactive streaming

MandatoryNo strong opinion

Azure Marketplace (IaaS)

bull Need all workloads exactly like on-

premises

bull Need 100 HortonworksClouderaMapR

Azure HDInsight

bull Most Hadoop workloads

bull Fully managed by Microsoft

bull Sell HDI + ADLS

bull Stickier to Microsoft than VMs

bull Can do interactive (Spark) and streaming

(StormSpark)

Azure Data Lake Analytics

bull Easiest experience for admin no sense of

clusters instant scale per job

bull Easiest experience for developers Visual

StudioU-SQL (C+SQL)

bull Sell ADLA + ADLS

bull Batch workloads only

Need everything exactly like on-prem

Need core projects Yes Batch is OK

Always present ADLA if NET or Visual Studio Shop

If NET or VS shop

Azure SQL DW HDInsight Hive HDInsight Spark Azure Data Lake SQL Server (IaaS)

Volume Petabytes Petabytes Petabytes Petabytes Terabytes

Security Encryption TD

Audit

ADLS Apache

Ranger

ADLS AAD Security

Groups (data)

Encryption TD

Audit

Languages T-SQL HiveQL SparkSQL HiveQL

Scala Java Python

R

U-SQL T-SQL

Extensibility No Yes NETSerDe Yes Packages Yes NET Yes NET CLR

External File

Types

ORC TXT

Parquet RCFile

ORC CSV Parquet

+ others

Parquet JSON

Hive + others

Many ORC TXT Parquet

RCFile

Admin Low-Medium Medium-High Medium-High Low High

Cost Model DWU Nodes amp VM Nodes amp VM UnitsJobs VM

Schema

Definition

Schema on Write

Polybase

Schema on Read Schema on Read Schema on Read Schema on Write

Polybase

Max DB Size 240TB Comp (5X

= 1PB)

Unlimited 64TB (64 1TB drives)

機械学習 Deep Learning 深層強化学習

画像解析

音声解析

データ分類異常検知 顧客グルーピング

数値予測売上予測 需要予測 品質管理

ラベル分類不良品分析 故障予測 チャーン分析

機械学習より強力な分析

自律学習型ロボット

自動運転車

テキストや画像等の自動生成

活用例

主に多層のニューラルネットワークを用いた手法での分析

分析のためには莫大なデータ量計算量知識スキルを要する

統計に基づいた手法での分析

そのため比較的少ないデータ量と計算量で分析を行うことができる

定義したあるべき姿に従い試行錯誤をして自ら学習を行うための分析手法である強化学習と深層学習を組み合わせた分析

Azure Machine Learning Cognitive Toolkit GPU Instance (N-Series)

マイクロソフトが提供する技術

テキストデータ機器のログデータなど

画像データ監視カメラの録画データ 機器の外観画像 顔画像など

動画データ監視カメラの録画データ 機器の稼働状況 人の作業映像など

音声データマイクからの収集データ 稼働音 室内音 人の音声など

数値データセンサーデータ 機器の制御データ計測データなど672342345

機械学習統計理論に基づいた分析手法を用いる用意するべきデータ量と処理する計算量の敷居が低め導入しやすい

Deep Learningデータ量が大きいため強力な分析手法が必要「膨大なデータ量を用意」「莫大な計算量を処理」が必要で敷居が非常に高い導入にはそれなりの覚悟が必要

Action

People

Automated Systems

Apps

Web

Mobile

Bots

Intelligence

Dashboards amp Visualizations

Cortana

Bot Framework

Cognitive Services

Power BI

Information Management

Event Hubs

Data Catalog

Data Factory

Machine Learning and Analytics

HDInsight

Stream Analytics

Intelligence

Data Lake Analytics

Machine Learning

Big Data Stores

SQL Data Warehouse

Data Lake Store

Data Sources

Apps

Sensors amp Devices

Data

Cortana Intelligence Suite

学習済み

モデル利用

学習モデル

作成

機械学習 教師あり学習

教師なし学習

強化学習

決定木

線形回帰

SVM

ロジスティック回帰

ニューラルネットワーク

クラスタリング

次元削減

Q学習

K-mean法

主成分分析

正準相関分析

ディープニューラルネットワーク

畳みこみニューラルネットワーク

再帰的ニューラルネットワーク

回帰結合ニューラルネットワーク

httpsazuremicrosoftcomen-usservicescognitive-services

わずか数行のコードで強力なアルゴリズムを持つアプリの作成が可能ですiOSAndroidWindows などのプラットフォームを問わず機能します

httpsazuremicrosoftcomja-jpservicesmachine-learning

ユーザーは簡単に予測分析ソリューションを構築デプロイ共有できます

httpswwwyoutubecomwatchv=9gDDO5ldT-4ampfeature=youtube

AI技術を利用したディープラーニング(深層学習)ツールキットです旧称「CNTK」から改名されました

ソースコード httpsgithubcomMicrosoftCNTK

SearchSpeech

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

コカコーラ誕生100周年キャンペーン

コカコーラボトルを「100歳」と認識

bull 自撮り写真をUp結果をSNS拡散

ナビタイムジャパン様

自然言語入力による路線検索BOT

bull ユーザーとの新たな接点(LINE)

bull 自然言語入力

Vision Language Knowledge

Vision Knowledge SearchSpeech Language

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

Microsoft SupportVirtual Agent

自然言語入力による自動応答サポート窓口

bull 過去QampAデータ解析に基づく回答抽出

bull 定型外はldquo人対応rdquo

UBER

登録ドライバーをスマホ経由で顔認証

VOLVO

表情からの危険予測

Search

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

アロバ様

監視カメラによる店舗内行動分析

bull 顔認識による 顧客識別

bull 表情分析

東京サマーランド様にて導入済み

HmComm様

コールセンターソリューション

bull 会話をテキスト化キーワードを解析

bull 過去QampA検索

bull 内容をCRM保存

Vision KnowledgeSpeech Language

導入事例東京サマーランド様

Video

Intelligent KioskhttpsgithubcomMicrosoftCognitive-Samples-IntelligentKiosk

ldquo(want to|request)rdquo

HoloLens

Page 17: やりたいことから考えるMicrosoft Azure 上の データストアの選び方とデータサイエンティスト向け活用法。KVSからDWHまで

取り扱いたいデータタイプ

Audio video images Meaningless without adding some structure

非構造データUnstructured

構造化データStructured

CSV Columnar Storage (Parquet ORC) Strict data model structure

JSON XML sensor data social media device data web logs Flexible data model structure

文書など緩やかな構造を持つ半構造データ

Semi-Structured

Azure Storage様々な文書Blobデータテーブル形式のデータが保存可能なストレージ

SQL DatabaseSQL Server 2016 と同等の機能を提供する PaaS 型データベース サービス

Azure Database for MySQLPostgreSQLPaaS 型データベース サービス のMySQLPostgreSQL版

Cosmos DBマルチデータモデルのグローバル分散DB

Azure Data Lake Storeビッグ データの分析ワークロードに対応する大規模データ格納エリア

Azure SQL Data Warehouseペタバイト単位のストレージを有した PaaS 型データ ウェアハウス サービス

IoT Hub

Event Hubs

Data Warehouse

Data Factory

App Insights Log Analytics

Monitor

CDN

Search Power BI

Blob Storage Pillars

Open amp

Interoperable

Manageable amp

Cost Efficient

Scalable amp

Performant

Secure amp

Compliant

Durable amp

Available

Machine Learning

Stream Analytics

Batch

Functions

Data Lake Analytics

Azure HDInsight

Big Data Use Cases

Ingest amp ETL Streaming Analytics amp Machine Learning Data Aggregation Presentation

QueuesReliable queues at

scale for cloud

services

ファイルを保存する際にはこの3つの選択肢があります

httpsdocsmicrosoftcomja-jpazurestoragestorage-decide-blobs-files-disks

OS

アプリ アプリ アプリ アプリ

BLOB

効率

利用

仮想マシン

+BLOB

001log

002log

003log

004log

EN

EN

EN

EN

EN

EN

PS

PS

PS

PS ENEN

001log

002log

003log

004log

disk1vhd

PS = パーティション サーバー

EN = エクステント ノード

001log

002log

003log

004log

EN

EN

EN

EN

EN

EN

PS

PS

PS

PS ENEN

Block 1 Block 4Block 3Block 2

Imagejpg

Sparse File 512 byte aligned

51

2

10

24

15

36

20

48

25

60

AZCopy ndash Robocopy for Azure StorageStorage Explorer ndash Cross platform UX

Data Movement Library on CoreCLR

Python client library

仮想マシンSQL Enterprise

DS4 の場合

8 Core 28 GB RAM

Disk 0

読み取り書き込み Disk 1

Disk 2

P30

読み取りのみ

C

システム

D

キャッシュ

永続性あり 永続性なし 永続性あり (複数ボリュームの分割やストライプの構成が可能)

Premium Storage

デフォルト作成(仮想マシン付属) ユーザーが任意に追加

OS

Page ファイル

DBMS Exe

SQL Server バッファープール拡張

httpsazuremicrosoftcomja-jpdocumentationarticlesvirtual-machines-sql-server-performance-best-practices

httpsazuremicrosoftcomja-jpdocumentationarticlesvirtual-machines-sql-server-use-premium-storage

Disk n

P30

読み取りのみ

E

SQL データ(ページ圧縮)

Temp DB

Disk 3

P30

なし

F

Transaction-

Log

Disk Cache

344GB

最大Disk IOPS

256MBsec

P30合計の

600MBsは出ない

NTFSアロケーションユニットサイズ 64KB

データベース ページ圧縮 有効

Table用Index用Temp DB用に別

ドライブに拡張可能

キャッシュ設定は添付の

URLを参照

最大Disk IOPS

200MBsec

最大Disk IOPS

200MBsec

最大Disk IOPS

200MBsec

フルマネージドの RDBMS

データベース

RDBMS

OS

Azure が管理

利用者が管理

VM上の RDBMS

ホスト OS

仮想化

フルコントロール

データベース

RDBMS

OS

仮想化

ホスト OS

容易な管理

Azure Database

SQL Server物理マシン仮想マシン

SQL Server on Azure VM仮想マシン

SQL Database Data WarehousePaaS

物理マシン仮想マシン

VM Template Market place仮想マシン

Azure Database for MySQL PostgreSQL

論理データベース

Write

Write Ack

Ack

Read

value write

Ack

特徴

無停止フェールオーバー

無停止スケールアップ(プラン変更)

自動パフォーマンスチューニング

スループット指定によるプロビジョニング

データベース トランザクション ユニット (DTU) とエラスティック データベース トランザクション ユニット (eDTU) の説明

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-what-is-a-dtu

Azure SQL Database Query Performance Insight

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-query-performance

Query Store is turned on by default for Azure SQL Database

httpsazuremicrosoftcomja-jpupdatesquery-store-on-is-the-new-default-for-azure-sql-database

Queries

SQL Database

Deeper Insight

Query

Store

SQL Database Advisor

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-advisor

Azure Portal を使用した SQL Database Advisor

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-advisor-portal

領域 改善後

新しいインデックス提案が作成されるまで 18時間以内

T-SQL文が実行されるまでのタイムラグ 即時(数分以内)

「悪い」チューニング内容に対しての検知時間 1時間以内

次のインデックス提案が行われるまでの待ち時

間即時(数分以内)

導入までの総時間 1日以内

SQL Database の脅威の検出

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-threat-detection

コントロールノード

SQLDB

Azure Blob Storage(WASB)

100 DWU lt gt 2000 DWUコントロールノード

ユーザーからの接続コンピュートとストレージの調整

コンピュートノード

コンピュートノード

コンピュートノード

コンピュートノード

SQLDB

SQLDB

SQLDB

SQLDB

Azure Blob Storage(WASB)

コントロールノード

SQLDB コントロールノード

D51

D52

D53

D60

hellip

D41

D42

D43

D50

hellip

コンピュートノード

D31

D32

D33

D40hellip

D21

D22

D23

D30

hellip

D11

D12

D13

D20

hellip

D1

D2

D3

D10

hellip

SQL DB

Azure Blob Storage(WASB)

コントロールノード

SQLDB コントロールノード

コンピュートノード

D51

D52

D53

D60

hellipコンピュートノード

D41

D42

D43

D50

hellip

コンピュートノード

D31

D32

D33

D40hellip

コンピュートノード

D21

D22

D23

D30

hellip

コンピュートノード

D11

D12

D13

D20

hellip

コンピュートノード

D1

D2

D3

D10

hellip

SQL DB

SQL DB

SQL DB

SQL DB

SQL DB

SQL DB

54

データ無制限のストレージ と 分析プラットフォーム

無制限のストレージ(エクサバイト超)

ネイティブ HDFS に基づく実装

HDInsight Hortonworks Cloudera との統合

全ての HDFS 準拠プロジェクトとの親和性

(Spark Storm Flume Sqoop Kafka R etc)

Azure Data Lake Store- Hadoop Distributed File System (HDFS) For The Cloud

構造化データと非構造化データに対するデータ処理

宣言型の SQL 文 とカスタムコード (UDF UDT UDO hellip )

ローカルとリモートに対するクエリ

バッチ型インタラクティブ型ストリーミング型(in the future)

Azure Data Lake Analytics- New Query Language U-SQL

ETL パイプライン

スキーマの定義Relational

LOB

Applications

Schema-on-Write

直ちに必要でないデータは全て捨てられるかアーカイブされている

無限に保存 分析 結果の参照

あらゆるデータ

ソースからの

データ収集

Schema-on-Read

全データ取込要件にかかわらず

全データ格納そのままのフォーマットでスキーマ定義なし

分析実行Hadoopのような分析エンジンの利用

インタラクティブクエリ

バッチ型クエリ

機械学習

データウェアハウス

リアルタイム分析

リレーショナル

デバイス

観察仮説集まったデータから仮説をたてる

58

無制限のサイズ

ギガバイトからペタバイトのサイズの単一ファイル

巨大なスループットを必要とする大規模な分析システムを実現

あらゆるスループットに自動最適化

ペタバイト超のデータの並列コンピューティング

同一リージョン内に3つのコピーを自動的に作成

インストールやチューニングは不要

数分で稼働開始

必要に応じてどのようなサイズにもスケールアウト可能

データウェアハウスデータレイクストア

非構造Rawデータ(ログ文書バイナリ)

Tier 1

MachineLearning

Data LakeAnalytics HDInsight

目的に合わせた

データウェハウス分析処理

(売上分析経営分析)

データウェハウスに格納しきれなかった

過去データ関連データを連結して分析

ハードウェアの性能限界によって行えなかった処理量の分析を実現

ディスクコンピューティング

非構造データの

分析処理

(画像音声映像など)

広範囲のデータを利用した

機械学習統計解析処理

などによる高度分析

SQL Data Warehouse

Data LakeAnalytics HDInsight

Data LakeAnalytics

構造化データ半構造データ

分析用に加工(csv等)

Tier 2

アーカイブデータTier 2 DWHのアーカイブ

Tier 3

Analytics

Storage

HDInsight(ldquomanaged clustersrdquo)

Azure Data Lake Analytics

Azure Data Lake Store

Azure Data Lake

LOB Applications

SocialDevices

Clickstream

Sensors

Video

Web

Relational

HDInsight

Data Lake Analytics

Machine Learning

Spark

R

Azure Data Lake Store

Azure Data Lake Store

Azure Storage Blob

外部表Azure SQLData Warehouse

HDInsight

開発者は OSS に馴染んでいる Java Eclipse Hive etc

マネージド Hadoop クラスタにおいてカスタマイズ管理が可能でフレキシビリティがある

Azure Data Lake Analytics

C SQL amp PowerShell のスキル

経験を活かせる

利便性効率性自動スケール

ジョブ実行の仕組みが提供される

(New)

(New)

一般的なパターン

処理読み込み 保存

INSERT

OUTPUT

OUTPUT

SELECThellip

FROMhellip

WHEREhellip

+

PythonR

EXTRACT

EXTRACT

SELECT

SELECT

Azure

Data

Lake

Azure

Data

Lake

Azure

SQL

DB

Azure

Storage

Blobs

Azure

Storage

Blobs

RowSet RowSet

Cognitive Services

REFERENCE ASSEMBLY WebLogExtASM

rs =

EXTRACT

UserID string

Start DateTime

End DateTime

Region string

SitesVisited string

PagesVisited string

FROM ldquoLogsWebLogRecordstxtrdquo

USING WebLogExtractor ()

result = SELECT UserID

(EndSubtract(Start))TotalSeconds AS Duration

FROM rs ORDER BY Duration DESC FETCH 10

OUTPUT result TO ldquoLogsResultstop10tsv

USING OutputterTsv()

bull 型定義は C の型定義と同じ

bull データをファイルから抽出読み込み

するときにスキーマが必要

Data Lake Store 内 のファイル

独自形式を解析するカスタム関数

C の関数

行セット(中間テーブルの概念

に近い)

TSV形式で書き込む関数

U-SQL ジョブのサブミットAzure PortalやVisual StudioのAzure Data Lake ToolsからU-SQLジョブをサブミット可能

67

進捗

統計情報

従来型の処理分析 Azure Data Lake を中心とした処理分析

Business apps

Custom apps

Sensors and devices

ADL StorePeople

非構造化データも含めてあらゆるデータを格納

Azure SQL DW

Azure AD

Power BI

ADF

ADL Analytics

bull 処理分析業務の大半はデータ準備作業が占めるbull 処理分析業務に手間時間が必要

Business apps

Custom apps

Sensors and devices

HDInsight

ユーザー管理認証

データの連携

Power BI

File System

Database

Database

Hadoop

DWH

Data Mart

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

①大量データの受け入れ

②リアルタイム処理データの集約

③データの蓄積

構造化非構造化文書など様々な形式での保存

④データの加工移行

⑥機械学習

⑦Hadoop解析

⑧マイクロソフト技術を用いた分散解析

⑨通常のRMSが機能を追加した企業向けRを使用した解析

⑪クラウドベースの Self-Service BI 機能

⑫機械学習の予測モデルを業務システムなどから呼び出し可能にするサービス

外部クラウドなどからのデータ取り込み

②リアルタイム処理データの加工

⑤ディープラーニング

⑩Excelを用いた可視化

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

リアルタイム

バッチ

Data Factory Tools for Visual Studio

Azure Portal

Azure TableStorage

(Web ログレコード)

Data Factory

HDInsight

(Web ログをファイルにして

バッチ処理で集計)

SQL Database

(集計データをDB テーブルに格納)

Power BI

社内システム

DataManagement

Gateway

SQL Database

Data Warehouse

Blob Storage

Table Storage

httpportalazurecom

接続

メッセージ作成

メッセージ送信

var cs = ldquo接続文字列rdquovar path = ldquoイベントハブ名rdquovar eh = EventHubClientCreateFromConnectionString(cs path)

var msg = new user = thisUserIdentityNamelevel = leveltimestamp = demoTimestamp

var json = JsonConvertSerializeObject(msg)

ehSend(new EventData(EncodingUTF8GetBytes(json)))

EventProcessorHostを使う

bull

bull

bull

Functionsを使う

bull

bull

IEventProcessorProcessEventAsync(msg)

IEventProcessorProcessEventAsync(msg)

Run(string msg)

Azure azure-sdk-for-python

Point of Service Devices

Self CheckoutStations

Kiosks

Smart Phones

SlatesTablets

PCsLaptops

Servers

Digital Signs

DiagnosticEquipmentRemote Medical

MonitorsLogic

Controllers

SpecializedDevicesThin

Clients

Handhelds

Security

POS Terminals

AutomationDevices

VendingMachines

Kinect

ATM

Stream Analytics

入力 出力クエリデータストリーム

参照

bull ldquo入力rdquoldquo出力rdquoをクリックしそれぞれ作成

bull ldquoクエリrdquoをクリックしクエリを定義bull 作業が終わったらldquo開始rdquoで実

行開始

SELECT

INTO

FROM

SELECT user level AS SATLevel timestamp

INTO

FROM

デバイス接続性とデバイス管理およびブローカーサービス

データ管理と高度な分析 情報活用業務の生産性とプロセスの最適化

IoT Agent Gateway

予兆原因の学習モデル

ダッシュボード

参照ERPbull 顧客bull 設備bull 担当者

Notification Hubs

通知

予兆イベント

メンテ方法の推奨

bull ヘルス状態bull インシデント管理bull 対応のディスパッチ

現地技術要員のモバイルデバイス

オペレーションセンター

bull イベント ドア開閉軸アライメントキャビン速度モーター温度など

bull アラーム 故障アラームエラーコードなど

httpisstkeazurewebsitesnet

Event Hub

Stream Analytics

Azure ML

制御機器とセンサーのデータ

マシンデータの蓄積

メンテナンス方法の学習モデル

Machine Learning

Blob Storage

セルフサービス分析

Power BI

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce

cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-

system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of

your data while making it faster to get up and running with

batch streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources

so you can run queries on exabytes of data Includes U-

SQL a new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully

managed NoSQL database service that indexes stores and

queries data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

What do all of these have in common

They can all use Azure Analysis Services

Azure Analysis Services

Azure Analysis Services

BI semantic model

Business logic amp metrics

Data modeling

Security

Azure Analysis Services

Lifecycle management

In-memory cache

On-premises

Cloud

Data sources

SQL Database

SQL Data Warehouse

Other data sources

SQL Server

Analytics platform

system

Other data sources

On-premises

Cloud

Client tools

Power BI

Excel

Third party BI tools

Power BI Desktop

Rich semantic modelling

locatioidentifier

identifiertype

fieldidentifier

numberofunitssoldtodate

remaningnumber

Numberofuntissoldtoday

receivedback

productidentifier

descriptionline1

descriptionline2

qtyafterqtysales

familyidentifier

Source DataComplex raw data optimized for processing

Semantic ModelRich business user friendly semantic model

Product Id

Product Name

Product Description

Category

Category Id

Category Name

Category Description

Sub Category

Product Id

Shelf qty

Return qty

Order qty

Sale qty

Cloud Data

On-Premises

Data

Azure Analysis Services

Lightning fast queries

データ管理をきっかけに処理を実行

Web Glue

Bots IoT

DOMINOS STORES

Key Vault

Azure Active Directory

Azure Files

SSIS FRANCHISEE

AZURE WEST EUROPE

Azure Function

KEMPSSDESSRS

IN- AND EXTERNAL DATA SOURCES

orderprocessing

O365

App Insights

indexhtml

Azure Functions Proxies

couponprocessing

Use Bindings in Your Codefunctionjson

bindings [type httpTriggerdirection inwebHookType genericJsonname req

type httpdirection outname res

type queuename eventOutputqueueName aievents1connectionAiStorageConnectiondirection out

]

public static class OrderHandler

[FunctionName(OrderWebhook)]public static async TaskltHttpResponseMessagegt Run(

[HttpTrigger] HttpRequestMessage req[Queue(aievents1 Connection = AiStorageConnection)]

IAsyncCollectorltStringgt eventOutputTraceWriter log)

logInfo($Webhook was triggered)

string jsonContent = await reqContentReadAsStringAsync()dynamic data = JsonConvertDeserializeObject(jsonContent)

await eventOutputAddAsync(JsonConvertSerializeObject(GetLogData(data)))

int orderId = PlaceOrder(data)

return reqCreateResponse(HttpStatusCodeOK new orderNumber = orderId )

bull Workflow in the cloud

bull Powerful control flow

bull Connect functions and APIs

bull Declarative definition to persist in source control and drive deployments

Logic AppsCloud APIs and platform

bull Supports over 125 built-in connectors

bull Scales to meet your needs

bull Enables rapid development

bull Extends with custom APIs and

Functions

API connections

bull Authenticate once and reuse

Big Data Solutions Decision Tree

httpsbiz-excellencecom20160830big-data-dt

Machine Learning Solutions Decision Tree

httpsbiz-excellencecom20160913machine-

learning-dt

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of your

data while making it faster to get up and running with batch

streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources so

you can run queries on exabytes of data Includes U-SQL a

new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully managed

NoSQL database service that indexes stores and queries

data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

Microsoft Big Data Portfolio

SQL Server Stretch

Business intelligence

Machine learning analytics

Insights

Azure SQL Database

SQL Server 2016

SQL Server 2016 Fast Track

Azure SQL DW

ADLS amp ADLA

DocumentDB

HDInsight

Hadoop

Analytics Platform System

Sequential Scale Out + AcrossScale Up

Key

Relational Non-relational

On

-pre

mis

es

Clo

ud

Microsoft has solutions covering

and connecting all four

quadrants ndash thatrsquos why SQL

Server is one of the most utilized

databases in the world

Azure

Data Lake Store

Azure

Blob StoragePurpose Optimized for big data analytics General purpose bulk storage

Use Cases Batch Interactive Streaming App backend backup data media storage for

streaming

Units of Storage Accounts Folders Files Accounts Containers Blobs

Structure Hierarchical File System Flat namespace

WebHDFS Implements WebHDFS No (WASB)

Security AD SAS keys

Storage Auto SharedFiles chunked Manually manage expansionFiles intact

Service State Generally Available PolyBase

just supported

Generally Available

Billing Pay for data stored and for IO Pay for data stored and for IO

Region Availability Two US regions (Other regions coming soon) All Azure Regions

ADL Store vs Blob Store

httpsdocsmicrosoftcomen-usazuredata-lake-storedata-lake-store-comparison-with-blob-storage

Want Hadoop

Need exact same on-prem

Need interactive streaming

MandatoryNo strong opinion

Azure Marketplace (IaaS)

bull Need all workloads exactly like on-

premises

bull Need 100 HortonworksClouderaMapR

Azure HDInsight

bull Most Hadoop workloads

bull Fully managed by Microsoft

bull Sell HDI + ADLS

bull Stickier to Microsoft than VMs

bull Can do interactive (Spark) and streaming

(StormSpark)

Azure Data Lake Analytics

bull Easiest experience for admin no sense of

clusters instant scale per job

bull Easiest experience for developers Visual

StudioU-SQL (C+SQL)

bull Sell ADLA + ADLS

bull Batch workloads only

Need everything exactly like on-prem

Need core projects Yes Batch is OK

Always present ADLA if NET or Visual Studio Shop

If NET or VS shop

Azure SQL DW HDInsight Hive HDInsight Spark Azure Data Lake SQL Server (IaaS)

Volume Petabytes Petabytes Petabytes Petabytes Terabytes

Security Encryption TD

Audit

ADLS Apache

Ranger

ADLS AAD Security

Groups (data)

Encryption TD

Audit

Languages T-SQL HiveQL SparkSQL HiveQL

Scala Java Python

R

U-SQL T-SQL

Extensibility No Yes NETSerDe Yes Packages Yes NET Yes NET CLR

External File

Types

ORC TXT

Parquet RCFile

ORC CSV Parquet

+ others

Parquet JSON

Hive + others

Many ORC TXT Parquet

RCFile

Admin Low-Medium Medium-High Medium-High Low High

Cost Model DWU Nodes amp VM Nodes amp VM UnitsJobs VM

Schema

Definition

Schema on Write

Polybase

Schema on Read Schema on Read Schema on Read Schema on Write

Polybase

Max DB Size 240TB Comp (5X

= 1PB)

Unlimited 64TB (64 1TB drives)

機械学習 Deep Learning 深層強化学習

画像解析

音声解析

データ分類異常検知 顧客グルーピング

数値予測売上予測 需要予測 品質管理

ラベル分類不良品分析 故障予測 チャーン分析

機械学習より強力な分析

自律学習型ロボット

自動運転車

テキストや画像等の自動生成

活用例

主に多層のニューラルネットワークを用いた手法での分析

分析のためには莫大なデータ量計算量知識スキルを要する

統計に基づいた手法での分析

そのため比較的少ないデータ量と計算量で分析を行うことができる

定義したあるべき姿に従い試行錯誤をして自ら学習を行うための分析手法である強化学習と深層学習を組み合わせた分析

Azure Machine Learning Cognitive Toolkit GPU Instance (N-Series)

マイクロソフトが提供する技術

テキストデータ機器のログデータなど

画像データ監視カメラの録画データ 機器の外観画像 顔画像など

動画データ監視カメラの録画データ 機器の稼働状況 人の作業映像など

音声データマイクからの収集データ 稼働音 室内音 人の音声など

数値データセンサーデータ 機器の制御データ計測データなど672342345

機械学習統計理論に基づいた分析手法を用いる用意するべきデータ量と処理する計算量の敷居が低め導入しやすい

Deep Learningデータ量が大きいため強力な分析手法が必要「膨大なデータ量を用意」「莫大な計算量を処理」が必要で敷居が非常に高い導入にはそれなりの覚悟が必要

Action

People

Automated Systems

Apps

Web

Mobile

Bots

Intelligence

Dashboards amp Visualizations

Cortana

Bot Framework

Cognitive Services

Power BI

Information Management

Event Hubs

Data Catalog

Data Factory

Machine Learning and Analytics

HDInsight

Stream Analytics

Intelligence

Data Lake Analytics

Machine Learning

Big Data Stores

SQL Data Warehouse

Data Lake Store

Data Sources

Apps

Sensors amp Devices

Data

Cortana Intelligence Suite

学習済み

モデル利用

学習モデル

作成

機械学習 教師あり学習

教師なし学習

強化学習

決定木

線形回帰

SVM

ロジスティック回帰

ニューラルネットワーク

クラスタリング

次元削減

Q学習

K-mean法

主成分分析

正準相関分析

ディープニューラルネットワーク

畳みこみニューラルネットワーク

再帰的ニューラルネットワーク

回帰結合ニューラルネットワーク

httpsazuremicrosoftcomen-usservicescognitive-services

わずか数行のコードで強力なアルゴリズムを持つアプリの作成が可能ですiOSAndroidWindows などのプラットフォームを問わず機能します

httpsazuremicrosoftcomja-jpservicesmachine-learning

ユーザーは簡単に予測分析ソリューションを構築デプロイ共有できます

httpswwwyoutubecomwatchv=9gDDO5ldT-4ampfeature=youtube

AI技術を利用したディープラーニング(深層学習)ツールキットです旧称「CNTK」から改名されました

ソースコード httpsgithubcomMicrosoftCNTK

SearchSpeech

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

コカコーラ誕生100周年キャンペーン

コカコーラボトルを「100歳」と認識

bull 自撮り写真をUp結果をSNS拡散

ナビタイムジャパン様

自然言語入力による路線検索BOT

bull ユーザーとの新たな接点(LINE)

bull 自然言語入力

Vision Language Knowledge

Vision Knowledge SearchSpeech Language

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

Microsoft SupportVirtual Agent

自然言語入力による自動応答サポート窓口

bull 過去QampAデータ解析に基づく回答抽出

bull 定型外はldquo人対応rdquo

UBER

登録ドライバーをスマホ経由で顔認証

VOLVO

表情からの危険予測

Search

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

アロバ様

監視カメラによる店舗内行動分析

bull 顔認識による 顧客識別

bull 表情分析

東京サマーランド様にて導入済み

HmComm様

コールセンターソリューション

bull 会話をテキスト化キーワードを解析

bull 過去QampA検索

bull 内容をCRM保存

Vision KnowledgeSpeech Language

導入事例東京サマーランド様

Video

Intelligent KioskhttpsgithubcomMicrosoftCognitive-Samples-IntelligentKiosk

ldquo(want to|request)rdquo

HoloLens

Page 18: やりたいことから考えるMicrosoft Azure 上の データストアの選び方とデータサイエンティスト向け活用法。KVSからDWHまで

Azure Storage様々な文書Blobデータテーブル形式のデータが保存可能なストレージ

SQL DatabaseSQL Server 2016 と同等の機能を提供する PaaS 型データベース サービス

Azure Database for MySQLPostgreSQLPaaS 型データベース サービス のMySQLPostgreSQL版

Cosmos DBマルチデータモデルのグローバル分散DB

Azure Data Lake Storeビッグ データの分析ワークロードに対応する大規模データ格納エリア

Azure SQL Data Warehouseペタバイト単位のストレージを有した PaaS 型データ ウェアハウス サービス

IoT Hub

Event Hubs

Data Warehouse

Data Factory

App Insights Log Analytics

Monitor

CDN

Search Power BI

Blob Storage Pillars

Open amp

Interoperable

Manageable amp

Cost Efficient

Scalable amp

Performant

Secure amp

Compliant

Durable amp

Available

Machine Learning

Stream Analytics

Batch

Functions

Data Lake Analytics

Azure HDInsight

Big Data Use Cases

Ingest amp ETL Streaming Analytics amp Machine Learning Data Aggregation Presentation

QueuesReliable queues at

scale for cloud

services

ファイルを保存する際にはこの3つの選択肢があります

httpsdocsmicrosoftcomja-jpazurestoragestorage-decide-blobs-files-disks

OS

アプリ アプリ アプリ アプリ

BLOB

効率

利用

仮想マシン

+BLOB

001log

002log

003log

004log

EN

EN

EN

EN

EN

EN

PS

PS

PS

PS ENEN

001log

002log

003log

004log

disk1vhd

PS = パーティション サーバー

EN = エクステント ノード

001log

002log

003log

004log

EN

EN

EN

EN

EN

EN

PS

PS

PS

PS ENEN

Block 1 Block 4Block 3Block 2

Imagejpg

Sparse File 512 byte aligned

51

2

10

24

15

36

20

48

25

60

AZCopy ndash Robocopy for Azure StorageStorage Explorer ndash Cross platform UX

Data Movement Library on CoreCLR

Python client library

仮想マシンSQL Enterprise

DS4 の場合

8 Core 28 GB RAM

Disk 0

読み取り書き込み Disk 1

Disk 2

P30

読み取りのみ

C

システム

D

キャッシュ

永続性あり 永続性なし 永続性あり (複数ボリュームの分割やストライプの構成が可能)

Premium Storage

デフォルト作成(仮想マシン付属) ユーザーが任意に追加

OS

Page ファイル

DBMS Exe

SQL Server バッファープール拡張

httpsazuremicrosoftcomja-jpdocumentationarticlesvirtual-machines-sql-server-performance-best-practices

httpsazuremicrosoftcomja-jpdocumentationarticlesvirtual-machines-sql-server-use-premium-storage

Disk n

P30

読み取りのみ

E

SQL データ(ページ圧縮)

Temp DB

Disk 3

P30

なし

F

Transaction-

Log

Disk Cache

344GB

最大Disk IOPS

256MBsec

P30合計の

600MBsは出ない

NTFSアロケーションユニットサイズ 64KB

データベース ページ圧縮 有効

Table用Index用Temp DB用に別

ドライブに拡張可能

キャッシュ設定は添付の

URLを参照

最大Disk IOPS

200MBsec

最大Disk IOPS

200MBsec

最大Disk IOPS

200MBsec

フルマネージドの RDBMS

データベース

RDBMS

OS

Azure が管理

利用者が管理

VM上の RDBMS

ホスト OS

仮想化

フルコントロール

データベース

RDBMS

OS

仮想化

ホスト OS

容易な管理

Azure Database

SQL Server物理マシン仮想マシン

SQL Server on Azure VM仮想マシン

SQL Database Data WarehousePaaS

物理マシン仮想マシン

VM Template Market place仮想マシン

Azure Database for MySQL PostgreSQL

論理データベース

Write

Write Ack

Ack

Read

value write

Ack

特徴

無停止フェールオーバー

無停止スケールアップ(プラン変更)

自動パフォーマンスチューニング

スループット指定によるプロビジョニング

データベース トランザクション ユニット (DTU) とエラスティック データベース トランザクション ユニット (eDTU) の説明

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-what-is-a-dtu

Azure SQL Database Query Performance Insight

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-query-performance

Query Store is turned on by default for Azure SQL Database

httpsazuremicrosoftcomja-jpupdatesquery-store-on-is-the-new-default-for-azure-sql-database

Queries

SQL Database

Deeper Insight

Query

Store

SQL Database Advisor

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-advisor

Azure Portal を使用した SQL Database Advisor

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-advisor-portal

領域 改善後

新しいインデックス提案が作成されるまで 18時間以内

T-SQL文が実行されるまでのタイムラグ 即時(数分以内)

「悪い」チューニング内容に対しての検知時間 1時間以内

次のインデックス提案が行われるまでの待ち時

間即時(数分以内)

導入までの総時間 1日以内

SQL Database の脅威の検出

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-threat-detection

コントロールノード

SQLDB

Azure Blob Storage(WASB)

100 DWU lt gt 2000 DWUコントロールノード

ユーザーからの接続コンピュートとストレージの調整

コンピュートノード

コンピュートノード

コンピュートノード

コンピュートノード

SQLDB

SQLDB

SQLDB

SQLDB

Azure Blob Storage(WASB)

コントロールノード

SQLDB コントロールノード

D51

D52

D53

D60

hellip

D41

D42

D43

D50

hellip

コンピュートノード

D31

D32

D33

D40hellip

D21

D22

D23

D30

hellip

D11

D12

D13

D20

hellip

D1

D2

D3

D10

hellip

SQL DB

Azure Blob Storage(WASB)

コントロールノード

SQLDB コントロールノード

コンピュートノード

D51

D52

D53

D60

hellipコンピュートノード

D41

D42

D43

D50

hellip

コンピュートノード

D31

D32

D33

D40hellip

コンピュートノード

D21

D22

D23

D30

hellip

コンピュートノード

D11

D12

D13

D20

hellip

コンピュートノード

D1

D2

D3

D10

hellip

SQL DB

SQL DB

SQL DB

SQL DB

SQL DB

SQL DB

54

データ無制限のストレージ と 分析プラットフォーム

無制限のストレージ(エクサバイト超)

ネイティブ HDFS に基づく実装

HDInsight Hortonworks Cloudera との統合

全ての HDFS 準拠プロジェクトとの親和性

(Spark Storm Flume Sqoop Kafka R etc)

Azure Data Lake Store- Hadoop Distributed File System (HDFS) For The Cloud

構造化データと非構造化データに対するデータ処理

宣言型の SQL 文 とカスタムコード (UDF UDT UDO hellip )

ローカルとリモートに対するクエリ

バッチ型インタラクティブ型ストリーミング型(in the future)

Azure Data Lake Analytics- New Query Language U-SQL

ETL パイプライン

スキーマの定義Relational

LOB

Applications

Schema-on-Write

直ちに必要でないデータは全て捨てられるかアーカイブされている

無限に保存 分析 結果の参照

あらゆるデータ

ソースからの

データ収集

Schema-on-Read

全データ取込要件にかかわらず

全データ格納そのままのフォーマットでスキーマ定義なし

分析実行Hadoopのような分析エンジンの利用

インタラクティブクエリ

バッチ型クエリ

機械学習

データウェアハウス

リアルタイム分析

リレーショナル

デバイス

観察仮説集まったデータから仮説をたてる

58

無制限のサイズ

ギガバイトからペタバイトのサイズの単一ファイル

巨大なスループットを必要とする大規模な分析システムを実現

あらゆるスループットに自動最適化

ペタバイト超のデータの並列コンピューティング

同一リージョン内に3つのコピーを自動的に作成

インストールやチューニングは不要

数分で稼働開始

必要に応じてどのようなサイズにもスケールアウト可能

データウェアハウスデータレイクストア

非構造Rawデータ(ログ文書バイナリ)

Tier 1

MachineLearning

Data LakeAnalytics HDInsight

目的に合わせた

データウェハウス分析処理

(売上分析経営分析)

データウェハウスに格納しきれなかった

過去データ関連データを連結して分析

ハードウェアの性能限界によって行えなかった処理量の分析を実現

ディスクコンピューティング

非構造データの

分析処理

(画像音声映像など)

広範囲のデータを利用した

機械学習統計解析処理

などによる高度分析

SQL Data Warehouse

Data LakeAnalytics HDInsight

Data LakeAnalytics

構造化データ半構造データ

分析用に加工(csv等)

Tier 2

アーカイブデータTier 2 DWHのアーカイブ

Tier 3

Analytics

Storage

HDInsight(ldquomanaged clustersrdquo)

Azure Data Lake Analytics

Azure Data Lake Store

Azure Data Lake

LOB Applications

SocialDevices

Clickstream

Sensors

Video

Web

Relational

HDInsight

Data Lake Analytics

Machine Learning

Spark

R

Azure Data Lake Store

Azure Data Lake Store

Azure Storage Blob

外部表Azure SQLData Warehouse

HDInsight

開発者は OSS に馴染んでいる Java Eclipse Hive etc

マネージド Hadoop クラスタにおいてカスタマイズ管理が可能でフレキシビリティがある

Azure Data Lake Analytics

C SQL amp PowerShell のスキル

経験を活かせる

利便性効率性自動スケール

ジョブ実行の仕組みが提供される

(New)

(New)

一般的なパターン

処理読み込み 保存

INSERT

OUTPUT

OUTPUT

SELECThellip

FROMhellip

WHEREhellip

+

PythonR

EXTRACT

EXTRACT

SELECT

SELECT

Azure

Data

Lake

Azure

Data

Lake

Azure

SQL

DB

Azure

Storage

Blobs

Azure

Storage

Blobs

RowSet RowSet

Cognitive Services

REFERENCE ASSEMBLY WebLogExtASM

rs =

EXTRACT

UserID string

Start DateTime

End DateTime

Region string

SitesVisited string

PagesVisited string

FROM ldquoLogsWebLogRecordstxtrdquo

USING WebLogExtractor ()

result = SELECT UserID

(EndSubtract(Start))TotalSeconds AS Duration

FROM rs ORDER BY Duration DESC FETCH 10

OUTPUT result TO ldquoLogsResultstop10tsv

USING OutputterTsv()

bull 型定義は C の型定義と同じ

bull データをファイルから抽出読み込み

するときにスキーマが必要

Data Lake Store 内 のファイル

独自形式を解析するカスタム関数

C の関数

行セット(中間テーブルの概念

に近い)

TSV形式で書き込む関数

U-SQL ジョブのサブミットAzure PortalやVisual StudioのAzure Data Lake ToolsからU-SQLジョブをサブミット可能

67

進捗

統計情報

従来型の処理分析 Azure Data Lake を中心とした処理分析

Business apps

Custom apps

Sensors and devices

ADL StorePeople

非構造化データも含めてあらゆるデータを格納

Azure SQL DW

Azure AD

Power BI

ADF

ADL Analytics

bull 処理分析業務の大半はデータ準備作業が占めるbull 処理分析業務に手間時間が必要

Business apps

Custom apps

Sensors and devices

HDInsight

ユーザー管理認証

データの連携

Power BI

File System

Database

Database

Hadoop

DWH

Data Mart

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

①大量データの受け入れ

②リアルタイム処理データの集約

③データの蓄積

構造化非構造化文書など様々な形式での保存

④データの加工移行

⑥機械学習

⑦Hadoop解析

⑧マイクロソフト技術を用いた分散解析

⑨通常のRMSが機能を追加した企業向けRを使用した解析

⑪クラウドベースの Self-Service BI 機能

⑫機械学習の予測モデルを業務システムなどから呼び出し可能にするサービス

外部クラウドなどからのデータ取り込み

②リアルタイム処理データの加工

⑤ディープラーニング

⑩Excelを用いた可視化

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

リアルタイム

バッチ

Data Factory Tools for Visual Studio

Azure Portal

Azure TableStorage

(Web ログレコード)

Data Factory

HDInsight

(Web ログをファイルにして

バッチ処理で集計)

SQL Database

(集計データをDB テーブルに格納)

Power BI

社内システム

DataManagement

Gateway

SQL Database

Data Warehouse

Blob Storage

Table Storage

httpportalazurecom

接続

メッセージ作成

メッセージ送信

var cs = ldquo接続文字列rdquovar path = ldquoイベントハブ名rdquovar eh = EventHubClientCreateFromConnectionString(cs path)

var msg = new user = thisUserIdentityNamelevel = leveltimestamp = demoTimestamp

var json = JsonConvertSerializeObject(msg)

ehSend(new EventData(EncodingUTF8GetBytes(json)))

EventProcessorHostを使う

bull

bull

bull

Functionsを使う

bull

bull

IEventProcessorProcessEventAsync(msg)

IEventProcessorProcessEventAsync(msg)

Run(string msg)

Azure azure-sdk-for-python

Point of Service Devices

Self CheckoutStations

Kiosks

Smart Phones

SlatesTablets

PCsLaptops

Servers

Digital Signs

DiagnosticEquipmentRemote Medical

MonitorsLogic

Controllers

SpecializedDevicesThin

Clients

Handhelds

Security

POS Terminals

AutomationDevices

VendingMachines

Kinect

ATM

Stream Analytics

入力 出力クエリデータストリーム

参照

bull ldquo入力rdquoldquo出力rdquoをクリックしそれぞれ作成

bull ldquoクエリrdquoをクリックしクエリを定義bull 作業が終わったらldquo開始rdquoで実

行開始

SELECT

INTO

FROM

SELECT user level AS SATLevel timestamp

INTO

FROM

デバイス接続性とデバイス管理およびブローカーサービス

データ管理と高度な分析 情報活用業務の生産性とプロセスの最適化

IoT Agent Gateway

予兆原因の学習モデル

ダッシュボード

参照ERPbull 顧客bull 設備bull 担当者

Notification Hubs

通知

予兆イベント

メンテ方法の推奨

bull ヘルス状態bull インシデント管理bull 対応のディスパッチ

現地技術要員のモバイルデバイス

オペレーションセンター

bull イベント ドア開閉軸アライメントキャビン速度モーター温度など

bull アラーム 故障アラームエラーコードなど

httpisstkeazurewebsitesnet

Event Hub

Stream Analytics

Azure ML

制御機器とセンサーのデータ

マシンデータの蓄積

メンテナンス方法の学習モデル

Machine Learning

Blob Storage

セルフサービス分析

Power BI

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce

cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-

system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of

your data while making it faster to get up and running with

batch streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources

so you can run queries on exabytes of data Includes U-

SQL a new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully

managed NoSQL database service that indexes stores and

queries data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

What do all of these have in common

They can all use Azure Analysis Services

Azure Analysis Services

Azure Analysis Services

BI semantic model

Business logic amp metrics

Data modeling

Security

Azure Analysis Services

Lifecycle management

In-memory cache

On-premises

Cloud

Data sources

SQL Database

SQL Data Warehouse

Other data sources

SQL Server

Analytics platform

system

Other data sources

On-premises

Cloud

Client tools

Power BI

Excel

Third party BI tools

Power BI Desktop

Rich semantic modelling

locatioidentifier

identifiertype

fieldidentifier

numberofunitssoldtodate

remaningnumber

Numberofuntissoldtoday

receivedback

productidentifier

descriptionline1

descriptionline2

qtyafterqtysales

familyidentifier

Source DataComplex raw data optimized for processing

Semantic ModelRich business user friendly semantic model

Product Id

Product Name

Product Description

Category

Category Id

Category Name

Category Description

Sub Category

Product Id

Shelf qty

Return qty

Order qty

Sale qty

Cloud Data

On-Premises

Data

Azure Analysis Services

Lightning fast queries

データ管理をきっかけに処理を実行

Web Glue

Bots IoT

DOMINOS STORES

Key Vault

Azure Active Directory

Azure Files

SSIS FRANCHISEE

AZURE WEST EUROPE

Azure Function

KEMPSSDESSRS

IN- AND EXTERNAL DATA SOURCES

orderprocessing

O365

App Insights

indexhtml

Azure Functions Proxies

couponprocessing

Use Bindings in Your Codefunctionjson

bindings [type httpTriggerdirection inwebHookType genericJsonname req

type httpdirection outname res

type queuename eventOutputqueueName aievents1connectionAiStorageConnectiondirection out

]

public static class OrderHandler

[FunctionName(OrderWebhook)]public static async TaskltHttpResponseMessagegt Run(

[HttpTrigger] HttpRequestMessage req[Queue(aievents1 Connection = AiStorageConnection)]

IAsyncCollectorltStringgt eventOutputTraceWriter log)

logInfo($Webhook was triggered)

string jsonContent = await reqContentReadAsStringAsync()dynamic data = JsonConvertDeserializeObject(jsonContent)

await eventOutputAddAsync(JsonConvertSerializeObject(GetLogData(data)))

int orderId = PlaceOrder(data)

return reqCreateResponse(HttpStatusCodeOK new orderNumber = orderId )

bull Workflow in the cloud

bull Powerful control flow

bull Connect functions and APIs

bull Declarative definition to persist in source control and drive deployments

Logic AppsCloud APIs and platform

bull Supports over 125 built-in connectors

bull Scales to meet your needs

bull Enables rapid development

bull Extends with custom APIs and

Functions

API connections

bull Authenticate once and reuse

Big Data Solutions Decision Tree

httpsbiz-excellencecom20160830big-data-dt

Machine Learning Solutions Decision Tree

httpsbiz-excellencecom20160913machine-

learning-dt

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of your

data while making it faster to get up and running with batch

streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources so

you can run queries on exabytes of data Includes U-SQL a

new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully managed

NoSQL database service that indexes stores and queries

data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

Microsoft Big Data Portfolio

SQL Server Stretch

Business intelligence

Machine learning analytics

Insights

Azure SQL Database

SQL Server 2016

SQL Server 2016 Fast Track

Azure SQL DW

ADLS amp ADLA

DocumentDB

HDInsight

Hadoop

Analytics Platform System

Sequential Scale Out + AcrossScale Up

Key

Relational Non-relational

On

-pre

mis

es

Clo

ud

Microsoft has solutions covering

and connecting all four

quadrants ndash thatrsquos why SQL

Server is one of the most utilized

databases in the world

Azure

Data Lake Store

Azure

Blob StoragePurpose Optimized for big data analytics General purpose bulk storage

Use Cases Batch Interactive Streaming App backend backup data media storage for

streaming

Units of Storage Accounts Folders Files Accounts Containers Blobs

Structure Hierarchical File System Flat namespace

WebHDFS Implements WebHDFS No (WASB)

Security AD SAS keys

Storage Auto SharedFiles chunked Manually manage expansionFiles intact

Service State Generally Available PolyBase

just supported

Generally Available

Billing Pay for data stored and for IO Pay for data stored and for IO

Region Availability Two US regions (Other regions coming soon) All Azure Regions

ADL Store vs Blob Store

httpsdocsmicrosoftcomen-usazuredata-lake-storedata-lake-store-comparison-with-blob-storage

Want Hadoop

Need exact same on-prem

Need interactive streaming

MandatoryNo strong opinion

Azure Marketplace (IaaS)

bull Need all workloads exactly like on-

premises

bull Need 100 HortonworksClouderaMapR

Azure HDInsight

bull Most Hadoop workloads

bull Fully managed by Microsoft

bull Sell HDI + ADLS

bull Stickier to Microsoft than VMs

bull Can do interactive (Spark) and streaming

(StormSpark)

Azure Data Lake Analytics

bull Easiest experience for admin no sense of

clusters instant scale per job

bull Easiest experience for developers Visual

StudioU-SQL (C+SQL)

bull Sell ADLA + ADLS

bull Batch workloads only

Need everything exactly like on-prem

Need core projects Yes Batch is OK

Always present ADLA if NET or Visual Studio Shop

If NET or VS shop

Azure SQL DW HDInsight Hive HDInsight Spark Azure Data Lake SQL Server (IaaS)

Volume Petabytes Petabytes Petabytes Petabytes Terabytes

Security Encryption TD

Audit

ADLS Apache

Ranger

ADLS AAD Security

Groups (data)

Encryption TD

Audit

Languages T-SQL HiveQL SparkSQL HiveQL

Scala Java Python

R

U-SQL T-SQL

Extensibility No Yes NETSerDe Yes Packages Yes NET Yes NET CLR

External File

Types

ORC TXT

Parquet RCFile

ORC CSV Parquet

+ others

Parquet JSON

Hive + others

Many ORC TXT Parquet

RCFile

Admin Low-Medium Medium-High Medium-High Low High

Cost Model DWU Nodes amp VM Nodes amp VM UnitsJobs VM

Schema

Definition

Schema on Write

Polybase

Schema on Read Schema on Read Schema on Read Schema on Write

Polybase

Max DB Size 240TB Comp (5X

= 1PB)

Unlimited 64TB (64 1TB drives)

機械学習 Deep Learning 深層強化学習

画像解析

音声解析

データ分類異常検知 顧客グルーピング

数値予測売上予測 需要予測 品質管理

ラベル分類不良品分析 故障予測 チャーン分析

機械学習より強力な分析

自律学習型ロボット

自動運転車

テキストや画像等の自動生成

活用例

主に多層のニューラルネットワークを用いた手法での分析

分析のためには莫大なデータ量計算量知識スキルを要する

統計に基づいた手法での分析

そのため比較的少ないデータ量と計算量で分析を行うことができる

定義したあるべき姿に従い試行錯誤をして自ら学習を行うための分析手法である強化学習と深層学習を組み合わせた分析

Azure Machine Learning Cognitive Toolkit GPU Instance (N-Series)

マイクロソフトが提供する技術

テキストデータ機器のログデータなど

画像データ監視カメラの録画データ 機器の外観画像 顔画像など

動画データ監視カメラの録画データ 機器の稼働状況 人の作業映像など

音声データマイクからの収集データ 稼働音 室内音 人の音声など

数値データセンサーデータ 機器の制御データ計測データなど672342345

機械学習統計理論に基づいた分析手法を用いる用意するべきデータ量と処理する計算量の敷居が低め導入しやすい

Deep Learningデータ量が大きいため強力な分析手法が必要「膨大なデータ量を用意」「莫大な計算量を処理」が必要で敷居が非常に高い導入にはそれなりの覚悟が必要

Action

People

Automated Systems

Apps

Web

Mobile

Bots

Intelligence

Dashboards amp Visualizations

Cortana

Bot Framework

Cognitive Services

Power BI

Information Management

Event Hubs

Data Catalog

Data Factory

Machine Learning and Analytics

HDInsight

Stream Analytics

Intelligence

Data Lake Analytics

Machine Learning

Big Data Stores

SQL Data Warehouse

Data Lake Store

Data Sources

Apps

Sensors amp Devices

Data

Cortana Intelligence Suite

学習済み

モデル利用

学習モデル

作成

機械学習 教師あり学習

教師なし学習

強化学習

決定木

線形回帰

SVM

ロジスティック回帰

ニューラルネットワーク

クラスタリング

次元削減

Q学習

K-mean法

主成分分析

正準相関分析

ディープニューラルネットワーク

畳みこみニューラルネットワーク

再帰的ニューラルネットワーク

回帰結合ニューラルネットワーク

httpsazuremicrosoftcomen-usservicescognitive-services

わずか数行のコードで強力なアルゴリズムを持つアプリの作成が可能ですiOSAndroidWindows などのプラットフォームを問わず機能します

httpsazuremicrosoftcomja-jpservicesmachine-learning

ユーザーは簡単に予測分析ソリューションを構築デプロイ共有できます

httpswwwyoutubecomwatchv=9gDDO5ldT-4ampfeature=youtube

AI技術を利用したディープラーニング(深層学習)ツールキットです旧称「CNTK」から改名されました

ソースコード httpsgithubcomMicrosoftCNTK

SearchSpeech

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

コカコーラ誕生100周年キャンペーン

コカコーラボトルを「100歳」と認識

bull 自撮り写真をUp結果をSNS拡散

ナビタイムジャパン様

自然言語入力による路線検索BOT

bull ユーザーとの新たな接点(LINE)

bull 自然言語入力

Vision Language Knowledge

Vision Knowledge SearchSpeech Language

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

Microsoft SupportVirtual Agent

自然言語入力による自動応答サポート窓口

bull 過去QampAデータ解析に基づく回答抽出

bull 定型外はldquo人対応rdquo

UBER

登録ドライバーをスマホ経由で顔認証

VOLVO

表情からの危険予測

Search

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

アロバ様

監視カメラによる店舗内行動分析

bull 顔認識による 顧客識別

bull 表情分析

東京サマーランド様にて導入済み

HmComm様

コールセンターソリューション

bull 会話をテキスト化キーワードを解析

bull 過去QampA検索

bull 内容をCRM保存

Vision KnowledgeSpeech Language

導入事例東京サマーランド様

Video

Intelligent KioskhttpsgithubcomMicrosoftCognitive-Samples-IntelligentKiosk

ldquo(want to|request)rdquo

HoloLens

Page 19: やりたいことから考えるMicrosoft Azure 上の データストアの選び方とデータサイエンティスト向け活用法。KVSからDWHまで

IoT Hub

Event Hubs

Data Warehouse

Data Factory

App Insights Log Analytics

Monitor

CDN

Search Power BI

Blob Storage Pillars

Open amp

Interoperable

Manageable amp

Cost Efficient

Scalable amp

Performant

Secure amp

Compliant

Durable amp

Available

Machine Learning

Stream Analytics

Batch

Functions

Data Lake Analytics

Azure HDInsight

Big Data Use Cases

Ingest amp ETL Streaming Analytics amp Machine Learning Data Aggregation Presentation

QueuesReliable queues at

scale for cloud

services

ファイルを保存する際にはこの3つの選択肢があります

httpsdocsmicrosoftcomja-jpazurestoragestorage-decide-blobs-files-disks

OS

アプリ アプリ アプリ アプリ

BLOB

効率

利用

仮想マシン

+BLOB

001log

002log

003log

004log

EN

EN

EN

EN

EN

EN

PS

PS

PS

PS ENEN

001log

002log

003log

004log

disk1vhd

PS = パーティション サーバー

EN = エクステント ノード

001log

002log

003log

004log

EN

EN

EN

EN

EN

EN

PS

PS

PS

PS ENEN

Block 1 Block 4Block 3Block 2

Imagejpg

Sparse File 512 byte aligned

51

2

10

24

15

36

20

48

25

60

AZCopy ndash Robocopy for Azure StorageStorage Explorer ndash Cross platform UX

Data Movement Library on CoreCLR

Python client library

仮想マシンSQL Enterprise

DS4 の場合

8 Core 28 GB RAM

Disk 0

読み取り書き込み Disk 1

Disk 2

P30

読み取りのみ

C

システム

D

キャッシュ

永続性あり 永続性なし 永続性あり (複数ボリュームの分割やストライプの構成が可能)

Premium Storage

デフォルト作成(仮想マシン付属) ユーザーが任意に追加

OS

Page ファイル

DBMS Exe

SQL Server バッファープール拡張

httpsazuremicrosoftcomja-jpdocumentationarticlesvirtual-machines-sql-server-performance-best-practices

httpsazuremicrosoftcomja-jpdocumentationarticlesvirtual-machines-sql-server-use-premium-storage

Disk n

P30

読み取りのみ

E

SQL データ(ページ圧縮)

Temp DB

Disk 3

P30

なし

F

Transaction-

Log

Disk Cache

344GB

最大Disk IOPS

256MBsec

P30合計の

600MBsは出ない

NTFSアロケーションユニットサイズ 64KB

データベース ページ圧縮 有効

Table用Index用Temp DB用に別

ドライブに拡張可能

キャッシュ設定は添付の

URLを参照

最大Disk IOPS

200MBsec

最大Disk IOPS

200MBsec

最大Disk IOPS

200MBsec

フルマネージドの RDBMS

データベース

RDBMS

OS

Azure が管理

利用者が管理

VM上の RDBMS

ホスト OS

仮想化

フルコントロール

データベース

RDBMS

OS

仮想化

ホスト OS

容易な管理

Azure Database

SQL Server物理マシン仮想マシン

SQL Server on Azure VM仮想マシン

SQL Database Data WarehousePaaS

物理マシン仮想マシン

VM Template Market place仮想マシン

Azure Database for MySQL PostgreSQL

論理データベース

Write

Write Ack

Ack

Read

value write

Ack

特徴

無停止フェールオーバー

無停止スケールアップ(プラン変更)

自動パフォーマンスチューニング

スループット指定によるプロビジョニング

データベース トランザクション ユニット (DTU) とエラスティック データベース トランザクション ユニット (eDTU) の説明

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-what-is-a-dtu

Azure SQL Database Query Performance Insight

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-query-performance

Query Store is turned on by default for Azure SQL Database

httpsazuremicrosoftcomja-jpupdatesquery-store-on-is-the-new-default-for-azure-sql-database

Queries

SQL Database

Deeper Insight

Query

Store

SQL Database Advisor

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-advisor

Azure Portal を使用した SQL Database Advisor

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-advisor-portal

領域 改善後

新しいインデックス提案が作成されるまで 18時間以内

T-SQL文が実行されるまでのタイムラグ 即時(数分以内)

「悪い」チューニング内容に対しての検知時間 1時間以内

次のインデックス提案が行われるまでの待ち時

間即時(数分以内)

導入までの総時間 1日以内

SQL Database の脅威の検出

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-threat-detection

コントロールノード

SQLDB

Azure Blob Storage(WASB)

100 DWU lt gt 2000 DWUコントロールノード

ユーザーからの接続コンピュートとストレージの調整

コンピュートノード

コンピュートノード

コンピュートノード

コンピュートノード

SQLDB

SQLDB

SQLDB

SQLDB

Azure Blob Storage(WASB)

コントロールノード

SQLDB コントロールノード

D51

D52

D53

D60

hellip

D41

D42

D43

D50

hellip

コンピュートノード

D31

D32

D33

D40hellip

D21

D22

D23

D30

hellip

D11

D12

D13

D20

hellip

D1

D2

D3

D10

hellip

SQL DB

Azure Blob Storage(WASB)

コントロールノード

SQLDB コントロールノード

コンピュートノード

D51

D52

D53

D60

hellipコンピュートノード

D41

D42

D43

D50

hellip

コンピュートノード

D31

D32

D33

D40hellip

コンピュートノード

D21

D22

D23

D30

hellip

コンピュートノード

D11

D12

D13

D20

hellip

コンピュートノード

D1

D2

D3

D10

hellip

SQL DB

SQL DB

SQL DB

SQL DB

SQL DB

SQL DB

54

データ無制限のストレージ と 分析プラットフォーム

無制限のストレージ(エクサバイト超)

ネイティブ HDFS に基づく実装

HDInsight Hortonworks Cloudera との統合

全ての HDFS 準拠プロジェクトとの親和性

(Spark Storm Flume Sqoop Kafka R etc)

Azure Data Lake Store- Hadoop Distributed File System (HDFS) For The Cloud

構造化データと非構造化データに対するデータ処理

宣言型の SQL 文 とカスタムコード (UDF UDT UDO hellip )

ローカルとリモートに対するクエリ

バッチ型インタラクティブ型ストリーミング型(in the future)

Azure Data Lake Analytics- New Query Language U-SQL

ETL パイプライン

スキーマの定義Relational

LOB

Applications

Schema-on-Write

直ちに必要でないデータは全て捨てられるかアーカイブされている

無限に保存 分析 結果の参照

あらゆるデータ

ソースからの

データ収集

Schema-on-Read

全データ取込要件にかかわらず

全データ格納そのままのフォーマットでスキーマ定義なし

分析実行Hadoopのような分析エンジンの利用

インタラクティブクエリ

バッチ型クエリ

機械学習

データウェアハウス

リアルタイム分析

リレーショナル

デバイス

観察仮説集まったデータから仮説をたてる

58

無制限のサイズ

ギガバイトからペタバイトのサイズの単一ファイル

巨大なスループットを必要とする大規模な分析システムを実現

あらゆるスループットに自動最適化

ペタバイト超のデータの並列コンピューティング

同一リージョン内に3つのコピーを自動的に作成

インストールやチューニングは不要

数分で稼働開始

必要に応じてどのようなサイズにもスケールアウト可能

データウェアハウスデータレイクストア

非構造Rawデータ(ログ文書バイナリ)

Tier 1

MachineLearning

Data LakeAnalytics HDInsight

目的に合わせた

データウェハウス分析処理

(売上分析経営分析)

データウェハウスに格納しきれなかった

過去データ関連データを連結して分析

ハードウェアの性能限界によって行えなかった処理量の分析を実現

ディスクコンピューティング

非構造データの

分析処理

(画像音声映像など)

広範囲のデータを利用した

機械学習統計解析処理

などによる高度分析

SQL Data Warehouse

Data LakeAnalytics HDInsight

Data LakeAnalytics

構造化データ半構造データ

分析用に加工(csv等)

Tier 2

アーカイブデータTier 2 DWHのアーカイブ

Tier 3

Analytics

Storage

HDInsight(ldquomanaged clustersrdquo)

Azure Data Lake Analytics

Azure Data Lake Store

Azure Data Lake

LOB Applications

SocialDevices

Clickstream

Sensors

Video

Web

Relational

HDInsight

Data Lake Analytics

Machine Learning

Spark

R

Azure Data Lake Store

Azure Data Lake Store

Azure Storage Blob

外部表Azure SQLData Warehouse

HDInsight

開発者は OSS に馴染んでいる Java Eclipse Hive etc

マネージド Hadoop クラスタにおいてカスタマイズ管理が可能でフレキシビリティがある

Azure Data Lake Analytics

C SQL amp PowerShell のスキル

経験を活かせる

利便性効率性自動スケール

ジョブ実行の仕組みが提供される

(New)

(New)

一般的なパターン

処理読み込み 保存

INSERT

OUTPUT

OUTPUT

SELECThellip

FROMhellip

WHEREhellip

+

PythonR

EXTRACT

EXTRACT

SELECT

SELECT

Azure

Data

Lake

Azure

Data

Lake

Azure

SQL

DB

Azure

Storage

Blobs

Azure

Storage

Blobs

RowSet RowSet

Cognitive Services

REFERENCE ASSEMBLY WebLogExtASM

rs =

EXTRACT

UserID string

Start DateTime

End DateTime

Region string

SitesVisited string

PagesVisited string

FROM ldquoLogsWebLogRecordstxtrdquo

USING WebLogExtractor ()

result = SELECT UserID

(EndSubtract(Start))TotalSeconds AS Duration

FROM rs ORDER BY Duration DESC FETCH 10

OUTPUT result TO ldquoLogsResultstop10tsv

USING OutputterTsv()

bull 型定義は C の型定義と同じ

bull データをファイルから抽出読み込み

するときにスキーマが必要

Data Lake Store 内 のファイル

独自形式を解析するカスタム関数

C の関数

行セット(中間テーブルの概念

に近い)

TSV形式で書き込む関数

U-SQL ジョブのサブミットAzure PortalやVisual StudioのAzure Data Lake ToolsからU-SQLジョブをサブミット可能

67

進捗

統計情報

従来型の処理分析 Azure Data Lake を中心とした処理分析

Business apps

Custom apps

Sensors and devices

ADL StorePeople

非構造化データも含めてあらゆるデータを格納

Azure SQL DW

Azure AD

Power BI

ADF

ADL Analytics

bull 処理分析業務の大半はデータ準備作業が占めるbull 処理分析業務に手間時間が必要

Business apps

Custom apps

Sensors and devices

HDInsight

ユーザー管理認証

データの連携

Power BI

File System

Database

Database

Hadoop

DWH

Data Mart

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

①大量データの受け入れ

②リアルタイム処理データの集約

③データの蓄積

構造化非構造化文書など様々な形式での保存

④データの加工移行

⑥機械学習

⑦Hadoop解析

⑧マイクロソフト技術を用いた分散解析

⑨通常のRMSが機能を追加した企業向けRを使用した解析

⑪クラウドベースの Self-Service BI 機能

⑫機械学習の予測モデルを業務システムなどから呼び出し可能にするサービス

外部クラウドなどからのデータ取り込み

②リアルタイム処理データの加工

⑤ディープラーニング

⑩Excelを用いた可視化

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

リアルタイム

バッチ

Data Factory Tools for Visual Studio

Azure Portal

Azure TableStorage

(Web ログレコード)

Data Factory

HDInsight

(Web ログをファイルにして

バッチ処理で集計)

SQL Database

(集計データをDB テーブルに格納)

Power BI

社内システム

DataManagement

Gateway

SQL Database

Data Warehouse

Blob Storage

Table Storage

httpportalazurecom

接続

メッセージ作成

メッセージ送信

var cs = ldquo接続文字列rdquovar path = ldquoイベントハブ名rdquovar eh = EventHubClientCreateFromConnectionString(cs path)

var msg = new user = thisUserIdentityNamelevel = leveltimestamp = demoTimestamp

var json = JsonConvertSerializeObject(msg)

ehSend(new EventData(EncodingUTF8GetBytes(json)))

EventProcessorHostを使う

bull

bull

bull

Functionsを使う

bull

bull

IEventProcessorProcessEventAsync(msg)

IEventProcessorProcessEventAsync(msg)

Run(string msg)

Azure azure-sdk-for-python

Point of Service Devices

Self CheckoutStations

Kiosks

Smart Phones

SlatesTablets

PCsLaptops

Servers

Digital Signs

DiagnosticEquipmentRemote Medical

MonitorsLogic

Controllers

SpecializedDevicesThin

Clients

Handhelds

Security

POS Terminals

AutomationDevices

VendingMachines

Kinect

ATM

Stream Analytics

入力 出力クエリデータストリーム

参照

bull ldquo入力rdquoldquo出力rdquoをクリックしそれぞれ作成

bull ldquoクエリrdquoをクリックしクエリを定義bull 作業が終わったらldquo開始rdquoで実

行開始

SELECT

INTO

FROM

SELECT user level AS SATLevel timestamp

INTO

FROM

デバイス接続性とデバイス管理およびブローカーサービス

データ管理と高度な分析 情報活用業務の生産性とプロセスの最適化

IoT Agent Gateway

予兆原因の学習モデル

ダッシュボード

参照ERPbull 顧客bull 設備bull 担当者

Notification Hubs

通知

予兆イベント

メンテ方法の推奨

bull ヘルス状態bull インシデント管理bull 対応のディスパッチ

現地技術要員のモバイルデバイス

オペレーションセンター

bull イベント ドア開閉軸アライメントキャビン速度モーター温度など

bull アラーム 故障アラームエラーコードなど

httpisstkeazurewebsitesnet

Event Hub

Stream Analytics

Azure ML

制御機器とセンサーのデータ

マシンデータの蓄積

メンテナンス方法の学習モデル

Machine Learning

Blob Storage

セルフサービス分析

Power BI

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce

cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-

system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of

your data while making it faster to get up and running with

batch streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources

so you can run queries on exabytes of data Includes U-

SQL a new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully

managed NoSQL database service that indexes stores and

queries data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

What do all of these have in common

They can all use Azure Analysis Services

Azure Analysis Services

Azure Analysis Services

BI semantic model

Business logic amp metrics

Data modeling

Security

Azure Analysis Services

Lifecycle management

In-memory cache

On-premises

Cloud

Data sources

SQL Database

SQL Data Warehouse

Other data sources

SQL Server

Analytics platform

system

Other data sources

On-premises

Cloud

Client tools

Power BI

Excel

Third party BI tools

Power BI Desktop

Rich semantic modelling

locatioidentifier

identifiertype

fieldidentifier

numberofunitssoldtodate

remaningnumber

Numberofuntissoldtoday

receivedback

productidentifier

descriptionline1

descriptionline2

qtyafterqtysales

familyidentifier

Source DataComplex raw data optimized for processing

Semantic ModelRich business user friendly semantic model

Product Id

Product Name

Product Description

Category

Category Id

Category Name

Category Description

Sub Category

Product Id

Shelf qty

Return qty

Order qty

Sale qty

Cloud Data

On-Premises

Data

Azure Analysis Services

Lightning fast queries

データ管理をきっかけに処理を実行

Web Glue

Bots IoT

DOMINOS STORES

Key Vault

Azure Active Directory

Azure Files

SSIS FRANCHISEE

AZURE WEST EUROPE

Azure Function

KEMPSSDESSRS

IN- AND EXTERNAL DATA SOURCES

orderprocessing

O365

App Insights

indexhtml

Azure Functions Proxies

couponprocessing

Use Bindings in Your Codefunctionjson

bindings [type httpTriggerdirection inwebHookType genericJsonname req

type httpdirection outname res

type queuename eventOutputqueueName aievents1connectionAiStorageConnectiondirection out

]

public static class OrderHandler

[FunctionName(OrderWebhook)]public static async TaskltHttpResponseMessagegt Run(

[HttpTrigger] HttpRequestMessage req[Queue(aievents1 Connection = AiStorageConnection)]

IAsyncCollectorltStringgt eventOutputTraceWriter log)

logInfo($Webhook was triggered)

string jsonContent = await reqContentReadAsStringAsync()dynamic data = JsonConvertDeserializeObject(jsonContent)

await eventOutputAddAsync(JsonConvertSerializeObject(GetLogData(data)))

int orderId = PlaceOrder(data)

return reqCreateResponse(HttpStatusCodeOK new orderNumber = orderId )

bull Workflow in the cloud

bull Powerful control flow

bull Connect functions and APIs

bull Declarative definition to persist in source control and drive deployments

Logic AppsCloud APIs and platform

bull Supports over 125 built-in connectors

bull Scales to meet your needs

bull Enables rapid development

bull Extends with custom APIs and

Functions

API connections

bull Authenticate once and reuse

Big Data Solutions Decision Tree

httpsbiz-excellencecom20160830big-data-dt

Machine Learning Solutions Decision Tree

httpsbiz-excellencecom20160913machine-

learning-dt

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of your

data while making it faster to get up and running with batch

streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources so

you can run queries on exabytes of data Includes U-SQL a

new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully managed

NoSQL database service that indexes stores and queries

data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

Microsoft Big Data Portfolio

SQL Server Stretch

Business intelligence

Machine learning analytics

Insights

Azure SQL Database

SQL Server 2016

SQL Server 2016 Fast Track

Azure SQL DW

ADLS amp ADLA

DocumentDB

HDInsight

Hadoop

Analytics Platform System

Sequential Scale Out + AcrossScale Up

Key

Relational Non-relational

On

-pre

mis

es

Clo

ud

Microsoft has solutions covering

and connecting all four

quadrants ndash thatrsquos why SQL

Server is one of the most utilized

databases in the world

Azure

Data Lake Store

Azure

Blob StoragePurpose Optimized for big data analytics General purpose bulk storage

Use Cases Batch Interactive Streaming App backend backup data media storage for

streaming

Units of Storage Accounts Folders Files Accounts Containers Blobs

Structure Hierarchical File System Flat namespace

WebHDFS Implements WebHDFS No (WASB)

Security AD SAS keys

Storage Auto SharedFiles chunked Manually manage expansionFiles intact

Service State Generally Available PolyBase

just supported

Generally Available

Billing Pay for data stored and for IO Pay for data stored and for IO

Region Availability Two US regions (Other regions coming soon) All Azure Regions

ADL Store vs Blob Store

httpsdocsmicrosoftcomen-usazuredata-lake-storedata-lake-store-comparison-with-blob-storage

Want Hadoop

Need exact same on-prem

Need interactive streaming

MandatoryNo strong opinion

Azure Marketplace (IaaS)

bull Need all workloads exactly like on-

premises

bull Need 100 HortonworksClouderaMapR

Azure HDInsight

bull Most Hadoop workloads

bull Fully managed by Microsoft

bull Sell HDI + ADLS

bull Stickier to Microsoft than VMs

bull Can do interactive (Spark) and streaming

(StormSpark)

Azure Data Lake Analytics

bull Easiest experience for admin no sense of

clusters instant scale per job

bull Easiest experience for developers Visual

StudioU-SQL (C+SQL)

bull Sell ADLA + ADLS

bull Batch workloads only

Need everything exactly like on-prem

Need core projects Yes Batch is OK

Always present ADLA if NET or Visual Studio Shop

If NET or VS shop

Azure SQL DW HDInsight Hive HDInsight Spark Azure Data Lake SQL Server (IaaS)

Volume Petabytes Petabytes Petabytes Petabytes Terabytes

Security Encryption TD

Audit

ADLS Apache

Ranger

ADLS AAD Security

Groups (data)

Encryption TD

Audit

Languages T-SQL HiveQL SparkSQL HiveQL

Scala Java Python

R

U-SQL T-SQL

Extensibility No Yes NETSerDe Yes Packages Yes NET Yes NET CLR

External File

Types

ORC TXT

Parquet RCFile

ORC CSV Parquet

+ others

Parquet JSON

Hive + others

Many ORC TXT Parquet

RCFile

Admin Low-Medium Medium-High Medium-High Low High

Cost Model DWU Nodes amp VM Nodes amp VM UnitsJobs VM

Schema

Definition

Schema on Write

Polybase

Schema on Read Schema on Read Schema on Read Schema on Write

Polybase

Max DB Size 240TB Comp (5X

= 1PB)

Unlimited 64TB (64 1TB drives)

機械学習 Deep Learning 深層強化学習

画像解析

音声解析

データ分類異常検知 顧客グルーピング

数値予測売上予測 需要予測 品質管理

ラベル分類不良品分析 故障予測 チャーン分析

機械学習より強力な分析

自律学習型ロボット

自動運転車

テキストや画像等の自動生成

活用例

主に多層のニューラルネットワークを用いた手法での分析

分析のためには莫大なデータ量計算量知識スキルを要する

統計に基づいた手法での分析

そのため比較的少ないデータ量と計算量で分析を行うことができる

定義したあるべき姿に従い試行錯誤をして自ら学習を行うための分析手法である強化学習と深層学習を組み合わせた分析

Azure Machine Learning Cognitive Toolkit GPU Instance (N-Series)

マイクロソフトが提供する技術

テキストデータ機器のログデータなど

画像データ監視カメラの録画データ 機器の外観画像 顔画像など

動画データ監視カメラの録画データ 機器の稼働状況 人の作業映像など

音声データマイクからの収集データ 稼働音 室内音 人の音声など

数値データセンサーデータ 機器の制御データ計測データなど672342345

機械学習統計理論に基づいた分析手法を用いる用意するべきデータ量と処理する計算量の敷居が低め導入しやすい

Deep Learningデータ量が大きいため強力な分析手法が必要「膨大なデータ量を用意」「莫大な計算量を処理」が必要で敷居が非常に高い導入にはそれなりの覚悟が必要

Action

People

Automated Systems

Apps

Web

Mobile

Bots

Intelligence

Dashboards amp Visualizations

Cortana

Bot Framework

Cognitive Services

Power BI

Information Management

Event Hubs

Data Catalog

Data Factory

Machine Learning and Analytics

HDInsight

Stream Analytics

Intelligence

Data Lake Analytics

Machine Learning

Big Data Stores

SQL Data Warehouse

Data Lake Store

Data Sources

Apps

Sensors amp Devices

Data

Cortana Intelligence Suite

学習済み

モデル利用

学習モデル

作成

機械学習 教師あり学習

教師なし学習

強化学習

決定木

線形回帰

SVM

ロジスティック回帰

ニューラルネットワーク

クラスタリング

次元削減

Q学習

K-mean法

主成分分析

正準相関分析

ディープニューラルネットワーク

畳みこみニューラルネットワーク

再帰的ニューラルネットワーク

回帰結合ニューラルネットワーク

httpsazuremicrosoftcomen-usservicescognitive-services

わずか数行のコードで強力なアルゴリズムを持つアプリの作成が可能ですiOSAndroidWindows などのプラットフォームを問わず機能します

httpsazuremicrosoftcomja-jpservicesmachine-learning

ユーザーは簡単に予測分析ソリューションを構築デプロイ共有できます

httpswwwyoutubecomwatchv=9gDDO5ldT-4ampfeature=youtube

AI技術を利用したディープラーニング(深層学習)ツールキットです旧称「CNTK」から改名されました

ソースコード httpsgithubcomMicrosoftCNTK

SearchSpeech

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

コカコーラ誕生100周年キャンペーン

コカコーラボトルを「100歳」と認識

bull 自撮り写真をUp結果をSNS拡散

ナビタイムジャパン様

自然言語入力による路線検索BOT

bull ユーザーとの新たな接点(LINE)

bull 自然言語入力

Vision Language Knowledge

Vision Knowledge SearchSpeech Language

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

Microsoft SupportVirtual Agent

自然言語入力による自動応答サポート窓口

bull 過去QampAデータ解析に基づく回答抽出

bull 定型外はldquo人対応rdquo

UBER

登録ドライバーをスマホ経由で顔認証

VOLVO

表情からの危険予測

Search

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

アロバ様

監視カメラによる店舗内行動分析

bull 顔認識による 顧客識別

bull 表情分析

東京サマーランド様にて導入済み

HmComm様

コールセンターソリューション

bull 会話をテキスト化キーワードを解析

bull 過去QampA検索

bull 内容をCRM保存

Vision KnowledgeSpeech Language

導入事例東京サマーランド様

Video

Intelligent KioskhttpsgithubcomMicrosoftCognitive-Samples-IntelligentKiosk

ldquo(want to|request)rdquo

HoloLens

Page 20: やりたいことから考えるMicrosoft Azure 上の データストアの選び方とデータサイエンティスト向け活用法。KVSからDWHまで

QueuesReliable queues at

scale for cloud

services

ファイルを保存する際にはこの3つの選択肢があります

httpsdocsmicrosoftcomja-jpazurestoragestorage-decide-blobs-files-disks

OS

アプリ アプリ アプリ アプリ

BLOB

効率

利用

仮想マシン

+BLOB

001log

002log

003log

004log

EN

EN

EN

EN

EN

EN

PS

PS

PS

PS ENEN

001log

002log

003log

004log

disk1vhd

PS = パーティション サーバー

EN = エクステント ノード

001log

002log

003log

004log

EN

EN

EN

EN

EN

EN

PS

PS

PS

PS ENEN

Block 1 Block 4Block 3Block 2

Imagejpg

Sparse File 512 byte aligned

51

2

10

24

15

36

20

48

25

60

AZCopy ndash Robocopy for Azure StorageStorage Explorer ndash Cross platform UX

Data Movement Library on CoreCLR

Python client library

仮想マシンSQL Enterprise

DS4 の場合

8 Core 28 GB RAM

Disk 0

読み取り書き込み Disk 1

Disk 2

P30

読み取りのみ

C

システム

D

キャッシュ

永続性あり 永続性なし 永続性あり (複数ボリュームの分割やストライプの構成が可能)

Premium Storage

デフォルト作成(仮想マシン付属) ユーザーが任意に追加

OS

Page ファイル

DBMS Exe

SQL Server バッファープール拡張

httpsazuremicrosoftcomja-jpdocumentationarticlesvirtual-machines-sql-server-performance-best-practices

httpsazuremicrosoftcomja-jpdocumentationarticlesvirtual-machines-sql-server-use-premium-storage

Disk n

P30

読み取りのみ

E

SQL データ(ページ圧縮)

Temp DB

Disk 3

P30

なし

F

Transaction-

Log

Disk Cache

344GB

最大Disk IOPS

256MBsec

P30合計の

600MBsは出ない

NTFSアロケーションユニットサイズ 64KB

データベース ページ圧縮 有効

Table用Index用Temp DB用に別

ドライブに拡張可能

キャッシュ設定は添付の

URLを参照

最大Disk IOPS

200MBsec

最大Disk IOPS

200MBsec

最大Disk IOPS

200MBsec

フルマネージドの RDBMS

データベース

RDBMS

OS

Azure が管理

利用者が管理

VM上の RDBMS

ホスト OS

仮想化

フルコントロール

データベース

RDBMS

OS

仮想化

ホスト OS

容易な管理

Azure Database

SQL Server物理マシン仮想マシン

SQL Server on Azure VM仮想マシン

SQL Database Data WarehousePaaS

物理マシン仮想マシン

VM Template Market place仮想マシン

Azure Database for MySQL PostgreSQL

論理データベース

Write

Write Ack

Ack

Read

value write

Ack

特徴

無停止フェールオーバー

無停止スケールアップ(プラン変更)

自動パフォーマンスチューニング

スループット指定によるプロビジョニング

データベース トランザクション ユニット (DTU) とエラスティック データベース トランザクション ユニット (eDTU) の説明

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-what-is-a-dtu

Azure SQL Database Query Performance Insight

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-query-performance

Query Store is turned on by default for Azure SQL Database

httpsazuremicrosoftcomja-jpupdatesquery-store-on-is-the-new-default-for-azure-sql-database

Queries

SQL Database

Deeper Insight

Query

Store

SQL Database Advisor

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-advisor

Azure Portal を使用した SQL Database Advisor

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-advisor-portal

領域 改善後

新しいインデックス提案が作成されるまで 18時間以内

T-SQL文が実行されるまでのタイムラグ 即時(数分以内)

「悪い」チューニング内容に対しての検知時間 1時間以内

次のインデックス提案が行われるまでの待ち時

間即時(数分以内)

導入までの総時間 1日以内

SQL Database の脅威の検出

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-threat-detection

コントロールノード

SQLDB

Azure Blob Storage(WASB)

100 DWU lt gt 2000 DWUコントロールノード

ユーザーからの接続コンピュートとストレージの調整

コンピュートノード

コンピュートノード

コンピュートノード

コンピュートノード

SQLDB

SQLDB

SQLDB

SQLDB

Azure Blob Storage(WASB)

コントロールノード

SQLDB コントロールノード

D51

D52

D53

D60

hellip

D41

D42

D43

D50

hellip

コンピュートノード

D31

D32

D33

D40hellip

D21

D22

D23

D30

hellip

D11

D12

D13

D20

hellip

D1

D2

D3

D10

hellip

SQL DB

Azure Blob Storage(WASB)

コントロールノード

SQLDB コントロールノード

コンピュートノード

D51

D52

D53

D60

hellipコンピュートノード

D41

D42

D43

D50

hellip

コンピュートノード

D31

D32

D33

D40hellip

コンピュートノード

D21

D22

D23

D30

hellip

コンピュートノード

D11

D12

D13

D20

hellip

コンピュートノード

D1

D2

D3

D10

hellip

SQL DB

SQL DB

SQL DB

SQL DB

SQL DB

SQL DB

54

データ無制限のストレージ と 分析プラットフォーム

無制限のストレージ(エクサバイト超)

ネイティブ HDFS に基づく実装

HDInsight Hortonworks Cloudera との統合

全ての HDFS 準拠プロジェクトとの親和性

(Spark Storm Flume Sqoop Kafka R etc)

Azure Data Lake Store- Hadoop Distributed File System (HDFS) For The Cloud

構造化データと非構造化データに対するデータ処理

宣言型の SQL 文 とカスタムコード (UDF UDT UDO hellip )

ローカルとリモートに対するクエリ

バッチ型インタラクティブ型ストリーミング型(in the future)

Azure Data Lake Analytics- New Query Language U-SQL

ETL パイプライン

スキーマの定義Relational

LOB

Applications

Schema-on-Write

直ちに必要でないデータは全て捨てられるかアーカイブされている

無限に保存 分析 結果の参照

あらゆるデータ

ソースからの

データ収集

Schema-on-Read

全データ取込要件にかかわらず

全データ格納そのままのフォーマットでスキーマ定義なし

分析実行Hadoopのような分析エンジンの利用

インタラクティブクエリ

バッチ型クエリ

機械学習

データウェアハウス

リアルタイム分析

リレーショナル

デバイス

観察仮説集まったデータから仮説をたてる

58

無制限のサイズ

ギガバイトからペタバイトのサイズの単一ファイル

巨大なスループットを必要とする大規模な分析システムを実現

あらゆるスループットに自動最適化

ペタバイト超のデータの並列コンピューティング

同一リージョン内に3つのコピーを自動的に作成

インストールやチューニングは不要

数分で稼働開始

必要に応じてどのようなサイズにもスケールアウト可能

データウェアハウスデータレイクストア

非構造Rawデータ(ログ文書バイナリ)

Tier 1

MachineLearning

Data LakeAnalytics HDInsight

目的に合わせた

データウェハウス分析処理

(売上分析経営分析)

データウェハウスに格納しきれなかった

過去データ関連データを連結して分析

ハードウェアの性能限界によって行えなかった処理量の分析を実現

ディスクコンピューティング

非構造データの

分析処理

(画像音声映像など)

広範囲のデータを利用した

機械学習統計解析処理

などによる高度分析

SQL Data Warehouse

Data LakeAnalytics HDInsight

Data LakeAnalytics

構造化データ半構造データ

分析用に加工(csv等)

Tier 2

アーカイブデータTier 2 DWHのアーカイブ

Tier 3

Analytics

Storage

HDInsight(ldquomanaged clustersrdquo)

Azure Data Lake Analytics

Azure Data Lake Store

Azure Data Lake

LOB Applications

SocialDevices

Clickstream

Sensors

Video

Web

Relational

HDInsight

Data Lake Analytics

Machine Learning

Spark

R

Azure Data Lake Store

Azure Data Lake Store

Azure Storage Blob

外部表Azure SQLData Warehouse

HDInsight

開発者は OSS に馴染んでいる Java Eclipse Hive etc

マネージド Hadoop クラスタにおいてカスタマイズ管理が可能でフレキシビリティがある

Azure Data Lake Analytics

C SQL amp PowerShell のスキル

経験を活かせる

利便性効率性自動スケール

ジョブ実行の仕組みが提供される

(New)

(New)

一般的なパターン

処理読み込み 保存

INSERT

OUTPUT

OUTPUT

SELECThellip

FROMhellip

WHEREhellip

+

PythonR

EXTRACT

EXTRACT

SELECT

SELECT

Azure

Data

Lake

Azure

Data

Lake

Azure

SQL

DB

Azure

Storage

Blobs

Azure

Storage

Blobs

RowSet RowSet

Cognitive Services

REFERENCE ASSEMBLY WebLogExtASM

rs =

EXTRACT

UserID string

Start DateTime

End DateTime

Region string

SitesVisited string

PagesVisited string

FROM ldquoLogsWebLogRecordstxtrdquo

USING WebLogExtractor ()

result = SELECT UserID

(EndSubtract(Start))TotalSeconds AS Duration

FROM rs ORDER BY Duration DESC FETCH 10

OUTPUT result TO ldquoLogsResultstop10tsv

USING OutputterTsv()

bull 型定義は C の型定義と同じ

bull データをファイルから抽出読み込み

するときにスキーマが必要

Data Lake Store 内 のファイル

独自形式を解析するカスタム関数

C の関数

行セット(中間テーブルの概念

に近い)

TSV形式で書き込む関数

U-SQL ジョブのサブミットAzure PortalやVisual StudioのAzure Data Lake ToolsからU-SQLジョブをサブミット可能

67

進捗

統計情報

従来型の処理分析 Azure Data Lake を中心とした処理分析

Business apps

Custom apps

Sensors and devices

ADL StorePeople

非構造化データも含めてあらゆるデータを格納

Azure SQL DW

Azure AD

Power BI

ADF

ADL Analytics

bull 処理分析業務の大半はデータ準備作業が占めるbull 処理分析業務に手間時間が必要

Business apps

Custom apps

Sensors and devices

HDInsight

ユーザー管理認証

データの連携

Power BI

File System

Database

Database

Hadoop

DWH

Data Mart

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

①大量データの受け入れ

②リアルタイム処理データの集約

③データの蓄積

構造化非構造化文書など様々な形式での保存

④データの加工移行

⑥機械学習

⑦Hadoop解析

⑧マイクロソフト技術を用いた分散解析

⑨通常のRMSが機能を追加した企業向けRを使用した解析

⑪クラウドベースの Self-Service BI 機能

⑫機械学習の予測モデルを業務システムなどから呼び出し可能にするサービス

外部クラウドなどからのデータ取り込み

②リアルタイム処理データの加工

⑤ディープラーニング

⑩Excelを用いた可視化

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

リアルタイム

バッチ

Data Factory Tools for Visual Studio

Azure Portal

Azure TableStorage

(Web ログレコード)

Data Factory

HDInsight

(Web ログをファイルにして

バッチ処理で集計)

SQL Database

(集計データをDB テーブルに格納)

Power BI

社内システム

DataManagement

Gateway

SQL Database

Data Warehouse

Blob Storage

Table Storage

httpportalazurecom

接続

メッセージ作成

メッセージ送信

var cs = ldquo接続文字列rdquovar path = ldquoイベントハブ名rdquovar eh = EventHubClientCreateFromConnectionString(cs path)

var msg = new user = thisUserIdentityNamelevel = leveltimestamp = demoTimestamp

var json = JsonConvertSerializeObject(msg)

ehSend(new EventData(EncodingUTF8GetBytes(json)))

EventProcessorHostを使う

bull

bull

bull

Functionsを使う

bull

bull

IEventProcessorProcessEventAsync(msg)

IEventProcessorProcessEventAsync(msg)

Run(string msg)

Azure azure-sdk-for-python

Point of Service Devices

Self CheckoutStations

Kiosks

Smart Phones

SlatesTablets

PCsLaptops

Servers

Digital Signs

DiagnosticEquipmentRemote Medical

MonitorsLogic

Controllers

SpecializedDevicesThin

Clients

Handhelds

Security

POS Terminals

AutomationDevices

VendingMachines

Kinect

ATM

Stream Analytics

入力 出力クエリデータストリーム

参照

bull ldquo入力rdquoldquo出力rdquoをクリックしそれぞれ作成

bull ldquoクエリrdquoをクリックしクエリを定義bull 作業が終わったらldquo開始rdquoで実

行開始

SELECT

INTO

FROM

SELECT user level AS SATLevel timestamp

INTO

FROM

デバイス接続性とデバイス管理およびブローカーサービス

データ管理と高度な分析 情報活用業務の生産性とプロセスの最適化

IoT Agent Gateway

予兆原因の学習モデル

ダッシュボード

参照ERPbull 顧客bull 設備bull 担当者

Notification Hubs

通知

予兆イベント

メンテ方法の推奨

bull ヘルス状態bull インシデント管理bull 対応のディスパッチ

現地技術要員のモバイルデバイス

オペレーションセンター

bull イベント ドア開閉軸アライメントキャビン速度モーター温度など

bull アラーム 故障アラームエラーコードなど

httpisstkeazurewebsitesnet

Event Hub

Stream Analytics

Azure ML

制御機器とセンサーのデータ

マシンデータの蓄積

メンテナンス方法の学習モデル

Machine Learning

Blob Storage

セルフサービス分析

Power BI

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce

cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-

system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of

your data while making it faster to get up and running with

batch streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources

so you can run queries on exabytes of data Includes U-

SQL a new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully

managed NoSQL database service that indexes stores and

queries data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

What do all of these have in common

They can all use Azure Analysis Services

Azure Analysis Services

Azure Analysis Services

BI semantic model

Business logic amp metrics

Data modeling

Security

Azure Analysis Services

Lifecycle management

In-memory cache

On-premises

Cloud

Data sources

SQL Database

SQL Data Warehouse

Other data sources

SQL Server

Analytics platform

system

Other data sources

On-premises

Cloud

Client tools

Power BI

Excel

Third party BI tools

Power BI Desktop

Rich semantic modelling

locatioidentifier

identifiertype

fieldidentifier

numberofunitssoldtodate

remaningnumber

Numberofuntissoldtoday

receivedback

productidentifier

descriptionline1

descriptionline2

qtyafterqtysales

familyidentifier

Source DataComplex raw data optimized for processing

Semantic ModelRich business user friendly semantic model

Product Id

Product Name

Product Description

Category

Category Id

Category Name

Category Description

Sub Category

Product Id

Shelf qty

Return qty

Order qty

Sale qty

Cloud Data

On-Premises

Data

Azure Analysis Services

Lightning fast queries

データ管理をきっかけに処理を実行

Web Glue

Bots IoT

DOMINOS STORES

Key Vault

Azure Active Directory

Azure Files

SSIS FRANCHISEE

AZURE WEST EUROPE

Azure Function

KEMPSSDESSRS

IN- AND EXTERNAL DATA SOURCES

orderprocessing

O365

App Insights

indexhtml

Azure Functions Proxies

couponprocessing

Use Bindings in Your Codefunctionjson

bindings [type httpTriggerdirection inwebHookType genericJsonname req

type httpdirection outname res

type queuename eventOutputqueueName aievents1connectionAiStorageConnectiondirection out

]

public static class OrderHandler

[FunctionName(OrderWebhook)]public static async TaskltHttpResponseMessagegt Run(

[HttpTrigger] HttpRequestMessage req[Queue(aievents1 Connection = AiStorageConnection)]

IAsyncCollectorltStringgt eventOutputTraceWriter log)

logInfo($Webhook was triggered)

string jsonContent = await reqContentReadAsStringAsync()dynamic data = JsonConvertDeserializeObject(jsonContent)

await eventOutputAddAsync(JsonConvertSerializeObject(GetLogData(data)))

int orderId = PlaceOrder(data)

return reqCreateResponse(HttpStatusCodeOK new orderNumber = orderId )

bull Workflow in the cloud

bull Powerful control flow

bull Connect functions and APIs

bull Declarative definition to persist in source control and drive deployments

Logic AppsCloud APIs and platform

bull Supports over 125 built-in connectors

bull Scales to meet your needs

bull Enables rapid development

bull Extends with custom APIs and

Functions

API connections

bull Authenticate once and reuse

Big Data Solutions Decision Tree

httpsbiz-excellencecom20160830big-data-dt

Machine Learning Solutions Decision Tree

httpsbiz-excellencecom20160913machine-

learning-dt

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of your

data while making it faster to get up and running with batch

streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources so

you can run queries on exabytes of data Includes U-SQL a

new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully managed

NoSQL database service that indexes stores and queries

data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

Microsoft Big Data Portfolio

SQL Server Stretch

Business intelligence

Machine learning analytics

Insights

Azure SQL Database

SQL Server 2016

SQL Server 2016 Fast Track

Azure SQL DW

ADLS amp ADLA

DocumentDB

HDInsight

Hadoop

Analytics Platform System

Sequential Scale Out + AcrossScale Up

Key

Relational Non-relational

On

-pre

mis

es

Clo

ud

Microsoft has solutions covering

and connecting all four

quadrants ndash thatrsquos why SQL

Server is one of the most utilized

databases in the world

Azure

Data Lake Store

Azure

Blob StoragePurpose Optimized for big data analytics General purpose bulk storage

Use Cases Batch Interactive Streaming App backend backup data media storage for

streaming

Units of Storage Accounts Folders Files Accounts Containers Blobs

Structure Hierarchical File System Flat namespace

WebHDFS Implements WebHDFS No (WASB)

Security AD SAS keys

Storage Auto SharedFiles chunked Manually manage expansionFiles intact

Service State Generally Available PolyBase

just supported

Generally Available

Billing Pay for data stored and for IO Pay for data stored and for IO

Region Availability Two US regions (Other regions coming soon) All Azure Regions

ADL Store vs Blob Store

httpsdocsmicrosoftcomen-usazuredata-lake-storedata-lake-store-comparison-with-blob-storage

Want Hadoop

Need exact same on-prem

Need interactive streaming

MandatoryNo strong opinion

Azure Marketplace (IaaS)

bull Need all workloads exactly like on-

premises

bull Need 100 HortonworksClouderaMapR

Azure HDInsight

bull Most Hadoop workloads

bull Fully managed by Microsoft

bull Sell HDI + ADLS

bull Stickier to Microsoft than VMs

bull Can do interactive (Spark) and streaming

(StormSpark)

Azure Data Lake Analytics

bull Easiest experience for admin no sense of

clusters instant scale per job

bull Easiest experience for developers Visual

StudioU-SQL (C+SQL)

bull Sell ADLA + ADLS

bull Batch workloads only

Need everything exactly like on-prem

Need core projects Yes Batch is OK

Always present ADLA if NET or Visual Studio Shop

If NET or VS shop

Azure SQL DW HDInsight Hive HDInsight Spark Azure Data Lake SQL Server (IaaS)

Volume Petabytes Petabytes Petabytes Petabytes Terabytes

Security Encryption TD

Audit

ADLS Apache

Ranger

ADLS AAD Security

Groups (data)

Encryption TD

Audit

Languages T-SQL HiveQL SparkSQL HiveQL

Scala Java Python

R

U-SQL T-SQL

Extensibility No Yes NETSerDe Yes Packages Yes NET Yes NET CLR

External File

Types

ORC TXT

Parquet RCFile

ORC CSV Parquet

+ others

Parquet JSON

Hive + others

Many ORC TXT Parquet

RCFile

Admin Low-Medium Medium-High Medium-High Low High

Cost Model DWU Nodes amp VM Nodes amp VM UnitsJobs VM

Schema

Definition

Schema on Write

Polybase

Schema on Read Schema on Read Schema on Read Schema on Write

Polybase

Max DB Size 240TB Comp (5X

= 1PB)

Unlimited 64TB (64 1TB drives)

機械学習 Deep Learning 深層強化学習

画像解析

音声解析

データ分類異常検知 顧客グルーピング

数値予測売上予測 需要予測 品質管理

ラベル分類不良品分析 故障予測 チャーン分析

機械学習より強力な分析

自律学習型ロボット

自動運転車

テキストや画像等の自動生成

活用例

主に多層のニューラルネットワークを用いた手法での分析

分析のためには莫大なデータ量計算量知識スキルを要する

統計に基づいた手法での分析

そのため比較的少ないデータ量と計算量で分析を行うことができる

定義したあるべき姿に従い試行錯誤をして自ら学習を行うための分析手法である強化学習と深層学習を組み合わせた分析

Azure Machine Learning Cognitive Toolkit GPU Instance (N-Series)

マイクロソフトが提供する技術

テキストデータ機器のログデータなど

画像データ監視カメラの録画データ 機器の外観画像 顔画像など

動画データ監視カメラの録画データ 機器の稼働状況 人の作業映像など

音声データマイクからの収集データ 稼働音 室内音 人の音声など

数値データセンサーデータ 機器の制御データ計測データなど672342345

機械学習統計理論に基づいた分析手法を用いる用意するべきデータ量と処理する計算量の敷居が低め導入しやすい

Deep Learningデータ量が大きいため強力な分析手法が必要「膨大なデータ量を用意」「莫大な計算量を処理」が必要で敷居が非常に高い導入にはそれなりの覚悟が必要

Action

People

Automated Systems

Apps

Web

Mobile

Bots

Intelligence

Dashboards amp Visualizations

Cortana

Bot Framework

Cognitive Services

Power BI

Information Management

Event Hubs

Data Catalog

Data Factory

Machine Learning and Analytics

HDInsight

Stream Analytics

Intelligence

Data Lake Analytics

Machine Learning

Big Data Stores

SQL Data Warehouse

Data Lake Store

Data Sources

Apps

Sensors amp Devices

Data

Cortana Intelligence Suite

学習済み

モデル利用

学習モデル

作成

機械学習 教師あり学習

教師なし学習

強化学習

決定木

線形回帰

SVM

ロジスティック回帰

ニューラルネットワーク

クラスタリング

次元削減

Q学習

K-mean法

主成分分析

正準相関分析

ディープニューラルネットワーク

畳みこみニューラルネットワーク

再帰的ニューラルネットワーク

回帰結合ニューラルネットワーク

httpsazuremicrosoftcomen-usservicescognitive-services

わずか数行のコードで強力なアルゴリズムを持つアプリの作成が可能ですiOSAndroidWindows などのプラットフォームを問わず機能します

httpsazuremicrosoftcomja-jpservicesmachine-learning

ユーザーは簡単に予測分析ソリューションを構築デプロイ共有できます

httpswwwyoutubecomwatchv=9gDDO5ldT-4ampfeature=youtube

AI技術を利用したディープラーニング(深層学習)ツールキットです旧称「CNTK」から改名されました

ソースコード httpsgithubcomMicrosoftCNTK

SearchSpeech

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

コカコーラ誕生100周年キャンペーン

コカコーラボトルを「100歳」と認識

bull 自撮り写真をUp結果をSNS拡散

ナビタイムジャパン様

自然言語入力による路線検索BOT

bull ユーザーとの新たな接点(LINE)

bull 自然言語入力

Vision Language Knowledge

Vision Knowledge SearchSpeech Language

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

Microsoft SupportVirtual Agent

自然言語入力による自動応答サポート窓口

bull 過去QampAデータ解析に基づく回答抽出

bull 定型外はldquo人対応rdquo

UBER

登録ドライバーをスマホ経由で顔認証

VOLVO

表情からの危険予測

Search

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

アロバ様

監視カメラによる店舗内行動分析

bull 顔認識による 顧客識別

bull 表情分析

東京サマーランド様にて導入済み

HmComm様

コールセンターソリューション

bull 会話をテキスト化キーワードを解析

bull 過去QampA検索

bull 内容をCRM保存

Vision KnowledgeSpeech Language

導入事例東京サマーランド様

Video

Intelligent KioskhttpsgithubcomMicrosoftCognitive-Samples-IntelligentKiosk

ldquo(want to|request)rdquo

HoloLens

Page 21: やりたいことから考えるMicrosoft Azure 上の データストアの選び方とデータサイエンティスト向け活用法。KVSからDWHまで

httpsdocsmicrosoftcomja-jpazurestoragestorage-decide-blobs-files-disks

OS

アプリ アプリ アプリ アプリ

BLOB

効率

利用

仮想マシン

+BLOB

001log

002log

003log

004log

EN

EN

EN

EN

EN

EN

PS

PS

PS

PS ENEN

001log

002log

003log

004log

disk1vhd

PS = パーティション サーバー

EN = エクステント ノード

001log

002log

003log

004log

EN

EN

EN

EN

EN

EN

PS

PS

PS

PS ENEN

Block 1 Block 4Block 3Block 2

Imagejpg

Sparse File 512 byte aligned

51

2

10

24

15

36

20

48

25

60

AZCopy ndash Robocopy for Azure StorageStorage Explorer ndash Cross platform UX

Data Movement Library on CoreCLR

Python client library

仮想マシンSQL Enterprise

DS4 の場合

8 Core 28 GB RAM

Disk 0

読み取り書き込み Disk 1

Disk 2

P30

読み取りのみ

C

システム

D

キャッシュ

永続性あり 永続性なし 永続性あり (複数ボリュームの分割やストライプの構成が可能)

Premium Storage

デフォルト作成(仮想マシン付属) ユーザーが任意に追加

OS

Page ファイル

DBMS Exe

SQL Server バッファープール拡張

httpsazuremicrosoftcomja-jpdocumentationarticlesvirtual-machines-sql-server-performance-best-practices

httpsazuremicrosoftcomja-jpdocumentationarticlesvirtual-machines-sql-server-use-premium-storage

Disk n

P30

読み取りのみ

E

SQL データ(ページ圧縮)

Temp DB

Disk 3

P30

なし

F

Transaction-

Log

Disk Cache

344GB

最大Disk IOPS

256MBsec

P30合計の

600MBsは出ない

NTFSアロケーションユニットサイズ 64KB

データベース ページ圧縮 有効

Table用Index用Temp DB用に別

ドライブに拡張可能

キャッシュ設定は添付の

URLを参照

最大Disk IOPS

200MBsec

最大Disk IOPS

200MBsec

最大Disk IOPS

200MBsec

フルマネージドの RDBMS

データベース

RDBMS

OS

Azure が管理

利用者が管理

VM上の RDBMS

ホスト OS

仮想化

フルコントロール

データベース

RDBMS

OS

仮想化

ホスト OS

容易な管理

Azure Database

SQL Server物理マシン仮想マシン

SQL Server on Azure VM仮想マシン

SQL Database Data WarehousePaaS

物理マシン仮想マシン

VM Template Market place仮想マシン

Azure Database for MySQL PostgreSQL

論理データベース

Write

Write Ack

Ack

Read

value write

Ack

特徴

無停止フェールオーバー

無停止スケールアップ(プラン変更)

自動パフォーマンスチューニング

スループット指定によるプロビジョニング

データベース トランザクション ユニット (DTU) とエラスティック データベース トランザクション ユニット (eDTU) の説明

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-what-is-a-dtu

Azure SQL Database Query Performance Insight

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-query-performance

Query Store is turned on by default for Azure SQL Database

httpsazuremicrosoftcomja-jpupdatesquery-store-on-is-the-new-default-for-azure-sql-database

Queries

SQL Database

Deeper Insight

Query

Store

SQL Database Advisor

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-advisor

Azure Portal を使用した SQL Database Advisor

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-advisor-portal

領域 改善後

新しいインデックス提案が作成されるまで 18時間以内

T-SQL文が実行されるまでのタイムラグ 即時(数分以内)

「悪い」チューニング内容に対しての検知時間 1時間以内

次のインデックス提案が行われるまでの待ち時

間即時(数分以内)

導入までの総時間 1日以内

SQL Database の脅威の検出

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-threat-detection

コントロールノード

SQLDB

Azure Blob Storage(WASB)

100 DWU lt gt 2000 DWUコントロールノード

ユーザーからの接続コンピュートとストレージの調整

コンピュートノード

コンピュートノード

コンピュートノード

コンピュートノード

SQLDB

SQLDB

SQLDB

SQLDB

Azure Blob Storage(WASB)

コントロールノード

SQLDB コントロールノード

D51

D52

D53

D60

hellip

D41

D42

D43

D50

hellip

コンピュートノード

D31

D32

D33

D40hellip

D21

D22

D23

D30

hellip

D11

D12

D13

D20

hellip

D1

D2

D3

D10

hellip

SQL DB

Azure Blob Storage(WASB)

コントロールノード

SQLDB コントロールノード

コンピュートノード

D51

D52

D53

D60

hellipコンピュートノード

D41

D42

D43

D50

hellip

コンピュートノード

D31

D32

D33

D40hellip

コンピュートノード

D21

D22

D23

D30

hellip

コンピュートノード

D11

D12

D13

D20

hellip

コンピュートノード

D1

D2

D3

D10

hellip

SQL DB

SQL DB

SQL DB

SQL DB

SQL DB

SQL DB

54

データ無制限のストレージ と 分析プラットフォーム

無制限のストレージ(エクサバイト超)

ネイティブ HDFS に基づく実装

HDInsight Hortonworks Cloudera との統合

全ての HDFS 準拠プロジェクトとの親和性

(Spark Storm Flume Sqoop Kafka R etc)

Azure Data Lake Store- Hadoop Distributed File System (HDFS) For The Cloud

構造化データと非構造化データに対するデータ処理

宣言型の SQL 文 とカスタムコード (UDF UDT UDO hellip )

ローカルとリモートに対するクエリ

バッチ型インタラクティブ型ストリーミング型(in the future)

Azure Data Lake Analytics- New Query Language U-SQL

ETL パイプライン

スキーマの定義Relational

LOB

Applications

Schema-on-Write

直ちに必要でないデータは全て捨てられるかアーカイブされている

無限に保存 分析 結果の参照

あらゆるデータ

ソースからの

データ収集

Schema-on-Read

全データ取込要件にかかわらず

全データ格納そのままのフォーマットでスキーマ定義なし

分析実行Hadoopのような分析エンジンの利用

インタラクティブクエリ

バッチ型クエリ

機械学習

データウェアハウス

リアルタイム分析

リレーショナル

デバイス

観察仮説集まったデータから仮説をたてる

58

無制限のサイズ

ギガバイトからペタバイトのサイズの単一ファイル

巨大なスループットを必要とする大規模な分析システムを実現

あらゆるスループットに自動最適化

ペタバイト超のデータの並列コンピューティング

同一リージョン内に3つのコピーを自動的に作成

インストールやチューニングは不要

数分で稼働開始

必要に応じてどのようなサイズにもスケールアウト可能

データウェアハウスデータレイクストア

非構造Rawデータ(ログ文書バイナリ)

Tier 1

MachineLearning

Data LakeAnalytics HDInsight

目的に合わせた

データウェハウス分析処理

(売上分析経営分析)

データウェハウスに格納しきれなかった

過去データ関連データを連結して分析

ハードウェアの性能限界によって行えなかった処理量の分析を実現

ディスクコンピューティング

非構造データの

分析処理

(画像音声映像など)

広範囲のデータを利用した

機械学習統計解析処理

などによる高度分析

SQL Data Warehouse

Data LakeAnalytics HDInsight

Data LakeAnalytics

構造化データ半構造データ

分析用に加工(csv等)

Tier 2

アーカイブデータTier 2 DWHのアーカイブ

Tier 3

Analytics

Storage

HDInsight(ldquomanaged clustersrdquo)

Azure Data Lake Analytics

Azure Data Lake Store

Azure Data Lake

LOB Applications

SocialDevices

Clickstream

Sensors

Video

Web

Relational

HDInsight

Data Lake Analytics

Machine Learning

Spark

R

Azure Data Lake Store

Azure Data Lake Store

Azure Storage Blob

外部表Azure SQLData Warehouse

HDInsight

開発者は OSS に馴染んでいる Java Eclipse Hive etc

マネージド Hadoop クラスタにおいてカスタマイズ管理が可能でフレキシビリティがある

Azure Data Lake Analytics

C SQL amp PowerShell のスキル

経験を活かせる

利便性効率性自動スケール

ジョブ実行の仕組みが提供される

(New)

(New)

一般的なパターン

処理読み込み 保存

INSERT

OUTPUT

OUTPUT

SELECThellip

FROMhellip

WHEREhellip

+

PythonR

EXTRACT

EXTRACT

SELECT

SELECT

Azure

Data

Lake

Azure

Data

Lake

Azure

SQL

DB

Azure

Storage

Blobs

Azure

Storage

Blobs

RowSet RowSet

Cognitive Services

REFERENCE ASSEMBLY WebLogExtASM

rs =

EXTRACT

UserID string

Start DateTime

End DateTime

Region string

SitesVisited string

PagesVisited string

FROM ldquoLogsWebLogRecordstxtrdquo

USING WebLogExtractor ()

result = SELECT UserID

(EndSubtract(Start))TotalSeconds AS Duration

FROM rs ORDER BY Duration DESC FETCH 10

OUTPUT result TO ldquoLogsResultstop10tsv

USING OutputterTsv()

bull 型定義は C の型定義と同じ

bull データをファイルから抽出読み込み

するときにスキーマが必要

Data Lake Store 内 のファイル

独自形式を解析するカスタム関数

C の関数

行セット(中間テーブルの概念

に近い)

TSV形式で書き込む関数

U-SQL ジョブのサブミットAzure PortalやVisual StudioのAzure Data Lake ToolsからU-SQLジョブをサブミット可能

67

進捗

統計情報

従来型の処理分析 Azure Data Lake を中心とした処理分析

Business apps

Custom apps

Sensors and devices

ADL StorePeople

非構造化データも含めてあらゆるデータを格納

Azure SQL DW

Azure AD

Power BI

ADF

ADL Analytics

bull 処理分析業務の大半はデータ準備作業が占めるbull 処理分析業務に手間時間が必要

Business apps

Custom apps

Sensors and devices

HDInsight

ユーザー管理認証

データの連携

Power BI

File System

Database

Database

Hadoop

DWH

Data Mart

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

①大量データの受け入れ

②リアルタイム処理データの集約

③データの蓄積

構造化非構造化文書など様々な形式での保存

④データの加工移行

⑥機械学習

⑦Hadoop解析

⑧マイクロソフト技術を用いた分散解析

⑨通常のRMSが機能を追加した企業向けRを使用した解析

⑪クラウドベースの Self-Service BI 機能

⑫機械学習の予測モデルを業務システムなどから呼び出し可能にするサービス

外部クラウドなどからのデータ取り込み

②リアルタイム処理データの加工

⑤ディープラーニング

⑩Excelを用いた可視化

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

リアルタイム

バッチ

Data Factory Tools for Visual Studio

Azure Portal

Azure TableStorage

(Web ログレコード)

Data Factory

HDInsight

(Web ログをファイルにして

バッチ処理で集計)

SQL Database

(集計データをDB テーブルに格納)

Power BI

社内システム

DataManagement

Gateway

SQL Database

Data Warehouse

Blob Storage

Table Storage

httpportalazurecom

接続

メッセージ作成

メッセージ送信

var cs = ldquo接続文字列rdquovar path = ldquoイベントハブ名rdquovar eh = EventHubClientCreateFromConnectionString(cs path)

var msg = new user = thisUserIdentityNamelevel = leveltimestamp = demoTimestamp

var json = JsonConvertSerializeObject(msg)

ehSend(new EventData(EncodingUTF8GetBytes(json)))

EventProcessorHostを使う

bull

bull

bull

Functionsを使う

bull

bull

IEventProcessorProcessEventAsync(msg)

IEventProcessorProcessEventAsync(msg)

Run(string msg)

Azure azure-sdk-for-python

Point of Service Devices

Self CheckoutStations

Kiosks

Smart Phones

SlatesTablets

PCsLaptops

Servers

Digital Signs

DiagnosticEquipmentRemote Medical

MonitorsLogic

Controllers

SpecializedDevicesThin

Clients

Handhelds

Security

POS Terminals

AutomationDevices

VendingMachines

Kinect

ATM

Stream Analytics

入力 出力クエリデータストリーム

参照

bull ldquo入力rdquoldquo出力rdquoをクリックしそれぞれ作成

bull ldquoクエリrdquoをクリックしクエリを定義bull 作業が終わったらldquo開始rdquoで実

行開始

SELECT

INTO

FROM

SELECT user level AS SATLevel timestamp

INTO

FROM

デバイス接続性とデバイス管理およびブローカーサービス

データ管理と高度な分析 情報活用業務の生産性とプロセスの最適化

IoT Agent Gateway

予兆原因の学習モデル

ダッシュボード

参照ERPbull 顧客bull 設備bull 担当者

Notification Hubs

通知

予兆イベント

メンテ方法の推奨

bull ヘルス状態bull インシデント管理bull 対応のディスパッチ

現地技術要員のモバイルデバイス

オペレーションセンター

bull イベント ドア開閉軸アライメントキャビン速度モーター温度など

bull アラーム 故障アラームエラーコードなど

httpisstkeazurewebsitesnet

Event Hub

Stream Analytics

Azure ML

制御機器とセンサーのデータ

マシンデータの蓄積

メンテナンス方法の学習モデル

Machine Learning

Blob Storage

セルフサービス分析

Power BI

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce

cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-

system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of

your data while making it faster to get up and running with

batch streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources

so you can run queries on exabytes of data Includes U-

SQL a new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully

managed NoSQL database service that indexes stores and

queries data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

What do all of these have in common

They can all use Azure Analysis Services

Azure Analysis Services

Azure Analysis Services

BI semantic model

Business logic amp metrics

Data modeling

Security

Azure Analysis Services

Lifecycle management

In-memory cache

On-premises

Cloud

Data sources

SQL Database

SQL Data Warehouse

Other data sources

SQL Server

Analytics platform

system

Other data sources

On-premises

Cloud

Client tools

Power BI

Excel

Third party BI tools

Power BI Desktop

Rich semantic modelling

locatioidentifier

identifiertype

fieldidentifier

numberofunitssoldtodate

remaningnumber

Numberofuntissoldtoday

receivedback

productidentifier

descriptionline1

descriptionline2

qtyafterqtysales

familyidentifier

Source DataComplex raw data optimized for processing

Semantic ModelRich business user friendly semantic model

Product Id

Product Name

Product Description

Category

Category Id

Category Name

Category Description

Sub Category

Product Id

Shelf qty

Return qty

Order qty

Sale qty

Cloud Data

On-Premises

Data

Azure Analysis Services

Lightning fast queries

データ管理をきっかけに処理を実行

Web Glue

Bots IoT

DOMINOS STORES

Key Vault

Azure Active Directory

Azure Files

SSIS FRANCHISEE

AZURE WEST EUROPE

Azure Function

KEMPSSDESSRS

IN- AND EXTERNAL DATA SOURCES

orderprocessing

O365

App Insights

indexhtml

Azure Functions Proxies

couponprocessing

Use Bindings in Your Codefunctionjson

bindings [type httpTriggerdirection inwebHookType genericJsonname req

type httpdirection outname res

type queuename eventOutputqueueName aievents1connectionAiStorageConnectiondirection out

]

public static class OrderHandler

[FunctionName(OrderWebhook)]public static async TaskltHttpResponseMessagegt Run(

[HttpTrigger] HttpRequestMessage req[Queue(aievents1 Connection = AiStorageConnection)]

IAsyncCollectorltStringgt eventOutputTraceWriter log)

logInfo($Webhook was triggered)

string jsonContent = await reqContentReadAsStringAsync()dynamic data = JsonConvertDeserializeObject(jsonContent)

await eventOutputAddAsync(JsonConvertSerializeObject(GetLogData(data)))

int orderId = PlaceOrder(data)

return reqCreateResponse(HttpStatusCodeOK new orderNumber = orderId )

bull Workflow in the cloud

bull Powerful control flow

bull Connect functions and APIs

bull Declarative definition to persist in source control and drive deployments

Logic AppsCloud APIs and platform

bull Supports over 125 built-in connectors

bull Scales to meet your needs

bull Enables rapid development

bull Extends with custom APIs and

Functions

API connections

bull Authenticate once and reuse

Big Data Solutions Decision Tree

httpsbiz-excellencecom20160830big-data-dt

Machine Learning Solutions Decision Tree

httpsbiz-excellencecom20160913machine-

learning-dt

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of your

data while making it faster to get up and running with batch

streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources so

you can run queries on exabytes of data Includes U-SQL a

new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully managed

NoSQL database service that indexes stores and queries

data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

Microsoft Big Data Portfolio

SQL Server Stretch

Business intelligence

Machine learning analytics

Insights

Azure SQL Database

SQL Server 2016

SQL Server 2016 Fast Track

Azure SQL DW

ADLS amp ADLA

DocumentDB

HDInsight

Hadoop

Analytics Platform System

Sequential Scale Out + AcrossScale Up

Key

Relational Non-relational

On

-pre

mis

es

Clo

ud

Microsoft has solutions covering

and connecting all four

quadrants ndash thatrsquos why SQL

Server is one of the most utilized

databases in the world

Azure

Data Lake Store

Azure

Blob StoragePurpose Optimized for big data analytics General purpose bulk storage

Use Cases Batch Interactive Streaming App backend backup data media storage for

streaming

Units of Storage Accounts Folders Files Accounts Containers Blobs

Structure Hierarchical File System Flat namespace

WebHDFS Implements WebHDFS No (WASB)

Security AD SAS keys

Storage Auto SharedFiles chunked Manually manage expansionFiles intact

Service State Generally Available PolyBase

just supported

Generally Available

Billing Pay for data stored and for IO Pay for data stored and for IO

Region Availability Two US regions (Other regions coming soon) All Azure Regions

ADL Store vs Blob Store

httpsdocsmicrosoftcomen-usazuredata-lake-storedata-lake-store-comparison-with-blob-storage

Want Hadoop

Need exact same on-prem

Need interactive streaming

MandatoryNo strong opinion

Azure Marketplace (IaaS)

bull Need all workloads exactly like on-

premises

bull Need 100 HortonworksClouderaMapR

Azure HDInsight

bull Most Hadoop workloads

bull Fully managed by Microsoft

bull Sell HDI + ADLS

bull Stickier to Microsoft than VMs

bull Can do interactive (Spark) and streaming

(StormSpark)

Azure Data Lake Analytics

bull Easiest experience for admin no sense of

clusters instant scale per job

bull Easiest experience for developers Visual

StudioU-SQL (C+SQL)

bull Sell ADLA + ADLS

bull Batch workloads only

Need everything exactly like on-prem

Need core projects Yes Batch is OK

Always present ADLA if NET or Visual Studio Shop

If NET or VS shop

Azure SQL DW HDInsight Hive HDInsight Spark Azure Data Lake SQL Server (IaaS)

Volume Petabytes Petabytes Petabytes Petabytes Terabytes

Security Encryption TD

Audit

ADLS Apache

Ranger

ADLS AAD Security

Groups (data)

Encryption TD

Audit

Languages T-SQL HiveQL SparkSQL HiveQL

Scala Java Python

R

U-SQL T-SQL

Extensibility No Yes NETSerDe Yes Packages Yes NET Yes NET CLR

External File

Types

ORC TXT

Parquet RCFile

ORC CSV Parquet

+ others

Parquet JSON

Hive + others

Many ORC TXT Parquet

RCFile

Admin Low-Medium Medium-High Medium-High Low High

Cost Model DWU Nodes amp VM Nodes amp VM UnitsJobs VM

Schema

Definition

Schema on Write

Polybase

Schema on Read Schema on Read Schema on Read Schema on Write

Polybase

Max DB Size 240TB Comp (5X

= 1PB)

Unlimited 64TB (64 1TB drives)

機械学習 Deep Learning 深層強化学習

画像解析

音声解析

データ分類異常検知 顧客グルーピング

数値予測売上予測 需要予測 品質管理

ラベル分類不良品分析 故障予測 チャーン分析

機械学習より強力な分析

自律学習型ロボット

自動運転車

テキストや画像等の自動生成

活用例

主に多層のニューラルネットワークを用いた手法での分析

分析のためには莫大なデータ量計算量知識スキルを要する

統計に基づいた手法での分析

そのため比較的少ないデータ量と計算量で分析を行うことができる

定義したあるべき姿に従い試行錯誤をして自ら学習を行うための分析手法である強化学習と深層学習を組み合わせた分析

Azure Machine Learning Cognitive Toolkit GPU Instance (N-Series)

マイクロソフトが提供する技術

テキストデータ機器のログデータなど

画像データ監視カメラの録画データ 機器の外観画像 顔画像など

動画データ監視カメラの録画データ 機器の稼働状況 人の作業映像など

音声データマイクからの収集データ 稼働音 室内音 人の音声など

数値データセンサーデータ 機器の制御データ計測データなど672342345

機械学習統計理論に基づいた分析手法を用いる用意するべきデータ量と処理する計算量の敷居が低め導入しやすい

Deep Learningデータ量が大きいため強力な分析手法が必要「膨大なデータ量を用意」「莫大な計算量を処理」が必要で敷居が非常に高い導入にはそれなりの覚悟が必要

Action

People

Automated Systems

Apps

Web

Mobile

Bots

Intelligence

Dashboards amp Visualizations

Cortana

Bot Framework

Cognitive Services

Power BI

Information Management

Event Hubs

Data Catalog

Data Factory

Machine Learning and Analytics

HDInsight

Stream Analytics

Intelligence

Data Lake Analytics

Machine Learning

Big Data Stores

SQL Data Warehouse

Data Lake Store

Data Sources

Apps

Sensors amp Devices

Data

Cortana Intelligence Suite

学習済み

モデル利用

学習モデル

作成

機械学習 教師あり学習

教師なし学習

強化学習

決定木

線形回帰

SVM

ロジスティック回帰

ニューラルネットワーク

クラスタリング

次元削減

Q学習

K-mean法

主成分分析

正準相関分析

ディープニューラルネットワーク

畳みこみニューラルネットワーク

再帰的ニューラルネットワーク

回帰結合ニューラルネットワーク

httpsazuremicrosoftcomen-usservicescognitive-services

わずか数行のコードで強力なアルゴリズムを持つアプリの作成が可能ですiOSAndroidWindows などのプラットフォームを問わず機能します

httpsazuremicrosoftcomja-jpservicesmachine-learning

ユーザーは簡単に予測分析ソリューションを構築デプロイ共有できます

httpswwwyoutubecomwatchv=9gDDO5ldT-4ampfeature=youtube

AI技術を利用したディープラーニング(深層学習)ツールキットです旧称「CNTK」から改名されました

ソースコード httpsgithubcomMicrosoftCNTK

SearchSpeech

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

コカコーラ誕生100周年キャンペーン

コカコーラボトルを「100歳」と認識

bull 自撮り写真をUp結果をSNS拡散

ナビタイムジャパン様

自然言語入力による路線検索BOT

bull ユーザーとの新たな接点(LINE)

bull 自然言語入力

Vision Language Knowledge

Vision Knowledge SearchSpeech Language

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

Microsoft SupportVirtual Agent

自然言語入力による自動応答サポート窓口

bull 過去QampAデータ解析に基づく回答抽出

bull 定型外はldquo人対応rdquo

UBER

登録ドライバーをスマホ経由で顔認証

VOLVO

表情からの危険予測

Search

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

アロバ様

監視カメラによる店舗内行動分析

bull 顔認識による 顧客識別

bull 表情分析

東京サマーランド様にて導入済み

HmComm様

コールセンターソリューション

bull 会話をテキスト化キーワードを解析

bull 過去QampA検索

bull 内容をCRM保存

Vision KnowledgeSpeech Language

導入事例東京サマーランド様

Video

Intelligent KioskhttpsgithubcomMicrosoftCognitive-Samples-IntelligentKiosk

ldquo(want to|request)rdquo

HoloLens

Page 22: やりたいことから考えるMicrosoft Azure 上の データストアの選び方とデータサイエンティスト向け活用法。KVSからDWHまで

OS

アプリ アプリ アプリ アプリ

BLOB

効率

利用

仮想マシン

+BLOB

001log

002log

003log

004log

EN

EN

EN

EN

EN

EN

PS

PS

PS

PS ENEN

001log

002log

003log

004log

disk1vhd

PS = パーティション サーバー

EN = エクステント ノード

001log

002log

003log

004log

EN

EN

EN

EN

EN

EN

PS

PS

PS

PS ENEN

Block 1 Block 4Block 3Block 2

Imagejpg

Sparse File 512 byte aligned

51

2

10

24

15

36

20

48

25

60

AZCopy ndash Robocopy for Azure StorageStorage Explorer ndash Cross platform UX

Data Movement Library on CoreCLR

Python client library

仮想マシンSQL Enterprise

DS4 の場合

8 Core 28 GB RAM

Disk 0

読み取り書き込み Disk 1

Disk 2

P30

読み取りのみ

C

システム

D

キャッシュ

永続性あり 永続性なし 永続性あり (複数ボリュームの分割やストライプの構成が可能)

Premium Storage

デフォルト作成(仮想マシン付属) ユーザーが任意に追加

OS

Page ファイル

DBMS Exe

SQL Server バッファープール拡張

httpsazuremicrosoftcomja-jpdocumentationarticlesvirtual-machines-sql-server-performance-best-practices

httpsazuremicrosoftcomja-jpdocumentationarticlesvirtual-machines-sql-server-use-premium-storage

Disk n

P30

読み取りのみ

E

SQL データ(ページ圧縮)

Temp DB

Disk 3

P30

なし

F

Transaction-

Log

Disk Cache

344GB

最大Disk IOPS

256MBsec

P30合計の

600MBsは出ない

NTFSアロケーションユニットサイズ 64KB

データベース ページ圧縮 有効

Table用Index用Temp DB用に別

ドライブに拡張可能

キャッシュ設定は添付の

URLを参照

最大Disk IOPS

200MBsec

最大Disk IOPS

200MBsec

最大Disk IOPS

200MBsec

フルマネージドの RDBMS

データベース

RDBMS

OS

Azure が管理

利用者が管理

VM上の RDBMS

ホスト OS

仮想化

フルコントロール

データベース

RDBMS

OS

仮想化

ホスト OS

容易な管理

Azure Database

SQL Server物理マシン仮想マシン

SQL Server on Azure VM仮想マシン

SQL Database Data WarehousePaaS

物理マシン仮想マシン

VM Template Market place仮想マシン

Azure Database for MySQL PostgreSQL

論理データベース

Write

Write Ack

Ack

Read

value write

Ack

特徴

無停止フェールオーバー

無停止スケールアップ(プラン変更)

自動パフォーマンスチューニング

スループット指定によるプロビジョニング

データベース トランザクション ユニット (DTU) とエラスティック データベース トランザクション ユニット (eDTU) の説明

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-what-is-a-dtu

Azure SQL Database Query Performance Insight

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-query-performance

Query Store is turned on by default for Azure SQL Database

httpsazuremicrosoftcomja-jpupdatesquery-store-on-is-the-new-default-for-azure-sql-database

Queries

SQL Database

Deeper Insight

Query

Store

SQL Database Advisor

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-advisor

Azure Portal を使用した SQL Database Advisor

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-advisor-portal

領域 改善後

新しいインデックス提案が作成されるまで 18時間以内

T-SQL文が実行されるまでのタイムラグ 即時(数分以内)

「悪い」チューニング内容に対しての検知時間 1時間以内

次のインデックス提案が行われるまでの待ち時

間即時(数分以内)

導入までの総時間 1日以内

SQL Database の脅威の検出

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-threat-detection

コントロールノード

SQLDB

Azure Blob Storage(WASB)

100 DWU lt gt 2000 DWUコントロールノード

ユーザーからの接続コンピュートとストレージの調整

コンピュートノード

コンピュートノード

コンピュートノード

コンピュートノード

SQLDB

SQLDB

SQLDB

SQLDB

Azure Blob Storage(WASB)

コントロールノード

SQLDB コントロールノード

D51

D52

D53

D60

hellip

D41

D42

D43

D50

hellip

コンピュートノード

D31

D32

D33

D40hellip

D21

D22

D23

D30

hellip

D11

D12

D13

D20

hellip

D1

D2

D3

D10

hellip

SQL DB

Azure Blob Storage(WASB)

コントロールノード

SQLDB コントロールノード

コンピュートノード

D51

D52

D53

D60

hellipコンピュートノード

D41

D42

D43

D50

hellip

コンピュートノード

D31

D32

D33

D40hellip

コンピュートノード

D21

D22

D23

D30

hellip

コンピュートノード

D11

D12

D13

D20

hellip

コンピュートノード

D1

D2

D3

D10

hellip

SQL DB

SQL DB

SQL DB

SQL DB

SQL DB

SQL DB

54

データ無制限のストレージ と 分析プラットフォーム

無制限のストレージ(エクサバイト超)

ネイティブ HDFS に基づく実装

HDInsight Hortonworks Cloudera との統合

全ての HDFS 準拠プロジェクトとの親和性

(Spark Storm Flume Sqoop Kafka R etc)

Azure Data Lake Store- Hadoop Distributed File System (HDFS) For The Cloud

構造化データと非構造化データに対するデータ処理

宣言型の SQL 文 とカスタムコード (UDF UDT UDO hellip )

ローカルとリモートに対するクエリ

バッチ型インタラクティブ型ストリーミング型(in the future)

Azure Data Lake Analytics- New Query Language U-SQL

ETL パイプライン

スキーマの定義Relational

LOB

Applications

Schema-on-Write

直ちに必要でないデータは全て捨てられるかアーカイブされている

無限に保存 分析 結果の参照

あらゆるデータ

ソースからの

データ収集

Schema-on-Read

全データ取込要件にかかわらず

全データ格納そのままのフォーマットでスキーマ定義なし

分析実行Hadoopのような分析エンジンの利用

インタラクティブクエリ

バッチ型クエリ

機械学習

データウェアハウス

リアルタイム分析

リレーショナル

デバイス

観察仮説集まったデータから仮説をたてる

58

無制限のサイズ

ギガバイトからペタバイトのサイズの単一ファイル

巨大なスループットを必要とする大規模な分析システムを実現

あらゆるスループットに自動最適化

ペタバイト超のデータの並列コンピューティング

同一リージョン内に3つのコピーを自動的に作成

インストールやチューニングは不要

数分で稼働開始

必要に応じてどのようなサイズにもスケールアウト可能

データウェアハウスデータレイクストア

非構造Rawデータ(ログ文書バイナリ)

Tier 1

MachineLearning

Data LakeAnalytics HDInsight

目的に合わせた

データウェハウス分析処理

(売上分析経営分析)

データウェハウスに格納しきれなかった

過去データ関連データを連結して分析

ハードウェアの性能限界によって行えなかった処理量の分析を実現

ディスクコンピューティング

非構造データの

分析処理

(画像音声映像など)

広範囲のデータを利用した

機械学習統計解析処理

などによる高度分析

SQL Data Warehouse

Data LakeAnalytics HDInsight

Data LakeAnalytics

構造化データ半構造データ

分析用に加工(csv等)

Tier 2

アーカイブデータTier 2 DWHのアーカイブ

Tier 3

Analytics

Storage

HDInsight(ldquomanaged clustersrdquo)

Azure Data Lake Analytics

Azure Data Lake Store

Azure Data Lake

LOB Applications

SocialDevices

Clickstream

Sensors

Video

Web

Relational

HDInsight

Data Lake Analytics

Machine Learning

Spark

R

Azure Data Lake Store

Azure Data Lake Store

Azure Storage Blob

外部表Azure SQLData Warehouse

HDInsight

開発者は OSS に馴染んでいる Java Eclipse Hive etc

マネージド Hadoop クラスタにおいてカスタマイズ管理が可能でフレキシビリティがある

Azure Data Lake Analytics

C SQL amp PowerShell のスキル

経験を活かせる

利便性効率性自動スケール

ジョブ実行の仕組みが提供される

(New)

(New)

一般的なパターン

処理読み込み 保存

INSERT

OUTPUT

OUTPUT

SELECThellip

FROMhellip

WHEREhellip

+

PythonR

EXTRACT

EXTRACT

SELECT

SELECT

Azure

Data

Lake

Azure

Data

Lake

Azure

SQL

DB

Azure

Storage

Blobs

Azure

Storage

Blobs

RowSet RowSet

Cognitive Services

REFERENCE ASSEMBLY WebLogExtASM

rs =

EXTRACT

UserID string

Start DateTime

End DateTime

Region string

SitesVisited string

PagesVisited string

FROM ldquoLogsWebLogRecordstxtrdquo

USING WebLogExtractor ()

result = SELECT UserID

(EndSubtract(Start))TotalSeconds AS Duration

FROM rs ORDER BY Duration DESC FETCH 10

OUTPUT result TO ldquoLogsResultstop10tsv

USING OutputterTsv()

bull 型定義は C の型定義と同じ

bull データをファイルから抽出読み込み

するときにスキーマが必要

Data Lake Store 内 のファイル

独自形式を解析するカスタム関数

C の関数

行セット(中間テーブルの概念

に近い)

TSV形式で書き込む関数

U-SQL ジョブのサブミットAzure PortalやVisual StudioのAzure Data Lake ToolsからU-SQLジョブをサブミット可能

67

進捗

統計情報

従来型の処理分析 Azure Data Lake を中心とした処理分析

Business apps

Custom apps

Sensors and devices

ADL StorePeople

非構造化データも含めてあらゆるデータを格納

Azure SQL DW

Azure AD

Power BI

ADF

ADL Analytics

bull 処理分析業務の大半はデータ準備作業が占めるbull 処理分析業務に手間時間が必要

Business apps

Custom apps

Sensors and devices

HDInsight

ユーザー管理認証

データの連携

Power BI

File System

Database

Database

Hadoop

DWH

Data Mart

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

①大量データの受け入れ

②リアルタイム処理データの集約

③データの蓄積

構造化非構造化文書など様々な形式での保存

④データの加工移行

⑥機械学習

⑦Hadoop解析

⑧マイクロソフト技術を用いた分散解析

⑨通常のRMSが機能を追加した企業向けRを使用した解析

⑪クラウドベースの Self-Service BI 機能

⑫機械学習の予測モデルを業務システムなどから呼び出し可能にするサービス

外部クラウドなどからのデータ取り込み

②リアルタイム処理データの加工

⑤ディープラーニング

⑩Excelを用いた可視化

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

リアルタイム

バッチ

Data Factory Tools for Visual Studio

Azure Portal

Azure TableStorage

(Web ログレコード)

Data Factory

HDInsight

(Web ログをファイルにして

バッチ処理で集計)

SQL Database

(集計データをDB テーブルに格納)

Power BI

社内システム

DataManagement

Gateway

SQL Database

Data Warehouse

Blob Storage

Table Storage

httpportalazurecom

接続

メッセージ作成

メッセージ送信

var cs = ldquo接続文字列rdquovar path = ldquoイベントハブ名rdquovar eh = EventHubClientCreateFromConnectionString(cs path)

var msg = new user = thisUserIdentityNamelevel = leveltimestamp = demoTimestamp

var json = JsonConvertSerializeObject(msg)

ehSend(new EventData(EncodingUTF8GetBytes(json)))

EventProcessorHostを使う

bull

bull

bull

Functionsを使う

bull

bull

IEventProcessorProcessEventAsync(msg)

IEventProcessorProcessEventAsync(msg)

Run(string msg)

Azure azure-sdk-for-python

Point of Service Devices

Self CheckoutStations

Kiosks

Smart Phones

SlatesTablets

PCsLaptops

Servers

Digital Signs

DiagnosticEquipmentRemote Medical

MonitorsLogic

Controllers

SpecializedDevicesThin

Clients

Handhelds

Security

POS Terminals

AutomationDevices

VendingMachines

Kinect

ATM

Stream Analytics

入力 出力クエリデータストリーム

参照

bull ldquo入力rdquoldquo出力rdquoをクリックしそれぞれ作成

bull ldquoクエリrdquoをクリックしクエリを定義bull 作業が終わったらldquo開始rdquoで実

行開始

SELECT

INTO

FROM

SELECT user level AS SATLevel timestamp

INTO

FROM

デバイス接続性とデバイス管理およびブローカーサービス

データ管理と高度な分析 情報活用業務の生産性とプロセスの最適化

IoT Agent Gateway

予兆原因の学習モデル

ダッシュボード

参照ERPbull 顧客bull 設備bull 担当者

Notification Hubs

通知

予兆イベント

メンテ方法の推奨

bull ヘルス状態bull インシデント管理bull 対応のディスパッチ

現地技術要員のモバイルデバイス

オペレーションセンター

bull イベント ドア開閉軸アライメントキャビン速度モーター温度など

bull アラーム 故障アラームエラーコードなど

httpisstkeazurewebsitesnet

Event Hub

Stream Analytics

Azure ML

制御機器とセンサーのデータ

マシンデータの蓄積

メンテナンス方法の学習モデル

Machine Learning

Blob Storage

セルフサービス分析

Power BI

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce

cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-

system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of

your data while making it faster to get up and running with

batch streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources

so you can run queries on exabytes of data Includes U-

SQL a new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully

managed NoSQL database service that indexes stores and

queries data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

What do all of these have in common

They can all use Azure Analysis Services

Azure Analysis Services

Azure Analysis Services

BI semantic model

Business logic amp metrics

Data modeling

Security

Azure Analysis Services

Lifecycle management

In-memory cache

On-premises

Cloud

Data sources

SQL Database

SQL Data Warehouse

Other data sources

SQL Server

Analytics platform

system

Other data sources

On-premises

Cloud

Client tools

Power BI

Excel

Third party BI tools

Power BI Desktop

Rich semantic modelling

locatioidentifier

identifiertype

fieldidentifier

numberofunitssoldtodate

remaningnumber

Numberofuntissoldtoday

receivedback

productidentifier

descriptionline1

descriptionline2

qtyafterqtysales

familyidentifier

Source DataComplex raw data optimized for processing

Semantic ModelRich business user friendly semantic model

Product Id

Product Name

Product Description

Category

Category Id

Category Name

Category Description

Sub Category

Product Id

Shelf qty

Return qty

Order qty

Sale qty

Cloud Data

On-Premises

Data

Azure Analysis Services

Lightning fast queries

データ管理をきっかけに処理を実行

Web Glue

Bots IoT

DOMINOS STORES

Key Vault

Azure Active Directory

Azure Files

SSIS FRANCHISEE

AZURE WEST EUROPE

Azure Function

KEMPSSDESSRS

IN- AND EXTERNAL DATA SOURCES

orderprocessing

O365

App Insights

indexhtml

Azure Functions Proxies

couponprocessing

Use Bindings in Your Codefunctionjson

bindings [type httpTriggerdirection inwebHookType genericJsonname req

type httpdirection outname res

type queuename eventOutputqueueName aievents1connectionAiStorageConnectiondirection out

]

public static class OrderHandler

[FunctionName(OrderWebhook)]public static async TaskltHttpResponseMessagegt Run(

[HttpTrigger] HttpRequestMessage req[Queue(aievents1 Connection = AiStorageConnection)]

IAsyncCollectorltStringgt eventOutputTraceWriter log)

logInfo($Webhook was triggered)

string jsonContent = await reqContentReadAsStringAsync()dynamic data = JsonConvertDeserializeObject(jsonContent)

await eventOutputAddAsync(JsonConvertSerializeObject(GetLogData(data)))

int orderId = PlaceOrder(data)

return reqCreateResponse(HttpStatusCodeOK new orderNumber = orderId )

bull Workflow in the cloud

bull Powerful control flow

bull Connect functions and APIs

bull Declarative definition to persist in source control and drive deployments

Logic AppsCloud APIs and platform

bull Supports over 125 built-in connectors

bull Scales to meet your needs

bull Enables rapid development

bull Extends with custom APIs and

Functions

API connections

bull Authenticate once and reuse

Big Data Solutions Decision Tree

httpsbiz-excellencecom20160830big-data-dt

Machine Learning Solutions Decision Tree

httpsbiz-excellencecom20160913machine-

learning-dt

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of your

data while making it faster to get up and running with batch

streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources so

you can run queries on exabytes of data Includes U-SQL a

new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully managed

NoSQL database service that indexes stores and queries

data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

Microsoft Big Data Portfolio

SQL Server Stretch

Business intelligence

Machine learning analytics

Insights

Azure SQL Database

SQL Server 2016

SQL Server 2016 Fast Track

Azure SQL DW

ADLS amp ADLA

DocumentDB

HDInsight

Hadoop

Analytics Platform System

Sequential Scale Out + AcrossScale Up

Key

Relational Non-relational

On

-pre

mis

es

Clo

ud

Microsoft has solutions covering

and connecting all four

quadrants ndash thatrsquos why SQL

Server is one of the most utilized

databases in the world

Azure

Data Lake Store

Azure

Blob StoragePurpose Optimized for big data analytics General purpose bulk storage

Use Cases Batch Interactive Streaming App backend backup data media storage for

streaming

Units of Storage Accounts Folders Files Accounts Containers Blobs

Structure Hierarchical File System Flat namespace

WebHDFS Implements WebHDFS No (WASB)

Security AD SAS keys

Storage Auto SharedFiles chunked Manually manage expansionFiles intact

Service State Generally Available PolyBase

just supported

Generally Available

Billing Pay for data stored and for IO Pay for data stored and for IO

Region Availability Two US regions (Other regions coming soon) All Azure Regions

ADL Store vs Blob Store

httpsdocsmicrosoftcomen-usazuredata-lake-storedata-lake-store-comparison-with-blob-storage

Want Hadoop

Need exact same on-prem

Need interactive streaming

MandatoryNo strong opinion

Azure Marketplace (IaaS)

bull Need all workloads exactly like on-

premises

bull Need 100 HortonworksClouderaMapR

Azure HDInsight

bull Most Hadoop workloads

bull Fully managed by Microsoft

bull Sell HDI + ADLS

bull Stickier to Microsoft than VMs

bull Can do interactive (Spark) and streaming

(StormSpark)

Azure Data Lake Analytics

bull Easiest experience for admin no sense of

clusters instant scale per job

bull Easiest experience for developers Visual

StudioU-SQL (C+SQL)

bull Sell ADLA + ADLS

bull Batch workloads only

Need everything exactly like on-prem

Need core projects Yes Batch is OK

Always present ADLA if NET or Visual Studio Shop

If NET or VS shop

Azure SQL DW HDInsight Hive HDInsight Spark Azure Data Lake SQL Server (IaaS)

Volume Petabytes Petabytes Petabytes Petabytes Terabytes

Security Encryption TD

Audit

ADLS Apache

Ranger

ADLS AAD Security

Groups (data)

Encryption TD

Audit

Languages T-SQL HiveQL SparkSQL HiveQL

Scala Java Python

R

U-SQL T-SQL

Extensibility No Yes NETSerDe Yes Packages Yes NET Yes NET CLR

External File

Types

ORC TXT

Parquet RCFile

ORC CSV Parquet

+ others

Parquet JSON

Hive + others

Many ORC TXT Parquet

RCFile

Admin Low-Medium Medium-High Medium-High Low High

Cost Model DWU Nodes amp VM Nodes amp VM UnitsJobs VM

Schema

Definition

Schema on Write

Polybase

Schema on Read Schema on Read Schema on Read Schema on Write

Polybase

Max DB Size 240TB Comp (5X

= 1PB)

Unlimited 64TB (64 1TB drives)

機械学習 Deep Learning 深層強化学習

画像解析

音声解析

データ分類異常検知 顧客グルーピング

数値予測売上予測 需要予測 品質管理

ラベル分類不良品分析 故障予測 チャーン分析

機械学習より強力な分析

自律学習型ロボット

自動運転車

テキストや画像等の自動生成

活用例

主に多層のニューラルネットワークを用いた手法での分析

分析のためには莫大なデータ量計算量知識スキルを要する

統計に基づいた手法での分析

そのため比較的少ないデータ量と計算量で分析を行うことができる

定義したあるべき姿に従い試行錯誤をして自ら学習を行うための分析手法である強化学習と深層学習を組み合わせた分析

Azure Machine Learning Cognitive Toolkit GPU Instance (N-Series)

マイクロソフトが提供する技術

テキストデータ機器のログデータなど

画像データ監視カメラの録画データ 機器の外観画像 顔画像など

動画データ監視カメラの録画データ 機器の稼働状況 人の作業映像など

音声データマイクからの収集データ 稼働音 室内音 人の音声など

数値データセンサーデータ 機器の制御データ計測データなど672342345

機械学習統計理論に基づいた分析手法を用いる用意するべきデータ量と処理する計算量の敷居が低め導入しやすい

Deep Learningデータ量が大きいため強力な分析手法が必要「膨大なデータ量を用意」「莫大な計算量を処理」が必要で敷居が非常に高い導入にはそれなりの覚悟が必要

Action

People

Automated Systems

Apps

Web

Mobile

Bots

Intelligence

Dashboards amp Visualizations

Cortana

Bot Framework

Cognitive Services

Power BI

Information Management

Event Hubs

Data Catalog

Data Factory

Machine Learning and Analytics

HDInsight

Stream Analytics

Intelligence

Data Lake Analytics

Machine Learning

Big Data Stores

SQL Data Warehouse

Data Lake Store

Data Sources

Apps

Sensors amp Devices

Data

Cortana Intelligence Suite

学習済み

モデル利用

学習モデル

作成

機械学習 教師あり学習

教師なし学習

強化学習

決定木

線形回帰

SVM

ロジスティック回帰

ニューラルネットワーク

クラスタリング

次元削減

Q学習

K-mean法

主成分分析

正準相関分析

ディープニューラルネットワーク

畳みこみニューラルネットワーク

再帰的ニューラルネットワーク

回帰結合ニューラルネットワーク

httpsazuremicrosoftcomen-usservicescognitive-services

わずか数行のコードで強力なアルゴリズムを持つアプリの作成が可能ですiOSAndroidWindows などのプラットフォームを問わず機能します

httpsazuremicrosoftcomja-jpservicesmachine-learning

ユーザーは簡単に予測分析ソリューションを構築デプロイ共有できます

httpswwwyoutubecomwatchv=9gDDO5ldT-4ampfeature=youtube

AI技術を利用したディープラーニング(深層学習)ツールキットです旧称「CNTK」から改名されました

ソースコード httpsgithubcomMicrosoftCNTK

SearchSpeech

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

コカコーラ誕生100周年キャンペーン

コカコーラボトルを「100歳」と認識

bull 自撮り写真をUp結果をSNS拡散

ナビタイムジャパン様

自然言語入力による路線検索BOT

bull ユーザーとの新たな接点(LINE)

bull 自然言語入力

Vision Language Knowledge

Vision Knowledge SearchSpeech Language

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

Microsoft SupportVirtual Agent

自然言語入力による自動応答サポート窓口

bull 過去QampAデータ解析に基づく回答抽出

bull 定型外はldquo人対応rdquo

UBER

登録ドライバーをスマホ経由で顔認証

VOLVO

表情からの危険予測

Search

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

アロバ様

監視カメラによる店舗内行動分析

bull 顔認識による 顧客識別

bull 表情分析

東京サマーランド様にて導入済み

HmComm様

コールセンターソリューション

bull 会話をテキスト化キーワードを解析

bull 過去QampA検索

bull 内容をCRM保存

Vision KnowledgeSpeech Language

導入事例東京サマーランド様

Video

Intelligent KioskhttpsgithubcomMicrosoftCognitive-Samples-IntelligentKiosk

ldquo(want to|request)rdquo

HoloLens

Page 23: やりたいことから考えるMicrosoft Azure 上の データストアの選び方とデータサイエンティスト向け活用法。KVSからDWHまで

BLOB

効率

利用

仮想マシン

+BLOB

001log

002log

003log

004log

EN

EN

EN

EN

EN

EN

PS

PS

PS

PS ENEN

001log

002log

003log

004log

disk1vhd

PS = パーティション サーバー

EN = エクステント ノード

001log

002log

003log

004log

EN

EN

EN

EN

EN

EN

PS

PS

PS

PS ENEN

Block 1 Block 4Block 3Block 2

Imagejpg

Sparse File 512 byte aligned

51

2

10

24

15

36

20

48

25

60

AZCopy ndash Robocopy for Azure StorageStorage Explorer ndash Cross platform UX

Data Movement Library on CoreCLR

Python client library

仮想マシンSQL Enterprise

DS4 の場合

8 Core 28 GB RAM

Disk 0

読み取り書き込み Disk 1

Disk 2

P30

読み取りのみ

C

システム

D

キャッシュ

永続性あり 永続性なし 永続性あり (複数ボリュームの分割やストライプの構成が可能)

Premium Storage

デフォルト作成(仮想マシン付属) ユーザーが任意に追加

OS

Page ファイル

DBMS Exe

SQL Server バッファープール拡張

httpsazuremicrosoftcomja-jpdocumentationarticlesvirtual-machines-sql-server-performance-best-practices

httpsazuremicrosoftcomja-jpdocumentationarticlesvirtual-machines-sql-server-use-premium-storage

Disk n

P30

読み取りのみ

E

SQL データ(ページ圧縮)

Temp DB

Disk 3

P30

なし

F

Transaction-

Log

Disk Cache

344GB

最大Disk IOPS

256MBsec

P30合計の

600MBsは出ない

NTFSアロケーションユニットサイズ 64KB

データベース ページ圧縮 有効

Table用Index用Temp DB用に別

ドライブに拡張可能

キャッシュ設定は添付の

URLを参照

最大Disk IOPS

200MBsec

最大Disk IOPS

200MBsec

最大Disk IOPS

200MBsec

フルマネージドの RDBMS

データベース

RDBMS

OS

Azure が管理

利用者が管理

VM上の RDBMS

ホスト OS

仮想化

フルコントロール

データベース

RDBMS

OS

仮想化

ホスト OS

容易な管理

Azure Database

SQL Server物理マシン仮想マシン

SQL Server on Azure VM仮想マシン

SQL Database Data WarehousePaaS

物理マシン仮想マシン

VM Template Market place仮想マシン

Azure Database for MySQL PostgreSQL

論理データベース

Write

Write Ack

Ack

Read

value write

Ack

特徴

無停止フェールオーバー

無停止スケールアップ(プラン変更)

自動パフォーマンスチューニング

スループット指定によるプロビジョニング

データベース トランザクション ユニット (DTU) とエラスティック データベース トランザクション ユニット (eDTU) の説明

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-what-is-a-dtu

Azure SQL Database Query Performance Insight

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-query-performance

Query Store is turned on by default for Azure SQL Database

httpsazuremicrosoftcomja-jpupdatesquery-store-on-is-the-new-default-for-azure-sql-database

Queries

SQL Database

Deeper Insight

Query

Store

SQL Database Advisor

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-advisor

Azure Portal を使用した SQL Database Advisor

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-advisor-portal

領域 改善後

新しいインデックス提案が作成されるまで 18時間以内

T-SQL文が実行されるまでのタイムラグ 即時(数分以内)

「悪い」チューニング内容に対しての検知時間 1時間以内

次のインデックス提案が行われるまでの待ち時

間即時(数分以内)

導入までの総時間 1日以内

SQL Database の脅威の検出

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-threat-detection

コントロールノード

SQLDB

Azure Blob Storage(WASB)

100 DWU lt gt 2000 DWUコントロールノード

ユーザーからの接続コンピュートとストレージの調整

コンピュートノード

コンピュートノード

コンピュートノード

コンピュートノード

SQLDB

SQLDB

SQLDB

SQLDB

Azure Blob Storage(WASB)

コントロールノード

SQLDB コントロールノード

D51

D52

D53

D60

hellip

D41

D42

D43

D50

hellip

コンピュートノード

D31

D32

D33

D40hellip

D21

D22

D23

D30

hellip

D11

D12

D13

D20

hellip

D1

D2

D3

D10

hellip

SQL DB

Azure Blob Storage(WASB)

コントロールノード

SQLDB コントロールノード

コンピュートノード

D51

D52

D53

D60

hellipコンピュートノード

D41

D42

D43

D50

hellip

コンピュートノード

D31

D32

D33

D40hellip

コンピュートノード

D21

D22

D23

D30

hellip

コンピュートノード

D11

D12

D13

D20

hellip

コンピュートノード

D1

D2

D3

D10

hellip

SQL DB

SQL DB

SQL DB

SQL DB

SQL DB

SQL DB

54

データ無制限のストレージ と 分析プラットフォーム

無制限のストレージ(エクサバイト超)

ネイティブ HDFS に基づく実装

HDInsight Hortonworks Cloudera との統合

全ての HDFS 準拠プロジェクトとの親和性

(Spark Storm Flume Sqoop Kafka R etc)

Azure Data Lake Store- Hadoop Distributed File System (HDFS) For The Cloud

構造化データと非構造化データに対するデータ処理

宣言型の SQL 文 とカスタムコード (UDF UDT UDO hellip )

ローカルとリモートに対するクエリ

バッチ型インタラクティブ型ストリーミング型(in the future)

Azure Data Lake Analytics- New Query Language U-SQL

ETL パイプライン

スキーマの定義Relational

LOB

Applications

Schema-on-Write

直ちに必要でないデータは全て捨てられるかアーカイブされている

無限に保存 分析 結果の参照

あらゆるデータ

ソースからの

データ収集

Schema-on-Read

全データ取込要件にかかわらず

全データ格納そのままのフォーマットでスキーマ定義なし

分析実行Hadoopのような分析エンジンの利用

インタラクティブクエリ

バッチ型クエリ

機械学習

データウェアハウス

リアルタイム分析

リレーショナル

デバイス

観察仮説集まったデータから仮説をたてる

58

無制限のサイズ

ギガバイトからペタバイトのサイズの単一ファイル

巨大なスループットを必要とする大規模な分析システムを実現

あらゆるスループットに自動最適化

ペタバイト超のデータの並列コンピューティング

同一リージョン内に3つのコピーを自動的に作成

インストールやチューニングは不要

数分で稼働開始

必要に応じてどのようなサイズにもスケールアウト可能

データウェアハウスデータレイクストア

非構造Rawデータ(ログ文書バイナリ)

Tier 1

MachineLearning

Data LakeAnalytics HDInsight

目的に合わせた

データウェハウス分析処理

(売上分析経営分析)

データウェハウスに格納しきれなかった

過去データ関連データを連結して分析

ハードウェアの性能限界によって行えなかった処理量の分析を実現

ディスクコンピューティング

非構造データの

分析処理

(画像音声映像など)

広範囲のデータを利用した

機械学習統計解析処理

などによる高度分析

SQL Data Warehouse

Data LakeAnalytics HDInsight

Data LakeAnalytics

構造化データ半構造データ

分析用に加工(csv等)

Tier 2

アーカイブデータTier 2 DWHのアーカイブ

Tier 3

Analytics

Storage

HDInsight(ldquomanaged clustersrdquo)

Azure Data Lake Analytics

Azure Data Lake Store

Azure Data Lake

LOB Applications

SocialDevices

Clickstream

Sensors

Video

Web

Relational

HDInsight

Data Lake Analytics

Machine Learning

Spark

R

Azure Data Lake Store

Azure Data Lake Store

Azure Storage Blob

外部表Azure SQLData Warehouse

HDInsight

開発者は OSS に馴染んでいる Java Eclipse Hive etc

マネージド Hadoop クラスタにおいてカスタマイズ管理が可能でフレキシビリティがある

Azure Data Lake Analytics

C SQL amp PowerShell のスキル

経験を活かせる

利便性効率性自動スケール

ジョブ実行の仕組みが提供される

(New)

(New)

一般的なパターン

処理読み込み 保存

INSERT

OUTPUT

OUTPUT

SELECThellip

FROMhellip

WHEREhellip

+

PythonR

EXTRACT

EXTRACT

SELECT

SELECT

Azure

Data

Lake

Azure

Data

Lake

Azure

SQL

DB

Azure

Storage

Blobs

Azure

Storage

Blobs

RowSet RowSet

Cognitive Services

REFERENCE ASSEMBLY WebLogExtASM

rs =

EXTRACT

UserID string

Start DateTime

End DateTime

Region string

SitesVisited string

PagesVisited string

FROM ldquoLogsWebLogRecordstxtrdquo

USING WebLogExtractor ()

result = SELECT UserID

(EndSubtract(Start))TotalSeconds AS Duration

FROM rs ORDER BY Duration DESC FETCH 10

OUTPUT result TO ldquoLogsResultstop10tsv

USING OutputterTsv()

bull 型定義は C の型定義と同じ

bull データをファイルから抽出読み込み

するときにスキーマが必要

Data Lake Store 内 のファイル

独自形式を解析するカスタム関数

C の関数

行セット(中間テーブルの概念

に近い)

TSV形式で書き込む関数

U-SQL ジョブのサブミットAzure PortalやVisual StudioのAzure Data Lake ToolsからU-SQLジョブをサブミット可能

67

進捗

統計情報

従来型の処理分析 Azure Data Lake を中心とした処理分析

Business apps

Custom apps

Sensors and devices

ADL StorePeople

非構造化データも含めてあらゆるデータを格納

Azure SQL DW

Azure AD

Power BI

ADF

ADL Analytics

bull 処理分析業務の大半はデータ準備作業が占めるbull 処理分析業務に手間時間が必要

Business apps

Custom apps

Sensors and devices

HDInsight

ユーザー管理認証

データの連携

Power BI

File System

Database

Database

Hadoop

DWH

Data Mart

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

①大量データの受け入れ

②リアルタイム処理データの集約

③データの蓄積

構造化非構造化文書など様々な形式での保存

④データの加工移行

⑥機械学習

⑦Hadoop解析

⑧マイクロソフト技術を用いた分散解析

⑨通常のRMSが機能を追加した企業向けRを使用した解析

⑪クラウドベースの Self-Service BI 機能

⑫機械学習の予測モデルを業務システムなどから呼び出し可能にするサービス

外部クラウドなどからのデータ取り込み

②リアルタイム処理データの加工

⑤ディープラーニング

⑩Excelを用いた可視化

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

リアルタイム

バッチ

Data Factory Tools for Visual Studio

Azure Portal

Azure TableStorage

(Web ログレコード)

Data Factory

HDInsight

(Web ログをファイルにして

バッチ処理で集計)

SQL Database

(集計データをDB テーブルに格納)

Power BI

社内システム

DataManagement

Gateway

SQL Database

Data Warehouse

Blob Storage

Table Storage

httpportalazurecom

接続

メッセージ作成

メッセージ送信

var cs = ldquo接続文字列rdquovar path = ldquoイベントハブ名rdquovar eh = EventHubClientCreateFromConnectionString(cs path)

var msg = new user = thisUserIdentityNamelevel = leveltimestamp = demoTimestamp

var json = JsonConvertSerializeObject(msg)

ehSend(new EventData(EncodingUTF8GetBytes(json)))

EventProcessorHostを使う

bull

bull

bull

Functionsを使う

bull

bull

IEventProcessorProcessEventAsync(msg)

IEventProcessorProcessEventAsync(msg)

Run(string msg)

Azure azure-sdk-for-python

Point of Service Devices

Self CheckoutStations

Kiosks

Smart Phones

SlatesTablets

PCsLaptops

Servers

Digital Signs

DiagnosticEquipmentRemote Medical

MonitorsLogic

Controllers

SpecializedDevicesThin

Clients

Handhelds

Security

POS Terminals

AutomationDevices

VendingMachines

Kinect

ATM

Stream Analytics

入力 出力クエリデータストリーム

参照

bull ldquo入力rdquoldquo出力rdquoをクリックしそれぞれ作成

bull ldquoクエリrdquoをクリックしクエリを定義bull 作業が終わったらldquo開始rdquoで実

行開始

SELECT

INTO

FROM

SELECT user level AS SATLevel timestamp

INTO

FROM

デバイス接続性とデバイス管理およびブローカーサービス

データ管理と高度な分析 情報活用業務の生産性とプロセスの最適化

IoT Agent Gateway

予兆原因の学習モデル

ダッシュボード

参照ERPbull 顧客bull 設備bull 担当者

Notification Hubs

通知

予兆イベント

メンテ方法の推奨

bull ヘルス状態bull インシデント管理bull 対応のディスパッチ

現地技術要員のモバイルデバイス

オペレーションセンター

bull イベント ドア開閉軸アライメントキャビン速度モーター温度など

bull アラーム 故障アラームエラーコードなど

httpisstkeazurewebsitesnet

Event Hub

Stream Analytics

Azure ML

制御機器とセンサーのデータ

マシンデータの蓄積

メンテナンス方法の学習モデル

Machine Learning

Blob Storage

セルフサービス分析

Power BI

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce

cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-

system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of

your data while making it faster to get up and running with

batch streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources

so you can run queries on exabytes of data Includes U-

SQL a new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully

managed NoSQL database service that indexes stores and

queries data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

What do all of these have in common

They can all use Azure Analysis Services

Azure Analysis Services

Azure Analysis Services

BI semantic model

Business logic amp metrics

Data modeling

Security

Azure Analysis Services

Lifecycle management

In-memory cache

On-premises

Cloud

Data sources

SQL Database

SQL Data Warehouse

Other data sources

SQL Server

Analytics platform

system

Other data sources

On-premises

Cloud

Client tools

Power BI

Excel

Third party BI tools

Power BI Desktop

Rich semantic modelling

locatioidentifier

identifiertype

fieldidentifier

numberofunitssoldtodate

remaningnumber

Numberofuntissoldtoday

receivedback

productidentifier

descriptionline1

descriptionline2

qtyafterqtysales

familyidentifier

Source DataComplex raw data optimized for processing

Semantic ModelRich business user friendly semantic model

Product Id

Product Name

Product Description

Category

Category Id

Category Name

Category Description

Sub Category

Product Id

Shelf qty

Return qty

Order qty

Sale qty

Cloud Data

On-Premises

Data

Azure Analysis Services

Lightning fast queries

データ管理をきっかけに処理を実行

Web Glue

Bots IoT

DOMINOS STORES

Key Vault

Azure Active Directory

Azure Files

SSIS FRANCHISEE

AZURE WEST EUROPE

Azure Function

KEMPSSDESSRS

IN- AND EXTERNAL DATA SOURCES

orderprocessing

O365

App Insights

indexhtml

Azure Functions Proxies

couponprocessing

Use Bindings in Your Codefunctionjson

bindings [type httpTriggerdirection inwebHookType genericJsonname req

type httpdirection outname res

type queuename eventOutputqueueName aievents1connectionAiStorageConnectiondirection out

]

public static class OrderHandler

[FunctionName(OrderWebhook)]public static async TaskltHttpResponseMessagegt Run(

[HttpTrigger] HttpRequestMessage req[Queue(aievents1 Connection = AiStorageConnection)]

IAsyncCollectorltStringgt eventOutputTraceWriter log)

logInfo($Webhook was triggered)

string jsonContent = await reqContentReadAsStringAsync()dynamic data = JsonConvertDeserializeObject(jsonContent)

await eventOutputAddAsync(JsonConvertSerializeObject(GetLogData(data)))

int orderId = PlaceOrder(data)

return reqCreateResponse(HttpStatusCodeOK new orderNumber = orderId )

bull Workflow in the cloud

bull Powerful control flow

bull Connect functions and APIs

bull Declarative definition to persist in source control and drive deployments

Logic AppsCloud APIs and platform

bull Supports over 125 built-in connectors

bull Scales to meet your needs

bull Enables rapid development

bull Extends with custom APIs and

Functions

API connections

bull Authenticate once and reuse

Big Data Solutions Decision Tree

httpsbiz-excellencecom20160830big-data-dt

Machine Learning Solutions Decision Tree

httpsbiz-excellencecom20160913machine-

learning-dt

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of your

data while making it faster to get up and running with batch

streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources so

you can run queries on exabytes of data Includes U-SQL a

new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully managed

NoSQL database service that indexes stores and queries

data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

Microsoft Big Data Portfolio

SQL Server Stretch

Business intelligence

Machine learning analytics

Insights

Azure SQL Database

SQL Server 2016

SQL Server 2016 Fast Track

Azure SQL DW

ADLS amp ADLA

DocumentDB

HDInsight

Hadoop

Analytics Platform System

Sequential Scale Out + AcrossScale Up

Key

Relational Non-relational

On

-pre

mis

es

Clo

ud

Microsoft has solutions covering

and connecting all four

quadrants ndash thatrsquos why SQL

Server is one of the most utilized

databases in the world

Azure

Data Lake Store

Azure

Blob StoragePurpose Optimized for big data analytics General purpose bulk storage

Use Cases Batch Interactive Streaming App backend backup data media storage for

streaming

Units of Storage Accounts Folders Files Accounts Containers Blobs

Structure Hierarchical File System Flat namespace

WebHDFS Implements WebHDFS No (WASB)

Security AD SAS keys

Storage Auto SharedFiles chunked Manually manage expansionFiles intact

Service State Generally Available PolyBase

just supported

Generally Available

Billing Pay for data stored and for IO Pay for data stored and for IO

Region Availability Two US regions (Other regions coming soon) All Azure Regions

ADL Store vs Blob Store

httpsdocsmicrosoftcomen-usazuredata-lake-storedata-lake-store-comparison-with-blob-storage

Want Hadoop

Need exact same on-prem

Need interactive streaming

MandatoryNo strong opinion

Azure Marketplace (IaaS)

bull Need all workloads exactly like on-

premises

bull Need 100 HortonworksClouderaMapR

Azure HDInsight

bull Most Hadoop workloads

bull Fully managed by Microsoft

bull Sell HDI + ADLS

bull Stickier to Microsoft than VMs

bull Can do interactive (Spark) and streaming

(StormSpark)

Azure Data Lake Analytics

bull Easiest experience for admin no sense of

clusters instant scale per job

bull Easiest experience for developers Visual

StudioU-SQL (C+SQL)

bull Sell ADLA + ADLS

bull Batch workloads only

Need everything exactly like on-prem

Need core projects Yes Batch is OK

Always present ADLA if NET or Visual Studio Shop

If NET or VS shop

Azure SQL DW HDInsight Hive HDInsight Spark Azure Data Lake SQL Server (IaaS)

Volume Petabytes Petabytes Petabytes Petabytes Terabytes

Security Encryption TD

Audit

ADLS Apache

Ranger

ADLS AAD Security

Groups (data)

Encryption TD

Audit

Languages T-SQL HiveQL SparkSQL HiveQL

Scala Java Python

R

U-SQL T-SQL

Extensibility No Yes NETSerDe Yes Packages Yes NET Yes NET CLR

External File

Types

ORC TXT

Parquet RCFile

ORC CSV Parquet

+ others

Parquet JSON

Hive + others

Many ORC TXT Parquet

RCFile

Admin Low-Medium Medium-High Medium-High Low High

Cost Model DWU Nodes amp VM Nodes amp VM UnitsJobs VM

Schema

Definition

Schema on Write

Polybase

Schema on Read Schema on Read Schema on Read Schema on Write

Polybase

Max DB Size 240TB Comp (5X

= 1PB)

Unlimited 64TB (64 1TB drives)

機械学習 Deep Learning 深層強化学習

画像解析

音声解析

データ分類異常検知 顧客グルーピング

数値予測売上予測 需要予測 品質管理

ラベル分類不良品分析 故障予測 チャーン分析

機械学習より強力な分析

自律学習型ロボット

自動運転車

テキストや画像等の自動生成

活用例

主に多層のニューラルネットワークを用いた手法での分析

分析のためには莫大なデータ量計算量知識スキルを要する

統計に基づいた手法での分析

そのため比較的少ないデータ量と計算量で分析を行うことができる

定義したあるべき姿に従い試行錯誤をして自ら学習を行うための分析手法である強化学習と深層学習を組み合わせた分析

Azure Machine Learning Cognitive Toolkit GPU Instance (N-Series)

マイクロソフトが提供する技術

テキストデータ機器のログデータなど

画像データ監視カメラの録画データ 機器の外観画像 顔画像など

動画データ監視カメラの録画データ 機器の稼働状況 人の作業映像など

音声データマイクからの収集データ 稼働音 室内音 人の音声など

数値データセンサーデータ 機器の制御データ計測データなど672342345

機械学習統計理論に基づいた分析手法を用いる用意するべきデータ量と処理する計算量の敷居が低め導入しやすい

Deep Learningデータ量が大きいため強力な分析手法が必要「膨大なデータ量を用意」「莫大な計算量を処理」が必要で敷居が非常に高い導入にはそれなりの覚悟が必要

Action

People

Automated Systems

Apps

Web

Mobile

Bots

Intelligence

Dashboards amp Visualizations

Cortana

Bot Framework

Cognitive Services

Power BI

Information Management

Event Hubs

Data Catalog

Data Factory

Machine Learning and Analytics

HDInsight

Stream Analytics

Intelligence

Data Lake Analytics

Machine Learning

Big Data Stores

SQL Data Warehouse

Data Lake Store

Data Sources

Apps

Sensors amp Devices

Data

Cortana Intelligence Suite

学習済み

モデル利用

学習モデル

作成

機械学習 教師あり学習

教師なし学習

強化学習

決定木

線形回帰

SVM

ロジスティック回帰

ニューラルネットワーク

クラスタリング

次元削減

Q学習

K-mean法

主成分分析

正準相関分析

ディープニューラルネットワーク

畳みこみニューラルネットワーク

再帰的ニューラルネットワーク

回帰結合ニューラルネットワーク

httpsazuremicrosoftcomen-usservicescognitive-services

わずか数行のコードで強力なアルゴリズムを持つアプリの作成が可能ですiOSAndroidWindows などのプラットフォームを問わず機能します

httpsazuremicrosoftcomja-jpservicesmachine-learning

ユーザーは簡単に予測分析ソリューションを構築デプロイ共有できます

httpswwwyoutubecomwatchv=9gDDO5ldT-4ampfeature=youtube

AI技術を利用したディープラーニング(深層学習)ツールキットです旧称「CNTK」から改名されました

ソースコード httpsgithubcomMicrosoftCNTK

SearchSpeech

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

コカコーラ誕生100周年キャンペーン

コカコーラボトルを「100歳」と認識

bull 自撮り写真をUp結果をSNS拡散

ナビタイムジャパン様

自然言語入力による路線検索BOT

bull ユーザーとの新たな接点(LINE)

bull 自然言語入力

Vision Language Knowledge

Vision Knowledge SearchSpeech Language

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

Microsoft SupportVirtual Agent

自然言語入力による自動応答サポート窓口

bull 過去QampAデータ解析に基づく回答抽出

bull 定型外はldquo人対応rdquo

UBER

登録ドライバーをスマホ経由で顔認証

VOLVO

表情からの危険予測

Search

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

アロバ様

監視カメラによる店舗内行動分析

bull 顔認識による 顧客識別

bull 表情分析

東京サマーランド様にて導入済み

HmComm様

コールセンターソリューション

bull 会話をテキスト化キーワードを解析

bull 過去QampA検索

bull 内容をCRM保存

Vision KnowledgeSpeech Language

導入事例東京サマーランド様

Video

Intelligent KioskhttpsgithubcomMicrosoftCognitive-Samples-IntelligentKiosk

ldquo(want to|request)rdquo

HoloLens

Page 24: やりたいことから考えるMicrosoft Azure 上の データストアの選び方とデータサイエンティスト向け活用法。KVSからDWHまで

Block 1 Block 4Block 3Block 2

Imagejpg

Sparse File 512 byte aligned

51

2

10

24

15

36

20

48

25

60

AZCopy ndash Robocopy for Azure StorageStorage Explorer ndash Cross platform UX

Data Movement Library on CoreCLR

Python client library

仮想マシンSQL Enterprise

DS4 の場合

8 Core 28 GB RAM

Disk 0

読み取り書き込み Disk 1

Disk 2

P30

読み取りのみ

C

システム

D

キャッシュ

永続性あり 永続性なし 永続性あり (複数ボリュームの分割やストライプの構成が可能)

Premium Storage

デフォルト作成(仮想マシン付属) ユーザーが任意に追加

OS

Page ファイル

DBMS Exe

SQL Server バッファープール拡張

httpsazuremicrosoftcomja-jpdocumentationarticlesvirtual-machines-sql-server-performance-best-practices

httpsazuremicrosoftcomja-jpdocumentationarticlesvirtual-machines-sql-server-use-premium-storage

Disk n

P30

読み取りのみ

E

SQL データ(ページ圧縮)

Temp DB

Disk 3

P30

なし

F

Transaction-

Log

Disk Cache

344GB

最大Disk IOPS

256MBsec

P30合計の

600MBsは出ない

NTFSアロケーションユニットサイズ 64KB

データベース ページ圧縮 有効

Table用Index用Temp DB用に別

ドライブに拡張可能

キャッシュ設定は添付の

URLを参照

最大Disk IOPS

200MBsec

最大Disk IOPS

200MBsec

最大Disk IOPS

200MBsec

フルマネージドの RDBMS

データベース

RDBMS

OS

Azure が管理

利用者が管理

VM上の RDBMS

ホスト OS

仮想化

フルコントロール

データベース

RDBMS

OS

仮想化

ホスト OS

容易な管理

Azure Database

SQL Server物理マシン仮想マシン

SQL Server on Azure VM仮想マシン

SQL Database Data WarehousePaaS

物理マシン仮想マシン

VM Template Market place仮想マシン

Azure Database for MySQL PostgreSQL

論理データベース

Write

Write Ack

Ack

Read

value write

Ack

特徴

無停止フェールオーバー

無停止スケールアップ(プラン変更)

自動パフォーマンスチューニング

スループット指定によるプロビジョニング

データベース トランザクション ユニット (DTU) とエラスティック データベース トランザクション ユニット (eDTU) の説明

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-what-is-a-dtu

Azure SQL Database Query Performance Insight

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-query-performance

Query Store is turned on by default for Azure SQL Database

httpsazuremicrosoftcomja-jpupdatesquery-store-on-is-the-new-default-for-azure-sql-database

Queries

SQL Database

Deeper Insight

Query

Store

SQL Database Advisor

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-advisor

Azure Portal を使用した SQL Database Advisor

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-advisor-portal

領域 改善後

新しいインデックス提案が作成されるまで 18時間以内

T-SQL文が実行されるまでのタイムラグ 即時(数分以内)

「悪い」チューニング内容に対しての検知時間 1時間以内

次のインデックス提案が行われるまでの待ち時

間即時(数分以内)

導入までの総時間 1日以内

SQL Database の脅威の検出

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-threat-detection

コントロールノード

SQLDB

Azure Blob Storage(WASB)

100 DWU lt gt 2000 DWUコントロールノード

ユーザーからの接続コンピュートとストレージの調整

コンピュートノード

コンピュートノード

コンピュートノード

コンピュートノード

SQLDB

SQLDB

SQLDB

SQLDB

Azure Blob Storage(WASB)

コントロールノード

SQLDB コントロールノード

D51

D52

D53

D60

hellip

D41

D42

D43

D50

hellip

コンピュートノード

D31

D32

D33

D40hellip

D21

D22

D23

D30

hellip

D11

D12

D13

D20

hellip

D1

D2

D3

D10

hellip

SQL DB

Azure Blob Storage(WASB)

コントロールノード

SQLDB コントロールノード

コンピュートノード

D51

D52

D53

D60

hellipコンピュートノード

D41

D42

D43

D50

hellip

コンピュートノード

D31

D32

D33

D40hellip

コンピュートノード

D21

D22

D23

D30

hellip

コンピュートノード

D11

D12

D13

D20

hellip

コンピュートノード

D1

D2

D3

D10

hellip

SQL DB

SQL DB

SQL DB

SQL DB

SQL DB

SQL DB

54

データ無制限のストレージ と 分析プラットフォーム

無制限のストレージ(エクサバイト超)

ネイティブ HDFS に基づく実装

HDInsight Hortonworks Cloudera との統合

全ての HDFS 準拠プロジェクトとの親和性

(Spark Storm Flume Sqoop Kafka R etc)

Azure Data Lake Store- Hadoop Distributed File System (HDFS) For The Cloud

構造化データと非構造化データに対するデータ処理

宣言型の SQL 文 とカスタムコード (UDF UDT UDO hellip )

ローカルとリモートに対するクエリ

バッチ型インタラクティブ型ストリーミング型(in the future)

Azure Data Lake Analytics- New Query Language U-SQL

ETL パイプライン

スキーマの定義Relational

LOB

Applications

Schema-on-Write

直ちに必要でないデータは全て捨てられるかアーカイブされている

無限に保存 分析 結果の参照

あらゆるデータ

ソースからの

データ収集

Schema-on-Read

全データ取込要件にかかわらず

全データ格納そのままのフォーマットでスキーマ定義なし

分析実行Hadoopのような分析エンジンの利用

インタラクティブクエリ

バッチ型クエリ

機械学習

データウェアハウス

リアルタイム分析

リレーショナル

デバイス

観察仮説集まったデータから仮説をたてる

58

無制限のサイズ

ギガバイトからペタバイトのサイズの単一ファイル

巨大なスループットを必要とする大規模な分析システムを実現

あらゆるスループットに自動最適化

ペタバイト超のデータの並列コンピューティング

同一リージョン内に3つのコピーを自動的に作成

インストールやチューニングは不要

数分で稼働開始

必要に応じてどのようなサイズにもスケールアウト可能

データウェアハウスデータレイクストア

非構造Rawデータ(ログ文書バイナリ)

Tier 1

MachineLearning

Data LakeAnalytics HDInsight

目的に合わせた

データウェハウス分析処理

(売上分析経営分析)

データウェハウスに格納しきれなかった

過去データ関連データを連結して分析

ハードウェアの性能限界によって行えなかった処理量の分析を実現

ディスクコンピューティング

非構造データの

分析処理

(画像音声映像など)

広範囲のデータを利用した

機械学習統計解析処理

などによる高度分析

SQL Data Warehouse

Data LakeAnalytics HDInsight

Data LakeAnalytics

構造化データ半構造データ

分析用に加工(csv等)

Tier 2

アーカイブデータTier 2 DWHのアーカイブ

Tier 3

Analytics

Storage

HDInsight(ldquomanaged clustersrdquo)

Azure Data Lake Analytics

Azure Data Lake Store

Azure Data Lake

LOB Applications

SocialDevices

Clickstream

Sensors

Video

Web

Relational

HDInsight

Data Lake Analytics

Machine Learning

Spark

R

Azure Data Lake Store

Azure Data Lake Store

Azure Storage Blob

外部表Azure SQLData Warehouse

HDInsight

開発者は OSS に馴染んでいる Java Eclipse Hive etc

マネージド Hadoop クラスタにおいてカスタマイズ管理が可能でフレキシビリティがある

Azure Data Lake Analytics

C SQL amp PowerShell のスキル

経験を活かせる

利便性効率性自動スケール

ジョブ実行の仕組みが提供される

(New)

(New)

一般的なパターン

処理読み込み 保存

INSERT

OUTPUT

OUTPUT

SELECThellip

FROMhellip

WHEREhellip

+

PythonR

EXTRACT

EXTRACT

SELECT

SELECT

Azure

Data

Lake

Azure

Data

Lake

Azure

SQL

DB

Azure

Storage

Blobs

Azure

Storage

Blobs

RowSet RowSet

Cognitive Services

REFERENCE ASSEMBLY WebLogExtASM

rs =

EXTRACT

UserID string

Start DateTime

End DateTime

Region string

SitesVisited string

PagesVisited string

FROM ldquoLogsWebLogRecordstxtrdquo

USING WebLogExtractor ()

result = SELECT UserID

(EndSubtract(Start))TotalSeconds AS Duration

FROM rs ORDER BY Duration DESC FETCH 10

OUTPUT result TO ldquoLogsResultstop10tsv

USING OutputterTsv()

bull 型定義は C の型定義と同じ

bull データをファイルから抽出読み込み

するときにスキーマが必要

Data Lake Store 内 のファイル

独自形式を解析するカスタム関数

C の関数

行セット(中間テーブルの概念

に近い)

TSV形式で書き込む関数

U-SQL ジョブのサブミットAzure PortalやVisual StudioのAzure Data Lake ToolsからU-SQLジョブをサブミット可能

67

進捗

統計情報

従来型の処理分析 Azure Data Lake を中心とした処理分析

Business apps

Custom apps

Sensors and devices

ADL StorePeople

非構造化データも含めてあらゆるデータを格納

Azure SQL DW

Azure AD

Power BI

ADF

ADL Analytics

bull 処理分析業務の大半はデータ準備作業が占めるbull 処理分析業務に手間時間が必要

Business apps

Custom apps

Sensors and devices

HDInsight

ユーザー管理認証

データの連携

Power BI

File System

Database

Database

Hadoop

DWH

Data Mart

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

①大量データの受け入れ

②リアルタイム処理データの集約

③データの蓄積

構造化非構造化文書など様々な形式での保存

④データの加工移行

⑥機械学習

⑦Hadoop解析

⑧マイクロソフト技術を用いた分散解析

⑨通常のRMSが機能を追加した企業向けRを使用した解析

⑪クラウドベースの Self-Service BI 機能

⑫機械学習の予測モデルを業務システムなどから呼び出し可能にするサービス

外部クラウドなどからのデータ取り込み

②リアルタイム処理データの加工

⑤ディープラーニング

⑩Excelを用いた可視化

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

リアルタイム

バッチ

Data Factory Tools for Visual Studio

Azure Portal

Azure TableStorage

(Web ログレコード)

Data Factory

HDInsight

(Web ログをファイルにして

バッチ処理で集計)

SQL Database

(集計データをDB テーブルに格納)

Power BI

社内システム

DataManagement

Gateway

SQL Database

Data Warehouse

Blob Storage

Table Storage

httpportalazurecom

接続

メッセージ作成

メッセージ送信

var cs = ldquo接続文字列rdquovar path = ldquoイベントハブ名rdquovar eh = EventHubClientCreateFromConnectionString(cs path)

var msg = new user = thisUserIdentityNamelevel = leveltimestamp = demoTimestamp

var json = JsonConvertSerializeObject(msg)

ehSend(new EventData(EncodingUTF8GetBytes(json)))

EventProcessorHostを使う

bull

bull

bull

Functionsを使う

bull

bull

IEventProcessorProcessEventAsync(msg)

IEventProcessorProcessEventAsync(msg)

Run(string msg)

Azure azure-sdk-for-python

Point of Service Devices

Self CheckoutStations

Kiosks

Smart Phones

SlatesTablets

PCsLaptops

Servers

Digital Signs

DiagnosticEquipmentRemote Medical

MonitorsLogic

Controllers

SpecializedDevicesThin

Clients

Handhelds

Security

POS Terminals

AutomationDevices

VendingMachines

Kinect

ATM

Stream Analytics

入力 出力クエリデータストリーム

参照

bull ldquo入力rdquoldquo出力rdquoをクリックしそれぞれ作成

bull ldquoクエリrdquoをクリックしクエリを定義bull 作業が終わったらldquo開始rdquoで実

行開始

SELECT

INTO

FROM

SELECT user level AS SATLevel timestamp

INTO

FROM

デバイス接続性とデバイス管理およびブローカーサービス

データ管理と高度な分析 情報活用業務の生産性とプロセスの最適化

IoT Agent Gateway

予兆原因の学習モデル

ダッシュボード

参照ERPbull 顧客bull 設備bull 担当者

Notification Hubs

通知

予兆イベント

メンテ方法の推奨

bull ヘルス状態bull インシデント管理bull 対応のディスパッチ

現地技術要員のモバイルデバイス

オペレーションセンター

bull イベント ドア開閉軸アライメントキャビン速度モーター温度など

bull アラーム 故障アラームエラーコードなど

httpisstkeazurewebsitesnet

Event Hub

Stream Analytics

Azure ML

制御機器とセンサーのデータ

マシンデータの蓄積

メンテナンス方法の学習モデル

Machine Learning

Blob Storage

セルフサービス分析

Power BI

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce

cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-

system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of

your data while making it faster to get up and running with

batch streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources

so you can run queries on exabytes of data Includes U-

SQL a new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully

managed NoSQL database service that indexes stores and

queries data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

What do all of these have in common

They can all use Azure Analysis Services

Azure Analysis Services

Azure Analysis Services

BI semantic model

Business logic amp metrics

Data modeling

Security

Azure Analysis Services

Lifecycle management

In-memory cache

On-premises

Cloud

Data sources

SQL Database

SQL Data Warehouse

Other data sources

SQL Server

Analytics platform

system

Other data sources

On-premises

Cloud

Client tools

Power BI

Excel

Third party BI tools

Power BI Desktop

Rich semantic modelling

locatioidentifier

identifiertype

fieldidentifier

numberofunitssoldtodate

remaningnumber

Numberofuntissoldtoday

receivedback

productidentifier

descriptionline1

descriptionline2

qtyafterqtysales

familyidentifier

Source DataComplex raw data optimized for processing

Semantic ModelRich business user friendly semantic model

Product Id

Product Name

Product Description

Category

Category Id

Category Name

Category Description

Sub Category

Product Id

Shelf qty

Return qty

Order qty

Sale qty

Cloud Data

On-Premises

Data

Azure Analysis Services

Lightning fast queries

データ管理をきっかけに処理を実行

Web Glue

Bots IoT

DOMINOS STORES

Key Vault

Azure Active Directory

Azure Files

SSIS FRANCHISEE

AZURE WEST EUROPE

Azure Function

KEMPSSDESSRS

IN- AND EXTERNAL DATA SOURCES

orderprocessing

O365

App Insights

indexhtml

Azure Functions Proxies

couponprocessing

Use Bindings in Your Codefunctionjson

bindings [type httpTriggerdirection inwebHookType genericJsonname req

type httpdirection outname res

type queuename eventOutputqueueName aievents1connectionAiStorageConnectiondirection out

]

public static class OrderHandler

[FunctionName(OrderWebhook)]public static async TaskltHttpResponseMessagegt Run(

[HttpTrigger] HttpRequestMessage req[Queue(aievents1 Connection = AiStorageConnection)]

IAsyncCollectorltStringgt eventOutputTraceWriter log)

logInfo($Webhook was triggered)

string jsonContent = await reqContentReadAsStringAsync()dynamic data = JsonConvertDeserializeObject(jsonContent)

await eventOutputAddAsync(JsonConvertSerializeObject(GetLogData(data)))

int orderId = PlaceOrder(data)

return reqCreateResponse(HttpStatusCodeOK new orderNumber = orderId )

bull Workflow in the cloud

bull Powerful control flow

bull Connect functions and APIs

bull Declarative definition to persist in source control and drive deployments

Logic AppsCloud APIs and platform

bull Supports over 125 built-in connectors

bull Scales to meet your needs

bull Enables rapid development

bull Extends with custom APIs and

Functions

API connections

bull Authenticate once and reuse

Big Data Solutions Decision Tree

httpsbiz-excellencecom20160830big-data-dt

Machine Learning Solutions Decision Tree

httpsbiz-excellencecom20160913machine-

learning-dt

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of your

data while making it faster to get up and running with batch

streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources so

you can run queries on exabytes of data Includes U-SQL a

new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully managed

NoSQL database service that indexes stores and queries

data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

Microsoft Big Data Portfolio

SQL Server Stretch

Business intelligence

Machine learning analytics

Insights

Azure SQL Database

SQL Server 2016

SQL Server 2016 Fast Track

Azure SQL DW

ADLS amp ADLA

DocumentDB

HDInsight

Hadoop

Analytics Platform System

Sequential Scale Out + AcrossScale Up

Key

Relational Non-relational

On

-pre

mis

es

Clo

ud

Microsoft has solutions covering

and connecting all four

quadrants ndash thatrsquos why SQL

Server is one of the most utilized

databases in the world

Azure

Data Lake Store

Azure

Blob StoragePurpose Optimized for big data analytics General purpose bulk storage

Use Cases Batch Interactive Streaming App backend backup data media storage for

streaming

Units of Storage Accounts Folders Files Accounts Containers Blobs

Structure Hierarchical File System Flat namespace

WebHDFS Implements WebHDFS No (WASB)

Security AD SAS keys

Storage Auto SharedFiles chunked Manually manage expansionFiles intact

Service State Generally Available PolyBase

just supported

Generally Available

Billing Pay for data stored and for IO Pay for data stored and for IO

Region Availability Two US regions (Other regions coming soon) All Azure Regions

ADL Store vs Blob Store

httpsdocsmicrosoftcomen-usazuredata-lake-storedata-lake-store-comparison-with-blob-storage

Want Hadoop

Need exact same on-prem

Need interactive streaming

MandatoryNo strong opinion

Azure Marketplace (IaaS)

bull Need all workloads exactly like on-

premises

bull Need 100 HortonworksClouderaMapR

Azure HDInsight

bull Most Hadoop workloads

bull Fully managed by Microsoft

bull Sell HDI + ADLS

bull Stickier to Microsoft than VMs

bull Can do interactive (Spark) and streaming

(StormSpark)

Azure Data Lake Analytics

bull Easiest experience for admin no sense of

clusters instant scale per job

bull Easiest experience for developers Visual

StudioU-SQL (C+SQL)

bull Sell ADLA + ADLS

bull Batch workloads only

Need everything exactly like on-prem

Need core projects Yes Batch is OK

Always present ADLA if NET or Visual Studio Shop

If NET or VS shop

Azure SQL DW HDInsight Hive HDInsight Spark Azure Data Lake SQL Server (IaaS)

Volume Petabytes Petabytes Petabytes Petabytes Terabytes

Security Encryption TD

Audit

ADLS Apache

Ranger

ADLS AAD Security

Groups (data)

Encryption TD

Audit

Languages T-SQL HiveQL SparkSQL HiveQL

Scala Java Python

R

U-SQL T-SQL

Extensibility No Yes NETSerDe Yes Packages Yes NET Yes NET CLR

External File

Types

ORC TXT

Parquet RCFile

ORC CSV Parquet

+ others

Parquet JSON

Hive + others

Many ORC TXT Parquet

RCFile

Admin Low-Medium Medium-High Medium-High Low High

Cost Model DWU Nodes amp VM Nodes amp VM UnitsJobs VM

Schema

Definition

Schema on Write

Polybase

Schema on Read Schema on Read Schema on Read Schema on Write

Polybase

Max DB Size 240TB Comp (5X

= 1PB)

Unlimited 64TB (64 1TB drives)

機械学習 Deep Learning 深層強化学習

画像解析

音声解析

データ分類異常検知 顧客グルーピング

数値予測売上予測 需要予測 品質管理

ラベル分類不良品分析 故障予測 チャーン分析

機械学習より強力な分析

自律学習型ロボット

自動運転車

テキストや画像等の自動生成

活用例

主に多層のニューラルネットワークを用いた手法での分析

分析のためには莫大なデータ量計算量知識スキルを要する

統計に基づいた手法での分析

そのため比較的少ないデータ量と計算量で分析を行うことができる

定義したあるべき姿に従い試行錯誤をして自ら学習を行うための分析手法である強化学習と深層学習を組み合わせた分析

Azure Machine Learning Cognitive Toolkit GPU Instance (N-Series)

マイクロソフトが提供する技術

テキストデータ機器のログデータなど

画像データ監視カメラの録画データ 機器の外観画像 顔画像など

動画データ監視カメラの録画データ 機器の稼働状況 人の作業映像など

音声データマイクからの収集データ 稼働音 室内音 人の音声など

数値データセンサーデータ 機器の制御データ計測データなど672342345

機械学習統計理論に基づいた分析手法を用いる用意するべきデータ量と処理する計算量の敷居が低め導入しやすい

Deep Learningデータ量が大きいため強力な分析手法が必要「膨大なデータ量を用意」「莫大な計算量を処理」が必要で敷居が非常に高い導入にはそれなりの覚悟が必要

Action

People

Automated Systems

Apps

Web

Mobile

Bots

Intelligence

Dashboards amp Visualizations

Cortana

Bot Framework

Cognitive Services

Power BI

Information Management

Event Hubs

Data Catalog

Data Factory

Machine Learning and Analytics

HDInsight

Stream Analytics

Intelligence

Data Lake Analytics

Machine Learning

Big Data Stores

SQL Data Warehouse

Data Lake Store

Data Sources

Apps

Sensors amp Devices

Data

Cortana Intelligence Suite

学習済み

モデル利用

学習モデル

作成

機械学習 教師あり学習

教師なし学習

強化学習

決定木

線形回帰

SVM

ロジスティック回帰

ニューラルネットワーク

クラスタリング

次元削減

Q学習

K-mean法

主成分分析

正準相関分析

ディープニューラルネットワーク

畳みこみニューラルネットワーク

再帰的ニューラルネットワーク

回帰結合ニューラルネットワーク

httpsazuremicrosoftcomen-usservicescognitive-services

わずか数行のコードで強力なアルゴリズムを持つアプリの作成が可能ですiOSAndroidWindows などのプラットフォームを問わず機能します

httpsazuremicrosoftcomja-jpservicesmachine-learning

ユーザーは簡単に予測分析ソリューションを構築デプロイ共有できます

httpswwwyoutubecomwatchv=9gDDO5ldT-4ampfeature=youtube

AI技術を利用したディープラーニング(深層学習)ツールキットです旧称「CNTK」から改名されました

ソースコード httpsgithubcomMicrosoftCNTK

SearchSpeech

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

コカコーラ誕生100周年キャンペーン

コカコーラボトルを「100歳」と認識

bull 自撮り写真をUp結果をSNS拡散

ナビタイムジャパン様

自然言語入力による路線検索BOT

bull ユーザーとの新たな接点(LINE)

bull 自然言語入力

Vision Language Knowledge

Vision Knowledge SearchSpeech Language

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

Microsoft SupportVirtual Agent

自然言語入力による自動応答サポート窓口

bull 過去QampAデータ解析に基づく回答抽出

bull 定型外はldquo人対応rdquo

UBER

登録ドライバーをスマホ経由で顔認証

VOLVO

表情からの危険予測

Search

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

アロバ様

監視カメラによる店舗内行動分析

bull 顔認識による 顧客識別

bull 表情分析

東京サマーランド様にて導入済み

HmComm様

コールセンターソリューション

bull 会話をテキスト化キーワードを解析

bull 過去QampA検索

bull 内容をCRM保存

Vision KnowledgeSpeech Language

導入事例東京サマーランド様

Video

Intelligent KioskhttpsgithubcomMicrosoftCognitive-Samples-IntelligentKiosk

ldquo(want to|request)rdquo

HoloLens

Page 25: やりたいことから考えるMicrosoft Azure 上の データストアの選び方とデータサイエンティスト向け活用法。KVSからDWHまで

AZCopy ndash Robocopy for Azure StorageStorage Explorer ndash Cross platform UX

Data Movement Library on CoreCLR

Python client library

仮想マシンSQL Enterprise

DS4 の場合

8 Core 28 GB RAM

Disk 0

読み取り書き込み Disk 1

Disk 2

P30

読み取りのみ

C

システム

D

キャッシュ

永続性あり 永続性なし 永続性あり (複数ボリュームの分割やストライプの構成が可能)

Premium Storage

デフォルト作成(仮想マシン付属) ユーザーが任意に追加

OS

Page ファイル

DBMS Exe

SQL Server バッファープール拡張

httpsazuremicrosoftcomja-jpdocumentationarticlesvirtual-machines-sql-server-performance-best-practices

httpsazuremicrosoftcomja-jpdocumentationarticlesvirtual-machines-sql-server-use-premium-storage

Disk n

P30

読み取りのみ

E

SQL データ(ページ圧縮)

Temp DB

Disk 3

P30

なし

F

Transaction-

Log

Disk Cache

344GB

最大Disk IOPS

256MBsec

P30合計の

600MBsは出ない

NTFSアロケーションユニットサイズ 64KB

データベース ページ圧縮 有効

Table用Index用Temp DB用に別

ドライブに拡張可能

キャッシュ設定は添付の

URLを参照

最大Disk IOPS

200MBsec

最大Disk IOPS

200MBsec

最大Disk IOPS

200MBsec

フルマネージドの RDBMS

データベース

RDBMS

OS

Azure が管理

利用者が管理

VM上の RDBMS

ホスト OS

仮想化

フルコントロール

データベース

RDBMS

OS

仮想化

ホスト OS

容易な管理

Azure Database

SQL Server物理マシン仮想マシン

SQL Server on Azure VM仮想マシン

SQL Database Data WarehousePaaS

物理マシン仮想マシン

VM Template Market place仮想マシン

Azure Database for MySQL PostgreSQL

論理データベース

Write

Write Ack

Ack

Read

value write

Ack

特徴

無停止フェールオーバー

無停止スケールアップ(プラン変更)

自動パフォーマンスチューニング

スループット指定によるプロビジョニング

データベース トランザクション ユニット (DTU) とエラスティック データベース トランザクション ユニット (eDTU) の説明

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-what-is-a-dtu

Azure SQL Database Query Performance Insight

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-query-performance

Query Store is turned on by default for Azure SQL Database

httpsazuremicrosoftcomja-jpupdatesquery-store-on-is-the-new-default-for-azure-sql-database

Queries

SQL Database

Deeper Insight

Query

Store

SQL Database Advisor

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-advisor

Azure Portal を使用した SQL Database Advisor

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-advisor-portal

領域 改善後

新しいインデックス提案が作成されるまで 18時間以内

T-SQL文が実行されるまでのタイムラグ 即時(数分以内)

「悪い」チューニング内容に対しての検知時間 1時間以内

次のインデックス提案が行われるまでの待ち時

間即時(数分以内)

導入までの総時間 1日以内

SQL Database の脅威の検出

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-threat-detection

コントロールノード

SQLDB

Azure Blob Storage(WASB)

100 DWU lt gt 2000 DWUコントロールノード

ユーザーからの接続コンピュートとストレージの調整

コンピュートノード

コンピュートノード

コンピュートノード

コンピュートノード

SQLDB

SQLDB

SQLDB

SQLDB

Azure Blob Storage(WASB)

コントロールノード

SQLDB コントロールノード

D51

D52

D53

D60

hellip

D41

D42

D43

D50

hellip

コンピュートノード

D31

D32

D33

D40hellip

D21

D22

D23

D30

hellip

D11

D12

D13

D20

hellip

D1

D2

D3

D10

hellip

SQL DB

Azure Blob Storage(WASB)

コントロールノード

SQLDB コントロールノード

コンピュートノード

D51

D52

D53

D60

hellipコンピュートノード

D41

D42

D43

D50

hellip

コンピュートノード

D31

D32

D33

D40hellip

コンピュートノード

D21

D22

D23

D30

hellip

コンピュートノード

D11

D12

D13

D20

hellip

コンピュートノード

D1

D2

D3

D10

hellip

SQL DB

SQL DB

SQL DB

SQL DB

SQL DB

SQL DB

54

データ無制限のストレージ と 分析プラットフォーム

無制限のストレージ(エクサバイト超)

ネイティブ HDFS に基づく実装

HDInsight Hortonworks Cloudera との統合

全ての HDFS 準拠プロジェクトとの親和性

(Spark Storm Flume Sqoop Kafka R etc)

Azure Data Lake Store- Hadoop Distributed File System (HDFS) For The Cloud

構造化データと非構造化データに対するデータ処理

宣言型の SQL 文 とカスタムコード (UDF UDT UDO hellip )

ローカルとリモートに対するクエリ

バッチ型インタラクティブ型ストリーミング型(in the future)

Azure Data Lake Analytics- New Query Language U-SQL

ETL パイプライン

スキーマの定義Relational

LOB

Applications

Schema-on-Write

直ちに必要でないデータは全て捨てられるかアーカイブされている

無限に保存 分析 結果の参照

あらゆるデータ

ソースからの

データ収集

Schema-on-Read

全データ取込要件にかかわらず

全データ格納そのままのフォーマットでスキーマ定義なし

分析実行Hadoopのような分析エンジンの利用

インタラクティブクエリ

バッチ型クエリ

機械学習

データウェアハウス

リアルタイム分析

リレーショナル

デバイス

観察仮説集まったデータから仮説をたてる

58

無制限のサイズ

ギガバイトからペタバイトのサイズの単一ファイル

巨大なスループットを必要とする大規模な分析システムを実現

あらゆるスループットに自動最適化

ペタバイト超のデータの並列コンピューティング

同一リージョン内に3つのコピーを自動的に作成

インストールやチューニングは不要

数分で稼働開始

必要に応じてどのようなサイズにもスケールアウト可能

データウェアハウスデータレイクストア

非構造Rawデータ(ログ文書バイナリ)

Tier 1

MachineLearning

Data LakeAnalytics HDInsight

目的に合わせた

データウェハウス分析処理

(売上分析経営分析)

データウェハウスに格納しきれなかった

過去データ関連データを連結して分析

ハードウェアの性能限界によって行えなかった処理量の分析を実現

ディスクコンピューティング

非構造データの

分析処理

(画像音声映像など)

広範囲のデータを利用した

機械学習統計解析処理

などによる高度分析

SQL Data Warehouse

Data LakeAnalytics HDInsight

Data LakeAnalytics

構造化データ半構造データ

分析用に加工(csv等)

Tier 2

アーカイブデータTier 2 DWHのアーカイブ

Tier 3

Analytics

Storage

HDInsight(ldquomanaged clustersrdquo)

Azure Data Lake Analytics

Azure Data Lake Store

Azure Data Lake

LOB Applications

SocialDevices

Clickstream

Sensors

Video

Web

Relational

HDInsight

Data Lake Analytics

Machine Learning

Spark

R

Azure Data Lake Store

Azure Data Lake Store

Azure Storage Blob

外部表Azure SQLData Warehouse

HDInsight

開発者は OSS に馴染んでいる Java Eclipse Hive etc

マネージド Hadoop クラスタにおいてカスタマイズ管理が可能でフレキシビリティがある

Azure Data Lake Analytics

C SQL amp PowerShell のスキル

経験を活かせる

利便性効率性自動スケール

ジョブ実行の仕組みが提供される

(New)

(New)

一般的なパターン

処理読み込み 保存

INSERT

OUTPUT

OUTPUT

SELECThellip

FROMhellip

WHEREhellip

+

PythonR

EXTRACT

EXTRACT

SELECT

SELECT

Azure

Data

Lake

Azure

Data

Lake

Azure

SQL

DB

Azure

Storage

Blobs

Azure

Storage

Blobs

RowSet RowSet

Cognitive Services

REFERENCE ASSEMBLY WebLogExtASM

rs =

EXTRACT

UserID string

Start DateTime

End DateTime

Region string

SitesVisited string

PagesVisited string

FROM ldquoLogsWebLogRecordstxtrdquo

USING WebLogExtractor ()

result = SELECT UserID

(EndSubtract(Start))TotalSeconds AS Duration

FROM rs ORDER BY Duration DESC FETCH 10

OUTPUT result TO ldquoLogsResultstop10tsv

USING OutputterTsv()

bull 型定義は C の型定義と同じ

bull データをファイルから抽出読み込み

するときにスキーマが必要

Data Lake Store 内 のファイル

独自形式を解析するカスタム関数

C の関数

行セット(中間テーブルの概念

に近い)

TSV形式で書き込む関数

U-SQL ジョブのサブミットAzure PortalやVisual StudioのAzure Data Lake ToolsからU-SQLジョブをサブミット可能

67

進捗

統計情報

従来型の処理分析 Azure Data Lake を中心とした処理分析

Business apps

Custom apps

Sensors and devices

ADL StorePeople

非構造化データも含めてあらゆるデータを格納

Azure SQL DW

Azure AD

Power BI

ADF

ADL Analytics

bull 処理分析業務の大半はデータ準備作業が占めるbull 処理分析業務に手間時間が必要

Business apps

Custom apps

Sensors and devices

HDInsight

ユーザー管理認証

データの連携

Power BI

File System

Database

Database

Hadoop

DWH

Data Mart

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

①大量データの受け入れ

②リアルタイム処理データの集約

③データの蓄積

構造化非構造化文書など様々な形式での保存

④データの加工移行

⑥機械学習

⑦Hadoop解析

⑧マイクロソフト技術を用いた分散解析

⑨通常のRMSが機能を追加した企業向けRを使用した解析

⑪クラウドベースの Self-Service BI 機能

⑫機械学習の予測モデルを業務システムなどから呼び出し可能にするサービス

外部クラウドなどからのデータ取り込み

②リアルタイム処理データの加工

⑤ディープラーニング

⑩Excelを用いた可視化

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

リアルタイム

バッチ

Data Factory Tools for Visual Studio

Azure Portal

Azure TableStorage

(Web ログレコード)

Data Factory

HDInsight

(Web ログをファイルにして

バッチ処理で集計)

SQL Database

(集計データをDB テーブルに格納)

Power BI

社内システム

DataManagement

Gateway

SQL Database

Data Warehouse

Blob Storage

Table Storage

httpportalazurecom

接続

メッセージ作成

メッセージ送信

var cs = ldquo接続文字列rdquovar path = ldquoイベントハブ名rdquovar eh = EventHubClientCreateFromConnectionString(cs path)

var msg = new user = thisUserIdentityNamelevel = leveltimestamp = demoTimestamp

var json = JsonConvertSerializeObject(msg)

ehSend(new EventData(EncodingUTF8GetBytes(json)))

EventProcessorHostを使う

bull

bull

bull

Functionsを使う

bull

bull

IEventProcessorProcessEventAsync(msg)

IEventProcessorProcessEventAsync(msg)

Run(string msg)

Azure azure-sdk-for-python

Point of Service Devices

Self CheckoutStations

Kiosks

Smart Phones

SlatesTablets

PCsLaptops

Servers

Digital Signs

DiagnosticEquipmentRemote Medical

MonitorsLogic

Controllers

SpecializedDevicesThin

Clients

Handhelds

Security

POS Terminals

AutomationDevices

VendingMachines

Kinect

ATM

Stream Analytics

入力 出力クエリデータストリーム

参照

bull ldquo入力rdquoldquo出力rdquoをクリックしそれぞれ作成

bull ldquoクエリrdquoをクリックしクエリを定義bull 作業が終わったらldquo開始rdquoで実

行開始

SELECT

INTO

FROM

SELECT user level AS SATLevel timestamp

INTO

FROM

デバイス接続性とデバイス管理およびブローカーサービス

データ管理と高度な分析 情報活用業務の生産性とプロセスの最適化

IoT Agent Gateway

予兆原因の学習モデル

ダッシュボード

参照ERPbull 顧客bull 設備bull 担当者

Notification Hubs

通知

予兆イベント

メンテ方法の推奨

bull ヘルス状態bull インシデント管理bull 対応のディスパッチ

現地技術要員のモバイルデバイス

オペレーションセンター

bull イベント ドア開閉軸アライメントキャビン速度モーター温度など

bull アラーム 故障アラームエラーコードなど

httpisstkeazurewebsitesnet

Event Hub

Stream Analytics

Azure ML

制御機器とセンサーのデータ

マシンデータの蓄積

メンテナンス方法の学習モデル

Machine Learning

Blob Storage

セルフサービス分析

Power BI

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce

cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-

system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of

your data while making it faster to get up and running with

batch streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources

so you can run queries on exabytes of data Includes U-

SQL a new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully

managed NoSQL database service that indexes stores and

queries data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

What do all of these have in common

They can all use Azure Analysis Services

Azure Analysis Services

Azure Analysis Services

BI semantic model

Business logic amp metrics

Data modeling

Security

Azure Analysis Services

Lifecycle management

In-memory cache

On-premises

Cloud

Data sources

SQL Database

SQL Data Warehouse

Other data sources

SQL Server

Analytics platform

system

Other data sources

On-premises

Cloud

Client tools

Power BI

Excel

Third party BI tools

Power BI Desktop

Rich semantic modelling

locatioidentifier

identifiertype

fieldidentifier

numberofunitssoldtodate

remaningnumber

Numberofuntissoldtoday

receivedback

productidentifier

descriptionline1

descriptionline2

qtyafterqtysales

familyidentifier

Source DataComplex raw data optimized for processing

Semantic ModelRich business user friendly semantic model

Product Id

Product Name

Product Description

Category

Category Id

Category Name

Category Description

Sub Category

Product Id

Shelf qty

Return qty

Order qty

Sale qty

Cloud Data

On-Premises

Data

Azure Analysis Services

Lightning fast queries

データ管理をきっかけに処理を実行

Web Glue

Bots IoT

DOMINOS STORES

Key Vault

Azure Active Directory

Azure Files

SSIS FRANCHISEE

AZURE WEST EUROPE

Azure Function

KEMPSSDESSRS

IN- AND EXTERNAL DATA SOURCES

orderprocessing

O365

App Insights

indexhtml

Azure Functions Proxies

couponprocessing

Use Bindings in Your Codefunctionjson

bindings [type httpTriggerdirection inwebHookType genericJsonname req

type httpdirection outname res

type queuename eventOutputqueueName aievents1connectionAiStorageConnectiondirection out

]

public static class OrderHandler

[FunctionName(OrderWebhook)]public static async TaskltHttpResponseMessagegt Run(

[HttpTrigger] HttpRequestMessage req[Queue(aievents1 Connection = AiStorageConnection)]

IAsyncCollectorltStringgt eventOutputTraceWriter log)

logInfo($Webhook was triggered)

string jsonContent = await reqContentReadAsStringAsync()dynamic data = JsonConvertDeserializeObject(jsonContent)

await eventOutputAddAsync(JsonConvertSerializeObject(GetLogData(data)))

int orderId = PlaceOrder(data)

return reqCreateResponse(HttpStatusCodeOK new orderNumber = orderId )

bull Workflow in the cloud

bull Powerful control flow

bull Connect functions and APIs

bull Declarative definition to persist in source control and drive deployments

Logic AppsCloud APIs and platform

bull Supports over 125 built-in connectors

bull Scales to meet your needs

bull Enables rapid development

bull Extends with custom APIs and

Functions

API connections

bull Authenticate once and reuse

Big Data Solutions Decision Tree

httpsbiz-excellencecom20160830big-data-dt

Machine Learning Solutions Decision Tree

httpsbiz-excellencecom20160913machine-

learning-dt

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of your

data while making it faster to get up and running with batch

streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources so

you can run queries on exabytes of data Includes U-SQL a

new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully managed

NoSQL database service that indexes stores and queries

data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

Microsoft Big Data Portfolio

SQL Server Stretch

Business intelligence

Machine learning analytics

Insights

Azure SQL Database

SQL Server 2016

SQL Server 2016 Fast Track

Azure SQL DW

ADLS amp ADLA

DocumentDB

HDInsight

Hadoop

Analytics Platform System

Sequential Scale Out + AcrossScale Up

Key

Relational Non-relational

On

-pre

mis

es

Clo

ud

Microsoft has solutions covering

and connecting all four

quadrants ndash thatrsquos why SQL

Server is one of the most utilized

databases in the world

Azure

Data Lake Store

Azure

Blob StoragePurpose Optimized for big data analytics General purpose bulk storage

Use Cases Batch Interactive Streaming App backend backup data media storage for

streaming

Units of Storage Accounts Folders Files Accounts Containers Blobs

Structure Hierarchical File System Flat namespace

WebHDFS Implements WebHDFS No (WASB)

Security AD SAS keys

Storage Auto SharedFiles chunked Manually manage expansionFiles intact

Service State Generally Available PolyBase

just supported

Generally Available

Billing Pay for data stored and for IO Pay for data stored and for IO

Region Availability Two US regions (Other regions coming soon) All Azure Regions

ADL Store vs Blob Store

httpsdocsmicrosoftcomen-usazuredata-lake-storedata-lake-store-comparison-with-blob-storage

Want Hadoop

Need exact same on-prem

Need interactive streaming

MandatoryNo strong opinion

Azure Marketplace (IaaS)

bull Need all workloads exactly like on-

premises

bull Need 100 HortonworksClouderaMapR

Azure HDInsight

bull Most Hadoop workloads

bull Fully managed by Microsoft

bull Sell HDI + ADLS

bull Stickier to Microsoft than VMs

bull Can do interactive (Spark) and streaming

(StormSpark)

Azure Data Lake Analytics

bull Easiest experience for admin no sense of

clusters instant scale per job

bull Easiest experience for developers Visual

StudioU-SQL (C+SQL)

bull Sell ADLA + ADLS

bull Batch workloads only

Need everything exactly like on-prem

Need core projects Yes Batch is OK

Always present ADLA if NET or Visual Studio Shop

If NET or VS shop

Azure SQL DW HDInsight Hive HDInsight Spark Azure Data Lake SQL Server (IaaS)

Volume Petabytes Petabytes Petabytes Petabytes Terabytes

Security Encryption TD

Audit

ADLS Apache

Ranger

ADLS AAD Security

Groups (data)

Encryption TD

Audit

Languages T-SQL HiveQL SparkSQL HiveQL

Scala Java Python

R

U-SQL T-SQL

Extensibility No Yes NETSerDe Yes Packages Yes NET Yes NET CLR

External File

Types

ORC TXT

Parquet RCFile

ORC CSV Parquet

+ others

Parquet JSON

Hive + others

Many ORC TXT Parquet

RCFile

Admin Low-Medium Medium-High Medium-High Low High

Cost Model DWU Nodes amp VM Nodes amp VM UnitsJobs VM

Schema

Definition

Schema on Write

Polybase

Schema on Read Schema on Read Schema on Read Schema on Write

Polybase

Max DB Size 240TB Comp (5X

= 1PB)

Unlimited 64TB (64 1TB drives)

機械学習 Deep Learning 深層強化学習

画像解析

音声解析

データ分類異常検知 顧客グルーピング

数値予測売上予測 需要予測 品質管理

ラベル分類不良品分析 故障予測 チャーン分析

機械学習より強力な分析

自律学習型ロボット

自動運転車

テキストや画像等の自動生成

活用例

主に多層のニューラルネットワークを用いた手法での分析

分析のためには莫大なデータ量計算量知識スキルを要する

統計に基づいた手法での分析

そのため比較的少ないデータ量と計算量で分析を行うことができる

定義したあるべき姿に従い試行錯誤をして自ら学習を行うための分析手法である強化学習と深層学習を組み合わせた分析

Azure Machine Learning Cognitive Toolkit GPU Instance (N-Series)

マイクロソフトが提供する技術

テキストデータ機器のログデータなど

画像データ監視カメラの録画データ 機器の外観画像 顔画像など

動画データ監視カメラの録画データ 機器の稼働状況 人の作業映像など

音声データマイクからの収集データ 稼働音 室内音 人の音声など

数値データセンサーデータ 機器の制御データ計測データなど672342345

機械学習統計理論に基づいた分析手法を用いる用意するべきデータ量と処理する計算量の敷居が低め導入しやすい

Deep Learningデータ量が大きいため強力な分析手法が必要「膨大なデータ量を用意」「莫大な計算量を処理」が必要で敷居が非常に高い導入にはそれなりの覚悟が必要

Action

People

Automated Systems

Apps

Web

Mobile

Bots

Intelligence

Dashboards amp Visualizations

Cortana

Bot Framework

Cognitive Services

Power BI

Information Management

Event Hubs

Data Catalog

Data Factory

Machine Learning and Analytics

HDInsight

Stream Analytics

Intelligence

Data Lake Analytics

Machine Learning

Big Data Stores

SQL Data Warehouse

Data Lake Store

Data Sources

Apps

Sensors amp Devices

Data

Cortana Intelligence Suite

学習済み

モデル利用

学習モデル

作成

機械学習 教師あり学習

教師なし学習

強化学習

決定木

線形回帰

SVM

ロジスティック回帰

ニューラルネットワーク

クラスタリング

次元削減

Q学習

K-mean法

主成分分析

正準相関分析

ディープニューラルネットワーク

畳みこみニューラルネットワーク

再帰的ニューラルネットワーク

回帰結合ニューラルネットワーク

httpsazuremicrosoftcomen-usservicescognitive-services

わずか数行のコードで強力なアルゴリズムを持つアプリの作成が可能ですiOSAndroidWindows などのプラットフォームを問わず機能します

httpsazuremicrosoftcomja-jpservicesmachine-learning

ユーザーは簡単に予測分析ソリューションを構築デプロイ共有できます

httpswwwyoutubecomwatchv=9gDDO5ldT-4ampfeature=youtube

AI技術を利用したディープラーニング(深層学習)ツールキットです旧称「CNTK」から改名されました

ソースコード httpsgithubcomMicrosoftCNTK

SearchSpeech

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

コカコーラ誕生100周年キャンペーン

コカコーラボトルを「100歳」と認識

bull 自撮り写真をUp結果をSNS拡散

ナビタイムジャパン様

自然言語入力による路線検索BOT

bull ユーザーとの新たな接点(LINE)

bull 自然言語入力

Vision Language Knowledge

Vision Knowledge SearchSpeech Language

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

Microsoft SupportVirtual Agent

自然言語入力による自動応答サポート窓口

bull 過去QampAデータ解析に基づく回答抽出

bull 定型外はldquo人対応rdquo

UBER

登録ドライバーをスマホ経由で顔認証

VOLVO

表情からの危険予測

Search

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

アロバ様

監視カメラによる店舗内行動分析

bull 顔認識による 顧客識別

bull 表情分析

東京サマーランド様にて導入済み

HmComm様

コールセンターソリューション

bull 会話をテキスト化キーワードを解析

bull 過去QampA検索

bull 内容をCRM保存

Vision KnowledgeSpeech Language

導入事例東京サマーランド様

Video

Intelligent KioskhttpsgithubcomMicrosoftCognitive-Samples-IntelligentKiosk

ldquo(want to|request)rdquo

HoloLens

Page 26: やりたいことから考えるMicrosoft Azure 上の データストアの選び方とデータサイエンティスト向け活用法。KVSからDWHまで

Data Movement Library on CoreCLR

Python client library

仮想マシンSQL Enterprise

DS4 の場合

8 Core 28 GB RAM

Disk 0

読み取り書き込み Disk 1

Disk 2

P30

読み取りのみ

C

システム

D

キャッシュ

永続性あり 永続性なし 永続性あり (複数ボリュームの分割やストライプの構成が可能)

Premium Storage

デフォルト作成(仮想マシン付属) ユーザーが任意に追加

OS

Page ファイル

DBMS Exe

SQL Server バッファープール拡張

httpsazuremicrosoftcomja-jpdocumentationarticlesvirtual-machines-sql-server-performance-best-practices

httpsazuremicrosoftcomja-jpdocumentationarticlesvirtual-machines-sql-server-use-premium-storage

Disk n

P30

読み取りのみ

E

SQL データ(ページ圧縮)

Temp DB

Disk 3

P30

なし

F

Transaction-

Log

Disk Cache

344GB

最大Disk IOPS

256MBsec

P30合計の

600MBsは出ない

NTFSアロケーションユニットサイズ 64KB

データベース ページ圧縮 有効

Table用Index用Temp DB用に別

ドライブに拡張可能

キャッシュ設定は添付の

URLを参照

最大Disk IOPS

200MBsec

最大Disk IOPS

200MBsec

最大Disk IOPS

200MBsec

フルマネージドの RDBMS

データベース

RDBMS

OS

Azure が管理

利用者が管理

VM上の RDBMS

ホスト OS

仮想化

フルコントロール

データベース

RDBMS

OS

仮想化

ホスト OS

容易な管理

Azure Database

SQL Server物理マシン仮想マシン

SQL Server on Azure VM仮想マシン

SQL Database Data WarehousePaaS

物理マシン仮想マシン

VM Template Market place仮想マシン

Azure Database for MySQL PostgreSQL

論理データベース

Write

Write Ack

Ack

Read

value write

Ack

特徴

無停止フェールオーバー

無停止スケールアップ(プラン変更)

自動パフォーマンスチューニング

スループット指定によるプロビジョニング

データベース トランザクション ユニット (DTU) とエラスティック データベース トランザクション ユニット (eDTU) の説明

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-what-is-a-dtu

Azure SQL Database Query Performance Insight

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-query-performance

Query Store is turned on by default for Azure SQL Database

httpsazuremicrosoftcomja-jpupdatesquery-store-on-is-the-new-default-for-azure-sql-database

Queries

SQL Database

Deeper Insight

Query

Store

SQL Database Advisor

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-advisor

Azure Portal を使用した SQL Database Advisor

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-advisor-portal

領域 改善後

新しいインデックス提案が作成されるまで 18時間以内

T-SQL文が実行されるまでのタイムラグ 即時(数分以内)

「悪い」チューニング内容に対しての検知時間 1時間以内

次のインデックス提案が行われるまでの待ち時

間即時(数分以内)

導入までの総時間 1日以内

SQL Database の脅威の検出

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-threat-detection

コントロールノード

SQLDB

Azure Blob Storage(WASB)

100 DWU lt gt 2000 DWUコントロールノード

ユーザーからの接続コンピュートとストレージの調整

コンピュートノード

コンピュートノード

コンピュートノード

コンピュートノード

SQLDB

SQLDB

SQLDB

SQLDB

Azure Blob Storage(WASB)

コントロールノード

SQLDB コントロールノード

D51

D52

D53

D60

hellip

D41

D42

D43

D50

hellip

コンピュートノード

D31

D32

D33

D40hellip

D21

D22

D23

D30

hellip

D11

D12

D13

D20

hellip

D1

D2

D3

D10

hellip

SQL DB

Azure Blob Storage(WASB)

コントロールノード

SQLDB コントロールノード

コンピュートノード

D51

D52

D53

D60

hellipコンピュートノード

D41

D42

D43

D50

hellip

コンピュートノード

D31

D32

D33

D40hellip

コンピュートノード

D21

D22

D23

D30

hellip

コンピュートノード

D11

D12

D13

D20

hellip

コンピュートノード

D1

D2

D3

D10

hellip

SQL DB

SQL DB

SQL DB

SQL DB

SQL DB

SQL DB

54

データ無制限のストレージ と 分析プラットフォーム

無制限のストレージ(エクサバイト超)

ネイティブ HDFS に基づく実装

HDInsight Hortonworks Cloudera との統合

全ての HDFS 準拠プロジェクトとの親和性

(Spark Storm Flume Sqoop Kafka R etc)

Azure Data Lake Store- Hadoop Distributed File System (HDFS) For The Cloud

構造化データと非構造化データに対するデータ処理

宣言型の SQL 文 とカスタムコード (UDF UDT UDO hellip )

ローカルとリモートに対するクエリ

バッチ型インタラクティブ型ストリーミング型(in the future)

Azure Data Lake Analytics- New Query Language U-SQL

ETL パイプライン

スキーマの定義Relational

LOB

Applications

Schema-on-Write

直ちに必要でないデータは全て捨てられるかアーカイブされている

無限に保存 分析 結果の参照

あらゆるデータ

ソースからの

データ収集

Schema-on-Read

全データ取込要件にかかわらず

全データ格納そのままのフォーマットでスキーマ定義なし

分析実行Hadoopのような分析エンジンの利用

インタラクティブクエリ

バッチ型クエリ

機械学習

データウェアハウス

リアルタイム分析

リレーショナル

デバイス

観察仮説集まったデータから仮説をたてる

58

無制限のサイズ

ギガバイトからペタバイトのサイズの単一ファイル

巨大なスループットを必要とする大規模な分析システムを実現

あらゆるスループットに自動最適化

ペタバイト超のデータの並列コンピューティング

同一リージョン内に3つのコピーを自動的に作成

インストールやチューニングは不要

数分で稼働開始

必要に応じてどのようなサイズにもスケールアウト可能

データウェアハウスデータレイクストア

非構造Rawデータ(ログ文書バイナリ)

Tier 1

MachineLearning

Data LakeAnalytics HDInsight

目的に合わせた

データウェハウス分析処理

(売上分析経営分析)

データウェハウスに格納しきれなかった

過去データ関連データを連結して分析

ハードウェアの性能限界によって行えなかった処理量の分析を実現

ディスクコンピューティング

非構造データの

分析処理

(画像音声映像など)

広範囲のデータを利用した

機械学習統計解析処理

などによる高度分析

SQL Data Warehouse

Data LakeAnalytics HDInsight

Data LakeAnalytics

構造化データ半構造データ

分析用に加工(csv等)

Tier 2

アーカイブデータTier 2 DWHのアーカイブ

Tier 3

Analytics

Storage

HDInsight(ldquomanaged clustersrdquo)

Azure Data Lake Analytics

Azure Data Lake Store

Azure Data Lake

LOB Applications

SocialDevices

Clickstream

Sensors

Video

Web

Relational

HDInsight

Data Lake Analytics

Machine Learning

Spark

R

Azure Data Lake Store

Azure Data Lake Store

Azure Storage Blob

外部表Azure SQLData Warehouse

HDInsight

開発者は OSS に馴染んでいる Java Eclipse Hive etc

マネージド Hadoop クラスタにおいてカスタマイズ管理が可能でフレキシビリティがある

Azure Data Lake Analytics

C SQL amp PowerShell のスキル

経験を活かせる

利便性効率性自動スケール

ジョブ実行の仕組みが提供される

(New)

(New)

一般的なパターン

処理読み込み 保存

INSERT

OUTPUT

OUTPUT

SELECThellip

FROMhellip

WHEREhellip

+

PythonR

EXTRACT

EXTRACT

SELECT

SELECT

Azure

Data

Lake

Azure

Data

Lake

Azure

SQL

DB

Azure

Storage

Blobs

Azure

Storage

Blobs

RowSet RowSet

Cognitive Services

REFERENCE ASSEMBLY WebLogExtASM

rs =

EXTRACT

UserID string

Start DateTime

End DateTime

Region string

SitesVisited string

PagesVisited string

FROM ldquoLogsWebLogRecordstxtrdquo

USING WebLogExtractor ()

result = SELECT UserID

(EndSubtract(Start))TotalSeconds AS Duration

FROM rs ORDER BY Duration DESC FETCH 10

OUTPUT result TO ldquoLogsResultstop10tsv

USING OutputterTsv()

bull 型定義は C の型定義と同じ

bull データをファイルから抽出読み込み

するときにスキーマが必要

Data Lake Store 内 のファイル

独自形式を解析するカスタム関数

C の関数

行セット(中間テーブルの概念

に近い)

TSV形式で書き込む関数

U-SQL ジョブのサブミットAzure PortalやVisual StudioのAzure Data Lake ToolsからU-SQLジョブをサブミット可能

67

進捗

統計情報

従来型の処理分析 Azure Data Lake を中心とした処理分析

Business apps

Custom apps

Sensors and devices

ADL StorePeople

非構造化データも含めてあらゆるデータを格納

Azure SQL DW

Azure AD

Power BI

ADF

ADL Analytics

bull 処理分析業務の大半はデータ準備作業が占めるbull 処理分析業務に手間時間が必要

Business apps

Custom apps

Sensors and devices

HDInsight

ユーザー管理認証

データの連携

Power BI

File System

Database

Database

Hadoop

DWH

Data Mart

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

①大量データの受け入れ

②リアルタイム処理データの集約

③データの蓄積

構造化非構造化文書など様々な形式での保存

④データの加工移行

⑥機械学習

⑦Hadoop解析

⑧マイクロソフト技術を用いた分散解析

⑨通常のRMSが機能を追加した企業向けRを使用した解析

⑪クラウドベースの Self-Service BI 機能

⑫機械学習の予測モデルを業務システムなどから呼び出し可能にするサービス

外部クラウドなどからのデータ取り込み

②リアルタイム処理データの加工

⑤ディープラーニング

⑩Excelを用いた可視化

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

リアルタイム

バッチ

Data Factory Tools for Visual Studio

Azure Portal

Azure TableStorage

(Web ログレコード)

Data Factory

HDInsight

(Web ログをファイルにして

バッチ処理で集計)

SQL Database

(集計データをDB テーブルに格納)

Power BI

社内システム

DataManagement

Gateway

SQL Database

Data Warehouse

Blob Storage

Table Storage

httpportalazurecom

接続

メッセージ作成

メッセージ送信

var cs = ldquo接続文字列rdquovar path = ldquoイベントハブ名rdquovar eh = EventHubClientCreateFromConnectionString(cs path)

var msg = new user = thisUserIdentityNamelevel = leveltimestamp = demoTimestamp

var json = JsonConvertSerializeObject(msg)

ehSend(new EventData(EncodingUTF8GetBytes(json)))

EventProcessorHostを使う

bull

bull

bull

Functionsを使う

bull

bull

IEventProcessorProcessEventAsync(msg)

IEventProcessorProcessEventAsync(msg)

Run(string msg)

Azure azure-sdk-for-python

Point of Service Devices

Self CheckoutStations

Kiosks

Smart Phones

SlatesTablets

PCsLaptops

Servers

Digital Signs

DiagnosticEquipmentRemote Medical

MonitorsLogic

Controllers

SpecializedDevicesThin

Clients

Handhelds

Security

POS Terminals

AutomationDevices

VendingMachines

Kinect

ATM

Stream Analytics

入力 出力クエリデータストリーム

参照

bull ldquo入力rdquoldquo出力rdquoをクリックしそれぞれ作成

bull ldquoクエリrdquoをクリックしクエリを定義bull 作業が終わったらldquo開始rdquoで実

行開始

SELECT

INTO

FROM

SELECT user level AS SATLevel timestamp

INTO

FROM

デバイス接続性とデバイス管理およびブローカーサービス

データ管理と高度な分析 情報活用業務の生産性とプロセスの最適化

IoT Agent Gateway

予兆原因の学習モデル

ダッシュボード

参照ERPbull 顧客bull 設備bull 担当者

Notification Hubs

通知

予兆イベント

メンテ方法の推奨

bull ヘルス状態bull インシデント管理bull 対応のディスパッチ

現地技術要員のモバイルデバイス

オペレーションセンター

bull イベント ドア開閉軸アライメントキャビン速度モーター温度など

bull アラーム 故障アラームエラーコードなど

httpisstkeazurewebsitesnet

Event Hub

Stream Analytics

Azure ML

制御機器とセンサーのデータ

マシンデータの蓄積

メンテナンス方法の学習モデル

Machine Learning

Blob Storage

セルフサービス分析

Power BI

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce

cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-

system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of

your data while making it faster to get up and running with

batch streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources

so you can run queries on exabytes of data Includes U-

SQL a new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully

managed NoSQL database service that indexes stores and

queries data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

What do all of these have in common

They can all use Azure Analysis Services

Azure Analysis Services

Azure Analysis Services

BI semantic model

Business logic amp metrics

Data modeling

Security

Azure Analysis Services

Lifecycle management

In-memory cache

On-premises

Cloud

Data sources

SQL Database

SQL Data Warehouse

Other data sources

SQL Server

Analytics platform

system

Other data sources

On-premises

Cloud

Client tools

Power BI

Excel

Third party BI tools

Power BI Desktop

Rich semantic modelling

locatioidentifier

identifiertype

fieldidentifier

numberofunitssoldtodate

remaningnumber

Numberofuntissoldtoday

receivedback

productidentifier

descriptionline1

descriptionline2

qtyafterqtysales

familyidentifier

Source DataComplex raw data optimized for processing

Semantic ModelRich business user friendly semantic model

Product Id

Product Name

Product Description

Category

Category Id

Category Name

Category Description

Sub Category

Product Id

Shelf qty

Return qty

Order qty

Sale qty

Cloud Data

On-Premises

Data

Azure Analysis Services

Lightning fast queries

データ管理をきっかけに処理を実行

Web Glue

Bots IoT

DOMINOS STORES

Key Vault

Azure Active Directory

Azure Files

SSIS FRANCHISEE

AZURE WEST EUROPE

Azure Function

KEMPSSDESSRS

IN- AND EXTERNAL DATA SOURCES

orderprocessing

O365

App Insights

indexhtml

Azure Functions Proxies

couponprocessing

Use Bindings in Your Codefunctionjson

bindings [type httpTriggerdirection inwebHookType genericJsonname req

type httpdirection outname res

type queuename eventOutputqueueName aievents1connectionAiStorageConnectiondirection out

]

public static class OrderHandler

[FunctionName(OrderWebhook)]public static async TaskltHttpResponseMessagegt Run(

[HttpTrigger] HttpRequestMessage req[Queue(aievents1 Connection = AiStorageConnection)]

IAsyncCollectorltStringgt eventOutputTraceWriter log)

logInfo($Webhook was triggered)

string jsonContent = await reqContentReadAsStringAsync()dynamic data = JsonConvertDeserializeObject(jsonContent)

await eventOutputAddAsync(JsonConvertSerializeObject(GetLogData(data)))

int orderId = PlaceOrder(data)

return reqCreateResponse(HttpStatusCodeOK new orderNumber = orderId )

bull Workflow in the cloud

bull Powerful control flow

bull Connect functions and APIs

bull Declarative definition to persist in source control and drive deployments

Logic AppsCloud APIs and platform

bull Supports over 125 built-in connectors

bull Scales to meet your needs

bull Enables rapid development

bull Extends with custom APIs and

Functions

API connections

bull Authenticate once and reuse

Big Data Solutions Decision Tree

httpsbiz-excellencecom20160830big-data-dt

Machine Learning Solutions Decision Tree

httpsbiz-excellencecom20160913machine-

learning-dt

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of your

data while making it faster to get up and running with batch

streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources so

you can run queries on exabytes of data Includes U-SQL a

new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully managed

NoSQL database service that indexes stores and queries

data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

Microsoft Big Data Portfolio

SQL Server Stretch

Business intelligence

Machine learning analytics

Insights

Azure SQL Database

SQL Server 2016

SQL Server 2016 Fast Track

Azure SQL DW

ADLS amp ADLA

DocumentDB

HDInsight

Hadoop

Analytics Platform System

Sequential Scale Out + AcrossScale Up

Key

Relational Non-relational

On

-pre

mis

es

Clo

ud

Microsoft has solutions covering

and connecting all four

quadrants ndash thatrsquos why SQL

Server is one of the most utilized

databases in the world

Azure

Data Lake Store

Azure

Blob StoragePurpose Optimized for big data analytics General purpose bulk storage

Use Cases Batch Interactive Streaming App backend backup data media storage for

streaming

Units of Storage Accounts Folders Files Accounts Containers Blobs

Structure Hierarchical File System Flat namespace

WebHDFS Implements WebHDFS No (WASB)

Security AD SAS keys

Storage Auto SharedFiles chunked Manually manage expansionFiles intact

Service State Generally Available PolyBase

just supported

Generally Available

Billing Pay for data stored and for IO Pay for data stored and for IO

Region Availability Two US regions (Other regions coming soon) All Azure Regions

ADL Store vs Blob Store

httpsdocsmicrosoftcomen-usazuredata-lake-storedata-lake-store-comparison-with-blob-storage

Want Hadoop

Need exact same on-prem

Need interactive streaming

MandatoryNo strong opinion

Azure Marketplace (IaaS)

bull Need all workloads exactly like on-

premises

bull Need 100 HortonworksClouderaMapR

Azure HDInsight

bull Most Hadoop workloads

bull Fully managed by Microsoft

bull Sell HDI + ADLS

bull Stickier to Microsoft than VMs

bull Can do interactive (Spark) and streaming

(StormSpark)

Azure Data Lake Analytics

bull Easiest experience for admin no sense of

clusters instant scale per job

bull Easiest experience for developers Visual

StudioU-SQL (C+SQL)

bull Sell ADLA + ADLS

bull Batch workloads only

Need everything exactly like on-prem

Need core projects Yes Batch is OK

Always present ADLA if NET or Visual Studio Shop

If NET or VS shop

Azure SQL DW HDInsight Hive HDInsight Spark Azure Data Lake SQL Server (IaaS)

Volume Petabytes Petabytes Petabytes Petabytes Terabytes

Security Encryption TD

Audit

ADLS Apache

Ranger

ADLS AAD Security

Groups (data)

Encryption TD

Audit

Languages T-SQL HiveQL SparkSQL HiveQL

Scala Java Python

R

U-SQL T-SQL

Extensibility No Yes NETSerDe Yes Packages Yes NET Yes NET CLR

External File

Types

ORC TXT

Parquet RCFile

ORC CSV Parquet

+ others

Parquet JSON

Hive + others

Many ORC TXT Parquet

RCFile

Admin Low-Medium Medium-High Medium-High Low High

Cost Model DWU Nodes amp VM Nodes amp VM UnitsJobs VM

Schema

Definition

Schema on Write

Polybase

Schema on Read Schema on Read Schema on Read Schema on Write

Polybase

Max DB Size 240TB Comp (5X

= 1PB)

Unlimited 64TB (64 1TB drives)

機械学習 Deep Learning 深層強化学習

画像解析

音声解析

データ分類異常検知 顧客グルーピング

数値予測売上予測 需要予測 品質管理

ラベル分類不良品分析 故障予測 チャーン分析

機械学習より強力な分析

自律学習型ロボット

自動運転車

テキストや画像等の自動生成

活用例

主に多層のニューラルネットワークを用いた手法での分析

分析のためには莫大なデータ量計算量知識スキルを要する

統計に基づいた手法での分析

そのため比較的少ないデータ量と計算量で分析を行うことができる

定義したあるべき姿に従い試行錯誤をして自ら学習を行うための分析手法である強化学習と深層学習を組み合わせた分析

Azure Machine Learning Cognitive Toolkit GPU Instance (N-Series)

マイクロソフトが提供する技術

テキストデータ機器のログデータなど

画像データ監視カメラの録画データ 機器の外観画像 顔画像など

動画データ監視カメラの録画データ 機器の稼働状況 人の作業映像など

音声データマイクからの収集データ 稼働音 室内音 人の音声など

数値データセンサーデータ 機器の制御データ計測データなど672342345

機械学習統計理論に基づいた分析手法を用いる用意するべきデータ量と処理する計算量の敷居が低め導入しやすい

Deep Learningデータ量が大きいため強力な分析手法が必要「膨大なデータ量を用意」「莫大な計算量を処理」が必要で敷居が非常に高い導入にはそれなりの覚悟が必要

Action

People

Automated Systems

Apps

Web

Mobile

Bots

Intelligence

Dashboards amp Visualizations

Cortana

Bot Framework

Cognitive Services

Power BI

Information Management

Event Hubs

Data Catalog

Data Factory

Machine Learning and Analytics

HDInsight

Stream Analytics

Intelligence

Data Lake Analytics

Machine Learning

Big Data Stores

SQL Data Warehouse

Data Lake Store

Data Sources

Apps

Sensors amp Devices

Data

Cortana Intelligence Suite

学習済み

モデル利用

学習モデル

作成

機械学習 教師あり学習

教師なし学習

強化学習

決定木

線形回帰

SVM

ロジスティック回帰

ニューラルネットワーク

クラスタリング

次元削減

Q学習

K-mean法

主成分分析

正準相関分析

ディープニューラルネットワーク

畳みこみニューラルネットワーク

再帰的ニューラルネットワーク

回帰結合ニューラルネットワーク

httpsazuremicrosoftcomen-usservicescognitive-services

わずか数行のコードで強力なアルゴリズムを持つアプリの作成が可能ですiOSAndroidWindows などのプラットフォームを問わず機能します

httpsazuremicrosoftcomja-jpservicesmachine-learning

ユーザーは簡単に予測分析ソリューションを構築デプロイ共有できます

httpswwwyoutubecomwatchv=9gDDO5ldT-4ampfeature=youtube

AI技術を利用したディープラーニング(深層学習)ツールキットです旧称「CNTK」から改名されました

ソースコード httpsgithubcomMicrosoftCNTK

SearchSpeech

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

コカコーラ誕生100周年キャンペーン

コカコーラボトルを「100歳」と認識

bull 自撮り写真をUp結果をSNS拡散

ナビタイムジャパン様

自然言語入力による路線検索BOT

bull ユーザーとの新たな接点(LINE)

bull 自然言語入力

Vision Language Knowledge

Vision Knowledge SearchSpeech Language

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

Microsoft SupportVirtual Agent

自然言語入力による自動応答サポート窓口

bull 過去QampAデータ解析に基づく回答抽出

bull 定型外はldquo人対応rdquo

UBER

登録ドライバーをスマホ経由で顔認証

VOLVO

表情からの危険予測

Search

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

アロバ様

監視カメラによる店舗内行動分析

bull 顔認識による 顧客識別

bull 表情分析

東京サマーランド様にて導入済み

HmComm様

コールセンターソリューション

bull 会話をテキスト化キーワードを解析

bull 過去QampA検索

bull 内容をCRM保存

Vision KnowledgeSpeech Language

導入事例東京サマーランド様

Video

Intelligent KioskhttpsgithubcomMicrosoftCognitive-Samples-IntelligentKiosk

ldquo(want to|request)rdquo

HoloLens

Page 27: やりたいことから考えるMicrosoft Azure 上の データストアの選び方とデータサイエンティスト向け活用法。KVSからDWHまで

仮想マシンSQL Enterprise

DS4 の場合

8 Core 28 GB RAM

Disk 0

読み取り書き込み Disk 1

Disk 2

P30

読み取りのみ

C

システム

D

キャッシュ

永続性あり 永続性なし 永続性あり (複数ボリュームの分割やストライプの構成が可能)

Premium Storage

デフォルト作成(仮想マシン付属) ユーザーが任意に追加

OS

Page ファイル

DBMS Exe

SQL Server バッファープール拡張

httpsazuremicrosoftcomja-jpdocumentationarticlesvirtual-machines-sql-server-performance-best-practices

httpsazuremicrosoftcomja-jpdocumentationarticlesvirtual-machines-sql-server-use-premium-storage

Disk n

P30

読み取りのみ

E

SQL データ(ページ圧縮)

Temp DB

Disk 3

P30

なし

F

Transaction-

Log

Disk Cache

344GB

最大Disk IOPS

256MBsec

P30合計の

600MBsは出ない

NTFSアロケーションユニットサイズ 64KB

データベース ページ圧縮 有効

Table用Index用Temp DB用に別

ドライブに拡張可能

キャッシュ設定は添付の

URLを参照

最大Disk IOPS

200MBsec

最大Disk IOPS

200MBsec

最大Disk IOPS

200MBsec

フルマネージドの RDBMS

データベース

RDBMS

OS

Azure が管理

利用者が管理

VM上の RDBMS

ホスト OS

仮想化

フルコントロール

データベース

RDBMS

OS

仮想化

ホスト OS

容易な管理

Azure Database

SQL Server物理マシン仮想マシン

SQL Server on Azure VM仮想マシン

SQL Database Data WarehousePaaS

物理マシン仮想マシン

VM Template Market place仮想マシン

Azure Database for MySQL PostgreSQL

論理データベース

Write

Write Ack

Ack

Read

value write

Ack

特徴

無停止フェールオーバー

無停止スケールアップ(プラン変更)

自動パフォーマンスチューニング

スループット指定によるプロビジョニング

データベース トランザクション ユニット (DTU) とエラスティック データベース トランザクション ユニット (eDTU) の説明

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-what-is-a-dtu

Azure SQL Database Query Performance Insight

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-query-performance

Query Store is turned on by default for Azure SQL Database

httpsazuremicrosoftcomja-jpupdatesquery-store-on-is-the-new-default-for-azure-sql-database

Queries

SQL Database

Deeper Insight

Query

Store

SQL Database Advisor

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-advisor

Azure Portal を使用した SQL Database Advisor

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-advisor-portal

領域 改善後

新しいインデックス提案が作成されるまで 18時間以内

T-SQL文が実行されるまでのタイムラグ 即時(数分以内)

「悪い」チューニング内容に対しての検知時間 1時間以内

次のインデックス提案が行われるまでの待ち時

間即時(数分以内)

導入までの総時間 1日以内

SQL Database の脅威の検出

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-threat-detection

コントロールノード

SQLDB

Azure Blob Storage(WASB)

100 DWU lt gt 2000 DWUコントロールノード

ユーザーからの接続コンピュートとストレージの調整

コンピュートノード

コンピュートノード

コンピュートノード

コンピュートノード

SQLDB

SQLDB

SQLDB

SQLDB

Azure Blob Storage(WASB)

コントロールノード

SQLDB コントロールノード

D51

D52

D53

D60

hellip

D41

D42

D43

D50

hellip

コンピュートノード

D31

D32

D33

D40hellip

D21

D22

D23

D30

hellip

D11

D12

D13

D20

hellip

D1

D2

D3

D10

hellip

SQL DB

Azure Blob Storage(WASB)

コントロールノード

SQLDB コントロールノード

コンピュートノード

D51

D52

D53

D60

hellipコンピュートノード

D41

D42

D43

D50

hellip

コンピュートノード

D31

D32

D33

D40hellip

コンピュートノード

D21

D22

D23

D30

hellip

コンピュートノード

D11

D12

D13

D20

hellip

コンピュートノード

D1

D2

D3

D10

hellip

SQL DB

SQL DB

SQL DB

SQL DB

SQL DB

SQL DB

54

データ無制限のストレージ と 分析プラットフォーム

無制限のストレージ(エクサバイト超)

ネイティブ HDFS に基づく実装

HDInsight Hortonworks Cloudera との統合

全ての HDFS 準拠プロジェクトとの親和性

(Spark Storm Flume Sqoop Kafka R etc)

Azure Data Lake Store- Hadoop Distributed File System (HDFS) For The Cloud

構造化データと非構造化データに対するデータ処理

宣言型の SQL 文 とカスタムコード (UDF UDT UDO hellip )

ローカルとリモートに対するクエリ

バッチ型インタラクティブ型ストリーミング型(in the future)

Azure Data Lake Analytics- New Query Language U-SQL

ETL パイプライン

スキーマの定義Relational

LOB

Applications

Schema-on-Write

直ちに必要でないデータは全て捨てられるかアーカイブされている

無限に保存 分析 結果の参照

あらゆるデータ

ソースからの

データ収集

Schema-on-Read

全データ取込要件にかかわらず

全データ格納そのままのフォーマットでスキーマ定義なし

分析実行Hadoopのような分析エンジンの利用

インタラクティブクエリ

バッチ型クエリ

機械学習

データウェアハウス

リアルタイム分析

リレーショナル

デバイス

観察仮説集まったデータから仮説をたてる

58

無制限のサイズ

ギガバイトからペタバイトのサイズの単一ファイル

巨大なスループットを必要とする大規模な分析システムを実現

あらゆるスループットに自動最適化

ペタバイト超のデータの並列コンピューティング

同一リージョン内に3つのコピーを自動的に作成

インストールやチューニングは不要

数分で稼働開始

必要に応じてどのようなサイズにもスケールアウト可能

データウェアハウスデータレイクストア

非構造Rawデータ(ログ文書バイナリ)

Tier 1

MachineLearning

Data LakeAnalytics HDInsight

目的に合わせた

データウェハウス分析処理

(売上分析経営分析)

データウェハウスに格納しきれなかった

過去データ関連データを連結して分析

ハードウェアの性能限界によって行えなかった処理量の分析を実現

ディスクコンピューティング

非構造データの

分析処理

(画像音声映像など)

広範囲のデータを利用した

機械学習統計解析処理

などによる高度分析

SQL Data Warehouse

Data LakeAnalytics HDInsight

Data LakeAnalytics

構造化データ半構造データ

分析用に加工(csv等)

Tier 2

アーカイブデータTier 2 DWHのアーカイブ

Tier 3

Analytics

Storage

HDInsight(ldquomanaged clustersrdquo)

Azure Data Lake Analytics

Azure Data Lake Store

Azure Data Lake

LOB Applications

SocialDevices

Clickstream

Sensors

Video

Web

Relational

HDInsight

Data Lake Analytics

Machine Learning

Spark

R

Azure Data Lake Store

Azure Data Lake Store

Azure Storage Blob

外部表Azure SQLData Warehouse

HDInsight

開発者は OSS に馴染んでいる Java Eclipse Hive etc

マネージド Hadoop クラスタにおいてカスタマイズ管理が可能でフレキシビリティがある

Azure Data Lake Analytics

C SQL amp PowerShell のスキル

経験を活かせる

利便性効率性自動スケール

ジョブ実行の仕組みが提供される

(New)

(New)

一般的なパターン

処理読み込み 保存

INSERT

OUTPUT

OUTPUT

SELECThellip

FROMhellip

WHEREhellip

+

PythonR

EXTRACT

EXTRACT

SELECT

SELECT

Azure

Data

Lake

Azure

Data

Lake

Azure

SQL

DB

Azure

Storage

Blobs

Azure

Storage

Blobs

RowSet RowSet

Cognitive Services

REFERENCE ASSEMBLY WebLogExtASM

rs =

EXTRACT

UserID string

Start DateTime

End DateTime

Region string

SitesVisited string

PagesVisited string

FROM ldquoLogsWebLogRecordstxtrdquo

USING WebLogExtractor ()

result = SELECT UserID

(EndSubtract(Start))TotalSeconds AS Duration

FROM rs ORDER BY Duration DESC FETCH 10

OUTPUT result TO ldquoLogsResultstop10tsv

USING OutputterTsv()

bull 型定義は C の型定義と同じ

bull データをファイルから抽出読み込み

するときにスキーマが必要

Data Lake Store 内 のファイル

独自形式を解析するカスタム関数

C の関数

行セット(中間テーブルの概念

に近い)

TSV形式で書き込む関数

U-SQL ジョブのサブミットAzure PortalやVisual StudioのAzure Data Lake ToolsからU-SQLジョブをサブミット可能

67

進捗

統計情報

従来型の処理分析 Azure Data Lake を中心とした処理分析

Business apps

Custom apps

Sensors and devices

ADL StorePeople

非構造化データも含めてあらゆるデータを格納

Azure SQL DW

Azure AD

Power BI

ADF

ADL Analytics

bull 処理分析業務の大半はデータ準備作業が占めるbull 処理分析業務に手間時間が必要

Business apps

Custom apps

Sensors and devices

HDInsight

ユーザー管理認証

データの連携

Power BI

File System

Database

Database

Hadoop

DWH

Data Mart

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

①大量データの受け入れ

②リアルタイム処理データの集約

③データの蓄積

構造化非構造化文書など様々な形式での保存

④データの加工移行

⑥機械学習

⑦Hadoop解析

⑧マイクロソフト技術を用いた分散解析

⑨通常のRMSが機能を追加した企業向けRを使用した解析

⑪クラウドベースの Self-Service BI 機能

⑫機械学習の予測モデルを業務システムなどから呼び出し可能にするサービス

外部クラウドなどからのデータ取り込み

②リアルタイム処理データの加工

⑤ディープラーニング

⑩Excelを用いた可視化

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

リアルタイム

バッチ

Data Factory Tools for Visual Studio

Azure Portal

Azure TableStorage

(Web ログレコード)

Data Factory

HDInsight

(Web ログをファイルにして

バッチ処理で集計)

SQL Database

(集計データをDB テーブルに格納)

Power BI

社内システム

DataManagement

Gateway

SQL Database

Data Warehouse

Blob Storage

Table Storage

httpportalazurecom

接続

メッセージ作成

メッセージ送信

var cs = ldquo接続文字列rdquovar path = ldquoイベントハブ名rdquovar eh = EventHubClientCreateFromConnectionString(cs path)

var msg = new user = thisUserIdentityNamelevel = leveltimestamp = demoTimestamp

var json = JsonConvertSerializeObject(msg)

ehSend(new EventData(EncodingUTF8GetBytes(json)))

EventProcessorHostを使う

bull

bull

bull

Functionsを使う

bull

bull

IEventProcessorProcessEventAsync(msg)

IEventProcessorProcessEventAsync(msg)

Run(string msg)

Azure azure-sdk-for-python

Point of Service Devices

Self CheckoutStations

Kiosks

Smart Phones

SlatesTablets

PCsLaptops

Servers

Digital Signs

DiagnosticEquipmentRemote Medical

MonitorsLogic

Controllers

SpecializedDevicesThin

Clients

Handhelds

Security

POS Terminals

AutomationDevices

VendingMachines

Kinect

ATM

Stream Analytics

入力 出力クエリデータストリーム

参照

bull ldquo入力rdquoldquo出力rdquoをクリックしそれぞれ作成

bull ldquoクエリrdquoをクリックしクエリを定義bull 作業が終わったらldquo開始rdquoで実

行開始

SELECT

INTO

FROM

SELECT user level AS SATLevel timestamp

INTO

FROM

デバイス接続性とデバイス管理およびブローカーサービス

データ管理と高度な分析 情報活用業務の生産性とプロセスの最適化

IoT Agent Gateway

予兆原因の学習モデル

ダッシュボード

参照ERPbull 顧客bull 設備bull 担当者

Notification Hubs

通知

予兆イベント

メンテ方法の推奨

bull ヘルス状態bull インシデント管理bull 対応のディスパッチ

現地技術要員のモバイルデバイス

オペレーションセンター

bull イベント ドア開閉軸アライメントキャビン速度モーター温度など

bull アラーム 故障アラームエラーコードなど

httpisstkeazurewebsitesnet

Event Hub

Stream Analytics

Azure ML

制御機器とセンサーのデータ

マシンデータの蓄積

メンテナンス方法の学習モデル

Machine Learning

Blob Storage

セルフサービス分析

Power BI

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce

cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-

system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of

your data while making it faster to get up and running with

batch streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources

so you can run queries on exabytes of data Includes U-

SQL a new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully

managed NoSQL database service that indexes stores and

queries data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

What do all of these have in common

They can all use Azure Analysis Services

Azure Analysis Services

Azure Analysis Services

BI semantic model

Business logic amp metrics

Data modeling

Security

Azure Analysis Services

Lifecycle management

In-memory cache

On-premises

Cloud

Data sources

SQL Database

SQL Data Warehouse

Other data sources

SQL Server

Analytics platform

system

Other data sources

On-premises

Cloud

Client tools

Power BI

Excel

Third party BI tools

Power BI Desktop

Rich semantic modelling

locatioidentifier

identifiertype

fieldidentifier

numberofunitssoldtodate

remaningnumber

Numberofuntissoldtoday

receivedback

productidentifier

descriptionline1

descriptionline2

qtyafterqtysales

familyidentifier

Source DataComplex raw data optimized for processing

Semantic ModelRich business user friendly semantic model

Product Id

Product Name

Product Description

Category

Category Id

Category Name

Category Description

Sub Category

Product Id

Shelf qty

Return qty

Order qty

Sale qty

Cloud Data

On-Premises

Data

Azure Analysis Services

Lightning fast queries

データ管理をきっかけに処理を実行

Web Glue

Bots IoT

DOMINOS STORES

Key Vault

Azure Active Directory

Azure Files

SSIS FRANCHISEE

AZURE WEST EUROPE

Azure Function

KEMPSSDESSRS

IN- AND EXTERNAL DATA SOURCES

orderprocessing

O365

App Insights

indexhtml

Azure Functions Proxies

couponprocessing

Use Bindings in Your Codefunctionjson

bindings [type httpTriggerdirection inwebHookType genericJsonname req

type httpdirection outname res

type queuename eventOutputqueueName aievents1connectionAiStorageConnectiondirection out

]

public static class OrderHandler

[FunctionName(OrderWebhook)]public static async TaskltHttpResponseMessagegt Run(

[HttpTrigger] HttpRequestMessage req[Queue(aievents1 Connection = AiStorageConnection)]

IAsyncCollectorltStringgt eventOutputTraceWriter log)

logInfo($Webhook was triggered)

string jsonContent = await reqContentReadAsStringAsync()dynamic data = JsonConvertDeserializeObject(jsonContent)

await eventOutputAddAsync(JsonConvertSerializeObject(GetLogData(data)))

int orderId = PlaceOrder(data)

return reqCreateResponse(HttpStatusCodeOK new orderNumber = orderId )

bull Workflow in the cloud

bull Powerful control flow

bull Connect functions and APIs

bull Declarative definition to persist in source control and drive deployments

Logic AppsCloud APIs and platform

bull Supports over 125 built-in connectors

bull Scales to meet your needs

bull Enables rapid development

bull Extends with custom APIs and

Functions

API connections

bull Authenticate once and reuse

Big Data Solutions Decision Tree

httpsbiz-excellencecom20160830big-data-dt

Machine Learning Solutions Decision Tree

httpsbiz-excellencecom20160913machine-

learning-dt

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of your

data while making it faster to get up and running with batch

streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources so

you can run queries on exabytes of data Includes U-SQL a

new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully managed

NoSQL database service that indexes stores and queries

data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

Microsoft Big Data Portfolio

SQL Server Stretch

Business intelligence

Machine learning analytics

Insights

Azure SQL Database

SQL Server 2016

SQL Server 2016 Fast Track

Azure SQL DW

ADLS amp ADLA

DocumentDB

HDInsight

Hadoop

Analytics Platform System

Sequential Scale Out + AcrossScale Up

Key

Relational Non-relational

On

-pre

mis

es

Clo

ud

Microsoft has solutions covering

and connecting all four

quadrants ndash thatrsquos why SQL

Server is one of the most utilized

databases in the world

Azure

Data Lake Store

Azure

Blob StoragePurpose Optimized for big data analytics General purpose bulk storage

Use Cases Batch Interactive Streaming App backend backup data media storage for

streaming

Units of Storage Accounts Folders Files Accounts Containers Blobs

Structure Hierarchical File System Flat namespace

WebHDFS Implements WebHDFS No (WASB)

Security AD SAS keys

Storage Auto SharedFiles chunked Manually manage expansionFiles intact

Service State Generally Available PolyBase

just supported

Generally Available

Billing Pay for data stored and for IO Pay for data stored and for IO

Region Availability Two US regions (Other regions coming soon) All Azure Regions

ADL Store vs Blob Store

httpsdocsmicrosoftcomen-usazuredata-lake-storedata-lake-store-comparison-with-blob-storage

Want Hadoop

Need exact same on-prem

Need interactive streaming

MandatoryNo strong opinion

Azure Marketplace (IaaS)

bull Need all workloads exactly like on-

premises

bull Need 100 HortonworksClouderaMapR

Azure HDInsight

bull Most Hadoop workloads

bull Fully managed by Microsoft

bull Sell HDI + ADLS

bull Stickier to Microsoft than VMs

bull Can do interactive (Spark) and streaming

(StormSpark)

Azure Data Lake Analytics

bull Easiest experience for admin no sense of

clusters instant scale per job

bull Easiest experience for developers Visual

StudioU-SQL (C+SQL)

bull Sell ADLA + ADLS

bull Batch workloads only

Need everything exactly like on-prem

Need core projects Yes Batch is OK

Always present ADLA if NET or Visual Studio Shop

If NET or VS shop

Azure SQL DW HDInsight Hive HDInsight Spark Azure Data Lake SQL Server (IaaS)

Volume Petabytes Petabytes Petabytes Petabytes Terabytes

Security Encryption TD

Audit

ADLS Apache

Ranger

ADLS AAD Security

Groups (data)

Encryption TD

Audit

Languages T-SQL HiveQL SparkSQL HiveQL

Scala Java Python

R

U-SQL T-SQL

Extensibility No Yes NETSerDe Yes Packages Yes NET Yes NET CLR

External File

Types

ORC TXT

Parquet RCFile

ORC CSV Parquet

+ others

Parquet JSON

Hive + others

Many ORC TXT Parquet

RCFile

Admin Low-Medium Medium-High Medium-High Low High

Cost Model DWU Nodes amp VM Nodes amp VM UnitsJobs VM

Schema

Definition

Schema on Write

Polybase

Schema on Read Schema on Read Schema on Read Schema on Write

Polybase

Max DB Size 240TB Comp (5X

= 1PB)

Unlimited 64TB (64 1TB drives)

機械学習 Deep Learning 深層強化学習

画像解析

音声解析

データ分類異常検知 顧客グルーピング

数値予測売上予測 需要予測 品質管理

ラベル分類不良品分析 故障予測 チャーン分析

機械学習より強力な分析

自律学習型ロボット

自動運転車

テキストや画像等の自動生成

活用例

主に多層のニューラルネットワークを用いた手法での分析

分析のためには莫大なデータ量計算量知識スキルを要する

統計に基づいた手法での分析

そのため比較的少ないデータ量と計算量で分析を行うことができる

定義したあるべき姿に従い試行錯誤をして自ら学習を行うための分析手法である強化学習と深層学習を組み合わせた分析

Azure Machine Learning Cognitive Toolkit GPU Instance (N-Series)

マイクロソフトが提供する技術

テキストデータ機器のログデータなど

画像データ監視カメラの録画データ 機器の外観画像 顔画像など

動画データ監視カメラの録画データ 機器の稼働状況 人の作業映像など

音声データマイクからの収集データ 稼働音 室内音 人の音声など

数値データセンサーデータ 機器の制御データ計測データなど672342345

機械学習統計理論に基づいた分析手法を用いる用意するべきデータ量と処理する計算量の敷居が低め導入しやすい

Deep Learningデータ量が大きいため強力な分析手法が必要「膨大なデータ量を用意」「莫大な計算量を処理」が必要で敷居が非常に高い導入にはそれなりの覚悟が必要

Action

People

Automated Systems

Apps

Web

Mobile

Bots

Intelligence

Dashboards amp Visualizations

Cortana

Bot Framework

Cognitive Services

Power BI

Information Management

Event Hubs

Data Catalog

Data Factory

Machine Learning and Analytics

HDInsight

Stream Analytics

Intelligence

Data Lake Analytics

Machine Learning

Big Data Stores

SQL Data Warehouse

Data Lake Store

Data Sources

Apps

Sensors amp Devices

Data

Cortana Intelligence Suite

学習済み

モデル利用

学習モデル

作成

機械学習 教師あり学習

教師なし学習

強化学習

決定木

線形回帰

SVM

ロジスティック回帰

ニューラルネットワーク

クラスタリング

次元削減

Q学習

K-mean法

主成分分析

正準相関分析

ディープニューラルネットワーク

畳みこみニューラルネットワーク

再帰的ニューラルネットワーク

回帰結合ニューラルネットワーク

httpsazuremicrosoftcomen-usservicescognitive-services

わずか数行のコードで強力なアルゴリズムを持つアプリの作成が可能ですiOSAndroidWindows などのプラットフォームを問わず機能します

httpsazuremicrosoftcomja-jpservicesmachine-learning

ユーザーは簡単に予測分析ソリューションを構築デプロイ共有できます

httpswwwyoutubecomwatchv=9gDDO5ldT-4ampfeature=youtube

AI技術を利用したディープラーニング(深層学習)ツールキットです旧称「CNTK」から改名されました

ソースコード httpsgithubcomMicrosoftCNTK

SearchSpeech

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

コカコーラ誕生100周年キャンペーン

コカコーラボトルを「100歳」と認識

bull 自撮り写真をUp結果をSNS拡散

ナビタイムジャパン様

自然言語入力による路線検索BOT

bull ユーザーとの新たな接点(LINE)

bull 自然言語入力

Vision Language Knowledge

Vision Knowledge SearchSpeech Language

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

Microsoft SupportVirtual Agent

自然言語入力による自動応答サポート窓口

bull 過去QampAデータ解析に基づく回答抽出

bull 定型外はldquo人対応rdquo

UBER

登録ドライバーをスマホ経由で顔認証

VOLVO

表情からの危険予測

Search

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

アロバ様

監視カメラによる店舗内行動分析

bull 顔認識による 顧客識別

bull 表情分析

東京サマーランド様にて導入済み

HmComm様

コールセンターソリューション

bull 会話をテキスト化キーワードを解析

bull 過去QampA検索

bull 内容をCRM保存

Vision KnowledgeSpeech Language

導入事例東京サマーランド様

Video

Intelligent KioskhttpsgithubcomMicrosoftCognitive-Samples-IntelligentKiosk

ldquo(want to|request)rdquo

HoloLens

Page 28: やりたいことから考えるMicrosoft Azure 上の データストアの選び方とデータサイエンティスト向け活用法。KVSからDWHまで

フルマネージドの RDBMS

データベース

RDBMS

OS

Azure が管理

利用者が管理

VM上の RDBMS

ホスト OS

仮想化

フルコントロール

データベース

RDBMS

OS

仮想化

ホスト OS

容易な管理

Azure Database

SQL Server物理マシン仮想マシン

SQL Server on Azure VM仮想マシン

SQL Database Data WarehousePaaS

物理マシン仮想マシン

VM Template Market place仮想マシン

Azure Database for MySQL PostgreSQL

論理データベース

Write

Write Ack

Ack

Read

value write

Ack

特徴

無停止フェールオーバー

無停止スケールアップ(プラン変更)

自動パフォーマンスチューニング

スループット指定によるプロビジョニング

データベース トランザクション ユニット (DTU) とエラスティック データベース トランザクション ユニット (eDTU) の説明

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-what-is-a-dtu

Azure SQL Database Query Performance Insight

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-query-performance

Query Store is turned on by default for Azure SQL Database

httpsazuremicrosoftcomja-jpupdatesquery-store-on-is-the-new-default-for-azure-sql-database

Queries

SQL Database

Deeper Insight

Query

Store

SQL Database Advisor

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-advisor

Azure Portal を使用した SQL Database Advisor

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-advisor-portal

領域 改善後

新しいインデックス提案が作成されるまで 18時間以内

T-SQL文が実行されるまでのタイムラグ 即時(数分以内)

「悪い」チューニング内容に対しての検知時間 1時間以内

次のインデックス提案が行われるまでの待ち時

間即時(数分以内)

導入までの総時間 1日以内

SQL Database の脅威の検出

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-threat-detection

コントロールノード

SQLDB

Azure Blob Storage(WASB)

100 DWU lt gt 2000 DWUコントロールノード

ユーザーからの接続コンピュートとストレージの調整

コンピュートノード

コンピュートノード

コンピュートノード

コンピュートノード

SQLDB

SQLDB

SQLDB

SQLDB

Azure Blob Storage(WASB)

コントロールノード

SQLDB コントロールノード

D51

D52

D53

D60

hellip

D41

D42

D43

D50

hellip

コンピュートノード

D31

D32

D33

D40hellip

D21

D22

D23

D30

hellip

D11

D12

D13

D20

hellip

D1

D2

D3

D10

hellip

SQL DB

Azure Blob Storage(WASB)

コントロールノード

SQLDB コントロールノード

コンピュートノード

D51

D52

D53

D60

hellipコンピュートノード

D41

D42

D43

D50

hellip

コンピュートノード

D31

D32

D33

D40hellip

コンピュートノード

D21

D22

D23

D30

hellip

コンピュートノード

D11

D12

D13

D20

hellip

コンピュートノード

D1

D2

D3

D10

hellip

SQL DB

SQL DB

SQL DB

SQL DB

SQL DB

SQL DB

54

データ無制限のストレージ と 分析プラットフォーム

無制限のストレージ(エクサバイト超)

ネイティブ HDFS に基づく実装

HDInsight Hortonworks Cloudera との統合

全ての HDFS 準拠プロジェクトとの親和性

(Spark Storm Flume Sqoop Kafka R etc)

Azure Data Lake Store- Hadoop Distributed File System (HDFS) For The Cloud

構造化データと非構造化データに対するデータ処理

宣言型の SQL 文 とカスタムコード (UDF UDT UDO hellip )

ローカルとリモートに対するクエリ

バッチ型インタラクティブ型ストリーミング型(in the future)

Azure Data Lake Analytics- New Query Language U-SQL

ETL パイプライン

スキーマの定義Relational

LOB

Applications

Schema-on-Write

直ちに必要でないデータは全て捨てられるかアーカイブされている

無限に保存 分析 結果の参照

あらゆるデータ

ソースからの

データ収集

Schema-on-Read

全データ取込要件にかかわらず

全データ格納そのままのフォーマットでスキーマ定義なし

分析実行Hadoopのような分析エンジンの利用

インタラクティブクエリ

バッチ型クエリ

機械学習

データウェアハウス

リアルタイム分析

リレーショナル

デバイス

観察仮説集まったデータから仮説をたてる

58

無制限のサイズ

ギガバイトからペタバイトのサイズの単一ファイル

巨大なスループットを必要とする大規模な分析システムを実現

あらゆるスループットに自動最適化

ペタバイト超のデータの並列コンピューティング

同一リージョン内に3つのコピーを自動的に作成

インストールやチューニングは不要

数分で稼働開始

必要に応じてどのようなサイズにもスケールアウト可能

データウェアハウスデータレイクストア

非構造Rawデータ(ログ文書バイナリ)

Tier 1

MachineLearning

Data LakeAnalytics HDInsight

目的に合わせた

データウェハウス分析処理

(売上分析経営分析)

データウェハウスに格納しきれなかった

過去データ関連データを連結して分析

ハードウェアの性能限界によって行えなかった処理量の分析を実現

ディスクコンピューティング

非構造データの

分析処理

(画像音声映像など)

広範囲のデータを利用した

機械学習統計解析処理

などによる高度分析

SQL Data Warehouse

Data LakeAnalytics HDInsight

Data LakeAnalytics

構造化データ半構造データ

分析用に加工(csv等)

Tier 2

アーカイブデータTier 2 DWHのアーカイブ

Tier 3

Analytics

Storage

HDInsight(ldquomanaged clustersrdquo)

Azure Data Lake Analytics

Azure Data Lake Store

Azure Data Lake

LOB Applications

SocialDevices

Clickstream

Sensors

Video

Web

Relational

HDInsight

Data Lake Analytics

Machine Learning

Spark

R

Azure Data Lake Store

Azure Data Lake Store

Azure Storage Blob

外部表Azure SQLData Warehouse

HDInsight

開発者は OSS に馴染んでいる Java Eclipse Hive etc

マネージド Hadoop クラスタにおいてカスタマイズ管理が可能でフレキシビリティがある

Azure Data Lake Analytics

C SQL amp PowerShell のスキル

経験を活かせる

利便性効率性自動スケール

ジョブ実行の仕組みが提供される

(New)

(New)

一般的なパターン

処理読み込み 保存

INSERT

OUTPUT

OUTPUT

SELECThellip

FROMhellip

WHEREhellip

+

PythonR

EXTRACT

EXTRACT

SELECT

SELECT

Azure

Data

Lake

Azure

Data

Lake

Azure

SQL

DB

Azure

Storage

Blobs

Azure

Storage

Blobs

RowSet RowSet

Cognitive Services

REFERENCE ASSEMBLY WebLogExtASM

rs =

EXTRACT

UserID string

Start DateTime

End DateTime

Region string

SitesVisited string

PagesVisited string

FROM ldquoLogsWebLogRecordstxtrdquo

USING WebLogExtractor ()

result = SELECT UserID

(EndSubtract(Start))TotalSeconds AS Duration

FROM rs ORDER BY Duration DESC FETCH 10

OUTPUT result TO ldquoLogsResultstop10tsv

USING OutputterTsv()

bull 型定義は C の型定義と同じ

bull データをファイルから抽出読み込み

するときにスキーマが必要

Data Lake Store 内 のファイル

独自形式を解析するカスタム関数

C の関数

行セット(中間テーブルの概念

に近い)

TSV形式で書き込む関数

U-SQL ジョブのサブミットAzure PortalやVisual StudioのAzure Data Lake ToolsからU-SQLジョブをサブミット可能

67

進捗

統計情報

従来型の処理分析 Azure Data Lake を中心とした処理分析

Business apps

Custom apps

Sensors and devices

ADL StorePeople

非構造化データも含めてあらゆるデータを格納

Azure SQL DW

Azure AD

Power BI

ADF

ADL Analytics

bull 処理分析業務の大半はデータ準備作業が占めるbull 処理分析業務に手間時間が必要

Business apps

Custom apps

Sensors and devices

HDInsight

ユーザー管理認証

データの連携

Power BI

File System

Database

Database

Hadoop

DWH

Data Mart

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

①大量データの受け入れ

②リアルタイム処理データの集約

③データの蓄積

構造化非構造化文書など様々な形式での保存

④データの加工移行

⑥機械学習

⑦Hadoop解析

⑧マイクロソフト技術を用いた分散解析

⑨通常のRMSが機能を追加した企業向けRを使用した解析

⑪クラウドベースの Self-Service BI 機能

⑫機械学習の予測モデルを業務システムなどから呼び出し可能にするサービス

外部クラウドなどからのデータ取り込み

②リアルタイム処理データの加工

⑤ディープラーニング

⑩Excelを用いた可視化

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

リアルタイム

バッチ

Data Factory Tools for Visual Studio

Azure Portal

Azure TableStorage

(Web ログレコード)

Data Factory

HDInsight

(Web ログをファイルにして

バッチ処理で集計)

SQL Database

(集計データをDB テーブルに格納)

Power BI

社内システム

DataManagement

Gateway

SQL Database

Data Warehouse

Blob Storage

Table Storage

httpportalazurecom

接続

メッセージ作成

メッセージ送信

var cs = ldquo接続文字列rdquovar path = ldquoイベントハブ名rdquovar eh = EventHubClientCreateFromConnectionString(cs path)

var msg = new user = thisUserIdentityNamelevel = leveltimestamp = demoTimestamp

var json = JsonConvertSerializeObject(msg)

ehSend(new EventData(EncodingUTF8GetBytes(json)))

EventProcessorHostを使う

bull

bull

bull

Functionsを使う

bull

bull

IEventProcessorProcessEventAsync(msg)

IEventProcessorProcessEventAsync(msg)

Run(string msg)

Azure azure-sdk-for-python

Point of Service Devices

Self CheckoutStations

Kiosks

Smart Phones

SlatesTablets

PCsLaptops

Servers

Digital Signs

DiagnosticEquipmentRemote Medical

MonitorsLogic

Controllers

SpecializedDevicesThin

Clients

Handhelds

Security

POS Terminals

AutomationDevices

VendingMachines

Kinect

ATM

Stream Analytics

入力 出力クエリデータストリーム

参照

bull ldquo入力rdquoldquo出力rdquoをクリックしそれぞれ作成

bull ldquoクエリrdquoをクリックしクエリを定義bull 作業が終わったらldquo開始rdquoで実

行開始

SELECT

INTO

FROM

SELECT user level AS SATLevel timestamp

INTO

FROM

デバイス接続性とデバイス管理およびブローカーサービス

データ管理と高度な分析 情報活用業務の生産性とプロセスの最適化

IoT Agent Gateway

予兆原因の学習モデル

ダッシュボード

参照ERPbull 顧客bull 設備bull 担当者

Notification Hubs

通知

予兆イベント

メンテ方法の推奨

bull ヘルス状態bull インシデント管理bull 対応のディスパッチ

現地技術要員のモバイルデバイス

オペレーションセンター

bull イベント ドア開閉軸アライメントキャビン速度モーター温度など

bull アラーム 故障アラームエラーコードなど

httpisstkeazurewebsitesnet

Event Hub

Stream Analytics

Azure ML

制御機器とセンサーのデータ

マシンデータの蓄積

メンテナンス方法の学習モデル

Machine Learning

Blob Storage

セルフサービス分析

Power BI

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce

cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-

system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of

your data while making it faster to get up and running with

batch streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources

so you can run queries on exabytes of data Includes U-

SQL a new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully

managed NoSQL database service that indexes stores and

queries data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

What do all of these have in common

They can all use Azure Analysis Services

Azure Analysis Services

Azure Analysis Services

BI semantic model

Business logic amp metrics

Data modeling

Security

Azure Analysis Services

Lifecycle management

In-memory cache

On-premises

Cloud

Data sources

SQL Database

SQL Data Warehouse

Other data sources

SQL Server

Analytics platform

system

Other data sources

On-premises

Cloud

Client tools

Power BI

Excel

Third party BI tools

Power BI Desktop

Rich semantic modelling

locatioidentifier

identifiertype

fieldidentifier

numberofunitssoldtodate

remaningnumber

Numberofuntissoldtoday

receivedback

productidentifier

descriptionline1

descriptionline2

qtyafterqtysales

familyidentifier

Source DataComplex raw data optimized for processing

Semantic ModelRich business user friendly semantic model

Product Id

Product Name

Product Description

Category

Category Id

Category Name

Category Description

Sub Category

Product Id

Shelf qty

Return qty

Order qty

Sale qty

Cloud Data

On-Premises

Data

Azure Analysis Services

Lightning fast queries

データ管理をきっかけに処理を実行

Web Glue

Bots IoT

DOMINOS STORES

Key Vault

Azure Active Directory

Azure Files

SSIS FRANCHISEE

AZURE WEST EUROPE

Azure Function

KEMPSSDESSRS

IN- AND EXTERNAL DATA SOURCES

orderprocessing

O365

App Insights

indexhtml

Azure Functions Proxies

couponprocessing

Use Bindings in Your Codefunctionjson

bindings [type httpTriggerdirection inwebHookType genericJsonname req

type httpdirection outname res

type queuename eventOutputqueueName aievents1connectionAiStorageConnectiondirection out

]

public static class OrderHandler

[FunctionName(OrderWebhook)]public static async TaskltHttpResponseMessagegt Run(

[HttpTrigger] HttpRequestMessage req[Queue(aievents1 Connection = AiStorageConnection)]

IAsyncCollectorltStringgt eventOutputTraceWriter log)

logInfo($Webhook was triggered)

string jsonContent = await reqContentReadAsStringAsync()dynamic data = JsonConvertDeserializeObject(jsonContent)

await eventOutputAddAsync(JsonConvertSerializeObject(GetLogData(data)))

int orderId = PlaceOrder(data)

return reqCreateResponse(HttpStatusCodeOK new orderNumber = orderId )

bull Workflow in the cloud

bull Powerful control flow

bull Connect functions and APIs

bull Declarative definition to persist in source control and drive deployments

Logic AppsCloud APIs and platform

bull Supports over 125 built-in connectors

bull Scales to meet your needs

bull Enables rapid development

bull Extends with custom APIs and

Functions

API connections

bull Authenticate once and reuse

Big Data Solutions Decision Tree

httpsbiz-excellencecom20160830big-data-dt

Machine Learning Solutions Decision Tree

httpsbiz-excellencecom20160913machine-

learning-dt

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of your

data while making it faster to get up and running with batch

streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources so

you can run queries on exabytes of data Includes U-SQL a

new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully managed

NoSQL database service that indexes stores and queries

data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

Microsoft Big Data Portfolio

SQL Server Stretch

Business intelligence

Machine learning analytics

Insights

Azure SQL Database

SQL Server 2016

SQL Server 2016 Fast Track

Azure SQL DW

ADLS amp ADLA

DocumentDB

HDInsight

Hadoop

Analytics Platform System

Sequential Scale Out + AcrossScale Up

Key

Relational Non-relational

On

-pre

mis

es

Clo

ud

Microsoft has solutions covering

and connecting all four

quadrants ndash thatrsquos why SQL

Server is one of the most utilized

databases in the world

Azure

Data Lake Store

Azure

Blob StoragePurpose Optimized for big data analytics General purpose bulk storage

Use Cases Batch Interactive Streaming App backend backup data media storage for

streaming

Units of Storage Accounts Folders Files Accounts Containers Blobs

Structure Hierarchical File System Flat namespace

WebHDFS Implements WebHDFS No (WASB)

Security AD SAS keys

Storage Auto SharedFiles chunked Manually manage expansionFiles intact

Service State Generally Available PolyBase

just supported

Generally Available

Billing Pay for data stored and for IO Pay for data stored and for IO

Region Availability Two US regions (Other regions coming soon) All Azure Regions

ADL Store vs Blob Store

httpsdocsmicrosoftcomen-usazuredata-lake-storedata-lake-store-comparison-with-blob-storage

Want Hadoop

Need exact same on-prem

Need interactive streaming

MandatoryNo strong opinion

Azure Marketplace (IaaS)

bull Need all workloads exactly like on-

premises

bull Need 100 HortonworksClouderaMapR

Azure HDInsight

bull Most Hadoop workloads

bull Fully managed by Microsoft

bull Sell HDI + ADLS

bull Stickier to Microsoft than VMs

bull Can do interactive (Spark) and streaming

(StormSpark)

Azure Data Lake Analytics

bull Easiest experience for admin no sense of

clusters instant scale per job

bull Easiest experience for developers Visual

StudioU-SQL (C+SQL)

bull Sell ADLA + ADLS

bull Batch workloads only

Need everything exactly like on-prem

Need core projects Yes Batch is OK

Always present ADLA if NET or Visual Studio Shop

If NET or VS shop

Azure SQL DW HDInsight Hive HDInsight Spark Azure Data Lake SQL Server (IaaS)

Volume Petabytes Petabytes Petabytes Petabytes Terabytes

Security Encryption TD

Audit

ADLS Apache

Ranger

ADLS AAD Security

Groups (data)

Encryption TD

Audit

Languages T-SQL HiveQL SparkSQL HiveQL

Scala Java Python

R

U-SQL T-SQL

Extensibility No Yes NETSerDe Yes Packages Yes NET Yes NET CLR

External File

Types

ORC TXT

Parquet RCFile

ORC CSV Parquet

+ others

Parquet JSON

Hive + others

Many ORC TXT Parquet

RCFile

Admin Low-Medium Medium-High Medium-High Low High

Cost Model DWU Nodes amp VM Nodes amp VM UnitsJobs VM

Schema

Definition

Schema on Write

Polybase

Schema on Read Schema on Read Schema on Read Schema on Write

Polybase

Max DB Size 240TB Comp (5X

= 1PB)

Unlimited 64TB (64 1TB drives)

機械学習 Deep Learning 深層強化学習

画像解析

音声解析

データ分類異常検知 顧客グルーピング

数値予測売上予測 需要予測 品質管理

ラベル分類不良品分析 故障予測 チャーン分析

機械学習より強力な分析

自律学習型ロボット

自動運転車

テキストや画像等の自動生成

活用例

主に多層のニューラルネットワークを用いた手法での分析

分析のためには莫大なデータ量計算量知識スキルを要する

統計に基づいた手法での分析

そのため比較的少ないデータ量と計算量で分析を行うことができる

定義したあるべき姿に従い試行錯誤をして自ら学習を行うための分析手法である強化学習と深層学習を組み合わせた分析

Azure Machine Learning Cognitive Toolkit GPU Instance (N-Series)

マイクロソフトが提供する技術

テキストデータ機器のログデータなど

画像データ監視カメラの録画データ 機器の外観画像 顔画像など

動画データ監視カメラの録画データ 機器の稼働状況 人の作業映像など

音声データマイクからの収集データ 稼働音 室内音 人の音声など

数値データセンサーデータ 機器の制御データ計測データなど672342345

機械学習統計理論に基づいた分析手法を用いる用意するべきデータ量と処理する計算量の敷居が低め導入しやすい

Deep Learningデータ量が大きいため強力な分析手法が必要「膨大なデータ量を用意」「莫大な計算量を処理」が必要で敷居が非常に高い導入にはそれなりの覚悟が必要

Action

People

Automated Systems

Apps

Web

Mobile

Bots

Intelligence

Dashboards amp Visualizations

Cortana

Bot Framework

Cognitive Services

Power BI

Information Management

Event Hubs

Data Catalog

Data Factory

Machine Learning and Analytics

HDInsight

Stream Analytics

Intelligence

Data Lake Analytics

Machine Learning

Big Data Stores

SQL Data Warehouse

Data Lake Store

Data Sources

Apps

Sensors amp Devices

Data

Cortana Intelligence Suite

学習済み

モデル利用

学習モデル

作成

機械学習 教師あり学習

教師なし学習

強化学習

決定木

線形回帰

SVM

ロジスティック回帰

ニューラルネットワーク

クラスタリング

次元削減

Q学習

K-mean法

主成分分析

正準相関分析

ディープニューラルネットワーク

畳みこみニューラルネットワーク

再帰的ニューラルネットワーク

回帰結合ニューラルネットワーク

httpsazuremicrosoftcomen-usservicescognitive-services

わずか数行のコードで強力なアルゴリズムを持つアプリの作成が可能ですiOSAndroidWindows などのプラットフォームを問わず機能します

httpsazuremicrosoftcomja-jpservicesmachine-learning

ユーザーは簡単に予測分析ソリューションを構築デプロイ共有できます

httpswwwyoutubecomwatchv=9gDDO5ldT-4ampfeature=youtube

AI技術を利用したディープラーニング(深層学習)ツールキットです旧称「CNTK」から改名されました

ソースコード httpsgithubcomMicrosoftCNTK

SearchSpeech

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

コカコーラ誕生100周年キャンペーン

コカコーラボトルを「100歳」と認識

bull 自撮り写真をUp結果をSNS拡散

ナビタイムジャパン様

自然言語入力による路線検索BOT

bull ユーザーとの新たな接点(LINE)

bull 自然言語入力

Vision Language Knowledge

Vision Knowledge SearchSpeech Language

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

Microsoft SupportVirtual Agent

自然言語入力による自動応答サポート窓口

bull 過去QampAデータ解析に基づく回答抽出

bull 定型外はldquo人対応rdquo

UBER

登録ドライバーをスマホ経由で顔認証

VOLVO

表情からの危険予測

Search

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

アロバ様

監視カメラによる店舗内行動分析

bull 顔認識による 顧客識別

bull 表情分析

東京サマーランド様にて導入済み

HmComm様

コールセンターソリューション

bull 会話をテキスト化キーワードを解析

bull 過去QampA検索

bull 内容をCRM保存

Vision KnowledgeSpeech Language

導入事例東京サマーランド様

Video

Intelligent KioskhttpsgithubcomMicrosoftCognitive-Samples-IntelligentKiosk

ldquo(want to|request)rdquo

HoloLens

Page 29: やりたいことから考えるMicrosoft Azure 上の データストアの選び方とデータサイエンティスト向け活用法。KVSからDWHまで

SQL Server物理マシン仮想マシン

SQL Server on Azure VM仮想マシン

SQL Database Data WarehousePaaS

物理マシン仮想マシン

VM Template Market place仮想マシン

Azure Database for MySQL PostgreSQL

論理データベース

Write

Write Ack

Ack

Read

value write

Ack

特徴

無停止フェールオーバー

無停止スケールアップ(プラン変更)

自動パフォーマンスチューニング

スループット指定によるプロビジョニング

データベース トランザクション ユニット (DTU) とエラスティック データベース トランザクション ユニット (eDTU) の説明

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-what-is-a-dtu

Azure SQL Database Query Performance Insight

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-query-performance

Query Store is turned on by default for Azure SQL Database

httpsazuremicrosoftcomja-jpupdatesquery-store-on-is-the-new-default-for-azure-sql-database

Queries

SQL Database

Deeper Insight

Query

Store

SQL Database Advisor

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-advisor

Azure Portal を使用した SQL Database Advisor

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-advisor-portal

領域 改善後

新しいインデックス提案が作成されるまで 18時間以内

T-SQL文が実行されるまでのタイムラグ 即時(数分以内)

「悪い」チューニング内容に対しての検知時間 1時間以内

次のインデックス提案が行われるまでの待ち時

間即時(数分以内)

導入までの総時間 1日以内

SQL Database の脅威の検出

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-threat-detection

コントロールノード

SQLDB

Azure Blob Storage(WASB)

100 DWU lt gt 2000 DWUコントロールノード

ユーザーからの接続コンピュートとストレージの調整

コンピュートノード

コンピュートノード

コンピュートノード

コンピュートノード

SQLDB

SQLDB

SQLDB

SQLDB

Azure Blob Storage(WASB)

コントロールノード

SQLDB コントロールノード

D51

D52

D53

D60

hellip

D41

D42

D43

D50

hellip

コンピュートノード

D31

D32

D33

D40hellip

D21

D22

D23

D30

hellip

D11

D12

D13

D20

hellip

D1

D2

D3

D10

hellip

SQL DB

Azure Blob Storage(WASB)

コントロールノード

SQLDB コントロールノード

コンピュートノード

D51

D52

D53

D60

hellipコンピュートノード

D41

D42

D43

D50

hellip

コンピュートノード

D31

D32

D33

D40hellip

コンピュートノード

D21

D22

D23

D30

hellip

コンピュートノード

D11

D12

D13

D20

hellip

コンピュートノード

D1

D2

D3

D10

hellip

SQL DB

SQL DB

SQL DB

SQL DB

SQL DB

SQL DB

54

データ無制限のストレージ と 分析プラットフォーム

無制限のストレージ(エクサバイト超)

ネイティブ HDFS に基づく実装

HDInsight Hortonworks Cloudera との統合

全ての HDFS 準拠プロジェクトとの親和性

(Spark Storm Flume Sqoop Kafka R etc)

Azure Data Lake Store- Hadoop Distributed File System (HDFS) For The Cloud

構造化データと非構造化データに対するデータ処理

宣言型の SQL 文 とカスタムコード (UDF UDT UDO hellip )

ローカルとリモートに対するクエリ

バッチ型インタラクティブ型ストリーミング型(in the future)

Azure Data Lake Analytics- New Query Language U-SQL

ETL パイプライン

スキーマの定義Relational

LOB

Applications

Schema-on-Write

直ちに必要でないデータは全て捨てられるかアーカイブされている

無限に保存 分析 結果の参照

あらゆるデータ

ソースからの

データ収集

Schema-on-Read

全データ取込要件にかかわらず

全データ格納そのままのフォーマットでスキーマ定義なし

分析実行Hadoopのような分析エンジンの利用

インタラクティブクエリ

バッチ型クエリ

機械学習

データウェアハウス

リアルタイム分析

リレーショナル

デバイス

観察仮説集まったデータから仮説をたてる

58

無制限のサイズ

ギガバイトからペタバイトのサイズの単一ファイル

巨大なスループットを必要とする大規模な分析システムを実現

あらゆるスループットに自動最適化

ペタバイト超のデータの並列コンピューティング

同一リージョン内に3つのコピーを自動的に作成

インストールやチューニングは不要

数分で稼働開始

必要に応じてどのようなサイズにもスケールアウト可能

データウェアハウスデータレイクストア

非構造Rawデータ(ログ文書バイナリ)

Tier 1

MachineLearning

Data LakeAnalytics HDInsight

目的に合わせた

データウェハウス分析処理

(売上分析経営分析)

データウェハウスに格納しきれなかった

過去データ関連データを連結して分析

ハードウェアの性能限界によって行えなかった処理量の分析を実現

ディスクコンピューティング

非構造データの

分析処理

(画像音声映像など)

広範囲のデータを利用した

機械学習統計解析処理

などによる高度分析

SQL Data Warehouse

Data LakeAnalytics HDInsight

Data LakeAnalytics

構造化データ半構造データ

分析用に加工(csv等)

Tier 2

アーカイブデータTier 2 DWHのアーカイブ

Tier 3

Analytics

Storage

HDInsight(ldquomanaged clustersrdquo)

Azure Data Lake Analytics

Azure Data Lake Store

Azure Data Lake

LOB Applications

SocialDevices

Clickstream

Sensors

Video

Web

Relational

HDInsight

Data Lake Analytics

Machine Learning

Spark

R

Azure Data Lake Store

Azure Data Lake Store

Azure Storage Blob

外部表Azure SQLData Warehouse

HDInsight

開発者は OSS に馴染んでいる Java Eclipse Hive etc

マネージド Hadoop クラスタにおいてカスタマイズ管理が可能でフレキシビリティがある

Azure Data Lake Analytics

C SQL amp PowerShell のスキル

経験を活かせる

利便性効率性自動スケール

ジョブ実行の仕組みが提供される

(New)

(New)

一般的なパターン

処理読み込み 保存

INSERT

OUTPUT

OUTPUT

SELECThellip

FROMhellip

WHEREhellip

+

PythonR

EXTRACT

EXTRACT

SELECT

SELECT

Azure

Data

Lake

Azure

Data

Lake

Azure

SQL

DB

Azure

Storage

Blobs

Azure

Storage

Blobs

RowSet RowSet

Cognitive Services

REFERENCE ASSEMBLY WebLogExtASM

rs =

EXTRACT

UserID string

Start DateTime

End DateTime

Region string

SitesVisited string

PagesVisited string

FROM ldquoLogsWebLogRecordstxtrdquo

USING WebLogExtractor ()

result = SELECT UserID

(EndSubtract(Start))TotalSeconds AS Duration

FROM rs ORDER BY Duration DESC FETCH 10

OUTPUT result TO ldquoLogsResultstop10tsv

USING OutputterTsv()

bull 型定義は C の型定義と同じ

bull データをファイルから抽出読み込み

するときにスキーマが必要

Data Lake Store 内 のファイル

独自形式を解析するカスタム関数

C の関数

行セット(中間テーブルの概念

に近い)

TSV形式で書き込む関数

U-SQL ジョブのサブミットAzure PortalやVisual StudioのAzure Data Lake ToolsからU-SQLジョブをサブミット可能

67

進捗

統計情報

従来型の処理分析 Azure Data Lake を中心とした処理分析

Business apps

Custom apps

Sensors and devices

ADL StorePeople

非構造化データも含めてあらゆるデータを格納

Azure SQL DW

Azure AD

Power BI

ADF

ADL Analytics

bull 処理分析業務の大半はデータ準備作業が占めるbull 処理分析業務に手間時間が必要

Business apps

Custom apps

Sensors and devices

HDInsight

ユーザー管理認証

データの連携

Power BI

File System

Database

Database

Hadoop

DWH

Data Mart

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

①大量データの受け入れ

②リアルタイム処理データの集約

③データの蓄積

構造化非構造化文書など様々な形式での保存

④データの加工移行

⑥機械学習

⑦Hadoop解析

⑧マイクロソフト技術を用いた分散解析

⑨通常のRMSが機能を追加した企業向けRを使用した解析

⑪クラウドベースの Self-Service BI 機能

⑫機械学習の予測モデルを業務システムなどから呼び出し可能にするサービス

外部クラウドなどからのデータ取り込み

②リアルタイム処理データの加工

⑤ディープラーニング

⑩Excelを用いた可視化

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

リアルタイム

バッチ

Data Factory Tools for Visual Studio

Azure Portal

Azure TableStorage

(Web ログレコード)

Data Factory

HDInsight

(Web ログをファイルにして

バッチ処理で集計)

SQL Database

(集計データをDB テーブルに格納)

Power BI

社内システム

DataManagement

Gateway

SQL Database

Data Warehouse

Blob Storage

Table Storage

httpportalazurecom

接続

メッセージ作成

メッセージ送信

var cs = ldquo接続文字列rdquovar path = ldquoイベントハブ名rdquovar eh = EventHubClientCreateFromConnectionString(cs path)

var msg = new user = thisUserIdentityNamelevel = leveltimestamp = demoTimestamp

var json = JsonConvertSerializeObject(msg)

ehSend(new EventData(EncodingUTF8GetBytes(json)))

EventProcessorHostを使う

bull

bull

bull

Functionsを使う

bull

bull

IEventProcessorProcessEventAsync(msg)

IEventProcessorProcessEventAsync(msg)

Run(string msg)

Azure azure-sdk-for-python

Point of Service Devices

Self CheckoutStations

Kiosks

Smart Phones

SlatesTablets

PCsLaptops

Servers

Digital Signs

DiagnosticEquipmentRemote Medical

MonitorsLogic

Controllers

SpecializedDevicesThin

Clients

Handhelds

Security

POS Terminals

AutomationDevices

VendingMachines

Kinect

ATM

Stream Analytics

入力 出力クエリデータストリーム

参照

bull ldquo入力rdquoldquo出力rdquoをクリックしそれぞれ作成

bull ldquoクエリrdquoをクリックしクエリを定義bull 作業が終わったらldquo開始rdquoで実

行開始

SELECT

INTO

FROM

SELECT user level AS SATLevel timestamp

INTO

FROM

デバイス接続性とデバイス管理およびブローカーサービス

データ管理と高度な分析 情報活用業務の生産性とプロセスの最適化

IoT Agent Gateway

予兆原因の学習モデル

ダッシュボード

参照ERPbull 顧客bull 設備bull 担当者

Notification Hubs

通知

予兆イベント

メンテ方法の推奨

bull ヘルス状態bull インシデント管理bull 対応のディスパッチ

現地技術要員のモバイルデバイス

オペレーションセンター

bull イベント ドア開閉軸アライメントキャビン速度モーター温度など

bull アラーム 故障アラームエラーコードなど

httpisstkeazurewebsitesnet

Event Hub

Stream Analytics

Azure ML

制御機器とセンサーのデータ

マシンデータの蓄積

メンテナンス方法の学習モデル

Machine Learning

Blob Storage

セルフサービス分析

Power BI

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce

cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-

system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of

your data while making it faster to get up and running with

batch streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources

so you can run queries on exabytes of data Includes U-

SQL a new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully

managed NoSQL database service that indexes stores and

queries data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

What do all of these have in common

They can all use Azure Analysis Services

Azure Analysis Services

Azure Analysis Services

BI semantic model

Business logic amp metrics

Data modeling

Security

Azure Analysis Services

Lifecycle management

In-memory cache

On-premises

Cloud

Data sources

SQL Database

SQL Data Warehouse

Other data sources

SQL Server

Analytics platform

system

Other data sources

On-premises

Cloud

Client tools

Power BI

Excel

Third party BI tools

Power BI Desktop

Rich semantic modelling

locatioidentifier

identifiertype

fieldidentifier

numberofunitssoldtodate

remaningnumber

Numberofuntissoldtoday

receivedback

productidentifier

descriptionline1

descriptionline2

qtyafterqtysales

familyidentifier

Source DataComplex raw data optimized for processing

Semantic ModelRich business user friendly semantic model

Product Id

Product Name

Product Description

Category

Category Id

Category Name

Category Description

Sub Category

Product Id

Shelf qty

Return qty

Order qty

Sale qty

Cloud Data

On-Premises

Data

Azure Analysis Services

Lightning fast queries

データ管理をきっかけに処理を実行

Web Glue

Bots IoT

DOMINOS STORES

Key Vault

Azure Active Directory

Azure Files

SSIS FRANCHISEE

AZURE WEST EUROPE

Azure Function

KEMPSSDESSRS

IN- AND EXTERNAL DATA SOURCES

orderprocessing

O365

App Insights

indexhtml

Azure Functions Proxies

couponprocessing

Use Bindings in Your Codefunctionjson

bindings [type httpTriggerdirection inwebHookType genericJsonname req

type httpdirection outname res

type queuename eventOutputqueueName aievents1connectionAiStorageConnectiondirection out

]

public static class OrderHandler

[FunctionName(OrderWebhook)]public static async TaskltHttpResponseMessagegt Run(

[HttpTrigger] HttpRequestMessage req[Queue(aievents1 Connection = AiStorageConnection)]

IAsyncCollectorltStringgt eventOutputTraceWriter log)

logInfo($Webhook was triggered)

string jsonContent = await reqContentReadAsStringAsync()dynamic data = JsonConvertDeserializeObject(jsonContent)

await eventOutputAddAsync(JsonConvertSerializeObject(GetLogData(data)))

int orderId = PlaceOrder(data)

return reqCreateResponse(HttpStatusCodeOK new orderNumber = orderId )

bull Workflow in the cloud

bull Powerful control flow

bull Connect functions and APIs

bull Declarative definition to persist in source control and drive deployments

Logic AppsCloud APIs and platform

bull Supports over 125 built-in connectors

bull Scales to meet your needs

bull Enables rapid development

bull Extends with custom APIs and

Functions

API connections

bull Authenticate once and reuse

Big Data Solutions Decision Tree

httpsbiz-excellencecom20160830big-data-dt

Machine Learning Solutions Decision Tree

httpsbiz-excellencecom20160913machine-

learning-dt

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of your

data while making it faster to get up and running with batch

streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources so

you can run queries on exabytes of data Includes U-SQL a

new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully managed

NoSQL database service that indexes stores and queries

data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

Microsoft Big Data Portfolio

SQL Server Stretch

Business intelligence

Machine learning analytics

Insights

Azure SQL Database

SQL Server 2016

SQL Server 2016 Fast Track

Azure SQL DW

ADLS amp ADLA

DocumentDB

HDInsight

Hadoop

Analytics Platform System

Sequential Scale Out + AcrossScale Up

Key

Relational Non-relational

On

-pre

mis

es

Clo

ud

Microsoft has solutions covering

and connecting all four

quadrants ndash thatrsquos why SQL

Server is one of the most utilized

databases in the world

Azure

Data Lake Store

Azure

Blob StoragePurpose Optimized for big data analytics General purpose bulk storage

Use Cases Batch Interactive Streaming App backend backup data media storage for

streaming

Units of Storage Accounts Folders Files Accounts Containers Blobs

Structure Hierarchical File System Flat namespace

WebHDFS Implements WebHDFS No (WASB)

Security AD SAS keys

Storage Auto SharedFiles chunked Manually manage expansionFiles intact

Service State Generally Available PolyBase

just supported

Generally Available

Billing Pay for data stored and for IO Pay for data stored and for IO

Region Availability Two US regions (Other regions coming soon) All Azure Regions

ADL Store vs Blob Store

httpsdocsmicrosoftcomen-usazuredata-lake-storedata-lake-store-comparison-with-blob-storage

Want Hadoop

Need exact same on-prem

Need interactive streaming

MandatoryNo strong opinion

Azure Marketplace (IaaS)

bull Need all workloads exactly like on-

premises

bull Need 100 HortonworksClouderaMapR

Azure HDInsight

bull Most Hadoop workloads

bull Fully managed by Microsoft

bull Sell HDI + ADLS

bull Stickier to Microsoft than VMs

bull Can do interactive (Spark) and streaming

(StormSpark)

Azure Data Lake Analytics

bull Easiest experience for admin no sense of

clusters instant scale per job

bull Easiest experience for developers Visual

StudioU-SQL (C+SQL)

bull Sell ADLA + ADLS

bull Batch workloads only

Need everything exactly like on-prem

Need core projects Yes Batch is OK

Always present ADLA if NET or Visual Studio Shop

If NET or VS shop

Azure SQL DW HDInsight Hive HDInsight Spark Azure Data Lake SQL Server (IaaS)

Volume Petabytes Petabytes Petabytes Petabytes Terabytes

Security Encryption TD

Audit

ADLS Apache

Ranger

ADLS AAD Security

Groups (data)

Encryption TD

Audit

Languages T-SQL HiveQL SparkSQL HiveQL

Scala Java Python

R

U-SQL T-SQL

Extensibility No Yes NETSerDe Yes Packages Yes NET Yes NET CLR

External File

Types

ORC TXT

Parquet RCFile

ORC CSV Parquet

+ others

Parquet JSON

Hive + others

Many ORC TXT Parquet

RCFile

Admin Low-Medium Medium-High Medium-High Low High

Cost Model DWU Nodes amp VM Nodes amp VM UnitsJobs VM

Schema

Definition

Schema on Write

Polybase

Schema on Read Schema on Read Schema on Read Schema on Write

Polybase

Max DB Size 240TB Comp (5X

= 1PB)

Unlimited 64TB (64 1TB drives)

機械学習 Deep Learning 深層強化学習

画像解析

音声解析

データ分類異常検知 顧客グルーピング

数値予測売上予測 需要予測 品質管理

ラベル分類不良品分析 故障予測 チャーン分析

機械学習より強力な分析

自律学習型ロボット

自動運転車

テキストや画像等の自動生成

活用例

主に多層のニューラルネットワークを用いた手法での分析

分析のためには莫大なデータ量計算量知識スキルを要する

統計に基づいた手法での分析

そのため比較的少ないデータ量と計算量で分析を行うことができる

定義したあるべき姿に従い試行錯誤をして自ら学習を行うための分析手法である強化学習と深層学習を組み合わせた分析

Azure Machine Learning Cognitive Toolkit GPU Instance (N-Series)

マイクロソフトが提供する技術

テキストデータ機器のログデータなど

画像データ監視カメラの録画データ 機器の外観画像 顔画像など

動画データ監視カメラの録画データ 機器の稼働状況 人の作業映像など

音声データマイクからの収集データ 稼働音 室内音 人の音声など

数値データセンサーデータ 機器の制御データ計測データなど672342345

機械学習統計理論に基づいた分析手法を用いる用意するべきデータ量と処理する計算量の敷居が低め導入しやすい

Deep Learningデータ量が大きいため強力な分析手法が必要「膨大なデータ量を用意」「莫大な計算量を処理」が必要で敷居が非常に高い導入にはそれなりの覚悟が必要

Action

People

Automated Systems

Apps

Web

Mobile

Bots

Intelligence

Dashboards amp Visualizations

Cortana

Bot Framework

Cognitive Services

Power BI

Information Management

Event Hubs

Data Catalog

Data Factory

Machine Learning and Analytics

HDInsight

Stream Analytics

Intelligence

Data Lake Analytics

Machine Learning

Big Data Stores

SQL Data Warehouse

Data Lake Store

Data Sources

Apps

Sensors amp Devices

Data

Cortana Intelligence Suite

学習済み

モデル利用

学習モデル

作成

機械学習 教師あり学習

教師なし学習

強化学習

決定木

線形回帰

SVM

ロジスティック回帰

ニューラルネットワーク

クラスタリング

次元削減

Q学習

K-mean法

主成分分析

正準相関分析

ディープニューラルネットワーク

畳みこみニューラルネットワーク

再帰的ニューラルネットワーク

回帰結合ニューラルネットワーク

httpsazuremicrosoftcomen-usservicescognitive-services

わずか数行のコードで強力なアルゴリズムを持つアプリの作成が可能ですiOSAndroidWindows などのプラットフォームを問わず機能します

httpsazuremicrosoftcomja-jpservicesmachine-learning

ユーザーは簡単に予測分析ソリューションを構築デプロイ共有できます

httpswwwyoutubecomwatchv=9gDDO5ldT-4ampfeature=youtube

AI技術を利用したディープラーニング(深層学習)ツールキットです旧称「CNTK」から改名されました

ソースコード httpsgithubcomMicrosoftCNTK

SearchSpeech

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

コカコーラ誕生100周年キャンペーン

コカコーラボトルを「100歳」と認識

bull 自撮り写真をUp結果をSNS拡散

ナビタイムジャパン様

自然言語入力による路線検索BOT

bull ユーザーとの新たな接点(LINE)

bull 自然言語入力

Vision Language Knowledge

Vision Knowledge SearchSpeech Language

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

Microsoft SupportVirtual Agent

自然言語入力による自動応答サポート窓口

bull 過去QampAデータ解析に基づく回答抽出

bull 定型外はldquo人対応rdquo

UBER

登録ドライバーをスマホ経由で顔認証

VOLVO

表情からの危険予測

Search

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

アロバ様

監視カメラによる店舗内行動分析

bull 顔認識による 顧客識別

bull 表情分析

東京サマーランド様にて導入済み

HmComm様

コールセンターソリューション

bull 会話をテキスト化キーワードを解析

bull 過去QampA検索

bull 内容をCRM保存

Vision KnowledgeSpeech Language

導入事例東京サマーランド様

Video

Intelligent KioskhttpsgithubcomMicrosoftCognitive-Samples-IntelligentKiosk

ldquo(want to|request)rdquo

HoloLens

Page 30: やりたいことから考えるMicrosoft Azure 上の データストアの選び方とデータサイエンティスト向け活用法。KVSからDWHまで

物理マシン仮想マシン

VM Template Market place仮想マシン

Azure Database for MySQL PostgreSQL

論理データベース

Write

Write Ack

Ack

Read

value write

Ack

特徴

無停止フェールオーバー

無停止スケールアップ(プラン変更)

自動パフォーマンスチューニング

スループット指定によるプロビジョニング

データベース トランザクション ユニット (DTU) とエラスティック データベース トランザクション ユニット (eDTU) の説明

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-what-is-a-dtu

Azure SQL Database Query Performance Insight

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-query-performance

Query Store is turned on by default for Azure SQL Database

httpsazuremicrosoftcomja-jpupdatesquery-store-on-is-the-new-default-for-azure-sql-database

Queries

SQL Database

Deeper Insight

Query

Store

SQL Database Advisor

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-advisor

Azure Portal を使用した SQL Database Advisor

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-advisor-portal

領域 改善後

新しいインデックス提案が作成されるまで 18時間以内

T-SQL文が実行されるまでのタイムラグ 即時(数分以内)

「悪い」チューニング内容に対しての検知時間 1時間以内

次のインデックス提案が行われるまでの待ち時

間即時(数分以内)

導入までの総時間 1日以内

SQL Database の脅威の検出

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-threat-detection

コントロールノード

SQLDB

Azure Blob Storage(WASB)

100 DWU lt gt 2000 DWUコントロールノード

ユーザーからの接続コンピュートとストレージの調整

コンピュートノード

コンピュートノード

コンピュートノード

コンピュートノード

SQLDB

SQLDB

SQLDB

SQLDB

Azure Blob Storage(WASB)

コントロールノード

SQLDB コントロールノード

D51

D52

D53

D60

hellip

D41

D42

D43

D50

hellip

コンピュートノード

D31

D32

D33

D40hellip

D21

D22

D23

D30

hellip

D11

D12

D13

D20

hellip

D1

D2

D3

D10

hellip

SQL DB

Azure Blob Storage(WASB)

コントロールノード

SQLDB コントロールノード

コンピュートノード

D51

D52

D53

D60

hellipコンピュートノード

D41

D42

D43

D50

hellip

コンピュートノード

D31

D32

D33

D40hellip

コンピュートノード

D21

D22

D23

D30

hellip

コンピュートノード

D11

D12

D13

D20

hellip

コンピュートノード

D1

D2

D3

D10

hellip

SQL DB

SQL DB

SQL DB

SQL DB

SQL DB

SQL DB

54

データ無制限のストレージ と 分析プラットフォーム

無制限のストレージ(エクサバイト超)

ネイティブ HDFS に基づく実装

HDInsight Hortonworks Cloudera との統合

全ての HDFS 準拠プロジェクトとの親和性

(Spark Storm Flume Sqoop Kafka R etc)

Azure Data Lake Store- Hadoop Distributed File System (HDFS) For The Cloud

構造化データと非構造化データに対するデータ処理

宣言型の SQL 文 とカスタムコード (UDF UDT UDO hellip )

ローカルとリモートに対するクエリ

バッチ型インタラクティブ型ストリーミング型(in the future)

Azure Data Lake Analytics- New Query Language U-SQL

ETL パイプライン

スキーマの定義Relational

LOB

Applications

Schema-on-Write

直ちに必要でないデータは全て捨てられるかアーカイブされている

無限に保存 分析 結果の参照

あらゆるデータ

ソースからの

データ収集

Schema-on-Read

全データ取込要件にかかわらず

全データ格納そのままのフォーマットでスキーマ定義なし

分析実行Hadoopのような分析エンジンの利用

インタラクティブクエリ

バッチ型クエリ

機械学習

データウェアハウス

リアルタイム分析

リレーショナル

デバイス

観察仮説集まったデータから仮説をたてる

58

無制限のサイズ

ギガバイトからペタバイトのサイズの単一ファイル

巨大なスループットを必要とする大規模な分析システムを実現

あらゆるスループットに自動最適化

ペタバイト超のデータの並列コンピューティング

同一リージョン内に3つのコピーを自動的に作成

インストールやチューニングは不要

数分で稼働開始

必要に応じてどのようなサイズにもスケールアウト可能

データウェアハウスデータレイクストア

非構造Rawデータ(ログ文書バイナリ)

Tier 1

MachineLearning

Data LakeAnalytics HDInsight

目的に合わせた

データウェハウス分析処理

(売上分析経営分析)

データウェハウスに格納しきれなかった

過去データ関連データを連結して分析

ハードウェアの性能限界によって行えなかった処理量の分析を実現

ディスクコンピューティング

非構造データの

分析処理

(画像音声映像など)

広範囲のデータを利用した

機械学習統計解析処理

などによる高度分析

SQL Data Warehouse

Data LakeAnalytics HDInsight

Data LakeAnalytics

構造化データ半構造データ

分析用に加工(csv等)

Tier 2

アーカイブデータTier 2 DWHのアーカイブ

Tier 3

Analytics

Storage

HDInsight(ldquomanaged clustersrdquo)

Azure Data Lake Analytics

Azure Data Lake Store

Azure Data Lake

LOB Applications

SocialDevices

Clickstream

Sensors

Video

Web

Relational

HDInsight

Data Lake Analytics

Machine Learning

Spark

R

Azure Data Lake Store

Azure Data Lake Store

Azure Storage Blob

外部表Azure SQLData Warehouse

HDInsight

開発者は OSS に馴染んでいる Java Eclipse Hive etc

マネージド Hadoop クラスタにおいてカスタマイズ管理が可能でフレキシビリティがある

Azure Data Lake Analytics

C SQL amp PowerShell のスキル

経験を活かせる

利便性効率性自動スケール

ジョブ実行の仕組みが提供される

(New)

(New)

一般的なパターン

処理読み込み 保存

INSERT

OUTPUT

OUTPUT

SELECThellip

FROMhellip

WHEREhellip

+

PythonR

EXTRACT

EXTRACT

SELECT

SELECT

Azure

Data

Lake

Azure

Data

Lake

Azure

SQL

DB

Azure

Storage

Blobs

Azure

Storage

Blobs

RowSet RowSet

Cognitive Services

REFERENCE ASSEMBLY WebLogExtASM

rs =

EXTRACT

UserID string

Start DateTime

End DateTime

Region string

SitesVisited string

PagesVisited string

FROM ldquoLogsWebLogRecordstxtrdquo

USING WebLogExtractor ()

result = SELECT UserID

(EndSubtract(Start))TotalSeconds AS Duration

FROM rs ORDER BY Duration DESC FETCH 10

OUTPUT result TO ldquoLogsResultstop10tsv

USING OutputterTsv()

bull 型定義は C の型定義と同じ

bull データをファイルから抽出読み込み

するときにスキーマが必要

Data Lake Store 内 のファイル

独自形式を解析するカスタム関数

C の関数

行セット(中間テーブルの概念

に近い)

TSV形式で書き込む関数

U-SQL ジョブのサブミットAzure PortalやVisual StudioのAzure Data Lake ToolsからU-SQLジョブをサブミット可能

67

進捗

統計情報

従来型の処理分析 Azure Data Lake を中心とした処理分析

Business apps

Custom apps

Sensors and devices

ADL StorePeople

非構造化データも含めてあらゆるデータを格納

Azure SQL DW

Azure AD

Power BI

ADF

ADL Analytics

bull 処理分析業務の大半はデータ準備作業が占めるbull 処理分析業務に手間時間が必要

Business apps

Custom apps

Sensors and devices

HDInsight

ユーザー管理認証

データの連携

Power BI

File System

Database

Database

Hadoop

DWH

Data Mart

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

①大量データの受け入れ

②リアルタイム処理データの集約

③データの蓄積

構造化非構造化文書など様々な形式での保存

④データの加工移行

⑥機械学習

⑦Hadoop解析

⑧マイクロソフト技術を用いた分散解析

⑨通常のRMSが機能を追加した企業向けRを使用した解析

⑪クラウドベースの Self-Service BI 機能

⑫機械学習の予測モデルを業務システムなどから呼び出し可能にするサービス

外部クラウドなどからのデータ取り込み

②リアルタイム処理データの加工

⑤ディープラーニング

⑩Excelを用いた可視化

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

リアルタイム

バッチ

Data Factory Tools for Visual Studio

Azure Portal

Azure TableStorage

(Web ログレコード)

Data Factory

HDInsight

(Web ログをファイルにして

バッチ処理で集計)

SQL Database

(集計データをDB テーブルに格納)

Power BI

社内システム

DataManagement

Gateway

SQL Database

Data Warehouse

Blob Storage

Table Storage

httpportalazurecom

接続

メッセージ作成

メッセージ送信

var cs = ldquo接続文字列rdquovar path = ldquoイベントハブ名rdquovar eh = EventHubClientCreateFromConnectionString(cs path)

var msg = new user = thisUserIdentityNamelevel = leveltimestamp = demoTimestamp

var json = JsonConvertSerializeObject(msg)

ehSend(new EventData(EncodingUTF8GetBytes(json)))

EventProcessorHostを使う

bull

bull

bull

Functionsを使う

bull

bull

IEventProcessorProcessEventAsync(msg)

IEventProcessorProcessEventAsync(msg)

Run(string msg)

Azure azure-sdk-for-python

Point of Service Devices

Self CheckoutStations

Kiosks

Smart Phones

SlatesTablets

PCsLaptops

Servers

Digital Signs

DiagnosticEquipmentRemote Medical

MonitorsLogic

Controllers

SpecializedDevicesThin

Clients

Handhelds

Security

POS Terminals

AutomationDevices

VendingMachines

Kinect

ATM

Stream Analytics

入力 出力クエリデータストリーム

参照

bull ldquo入力rdquoldquo出力rdquoをクリックしそれぞれ作成

bull ldquoクエリrdquoをクリックしクエリを定義bull 作業が終わったらldquo開始rdquoで実

行開始

SELECT

INTO

FROM

SELECT user level AS SATLevel timestamp

INTO

FROM

デバイス接続性とデバイス管理およびブローカーサービス

データ管理と高度な分析 情報活用業務の生産性とプロセスの最適化

IoT Agent Gateway

予兆原因の学習モデル

ダッシュボード

参照ERPbull 顧客bull 設備bull 担当者

Notification Hubs

通知

予兆イベント

メンテ方法の推奨

bull ヘルス状態bull インシデント管理bull 対応のディスパッチ

現地技術要員のモバイルデバイス

オペレーションセンター

bull イベント ドア開閉軸アライメントキャビン速度モーター温度など

bull アラーム 故障アラームエラーコードなど

httpisstkeazurewebsitesnet

Event Hub

Stream Analytics

Azure ML

制御機器とセンサーのデータ

マシンデータの蓄積

メンテナンス方法の学習モデル

Machine Learning

Blob Storage

セルフサービス分析

Power BI

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce

cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-

system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of

your data while making it faster to get up and running with

batch streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources

so you can run queries on exabytes of data Includes U-

SQL a new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully

managed NoSQL database service that indexes stores and

queries data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

What do all of these have in common

They can all use Azure Analysis Services

Azure Analysis Services

Azure Analysis Services

BI semantic model

Business logic amp metrics

Data modeling

Security

Azure Analysis Services

Lifecycle management

In-memory cache

On-premises

Cloud

Data sources

SQL Database

SQL Data Warehouse

Other data sources

SQL Server

Analytics platform

system

Other data sources

On-premises

Cloud

Client tools

Power BI

Excel

Third party BI tools

Power BI Desktop

Rich semantic modelling

locatioidentifier

identifiertype

fieldidentifier

numberofunitssoldtodate

remaningnumber

Numberofuntissoldtoday

receivedback

productidentifier

descriptionline1

descriptionline2

qtyafterqtysales

familyidentifier

Source DataComplex raw data optimized for processing

Semantic ModelRich business user friendly semantic model

Product Id

Product Name

Product Description

Category

Category Id

Category Name

Category Description

Sub Category

Product Id

Shelf qty

Return qty

Order qty

Sale qty

Cloud Data

On-Premises

Data

Azure Analysis Services

Lightning fast queries

データ管理をきっかけに処理を実行

Web Glue

Bots IoT

DOMINOS STORES

Key Vault

Azure Active Directory

Azure Files

SSIS FRANCHISEE

AZURE WEST EUROPE

Azure Function

KEMPSSDESSRS

IN- AND EXTERNAL DATA SOURCES

orderprocessing

O365

App Insights

indexhtml

Azure Functions Proxies

couponprocessing

Use Bindings in Your Codefunctionjson

bindings [type httpTriggerdirection inwebHookType genericJsonname req

type httpdirection outname res

type queuename eventOutputqueueName aievents1connectionAiStorageConnectiondirection out

]

public static class OrderHandler

[FunctionName(OrderWebhook)]public static async TaskltHttpResponseMessagegt Run(

[HttpTrigger] HttpRequestMessage req[Queue(aievents1 Connection = AiStorageConnection)]

IAsyncCollectorltStringgt eventOutputTraceWriter log)

logInfo($Webhook was triggered)

string jsonContent = await reqContentReadAsStringAsync()dynamic data = JsonConvertDeserializeObject(jsonContent)

await eventOutputAddAsync(JsonConvertSerializeObject(GetLogData(data)))

int orderId = PlaceOrder(data)

return reqCreateResponse(HttpStatusCodeOK new orderNumber = orderId )

bull Workflow in the cloud

bull Powerful control flow

bull Connect functions and APIs

bull Declarative definition to persist in source control and drive deployments

Logic AppsCloud APIs and platform

bull Supports over 125 built-in connectors

bull Scales to meet your needs

bull Enables rapid development

bull Extends with custom APIs and

Functions

API connections

bull Authenticate once and reuse

Big Data Solutions Decision Tree

httpsbiz-excellencecom20160830big-data-dt

Machine Learning Solutions Decision Tree

httpsbiz-excellencecom20160913machine-

learning-dt

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of your

data while making it faster to get up and running with batch

streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources so

you can run queries on exabytes of data Includes U-SQL a

new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully managed

NoSQL database service that indexes stores and queries

data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

Microsoft Big Data Portfolio

SQL Server Stretch

Business intelligence

Machine learning analytics

Insights

Azure SQL Database

SQL Server 2016

SQL Server 2016 Fast Track

Azure SQL DW

ADLS amp ADLA

DocumentDB

HDInsight

Hadoop

Analytics Platform System

Sequential Scale Out + AcrossScale Up

Key

Relational Non-relational

On

-pre

mis

es

Clo

ud

Microsoft has solutions covering

and connecting all four

quadrants ndash thatrsquos why SQL

Server is one of the most utilized

databases in the world

Azure

Data Lake Store

Azure

Blob StoragePurpose Optimized for big data analytics General purpose bulk storage

Use Cases Batch Interactive Streaming App backend backup data media storage for

streaming

Units of Storage Accounts Folders Files Accounts Containers Blobs

Structure Hierarchical File System Flat namespace

WebHDFS Implements WebHDFS No (WASB)

Security AD SAS keys

Storage Auto SharedFiles chunked Manually manage expansionFiles intact

Service State Generally Available PolyBase

just supported

Generally Available

Billing Pay for data stored and for IO Pay for data stored and for IO

Region Availability Two US regions (Other regions coming soon) All Azure Regions

ADL Store vs Blob Store

httpsdocsmicrosoftcomen-usazuredata-lake-storedata-lake-store-comparison-with-blob-storage

Want Hadoop

Need exact same on-prem

Need interactive streaming

MandatoryNo strong opinion

Azure Marketplace (IaaS)

bull Need all workloads exactly like on-

premises

bull Need 100 HortonworksClouderaMapR

Azure HDInsight

bull Most Hadoop workloads

bull Fully managed by Microsoft

bull Sell HDI + ADLS

bull Stickier to Microsoft than VMs

bull Can do interactive (Spark) and streaming

(StormSpark)

Azure Data Lake Analytics

bull Easiest experience for admin no sense of

clusters instant scale per job

bull Easiest experience for developers Visual

StudioU-SQL (C+SQL)

bull Sell ADLA + ADLS

bull Batch workloads only

Need everything exactly like on-prem

Need core projects Yes Batch is OK

Always present ADLA if NET or Visual Studio Shop

If NET or VS shop

Azure SQL DW HDInsight Hive HDInsight Spark Azure Data Lake SQL Server (IaaS)

Volume Petabytes Petabytes Petabytes Petabytes Terabytes

Security Encryption TD

Audit

ADLS Apache

Ranger

ADLS AAD Security

Groups (data)

Encryption TD

Audit

Languages T-SQL HiveQL SparkSQL HiveQL

Scala Java Python

R

U-SQL T-SQL

Extensibility No Yes NETSerDe Yes Packages Yes NET Yes NET CLR

External File

Types

ORC TXT

Parquet RCFile

ORC CSV Parquet

+ others

Parquet JSON

Hive + others

Many ORC TXT Parquet

RCFile

Admin Low-Medium Medium-High Medium-High Low High

Cost Model DWU Nodes amp VM Nodes amp VM UnitsJobs VM

Schema

Definition

Schema on Write

Polybase

Schema on Read Schema on Read Schema on Read Schema on Write

Polybase

Max DB Size 240TB Comp (5X

= 1PB)

Unlimited 64TB (64 1TB drives)

機械学習 Deep Learning 深層強化学習

画像解析

音声解析

データ分類異常検知 顧客グルーピング

数値予測売上予測 需要予測 品質管理

ラベル分類不良品分析 故障予測 チャーン分析

機械学習より強力な分析

自律学習型ロボット

自動運転車

テキストや画像等の自動生成

活用例

主に多層のニューラルネットワークを用いた手法での分析

分析のためには莫大なデータ量計算量知識スキルを要する

統計に基づいた手法での分析

そのため比較的少ないデータ量と計算量で分析を行うことができる

定義したあるべき姿に従い試行錯誤をして自ら学習を行うための分析手法である強化学習と深層学習を組み合わせた分析

Azure Machine Learning Cognitive Toolkit GPU Instance (N-Series)

マイクロソフトが提供する技術

テキストデータ機器のログデータなど

画像データ監視カメラの録画データ 機器の外観画像 顔画像など

動画データ監視カメラの録画データ 機器の稼働状況 人の作業映像など

音声データマイクからの収集データ 稼働音 室内音 人の音声など

数値データセンサーデータ 機器の制御データ計測データなど672342345

機械学習統計理論に基づいた分析手法を用いる用意するべきデータ量と処理する計算量の敷居が低め導入しやすい

Deep Learningデータ量が大きいため強力な分析手法が必要「膨大なデータ量を用意」「莫大な計算量を処理」が必要で敷居が非常に高い導入にはそれなりの覚悟が必要

Action

People

Automated Systems

Apps

Web

Mobile

Bots

Intelligence

Dashboards amp Visualizations

Cortana

Bot Framework

Cognitive Services

Power BI

Information Management

Event Hubs

Data Catalog

Data Factory

Machine Learning and Analytics

HDInsight

Stream Analytics

Intelligence

Data Lake Analytics

Machine Learning

Big Data Stores

SQL Data Warehouse

Data Lake Store

Data Sources

Apps

Sensors amp Devices

Data

Cortana Intelligence Suite

学習済み

モデル利用

学習モデル

作成

機械学習 教師あり学習

教師なし学習

強化学習

決定木

線形回帰

SVM

ロジスティック回帰

ニューラルネットワーク

クラスタリング

次元削減

Q学習

K-mean法

主成分分析

正準相関分析

ディープニューラルネットワーク

畳みこみニューラルネットワーク

再帰的ニューラルネットワーク

回帰結合ニューラルネットワーク

httpsazuremicrosoftcomen-usservicescognitive-services

わずか数行のコードで強力なアルゴリズムを持つアプリの作成が可能ですiOSAndroidWindows などのプラットフォームを問わず機能します

httpsazuremicrosoftcomja-jpservicesmachine-learning

ユーザーは簡単に予測分析ソリューションを構築デプロイ共有できます

httpswwwyoutubecomwatchv=9gDDO5ldT-4ampfeature=youtube

AI技術を利用したディープラーニング(深層学習)ツールキットです旧称「CNTK」から改名されました

ソースコード httpsgithubcomMicrosoftCNTK

SearchSpeech

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

コカコーラ誕生100周年キャンペーン

コカコーラボトルを「100歳」と認識

bull 自撮り写真をUp結果をSNS拡散

ナビタイムジャパン様

自然言語入力による路線検索BOT

bull ユーザーとの新たな接点(LINE)

bull 自然言語入力

Vision Language Knowledge

Vision Knowledge SearchSpeech Language

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

Microsoft SupportVirtual Agent

自然言語入力による自動応答サポート窓口

bull 過去QampAデータ解析に基づく回答抽出

bull 定型外はldquo人対応rdquo

UBER

登録ドライバーをスマホ経由で顔認証

VOLVO

表情からの危険予測

Search

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

アロバ様

監視カメラによる店舗内行動分析

bull 顔認識による 顧客識別

bull 表情分析

東京サマーランド様にて導入済み

HmComm様

コールセンターソリューション

bull 会話をテキスト化キーワードを解析

bull 過去QampA検索

bull 内容をCRM保存

Vision KnowledgeSpeech Language

導入事例東京サマーランド様

Video

Intelligent KioskhttpsgithubcomMicrosoftCognitive-Samples-IntelligentKiosk

ldquo(want to|request)rdquo

HoloLens

Page 31: やりたいことから考えるMicrosoft Azure 上の データストアの選び方とデータサイエンティスト向け活用法。KVSからDWHまで

論理データベース

Write

Write Ack

Ack

Read

value write

Ack

特徴

無停止フェールオーバー

無停止スケールアップ(プラン変更)

自動パフォーマンスチューニング

スループット指定によるプロビジョニング

データベース トランザクション ユニット (DTU) とエラスティック データベース トランザクション ユニット (eDTU) の説明

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-what-is-a-dtu

Azure SQL Database Query Performance Insight

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-query-performance

Query Store is turned on by default for Azure SQL Database

httpsazuremicrosoftcomja-jpupdatesquery-store-on-is-the-new-default-for-azure-sql-database

Queries

SQL Database

Deeper Insight

Query

Store

SQL Database Advisor

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-advisor

Azure Portal を使用した SQL Database Advisor

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-advisor-portal

領域 改善後

新しいインデックス提案が作成されるまで 18時間以内

T-SQL文が実行されるまでのタイムラグ 即時(数分以内)

「悪い」チューニング内容に対しての検知時間 1時間以内

次のインデックス提案が行われるまでの待ち時

間即時(数分以内)

導入までの総時間 1日以内

SQL Database の脅威の検出

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-threat-detection

コントロールノード

SQLDB

Azure Blob Storage(WASB)

100 DWU lt gt 2000 DWUコントロールノード

ユーザーからの接続コンピュートとストレージの調整

コンピュートノード

コンピュートノード

コンピュートノード

コンピュートノード

SQLDB

SQLDB

SQLDB

SQLDB

Azure Blob Storage(WASB)

コントロールノード

SQLDB コントロールノード

D51

D52

D53

D60

hellip

D41

D42

D43

D50

hellip

コンピュートノード

D31

D32

D33

D40hellip

D21

D22

D23

D30

hellip

D11

D12

D13

D20

hellip

D1

D2

D3

D10

hellip

SQL DB

Azure Blob Storage(WASB)

コントロールノード

SQLDB コントロールノード

コンピュートノード

D51

D52

D53

D60

hellipコンピュートノード

D41

D42

D43

D50

hellip

コンピュートノード

D31

D32

D33

D40hellip

コンピュートノード

D21

D22

D23

D30

hellip

コンピュートノード

D11

D12

D13

D20

hellip

コンピュートノード

D1

D2

D3

D10

hellip

SQL DB

SQL DB

SQL DB

SQL DB

SQL DB

SQL DB

54

データ無制限のストレージ と 分析プラットフォーム

無制限のストレージ(エクサバイト超)

ネイティブ HDFS に基づく実装

HDInsight Hortonworks Cloudera との統合

全ての HDFS 準拠プロジェクトとの親和性

(Spark Storm Flume Sqoop Kafka R etc)

Azure Data Lake Store- Hadoop Distributed File System (HDFS) For The Cloud

構造化データと非構造化データに対するデータ処理

宣言型の SQL 文 とカスタムコード (UDF UDT UDO hellip )

ローカルとリモートに対するクエリ

バッチ型インタラクティブ型ストリーミング型(in the future)

Azure Data Lake Analytics- New Query Language U-SQL

ETL パイプライン

スキーマの定義Relational

LOB

Applications

Schema-on-Write

直ちに必要でないデータは全て捨てられるかアーカイブされている

無限に保存 分析 結果の参照

あらゆるデータ

ソースからの

データ収集

Schema-on-Read

全データ取込要件にかかわらず

全データ格納そのままのフォーマットでスキーマ定義なし

分析実行Hadoopのような分析エンジンの利用

インタラクティブクエリ

バッチ型クエリ

機械学習

データウェアハウス

リアルタイム分析

リレーショナル

デバイス

観察仮説集まったデータから仮説をたてる

58

無制限のサイズ

ギガバイトからペタバイトのサイズの単一ファイル

巨大なスループットを必要とする大規模な分析システムを実現

あらゆるスループットに自動最適化

ペタバイト超のデータの並列コンピューティング

同一リージョン内に3つのコピーを自動的に作成

インストールやチューニングは不要

数分で稼働開始

必要に応じてどのようなサイズにもスケールアウト可能

データウェアハウスデータレイクストア

非構造Rawデータ(ログ文書バイナリ)

Tier 1

MachineLearning

Data LakeAnalytics HDInsight

目的に合わせた

データウェハウス分析処理

(売上分析経営分析)

データウェハウスに格納しきれなかった

過去データ関連データを連結して分析

ハードウェアの性能限界によって行えなかった処理量の分析を実現

ディスクコンピューティング

非構造データの

分析処理

(画像音声映像など)

広範囲のデータを利用した

機械学習統計解析処理

などによる高度分析

SQL Data Warehouse

Data LakeAnalytics HDInsight

Data LakeAnalytics

構造化データ半構造データ

分析用に加工(csv等)

Tier 2

アーカイブデータTier 2 DWHのアーカイブ

Tier 3

Analytics

Storage

HDInsight(ldquomanaged clustersrdquo)

Azure Data Lake Analytics

Azure Data Lake Store

Azure Data Lake

LOB Applications

SocialDevices

Clickstream

Sensors

Video

Web

Relational

HDInsight

Data Lake Analytics

Machine Learning

Spark

R

Azure Data Lake Store

Azure Data Lake Store

Azure Storage Blob

外部表Azure SQLData Warehouse

HDInsight

開発者は OSS に馴染んでいる Java Eclipse Hive etc

マネージド Hadoop クラスタにおいてカスタマイズ管理が可能でフレキシビリティがある

Azure Data Lake Analytics

C SQL amp PowerShell のスキル

経験を活かせる

利便性効率性自動スケール

ジョブ実行の仕組みが提供される

(New)

(New)

一般的なパターン

処理読み込み 保存

INSERT

OUTPUT

OUTPUT

SELECThellip

FROMhellip

WHEREhellip

+

PythonR

EXTRACT

EXTRACT

SELECT

SELECT

Azure

Data

Lake

Azure

Data

Lake

Azure

SQL

DB

Azure

Storage

Blobs

Azure

Storage

Blobs

RowSet RowSet

Cognitive Services

REFERENCE ASSEMBLY WebLogExtASM

rs =

EXTRACT

UserID string

Start DateTime

End DateTime

Region string

SitesVisited string

PagesVisited string

FROM ldquoLogsWebLogRecordstxtrdquo

USING WebLogExtractor ()

result = SELECT UserID

(EndSubtract(Start))TotalSeconds AS Duration

FROM rs ORDER BY Duration DESC FETCH 10

OUTPUT result TO ldquoLogsResultstop10tsv

USING OutputterTsv()

bull 型定義は C の型定義と同じ

bull データをファイルから抽出読み込み

するときにスキーマが必要

Data Lake Store 内 のファイル

独自形式を解析するカスタム関数

C の関数

行セット(中間テーブルの概念

に近い)

TSV形式で書き込む関数

U-SQL ジョブのサブミットAzure PortalやVisual StudioのAzure Data Lake ToolsからU-SQLジョブをサブミット可能

67

進捗

統計情報

従来型の処理分析 Azure Data Lake を中心とした処理分析

Business apps

Custom apps

Sensors and devices

ADL StorePeople

非構造化データも含めてあらゆるデータを格納

Azure SQL DW

Azure AD

Power BI

ADF

ADL Analytics

bull 処理分析業務の大半はデータ準備作業が占めるbull 処理分析業務に手間時間が必要

Business apps

Custom apps

Sensors and devices

HDInsight

ユーザー管理認証

データの連携

Power BI

File System

Database

Database

Hadoop

DWH

Data Mart

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

①大量データの受け入れ

②リアルタイム処理データの集約

③データの蓄積

構造化非構造化文書など様々な形式での保存

④データの加工移行

⑥機械学習

⑦Hadoop解析

⑧マイクロソフト技術を用いた分散解析

⑨通常のRMSが機能を追加した企業向けRを使用した解析

⑪クラウドベースの Self-Service BI 機能

⑫機械学習の予測モデルを業務システムなどから呼び出し可能にするサービス

外部クラウドなどからのデータ取り込み

②リアルタイム処理データの加工

⑤ディープラーニング

⑩Excelを用いた可視化

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

リアルタイム

バッチ

Data Factory Tools for Visual Studio

Azure Portal

Azure TableStorage

(Web ログレコード)

Data Factory

HDInsight

(Web ログをファイルにして

バッチ処理で集計)

SQL Database

(集計データをDB テーブルに格納)

Power BI

社内システム

DataManagement

Gateway

SQL Database

Data Warehouse

Blob Storage

Table Storage

httpportalazurecom

接続

メッセージ作成

メッセージ送信

var cs = ldquo接続文字列rdquovar path = ldquoイベントハブ名rdquovar eh = EventHubClientCreateFromConnectionString(cs path)

var msg = new user = thisUserIdentityNamelevel = leveltimestamp = demoTimestamp

var json = JsonConvertSerializeObject(msg)

ehSend(new EventData(EncodingUTF8GetBytes(json)))

EventProcessorHostを使う

bull

bull

bull

Functionsを使う

bull

bull

IEventProcessorProcessEventAsync(msg)

IEventProcessorProcessEventAsync(msg)

Run(string msg)

Azure azure-sdk-for-python

Point of Service Devices

Self CheckoutStations

Kiosks

Smart Phones

SlatesTablets

PCsLaptops

Servers

Digital Signs

DiagnosticEquipmentRemote Medical

MonitorsLogic

Controllers

SpecializedDevicesThin

Clients

Handhelds

Security

POS Terminals

AutomationDevices

VendingMachines

Kinect

ATM

Stream Analytics

入力 出力クエリデータストリーム

参照

bull ldquo入力rdquoldquo出力rdquoをクリックしそれぞれ作成

bull ldquoクエリrdquoをクリックしクエリを定義bull 作業が終わったらldquo開始rdquoで実

行開始

SELECT

INTO

FROM

SELECT user level AS SATLevel timestamp

INTO

FROM

デバイス接続性とデバイス管理およびブローカーサービス

データ管理と高度な分析 情報活用業務の生産性とプロセスの最適化

IoT Agent Gateway

予兆原因の学習モデル

ダッシュボード

参照ERPbull 顧客bull 設備bull 担当者

Notification Hubs

通知

予兆イベント

メンテ方法の推奨

bull ヘルス状態bull インシデント管理bull 対応のディスパッチ

現地技術要員のモバイルデバイス

オペレーションセンター

bull イベント ドア開閉軸アライメントキャビン速度モーター温度など

bull アラーム 故障アラームエラーコードなど

httpisstkeazurewebsitesnet

Event Hub

Stream Analytics

Azure ML

制御機器とセンサーのデータ

マシンデータの蓄積

メンテナンス方法の学習モデル

Machine Learning

Blob Storage

セルフサービス分析

Power BI

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce

cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-

system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of

your data while making it faster to get up and running with

batch streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources

so you can run queries on exabytes of data Includes U-

SQL a new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully

managed NoSQL database service that indexes stores and

queries data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

What do all of these have in common

They can all use Azure Analysis Services

Azure Analysis Services

Azure Analysis Services

BI semantic model

Business logic amp metrics

Data modeling

Security

Azure Analysis Services

Lifecycle management

In-memory cache

On-premises

Cloud

Data sources

SQL Database

SQL Data Warehouse

Other data sources

SQL Server

Analytics platform

system

Other data sources

On-premises

Cloud

Client tools

Power BI

Excel

Third party BI tools

Power BI Desktop

Rich semantic modelling

locatioidentifier

identifiertype

fieldidentifier

numberofunitssoldtodate

remaningnumber

Numberofuntissoldtoday

receivedback

productidentifier

descriptionline1

descriptionline2

qtyafterqtysales

familyidentifier

Source DataComplex raw data optimized for processing

Semantic ModelRich business user friendly semantic model

Product Id

Product Name

Product Description

Category

Category Id

Category Name

Category Description

Sub Category

Product Id

Shelf qty

Return qty

Order qty

Sale qty

Cloud Data

On-Premises

Data

Azure Analysis Services

Lightning fast queries

データ管理をきっかけに処理を実行

Web Glue

Bots IoT

DOMINOS STORES

Key Vault

Azure Active Directory

Azure Files

SSIS FRANCHISEE

AZURE WEST EUROPE

Azure Function

KEMPSSDESSRS

IN- AND EXTERNAL DATA SOURCES

orderprocessing

O365

App Insights

indexhtml

Azure Functions Proxies

couponprocessing

Use Bindings in Your Codefunctionjson

bindings [type httpTriggerdirection inwebHookType genericJsonname req

type httpdirection outname res

type queuename eventOutputqueueName aievents1connectionAiStorageConnectiondirection out

]

public static class OrderHandler

[FunctionName(OrderWebhook)]public static async TaskltHttpResponseMessagegt Run(

[HttpTrigger] HttpRequestMessage req[Queue(aievents1 Connection = AiStorageConnection)]

IAsyncCollectorltStringgt eventOutputTraceWriter log)

logInfo($Webhook was triggered)

string jsonContent = await reqContentReadAsStringAsync()dynamic data = JsonConvertDeserializeObject(jsonContent)

await eventOutputAddAsync(JsonConvertSerializeObject(GetLogData(data)))

int orderId = PlaceOrder(data)

return reqCreateResponse(HttpStatusCodeOK new orderNumber = orderId )

bull Workflow in the cloud

bull Powerful control flow

bull Connect functions and APIs

bull Declarative definition to persist in source control and drive deployments

Logic AppsCloud APIs and platform

bull Supports over 125 built-in connectors

bull Scales to meet your needs

bull Enables rapid development

bull Extends with custom APIs and

Functions

API connections

bull Authenticate once and reuse

Big Data Solutions Decision Tree

httpsbiz-excellencecom20160830big-data-dt

Machine Learning Solutions Decision Tree

httpsbiz-excellencecom20160913machine-

learning-dt

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of your

data while making it faster to get up and running with batch

streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources so

you can run queries on exabytes of data Includes U-SQL a

new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully managed

NoSQL database service that indexes stores and queries

data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

Microsoft Big Data Portfolio

SQL Server Stretch

Business intelligence

Machine learning analytics

Insights

Azure SQL Database

SQL Server 2016

SQL Server 2016 Fast Track

Azure SQL DW

ADLS amp ADLA

DocumentDB

HDInsight

Hadoop

Analytics Platform System

Sequential Scale Out + AcrossScale Up

Key

Relational Non-relational

On

-pre

mis

es

Clo

ud

Microsoft has solutions covering

and connecting all four

quadrants ndash thatrsquos why SQL

Server is one of the most utilized

databases in the world

Azure

Data Lake Store

Azure

Blob StoragePurpose Optimized for big data analytics General purpose bulk storage

Use Cases Batch Interactive Streaming App backend backup data media storage for

streaming

Units of Storage Accounts Folders Files Accounts Containers Blobs

Structure Hierarchical File System Flat namespace

WebHDFS Implements WebHDFS No (WASB)

Security AD SAS keys

Storage Auto SharedFiles chunked Manually manage expansionFiles intact

Service State Generally Available PolyBase

just supported

Generally Available

Billing Pay for data stored and for IO Pay for data stored and for IO

Region Availability Two US regions (Other regions coming soon) All Azure Regions

ADL Store vs Blob Store

httpsdocsmicrosoftcomen-usazuredata-lake-storedata-lake-store-comparison-with-blob-storage

Want Hadoop

Need exact same on-prem

Need interactive streaming

MandatoryNo strong opinion

Azure Marketplace (IaaS)

bull Need all workloads exactly like on-

premises

bull Need 100 HortonworksClouderaMapR

Azure HDInsight

bull Most Hadoop workloads

bull Fully managed by Microsoft

bull Sell HDI + ADLS

bull Stickier to Microsoft than VMs

bull Can do interactive (Spark) and streaming

(StormSpark)

Azure Data Lake Analytics

bull Easiest experience for admin no sense of

clusters instant scale per job

bull Easiest experience for developers Visual

StudioU-SQL (C+SQL)

bull Sell ADLA + ADLS

bull Batch workloads only

Need everything exactly like on-prem

Need core projects Yes Batch is OK

Always present ADLA if NET or Visual Studio Shop

If NET or VS shop

Azure SQL DW HDInsight Hive HDInsight Spark Azure Data Lake SQL Server (IaaS)

Volume Petabytes Petabytes Petabytes Petabytes Terabytes

Security Encryption TD

Audit

ADLS Apache

Ranger

ADLS AAD Security

Groups (data)

Encryption TD

Audit

Languages T-SQL HiveQL SparkSQL HiveQL

Scala Java Python

R

U-SQL T-SQL

Extensibility No Yes NETSerDe Yes Packages Yes NET Yes NET CLR

External File

Types

ORC TXT

Parquet RCFile

ORC CSV Parquet

+ others

Parquet JSON

Hive + others

Many ORC TXT Parquet

RCFile

Admin Low-Medium Medium-High Medium-High Low High

Cost Model DWU Nodes amp VM Nodes amp VM UnitsJobs VM

Schema

Definition

Schema on Write

Polybase

Schema on Read Schema on Read Schema on Read Schema on Write

Polybase

Max DB Size 240TB Comp (5X

= 1PB)

Unlimited 64TB (64 1TB drives)

機械学習 Deep Learning 深層強化学習

画像解析

音声解析

データ分類異常検知 顧客グルーピング

数値予測売上予測 需要予測 品質管理

ラベル分類不良品分析 故障予測 チャーン分析

機械学習より強力な分析

自律学習型ロボット

自動運転車

テキストや画像等の自動生成

活用例

主に多層のニューラルネットワークを用いた手法での分析

分析のためには莫大なデータ量計算量知識スキルを要する

統計に基づいた手法での分析

そのため比較的少ないデータ量と計算量で分析を行うことができる

定義したあるべき姿に従い試行錯誤をして自ら学習を行うための分析手法である強化学習と深層学習を組み合わせた分析

Azure Machine Learning Cognitive Toolkit GPU Instance (N-Series)

マイクロソフトが提供する技術

テキストデータ機器のログデータなど

画像データ監視カメラの録画データ 機器の外観画像 顔画像など

動画データ監視カメラの録画データ 機器の稼働状況 人の作業映像など

音声データマイクからの収集データ 稼働音 室内音 人の音声など

数値データセンサーデータ 機器の制御データ計測データなど672342345

機械学習統計理論に基づいた分析手法を用いる用意するべきデータ量と処理する計算量の敷居が低め導入しやすい

Deep Learningデータ量が大きいため強力な分析手法が必要「膨大なデータ量を用意」「莫大な計算量を処理」が必要で敷居が非常に高い導入にはそれなりの覚悟が必要

Action

People

Automated Systems

Apps

Web

Mobile

Bots

Intelligence

Dashboards amp Visualizations

Cortana

Bot Framework

Cognitive Services

Power BI

Information Management

Event Hubs

Data Catalog

Data Factory

Machine Learning and Analytics

HDInsight

Stream Analytics

Intelligence

Data Lake Analytics

Machine Learning

Big Data Stores

SQL Data Warehouse

Data Lake Store

Data Sources

Apps

Sensors amp Devices

Data

Cortana Intelligence Suite

学習済み

モデル利用

学習モデル

作成

機械学習 教師あり学習

教師なし学習

強化学習

決定木

線形回帰

SVM

ロジスティック回帰

ニューラルネットワーク

クラスタリング

次元削減

Q学習

K-mean法

主成分分析

正準相関分析

ディープニューラルネットワーク

畳みこみニューラルネットワーク

再帰的ニューラルネットワーク

回帰結合ニューラルネットワーク

httpsazuremicrosoftcomen-usservicescognitive-services

わずか数行のコードで強力なアルゴリズムを持つアプリの作成が可能ですiOSAndroidWindows などのプラットフォームを問わず機能します

httpsazuremicrosoftcomja-jpservicesmachine-learning

ユーザーは簡単に予測分析ソリューションを構築デプロイ共有できます

httpswwwyoutubecomwatchv=9gDDO5ldT-4ampfeature=youtube

AI技術を利用したディープラーニング(深層学習)ツールキットです旧称「CNTK」から改名されました

ソースコード httpsgithubcomMicrosoftCNTK

SearchSpeech

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

コカコーラ誕生100周年キャンペーン

コカコーラボトルを「100歳」と認識

bull 自撮り写真をUp結果をSNS拡散

ナビタイムジャパン様

自然言語入力による路線検索BOT

bull ユーザーとの新たな接点(LINE)

bull 自然言語入力

Vision Language Knowledge

Vision Knowledge SearchSpeech Language

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

Microsoft SupportVirtual Agent

自然言語入力による自動応答サポート窓口

bull 過去QampAデータ解析に基づく回答抽出

bull 定型外はldquo人対応rdquo

UBER

登録ドライバーをスマホ経由で顔認証

VOLVO

表情からの危険予測

Search

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

アロバ様

監視カメラによる店舗内行動分析

bull 顔認識による 顧客識別

bull 表情分析

東京サマーランド様にて導入済み

HmComm様

コールセンターソリューション

bull 会話をテキスト化キーワードを解析

bull 過去QampA検索

bull 内容をCRM保存

Vision KnowledgeSpeech Language

導入事例東京サマーランド様

Video

Intelligent KioskhttpsgithubcomMicrosoftCognitive-Samples-IntelligentKiosk

ldquo(want to|request)rdquo

HoloLens

Page 32: やりたいことから考えるMicrosoft Azure 上の データストアの選び方とデータサイエンティスト向け活用法。KVSからDWHまで

データベース トランザクション ユニット (DTU) とエラスティック データベース トランザクション ユニット (eDTU) の説明

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-what-is-a-dtu

Azure SQL Database Query Performance Insight

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-query-performance

Query Store is turned on by default for Azure SQL Database

httpsazuremicrosoftcomja-jpupdatesquery-store-on-is-the-new-default-for-azure-sql-database

Queries

SQL Database

Deeper Insight

Query

Store

SQL Database Advisor

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-advisor

Azure Portal を使用した SQL Database Advisor

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-advisor-portal

領域 改善後

新しいインデックス提案が作成されるまで 18時間以内

T-SQL文が実行されるまでのタイムラグ 即時(数分以内)

「悪い」チューニング内容に対しての検知時間 1時間以内

次のインデックス提案が行われるまでの待ち時

間即時(数分以内)

導入までの総時間 1日以内

SQL Database の脅威の検出

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-threat-detection

コントロールノード

SQLDB

Azure Blob Storage(WASB)

100 DWU lt gt 2000 DWUコントロールノード

ユーザーからの接続コンピュートとストレージの調整

コンピュートノード

コンピュートノード

コンピュートノード

コンピュートノード

SQLDB

SQLDB

SQLDB

SQLDB

Azure Blob Storage(WASB)

コントロールノード

SQLDB コントロールノード

D51

D52

D53

D60

hellip

D41

D42

D43

D50

hellip

コンピュートノード

D31

D32

D33

D40hellip

D21

D22

D23

D30

hellip

D11

D12

D13

D20

hellip

D1

D2

D3

D10

hellip

SQL DB

Azure Blob Storage(WASB)

コントロールノード

SQLDB コントロールノード

コンピュートノード

D51

D52

D53

D60

hellipコンピュートノード

D41

D42

D43

D50

hellip

コンピュートノード

D31

D32

D33

D40hellip

コンピュートノード

D21

D22

D23

D30

hellip

コンピュートノード

D11

D12

D13

D20

hellip

コンピュートノード

D1

D2

D3

D10

hellip

SQL DB

SQL DB

SQL DB

SQL DB

SQL DB

SQL DB

54

データ無制限のストレージ と 分析プラットフォーム

無制限のストレージ(エクサバイト超)

ネイティブ HDFS に基づく実装

HDInsight Hortonworks Cloudera との統合

全ての HDFS 準拠プロジェクトとの親和性

(Spark Storm Flume Sqoop Kafka R etc)

Azure Data Lake Store- Hadoop Distributed File System (HDFS) For The Cloud

構造化データと非構造化データに対するデータ処理

宣言型の SQL 文 とカスタムコード (UDF UDT UDO hellip )

ローカルとリモートに対するクエリ

バッチ型インタラクティブ型ストリーミング型(in the future)

Azure Data Lake Analytics- New Query Language U-SQL

ETL パイプライン

スキーマの定義Relational

LOB

Applications

Schema-on-Write

直ちに必要でないデータは全て捨てられるかアーカイブされている

無限に保存 分析 結果の参照

あらゆるデータ

ソースからの

データ収集

Schema-on-Read

全データ取込要件にかかわらず

全データ格納そのままのフォーマットでスキーマ定義なし

分析実行Hadoopのような分析エンジンの利用

インタラクティブクエリ

バッチ型クエリ

機械学習

データウェアハウス

リアルタイム分析

リレーショナル

デバイス

観察仮説集まったデータから仮説をたてる

58

無制限のサイズ

ギガバイトからペタバイトのサイズの単一ファイル

巨大なスループットを必要とする大規模な分析システムを実現

あらゆるスループットに自動最適化

ペタバイト超のデータの並列コンピューティング

同一リージョン内に3つのコピーを自動的に作成

インストールやチューニングは不要

数分で稼働開始

必要に応じてどのようなサイズにもスケールアウト可能

データウェアハウスデータレイクストア

非構造Rawデータ(ログ文書バイナリ)

Tier 1

MachineLearning

Data LakeAnalytics HDInsight

目的に合わせた

データウェハウス分析処理

(売上分析経営分析)

データウェハウスに格納しきれなかった

過去データ関連データを連結して分析

ハードウェアの性能限界によって行えなかった処理量の分析を実現

ディスクコンピューティング

非構造データの

分析処理

(画像音声映像など)

広範囲のデータを利用した

機械学習統計解析処理

などによる高度分析

SQL Data Warehouse

Data LakeAnalytics HDInsight

Data LakeAnalytics

構造化データ半構造データ

分析用に加工(csv等)

Tier 2

アーカイブデータTier 2 DWHのアーカイブ

Tier 3

Analytics

Storage

HDInsight(ldquomanaged clustersrdquo)

Azure Data Lake Analytics

Azure Data Lake Store

Azure Data Lake

LOB Applications

SocialDevices

Clickstream

Sensors

Video

Web

Relational

HDInsight

Data Lake Analytics

Machine Learning

Spark

R

Azure Data Lake Store

Azure Data Lake Store

Azure Storage Blob

外部表Azure SQLData Warehouse

HDInsight

開発者は OSS に馴染んでいる Java Eclipse Hive etc

マネージド Hadoop クラスタにおいてカスタマイズ管理が可能でフレキシビリティがある

Azure Data Lake Analytics

C SQL amp PowerShell のスキル

経験を活かせる

利便性効率性自動スケール

ジョブ実行の仕組みが提供される

(New)

(New)

一般的なパターン

処理読み込み 保存

INSERT

OUTPUT

OUTPUT

SELECThellip

FROMhellip

WHEREhellip

+

PythonR

EXTRACT

EXTRACT

SELECT

SELECT

Azure

Data

Lake

Azure

Data

Lake

Azure

SQL

DB

Azure

Storage

Blobs

Azure

Storage

Blobs

RowSet RowSet

Cognitive Services

REFERENCE ASSEMBLY WebLogExtASM

rs =

EXTRACT

UserID string

Start DateTime

End DateTime

Region string

SitesVisited string

PagesVisited string

FROM ldquoLogsWebLogRecordstxtrdquo

USING WebLogExtractor ()

result = SELECT UserID

(EndSubtract(Start))TotalSeconds AS Duration

FROM rs ORDER BY Duration DESC FETCH 10

OUTPUT result TO ldquoLogsResultstop10tsv

USING OutputterTsv()

bull 型定義は C の型定義と同じ

bull データをファイルから抽出読み込み

するときにスキーマが必要

Data Lake Store 内 のファイル

独自形式を解析するカスタム関数

C の関数

行セット(中間テーブルの概念

に近い)

TSV形式で書き込む関数

U-SQL ジョブのサブミットAzure PortalやVisual StudioのAzure Data Lake ToolsからU-SQLジョブをサブミット可能

67

進捗

統計情報

従来型の処理分析 Azure Data Lake を中心とした処理分析

Business apps

Custom apps

Sensors and devices

ADL StorePeople

非構造化データも含めてあらゆるデータを格納

Azure SQL DW

Azure AD

Power BI

ADF

ADL Analytics

bull 処理分析業務の大半はデータ準備作業が占めるbull 処理分析業務に手間時間が必要

Business apps

Custom apps

Sensors and devices

HDInsight

ユーザー管理認証

データの連携

Power BI

File System

Database

Database

Hadoop

DWH

Data Mart

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

①大量データの受け入れ

②リアルタイム処理データの集約

③データの蓄積

構造化非構造化文書など様々な形式での保存

④データの加工移行

⑥機械学習

⑦Hadoop解析

⑧マイクロソフト技術を用いた分散解析

⑨通常のRMSが機能を追加した企業向けRを使用した解析

⑪クラウドベースの Self-Service BI 機能

⑫機械学習の予測モデルを業務システムなどから呼び出し可能にするサービス

外部クラウドなどからのデータ取り込み

②リアルタイム処理データの加工

⑤ディープラーニング

⑩Excelを用いた可視化

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

リアルタイム

バッチ

Data Factory Tools for Visual Studio

Azure Portal

Azure TableStorage

(Web ログレコード)

Data Factory

HDInsight

(Web ログをファイルにして

バッチ処理で集計)

SQL Database

(集計データをDB テーブルに格納)

Power BI

社内システム

DataManagement

Gateway

SQL Database

Data Warehouse

Blob Storage

Table Storage

httpportalazurecom

接続

メッセージ作成

メッセージ送信

var cs = ldquo接続文字列rdquovar path = ldquoイベントハブ名rdquovar eh = EventHubClientCreateFromConnectionString(cs path)

var msg = new user = thisUserIdentityNamelevel = leveltimestamp = demoTimestamp

var json = JsonConvertSerializeObject(msg)

ehSend(new EventData(EncodingUTF8GetBytes(json)))

EventProcessorHostを使う

bull

bull

bull

Functionsを使う

bull

bull

IEventProcessorProcessEventAsync(msg)

IEventProcessorProcessEventAsync(msg)

Run(string msg)

Azure azure-sdk-for-python

Point of Service Devices

Self CheckoutStations

Kiosks

Smart Phones

SlatesTablets

PCsLaptops

Servers

Digital Signs

DiagnosticEquipmentRemote Medical

MonitorsLogic

Controllers

SpecializedDevicesThin

Clients

Handhelds

Security

POS Terminals

AutomationDevices

VendingMachines

Kinect

ATM

Stream Analytics

入力 出力クエリデータストリーム

参照

bull ldquo入力rdquoldquo出力rdquoをクリックしそれぞれ作成

bull ldquoクエリrdquoをクリックしクエリを定義bull 作業が終わったらldquo開始rdquoで実

行開始

SELECT

INTO

FROM

SELECT user level AS SATLevel timestamp

INTO

FROM

デバイス接続性とデバイス管理およびブローカーサービス

データ管理と高度な分析 情報活用業務の生産性とプロセスの最適化

IoT Agent Gateway

予兆原因の学習モデル

ダッシュボード

参照ERPbull 顧客bull 設備bull 担当者

Notification Hubs

通知

予兆イベント

メンテ方法の推奨

bull ヘルス状態bull インシデント管理bull 対応のディスパッチ

現地技術要員のモバイルデバイス

オペレーションセンター

bull イベント ドア開閉軸アライメントキャビン速度モーター温度など

bull アラーム 故障アラームエラーコードなど

httpisstkeazurewebsitesnet

Event Hub

Stream Analytics

Azure ML

制御機器とセンサーのデータ

マシンデータの蓄積

メンテナンス方法の学習モデル

Machine Learning

Blob Storage

セルフサービス分析

Power BI

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce

cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-

system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of

your data while making it faster to get up and running with

batch streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources

so you can run queries on exabytes of data Includes U-

SQL a new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully

managed NoSQL database service that indexes stores and

queries data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

What do all of these have in common

They can all use Azure Analysis Services

Azure Analysis Services

Azure Analysis Services

BI semantic model

Business logic amp metrics

Data modeling

Security

Azure Analysis Services

Lifecycle management

In-memory cache

On-premises

Cloud

Data sources

SQL Database

SQL Data Warehouse

Other data sources

SQL Server

Analytics platform

system

Other data sources

On-premises

Cloud

Client tools

Power BI

Excel

Third party BI tools

Power BI Desktop

Rich semantic modelling

locatioidentifier

identifiertype

fieldidentifier

numberofunitssoldtodate

remaningnumber

Numberofuntissoldtoday

receivedback

productidentifier

descriptionline1

descriptionline2

qtyafterqtysales

familyidentifier

Source DataComplex raw data optimized for processing

Semantic ModelRich business user friendly semantic model

Product Id

Product Name

Product Description

Category

Category Id

Category Name

Category Description

Sub Category

Product Id

Shelf qty

Return qty

Order qty

Sale qty

Cloud Data

On-Premises

Data

Azure Analysis Services

Lightning fast queries

データ管理をきっかけに処理を実行

Web Glue

Bots IoT

DOMINOS STORES

Key Vault

Azure Active Directory

Azure Files

SSIS FRANCHISEE

AZURE WEST EUROPE

Azure Function

KEMPSSDESSRS

IN- AND EXTERNAL DATA SOURCES

orderprocessing

O365

App Insights

indexhtml

Azure Functions Proxies

couponprocessing

Use Bindings in Your Codefunctionjson

bindings [type httpTriggerdirection inwebHookType genericJsonname req

type httpdirection outname res

type queuename eventOutputqueueName aievents1connectionAiStorageConnectiondirection out

]

public static class OrderHandler

[FunctionName(OrderWebhook)]public static async TaskltHttpResponseMessagegt Run(

[HttpTrigger] HttpRequestMessage req[Queue(aievents1 Connection = AiStorageConnection)]

IAsyncCollectorltStringgt eventOutputTraceWriter log)

logInfo($Webhook was triggered)

string jsonContent = await reqContentReadAsStringAsync()dynamic data = JsonConvertDeserializeObject(jsonContent)

await eventOutputAddAsync(JsonConvertSerializeObject(GetLogData(data)))

int orderId = PlaceOrder(data)

return reqCreateResponse(HttpStatusCodeOK new orderNumber = orderId )

bull Workflow in the cloud

bull Powerful control flow

bull Connect functions and APIs

bull Declarative definition to persist in source control and drive deployments

Logic AppsCloud APIs and platform

bull Supports over 125 built-in connectors

bull Scales to meet your needs

bull Enables rapid development

bull Extends with custom APIs and

Functions

API connections

bull Authenticate once and reuse

Big Data Solutions Decision Tree

httpsbiz-excellencecom20160830big-data-dt

Machine Learning Solutions Decision Tree

httpsbiz-excellencecom20160913machine-

learning-dt

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of your

data while making it faster to get up and running with batch

streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources so

you can run queries on exabytes of data Includes U-SQL a

new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully managed

NoSQL database service that indexes stores and queries

data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

Microsoft Big Data Portfolio

SQL Server Stretch

Business intelligence

Machine learning analytics

Insights

Azure SQL Database

SQL Server 2016

SQL Server 2016 Fast Track

Azure SQL DW

ADLS amp ADLA

DocumentDB

HDInsight

Hadoop

Analytics Platform System

Sequential Scale Out + AcrossScale Up

Key

Relational Non-relational

On

-pre

mis

es

Clo

ud

Microsoft has solutions covering

and connecting all four

quadrants ndash thatrsquos why SQL

Server is one of the most utilized

databases in the world

Azure

Data Lake Store

Azure

Blob StoragePurpose Optimized for big data analytics General purpose bulk storage

Use Cases Batch Interactive Streaming App backend backup data media storage for

streaming

Units of Storage Accounts Folders Files Accounts Containers Blobs

Structure Hierarchical File System Flat namespace

WebHDFS Implements WebHDFS No (WASB)

Security AD SAS keys

Storage Auto SharedFiles chunked Manually manage expansionFiles intact

Service State Generally Available PolyBase

just supported

Generally Available

Billing Pay for data stored and for IO Pay for data stored and for IO

Region Availability Two US regions (Other regions coming soon) All Azure Regions

ADL Store vs Blob Store

httpsdocsmicrosoftcomen-usazuredata-lake-storedata-lake-store-comparison-with-blob-storage

Want Hadoop

Need exact same on-prem

Need interactive streaming

MandatoryNo strong opinion

Azure Marketplace (IaaS)

bull Need all workloads exactly like on-

premises

bull Need 100 HortonworksClouderaMapR

Azure HDInsight

bull Most Hadoop workloads

bull Fully managed by Microsoft

bull Sell HDI + ADLS

bull Stickier to Microsoft than VMs

bull Can do interactive (Spark) and streaming

(StormSpark)

Azure Data Lake Analytics

bull Easiest experience for admin no sense of

clusters instant scale per job

bull Easiest experience for developers Visual

StudioU-SQL (C+SQL)

bull Sell ADLA + ADLS

bull Batch workloads only

Need everything exactly like on-prem

Need core projects Yes Batch is OK

Always present ADLA if NET or Visual Studio Shop

If NET or VS shop

Azure SQL DW HDInsight Hive HDInsight Spark Azure Data Lake SQL Server (IaaS)

Volume Petabytes Petabytes Petabytes Petabytes Terabytes

Security Encryption TD

Audit

ADLS Apache

Ranger

ADLS AAD Security

Groups (data)

Encryption TD

Audit

Languages T-SQL HiveQL SparkSQL HiveQL

Scala Java Python

R

U-SQL T-SQL

Extensibility No Yes NETSerDe Yes Packages Yes NET Yes NET CLR

External File

Types

ORC TXT

Parquet RCFile

ORC CSV Parquet

+ others

Parquet JSON

Hive + others

Many ORC TXT Parquet

RCFile

Admin Low-Medium Medium-High Medium-High Low High

Cost Model DWU Nodes amp VM Nodes amp VM UnitsJobs VM

Schema

Definition

Schema on Write

Polybase

Schema on Read Schema on Read Schema on Read Schema on Write

Polybase

Max DB Size 240TB Comp (5X

= 1PB)

Unlimited 64TB (64 1TB drives)

機械学習 Deep Learning 深層強化学習

画像解析

音声解析

データ分類異常検知 顧客グルーピング

数値予測売上予測 需要予測 品質管理

ラベル分類不良品分析 故障予測 チャーン分析

機械学習より強力な分析

自律学習型ロボット

自動運転車

テキストや画像等の自動生成

活用例

主に多層のニューラルネットワークを用いた手法での分析

分析のためには莫大なデータ量計算量知識スキルを要する

統計に基づいた手法での分析

そのため比較的少ないデータ量と計算量で分析を行うことができる

定義したあるべき姿に従い試行錯誤をして自ら学習を行うための分析手法である強化学習と深層学習を組み合わせた分析

Azure Machine Learning Cognitive Toolkit GPU Instance (N-Series)

マイクロソフトが提供する技術

テキストデータ機器のログデータなど

画像データ監視カメラの録画データ 機器の外観画像 顔画像など

動画データ監視カメラの録画データ 機器の稼働状況 人の作業映像など

音声データマイクからの収集データ 稼働音 室内音 人の音声など

数値データセンサーデータ 機器の制御データ計測データなど672342345

機械学習統計理論に基づいた分析手法を用いる用意するべきデータ量と処理する計算量の敷居が低め導入しやすい

Deep Learningデータ量が大きいため強力な分析手法が必要「膨大なデータ量を用意」「莫大な計算量を処理」が必要で敷居が非常に高い導入にはそれなりの覚悟が必要

Action

People

Automated Systems

Apps

Web

Mobile

Bots

Intelligence

Dashboards amp Visualizations

Cortana

Bot Framework

Cognitive Services

Power BI

Information Management

Event Hubs

Data Catalog

Data Factory

Machine Learning and Analytics

HDInsight

Stream Analytics

Intelligence

Data Lake Analytics

Machine Learning

Big Data Stores

SQL Data Warehouse

Data Lake Store

Data Sources

Apps

Sensors amp Devices

Data

Cortana Intelligence Suite

学習済み

モデル利用

学習モデル

作成

機械学習 教師あり学習

教師なし学習

強化学習

決定木

線形回帰

SVM

ロジスティック回帰

ニューラルネットワーク

クラスタリング

次元削減

Q学習

K-mean法

主成分分析

正準相関分析

ディープニューラルネットワーク

畳みこみニューラルネットワーク

再帰的ニューラルネットワーク

回帰結合ニューラルネットワーク

httpsazuremicrosoftcomen-usservicescognitive-services

わずか数行のコードで強力なアルゴリズムを持つアプリの作成が可能ですiOSAndroidWindows などのプラットフォームを問わず機能します

httpsazuremicrosoftcomja-jpservicesmachine-learning

ユーザーは簡単に予測分析ソリューションを構築デプロイ共有できます

httpswwwyoutubecomwatchv=9gDDO5ldT-4ampfeature=youtube

AI技術を利用したディープラーニング(深層学習)ツールキットです旧称「CNTK」から改名されました

ソースコード httpsgithubcomMicrosoftCNTK

SearchSpeech

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

コカコーラ誕生100周年キャンペーン

コカコーラボトルを「100歳」と認識

bull 自撮り写真をUp結果をSNS拡散

ナビタイムジャパン様

自然言語入力による路線検索BOT

bull ユーザーとの新たな接点(LINE)

bull 自然言語入力

Vision Language Knowledge

Vision Knowledge SearchSpeech Language

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

Microsoft SupportVirtual Agent

自然言語入力による自動応答サポート窓口

bull 過去QampAデータ解析に基づく回答抽出

bull 定型外はldquo人対応rdquo

UBER

登録ドライバーをスマホ経由で顔認証

VOLVO

表情からの危険予測

Search

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

アロバ様

監視カメラによる店舗内行動分析

bull 顔認識による 顧客識別

bull 表情分析

東京サマーランド様にて導入済み

HmComm様

コールセンターソリューション

bull 会話をテキスト化キーワードを解析

bull 過去QampA検索

bull 内容をCRM保存

Vision KnowledgeSpeech Language

導入事例東京サマーランド様

Video

Intelligent KioskhttpsgithubcomMicrosoftCognitive-Samples-IntelligentKiosk

ldquo(want to|request)rdquo

HoloLens

Page 33: やりたいことから考えるMicrosoft Azure 上の データストアの選び方とデータサイエンティスト向け活用法。KVSからDWHまで

Azure SQL Database Query Performance Insight

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-query-performance

Query Store is turned on by default for Azure SQL Database

httpsazuremicrosoftcomja-jpupdatesquery-store-on-is-the-new-default-for-azure-sql-database

Queries

SQL Database

Deeper Insight

Query

Store

SQL Database Advisor

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-advisor

Azure Portal を使用した SQL Database Advisor

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-advisor-portal

領域 改善後

新しいインデックス提案が作成されるまで 18時間以内

T-SQL文が実行されるまでのタイムラグ 即時(数分以内)

「悪い」チューニング内容に対しての検知時間 1時間以内

次のインデックス提案が行われるまでの待ち時

間即時(数分以内)

導入までの総時間 1日以内

SQL Database の脅威の検出

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-threat-detection

コントロールノード

SQLDB

Azure Blob Storage(WASB)

100 DWU lt gt 2000 DWUコントロールノード

ユーザーからの接続コンピュートとストレージの調整

コンピュートノード

コンピュートノード

コンピュートノード

コンピュートノード

SQLDB

SQLDB

SQLDB

SQLDB

Azure Blob Storage(WASB)

コントロールノード

SQLDB コントロールノード

D51

D52

D53

D60

hellip

D41

D42

D43

D50

hellip

コンピュートノード

D31

D32

D33

D40hellip

D21

D22

D23

D30

hellip

D11

D12

D13

D20

hellip

D1

D2

D3

D10

hellip

SQL DB

Azure Blob Storage(WASB)

コントロールノード

SQLDB コントロールノード

コンピュートノード

D51

D52

D53

D60

hellipコンピュートノード

D41

D42

D43

D50

hellip

コンピュートノード

D31

D32

D33

D40hellip

コンピュートノード

D21

D22

D23

D30

hellip

コンピュートノード

D11

D12

D13

D20

hellip

コンピュートノード

D1

D2

D3

D10

hellip

SQL DB

SQL DB

SQL DB

SQL DB

SQL DB

SQL DB

54

データ無制限のストレージ と 分析プラットフォーム

無制限のストレージ(エクサバイト超)

ネイティブ HDFS に基づく実装

HDInsight Hortonworks Cloudera との統合

全ての HDFS 準拠プロジェクトとの親和性

(Spark Storm Flume Sqoop Kafka R etc)

Azure Data Lake Store- Hadoop Distributed File System (HDFS) For The Cloud

構造化データと非構造化データに対するデータ処理

宣言型の SQL 文 とカスタムコード (UDF UDT UDO hellip )

ローカルとリモートに対するクエリ

バッチ型インタラクティブ型ストリーミング型(in the future)

Azure Data Lake Analytics- New Query Language U-SQL

ETL パイプライン

スキーマの定義Relational

LOB

Applications

Schema-on-Write

直ちに必要でないデータは全て捨てられるかアーカイブされている

無限に保存 分析 結果の参照

あらゆるデータ

ソースからの

データ収集

Schema-on-Read

全データ取込要件にかかわらず

全データ格納そのままのフォーマットでスキーマ定義なし

分析実行Hadoopのような分析エンジンの利用

インタラクティブクエリ

バッチ型クエリ

機械学習

データウェアハウス

リアルタイム分析

リレーショナル

デバイス

観察仮説集まったデータから仮説をたてる

58

無制限のサイズ

ギガバイトからペタバイトのサイズの単一ファイル

巨大なスループットを必要とする大規模な分析システムを実現

あらゆるスループットに自動最適化

ペタバイト超のデータの並列コンピューティング

同一リージョン内に3つのコピーを自動的に作成

インストールやチューニングは不要

数分で稼働開始

必要に応じてどのようなサイズにもスケールアウト可能

データウェアハウスデータレイクストア

非構造Rawデータ(ログ文書バイナリ)

Tier 1

MachineLearning

Data LakeAnalytics HDInsight

目的に合わせた

データウェハウス分析処理

(売上分析経営分析)

データウェハウスに格納しきれなかった

過去データ関連データを連結して分析

ハードウェアの性能限界によって行えなかった処理量の分析を実現

ディスクコンピューティング

非構造データの

分析処理

(画像音声映像など)

広範囲のデータを利用した

機械学習統計解析処理

などによる高度分析

SQL Data Warehouse

Data LakeAnalytics HDInsight

Data LakeAnalytics

構造化データ半構造データ

分析用に加工(csv等)

Tier 2

アーカイブデータTier 2 DWHのアーカイブ

Tier 3

Analytics

Storage

HDInsight(ldquomanaged clustersrdquo)

Azure Data Lake Analytics

Azure Data Lake Store

Azure Data Lake

LOB Applications

SocialDevices

Clickstream

Sensors

Video

Web

Relational

HDInsight

Data Lake Analytics

Machine Learning

Spark

R

Azure Data Lake Store

Azure Data Lake Store

Azure Storage Blob

外部表Azure SQLData Warehouse

HDInsight

開発者は OSS に馴染んでいる Java Eclipse Hive etc

マネージド Hadoop クラスタにおいてカスタマイズ管理が可能でフレキシビリティがある

Azure Data Lake Analytics

C SQL amp PowerShell のスキル

経験を活かせる

利便性効率性自動スケール

ジョブ実行の仕組みが提供される

(New)

(New)

一般的なパターン

処理読み込み 保存

INSERT

OUTPUT

OUTPUT

SELECThellip

FROMhellip

WHEREhellip

+

PythonR

EXTRACT

EXTRACT

SELECT

SELECT

Azure

Data

Lake

Azure

Data

Lake

Azure

SQL

DB

Azure

Storage

Blobs

Azure

Storage

Blobs

RowSet RowSet

Cognitive Services

REFERENCE ASSEMBLY WebLogExtASM

rs =

EXTRACT

UserID string

Start DateTime

End DateTime

Region string

SitesVisited string

PagesVisited string

FROM ldquoLogsWebLogRecordstxtrdquo

USING WebLogExtractor ()

result = SELECT UserID

(EndSubtract(Start))TotalSeconds AS Duration

FROM rs ORDER BY Duration DESC FETCH 10

OUTPUT result TO ldquoLogsResultstop10tsv

USING OutputterTsv()

bull 型定義は C の型定義と同じ

bull データをファイルから抽出読み込み

するときにスキーマが必要

Data Lake Store 内 のファイル

独自形式を解析するカスタム関数

C の関数

行セット(中間テーブルの概念

に近い)

TSV形式で書き込む関数

U-SQL ジョブのサブミットAzure PortalやVisual StudioのAzure Data Lake ToolsからU-SQLジョブをサブミット可能

67

進捗

統計情報

従来型の処理分析 Azure Data Lake を中心とした処理分析

Business apps

Custom apps

Sensors and devices

ADL StorePeople

非構造化データも含めてあらゆるデータを格納

Azure SQL DW

Azure AD

Power BI

ADF

ADL Analytics

bull 処理分析業務の大半はデータ準備作業が占めるbull 処理分析業務に手間時間が必要

Business apps

Custom apps

Sensors and devices

HDInsight

ユーザー管理認証

データの連携

Power BI

File System

Database

Database

Hadoop

DWH

Data Mart

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

①大量データの受け入れ

②リアルタイム処理データの集約

③データの蓄積

構造化非構造化文書など様々な形式での保存

④データの加工移行

⑥機械学習

⑦Hadoop解析

⑧マイクロソフト技術を用いた分散解析

⑨通常のRMSが機能を追加した企業向けRを使用した解析

⑪クラウドベースの Self-Service BI 機能

⑫機械学習の予測モデルを業務システムなどから呼び出し可能にするサービス

外部クラウドなどからのデータ取り込み

②リアルタイム処理データの加工

⑤ディープラーニング

⑩Excelを用いた可視化

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

リアルタイム

バッチ

Data Factory Tools for Visual Studio

Azure Portal

Azure TableStorage

(Web ログレコード)

Data Factory

HDInsight

(Web ログをファイルにして

バッチ処理で集計)

SQL Database

(集計データをDB テーブルに格納)

Power BI

社内システム

DataManagement

Gateway

SQL Database

Data Warehouse

Blob Storage

Table Storage

httpportalazurecom

接続

メッセージ作成

メッセージ送信

var cs = ldquo接続文字列rdquovar path = ldquoイベントハブ名rdquovar eh = EventHubClientCreateFromConnectionString(cs path)

var msg = new user = thisUserIdentityNamelevel = leveltimestamp = demoTimestamp

var json = JsonConvertSerializeObject(msg)

ehSend(new EventData(EncodingUTF8GetBytes(json)))

EventProcessorHostを使う

bull

bull

bull

Functionsを使う

bull

bull

IEventProcessorProcessEventAsync(msg)

IEventProcessorProcessEventAsync(msg)

Run(string msg)

Azure azure-sdk-for-python

Point of Service Devices

Self CheckoutStations

Kiosks

Smart Phones

SlatesTablets

PCsLaptops

Servers

Digital Signs

DiagnosticEquipmentRemote Medical

MonitorsLogic

Controllers

SpecializedDevicesThin

Clients

Handhelds

Security

POS Terminals

AutomationDevices

VendingMachines

Kinect

ATM

Stream Analytics

入力 出力クエリデータストリーム

参照

bull ldquo入力rdquoldquo出力rdquoをクリックしそれぞれ作成

bull ldquoクエリrdquoをクリックしクエリを定義bull 作業が終わったらldquo開始rdquoで実

行開始

SELECT

INTO

FROM

SELECT user level AS SATLevel timestamp

INTO

FROM

デバイス接続性とデバイス管理およびブローカーサービス

データ管理と高度な分析 情報活用業務の生産性とプロセスの最適化

IoT Agent Gateway

予兆原因の学習モデル

ダッシュボード

参照ERPbull 顧客bull 設備bull 担当者

Notification Hubs

通知

予兆イベント

メンテ方法の推奨

bull ヘルス状態bull インシデント管理bull 対応のディスパッチ

現地技術要員のモバイルデバイス

オペレーションセンター

bull イベント ドア開閉軸アライメントキャビン速度モーター温度など

bull アラーム 故障アラームエラーコードなど

httpisstkeazurewebsitesnet

Event Hub

Stream Analytics

Azure ML

制御機器とセンサーのデータ

マシンデータの蓄積

メンテナンス方法の学習モデル

Machine Learning

Blob Storage

セルフサービス分析

Power BI

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce

cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-

system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of

your data while making it faster to get up and running with

batch streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources

so you can run queries on exabytes of data Includes U-

SQL a new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully

managed NoSQL database service that indexes stores and

queries data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

What do all of these have in common

They can all use Azure Analysis Services

Azure Analysis Services

Azure Analysis Services

BI semantic model

Business logic amp metrics

Data modeling

Security

Azure Analysis Services

Lifecycle management

In-memory cache

On-premises

Cloud

Data sources

SQL Database

SQL Data Warehouse

Other data sources

SQL Server

Analytics platform

system

Other data sources

On-premises

Cloud

Client tools

Power BI

Excel

Third party BI tools

Power BI Desktop

Rich semantic modelling

locatioidentifier

identifiertype

fieldidentifier

numberofunitssoldtodate

remaningnumber

Numberofuntissoldtoday

receivedback

productidentifier

descriptionline1

descriptionline2

qtyafterqtysales

familyidentifier

Source DataComplex raw data optimized for processing

Semantic ModelRich business user friendly semantic model

Product Id

Product Name

Product Description

Category

Category Id

Category Name

Category Description

Sub Category

Product Id

Shelf qty

Return qty

Order qty

Sale qty

Cloud Data

On-Premises

Data

Azure Analysis Services

Lightning fast queries

データ管理をきっかけに処理を実行

Web Glue

Bots IoT

DOMINOS STORES

Key Vault

Azure Active Directory

Azure Files

SSIS FRANCHISEE

AZURE WEST EUROPE

Azure Function

KEMPSSDESSRS

IN- AND EXTERNAL DATA SOURCES

orderprocessing

O365

App Insights

indexhtml

Azure Functions Proxies

couponprocessing

Use Bindings in Your Codefunctionjson

bindings [type httpTriggerdirection inwebHookType genericJsonname req

type httpdirection outname res

type queuename eventOutputqueueName aievents1connectionAiStorageConnectiondirection out

]

public static class OrderHandler

[FunctionName(OrderWebhook)]public static async TaskltHttpResponseMessagegt Run(

[HttpTrigger] HttpRequestMessage req[Queue(aievents1 Connection = AiStorageConnection)]

IAsyncCollectorltStringgt eventOutputTraceWriter log)

logInfo($Webhook was triggered)

string jsonContent = await reqContentReadAsStringAsync()dynamic data = JsonConvertDeserializeObject(jsonContent)

await eventOutputAddAsync(JsonConvertSerializeObject(GetLogData(data)))

int orderId = PlaceOrder(data)

return reqCreateResponse(HttpStatusCodeOK new orderNumber = orderId )

bull Workflow in the cloud

bull Powerful control flow

bull Connect functions and APIs

bull Declarative definition to persist in source control and drive deployments

Logic AppsCloud APIs and platform

bull Supports over 125 built-in connectors

bull Scales to meet your needs

bull Enables rapid development

bull Extends with custom APIs and

Functions

API connections

bull Authenticate once and reuse

Big Data Solutions Decision Tree

httpsbiz-excellencecom20160830big-data-dt

Machine Learning Solutions Decision Tree

httpsbiz-excellencecom20160913machine-

learning-dt

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of your

data while making it faster to get up and running with batch

streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources so

you can run queries on exabytes of data Includes U-SQL a

new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully managed

NoSQL database service that indexes stores and queries

data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

Microsoft Big Data Portfolio

SQL Server Stretch

Business intelligence

Machine learning analytics

Insights

Azure SQL Database

SQL Server 2016

SQL Server 2016 Fast Track

Azure SQL DW

ADLS amp ADLA

DocumentDB

HDInsight

Hadoop

Analytics Platform System

Sequential Scale Out + AcrossScale Up

Key

Relational Non-relational

On

-pre

mis

es

Clo

ud

Microsoft has solutions covering

and connecting all four

quadrants ndash thatrsquos why SQL

Server is one of the most utilized

databases in the world

Azure

Data Lake Store

Azure

Blob StoragePurpose Optimized for big data analytics General purpose bulk storage

Use Cases Batch Interactive Streaming App backend backup data media storage for

streaming

Units of Storage Accounts Folders Files Accounts Containers Blobs

Structure Hierarchical File System Flat namespace

WebHDFS Implements WebHDFS No (WASB)

Security AD SAS keys

Storage Auto SharedFiles chunked Manually manage expansionFiles intact

Service State Generally Available PolyBase

just supported

Generally Available

Billing Pay for data stored and for IO Pay for data stored and for IO

Region Availability Two US regions (Other regions coming soon) All Azure Regions

ADL Store vs Blob Store

httpsdocsmicrosoftcomen-usazuredata-lake-storedata-lake-store-comparison-with-blob-storage

Want Hadoop

Need exact same on-prem

Need interactive streaming

MandatoryNo strong opinion

Azure Marketplace (IaaS)

bull Need all workloads exactly like on-

premises

bull Need 100 HortonworksClouderaMapR

Azure HDInsight

bull Most Hadoop workloads

bull Fully managed by Microsoft

bull Sell HDI + ADLS

bull Stickier to Microsoft than VMs

bull Can do interactive (Spark) and streaming

(StormSpark)

Azure Data Lake Analytics

bull Easiest experience for admin no sense of

clusters instant scale per job

bull Easiest experience for developers Visual

StudioU-SQL (C+SQL)

bull Sell ADLA + ADLS

bull Batch workloads only

Need everything exactly like on-prem

Need core projects Yes Batch is OK

Always present ADLA if NET or Visual Studio Shop

If NET or VS shop

Azure SQL DW HDInsight Hive HDInsight Spark Azure Data Lake SQL Server (IaaS)

Volume Petabytes Petabytes Petabytes Petabytes Terabytes

Security Encryption TD

Audit

ADLS Apache

Ranger

ADLS AAD Security

Groups (data)

Encryption TD

Audit

Languages T-SQL HiveQL SparkSQL HiveQL

Scala Java Python

R

U-SQL T-SQL

Extensibility No Yes NETSerDe Yes Packages Yes NET Yes NET CLR

External File

Types

ORC TXT

Parquet RCFile

ORC CSV Parquet

+ others

Parquet JSON

Hive + others

Many ORC TXT Parquet

RCFile

Admin Low-Medium Medium-High Medium-High Low High

Cost Model DWU Nodes amp VM Nodes amp VM UnitsJobs VM

Schema

Definition

Schema on Write

Polybase

Schema on Read Schema on Read Schema on Read Schema on Write

Polybase

Max DB Size 240TB Comp (5X

= 1PB)

Unlimited 64TB (64 1TB drives)

機械学習 Deep Learning 深層強化学習

画像解析

音声解析

データ分類異常検知 顧客グルーピング

数値予測売上予測 需要予測 品質管理

ラベル分類不良品分析 故障予測 チャーン分析

機械学習より強力な分析

自律学習型ロボット

自動運転車

テキストや画像等の自動生成

活用例

主に多層のニューラルネットワークを用いた手法での分析

分析のためには莫大なデータ量計算量知識スキルを要する

統計に基づいた手法での分析

そのため比較的少ないデータ量と計算量で分析を行うことができる

定義したあるべき姿に従い試行錯誤をして自ら学習を行うための分析手法である強化学習と深層学習を組み合わせた分析

Azure Machine Learning Cognitive Toolkit GPU Instance (N-Series)

マイクロソフトが提供する技術

テキストデータ機器のログデータなど

画像データ監視カメラの録画データ 機器の外観画像 顔画像など

動画データ監視カメラの録画データ 機器の稼働状況 人の作業映像など

音声データマイクからの収集データ 稼働音 室内音 人の音声など

数値データセンサーデータ 機器の制御データ計測データなど672342345

機械学習統計理論に基づいた分析手法を用いる用意するべきデータ量と処理する計算量の敷居が低め導入しやすい

Deep Learningデータ量が大きいため強力な分析手法が必要「膨大なデータ量を用意」「莫大な計算量を処理」が必要で敷居が非常に高い導入にはそれなりの覚悟が必要

Action

People

Automated Systems

Apps

Web

Mobile

Bots

Intelligence

Dashboards amp Visualizations

Cortana

Bot Framework

Cognitive Services

Power BI

Information Management

Event Hubs

Data Catalog

Data Factory

Machine Learning and Analytics

HDInsight

Stream Analytics

Intelligence

Data Lake Analytics

Machine Learning

Big Data Stores

SQL Data Warehouse

Data Lake Store

Data Sources

Apps

Sensors amp Devices

Data

Cortana Intelligence Suite

学習済み

モデル利用

学習モデル

作成

機械学習 教師あり学習

教師なし学習

強化学習

決定木

線形回帰

SVM

ロジスティック回帰

ニューラルネットワーク

クラスタリング

次元削減

Q学習

K-mean法

主成分分析

正準相関分析

ディープニューラルネットワーク

畳みこみニューラルネットワーク

再帰的ニューラルネットワーク

回帰結合ニューラルネットワーク

httpsazuremicrosoftcomen-usservicescognitive-services

わずか数行のコードで強力なアルゴリズムを持つアプリの作成が可能ですiOSAndroidWindows などのプラットフォームを問わず機能します

httpsazuremicrosoftcomja-jpservicesmachine-learning

ユーザーは簡単に予測分析ソリューションを構築デプロイ共有できます

httpswwwyoutubecomwatchv=9gDDO5ldT-4ampfeature=youtube

AI技術を利用したディープラーニング(深層学習)ツールキットです旧称「CNTK」から改名されました

ソースコード httpsgithubcomMicrosoftCNTK

SearchSpeech

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

コカコーラ誕生100周年キャンペーン

コカコーラボトルを「100歳」と認識

bull 自撮り写真をUp結果をSNS拡散

ナビタイムジャパン様

自然言語入力による路線検索BOT

bull ユーザーとの新たな接点(LINE)

bull 自然言語入力

Vision Language Knowledge

Vision Knowledge SearchSpeech Language

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

Microsoft SupportVirtual Agent

自然言語入力による自動応答サポート窓口

bull 過去QampAデータ解析に基づく回答抽出

bull 定型外はldquo人対応rdquo

UBER

登録ドライバーをスマホ経由で顔認証

VOLVO

表情からの危険予測

Search

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

アロバ様

監視カメラによる店舗内行動分析

bull 顔認識による 顧客識別

bull 表情分析

東京サマーランド様にて導入済み

HmComm様

コールセンターソリューション

bull 会話をテキスト化キーワードを解析

bull 過去QampA検索

bull 内容をCRM保存

Vision KnowledgeSpeech Language

導入事例東京サマーランド様

Video

Intelligent KioskhttpsgithubcomMicrosoftCognitive-Samples-IntelligentKiosk

ldquo(want to|request)rdquo

HoloLens

Page 34: やりたいことから考えるMicrosoft Azure 上の データストアの選び方とデータサイエンティスト向け活用法。KVSからDWHまで

Queries

SQL Database

Deeper Insight

Query

Store

SQL Database Advisor

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-advisor

Azure Portal を使用した SQL Database Advisor

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-advisor-portal

領域 改善後

新しいインデックス提案が作成されるまで 18時間以内

T-SQL文が実行されるまでのタイムラグ 即時(数分以内)

「悪い」チューニング内容に対しての検知時間 1時間以内

次のインデックス提案が行われるまでの待ち時

間即時(数分以内)

導入までの総時間 1日以内

SQL Database の脅威の検出

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-threat-detection

コントロールノード

SQLDB

Azure Blob Storage(WASB)

100 DWU lt gt 2000 DWUコントロールノード

ユーザーからの接続コンピュートとストレージの調整

コンピュートノード

コンピュートノード

コンピュートノード

コンピュートノード

SQLDB

SQLDB

SQLDB

SQLDB

Azure Blob Storage(WASB)

コントロールノード

SQLDB コントロールノード

D51

D52

D53

D60

hellip

D41

D42

D43

D50

hellip

コンピュートノード

D31

D32

D33

D40hellip

D21

D22

D23

D30

hellip

D11

D12

D13

D20

hellip

D1

D2

D3

D10

hellip

SQL DB

Azure Blob Storage(WASB)

コントロールノード

SQLDB コントロールノード

コンピュートノード

D51

D52

D53

D60

hellipコンピュートノード

D41

D42

D43

D50

hellip

コンピュートノード

D31

D32

D33

D40hellip

コンピュートノード

D21

D22

D23

D30

hellip

コンピュートノード

D11

D12

D13

D20

hellip

コンピュートノード

D1

D2

D3

D10

hellip

SQL DB

SQL DB

SQL DB

SQL DB

SQL DB

SQL DB

54

データ無制限のストレージ と 分析プラットフォーム

無制限のストレージ(エクサバイト超)

ネイティブ HDFS に基づく実装

HDInsight Hortonworks Cloudera との統合

全ての HDFS 準拠プロジェクトとの親和性

(Spark Storm Flume Sqoop Kafka R etc)

Azure Data Lake Store- Hadoop Distributed File System (HDFS) For The Cloud

構造化データと非構造化データに対するデータ処理

宣言型の SQL 文 とカスタムコード (UDF UDT UDO hellip )

ローカルとリモートに対するクエリ

バッチ型インタラクティブ型ストリーミング型(in the future)

Azure Data Lake Analytics- New Query Language U-SQL

ETL パイプライン

スキーマの定義Relational

LOB

Applications

Schema-on-Write

直ちに必要でないデータは全て捨てられるかアーカイブされている

無限に保存 分析 結果の参照

あらゆるデータ

ソースからの

データ収集

Schema-on-Read

全データ取込要件にかかわらず

全データ格納そのままのフォーマットでスキーマ定義なし

分析実行Hadoopのような分析エンジンの利用

インタラクティブクエリ

バッチ型クエリ

機械学習

データウェアハウス

リアルタイム分析

リレーショナル

デバイス

観察仮説集まったデータから仮説をたてる

58

無制限のサイズ

ギガバイトからペタバイトのサイズの単一ファイル

巨大なスループットを必要とする大規模な分析システムを実現

あらゆるスループットに自動最適化

ペタバイト超のデータの並列コンピューティング

同一リージョン内に3つのコピーを自動的に作成

インストールやチューニングは不要

数分で稼働開始

必要に応じてどのようなサイズにもスケールアウト可能

データウェアハウスデータレイクストア

非構造Rawデータ(ログ文書バイナリ)

Tier 1

MachineLearning

Data LakeAnalytics HDInsight

目的に合わせた

データウェハウス分析処理

(売上分析経営分析)

データウェハウスに格納しきれなかった

過去データ関連データを連結して分析

ハードウェアの性能限界によって行えなかった処理量の分析を実現

ディスクコンピューティング

非構造データの

分析処理

(画像音声映像など)

広範囲のデータを利用した

機械学習統計解析処理

などによる高度分析

SQL Data Warehouse

Data LakeAnalytics HDInsight

Data LakeAnalytics

構造化データ半構造データ

分析用に加工(csv等)

Tier 2

アーカイブデータTier 2 DWHのアーカイブ

Tier 3

Analytics

Storage

HDInsight(ldquomanaged clustersrdquo)

Azure Data Lake Analytics

Azure Data Lake Store

Azure Data Lake

LOB Applications

SocialDevices

Clickstream

Sensors

Video

Web

Relational

HDInsight

Data Lake Analytics

Machine Learning

Spark

R

Azure Data Lake Store

Azure Data Lake Store

Azure Storage Blob

外部表Azure SQLData Warehouse

HDInsight

開発者は OSS に馴染んでいる Java Eclipse Hive etc

マネージド Hadoop クラスタにおいてカスタマイズ管理が可能でフレキシビリティがある

Azure Data Lake Analytics

C SQL amp PowerShell のスキル

経験を活かせる

利便性効率性自動スケール

ジョブ実行の仕組みが提供される

(New)

(New)

一般的なパターン

処理読み込み 保存

INSERT

OUTPUT

OUTPUT

SELECThellip

FROMhellip

WHEREhellip

+

PythonR

EXTRACT

EXTRACT

SELECT

SELECT

Azure

Data

Lake

Azure

Data

Lake

Azure

SQL

DB

Azure

Storage

Blobs

Azure

Storage

Blobs

RowSet RowSet

Cognitive Services

REFERENCE ASSEMBLY WebLogExtASM

rs =

EXTRACT

UserID string

Start DateTime

End DateTime

Region string

SitesVisited string

PagesVisited string

FROM ldquoLogsWebLogRecordstxtrdquo

USING WebLogExtractor ()

result = SELECT UserID

(EndSubtract(Start))TotalSeconds AS Duration

FROM rs ORDER BY Duration DESC FETCH 10

OUTPUT result TO ldquoLogsResultstop10tsv

USING OutputterTsv()

bull 型定義は C の型定義と同じ

bull データをファイルから抽出読み込み

するときにスキーマが必要

Data Lake Store 内 のファイル

独自形式を解析するカスタム関数

C の関数

行セット(中間テーブルの概念

に近い)

TSV形式で書き込む関数

U-SQL ジョブのサブミットAzure PortalやVisual StudioのAzure Data Lake ToolsからU-SQLジョブをサブミット可能

67

進捗

統計情報

従来型の処理分析 Azure Data Lake を中心とした処理分析

Business apps

Custom apps

Sensors and devices

ADL StorePeople

非構造化データも含めてあらゆるデータを格納

Azure SQL DW

Azure AD

Power BI

ADF

ADL Analytics

bull 処理分析業務の大半はデータ準備作業が占めるbull 処理分析業務に手間時間が必要

Business apps

Custom apps

Sensors and devices

HDInsight

ユーザー管理認証

データの連携

Power BI

File System

Database

Database

Hadoop

DWH

Data Mart

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

①大量データの受け入れ

②リアルタイム処理データの集約

③データの蓄積

構造化非構造化文書など様々な形式での保存

④データの加工移行

⑥機械学習

⑦Hadoop解析

⑧マイクロソフト技術を用いた分散解析

⑨通常のRMSが機能を追加した企業向けRを使用した解析

⑪クラウドベースの Self-Service BI 機能

⑫機械学習の予測モデルを業務システムなどから呼び出し可能にするサービス

外部クラウドなどからのデータ取り込み

②リアルタイム処理データの加工

⑤ディープラーニング

⑩Excelを用いた可視化

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

リアルタイム

バッチ

Data Factory Tools for Visual Studio

Azure Portal

Azure TableStorage

(Web ログレコード)

Data Factory

HDInsight

(Web ログをファイルにして

バッチ処理で集計)

SQL Database

(集計データをDB テーブルに格納)

Power BI

社内システム

DataManagement

Gateway

SQL Database

Data Warehouse

Blob Storage

Table Storage

httpportalazurecom

接続

メッセージ作成

メッセージ送信

var cs = ldquo接続文字列rdquovar path = ldquoイベントハブ名rdquovar eh = EventHubClientCreateFromConnectionString(cs path)

var msg = new user = thisUserIdentityNamelevel = leveltimestamp = demoTimestamp

var json = JsonConvertSerializeObject(msg)

ehSend(new EventData(EncodingUTF8GetBytes(json)))

EventProcessorHostを使う

bull

bull

bull

Functionsを使う

bull

bull

IEventProcessorProcessEventAsync(msg)

IEventProcessorProcessEventAsync(msg)

Run(string msg)

Azure azure-sdk-for-python

Point of Service Devices

Self CheckoutStations

Kiosks

Smart Phones

SlatesTablets

PCsLaptops

Servers

Digital Signs

DiagnosticEquipmentRemote Medical

MonitorsLogic

Controllers

SpecializedDevicesThin

Clients

Handhelds

Security

POS Terminals

AutomationDevices

VendingMachines

Kinect

ATM

Stream Analytics

入力 出力クエリデータストリーム

参照

bull ldquo入力rdquoldquo出力rdquoをクリックしそれぞれ作成

bull ldquoクエリrdquoをクリックしクエリを定義bull 作業が終わったらldquo開始rdquoで実

行開始

SELECT

INTO

FROM

SELECT user level AS SATLevel timestamp

INTO

FROM

デバイス接続性とデバイス管理およびブローカーサービス

データ管理と高度な分析 情報活用業務の生産性とプロセスの最適化

IoT Agent Gateway

予兆原因の学習モデル

ダッシュボード

参照ERPbull 顧客bull 設備bull 担当者

Notification Hubs

通知

予兆イベント

メンテ方法の推奨

bull ヘルス状態bull インシデント管理bull 対応のディスパッチ

現地技術要員のモバイルデバイス

オペレーションセンター

bull イベント ドア開閉軸アライメントキャビン速度モーター温度など

bull アラーム 故障アラームエラーコードなど

httpisstkeazurewebsitesnet

Event Hub

Stream Analytics

Azure ML

制御機器とセンサーのデータ

マシンデータの蓄積

メンテナンス方法の学習モデル

Machine Learning

Blob Storage

セルフサービス分析

Power BI

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce

cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-

system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of

your data while making it faster to get up and running with

batch streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources

so you can run queries on exabytes of data Includes U-

SQL a new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully

managed NoSQL database service that indexes stores and

queries data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

What do all of these have in common

They can all use Azure Analysis Services

Azure Analysis Services

Azure Analysis Services

BI semantic model

Business logic amp metrics

Data modeling

Security

Azure Analysis Services

Lifecycle management

In-memory cache

On-premises

Cloud

Data sources

SQL Database

SQL Data Warehouse

Other data sources

SQL Server

Analytics platform

system

Other data sources

On-premises

Cloud

Client tools

Power BI

Excel

Third party BI tools

Power BI Desktop

Rich semantic modelling

locatioidentifier

identifiertype

fieldidentifier

numberofunitssoldtodate

remaningnumber

Numberofuntissoldtoday

receivedback

productidentifier

descriptionline1

descriptionline2

qtyafterqtysales

familyidentifier

Source DataComplex raw data optimized for processing

Semantic ModelRich business user friendly semantic model

Product Id

Product Name

Product Description

Category

Category Id

Category Name

Category Description

Sub Category

Product Id

Shelf qty

Return qty

Order qty

Sale qty

Cloud Data

On-Premises

Data

Azure Analysis Services

Lightning fast queries

データ管理をきっかけに処理を実行

Web Glue

Bots IoT

DOMINOS STORES

Key Vault

Azure Active Directory

Azure Files

SSIS FRANCHISEE

AZURE WEST EUROPE

Azure Function

KEMPSSDESSRS

IN- AND EXTERNAL DATA SOURCES

orderprocessing

O365

App Insights

indexhtml

Azure Functions Proxies

couponprocessing

Use Bindings in Your Codefunctionjson

bindings [type httpTriggerdirection inwebHookType genericJsonname req

type httpdirection outname res

type queuename eventOutputqueueName aievents1connectionAiStorageConnectiondirection out

]

public static class OrderHandler

[FunctionName(OrderWebhook)]public static async TaskltHttpResponseMessagegt Run(

[HttpTrigger] HttpRequestMessage req[Queue(aievents1 Connection = AiStorageConnection)]

IAsyncCollectorltStringgt eventOutputTraceWriter log)

logInfo($Webhook was triggered)

string jsonContent = await reqContentReadAsStringAsync()dynamic data = JsonConvertDeserializeObject(jsonContent)

await eventOutputAddAsync(JsonConvertSerializeObject(GetLogData(data)))

int orderId = PlaceOrder(data)

return reqCreateResponse(HttpStatusCodeOK new orderNumber = orderId )

bull Workflow in the cloud

bull Powerful control flow

bull Connect functions and APIs

bull Declarative definition to persist in source control and drive deployments

Logic AppsCloud APIs and platform

bull Supports over 125 built-in connectors

bull Scales to meet your needs

bull Enables rapid development

bull Extends with custom APIs and

Functions

API connections

bull Authenticate once and reuse

Big Data Solutions Decision Tree

httpsbiz-excellencecom20160830big-data-dt

Machine Learning Solutions Decision Tree

httpsbiz-excellencecom20160913machine-

learning-dt

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of your

data while making it faster to get up and running with batch

streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources so

you can run queries on exabytes of data Includes U-SQL a

new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully managed

NoSQL database service that indexes stores and queries

data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

Microsoft Big Data Portfolio

SQL Server Stretch

Business intelligence

Machine learning analytics

Insights

Azure SQL Database

SQL Server 2016

SQL Server 2016 Fast Track

Azure SQL DW

ADLS amp ADLA

DocumentDB

HDInsight

Hadoop

Analytics Platform System

Sequential Scale Out + AcrossScale Up

Key

Relational Non-relational

On

-pre

mis

es

Clo

ud

Microsoft has solutions covering

and connecting all four

quadrants ndash thatrsquos why SQL

Server is one of the most utilized

databases in the world

Azure

Data Lake Store

Azure

Blob StoragePurpose Optimized for big data analytics General purpose bulk storage

Use Cases Batch Interactive Streaming App backend backup data media storage for

streaming

Units of Storage Accounts Folders Files Accounts Containers Blobs

Structure Hierarchical File System Flat namespace

WebHDFS Implements WebHDFS No (WASB)

Security AD SAS keys

Storage Auto SharedFiles chunked Manually manage expansionFiles intact

Service State Generally Available PolyBase

just supported

Generally Available

Billing Pay for data stored and for IO Pay for data stored and for IO

Region Availability Two US regions (Other regions coming soon) All Azure Regions

ADL Store vs Blob Store

httpsdocsmicrosoftcomen-usazuredata-lake-storedata-lake-store-comparison-with-blob-storage

Want Hadoop

Need exact same on-prem

Need interactive streaming

MandatoryNo strong opinion

Azure Marketplace (IaaS)

bull Need all workloads exactly like on-

premises

bull Need 100 HortonworksClouderaMapR

Azure HDInsight

bull Most Hadoop workloads

bull Fully managed by Microsoft

bull Sell HDI + ADLS

bull Stickier to Microsoft than VMs

bull Can do interactive (Spark) and streaming

(StormSpark)

Azure Data Lake Analytics

bull Easiest experience for admin no sense of

clusters instant scale per job

bull Easiest experience for developers Visual

StudioU-SQL (C+SQL)

bull Sell ADLA + ADLS

bull Batch workloads only

Need everything exactly like on-prem

Need core projects Yes Batch is OK

Always present ADLA if NET or Visual Studio Shop

If NET or VS shop

Azure SQL DW HDInsight Hive HDInsight Spark Azure Data Lake SQL Server (IaaS)

Volume Petabytes Petabytes Petabytes Petabytes Terabytes

Security Encryption TD

Audit

ADLS Apache

Ranger

ADLS AAD Security

Groups (data)

Encryption TD

Audit

Languages T-SQL HiveQL SparkSQL HiveQL

Scala Java Python

R

U-SQL T-SQL

Extensibility No Yes NETSerDe Yes Packages Yes NET Yes NET CLR

External File

Types

ORC TXT

Parquet RCFile

ORC CSV Parquet

+ others

Parquet JSON

Hive + others

Many ORC TXT Parquet

RCFile

Admin Low-Medium Medium-High Medium-High Low High

Cost Model DWU Nodes amp VM Nodes amp VM UnitsJobs VM

Schema

Definition

Schema on Write

Polybase

Schema on Read Schema on Read Schema on Read Schema on Write

Polybase

Max DB Size 240TB Comp (5X

= 1PB)

Unlimited 64TB (64 1TB drives)

機械学習 Deep Learning 深層強化学習

画像解析

音声解析

データ分類異常検知 顧客グルーピング

数値予測売上予測 需要予測 品質管理

ラベル分類不良品分析 故障予測 チャーン分析

機械学習より強力な分析

自律学習型ロボット

自動運転車

テキストや画像等の自動生成

活用例

主に多層のニューラルネットワークを用いた手法での分析

分析のためには莫大なデータ量計算量知識スキルを要する

統計に基づいた手法での分析

そのため比較的少ないデータ量と計算量で分析を行うことができる

定義したあるべき姿に従い試行錯誤をして自ら学習を行うための分析手法である強化学習と深層学習を組み合わせた分析

Azure Machine Learning Cognitive Toolkit GPU Instance (N-Series)

マイクロソフトが提供する技術

テキストデータ機器のログデータなど

画像データ監視カメラの録画データ 機器の外観画像 顔画像など

動画データ監視カメラの録画データ 機器の稼働状況 人の作業映像など

音声データマイクからの収集データ 稼働音 室内音 人の音声など

数値データセンサーデータ 機器の制御データ計測データなど672342345

機械学習統計理論に基づいた分析手法を用いる用意するべきデータ量と処理する計算量の敷居が低め導入しやすい

Deep Learningデータ量が大きいため強力な分析手法が必要「膨大なデータ量を用意」「莫大な計算量を処理」が必要で敷居が非常に高い導入にはそれなりの覚悟が必要

Action

People

Automated Systems

Apps

Web

Mobile

Bots

Intelligence

Dashboards amp Visualizations

Cortana

Bot Framework

Cognitive Services

Power BI

Information Management

Event Hubs

Data Catalog

Data Factory

Machine Learning and Analytics

HDInsight

Stream Analytics

Intelligence

Data Lake Analytics

Machine Learning

Big Data Stores

SQL Data Warehouse

Data Lake Store

Data Sources

Apps

Sensors amp Devices

Data

Cortana Intelligence Suite

学習済み

モデル利用

学習モデル

作成

機械学習 教師あり学習

教師なし学習

強化学習

決定木

線形回帰

SVM

ロジスティック回帰

ニューラルネットワーク

クラスタリング

次元削減

Q学習

K-mean法

主成分分析

正準相関分析

ディープニューラルネットワーク

畳みこみニューラルネットワーク

再帰的ニューラルネットワーク

回帰結合ニューラルネットワーク

httpsazuremicrosoftcomen-usservicescognitive-services

わずか数行のコードで強力なアルゴリズムを持つアプリの作成が可能ですiOSAndroidWindows などのプラットフォームを問わず機能します

httpsazuremicrosoftcomja-jpservicesmachine-learning

ユーザーは簡単に予測分析ソリューションを構築デプロイ共有できます

httpswwwyoutubecomwatchv=9gDDO5ldT-4ampfeature=youtube

AI技術を利用したディープラーニング(深層学習)ツールキットです旧称「CNTK」から改名されました

ソースコード httpsgithubcomMicrosoftCNTK

SearchSpeech

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

コカコーラ誕生100周年キャンペーン

コカコーラボトルを「100歳」と認識

bull 自撮り写真をUp結果をSNS拡散

ナビタイムジャパン様

自然言語入力による路線検索BOT

bull ユーザーとの新たな接点(LINE)

bull 自然言語入力

Vision Language Knowledge

Vision Knowledge SearchSpeech Language

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

Microsoft SupportVirtual Agent

自然言語入力による自動応答サポート窓口

bull 過去QampAデータ解析に基づく回答抽出

bull 定型外はldquo人対応rdquo

UBER

登録ドライバーをスマホ経由で顔認証

VOLVO

表情からの危険予測

Search

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

アロバ様

監視カメラによる店舗内行動分析

bull 顔認識による 顧客識別

bull 表情分析

東京サマーランド様にて導入済み

HmComm様

コールセンターソリューション

bull 会話をテキスト化キーワードを解析

bull 過去QampA検索

bull 内容をCRM保存

Vision KnowledgeSpeech Language

導入事例東京サマーランド様

Video

Intelligent KioskhttpsgithubcomMicrosoftCognitive-Samples-IntelligentKiosk

ldquo(want to|request)rdquo

HoloLens

Page 35: やりたいことから考えるMicrosoft Azure 上の データストアの選び方とデータサイエンティスト向け活用法。KVSからDWHまで

SQL Database Advisor

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-advisor

Azure Portal を使用した SQL Database Advisor

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-advisor-portal

領域 改善後

新しいインデックス提案が作成されるまで 18時間以内

T-SQL文が実行されるまでのタイムラグ 即時(数分以内)

「悪い」チューニング内容に対しての検知時間 1時間以内

次のインデックス提案が行われるまでの待ち時

間即時(数分以内)

導入までの総時間 1日以内

SQL Database の脅威の検出

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-threat-detection

コントロールノード

SQLDB

Azure Blob Storage(WASB)

100 DWU lt gt 2000 DWUコントロールノード

ユーザーからの接続コンピュートとストレージの調整

コンピュートノード

コンピュートノード

コンピュートノード

コンピュートノード

SQLDB

SQLDB

SQLDB

SQLDB

Azure Blob Storage(WASB)

コントロールノード

SQLDB コントロールノード

D51

D52

D53

D60

hellip

D41

D42

D43

D50

hellip

コンピュートノード

D31

D32

D33

D40hellip

D21

D22

D23

D30

hellip

D11

D12

D13

D20

hellip

D1

D2

D3

D10

hellip

SQL DB

Azure Blob Storage(WASB)

コントロールノード

SQLDB コントロールノード

コンピュートノード

D51

D52

D53

D60

hellipコンピュートノード

D41

D42

D43

D50

hellip

コンピュートノード

D31

D32

D33

D40hellip

コンピュートノード

D21

D22

D23

D30

hellip

コンピュートノード

D11

D12

D13

D20

hellip

コンピュートノード

D1

D2

D3

D10

hellip

SQL DB

SQL DB

SQL DB

SQL DB

SQL DB

SQL DB

54

データ無制限のストレージ と 分析プラットフォーム

無制限のストレージ(エクサバイト超)

ネイティブ HDFS に基づく実装

HDInsight Hortonworks Cloudera との統合

全ての HDFS 準拠プロジェクトとの親和性

(Spark Storm Flume Sqoop Kafka R etc)

Azure Data Lake Store- Hadoop Distributed File System (HDFS) For The Cloud

構造化データと非構造化データに対するデータ処理

宣言型の SQL 文 とカスタムコード (UDF UDT UDO hellip )

ローカルとリモートに対するクエリ

バッチ型インタラクティブ型ストリーミング型(in the future)

Azure Data Lake Analytics- New Query Language U-SQL

ETL パイプライン

スキーマの定義Relational

LOB

Applications

Schema-on-Write

直ちに必要でないデータは全て捨てられるかアーカイブされている

無限に保存 分析 結果の参照

あらゆるデータ

ソースからの

データ収集

Schema-on-Read

全データ取込要件にかかわらず

全データ格納そのままのフォーマットでスキーマ定義なし

分析実行Hadoopのような分析エンジンの利用

インタラクティブクエリ

バッチ型クエリ

機械学習

データウェアハウス

リアルタイム分析

リレーショナル

デバイス

観察仮説集まったデータから仮説をたてる

58

無制限のサイズ

ギガバイトからペタバイトのサイズの単一ファイル

巨大なスループットを必要とする大規模な分析システムを実現

あらゆるスループットに自動最適化

ペタバイト超のデータの並列コンピューティング

同一リージョン内に3つのコピーを自動的に作成

インストールやチューニングは不要

数分で稼働開始

必要に応じてどのようなサイズにもスケールアウト可能

データウェアハウスデータレイクストア

非構造Rawデータ(ログ文書バイナリ)

Tier 1

MachineLearning

Data LakeAnalytics HDInsight

目的に合わせた

データウェハウス分析処理

(売上分析経営分析)

データウェハウスに格納しきれなかった

過去データ関連データを連結して分析

ハードウェアの性能限界によって行えなかった処理量の分析を実現

ディスクコンピューティング

非構造データの

分析処理

(画像音声映像など)

広範囲のデータを利用した

機械学習統計解析処理

などによる高度分析

SQL Data Warehouse

Data LakeAnalytics HDInsight

Data LakeAnalytics

構造化データ半構造データ

分析用に加工(csv等)

Tier 2

アーカイブデータTier 2 DWHのアーカイブ

Tier 3

Analytics

Storage

HDInsight(ldquomanaged clustersrdquo)

Azure Data Lake Analytics

Azure Data Lake Store

Azure Data Lake

LOB Applications

SocialDevices

Clickstream

Sensors

Video

Web

Relational

HDInsight

Data Lake Analytics

Machine Learning

Spark

R

Azure Data Lake Store

Azure Data Lake Store

Azure Storage Blob

外部表Azure SQLData Warehouse

HDInsight

開発者は OSS に馴染んでいる Java Eclipse Hive etc

マネージド Hadoop クラスタにおいてカスタマイズ管理が可能でフレキシビリティがある

Azure Data Lake Analytics

C SQL amp PowerShell のスキル

経験を活かせる

利便性効率性自動スケール

ジョブ実行の仕組みが提供される

(New)

(New)

一般的なパターン

処理読み込み 保存

INSERT

OUTPUT

OUTPUT

SELECThellip

FROMhellip

WHEREhellip

+

PythonR

EXTRACT

EXTRACT

SELECT

SELECT

Azure

Data

Lake

Azure

Data

Lake

Azure

SQL

DB

Azure

Storage

Blobs

Azure

Storage

Blobs

RowSet RowSet

Cognitive Services

REFERENCE ASSEMBLY WebLogExtASM

rs =

EXTRACT

UserID string

Start DateTime

End DateTime

Region string

SitesVisited string

PagesVisited string

FROM ldquoLogsWebLogRecordstxtrdquo

USING WebLogExtractor ()

result = SELECT UserID

(EndSubtract(Start))TotalSeconds AS Duration

FROM rs ORDER BY Duration DESC FETCH 10

OUTPUT result TO ldquoLogsResultstop10tsv

USING OutputterTsv()

bull 型定義は C の型定義と同じ

bull データをファイルから抽出読み込み

するときにスキーマが必要

Data Lake Store 内 のファイル

独自形式を解析するカスタム関数

C の関数

行セット(中間テーブルの概念

に近い)

TSV形式で書き込む関数

U-SQL ジョブのサブミットAzure PortalやVisual StudioのAzure Data Lake ToolsからU-SQLジョブをサブミット可能

67

進捗

統計情報

従来型の処理分析 Azure Data Lake を中心とした処理分析

Business apps

Custom apps

Sensors and devices

ADL StorePeople

非構造化データも含めてあらゆるデータを格納

Azure SQL DW

Azure AD

Power BI

ADF

ADL Analytics

bull 処理分析業務の大半はデータ準備作業が占めるbull 処理分析業務に手間時間が必要

Business apps

Custom apps

Sensors and devices

HDInsight

ユーザー管理認証

データの連携

Power BI

File System

Database

Database

Hadoop

DWH

Data Mart

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

①大量データの受け入れ

②リアルタイム処理データの集約

③データの蓄積

構造化非構造化文書など様々な形式での保存

④データの加工移行

⑥機械学習

⑦Hadoop解析

⑧マイクロソフト技術を用いた分散解析

⑨通常のRMSが機能を追加した企業向けRを使用した解析

⑪クラウドベースの Self-Service BI 機能

⑫機械学習の予測モデルを業務システムなどから呼び出し可能にするサービス

外部クラウドなどからのデータ取り込み

②リアルタイム処理データの加工

⑤ディープラーニング

⑩Excelを用いた可視化

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

リアルタイム

バッチ

Data Factory Tools for Visual Studio

Azure Portal

Azure TableStorage

(Web ログレコード)

Data Factory

HDInsight

(Web ログをファイルにして

バッチ処理で集計)

SQL Database

(集計データをDB テーブルに格納)

Power BI

社内システム

DataManagement

Gateway

SQL Database

Data Warehouse

Blob Storage

Table Storage

httpportalazurecom

接続

メッセージ作成

メッセージ送信

var cs = ldquo接続文字列rdquovar path = ldquoイベントハブ名rdquovar eh = EventHubClientCreateFromConnectionString(cs path)

var msg = new user = thisUserIdentityNamelevel = leveltimestamp = demoTimestamp

var json = JsonConvertSerializeObject(msg)

ehSend(new EventData(EncodingUTF8GetBytes(json)))

EventProcessorHostを使う

bull

bull

bull

Functionsを使う

bull

bull

IEventProcessorProcessEventAsync(msg)

IEventProcessorProcessEventAsync(msg)

Run(string msg)

Azure azure-sdk-for-python

Point of Service Devices

Self CheckoutStations

Kiosks

Smart Phones

SlatesTablets

PCsLaptops

Servers

Digital Signs

DiagnosticEquipmentRemote Medical

MonitorsLogic

Controllers

SpecializedDevicesThin

Clients

Handhelds

Security

POS Terminals

AutomationDevices

VendingMachines

Kinect

ATM

Stream Analytics

入力 出力クエリデータストリーム

参照

bull ldquo入力rdquoldquo出力rdquoをクリックしそれぞれ作成

bull ldquoクエリrdquoをクリックしクエリを定義bull 作業が終わったらldquo開始rdquoで実

行開始

SELECT

INTO

FROM

SELECT user level AS SATLevel timestamp

INTO

FROM

デバイス接続性とデバイス管理およびブローカーサービス

データ管理と高度な分析 情報活用業務の生産性とプロセスの最適化

IoT Agent Gateway

予兆原因の学習モデル

ダッシュボード

参照ERPbull 顧客bull 設備bull 担当者

Notification Hubs

通知

予兆イベント

メンテ方法の推奨

bull ヘルス状態bull インシデント管理bull 対応のディスパッチ

現地技術要員のモバイルデバイス

オペレーションセンター

bull イベント ドア開閉軸アライメントキャビン速度モーター温度など

bull アラーム 故障アラームエラーコードなど

httpisstkeazurewebsitesnet

Event Hub

Stream Analytics

Azure ML

制御機器とセンサーのデータ

マシンデータの蓄積

メンテナンス方法の学習モデル

Machine Learning

Blob Storage

セルフサービス分析

Power BI

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce

cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-

system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of

your data while making it faster to get up and running with

batch streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources

so you can run queries on exabytes of data Includes U-

SQL a new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully

managed NoSQL database service that indexes stores and

queries data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

What do all of these have in common

They can all use Azure Analysis Services

Azure Analysis Services

Azure Analysis Services

BI semantic model

Business logic amp metrics

Data modeling

Security

Azure Analysis Services

Lifecycle management

In-memory cache

On-premises

Cloud

Data sources

SQL Database

SQL Data Warehouse

Other data sources

SQL Server

Analytics platform

system

Other data sources

On-premises

Cloud

Client tools

Power BI

Excel

Third party BI tools

Power BI Desktop

Rich semantic modelling

locatioidentifier

identifiertype

fieldidentifier

numberofunitssoldtodate

remaningnumber

Numberofuntissoldtoday

receivedback

productidentifier

descriptionline1

descriptionline2

qtyafterqtysales

familyidentifier

Source DataComplex raw data optimized for processing

Semantic ModelRich business user friendly semantic model

Product Id

Product Name

Product Description

Category

Category Id

Category Name

Category Description

Sub Category

Product Id

Shelf qty

Return qty

Order qty

Sale qty

Cloud Data

On-Premises

Data

Azure Analysis Services

Lightning fast queries

データ管理をきっかけに処理を実行

Web Glue

Bots IoT

DOMINOS STORES

Key Vault

Azure Active Directory

Azure Files

SSIS FRANCHISEE

AZURE WEST EUROPE

Azure Function

KEMPSSDESSRS

IN- AND EXTERNAL DATA SOURCES

orderprocessing

O365

App Insights

indexhtml

Azure Functions Proxies

couponprocessing

Use Bindings in Your Codefunctionjson

bindings [type httpTriggerdirection inwebHookType genericJsonname req

type httpdirection outname res

type queuename eventOutputqueueName aievents1connectionAiStorageConnectiondirection out

]

public static class OrderHandler

[FunctionName(OrderWebhook)]public static async TaskltHttpResponseMessagegt Run(

[HttpTrigger] HttpRequestMessage req[Queue(aievents1 Connection = AiStorageConnection)]

IAsyncCollectorltStringgt eventOutputTraceWriter log)

logInfo($Webhook was triggered)

string jsonContent = await reqContentReadAsStringAsync()dynamic data = JsonConvertDeserializeObject(jsonContent)

await eventOutputAddAsync(JsonConvertSerializeObject(GetLogData(data)))

int orderId = PlaceOrder(data)

return reqCreateResponse(HttpStatusCodeOK new orderNumber = orderId )

bull Workflow in the cloud

bull Powerful control flow

bull Connect functions and APIs

bull Declarative definition to persist in source control and drive deployments

Logic AppsCloud APIs and platform

bull Supports over 125 built-in connectors

bull Scales to meet your needs

bull Enables rapid development

bull Extends with custom APIs and

Functions

API connections

bull Authenticate once and reuse

Big Data Solutions Decision Tree

httpsbiz-excellencecom20160830big-data-dt

Machine Learning Solutions Decision Tree

httpsbiz-excellencecom20160913machine-

learning-dt

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of your

data while making it faster to get up and running with batch

streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources so

you can run queries on exabytes of data Includes U-SQL a

new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully managed

NoSQL database service that indexes stores and queries

data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

Microsoft Big Data Portfolio

SQL Server Stretch

Business intelligence

Machine learning analytics

Insights

Azure SQL Database

SQL Server 2016

SQL Server 2016 Fast Track

Azure SQL DW

ADLS amp ADLA

DocumentDB

HDInsight

Hadoop

Analytics Platform System

Sequential Scale Out + AcrossScale Up

Key

Relational Non-relational

On

-pre

mis

es

Clo

ud

Microsoft has solutions covering

and connecting all four

quadrants ndash thatrsquos why SQL

Server is one of the most utilized

databases in the world

Azure

Data Lake Store

Azure

Blob StoragePurpose Optimized for big data analytics General purpose bulk storage

Use Cases Batch Interactive Streaming App backend backup data media storage for

streaming

Units of Storage Accounts Folders Files Accounts Containers Blobs

Structure Hierarchical File System Flat namespace

WebHDFS Implements WebHDFS No (WASB)

Security AD SAS keys

Storage Auto SharedFiles chunked Manually manage expansionFiles intact

Service State Generally Available PolyBase

just supported

Generally Available

Billing Pay for data stored and for IO Pay for data stored and for IO

Region Availability Two US regions (Other regions coming soon) All Azure Regions

ADL Store vs Blob Store

httpsdocsmicrosoftcomen-usazuredata-lake-storedata-lake-store-comparison-with-blob-storage

Want Hadoop

Need exact same on-prem

Need interactive streaming

MandatoryNo strong opinion

Azure Marketplace (IaaS)

bull Need all workloads exactly like on-

premises

bull Need 100 HortonworksClouderaMapR

Azure HDInsight

bull Most Hadoop workloads

bull Fully managed by Microsoft

bull Sell HDI + ADLS

bull Stickier to Microsoft than VMs

bull Can do interactive (Spark) and streaming

(StormSpark)

Azure Data Lake Analytics

bull Easiest experience for admin no sense of

clusters instant scale per job

bull Easiest experience for developers Visual

StudioU-SQL (C+SQL)

bull Sell ADLA + ADLS

bull Batch workloads only

Need everything exactly like on-prem

Need core projects Yes Batch is OK

Always present ADLA if NET or Visual Studio Shop

If NET or VS shop

Azure SQL DW HDInsight Hive HDInsight Spark Azure Data Lake SQL Server (IaaS)

Volume Petabytes Petabytes Petabytes Petabytes Terabytes

Security Encryption TD

Audit

ADLS Apache

Ranger

ADLS AAD Security

Groups (data)

Encryption TD

Audit

Languages T-SQL HiveQL SparkSQL HiveQL

Scala Java Python

R

U-SQL T-SQL

Extensibility No Yes NETSerDe Yes Packages Yes NET Yes NET CLR

External File

Types

ORC TXT

Parquet RCFile

ORC CSV Parquet

+ others

Parquet JSON

Hive + others

Many ORC TXT Parquet

RCFile

Admin Low-Medium Medium-High Medium-High Low High

Cost Model DWU Nodes amp VM Nodes amp VM UnitsJobs VM

Schema

Definition

Schema on Write

Polybase

Schema on Read Schema on Read Schema on Read Schema on Write

Polybase

Max DB Size 240TB Comp (5X

= 1PB)

Unlimited 64TB (64 1TB drives)

機械学習 Deep Learning 深層強化学習

画像解析

音声解析

データ分類異常検知 顧客グルーピング

数値予測売上予測 需要予測 品質管理

ラベル分類不良品分析 故障予測 チャーン分析

機械学習より強力な分析

自律学習型ロボット

自動運転車

テキストや画像等の自動生成

活用例

主に多層のニューラルネットワークを用いた手法での分析

分析のためには莫大なデータ量計算量知識スキルを要する

統計に基づいた手法での分析

そのため比較的少ないデータ量と計算量で分析を行うことができる

定義したあるべき姿に従い試行錯誤をして自ら学習を行うための分析手法である強化学習と深層学習を組み合わせた分析

Azure Machine Learning Cognitive Toolkit GPU Instance (N-Series)

マイクロソフトが提供する技術

テキストデータ機器のログデータなど

画像データ監視カメラの録画データ 機器の外観画像 顔画像など

動画データ監視カメラの録画データ 機器の稼働状況 人の作業映像など

音声データマイクからの収集データ 稼働音 室内音 人の音声など

数値データセンサーデータ 機器の制御データ計測データなど672342345

機械学習統計理論に基づいた分析手法を用いる用意するべきデータ量と処理する計算量の敷居が低め導入しやすい

Deep Learningデータ量が大きいため強力な分析手法が必要「膨大なデータ量を用意」「莫大な計算量を処理」が必要で敷居が非常に高い導入にはそれなりの覚悟が必要

Action

People

Automated Systems

Apps

Web

Mobile

Bots

Intelligence

Dashboards amp Visualizations

Cortana

Bot Framework

Cognitive Services

Power BI

Information Management

Event Hubs

Data Catalog

Data Factory

Machine Learning and Analytics

HDInsight

Stream Analytics

Intelligence

Data Lake Analytics

Machine Learning

Big Data Stores

SQL Data Warehouse

Data Lake Store

Data Sources

Apps

Sensors amp Devices

Data

Cortana Intelligence Suite

学習済み

モデル利用

学習モデル

作成

機械学習 教師あり学習

教師なし学習

強化学習

決定木

線形回帰

SVM

ロジスティック回帰

ニューラルネットワーク

クラスタリング

次元削減

Q学習

K-mean法

主成分分析

正準相関分析

ディープニューラルネットワーク

畳みこみニューラルネットワーク

再帰的ニューラルネットワーク

回帰結合ニューラルネットワーク

httpsazuremicrosoftcomen-usservicescognitive-services

わずか数行のコードで強力なアルゴリズムを持つアプリの作成が可能ですiOSAndroidWindows などのプラットフォームを問わず機能します

httpsazuremicrosoftcomja-jpservicesmachine-learning

ユーザーは簡単に予測分析ソリューションを構築デプロイ共有できます

httpswwwyoutubecomwatchv=9gDDO5ldT-4ampfeature=youtube

AI技術を利用したディープラーニング(深層学習)ツールキットです旧称「CNTK」から改名されました

ソースコード httpsgithubcomMicrosoftCNTK

SearchSpeech

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

コカコーラ誕生100周年キャンペーン

コカコーラボトルを「100歳」と認識

bull 自撮り写真をUp結果をSNS拡散

ナビタイムジャパン様

自然言語入力による路線検索BOT

bull ユーザーとの新たな接点(LINE)

bull 自然言語入力

Vision Language Knowledge

Vision Knowledge SearchSpeech Language

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

Microsoft SupportVirtual Agent

自然言語入力による自動応答サポート窓口

bull 過去QampAデータ解析に基づく回答抽出

bull 定型外はldquo人対応rdquo

UBER

登録ドライバーをスマホ経由で顔認証

VOLVO

表情からの危険予測

Search

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

アロバ様

監視カメラによる店舗内行動分析

bull 顔認識による 顧客識別

bull 表情分析

東京サマーランド様にて導入済み

HmComm様

コールセンターソリューション

bull 会話をテキスト化キーワードを解析

bull 過去QampA検索

bull 内容をCRM保存

Vision KnowledgeSpeech Language

導入事例東京サマーランド様

Video

Intelligent KioskhttpsgithubcomMicrosoftCognitive-Samples-IntelligentKiosk

ldquo(want to|request)rdquo

HoloLens

Page 36: やりたいことから考えるMicrosoft Azure 上の データストアの選び方とデータサイエンティスト向け活用法。KVSからDWHまで

領域 改善後

新しいインデックス提案が作成されるまで 18時間以内

T-SQL文が実行されるまでのタイムラグ 即時(数分以内)

「悪い」チューニング内容に対しての検知時間 1時間以内

次のインデックス提案が行われるまでの待ち時

間即時(数分以内)

導入までの総時間 1日以内

SQL Database の脅威の検出

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-threat-detection

コントロールノード

SQLDB

Azure Blob Storage(WASB)

100 DWU lt gt 2000 DWUコントロールノード

ユーザーからの接続コンピュートとストレージの調整

コンピュートノード

コンピュートノード

コンピュートノード

コンピュートノード

SQLDB

SQLDB

SQLDB

SQLDB

Azure Blob Storage(WASB)

コントロールノード

SQLDB コントロールノード

D51

D52

D53

D60

hellip

D41

D42

D43

D50

hellip

コンピュートノード

D31

D32

D33

D40hellip

D21

D22

D23

D30

hellip

D11

D12

D13

D20

hellip

D1

D2

D3

D10

hellip

SQL DB

Azure Blob Storage(WASB)

コントロールノード

SQLDB コントロールノード

コンピュートノード

D51

D52

D53

D60

hellipコンピュートノード

D41

D42

D43

D50

hellip

コンピュートノード

D31

D32

D33

D40hellip

コンピュートノード

D21

D22

D23

D30

hellip

コンピュートノード

D11

D12

D13

D20

hellip

コンピュートノード

D1

D2

D3

D10

hellip

SQL DB

SQL DB

SQL DB

SQL DB

SQL DB

SQL DB

54

データ無制限のストレージ と 分析プラットフォーム

無制限のストレージ(エクサバイト超)

ネイティブ HDFS に基づく実装

HDInsight Hortonworks Cloudera との統合

全ての HDFS 準拠プロジェクトとの親和性

(Spark Storm Flume Sqoop Kafka R etc)

Azure Data Lake Store- Hadoop Distributed File System (HDFS) For The Cloud

構造化データと非構造化データに対するデータ処理

宣言型の SQL 文 とカスタムコード (UDF UDT UDO hellip )

ローカルとリモートに対するクエリ

バッチ型インタラクティブ型ストリーミング型(in the future)

Azure Data Lake Analytics- New Query Language U-SQL

ETL パイプライン

スキーマの定義Relational

LOB

Applications

Schema-on-Write

直ちに必要でないデータは全て捨てられるかアーカイブされている

無限に保存 分析 結果の参照

あらゆるデータ

ソースからの

データ収集

Schema-on-Read

全データ取込要件にかかわらず

全データ格納そのままのフォーマットでスキーマ定義なし

分析実行Hadoopのような分析エンジンの利用

インタラクティブクエリ

バッチ型クエリ

機械学習

データウェアハウス

リアルタイム分析

リレーショナル

デバイス

観察仮説集まったデータから仮説をたてる

58

無制限のサイズ

ギガバイトからペタバイトのサイズの単一ファイル

巨大なスループットを必要とする大規模な分析システムを実現

あらゆるスループットに自動最適化

ペタバイト超のデータの並列コンピューティング

同一リージョン内に3つのコピーを自動的に作成

インストールやチューニングは不要

数分で稼働開始

必要に応じてどのようなサイズにもスケールアウト可能

データウェアハウスデータレイクストア

非構造Rawデータ(ログ文書バイナリ)

Tier 1

MachineLearning

Data LakeAnalytics HDInsight

目的に合わせた

データウェハウス分析処理

(売上分析経営分析)

データウェハウスに格納しきれなかった

過去データ関連データを連結して分析

ハードウェアの性能限界によって行えなかった処理量の分析を実現

ディスクコンピューティング

非構造データの

分析処理

(画像音声映像など)

広範囲のデータを利用した

機械学習統計解析処理

などによる高度分析

SQL Data Warehouse

Data LakeAnalytics HDInsight

Data LakeAnalytics

構造化データ半構造データ

分析用に加工(csv等)

Tier 2

アーカイブデータTier 2 DWHのアーカイブ

Tier 3

Analytics

Storage

HDInsight(ldquomanaged clustersrdquo)

Azure Data Lake Analytics

Azure Data Lake Store

Azure Data Lake

LOB Applications

SocialDevices

Clickstream

Sensors

Video

Web

Relational

HDInsight

Data Lake Analytics

Machine Learning

Spark

R

Azure Data Lake Store

Azure Data Lake Store

Azure Storage Blob

外部表Azure SQLData Warehouse

HDInsight

開発者は OSS に馴染んでいる Java Eclipse Hive etc

マネージド Hadoop クラスタにおいてカスタマイズ管理が可能でフレキシビリティがある

Azure Data Lake Analytics

C SQL amp PowerShell のスキル

経験を活かせる

利便性効率性自動スケール

ジョブ実行の仕組みが提供される

(New)

(New)

一般的なパターン

処理読み込み 保存

INSERT

OUTPUT

OUTPUT

SELECThellip

FROMhellip

WHEREhellip

+

PythonR

EXTRACT

EXTRACT

SELECT

SELECT

Azure

Data

Lake

Azure

Data

Lake

Azure

SQL

DB

Azure

Storage

Blobs

Azure

Storage

Blobs

RowSet RowSet

Cognitive Services

REFERENCE ASSEMBLY WebLogExtASM

rs =

EXTRACT

UserID string

Start DateTime

End DateTime

Region string

SitesVisited string

PagesVisited string

FROM ldquoLogsWebLogRecordstxtrdquo

USING WebLogExtractor ()

result = SELECT UserID

(EndSubtract(Start))TotalSeconds AS Duration

FROM rs ORDER BY Duration DESC FETCH 10

OUTPUT result TO ldquoLogsResultstop10tsv

USING OutputterTsv()

bull 型定義は C の型定義と同じ

bull データをファイルから抽出読み込み

するときにスキーマが必要

Data Lake Store 内 のファイル

独自形式を解析するカスタム関数

C の関数

行セット(中間テーブルの概念

に近い)

TSV形式で書き込む関数

U-SQL ジョブのサブミットAzure PortalやVisual StudioのAzure Data Lake ToolsからU-SQLジョブをサブミット可能

67

進捗

統計情報

従来型の処理分析 Azure Data Lake を中心とした処理分析

Business apps

Custom apps

Sensors and devices

ADL StorePeople

非構造化データも含めてあらゆるデータを格納

Azure SQL DW

Azure AD

Power BI

ADF

ADL Analytics

bull 処理分析業務の大半はデータ準備作業が占めるbull 処理分析業務に手間時間が必要

Business apps

Custom apps

Sensors and devices

HDInsight

ユーザー管理認証

データの連携

Power BI

File System

Database

Database

Hadoop

DWH

Data Mart

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

①大量データの受け入れ

②リアルタイム処理データの集約

③データの蓄積

構造化非構造化文書など様々な形式での保存

④データの加工移行

⑥機械学習

⑦Hadoop解析

⑧マイクロソフト技術を用いた分散解析

⑨通常のRMSが機能を追加した企業向けRを使用した解析

⑪クラウドベースの Self-Service BI 機能

⑫機械学習の予測モデルを業務システムなどから呼び出し可能にするサービス

外部クラウドなどからのデータ取り込み

②リアルタイム処理データの加工

⑤ディープラーニング

⑩Excelを用いた可視化

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

リアルタイム

バッチ

Data Factory Tools for Visual Studio

Azure Portal

Azure TableStorage

(Web ログレコード)

Data Factory

HDInsight

(Web ログをファイルにして

バッチ処理で集計)

SQL Database

(集計データをDB テーブルに格納)

Power BI

社内システム

DataManagement

Gateway

SQL Database

Data Warehouse

Blob Storage

Table Storage

httpportalazurecom

接続

メッセージ作成

メッセージ送信

var cs = ldquo接続文字列rdquovar path = ldquoイベントハブ名rdquovar eh = EventHubClientCreateFromConnectionString(cs path)

var msg = new user = thisUserIdentityNamelevel = leveltimestamp = demoTimestamp

var json = JsonConvertSerializeObject(msg)

ehSend(new EventData(EncodingUTF8GetBytes(json)))

EventProcessorHostを使う

bull

bull

bull

Functionsを使う

bull

bull

IEventProcessorProcessEventAsync(msg)

IEventProcessorProcessEventAsync(msg)

Run(string msg)

Azure azure-sdk-for-python

Point of Service Devices

Self CheckoutStations

Kiosks

Smart Phones

SlatesTablets

PCsLaptops

Servers

Digital Signs

DiagnosticEquipmentRemote Medical

MonitorsLogic

Controllers

SpecializedDevicesThin

Clients

Handhelds

Security

POS Terminals

AutomationDevices

VendingMachines

Kinect

ATM

Stream Analytics

入力 出力クエリデータストリーム

参照

bull ldquo入力rdquoldquo出力rdquoをクリックしそれぞれ作成

bull ldquoクエリrdquoをクリックしクエリを定義bull 作業が終わったらldquo開始rdquoで実

行開始

SELECT

INTO

FROM

SELECT user level AS SATLevel timestamp

INTO

FROM

デバイス接続性とデバイス管理およびブローカーサービス

データ管理と高度な分析 情報活用業務の生産性とプロセスの最適化

IoT Agent Gateway

予兆原因の学習モデル

ダッシュボード

参照ERPbull 顧客bull 設備bull 担当者

Notification Hubs

通知

予兆イベント

メンテ方法の推奨

bull ヘルス状態bull インシデント管理bull 対応のディスパッチ

現地技術要員のモバイルデバイス

オペレーションセンター

bull イベント ドア開閉軸アライメントキャビン速度モーター温度など

bull アラーム 故障アラームエラーコードなど

httpisstkeazurewebsitesnet

Event Hub

Stream Analytics

Azure ML

制御機器とセンサーのデータ

マシンデータの蓄積

メンテナンス方法の学習モデル

Machine Learning

Blob Storage

セルフサービス分析

Power BI

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce

cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-

system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of

your data while making it faster to get up and running with

batch streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources

so you can run queries on exabytes of data Includes U-

SQL a new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully

managed NoSQL database service that indexes stores and

queries data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

What do all of these have in common

They can all use Azure Analysis Services

Azure Analysis Services

Azure Analysis Services

BI semantic model

Business logic amp metrics

Data modeling

Security

Azure Analysis Services

Lifecycle management

In-memory cache

On-premises

Cloud

Data sources

SQL Database

SQL Data Warehouse

Other data sources

SQL Server

Analytics platform

system

Other data sources

On-premises

Cloud

Client tools

Power BI

Excel

Third party BI tools

Power BI Desktop

Rich semantic modelling

locatioidentifier

identifiertype

fieldidentifier

numberofunitssoldtodate

remaningnumber

Numberofuntissoldtoday

receivedback

productidentifier

descriptionline1

descriptionline2

qtyafterqtysales

familyidentifier

Source DataComplex raw data optimized for processing

Semantic ModelRich business user friendly semantic model

Product Id

Product Name

Product Description

Category

Category Id

Category Name

Category Description

Sub Category

Product Id

Shelf qty

Return qty

Order qty

Sale qty

Cloud Data

On-Premises

Data

Azure Analysis Services

Lightning fast queries

データ管理をきっかけに処理を実行

Web Glue

Bots IoT

DOMINOS STORES

Key Vault

Azure Active Directory

Azure Files

SSIS FRANCHISEE

AZURE WEST EUROPE

Azure Function

KEMPSSDESSRS

IN- AND EXTERNAL DATA SOURCES

orderprocessing

O365

App Insights

indexhtml

Azure Functions Proxies

couponprocessing

Use Bindings in Your Codefunctionjson

bindings [type httpTriggerdirection inwebHookType genericJsonname req

type httpdirection outname res

type queuename eventOutputqueueName aievents1connectionAiStorageConnectiondirection out

]

public static class OrderHandler

[FunctionName(OrderWebhook)]public static async TaskltHttpResponseMessagegt Run(

[HttpTrigger] HttpRequestMessage req[Queue(aievents1 Connection = AiStorageConnection)]

IAsyncCollectorltStringgt eventOutputTraceWriter log)

logInfo($Webhook was triggered)

string jsonContent = await reqContentReadAsStringAsync()dynamic data = JsonConvertDeserializeObject(jsonContent)

await eventOutputAddAsync(JsonConvertSerializeObject(GetLogData(data)))

int orderId = PlaceOrder(data)

return reqCreateResponse(HttpStatusCodeOK new orderNumber = orderId )

bull Workflow in the cloud

bull Powerful control flow

bull Connect functions and APIs

bull Declarative definition to persist in source control and drive deployments

Logic AppsCloud APIs and platform

bull Supports over 125 built-in connectors

bull Scales to meet your needs

bull Enables rapid development

bull Extends with custom APIs and

Functions

API connections

bull Authenticate once and reuse

Big Data Solutions Decision Tree

httpsbiz-excellencecom20160830big-data-dt

Machine Learning Solutions Decision Tree

httpsbiz-excellencecom20160913machine-

learning-dt

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of your

data while making it faster to get up and running with batch

streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources so

you can run queries on exabytes of data Includes U-SQL a

new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully managed

NoSQL database service that indexes stores and queries

data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

Microsoft Big Data Portfolio

SQL Server Stretch

Business intelligence

Machine learning analytics

Insights

Azure SQL Database

SQL Server 2016

SQL Server 2016 Fast Track

Azure SQL DW

ADLS amp ADLA

DocumentDB

HDInsight

Hadoop

Analytics Platform System

Sequential Scale Out + AcrossScale Up

Key

Relational Non-relational

On

-pre

mis

es

Clo

ud

Microsoft has solutions covering

and connecting all four

quadrants ndash thatrsquos why SQL

Server is one of the most utilized

databases in the world

Azure

Data Lake Store

Azure

Blob StoragePurpose Optimized for big data analytics General purpose bulk storage

Use Cases Batch Interactive Streaming App backend backup data media storage for

streaming

Units of Storage Accounts Folders Files Accounts Containers Blobs

Structure Hierarchical File System Flat namespace

WebHDFS Implements WebHDFS No (WASB)

Security AD SAS keys

Storage Auto SharedFiles chunked Manually manage expansionFiles intact

Service State Generally Available PolyBase

just supported

Generally Available

Billing Pay for data stored and for IO Pay for data stored and for IO

Region Availability Two US regions (Other regions coming soon) All Azure Regions

ADL Store vs Blob Store

httpsdocsmicrosoftcomen-usazuredata-lake-storedata-lake-store-comparison-with-blob-storage

Want Hadoop

Need exact same on-prem

Need interactive streaming

MandatoryNo strong opinion

Azure Marketplace (IaaS)

bull Need all workloads exactly like on-

premises

bull Need 100 HortonworksClouderaMapR

Azure HDInsight

bull Most Hadoop workloads

bull Fully managed by Microsoft

bull Sell HDI + ADLS

bull Stickier to Microsoft than VMs

bull Can do interactive (Spark) and streaming

(StormSpark)

Azure Data Lake Analytics

bull Easiest experience for admin no sense of

clusters instant scale per job

bull Easiest experience for developers Visual

StudioU-SQL (C+SQL)

bull Sell ADLA + ADLS

bull Batch workloads only

Need everything exactly like on-prem

Need core projects Yes Batch is OK

Always present ADLA if NET or Visual Studio Shop

If NET or VS shop

Azure SQL DW HDInsight Hive HDInsight Spark Azure Data Lake SQL Server (IaaS)

Volume Petabytes Petabytes Petabytes Petabytes Terabytes

Security Encryption TD

Audit

ADLS Apache

Ranger

ADLS AAD Security

Groups (data)

Encryption TD

Audit

Languages T-SQL HiveQL SparkSQL HiveQL

Scala Java Python

R

U-SQL T-SQL

Extensibility No Yes NETSerDe Yes Packages Yes NET Yes NET CLR

External File

Types

ORC TXT

Parquet RCFile

ORC CSV Parquet

+ others

Parquet JSON

Hive + others

Many ORC TXT Parquet

RCFile

Admin Low-Medium Medium-High Medium-High Low High

Cost Model DWU Nodes amp VM Nodes amp VM UnitsJobs VM

Schema

Definition

Schema on Write

Polybase

Schema on Read Schema on Read Schema on Read Schema on Write

Polybase

Max DB Size 240TB Comp (5X

= 1PB)

Unlimited 64TB (64 1TB drives)

機械学習 Deep Learning 深層強化学習

画像解析

音声解析

データ分類異常検知 顧客グルーピング

数値予測売上予測 需要予測 品質管理

ラベル分類不良品分析 故障予測 チャーン分析

機械学習より強力な分析

自律学習型ロボット

自動運転車

テキストや画像等の自動生成

活用例

主に多層のニューラルネットワークを用いた手法での分析

分析のためには莫大なデータ量計算量知識スキルを要する

統計に基づいた手法での分析

そのため比較的少ないデータ量と計算量で分析を行うことができる

定義したあるべき姿に従い試行錯誤をして自ら学習を行うための分析手法である強化学習と深層学習を組み合わせた分析

Azure Machine Learning Cognitive Toolkit GPU Instance (N-Series)

マイクロソフトが提供する技術

テキストデータ機器のログデータなど

画像データ監視カメラの録画データ 機器の外観画像 顔画像など

動画データ監視カメラの録画データ 機器の稼働状況 人の作業映像など

音声データマイクからの収集データ 稼働音 室内音 人の音声など

数値データセンサーデータ 機器の制御データ計測データなど672342345

機械学習統計理論に基づいた分析手法を用いる用意するべきデータ量と処理する計算量の敷居が低め導入しやすい

Deep Learningデータ量が大きいため強力な分析手法が必要「膨大なデータ量を用意」「莫大な計算量を処理」が必要で敷居が非常に高い導入にはそれなりの覚悟が必要

Action

People

Automated Systems

Apps

Web

Mobile

Bots

Intelligence

Dashboards amp Visualizations

Cortana

Bot Framework

Cognitive Services

Power BI

Information Management

Event Hubs

Data Catalog

Data Factory

Machine Learning and Analytics

HDInsight

Stream Analytics

Intelligence

Data Lake Analytics

Machine Learning

Big Data Stores

SQL Data Warehouse

Data Lake Store

Data Sources

Apps

Sensors amp Devices

Data

Cortana Intelligence Suite

学習済み

モデル利用

学習モデル

作成

機械学習 教師あり学習

教師なし学習

強化学習

決定木

線形回帰

SVM

ロジスティック回帰

ニューラルネットワーク

クラスタリング

次元削減

Q学習

K-mean法

主成分分析

正準相関分析

ディープニューラルネットワーク

畳みこみニューラルネットワーク

再帰的ニューラルネットワーク

回帰結合ニューラルネットワーク

httpsazuremicrosoftcomen-usservicescognitive-services

わずか数行のコードで強力なアルゴリズムを持つアプリの作成が可能ですiOSAndroidWindows などのプラットフォームを問わず機能します

httpsazuremicrosoftcomja-jpservicesmachine-learning

ユーザーは簡単に予測分析ソリューションを構築デプロイ共有できます

httpswwwyoutubecomwatchv=9gDDO5ldT-4ampfeature=youtube

AI技術を利用したディープラーニング(深層学習)ツールキットです旧称「CNTK」から改名されました

ソースコード httpsgithubcomMicrosoftCNTK

SearchSpeech

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

コカコーラ誕生100周年キャンペーン

コカコーラボトルを「100歳」と認識

bull 自撮り写真をUp結果をSNS拡散

ナビタイムジャパン様

自然言語入力による路線検索BOT

bull ユーザーとの新たな接点(LINE)

bull 自然言語入力

Vision Language Knowledge

Vision Knowledge SearchSpeech Language

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

Microsoft SupportVirtual Agent

自然言語入力による自動応答サポート窓口

bull 過去QampAデータ解析に基づく回答抽出

bull 定型外はldquo人対応rdquo

UBER

登録ドライバーをスマホ経由で顔認証

VOLVO

表情からの危険予測

Search

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

アロバ様

監視カメラによる店舗内行動分析

bull 顔認識による 顧客識別

bull 表情分析

東京サマーランド様にて導入済み

HmComm様

コールセンターソリューション

bull 会話をテキスト化キーワードを解析

bull 過去QampA検索

bull 内容をCRM保存

Vision KnowledgeSpeech Language

導入事例東京サマーランド様

Video

Intelligent KioskhttpsgithubcomMicrosoftCognitive-Samples-IntelligentKiosk

ldquo(want to|request)rdquo

HoloLens

Page 37: やりたいことから考えるMicrosoft Azure 上の データストアの選び方とデータサイエンティスト向け活用法。KVSからDWHまで

SQL Database の脅威の検出

httpsdocsmicrosoftcomja-jpazuresql-databasesql-database-threat-detection

コントロールノード

SQLDB

Azure Blob Storage(WASB)

100 DWU lt gt 2000 DWUコントロールノード

ユーザーからの接続コンピュートとストレージの調整

コンピュートノード

コンピュートノード

コンピュートノード

コンピュートノード

SQLDB

SQLDB

SQLDB

SQLDB

Azure Blob Storage(WASB)

コントロールノード

SQLDB コントロールノード

D51

D52

D53

D60

hellip

D41

D42

D43

D50

hellip

コンピュートノード

D31

D32

D33

D40hellip

D21

D22

D23

D30

hellip

D11

D12

D13

D20

hellip

D1

D2

D3

D10

hellip

SQL DB

Azure Blob Storage(WASB)

コントロールノード

SQLDB コントロールノード

コンピュートノード

D51

D52

D53

D60

hellipコンピュートノード

D41

D42

D43

D50

hellip

コンピュートノード

D31

D32

D33

D40hellip

コンピュートノード

D21

D22

D23

D30

hellip

コンピュートノード

D11

D12

D13

D20

hellip

コンピュートノード

D1

D2

D3

D10

hellip

SQL DB

SQL DB

SQL DB

SQL DB

SQL DB

SQL DB

54

データ無制限のストレージ と 分析プラットフォーム

無制限のストレージ(エクサバイト超)

ネイティブ HDFS に基づく実装

HDInsight Hortonworks Cloudera との統合

全ての HDFS 準拠プロジェクトとの親和性

(Spark Storm Flume Sqoop Kafka R etc)

Azure Data Lake Store- Hadoop Distributed File System (HDFS) For The Cloud

構造化データと非構造化データに対するデータ処理

宣言型の SQL 文 とカスタムコード (UDF UDT UDO hellip )

ローカルとリモートに対するクエリ

バッチ型インタラクティブ型ストリーミング型(in the future)

Azure Data Lake Analytics- New Query Language U-SQL

ETL パイプライン

スキーマの定義Relational

LOB

Applications

Schema-on-Write

直ちに必要でないデータは全て捨てられるかアーカイブされている

無限に保存 分析 結果の参照

あらゆるデータ

ソースからの

データ収集

Schema-on-Read

全データ取込要件にかかわらず

全データ格納そのままのフォーマットでスキーマ定義なし

分析実行Hadoopのような分析エンジンの利用

インタラクティブクエリ

バッチ型クエリ

機械学習

データウェアハウス

リアルタイム分析

リレーショナル

デバイス

観察仮説集まったデータから仮説をたてる

58

無制限のサイズ

ギガバイトからペタバイトのサイズの単一ファイル

巨大なスループットを必要とする大規模な分析システムを実現

あらゆるスループットに自動最適化

ペタバイト超のデータの並列コンピューティング

同一リージョン内に3つのコピーを自動的に作成

インストールやチューニングは不要

数分で稼働開始

必要に応じてどのようなサイズにもスケールアウト可能

データウェアハウスデータレイクストア

非構造Rawデータ(ログ文書バイナリ)

Tier 1

MachineLearning

Data LakeAnalytics HDInsight

目的に合わせた

データウェハウス分析処理

(売上分析経営分析)

データウェハウスに格納しきれなかった

過去データ関連データを連結して分析

ハードウェアの性能限界によって行えなかった処理量の分析を実現

ディスクコンピューティング

非構造データの

分析処理

(画像音声映像など)

広範囲のデータを利用した

機械学習統計解析処理

などによる高度分析

SQL Data Warehouse

Data LakeAnalytics HDInsight

Data LakeAnalytics

構造化データ半構造データ

分析用に加工(csv等)

Tier 2

アーカイブデータTier 2 DWHのアーカイブ

Tier 3

Analytics

Storage

HDInsight(ldquomanaged clustersrdquo)

Azure Data Lake Analytics

Azure Data Lake Store

Azure Data Lake

LOB Applications

SocialDevices

Clickstream

Sensors

Video

Web

Relational

HDInsight

Data Lake Analytics

Machine Learning

Spark

R

Azure Data Lake Store

Azure Data Lake Store

Azure Storage Blob

外部表Azure SQLData Warehouse

HDInsight

開発者は OSS に馴染んでいる Java Eclipse Hive etc

マネージド Hadoop クラスタにおいてカスタマイズ管理が可能でフレキシビリティがある

Azure Data Lake Analytics

C SQL amp PowerShell のスキル

経験を活かせる

利便性効率性自動スケール

ジョブ実行の仕組みが提供される

(New)

(New)

一般的なパターン

処理読み込み 保存

INSERT

OUTPUT

OUTPUT

SELECThellip

FROMhellip

WHEREhellip

+

PythonR

EXTRACT

EXTRACT

SELECT

SELECT

Azure

Data

Lake

Azure

Data

Lake

Azure

SQL

DB

Azure

Storage

Blobs

Azure

Storage

Blobs

RowSet RowSet

Cognitive Services

REFERENCE ASSEMBLY WebLogExtASM

rs =

EXTRACT

UserID string

Start DateTime

End DateTime

Region string

SitesVisited string

PagesVisited string

FROM ldquoLogsWebLogRecordstxtrdquo

USING WebLogExtractor ()

result = SELECT UserID

(EndSubtract(Start))TotalSeconds AS Duration

FROM rs ORDER BY Duration DESC FETCH 10

OUTPUT result TO ldquoLogsResultstop10tsv

USING OutputterTsv()

bull 型定義は C の型定義と同じ

bull データをファイルから抽出読み込み

するときにスキーマが必要

Data Lake Store 内 のファイル

独自形式を解析するカスタム関数

C の関数

行セット(中間テーブルの概念

に近い)

TSV形式で書き込む関数

U-SQL ジョブのサブミットAzure PortalやVisual StudioのAzure Data Lake ToolsからU-SQLジョブをサブミット可能

67

進捗

統計情報

従来型の処理分析 Azure Data Lake を中心とした処理分析

Business apps

Custom apps

Sensors and devices

ADL StorePeople

非構造化データも含めてあらゆるデータを格納

Azure SQL DW

Azure AD

Power BI

ADF

ADL Analytics

bull 処理分析業務の大半はデータ準備作業が占めるbull 処理分析業務に手間時間が必要

Business apps

Custom apps

Sensors and devices

HDInsight

ユーザー管理認証

データの連携

Power BI

File System

Database

Database

Hadoop

DWH

Data Mart

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

①大量データの受け入れ

②リアルタイム処理データの集約

③データの蓄積

構造化非構造化文書など様々な形式での保存

④データの加工移行

⑥機械学習

⑦Hadoop解析

⑧マイクロソフト技術を用いた分散解析

⑨通常のRMSが機能を追加した企業向けRを使用した解析

⑪クラウドベースの Self-Service BI 機能

⑫機械学習の予測モデルを業務システムなどから呼び出し可能にするサービス

外部クラウドなどからのデータ取り込み

②リアルタイム処理データの加工

⑤ディープラーニング

⑩Excelを用いた可視化

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

リアルタイム

バッチ

Data Factory Tools for Visual Studio

Azure Portal

Azure TableStorage

(Web ログレコード)

Data Factory

HDInsight

(Web ログをファイルにして

バッチ処理で集計)

SQL Database

(集計データをDB テーブルに格納)

Power BI

社内システム

DataManagement

Gateway

SQL Database

Data Warehouse

Blob Storage

Table Storage

httpportalazurecom

接続

メッセージ作成

メッセージ送信

var cs = ldquo接続文字列rdquovar path = ldquoイベントハブ名rdquovar eh = EventHubClientCreateFromConnectionString(cs path)

var msg = new user = thisUserIdentityNamelevel = leveltimestamp = demoTimestamp

var json = JsonConvertSerializeObject(msg)

ehSend(new EventData(EncodingUTF8GetBytes(json)))

EventProcessorHostを使う

bull

bull

bull

Functionsを使う

bull

bull

IEventProcessorProcessEventAsync(msg)

IEventProcessorProcessEventAsync(msg)

Run(string msg)

Azure azure-sdk-for-python

Point of Service Devices

Self CheckoutStations

Kiosks

Smart Phones

SlatesTablets

PCsLaptops

Servers

Digital Signs

DiagnosticEquipmentRemote Medical

MonitorsLogic

Controllers

SpecializedDevicesThin

Clients

Handhelds

Security

POS Terminals

AutomationDevices

VendingMachines

Kinect

ATM

Stream Analytics

入力 出力クエリデータストリーム

参照

bull ldquo入力rdquoldquo出力rdquoをクリックしそれぞれ作成

bull ldquoクエリrdquoをクリックしクエリを定義bull 作業が終わったらldquo開始rdquoで実

行開始

SELECT

INTO

FROM

SELECT user level AS SATLevel timestamp

INTO

FROM

デバイス接続性とデバイス管理およびブローカーサービス

データ管理と高度な分析 情報活用業務の生産性とプロセスの最適化

IoT Agent Gateway

予兆原因の学習モデル

ダッシュボード

参照ERPbull 顧客bull 設備bull 担当者

Notification Hubs

通知

予兆イベント

メンテ方法の推奨

bull ヘルス状態bull インシデント管理bull 対応のディスパッチ

現地技術要員のモバイルデバイス

オペレーションセンター

bull イベント ドア開閉軸アライメントキャビン速度モーター温度など

bull アラーム 故障アラームエラーコードなど

httpisstkeazurewebsitesnet

Event Hub

Stream Analytics

Azure ML

制御機器とセンサーのデータ

マシンデータの蓄積

メンテナンス方法の学習モデル

Machine Learning

Blob Storage

セルフサービス分析

Power BI

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce

cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-

system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of

your data while making it faster to get up and running with

batch streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources

so you can run queries on exabytes of data Includes U-

SQL a new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully

managed NoSQL database service that indexes stores and

queries data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

What do all of these have in common

They can all use Azure Analysis Services

Azure Analysis Services

Azure Analysis Services

BI semantic model

Business logic amp metrics

Data modeling

Security

Azure Analysis Services

Lifecycle management

In-memory cache

On-premises

Cloud

Data sources

SQL Database

SQL Data Warehouse

Other data sources

SQL Server

Analytics platform

system

Other data sources

On-premises

Cloud

Client tools

Power BI

Excel

Third party BI tools

Power BI Desktop

Rich semantic modelling

locatioidentifier

identifiertype

fieldidentifier

numberofunitssoldtodate

remaningnumber

Numberofuntissoldtoday

receivedback

productidentifier

descriptionline1

descriptionline2

qtyafterqtysales

familyidentifier

Source DataComplex raw data optimized for processing

Semantic ModelRich business user friendly semantic model

Product Id

Product Name

Product Description

Category

Category Id

Category Name

Category Description

Sub Category

Product Id

Shelf qty

Return qty

Order qty

Sale qty

Cloud Data

On-Premises

Data

Azure Analysis Services

Lightning fast queries

データ管理をきっかけに処理を実行

Web Glue

Bots IoT

DOMINOS STORES

Key Vault

Azure Active Directory

Azure Files

SSIS FRANCHISEE

AZURE WEST EUROPE

Azure Function

KEMPSSDESSRS

IN- AND EXTERNAL DATA SOURCES

orderprocessing

O365

App Insights

indexhtml

Azure Functions Proxies

couponprocessing

Use Bindings in Your Codefunctionjson

bindings [type httpTriggerdirection inwebHookType genericJsonname req

type httpdirection outname res

type queuename eventOutputqueueName aievents1connectionAiStorageConnectiondirection out

]

public static class OrderHandler

[FunctionName(OrderWebhook)]public static async TaskltHttpResponseMessagegt Run(

[HttpTrigger] HttpRequestMessage req[Queue(aievents1 Connection = AiStorageConnection)]

IAsyncCollectorltStringgt eventOutputTraceWriter log)

logInfo($Webhook was triggered)

string jsonContent = await reqContentReadAsStringAsync()dynamic data = JsonConvertDeserializeObject(jsonContent)

await eventOutputAddAsync(JsonConvertSerializeObject(GetLogData(data)))

int orderId = PlaceOrder(data)

return reqCreateResponse(HttpStatusCodeOK new orderNumber = orderId )

bull Workflow in the cloud

bull Powerful control flow

bull Connect functions and APIs

bull Declarative definition to persist in source control and drive deployments

Logic AppsCloud APIs and platform

bull Supports over 125 built-in connectors

bull Scales to meet your needs

bull Enables rapid development

bull Extends with custom APIs and

Functions

API connections

bull Authenticate once and reuse

Big Data Solutions Decision Tree

httpsbiz-excellencecom20160830big-data-dt

Machine Learning Solutions Decision Tree

httpsbiz-excellencecom20160913machine-

learning-dt

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of your

data while making it faster to get up and running with batch

streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources so

you can run queries on exabytes of data Includes U-SQL a

new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully managed

NoSQL database service that indexes stores and queries

data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

Microsoft Big Data Portfolio

SQL Server Stretch

Business intelligence

Machine learning analytics

Insights

Azure SQL Database

SQL Server 2016

SQL Server 2016 Fast Track

Azure SQL DW

ADLS amp ADLA

DocumentDB

HDInsight

Hadoop

Analytics Platform System

Sequential Scale Out + AcrossScale Up

Key

Relational Non-relational

On

-pre

mis

es

Clo

ud

Microsoft has solutions covering

and connecting all four

quadrants ndash thatrsquos why SQL

Server is one of the most utilized

databases in the world

Azure

Data Lake Store

Azure

Blob StoragePurpose Optimized for big data analytics General purpose bulk storage

Use Cases Batch Interactive Streaming App backend backup data media storage for

streaming

Units of Storage Accounts Folders Files Accounts Containers Blobs

Structure Hierarchical File System Flat namespace

WebHDFS Implements WebHDFS No (WASB)

Security AD SAS keys

Storage Auto SharedFiles chunked Manually manage expansionFiles intact

Service State Generally Available PolyBase

just supported

Generally Available

Billing Pay for data stored and for IO Pay for data stored and for IO

Region Availability Two US regions (Other regions coming soon) All Azure Regions

ADL Store vs Blob Store

httpsdocsmicrosoftcomen-usazuredata-lake-storedata-lake-store-comparison-with-blob-storage

Want Hadoop

Need exact same on-prem

Need interactive streaming

MandatoryNo strong opinion

Azure Marketplace (IaaS)

bull Need all workloads exactly like on-

premises

bull Need 100 HortonworksClouderaMapR

Azure HDInsight

bull Most Hadoop workloads

bull Fully managed by Microsoft

bull Sell HDI + ADLS

bull Stickier to Microsoft than VMs

bull Can do interactive (Spark) and streaming

(StormSpark)

Azure Data Lake Analytics

bull Easiest experience for admin no sense of

clusters instant scale per job

bull Easiest experience for developers Visual

StudioU-SQL (C+SQL)

bull Sell ADLA + ADLS

bull Batch workloads only

Need everything exactly like on-prem

Need core projects Yes Batch is OK

Always present ADLA if NET or Visual Studio Shop

If NET or VS shop

Azure SQL DW HDInsight Hive HDInsight Spark Azure Data Lake SQL Server (IaaS)

Volume Petabytes Petabytes Petabytes Petabytes Terabytes

Security Encryption TD

Audit

ADLS Apache

Ranger

ADLS AAD Security

Groups (data)

Encryption TD

Audit

Languages T-SQL HiveQL SparkSQL HiveQL

Scala Java Python

R

U-SQL T-SQL

Extensibility No Yes NETSerDe Yes Packages Yes NET Yes NET CLR

External File

Types

ORC TXT

Parquet RCFile

ORC CSV Parquet

+ others

Parquet JSON

Hive + others

Many ORC TXT Parquet

RCFile

Admin Low-Medium Medium-High Medium-High Low High

Cost Model DWU Nodes amp VM Nodes amp VM UnitsJobs VM

Schema

Definition

Schema on Write

Polybase

Schema on Read Schema on Read Schema on Read Schema on Write

Polybase

Max DB Size 240TB Comp (5X

= 1PB)

Unlimited 64TB (64 1TB drives)

機械学習 Deep Learning 深層強化学習

画像解析

音声解析

データ分類異常検知 顧客グルーピング

数値予測売上予測 需要予測 品質管理

ラベル分類不良品分析 故障予測 チャーン分析

機械学習より強力な分析

自律学習型ロボット

自動運転車

テキストや画像等の自動生成

活用例

主に多層のニューラルネットワークを用いた手法での分析

分析のためには莫大なデータ量計算量知識スキルを要する

統計に基づいた手法での分析

そのため比較的少ないデータ量と計算量で分析を行うことができる

定義したあるべき姿に従い試行錯誤をして自ら学習を行うための分析手法である強化学習と深層学習を組み合わせた分析

Azure Machine Learning Cognitive Toolkit GPU Instance (N-Series)

マイクロソフトが提供する技術

テキストデータ機器のログデータなど

画像データ監視カメラの録画データ 機器の外観画像 顔画像など

動画データ監視カメラの録画データ 機器の稼働状況 人の作業映像など

音声データマイクからの収集データ 稼働音 室内音 人の音声など

数値データセンサーデータ 機器の制御データ計測データなど672342345

機械学習統計理論に基づいた分析手法を用いる用意するべきデータ量と処理する計算量の敷居が低め導入しやすい

Deep Learningデータ量が大きいため強力な分析手法が必要「膨大なデータ量を用意」「莫大な計算量を処理」が必要で敷居が非常に高い導入にはそれなりの覚悟が必要

Action

People

Automated Systems

Apps

Web

Mobile

Bots

Intelligence

Dashboards amp Visualizations

Cortana

Bot Framework

Cognitive Services

Power BI

Information Management

Event Hubs

Data Catalog

Data Factory

Machine Learning and Analytics

HDInsight

Stream Analytics

Intelligence

Data Lake Analytics

Machine Learning

Big Data Stores

SQL Data Warehouse

Data Lake Store

Data Sources

Apps

Sensors amp Devices

Data

Cortana Intelligence Suite

学習済み

モデル利用

学習モデル

作成

機械学習 教師あり学習

教師なし学習

強化学習

決定木

線形回帰

SVM

ロジスティック回帰

ニューラルネットワーク

クラスタリング

次元削減

Q学習

K-mean法

主成分分析

正準相関分析

ディープニューラルネットワーク

畳みこみニューラルネットワーク

再帰的ニューラルネットワーク

回帰結合ニューラルネットワーク

httpsazuremicrosoftcomen-usservicescognitive-services

わずか数行のコードで強力なアルゴリズムを持つアプリの作成が可能ですiOSAndroidWindows などのプラットフォームを問わず機能します

httpsazuremicrosoftcomja-jpservicesmachine-learning

ユーザーは簡単に予測分析ソリューションを構築デプロイ共有できます

httpswwwyoutubecomwatchv=9gDDO5ldT-4ampfeature=youtube

AI技術を利用したディープラーニング(深層学習)ツールキットです旧称「CNTK」から改名されました

ソースコード httpsgithubcomMicrosoftCNTK

SearchSpeech

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

コカコーラ誕生100周年キャンペーン

コカコーラボトルを「100歳」と認識

bull 自撮り写真をUp結果をSNS拡散

ナビタイムジャパン様

自然言語入力による路線検索BOT

bull ユーザーとの新たな接点(LINE)

bull 自然言語入力

Vision Language Knowledge

Vision Knowledge SearchSpeech Language

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

Microsoft SupportVirtual Agent

自然言語入力による自動応答サポート窓口

bull 過去QampAデータ解析に基づく回答抽出

bull 定型外はldquo人対応rdquo

UBER

登録ドライバーをスマホ経由で顔認証

VOLVO

表情からの危険予測

Search

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

アロバ様

監視カメラによる店舗内行動分析

bull 顔認識による 顧客識別

bull 表情分析

東京サマーランド様にて導入済み

HmComm様

コールセンターソリューション

bull 会話をテキスト化キーワードを解析

bull 過去QampA検索

bull 内容をCRM保存

Vision KnowledgeSpeech Language

導入事例東京サマーランド様

Video

Intelligent KioskhttpsgithubcomMicrosoftCognitive-Samples-IntelligentKiosk

ldquo(want to|request)rdquo

HoloLens

Page 38: やりたいことから考えるMicrosoft Azure 上の データストアの選び方とデータサイエンティスト向け活用法。KVSからDWHまで

コントロールノード

SQLDB

Azure Blob Storage(WASB)

100 DWU lt gt 2000 DWUコントロールノード

ユーザーからの接続コンピュートとストレージの調整

コンピュートノード

コンピュートノード

コンピュートノード

コンピュートノード

SQLDB

SQLDB

SQLDB

SQLDB

Azure Blob Storage(WASB)

コントロールノード

SQLDB コントロールノード

D51

D52

D53

D60

hellip

D41

D42

D43

D50

hellip

コンピュートノード

D31

D32

D33

D40hellip

D21

D22

D23

D30

hellip

D11

D12

D13

D20

hellip

D1

D2

D3

D10

hellip

SQL DB

Azure Blob Storage(WASB)

コントロールノード

SQLDB コントロールノード

コンピュートノード

D51

D52

D53

D60

hellipコンピュートノード

D41

D42

D43

D50

hellip

コンピュートノード

D31

D32

D33

D40hellip

コンピュートノード

D21

D22

D23

D30

hellip

コンピュートノード

D11

D12

D13

D20

hellip

コンピュートノード

D1

D2

D3

D10

hellip

SQL DB

SQL DB

SQL DB

SQL DB

SQL DB

SQL DB

54

データ無制限のストレージ と 分析プラットフォーム

無制限のストレージ(エクサバイト超)

ネイティブ HDFS に基づく実装

HDInsight Hortonworks Cloudera との統合

全ての HDFS 準拠プロジェクトとの親和性

(Spark Storm Flume Sqoop Kafka R etc)

Azure Data Lake Store- Hadoop Distributed File System (HDFS) For The Cloud

構造化データと非構造化データに対するデータ処理

宣言型の SQL 文 とカスタムコード (UDF UDT UDO hellip )

ローカルとリモートに対するクエリ

バッチ型インタラクティブ型ストリーミング型(in the future)

Azure Data Lake Analytics- New Query Language U-SQL

ETL パイプライン

スキーマの定義Relational

LOB

Applications

Schema-on-Write

直ちに必要でないデータは全て捨てられるかアーカイブされている

無限に保存 分析 結果の参照

あらゆるデータ

ソースからの

データ収集

Schema-on-Read

全データ取込要件にかかわらず

全データ格納そのままのフォーマットでスキーマ定義なし

分析実行Hadoopのような分析エンジンの利用

インタラクティブクエリ

バッチ型クエリ

機械学習

データウェアハウス

リアルタイム分析

リレーショナル

デバイス

観察仮説集まったデータから仮説をたてる

58

無制限のサイズ

ギガバイトからペタバイトのサイズの単一ファイル

巨大なスループットを必要とする大規模な分析システムを実現

あらゆるスループットに自動最適化

ペタバイト超のデータの並列コンピューティング

同一リージョン内に3つのコピーを自動的に作成

インストールやチューニングは不要

数分で稼働開始

必要に応じてどのようなサイズにもスケールアウト可能

データウェアハウスデータレイクストア

非構造Rawデータ(ログ文書バイナリ)

Tier 1

MachineLearning

Data LakeAnalytics HDInsight

目的に合わせた

データウェハウス分析処理

(売上分析経営分析)

データウェハウスに格納しきれなかった

過去データ関連データを連結して分析

ハードウェアの性能限界によって行えなかった処理量の分析を実現

ディスクコンピューティング

非構造データの

分析処理

(画像音声映像など)

広範囲のデータを利用した

機械学習統計解析処理

などによる高度分析

SQL Data Warehouse

Data LakeAnalytics HDInsight

Data LakeAnalytics

構造化データ半構造データ

分析用に加工(csv等)

Tier 2

アーカイブデータTier 2 DWHのアーカイブ

Tier 3

Analytics

Storage

HDInsight(ldquomanaged clustersrdquo)

Azure Data Lake Analytics

Azure Data Lake Store

Azure Data Lake

LOB Applications

SocialDevices

Clickstream

Sensors

Video

Web

Relational

HDInsight

Data Lake Analytics

Machine Learning

Spark

R

Azure Data Lake Store

Azure Data Lake Store

Azure Storage Blob

外部表Azure SQLData Warehouse

HDInsight

開発者は OSS に馴染んでいる Java Eclipse Hive etc

マネージド Hadoop クラスタにおいてカスタマイズ管理が可能でフレキシビリティがある

Azure Data Lake Analytics

C SQL amp PowerShell のスキル

経験を活かせる

利便性効率性自動スケール

ジョブ実行の仕組みが提供される

(New)

(New)

一般的なパターン

処理読み込み 保存

INSERT

OUTPUT

OUTPUT

SELECThellip

FROMhellip

WHEREhellip

+

PythonR

EXTRACT

EXTRACT

SELECT

SELECT

Azure

Data

Lake

Azure

Data

Lake

Azure

SQL

DB

Azure

Storage

Blobs

Azure

Storage

Blobs

RowSet RowSet

Cognitive Services

REFERENCE ASSEMBLY WebLogExtASM

rs =

EXTRACT

UserID string

Start DateTime

End DateTime

Region string

SitesVisited string

PagesVisited string

FROM ldquoLogsWebLogRecordstxtrdquo

USING WebLogExtractor ()

result = SELECT UserID

(EndSubtract(Start))TotalSeconds AS Duration

FROM rs ORDER BY Duration DESC FETCH 10

OUTPUT result TO ldquoLogsResultstop10tsv

USING OutputterTsv()

bull 型定義は C の型定義と同じ

bull データをファイルから抽出読み込み

するときにスキーマが必要

Data Lake Store 内 のファイル

独自形式を解析するカスタム関数

C の関数

行セット(中間テーブルの概念

に近い)

TSV形式で書き込む関数

U-SQL ジョブのサブミットAzure PortalやVisual StudioのAzure Data Lake ToolsからU-SQLジョブをサブミット可能

67

進捗

統計情報

従来型の処理分析 Azure Data Lake を中心とした処理分析

Business apps

Custom apps

Sensors and devices

ADL StorePeople

非構造化データも含めてあらゆるデータを格納

Azure SQL DW

Azure AD

Power BI

ADF

ADL Analytics

bull 処理分析業務の大半はデータ準備作業が占めるbull 処理分析業務に手間時間が必要

Business apps

Custom apps

Sensors and devices

HDInsight

ユーザー管理認証

データの連携

Power BI

File System

Database

Database

Hadoop

DWH

Data Mart

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

①大量データの受け入れ

②リアルタイム処理データの集約

③データの蓄積

構造化非構造化文書など様々な形式での保存

④データの加工移行

⑥機械学習

⑦Hadoop解析

⑧マイクロソフト技術を用いた分散解析

⑨通常のRMSが機能を追加した企業向けRを使用した解析

⑪クラウドベースの Self-Service BI 機能

⑫機械学習の予測モデルを業務システムなどから呼び出し可能にするサービス

外部クラウドなどからのデータ取り込み

②リアルタイム処理データの加工

⑤ディープラーニング

⑩Excelを用いた可視化

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

リアルタイム

バッチ

Data Factory Tools for Visual Studio

Azure Portal

Azure TableStorage

(Web ログレコード)

Data Factory

HDInsight

(Web ログをファイルにして

バッチ処理で集計)

SQL Database

(集計データをDB テーブルに格納)

Power BI

社内システム

DataManagement

Gateway

SQL Database

Data Warehouse

Blob Storage

Table Storage

httpportalazurecom

接続

メッセージ作成

メッセージ送信

var cs = ldquo接続文字列rdquovar path = ldquoイベントハブ名rdquovar eh = EventHubClientCreateFromConnectionString(cs path)

var msg = new user = thisUserIdentityNamelevel = leveltimestamp = demoTimestamp

var json = JsonConvertSerializeObject(msg)

ehSend(new EventData(EncodingUTF8GetBytes(json)))

EventProcessorHostを使う

bull

bull

bull

Functionsを使う

bull

bull

IEventProcessorProcessEventAsync(msg)

IEventProcessorProcessEventAsync(msg)

Run(string msg)

Azure azure-sdk-for-python

Point of Service Devices

Self CheckoutStations

Kiosks

Smart Phones

SlatesTablets

PCsLaptops

Servers

Digital Signs

DiagnosticEquipmentRemote Medical

MonitorsLogic

Controllers

SpecializedDevicesThin

Clients

Handhelds

Security

POS Terminals

AutomationDevices

VendingMachines

Kinect

ATM

Stream Analytics

入力 出力クエリデータストリーム

参照

bull ldquo入力rdquoldquo出力rdquoをクリックしそれぞれ作成

bull ldquoクエリrdquoをクリックしクエリを定義bull 作業が終わったらldquo開始rdquoで実

行開始

SELECT

INTO

FROM

SELECT user level AS SATLevel timestamp

INTO

FROM

デバイス接続性とデバイス管理およびブローカーサービス

データ管理と高度な分析 情報活用業務の生産性とプロセスの最適化

IoT Agent Gateway

予兆原因の学習モデル

ダッシュボード

参照ERPbull 顧客bull 設備bull 担当者

Notification Hubs

通知

予兆イベント

メンテ方法の推奨

bull ヘルス状態bull インシデント管理bull 対応のディスパッチ

現地技術要員のモバイルデバイス

オペレーションセンター

bull イベント ドア開閉軸アライメントキャビン速度モーター温度など

bull アラーム 故障アラームエラーコードなど

httpisstkeazurewebsitesnet

Event Hub

Stream Analytics

Azure ML

制御機器とセンサーのデータ

マシンデータの蓄積

メンテナンス方法の学習モデル

Machine Learning

Blob Storage

セルフサービス分析

Power BI

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce

cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-

system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of

your data while making it faster to get up and running with

batch streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources

so you can run queries on exabytes of data Includes U-

SQL a new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully

managed NoSQL database service that indexes stores and

queries data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

What do all of these have in common

They can all use Azure Analysis Services

Azure Analysis Services

Azure Analysis Services

BI semantic model

Business logic amp metrics

Data modeling

Security

Azure Analysis Services

Lifecycle management

In-memory cache

On-premises

Cloud

Data sources

SQL Database

SQL Data Warehouse

Other data sources

SQL Server

Analytics platform

system

Other data sources

On-premises

Cloud

Client tools

Power BI

Excel

Third party BI tools

Power BI Desktop

Rich semantic modelling

locatioidentifier

identifiertype

fieldidentifier

numberofunitssoldtodate

remaningnumber

Numberofuntissoldtoday

receivedback

productidentifier

descriptionline1

descriptionline2

qtyafterqtysales

familyidentifier

Source DataComplex raw data optimized for processing

Semantic ModelRich business user friendly semantic model

Product Id

Product Name

Product Description

Category

Category Id

Category Name

Category Description

Sub Category

Product Id

Shelf qty

Return qty

Order qty

Sale qty

Cloud Data

On-Premises

Data

Azure Analysis Services

Lightning fast queries

データ管理をきっかけに処理を実行

Web Glue

Bots IoT

DOMINOS STORES

Key Vault

Azure Active Directory

Azure Files

SSIS FRANCHISEE

AZURE WEST EUROPE

Azure Function

KEMPSSDESSRS

IN- AND EXTERNAL DATA SOURCES

orderprocessing

O365

App Insights

indexhtml

Azure Functions Proxies

couponprocessing

Use Bindings in Your Codefunctionjson

bindings [type httpTriggerdirection inwebHookType genericJsonname req

type httpdirection outname res

type queuename eventOutputqueueName aievents1connectionAiStorageConnectiondirection out

]

public static class OrderHandler

[FunctionName(OrderWebhook)]public static async TaskltHttpResponseMessagegt Run(

[HttpTrigger] HttpRequestMessage req[Queue(aievents1 Connection = AiStorageConnection)]

IAsyncCollectorltStringgt eventOutputTraceWriter log)

logInfo($Webhook was triggered)

string jsonContent = await reqContentReadAsStringAsync()dynamic data = JsonConvertDeserializeObject(jsonContent)

await eventOutputAddAsync(JsonConvertSerializeObject(GetLogData(data)))

int orderId = PlaceOrder(data)

return reqCreateResponse(HttpStatusCodeOK new orderNumber = orderId )

bull Workflow in the cloud

bull Powerful control flow

bull Connect functions and APIs

bull Declarative definition to persist in source control and drive deployments

Logic AppsCloud APIs and platform

bull Supports over 125 built-in connectors

bull Scales to meet your needs

bull Enables rapid development

bull Extends with custom APIs and

Functions

API connections

bull Authenticate once and reuse

Big Data Solutions Decision Tree

httpsbiz-excellencecom20160830big-data-dt

Machine Learning Solutions Decision Tree

httpsbiz-excellencecom20160913machine-

learning-dt

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of your

data while making it faster to get up and running with batch

streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources so

you can run queries on exabytes of data Includes U-SQL a

new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully managed

NoSQL database service that indexes stores and queries

data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

Microsoft Big Data Portfolio

SQL Server Stretch

Business intelligence

Machine learning analytics

Insights

Azure SQL Database

SQL Server 2016

SQL Server 2016 Fast Track

Azure SQL DW

ADLS amp ADLA

DocumentDB

HDInsight

Hadoop

Analytics Platform System

Sequential Scale Out + AcrossScale Up

Key

Relational Non-relational

On

-pre

mis

es

Clo

ud

Microsoft has solutions covering

and connecting all four

quadrants ndash thatrsquos why SQL

Server is one of the most utilized

databases in the world

Azure

Data Lake Store

Azure

Blob StoragePurpose Optimized for big data analytics General purpose bulk storage

Use Cases Batch Interactive Streaming App backend backup data media storage for

streaming

Units of Storage Accounts Folders Files Accounts Containers Blobs

Structure Hierarchical File System Flat namespace

WebHDFS Implements WebHDFS No (WASB)

Security AD SAS keys

Storage Auto SharedFiles chunked Manually manage expansionFiles intact

Service State Generally Available PolyBase

just supported

Generally Available

Billing Pay for data stored and for IO Pay for data stored and for IO

Region Availability Two US regions (Other regions coming soon) All Azure Regions

ADL Store vs Blob Store

httpsdocsmicrosoftcomen-usazuredata-lake-storedata-lake-store-comparison-with-blob-storage

Want Hadoop

Need exact same on-prem

Need interactive streaming

MandatoryNo strong opinion

Azure Marketplace (IaaS)

bull Need all workloads exactly like on-

premises

bull Need 100 HortonworksClouderaMapR

Azure HDInsight

bull Most Hadoop workloads

bull Fully managed by Microsoft

bull Sell HDI + ADLS

bull Stickier to Microsoft than VMs

bull Can do interactive (Spark) and streaming

(StormSpark)

Azure Data Lake Analytics

bull Easiest experience for admin no sense of

clusters instant scale per job

bull Easiest experience for developers Visual

StudioU-SQL (C+SQL)

bull Sell ADLA + ADLS

bull Batch workloads only

Need everything exactly like on-prem

Need core projects Yes Batch is OK

Always present ADLA if NET or Visual Studio Shop

If NET or VS shop

Azure SQL DW HDInsight Hive HDInsight Spark Azure Data Lake SQL Server (IaaS)

Volume Petabytes Petabytes Petabytes Petabytes Terabytes

Security Encryption TD

Audit

ADLS Apache

Ranger

ADLS AAD Security

Groups (data)

Encryption TD

Audit

Languages T-SQL HiveQL SparkSQL HiveQL

Scala Java Python

R

U-SQL T-SQL

Extensibility No Yes NETSerDe Yes Packages Yes NET Yes NET CLR

External File

Types

ORC TXT

Parquet RCFile

ORC CSV Parquet

+ others

Parquet JSON

Hive + others

Many ORC TXT Parquet

RCFile

Admin Low-Medium Medium-High Medium-High Low High

Cost Model DWU Nodes amp VM Nodes amp VM UnitsJobs VM

Schema

Definition

Schema on Write

Polybase

Schema on Read Schema on Read Schema on Read Schema on Write

Polybase

Max DB Size 240TB Comp (5X

= 1PB)

Unlimited 64TB (64 1TB drives)

機械学習 Deep Learning 深層強化学習

画像解析

音声解析

データ分類異常検知 顧客グルーピング

数値予測売上予測 需要予測 品質管理

ラベル分類不良品分析 故障予測 チャーン分析

機械学習より強力な分析

自律学習型ロボット

自動運転車

テキストや画像等の自動生成

活用例

主に多層のニューラルネットワークを用いた手法での分析

分析のためには莫大なデータ量計算量知識スキルを要する

統計に基づいた手法での分析

そのため比較的少ないデータ量と計算量で分析を行うことができる

定義したあるべき姿に従い試行錯誤をして自ら学習を行うための分析手法である強化学習と深層学習を組み合わせた分析

Azure Machine Learning Cognitive Toolkit GPU Instance (N-Series)

マイクロソフトが提供する技術

テキストデータ機器のログデータなど

画像データ監視カメラの録画データ 機器の外観画像 顔画像など

動画データ監視カメラの録画データ 機器の稼働状況 人の作業映像など

音声データマイクからの収集データ 稼働音 室内音 人の音声など

数値データセンサーデータ 機器の制御データ計測データなど672342345

機械学習統計理論に基づいた分析手法を用いる用意するべきデータ量と処理する計算量の敷居が低め導入しやすい

Deep Learningデータ量が大きいため強力な分析手法が必要「膨大なデータ量を用意」「莫大な計算量を処理」が必要で敷居が非常に高い導入にはそれなりの覚悟が必要

Action

People

Automated Systems

Apps

Web

Mobile

Bots

Intelligence

Dashboards amp Visualizations

Cortana

Bot Framework

Cognitive Services

Power BI

Information Management

Event Hubs

Data Catalog

Data Factory

Machine Learning and Analytics

HDInsight

Stream Analytics

Intelligence

Data Lake Analytics

Machine Learning

Big Data Stores

SQL Data Warehouse

Data Lake Store

Data Sources

Apps

Sensors amp Devices

Data

Cortana Intelligence Suite

学習済み

モデル利用

学習モデル

作成

機械学習 教師あり学習

教師なし学習

強化学習

決定木

線形回帰

SVM

ロジスティック回帰

ニューラルネットワーク

クラスタリング

次元削減

Q学習

K-mean法

主成分分析

正準相関分析

ディープニューラルネットワーク

畳みこみニューラルネットワーク

再帰的ニューラルネットワーク

回帰結合ニューラルネットワーク

httpsazuremicrosoftcomen-usservicescognitive-services

わずか数行のコードで強力なアルゴリズムを持つアプリの作成が可能ですiOSAndroidWindows などのプラットフォームを問わず機能します

httpsazuremicrosoftcomja-jpservicesmachine-learning

ユーザーは簡単に予測分析ソリューションを構築デプロイ共有できます

httpswwwyoutubecomwatchv=9gDDO5ldT-4ampfeature=youtube

AI技術を利用したディープラーニング(深層学習)ツールキットです旧称「CNTK」から改名されました

ソースコード httpsgithubcomMicrosoftCNTK

SearchSpeech

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

コカコーラ誕生100周年キャンペーン

コカコーラボトルを「100歳」と認識

bull 自撮り写真をUp結果をSNS拡散

ナビタイムジャパン様

自然言語入力による路線検索BOT

bull ユーザーとの新たな接点(LINE)

bull 自然言語入力

Vision Language Knowledge

Vision Knowledge SearchSpeech Language

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

Microsoft SupportVirtual Agent

自然言語入力による自動応答サポート窓口

bull 過去QampAデータ解析に基づく回答抽出

bull 定型外はldquo人対応rdquo

UBER

登録ドライバーをスマホ経由で顔認証

VOLVO

表情からの危険予測

Search

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

アロバ様

監視カメラによる店舗内行動分析

bull 顔認識による 顧客識別

bull 表情分析

東京サマーランド様にて導入済み

HmComm様

コールセンターソリューション

bull 会話をテキスト化キーワードを解析

bull 過去QampA検索

bull 内容をCRM保存

Vision KnowledgeSpeech Language

導入事例東京サマーランド様

Video

Intelligent KioskhttpsgithubcomMicrosoftCognitive-Samples-IntelligentKiosk

ldquo(want to|request)rdquo

HoloLens

Page 39: やりたいことから考えるMicrosoft Azure 上の データストアの選び方とデータサイエンティスト向け活用法。KVSからDWHまで

Azure Blob Storage(WASB)

コントロールノード

SQLDB コントロールノード

D51

D52

D53

D60

hellip

D41

D42

D43

D50

hellip

コンピュートノード

D31

D32

D33

D40hellip

D21

D22

D23

D30

hellip

D11

D12

D13

D20

hellip

D1

D2

D3

D10

hellip

SQL DB

Azure Blob Storage(WASB)

コントロールノード

SQLDB コントロールノード

コンピュートノード

D51

D52

D53

D60

hellipコンピュートノード

D41

D42

D43

D50

hellip

コンピュートノード

D31

D32

D33

D40hellip

コンピュートノード

D21

D22

D23

D30

hellip

コンピュートノード

D11

D12

D13

D20

hellip

コンピュートノード

D1

D2

D3

D10

hellip

SQL DB

SQL DB

SQL DB

SQL DB

SQL DB

SQL DB

54

データ無制限のストレージ と 分析プラットフォーム

無制限のストレージ(エクサバイト超)

ネイティブ HDFS に基づく実装

HDInsight Hortonworks Cloudera との統合

全ての HDFS 準拠プロジェクトとの親和性

(Spark Storm Flume Sqoop Kafka R etc)

Azure Data Lake Store- Hadoop Distributed File System (HDFS) For The Cloud

構造化データと非構造化データに対するデータ処理

宣言型の SQL 文 とカスタムコード (UDF UDT UDO hellip )

ローカルとリモートに対するクエリ

バッチ型インタラクティブ型ストリーミング型(in the future)

Azure Data Lake Analytics- New Query Language U-SQL

ETL パイプライン

スキーマの定義Relational

LOB

Applications

Schema-on-Write

直ちに必要でないデータは全て捨てられるかアーカイブされている

無限に保存 分析 結果の参照

あらゆるデータ

ソースからの

データ収集

Schema-on-Read

全データ取込要件にかかわらず

全データ格納そのままのフォーマットでスキーマ定義なし

分析実行Hadoopのような分析エンジンの利用

インタラクティブクエリ

バッチ型クエリ

機械学習

データウェアハウス

リアルタイム分析

リレーショナル

デバイス

観察仮説集まったデータから仮説をたてる

58

無制限のサイズ

ギガバイトからペタバイトのサイズの単一ファイル

巨大なスループットを必要とする大規模な分析システムを実現

あらゆるスループットに自動最適化

ペタバイト超のデータの並列コンピューティング

同一リージョン内に3つのコピーを自動的に作成

インストールやチューニングは不要

数分で稼働開始

必要に応じてどのようなサイズにもスケールアウト可能

データウェアハウスデータレイクストア

非構造Rawデータ(ログ文書バイナリ)

Tier 1

MachineLearning

Data LakeAnalytics HDInsight

目的に合わせた

データウェハウス分析処理

(売上分析経営分析)

データウェハウスに格納しきれなかった

過去データ関連データを連結して分析

ハードウェアの性能限界によって行えなかった処理量の分析を実現

ディスクコンピューティング

非構造データの

分析処理

(画像音声映像など)

広範囲のデータを利用した

機械学習統計解析処理

などによる高度分析

SQL Data Warehouse

Data LakeAnalytics HDInsight

Data LakeAnalytics

構造化データ半構造データ

分析用に加工(csv等)

Tier 2

アーカイブデータTier 2 DWHのアーカイブ

Tier 3

Analytics

Storage

HDInsight(ldquomanaged clustersrdquo)

Azure Data Lake Analytics

Azure Data Lake Store

Azure Data Lake

LOB Applications

SocialDevices

Clickstream

Sensors

Video

Web

Relational

HDInsight

Data Lake Analytics

Machine Learning

Spark

R

Azure Data Lake Store

Azure Data Lake Store

Azure Storage Blob

外部表Azure SQLData Warehouse

HDInsight

開発者は OSS に馴染んでいる Java Eclipse Hive etc

マネージド Hadoop クラスタにおいてカスタマイズ管理が可能でフレキシビリティがある

Azure Data Lake Analytics

C SQL amp PowerShell のスキル

経験を活かせる

利便性効率性自動スケール

ジョブ実行の仕組みが提供される

(New)

(New)

一般的なパターン

処理読み込み 保存

INSERT

OUTPUT

OUTPUT

SELECThellip

FROMhellip

WHEREhellip

+

PythonR

EXTRACT

EXTRACT

SELECT

SELECT

Azure

Data

Lake

Azure

Data

Lake

Azure

SQL

DB

Azure

Storage

Blobs

Azure

Storage

Blobs

RowSet RowSet

Cognitive Services

REFERENCE ASSEMBLY WebLogExtASM

rs =

EXTRACT

UserID string

Start DateTime

End DateTime

Region string

SitesVisited string

PagesVisited string

FROM ldquoLogsWebLogRecordstxtrdquo

USING WebLogExtractor ()

result = SELECT UserID

(EndSubtract(Start))TotalSeconds AS Duration

FROM rs ORDER BY Duration DESC FETCH 10

OUTPUT result TO ldquoLogsResultstop10tsv

USING OutputterTsv()

bull 型定義は C の型定義と同じ

bull データをファイルから抽出読み込み

するときにスキーマが必要

Data Lake Store 内 のファイル

独自形式を解析するカスタム関数

C の関数

行セット(中間テーブルの概念

に近い)

TSV形式で書き込む関数

U-SQL ジョブのサブミットAzure PortalやVisual StudioのAzure Data Lake ToolsからU-SQLジョブをサブミット可能

67

進捗

統計情報

従来型の処理分析 Azure Data Lake を中心とした処理分析

Business apps

Custom apps

Sensors and devices

ADL StorePeople

非構造化データも含めてあらゆるデータを格納

Azure SQL DW

Azure AD

Power BI

ADF

ADL Analytics

bull 処理分析業務の大半はデータ準備作業が占めるbull 処理分析業務に手間時間が必要

Business apps

Custom apps

Sensors and devices

HDInsight

ユーザー管理認証

データの連携

Power BI

File System

Database

Database

Hadoop

DWH

Data Mart

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

①大量データの受け入れ

②リアルタイム処理データの集約

③データの蓄積

構造化非構造化文書など様々な形式での保存

④データの加工移行

⑥機械学習

⑦Hadoop解析

⑧マイクロソフト技術を用いた分散解析

⑨通常のRMSが機能を追加した企業向けRを使用した解析

⑪クラウドベースの Self-Service BI 機能

⑫機械学習の予測モデルを業務システムなどから呼び出し可能にするサービス

外部クラウドなどからのデータ取り込み

②リアルタイム処理データの加工

⑤ディープラーニング

⑩Excelを用いた可視化

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

リアルタイム

バッチ

Data Factory Tools for Visual Studio

Azure Portal

Azure TableStorage

(Web ログレコード)

Data Factory

HDInsight

(Web ログをファイルにして

バッチ処理で集計)

SQL Database

(集計データをDB テーブルに格納)

Power BI

社内システム

DataManagement

Gateway

SQL Database

Data Warehouse

Blob Storage

Table Storage

httpportalazurecom

接続

メッセージ作成

メッセージ送信

var cs = ldquo接続文字列rdquovar path = ldquoイベントハブ名rdquovar eh = EventHubClientCreateFromConnectionString(cs path)

var msg = new user = thisUserIdentityNamelevel = leveltimestamp = demoTimestamp

var json = JsonConvertSerializeObject(msg)

ehSend(new EventData(EncodingUTF8GetBytes(json)))

EventProcessorHostを使う

bull

bull

bull

Functionsを使う

bull

bull

IEventProcessorProcessEventAsync(msg)

IEventProcessorProcessEventAsync(msg)

Run(string msg)

Azure azure-sdk-for-python

Point of Service Devices

Self CheckoutStations

Kiosks

Smart Phones

SlatesTablets

PCsLaptops

Servers

Digital Signs

DiagnosticEquipmentRemote Medical

MonitorsLogic

Controllers

SpecializedDevicesThin

Clients

Handhelds

Security

POS Terminals

AutomationDevices

VendingMachines

Kinect

ATM

Stream Analytics

入力 出力クエリデータストリーム

参照

bull ldquo入力rdquoldquo出力rdquoをクリックしそれぞれ作成

bull ldquoクエリrdquoをクリックしクエリを定義bull 作業が終わったらldquo開始rdquoで実

行開始

SELECT

INTO

FROM

SELECT user level AS SATLevel timestamp

INTO

FROM

デバイス接続性とデバイス管理およびブローカーサービス

データ管理と高度な分析 情報活用業務の生産性とプロセスの最適化

IoT Agent Gateway

予兆原因の学習モデル

ダッシュボード

参照ERPbull 顧客bull 設備bull 担当者

Notification Hubs

通知

予兆イベント

メンテ方法の推奨

bull ヘルス状態bull インシデント管理bull 対応のディスパッチ

現地技術要員のモバイルデバイス

オペレーションセンター

bull イベント ドア開閉軸アライメントキャビン速度モーター温度など

bull アラーム 故障アラームエラーコードなど

httpisstkeazurewebsitesnet

Event Hub

Stream Analytics

Azure ML

制御機器とセンサーのデータ

マシンデータの蓄積

メンテナンス方法の学習モデル

Machine Learning

Blob Storage

セルフサービス分析

Power BI

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce

cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-

system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of

your data while making it faster to get up and running with

batch streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources

so you can run queries on exabytes of data Includes U-

SQL a new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully

managed NoSQL database service that indexes stores and

queries data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

What do all of these have in common

They can all use Azure Analysis Services

Azure Analysis Services

Azure Analysis Services

BI semantic model

Business logic amp metrics

Data modeling

Security

Azure Analysis Services

Lifecycle management

In-memory cache

On-premises

Cloud

Data sources

SQL Database

SQL Data Warehouse

Other data sources

SQL Server

Analytics platform

system

Other data sources

On-premises

Cloud

Client tools

Power BI

Excel

Third party BI tools

Power BI Desktop

Rich semantic modelling

locatioidentifier

identifiertype

fieldidentifier

numberofunitssoldtodate

remaningnumber

Numberofuntissoldtoday

receivedback

productidentifier

descriptionline1

descriptionline2

qtyafterqtysales

familyidentifier

Source DataComplex raw data optimized for processing

Semantic ModelRich business user friendly semantic model

Product Id

Product Name

Product Description

Category

Category Id

Category Name

Category Description

Sub Category

Product Id

Shelf qty

Return qty

Order qty

Sale qty

Cloud Data

On-Premises

Data

Azure Analysis Services

Lightning fast queries

データ管理をきっかけに処理を実行

Web Glue

Bots IoT

DOMINOS STORES

Key Vault

Azure Active Directory

Azure Files

SSIS FRANCHISEE

AZURE WEST EUROPE

Azure Function

KEMPSSDESSRS

IN- AND EXTERNAL DATA SOURCES

orderprocessing

O365

App Insights

indexhtml

Azure Functions Proxies

couponprocessing

Use Bindings in Your Codefunctionjson

bindings [type httpTriggerdirection inwebHookType genericJsonname req

type httpdirection outname res

type queuename eventOutputqueueName aievents1connectionAiStorageConnectiondirection out

]

public static class OrderHandler

[FunctionName(OrderWebhook)]public static async TaskltHttpResponseMessagegt Run(

[HttpTrigger] HttpRequestMessage req[Queue(aievents1 Connection = AiStorageConnection)]

IAsyncCollectorltStringgt eventOutputTraceWriter log)

logInfo($Webhook was triggered)

string jsonContent = await reqContentReadAsStringAsync()dynamic data = JsonConvertDeserializeObject(jsonContent)

await eventOutputAddAsync(JsonConvertSerializeObject(GetLogData(data)))

int orderId = PlaceOrder(data)

return reqCreateResponse(HttpStatusCodeOK new orderNumber = orderId )

bull Workflow in the cloud

bull Powerful control flow

bull Connect functions and APIs

bull Declarative definition to persist in source control and drive deployments

Logic AppsCloud APIs and platform

bull Supports over 125 built-in connectors

bull Scales to meet your needs

bull Enables rapid development

bull Extends with custom APIs and

Functions

API connections

bull Authenticate once and reuse

Big Data Solutions Decision Tree

httpsbiz-excellencecom20160830big-data-dt

Machine Learning Solutions Decision Tree

httpsbiz-excellencecom20160913machine-

learning-dt

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of your

data while making it faster to get up and running with batch

streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources so

you can run queries on exabytes of data Includes U-SQL a

new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully managed

NoSQL database service that indexes stores and queries

data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

Microsoft Big Data Portfolio

SQL Server Stretch

Business intelligence

Machine learning analytics

Insights

Azure SQL Database

SQL Server 2016

SQL Server 2016 Fast Track

Azure SQL DW

ADLS amp ADLA

DocumentDB

HDInsight

Hadoop

Analytics Platform System

Sequential Scale Out + AcrossScale Up

Key

Relational Non-relational

On

-pre

mis

es

Clo

ud

Microsoft has solutions covering

and connecting all four

quadrants ndash thatrsquos why SQL

Server is one of the most utilized

databases in the world

Azure

Data Lake Store

Azure

Blob StoragePurpose Optimized for big data analytics General purpose bulk storage

Use Cases Batch Interactive Streaming App backend backup data media storage for

streaming

Units of Storage Accounts Folders Files Accounts Containers Blobs

Structure Hierarchical File System Flat namespace

WebHDFS Implements WebHDFS No (WASB)

Security AD SAS keys

Storage Auto SharedFiles chunked Manually manage expansionFiles intact

Service State Generally Available PolyBase

just supported

Generally Available

Billing Pay for data stored and for IO Pay for data stored and for IO

Region Availability Two US regions (Other regions coming soon) All Azure Regions

ADL Store vs Blob Store

httpsdocsmicrosoftcomen-usazuredata-lake-storedata-lake-store-comparison-with-blob-storage

Want Hadoop

Need exact same on-prem

Need interactive streaming

MandatoryNo strong opinion

Azure Marketplace (IaaS)

bull Need all workloads exactly like on-

premises

bull Need 100 HortonworksClouderaMapR

Azure HDInsight

bull Most Hadoop workloads

bull Fully managed by Microsoft

bull Sell HDI + ADLS

bull Stickier to Microsoft than VMs

bull Can do interactive (Spark) and streaming

(StormSpark)

Azure Data Lake Analytics

bull Easiest experience for admin no sense of

clusters instant scale per job

bull Easiest experience for developers Visual

StudioU-SQL (C+SQL)

bull Sell ADLA + ADLS

bull Batch workloads only

Need everything exactly like on-prem

Need core projects Yes Batch is OK

Always present ADLA if NET or Visual Studio Shop

If NET or VS shop

Azure SQL DW HDInsight Hive HDInsight Spark Azure Data Lake SQL Server (IaaS)

Volume Petabytes Petabytes Petabytes Petabytes Terabytes

Security Encryption TD

Audit

ADLS Apache

Ranger

ADLS AAD Security

Groups (data)

Encryption TD

Audit

Languages T-SQL HiveQL SparkSQL HiveQL

Scala Java Python

R

U-SQL T-SQL

Extensibility No Yes NETSerDe Yes Packages Yes NET Yes NET CLR

External File

Types

ORC TXT

Parquet RCFile

ORC CSV Parquet

+ others

Parquet JSON

Hive + others

Many ORC TXT Parquet

RCFile

Admin Low-Medium Medium-High Medium-High Low High

Cost Model DWU Nodes amp VM Nodes amp VM UnitsJobs VM

Schema

Definition

Schema on Write

Polybase

Schema on Read Schema on Read Schema on Read Schema on Write

Polybase

Max DB Size 240TB Comp (5X

= 1PB)

Unlimited 64TB (64 1TB drives)

機械学習 Deep Learning 深層強化学習

画像解析

音声解析

データ分類異常検知 顧客グルーピング

数値予測売上予測 需要予測 品質管理

ラベル分類不良品分析 故障予測 チャーン分析

機械学習より強力な分析

自律学習型ロボット

自動運転車

テキストや画像等の自動生成

活用例

主に多層のニューラルネットワークを用いた手法での分析

分析のためには莫大なデータ量計算量知識スキルを要する

統計に基づいた手法での分析

そのため比較的少ないデータ量と計算量で分析を行うことができる

定義したあるべき姿に従い試行錯誤をして自ら学習を行うための分析手法である強化学習と深層学習を組み合わせた分析

Azure Machine Learning Cognitive Toolkit GPU Instance (N-Series)

マイクロソフトが提供する技術

テキストデータ機器のログデータなど

画像データ監視カメラの録画データ 機器の外観画像 顔画像など

動画データ監視カメラの録画データ 機器の稼働状況 人の作業映像など

音声データマイクからの収集データ 稼働音 室内音 人の音声など

数値データセンサーデータ 機器の制御データ計測データなど672342345

機械学習統計理論に基づいた分析手法を用いる用意するべきデータ量と処理する計算量の敷居が低め導入しやすい

Deep Learningデータ量が大きいため強力な分析手法が必要「膨大なデータ量を用意」「莫大な計算量を処理」が必要で敷居が非常に高い導入にはそれなりの覚悟が必要

Action

People

Automated Systems

Apps

Web

Mobile

Bots

Intelligence

Dashboards amp Visualizations

Cortana

Bot Framework

Cognitive Services

Power BI

Information Management

Event Hubs

Data Catalog

Data Factory

Machine Learning and Analytics

HDInsight

Stream Analytics

Intelligence

Data Lake Analytics

Machine Learning

Big Data Stores

SQL Data Warehouse

Data Lake Store

Data Sources

Apps

Sensors amp Devices

Data

Cortana Intelligence Suite

学習済み

モデル利用

学習モデル

作成

機械学習 教師あり学習

教師なし学習

強化学習

決定木

線形回帰

SVM

ロジスティック回帰

ニューラルネットワーク

クラスタリング

次元削減

Q学習

K-mean法

主成分分析

正準相関分析

ディープニューラルネットワーク

畳みこみニューラルネットワーク

再帰的ニューラルネットワーク

回帰結合ニューラルネットワーク

httpsazuremicrosoftcomen-usservicescognitive-services

わずか数行のコードで強力なアルゴリズムを持つアプリの作成が可能ですiOSAndroidWindows などのプラットフォームを問わず機能します

httpsazuremicrosoftcomja-jpservicesmachine-learning

ユーザーは簡単に予測分析ソリューションを構築デプロイ共有できます

httpswwwyoutubecomwatchv=9gDDO5ldT-4ampfeature=youtube

AI技術を利用したディープラーニング(深層学習)ツールキットです旧称「CNTK」から改名されました

ソースコード httpsgithubcomMicrosoftCNTK

SearchSpeech

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

コカコーラ誕生100周年キャンペーン

コカコーラボトルを「100歳」と認識

bull 自撮り写真をUp結果をSNS拡散

ナビタイムジャパン様

自然言語入力による路線検索BOT

bull ユーザーとの新たな接点(LINE)

bull 自然言語入力

Vision Language Knowledge

Vision Knowledge SearchSpeech Language

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

Microsoft SupportVirtual Agent

自然言語入力による自動応答サポート窓口

bull 過去QampAデータ解析に基づく回答抽出

bull 定型外はldquo人対応rdquo

UBER

登録ドライバーをスマホ経由で顔認証

VOLVO

表情からの危険予測

Search

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

アロバ様

監視カメラによる店舗内行動分析

bull 顔認識による 顧客識別

bull 表情分析

東京サマーランド様にて導入済み

HmComm様

コールセンターソリューション

bull 会話をテキスト化キーワードを解析

bull 過去QampA検索

bull 内容をCRM保存

Vision KnowledgeSpeech Language

導入事例東京サマーランド様

Video

Intelligent KioskhttpsgithubcomMicrosoftCognitive-Samples-IntelligentKiosk

ldquo(want to|request)rdquo

HoloLens

Page 40: やりたいことから考えるMicrosoft Azure 上の データストアの選び方とデータサイエンティスト向け活用法。KVSからDWHまで

Azure Blob Storage(WASB)

コントロールノード

SQLDB コントロールノード

コンピュートノード

D51

D52

D53

D60

hellipコンピュートノード

D41

D42

D43

D50

hellip

コンピュートノード

D31

D32

D33

D40hellip

コンピュートノード

D21

D22

D23

D30

hellip

コンピュートノード

D11

D12

D13

D20

hellip

コンピュートノード

D1

D2

D3

D10

hellip

SQL DB

SQL DB

SQL DB

SQL DB

SQL DB

SQL DB

54

データ無制限のストレージ と 分析プラットフォーム

無制限のストレージ(エクサバイト超)

ネイティブ HDFS に基づく実装

HDInsight Hortonworks Cloudera との統合

全ての HDFS 準拠プロジェクトとの親和性

(Spark Storm Flume Sqoop Kafka R etc)

Azure Data Lake Store- Hadoop Distributed File System (HDFS) For The Cloud

構造化データと非構造化データに対するデータ処理

宣言型の SQL 文 とカスタムコード (UDF UDT UDO hellip )

ローカルとリモートに対するクエリ

バッチ型インタラクティブ型ストリーミング型(in the future)

Azure Data Lake Analytics- New Query Language U-SQL

ETL パイプライン

スキーマの定義Relational

LOB

Applications

Schema-on-Write

直ちに必要でないデータは全て捨てられるかアーカイブされている

無限に保存 分析 結果の参照

あらゆるデータ

ソースからの

データ収集

Schema-on-Read

全データ取込要件にかかわらず

全データ格納そのままのフォーマットでスキーマ定義なし

分析実行Hadoopのような分析エンジンの利用

インタラクティブクエリ

バッチ型クエリ

機械学習

データウェアハウス

リアルタイム分析

リレーショナル

デバイス

観察仮説集まったデータから仮説をたてる

58

無制限のサイズ

ギガバイトからペタバイトのサイズの単一ファイル

巨大なスループットを必要とする大規模な分析システムを実現

あらゆるスループットに自動最適化

ペタバイト超のデータの並列コンピューティング

同一リージョン内に3つのコピーを自動的に作成

インストールやチューニングは不要

数分で稼働開始

必要に応じてどのようなサイズにもスケールアウト可能

データウェアハウスデータレイクストア

非構造Rawデータ(ログ文書バイナリ)

Tier 1

MachineLearning

Data LakeAnalytics HDInsight

目的に合わせた

データウェハウス分析処理

(売上分析経営分析)

データウェハウスに格納しきれなかった

過去データ関連データを連結して分析

ハードウェアの性能限界によって行えなかった処理量の分析を実現

ディスクコンピューティング

非構造データの

分析処理

(画像音声映像など)

広範囲のデータを利用した

機械学習統計解析処理

などによる高度分析

SQL Data Warehouse

Data LakeAnalytics HDInsight

Data LakeAnalytics

構造化データ半構造データ

分析用に加工(csv等)

Tier 2

アーカイブデータTier 2 DWHのアーカイブ

Tier 3

Analytics

Storage

HDInsight(ldquomanaged clustersrdquo)

Azure Data Lake Analytics

Azure Data Lake Store

Azure Data Lake

LOB Applications

SocialDevices

Clickstream

Sensors

Video

Web

Relational

HDInsight

Data Lake Analytics

Machine Learning

Spark

R

Azure Data Lake Store

Azure Data Lake Store

Azure Storage Blob

外部表Azure SQLData Warehouse

HDInsight

開発者は OSS に馴染んでいる Java Eclipse Hive etc

マネージド Hadoop クラスタにおいてカスタマイズ管理が可能でフレキシビリティがある

Azure Data Lake Analytics

C SQL amp PowerShell のスキル

経験を活かせる

利便性効率性自動スケール

ジョブ実行の仕組みが提供される

(New)

(New)

一般的なパターン

処理読み込み 保存

INSERT

OUTPUT

OUTPUT

SELECThellip

FROMhellip

WHEREhellip

+

PythonR

EXTRACT

EXTRACT

SELECT

SELECT

Azure

Data

Lake

Azure

Data

Lake

Azure

SQL

DB

Azure

Storage

Blobs

Azure

Storage

Blobs

RowSet RowSet

Cognitive Services

REFERENCE ASSEMBLY WebLogExtASM

rs =

EXTRACT

UserID string

Start DateTime

End DateTime

Region string

SitesVisited string

PagesVisited string

FROM ldquoLogsWebLogRecordstxtrdquo

USING WebLogExtractor ()

result = SELECT UserID

(EndSubtract(Start))TotalSeconds AS Duration

FROM rs ORDER BY Duration DESC FETCH 10

OUTPUT result TO ldquoLogsResultstop10tsv

USING OutputterTsv()

bull 型定義は C の型定義と同じ

bull データをファイルから抽出読み込み

するときにスキーマが必要

Data Lake Store 内 のファイル

独自形式を解析するカスタム関数

C の関数

行セット(中間テーブルの概念

に近い)

TSV形式で書き込む関数

U-SQL ジョブのサブミットAzure PortalやVisual StudioのAzure Data Lake ToolsからU-SQLジョブをサブミット可能

67

進捗

統計情報

従来型の処理分析 Azure Data Lake を中心とした処理分析

Business apps

Custom apps

Sensors and devices

ADL StorePeople

非構造化データも含めてあらゆるデータを格納

Azure SQL DW

Azure AD

Power BI

ADF

ADL Analytics

bull 処理分析業務の大半はデータ準備作業が占めるbull 処理分析業務に手間時間が必要

Business apps

Custom apps

Sensors and devices

HDInsight

ユーザー管理認証

データの連携

Power BI

File System

Database

Database

Hadoop

DWH

Data Mart

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

①大量データの受け入れ

②リアルタイム処理データの集約

③データの蓄積

構造化非構造化文書など様々な形式での保存

④データの加工移行

⑥機械学習

⑦Hadoop解析

⑧マイクロソフト技術を用いた分散解析

⑨通常のRMSが機能を追加した企業向けRを使用した解析

⑪クラウドベースの Self-Service BI 機能

⑫機械学習の予測モデルを業務システムなどから呼び出し可能にするサービス

外部クラウドなどからのデータ取り込み

②リアルタイム処理データの加工

⑤ディープラーニング

⑩Excelを用いた可視化

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

リアルタイム

バッチ

Data Factory Tools for Visual Studio

Azure Portal

Azure TableStorage

(Web ログレコード)

Data Factory

HDInsight

(Web ログをファイルにして

バッチ処理で集計)

SQL Database

(集計データをDB テーブルに格納)

Power BI

社内システム

DataManagement

Gateway

SQL Database

Data Warehouse

Blob Storage

Table Storage

httpportalazurecom

接続

メッセージ作成

メッセージ送信

var cs = ldquo接続文字列rdquovar path = ldquoイベントハブ名rdquovar eh = EventHubClientCreateFromConnectionString(cs path)

var msg = new user = thisUserIdentityNamelevel = leveltimestamp = demoTimestamp

var json = JsonConvertSerializeObject(msg)

ehSend(new EventData(EncodingUTF8GetBytes(json)))

EventProcessorHostを使う

bull

bull

bull

Functionsを使う

bull

bull

IEventProcessorProcessEventAsync(msg)

IEventProcessorProcessEventAsync(msg)

Run(string msg)

Azure azure-sdk-for-python

Point of Service Devices

Self CheckoutStations

Kiosks

Smart Phones

SlatesTablets

PCsLaptops

Servers

Digital Signs

DiagnosticEquipmentRemote Medical

MonitorsLogic

Controllers

SpecializedDevicesThin

Clients

Handhelds

Security

POS Terminals

AutomationDevices

VendingMachines

Kinect

ATM

Stream Analytics

入力 出力クエリデータストリーム

参照

bull ldquo入力rdquoldquo出力rdquoをクリックしそれぞれ作成

bull ldquoクエリrdquoをクリックしクエリを定義bull 作業が終わったらldquo開始rdquoで実

行開始

SELECT

INTO

FROM

SELECT user level AS SATLevel timestamp

INTO

FROM

デバイス接続性とデバイス管理およびブローカーサービス

データ管理と高度な分析 情報活用業務の生産性とプロセスの最適化

IoT Agent Gateway

予兆原因の学習モデル

ダッシュボード

参照ERPbull 顧客bull 設備bull 担当者

Notification Hubs

通知

予兆イベント

メンテ方法の推奨

bull ヘルス状態bull インシデント管理bull 対応のディスパッチ

現地技術要員のモバイルデバイス

オペレーションセンター

bull イベント ドア開閉軸アライメントキャビン速度モーター温度など

bull アラーム 故障アラームエラーコードなど

httpisstkeazurewebsitesnet

Event Hub

Stream Analytics

Azure ML

制御機器とセンサーのデータ

マシンデータの蓄積

メンテナンス方法の学習モデル

Machine Learning

Blob Storage

セルフサービス分析

Power BI

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce

cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-

system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of

your data while making it faster to get up and running with

batch streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources

so you can run queries on exabytes of data Includes U-

SQL a new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully

managed NoSQL database service that indexes stores and

queries data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

What do all of these have in common

They can all use Azure Analysis Services

Azure Analysis Services

Azure Analysis Services

BI semantic model

Business logic amp metrics

Data modeling

Security

Azure Analysis Services

Lifecycle management

In-memory cache

On-premises

Cloud

Data sources

SQL Database

SQL Data Warehouse

Other data sources

SQL Server

Analytics platform

system

Other data sources

On-premises

Cloud

Client tools

Power BI

Excel

Third party BI tools

Power BI Desktop

Rich semantic modelling

locatioidentifier

identifiertype

fieldidentifier

numberofunitssoldtodate

remaningnumber

Numberofuntissoldtoday

receivedback

productidentifier

descriptionline1

descriptionline2

qtyafterqtysales

familyidentifier

Source DataComplex raw data optimized for processing

Semantic ModelRich business user friendly semantic model

Product Id

Product Name

Product Description

Category

Category Id

Category Name

Category Description

Sub Category

Product Id

Shelf qty

Return qty

Order qty

Sale qty

Cloud Data

On-Premises

Data

Azure Analysis Services

Lightning fast queries

データ管理をきっかけに処理を実行

Web Glue

Bots IoT

DOMINOS STORES

Key Vault

Azure Active Directory

Azure Files

SSIS FRANCHISEE

AZURE WEST EUROPE

Azure Function

KEMPSSDESSRS

IN- AND EXTERNAL DATA SOURCES

orderprocessing

O365

App Insights

indexhtml

Azure Functions Proxies

couponprocessing

Use Bindings in Your Codefunctionjson

bindings [type httpTriggerdirection inwebHookType genericJsonname req

type httpdirection outname res

type queuename eventOutputqueueName aievents1connectionAiStorageConnectiondirection out

]

public static class OrderHandler

[FunctionName(OrderWebhook)]public static async TaskltHttpResponseMessagegt Run(

[HttpTrigger] HttpRequestMessage req[Queue(aievents1 Connection = AiStorageConnection)]

IAsyncCollectorltStringgt eventOutputTraceWriter log)

logInfo($Webhook was triggered)

string jsonContent = await reqContentReadAsStringAsync()dynamic data = JsonConvertDeserializeObject(jsonContent)

await eventOutputAddAsync(JsonConvertSerializeObject(GetLogData(data)))

int orderId = PlaceOrder(data)

return reqCreateResponse(HttpStatusCodeOK new orderNumber = orderId )

bull Workflow in the cloud

bull Powerful control flow

bull Connect functions and APIs

bull Declarative definition to persist in source control and drive deployments

Logic AppsCloud APIs and platform

bull Supports over 125 built-in connectors

bull Scales to meet your needs

bull Enables rapid development

bull Extends with custom APIs and

Functions

API connections

bull Authenticate once and reuse

Big Data Solutions Decision Tree

httpsbiz-excellencecom20160830big-data-dt

Machine Learning Solutions Decision Tree

httpsbiz-excellencecom20160913machine-

learning-dt

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of your

data while making it faster to get up and running with batch

streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources so

you can run queries on exabytes of data Includes U-SQL a

new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully managed

NoSQL database service that indexes stores and queries

data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

Microsoft Big Data Portfolio

SQL Server Stretch

Business intelligence

Machine learning analytics

Insights

Azure SQL Database

SQL Server 2016

SQL Server 2016 Fast Track

Azure SQL DW

ADLS amp ADLA

DocumentDB

HDInsight

Hadoop

Analytics Platform System

Sequential Scale Out + AcrossScale Up

Key

Relational Non-relational

On

-pre

mis

es

Clo

ud

Microsoft has solutions covering

and connecting all four

quadrants ndash thatrsquos why SQL

Server is one of the most utilized

databases in the world

Azure

Data Lake Store

Azure

Blob StoragePurpose Optimized for big data analytics General purpose bulk storage

Use Cases Batch Interactive Streaming App backend backup data media storage for

streaming

Units of Storage Accounts Folders Files Accounts Containers Blobs

Structure Hierarchical File System Flat namespace

WebHDFS Implements WebHDFS No (WASB)

Security AD SAS keys

Storage Auto SharedFiles chunked Manually manage expansionFiles intact

Service State Generally Available PolyBase

just supported

Generally Available

Billing Pay for data stored and for IO Pay for data stored and for IO

Region Availability Two US regions (Other regions coming soon) All Azure Regions

ADL Store vs Blob Store

httpsdocsmicrosoftcomen-usazuredata-lake-storedata-lake-store-comparison-with-blob-storage

Want Hadoop

Need exact same on-prem

Need interactive streaming

MandatoryNo strong opinion

Azure Marketplace (IaaS)

bull Need all workloads exactly like on-

premises

bull Need 100 HortonworksClouderaMapR

Azure HDInsight

bull Most Hadoop workloads

bull Fully managed by Microsoft

bull Sell HDI + ADLS

bull Stickier to Microsoft than VMs

bull Can do interactive (Spark) and streaming

(StormSpark)

Azure Data Lake Analytics

bull Easiest experience for admin no sense of

clusters instant scale per job

bull Easiest experience for developers Visual

StudioU-SQL (C+SQL)

bull Sell ADLA + ADLS

bull Batch workloads only

Need everything exactly like on-prem

Need core projects Yes Batch is OK

Always present ADLA if NET or Visual Studio Shop

If NET or VS shop

Azure SQL DW HDInsight Hive HDInsight Spark Azure Data Lake SQL Server (IaaS)

Volume Petabytes Petabytes Petabytes Petabytes Terabytes

Security Encryption TD

Audit

ADLS Apache

Ranger

ADLS AAD Security

Groups (data)

Encryption TD

Audit

Languages T-SQL HiveQL SparkSQL HiveQL

Scala Java Python

R

U-SQL T-SQL

Extensibility No Yes NETSerDe Yes Packages Yes NET Yes NET CLR

External File

Types

ORC TXT

Parquet RCFile

ORC CSV Parquet

+ others

Parquet JSON

Hive + others

Many ORC TXT Parquet

RCFile

Admin Low-Medium Medium-High Medium-High Low High

Cost Model DWU Nodes amp VM Nodes amp VM UnitsJobs VM

Schema

Definition

Schema on Write

Polybase

Schema on Read Schema on Read Schema on Read Schema on Write

Polybase

Max DB Size 240TB Comp (5X

= 1PB)

Unlimited 64TB (64 1TB drives)

機械学習 Deep Learning 深層強化学習

画像解析

音声解析

データ分類異常検知 顧客グルーピング

数値予測売上予測 需要予測 品質管理

ラベル分類不良品分析 故障予測 チャーン分析

機械学習より強力な分析

自律学習型ロボット

自動運転車

テキストや画像等の自動生成

活用例

主に多層のニューラルネットワークを用いた手法での分析

分析のためには莫大なデータ量計算量知識スキルを要する

統計に基づいた手法での分析

そのため比較的少ないデータ量と計算量で分析を行うことができる

定義したあるべき姿に従い試行錯誤をして自ら学習を行うための分析手法である強化学習と深層学習を組み合わせた分析

Azure Machine Learning Cognitive Toolkit GPU Instance (N-Series)

マイクロソフトが提供する技術

テキストデータ機器のログデータなど

画像データ監視カメラの録画データ 機器の外観画像 顔画像など

動画データ監視カメラの録画データ 機器の稼働状況 人の作業映像など

音声データマイクからの収集データ 稼働音 室内音 人の音声など

数値データセンサーデータ 機器の制御データ計測データなど672342345

機械学習統計理論に基づいた分析手法を用いる用意するべきデータ量と処理する計算量の敷居が低め導入しやすい

Deep Learningデータ量が大きいため強力な分析手法が必要「膨大なデータ量を用意」「莫大な計算量を処理」が必要で敷居が非常に高い導入にはそれなりの覚悟が必要

Action

People

Automated Systems

Apps

Web

Mobile

Bots

Intelligence

Dashboards amp Visualizations

Cortana

Bot Framework

Cognitive Services

Power BI

Information Management

Event Hubs

Data Catalog

Data Factory

Machine Learning and Analytics

HDInsight

Stream Analytics

Intelligence

Data Lake Analytics

Machine Learning

Big Data Stores

SQL Data Warehouse

Data Lake Store

Data Sources

Apps

Sensors amp Devices

Data

Cortana Intelligence Suite

学習済み

モデル利用

学習モデル

作成

機械学習 教師あり学習

教師なし学習

強化学習

決定木

線形回帰

SVM

ロジスティック回帰

ニューラルネットワーク

クラスタリング

次元削減

Q学習

K-mean法

主成分分析

正準相関分析

ディープニューラルネットワーク

畳みこみニューラルネットワーク

再帰的ニューラルネットワーク

回帰結合ニューラルネットワーク

httpsazuremicrosoftcomen-usservicescognitive-services

わずか数行のコードで強力なアルゴリズムを持つアプリの作成が可能ですiOSAndroidWindows などのプラットフォームを問わず機能します

httpsazuremicrosoftcomja-jpservicesmachine-learning

ユーザーは簡単に予測分析ソリューションを構築デプロイ共有できます

httpswwwyoutubecomwatchv=9gDDO5ldT-4ampfeature=youtube

AI技術を利用したディープラーニング(深層学習)ツールキットです旧称「CNTK」から改名されました

ソースコード httpsgithubcomMicrosoftCNTK

SearchSpeech

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

コカコーラ誕生100周年キャンペーン

コカコーラボトルを「100歳」と認識

bull 自撮り写真をUp結果をSNS拡散

ナビタイムジャパン様

自然言語入力による路線検索BOT

bull ユーザーとの新たな接点(LINE)

bull 自然言語入力

Vision Language Knowledge

Vision Knowledge SearchSpeech Language

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

Microsoft SupportVirtual Agent

自然言語入力による自動応答サポート窓口

bull 過去QampAデータ解析に基づく回答抽出

bull 定型外はldquo人対応rdquo

UBER

登録ドライバーをスマホ経由で顔認証

VOLVO

表情からの危険予測

Search

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

アロバ様

監視カメラによる店舗内行動分析

bull 顔認識による 顧客識別

bull 表情分析

東京サマーランド様にて導入済み

HmComm様

コールセンターソリューション

bull 会話をテキスト化キーワードを解析

bull 過去QampA検索

bull 内容をCRM保存

Vision KnowledgeSpeech Language

導入事例東京サマーランド様

Video

Intelligent KioskhttpsgithubcomMicrosoftCognitive-Samples-IntelligentKiosk

ldquo(want to|request)rdquo

HoloLens

Page 41: やりたいことから考えるMicrosoft Azure 上の データストアの選び方とデータサイエンティスト向け活用法。KVSからDWHまで

54

データ無制限のストレージ と 分析プラットフォーム

無制限のストレージ(エクサバイト超)

ネイティブ HDFS に基づく実装

HDInsight Hortonworks Cloudera との統合

全ての HDFS 準拠プロジェクトとの親和性

(Spark Storm Flume Sqoop Kafka R etc)

Azure Data Lake Store- Hadoop Distributed File System (HDFS) For The Cloud

構造化データと非構造化データに対するデータ処理

宣言型の SQL 文 とカスタムコード (UDF UDT UDO hellip )

ローカルとリモートに対するクエリ

バッチ型インタラクティブ型ストリーミング型(in the future)

Azure Data Lake Analytics- New Query Language U-SQL

ETL パイプライン

スキーマの定義Relational

LOB

Applications

Schema-on-Write

直ちに必要でないデータは全て捨てられるかアーカイブされている

無限に保存 分析 結果の参照

あらゆるデータ

ソースからの

データ収集

Schema-on-Read

全データ取込要件にかかわらず

全データ格納そのままのフォーマットでスキーマ定義なし

分析実行Hadoopのような分析エンジンの利用

インタラクティブクエリ

バッチ型クエリ

機械学習

データウェアハウス

リアルタイム分析

リレーショナル

デバイス

観察仮説集まったデータから仮説をたてる

58

無制限のサイズ

ギガバイトからペタバイトのサイズの単一ファイル

巨大なスループットを必要とする大規模な分析システムを実現

あらゆるスループットに自動最適化

ペタバイト超のデータの並列コンピューティング

同一リージョン内に3つのコピーを自動的に作成

インストールやチューニングは不要

数分で稼働開始

必要に応じてどのようなサイズにもスケールアウト可能

データウェアハウスデータレイクストア

非構造Rawデータ(ログ文書バイナリ)

Tier 1

MachineLearning

Data LakeAnalytics HDInsight

目的に合わせた

データウェハウス分析処理

(売上分析経営分析)

データウェハウスに格納しきれなかった

過去データ関連データを連結して分析

ハードウェアの性能限界によって行えなかった処理量の分析を実現

ディスクコンピューティング

非構造データの

分析処理

(画像音声映像など)

広範囲のデータを利用した

機械学習統計解析処理

などによる高度分析

SQL Data Warehouse

Data LakeAnalytics HDInsight

Data LakeAnalytics

構造化データ半構造データ

分析用に加工(csv等)

Tier 2

アーカイブデータTier 2 DWHのアーカイブ

Tier 3

Analytics

Storage

HDInsight(ldquomanaged clustersrdquo)

Azure Data Lake Analytics

Azure Data Lake Store

Azure Data Lake

LOB Applications

SocialDevices

Clickstream

Sensors

Video

Web

Relational

HDInsight

Data Lake Analytics

Machine Learning

Spark

R

Azure Data Lake Store

Azure Data Lake Store

Azure Storage Blob

外部表Azure SQLData Warehouse

HDInsight

開発者は OSS に馴染んでいる Java Eclipse Hive etc

マネージド Hadoop クラスタにおいてカスタマイズ管理が可能でフレキシビリティがある

Azure Data Lake Analytics

C SQL amp PowerShell のスキル

経験を活かせる

利便性効率性自動スケール

ジョブ実行の仕組みが提供される

(New)

(New)

一般的なパターン

処理読み込み 保存

INSERT

OUTPUT

OUTPUT

SELECThellip

FROMhellip

WHEREhellip

+

PythonR

EXTRACT

EXTRACT

SELECT

SELECT

Azure

Data

Lake

Azure

Data

Lake

Azure

SQL

DB

Azure

Storage

Blobs

Azure

Storage

Blobs

RowSet RowSet

Cognitive Services

REFERENCE ASSEMBLY WebLogExtASM

rs =

EXTRACT

UserID string

Start DateTime

End DateTime

Region string

SitesVisited string

PagesVisited string

FROM ldquoLogsWebLogRecordstxtrdquo

USING WebLogExtractor ()

result = SELECT UserID

(EndSubtract(Start))TotalSeconds AS Duration

FROM rs ORDER BY Duration DESC FETCH 10

OUTPUT result TO ldquoLogsResultstop10tsv

USING OutputterTsv()

bull 型定義は C の型定義と同じ

bull データをファイルから抽出読み込み

するときにスキーマが必要

Data Lake Store 内 のファイル

独自形式を解析するカスタム関数

C の関数

行セット(中間テーブルの概念

に近い)

TSV形式で書き込む関数

U-SQL ジョブのサブミットAzure PortalやVisual StudioのAzure Data Lake ToolsからU-SQLジョブをサブミット可能

67

進捗

統計情報

従来型の処理分析 Azure Data Lake を中心とした処理分析

Business apps

Custom apps

Sensors and devices

ADL StorePeople

非構造化データも含めてあらゆるデータを格納

Azure SQL DW

Azure AD

Power BI

ADF

ADL Analytics

bull 処理分析業務の大半はデータ準備作業が占めるbull 処理分析業務に手間時間が必要

Business apps

Custom apps

Sensors and devices

HDInsight

ユーザー管理認証

データの連携

Power BI

File System

Database

Database

Hadoop

DWH

Data Mart

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

①大量データの受け入れ

②リアルタイム処理データの集約

③データの蓄積

構造化非構造化文書など様々な形式での保存

④データの加工移行

⑥機械学習

⑦Hadoop解析

⑧マイクロソフト技術を用いた分散解析

⑨通常のRMSが機能を追加した企業向けRを使用した解析

⑪クラウドベースの Self-Service BI 機能

⑫機械学習の予測モデルを業務システムなどから呼び出し可能にするサービス

外部クラウドなどからのデータ取り込み

②リアルタイム処理データの加工

⑤ディープラーニング

⑩Excelを用いた可視化

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

リアルタイム

バッチ

Data Factory Tools for Visual Studio

Azure Portal

Azure TableStorage

(Web ログレコード)

Data Factory

HDInsight

(Web ログをファイルにして

バッチ処理で集計)

SQL Database

(集計データをDB テーブルに格納)

Power BI

社内システム

DataManagement

Gateway

SQL Database

Data Warehouse

Blob Storage

Table Storage

httpportalazurecom

接続

メッセージ作成

メッセージ送信

var cs = ldquo接続文字列rdquovar path = ldquoイベントハブ名rdquovar eh = EventHubClientCreateFromConnectionString(cs path)

var msg = new user = thisUserIdentityNamelevel = leveltimestamp = demoTimestamp

var json = JsonConvertSerializeObject(msg)

ehSend(new EventData(EncodingUTF8GetBytes(json)))

EventProcessorHostを使う

bull

bull

bull

Functionsを使う

bull

bull

IEventProcessorProcessEventAsync(msg)

IEventProcessorProcessEventAsync(msg)

Run(string msg)

Azure azure-sdk-for-python

Point of Service Devices

Self CheckoutStations

Kiosks

Smart Phones

SlatesTablets

PCsLaptops

Servers

Digital Signs

DiagnosticEquipmentRemote Medical

MonitorsLogic

Controllers

SpecializedDevicesThin

Clients

Handhelds

Security

POS Terminals

AutomationDevices

VendingMachines

Kinect

ATM

Stream Analytics

入力 出力クエリデータストリーム

参照

bull ldquo入力rdquoldquo出力rdquoをクリックしそれぞれ作成

bull ldquoクエリrdquoをクリックしクエリを定義bull 作業が終わったらldquo開始rdquoで実

行開始

SELECT

INTO

FROM

SELECT user level AS SATLevel timestamp

INTO

FROM

デバイス接続性とデバイス管理およびブローカーサービス

データ管理と高度な分析 情報活用業務の生産性とプロセスの最適化

IoT Agent Gateway

予兆原因の学習モデル

ダッシュボード

参照ERPbull 顧客bull 設備bull 担当者

Notification Hubs

通知

予兆イベント

メンテ方法の推奨

bull ヘルス状態bull インシデント管理bull 対応のディスパッチ

現地技術要員のモバイルデバイス

オペレーションセンター

bull イベント ドア開閉軸アライメントキャビン速度モーター温度など

bull アラーム 故障アラームエラーコードなど

httpisstkeazurewebsitesnet

Event Hub

Stream Analytics

Azure ML

制御機器とセンサーのデータ

マシンデータの蓄積

メンテナンス方法の学習モデル

Machine Learning

Blob Storage

セルフサービス分析

Power BI

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce

cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-

system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of

your data while making it faster to get up and running with

batch streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources

so you can run queries on exabytes of data Includes U-

SQL a new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully

managed NoSQL database service that indexes stores and

queries data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

What do all of these have in common

They can all use Azure Analysis Services

Azure Analysis Services

Azure Analysis Services

BI semantic model

Business logic amp metrics

Data modeling

Security

Azure Analysis Services

Lifecycle management

In-memory cache

On-premises

Cloud

Data sources

SQL Database

SQL Data Warehouse

Other data sources

SQL Server

Analytics platform

system

Other data sources

On-premises

Cloud

Client tools

Power BI

Excel

Third party BI tools

Power BI Desktop

Rich semantic modelling

locatioidentifier

identifiertype

fieldidentifier

numberofunitssoldtodate

remaningnumber

Numberofuntissoldtoday

receivedback

productidentifier

descriptionline1

descriptionline2

qtyafterqtysales

familyidentifier

Source DataComplex raw data optimized for processing

Semantic ModelRich business user friendly semantic model

Product Id

Product Name

Product Description

Category

Category Id

Category Name

Category Description

Sub Category

Product Id

Shelf qty

Return qty

Order qty

Sale qty

Cloud Data

On-Premises

Data

Azure Analysis Services

Lightning fast queries

データ管理をきっかけに処理を実行

Web Glue

Bots IoT

DOMINOS STORES

Key Vault

Azure Active Directory

Azure Files

SSIS FRANCHISEE

AZURE WEST EUROPE

Azure Function

KEMPSSDESSRS

IN- AND EXTERNAL DATA SOURCES

orderprocessing

O365

App Insights

indexhtml

Azure Functions Proxies

couponprocessing

Use Bindings in Your Codefunctionjson

bindings [type httpTriggerdirection inwebHookType genericJsonname req

type httpdirection outname res

type queuename eventOutputqueueName aievents1connectionAiStorageConnectiondirection out

]

public static class OrderHandler

[FunctionName(OrderWebhook)]public static async TaskltHttpResponseMessagegt Run(

[HttpTrigger] HttpRequestMessage req[Queue(aievents1 Connection = AiStorageConnection)]

IAsyncCollectorltStringgt eventOutputTraceWriter log)

logInfo($Webhook was triggered)

string jsonContent = await reqContentReadAsStringAsync()dynamic data = JsonConvertDeserializeObject(jsonContent)

await eventOutputAddAsync(JsonConvertSerializeObject(GetLogData(data)))

int orderId = PlaceOrder(data)

return reqCreateResponse(HttpStatusCodeOK new orderNumber = orderId )

bull Workflow in the cloud

bull Powerful control flow

bull Connect functions and APIs

bull Declarative definition to persist in source control and drive deployments

Logic AppsCloud APIs and platform

bull Supports over 125 built-in connectors

bull Scales to meet your needs

bull Enables rapid development

bull Extends with custom APIs and

Functions

API connections

bull Authenticate once and reuse

Big Data Solutions Decision Tree

httpsbiz-excellencecom20160830big-data-dt

Machine Learning Solutions Decision Tree

httpsbiz-excellencecom20160913machine-

learning-dt

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of your

data while making it faster to get up and running with batch

streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources so

you can run queries on exabytes of data Includes U-SQL a

new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully managed

NoSQL database service that indexes stores and queries

data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

Microsoft Big Data Portfolio

SQL Server Stretch

Business intelligence

Machine learning analytics

Insights

Azure SQL Database

SQL Server 2016

SQL Server 2016 Fast Track

Azure SQL DW

ADLS amp ADLA

DocumentDB

HDInsight

Hadoop

Analytics Platform System

Sequential Scale Out + AcrossScale Up

Key

Relational Non-relational

On

-pre

mis

es

Clo

ud

Microsoft has solutions covering

and connecting all four

quadrants ndash thatrsquos why SQL

Server is one of the most utilized

databases in the world

Azure

Data Lake Store

Azure

Blob StoragePurpose Optimized for big data analytics General purpose bulk storage

Use Cases Batch Interactive Streaming App backend backup data media storage for

streaming

Units of Storage Accounts Folders Files Accounts Containers Blobs

Structure Hierarchical File System Flat namespace

WebHDFS Implements WebHDFS No (WASB)

Security AD SAS keys

Storage Auto SharedFiles chunked Manually manage expansionFiles intact

Service State Generally Available PolyBase

just supported

Generally Available

Billing Pay for data stored and for IO Pay for data stored and for IO

Region Availability Two US regions (Other regions coming soon) All Azure Regions

ADL Store vs Blob Store

httpsdocsmicrosoftcomen-usazuredata-lake-storedata-lake-store-comparison-with-blob-storage

Want Hadoop

Need exact same on-prem

Need interactive streaming

MandatoryNo strong opinion

Azure Marketplace (IaaS)

bull Need all workloads exactly like on-

premises

bull Need 100 HortonworksClouderaMapR

Azure HDInsight

bull Most Hadoop workloads

bull Fully managed by Microsoft

bull Sell HDI + ADLS

bull Stickier to Microsoft than VMs

bull Can do interactive (Spark) and streaming

(StormSpark)

Azure Data Lake Analytics

bull Easiest experience for admin no sense of

clusters instant scale per job

bull Easiest experience for developers Visual

StudioU-SQL (C+SQL)

bull Sell ADLA + ADLS

bull Batch workloads only

Need everything exactly like on-prem

Need core projects Yes Batch is OK

Always present ADLA if NET or Visual Studio Shop

If NET or VS shop

Azure SQL DW HDInsight Hive HDInsight Spark Azure Data Lake SQL Server (IaaS)

Volume Petabytes Petabytes Petabytes Petabytes Terabytes

Security Encryption TD

Audit

ADLS Apache

Ranger

ADLS AAD Security

Groups (data)

Encryption TD

Audit

Languages T-SQL HiveQL SparkSQL HiveQL

Scala Java Python

R

U-SQL T-SQL

Extensibility No Yes NETSerDe Yes Packages Yes NET Yes NET CLR

External File

Types

ORC TXT

Parquet RCFile

ORC CSV Parquet

+ others

Parquet JSON

Hive + others

Many ORC TXT Parquet

RCFile

Admin Low-Medium Medium-High Medium-High Low High

Cost Model DWU Nodes amp VM Nodes amp VM UnitsJobs VM

Schema

Definition

Schema on Write

Polybase

Schema on Read Schema on Read Schema on Read Schema on Write

Polybase

Max DB Size 240TB Comp (5X

= 1PB)

Unlimited 64TB (64 1TB drives)

機械学習 Deep Learning 深層強化学習

画像解析

音声解析

データ分類異常検知 顧客グルーピング

数値予測売上予測 需要予測 品質管理

ラベル分類不良品分析 故障予測 チャーン分析

機械学習より強力な分析

自律学習型ロボット

自動運転車

テキストや画像等の自動生成

活用例

主に多層のニューラルネットワークを用いた手法での分析

分析のためには莫大なデータ量計算量知識スキルを要する

統計に基づいた手法での分析

そのため比較的少ないデータ量と計算量で分析を行うことができる

定義したあるべき姿に従い試行錯誤をして自ら学習を行うための分析手法である強化学習と深層学習を組み合わせた分析

Azure Machine Learning Cognitive Toolkit GPU Instance (N-Series)

マイクロソフトが提供する技術

テキストデータ機器のログデータなど

画像データ監視カメラの録画データ 機器の外観画像 顔画像など

動画データ監視カメラの録画データ 機器の稼働状況 人の作業映像など

音声データマイクからの収集データ 稼働音 室内音 人の音声など

数値データセンサーデータ 機器の制御データ計測データなど672342345

機械学習統計理論に基づいた分析手法を用いる用意するべきデータ量と処理する計算量の敷居が低め導入しやすい

Deep Learningデータ量が大きいため強力な分析手法が必要「膨大なデータ量を用意」「莫大な計算量を処理」が必要で敷居が非常に高い導入にはそれなりの覚悟が必要

Action

People

Automated Systems

Apps

Web

Mobile

Bots

Intelligence

Dashboards amp Visualizations

Cortana

Bot Framework

Cognitive Services

Power BI

Information Management

Event Hubs

Data Catalog

Data Factory

Machine Learning and Analytics

HDInsight

Stream Analytics

Intelligence

Data Lake Analytics

Machine Learning

Big Data Stores

SQL Data Warehouse

Data Lake Store

Data Sources

Apps

Sensors amp Devices

Data

Cortana Intelligence Suite

学習済み

モデル利用

学習モデル

作成

機械学習 教師あり学習

教師なし学習

強化学習

決定木

線形回帰

SVM

ロジスティック回帰

ニューラルネットワーク

クラスタリング

次元削減

Q学習

K-mean法

主成分分析

正準相関分析

ディープニューラルネットワーク

畳みこみニューラルネットワーク

再帰的ニューラルネットワーク

回帰結合ニューラルネットワーク

httpsazuremicrosoftcomen-usservicescognitive-services

わずか数行のコードで強力なアルゴリズムを持つアプリの作成が可能ですiOSAndroidWindows などのプラットフォームを問わず機能します

httpsazuremicrosoftcomja-jpservicesmachine-learning

ユーザーは簡単に予測分析ソリューションを構築デプロイ共有できます

httpswwwyoutubecomwatchv=9gDDO5ldT-4ampfeature=youtube

AI技術を利用したディープラーニング(深層学習)ツールキットです旧称「CNTK」から改名されました

ソースコード httpsgithubcomMicrosoftCNTK

SearchSpeech

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

コカコーラ誕生100周年キャンペーン

コカコーラボトルを「100歳」と認識

bull 自撮り写真をUp結果をSNS拡散

ナビタイムジャパン様

自然言語入力による路線検索BOT

bull ユーザーとの新たな接点(LINE)

bull 自然言語入力

Vision Language Knowledge

Vision Knowledge SearchSpeech Language

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

Microsoft SupportVirtual Agent

自然言語入力による自動応答サポート窓口

bull 過去QampAデータ解析に基づく回答抽出

bull 定型外はldquo人対応rdquo

UBER

登録ドライバーをスマホ経由で顔認証

VOLVO

表情からの危険予測

Search

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

アロバ様

監視カメラによる店舗内行動分析

bull 顔認識による 顧客識別

bull 表情分析

東京サマーランド様にて導入済み

HmComm様

コールセンターソリューション

bull 会話をテキスト化キーワードを解析

bull 過去QampA検索

bull 内容をCRM保存

Vision KnowledgeSpeech Language

導入事例東京サマーランド様

Video

Intelligent KioskhttpsgithubcomMicrosoftCognitive-Samples-IntelligentKiosk

ldquo(want to|request)rdquo

HoloLens

Page 42: やりたいことから考えるMicrosoft Azure 上の データストアの選び方とデータサイエンティスト向け活用法。KVSからDWHまで

ETL パイプライン

スキーマの定義Relational

LOB

Applications

Schema-on-Write

直ちに必要でないデータは全て捨てられるかアーカイブされている

無限に保存 分析 結果の参照

あらゆるデータ

ソースからの

データ収集

Schema-on-Read

全データ取込要件にかかわらず

全データ格納そのままのフォーマットでスキーマ定義なし

分析実行Hadoopのような分析エンジンの利用

インタラクティブクエリ

バッチ型クエリ

機械学習

データウェアハウス

リアルタイム分析

リレーショナル

デバイス

観察仮説集まったデータから仮説をたてる

58

無制限のサイズ

ギガバイトからペタバイトのサイズの単一ファイル

巨大なスループットを必要とする大規模な分析システムを実現

あらゆるスループットに自動最適化

ペタバイト超のデータの並列コンピューティング

同一リージョン内に3つのコピーを自動的に作成

インストールやチューニングは不要

数分で稼働開始

必要に応じてどのようなサイズにもスケールアウト可能

データウェアハウスデータレイクストア

非構造Rawデータ(ログ文書バイナリ)

Tier 1

MachineLearning

Data LakeAnalytics HDInsight

目的に合わせた

データウェハウス分析処理

(売上分析経営分析)

データウェハウスに格納しきれなかった

過去データ関連データを連結して分析

ハードウェアの性能限界によって行えなかった処理量の分析を実現

ディスクコンピューティング

非構造データの

分析処理

(画像音声映像など)

広範囲のデータを利用した

機械学習統計解析処理

などによる高度分析

SQL Data Warehouse

Data LakeAnalytics HDInsight

Data LakeAnalytics

構造化データ半構造データ

分析用に加工(csv等)

Tier 2

アーカイブデータTier 2 DWHのアーカイブ

Tier 3

Analytics

Storage

HDInsight(ldquomanaged clustersrdquo)

Azure Data Lake Analytics

Azure Data Lake Store

Azure Data Lake

LOB Applications

SocialDevices

Clickstream

Sensors

Video

Web

Relational

HDInsight

Data Lake Analytics

Machine Learning

Spark

R

Azure Data Lake Store

Azure Data Lake Store

Azure Storage Blob

外部表Azure SQLData Warehouse

HDInsight

開発者は OSS に馴染んでいる Java Eclipse Hive etc

マネージド Hadoop クラスタにおいてカスタマイズ管理が可能でフレキシビリティがある

Azure Data Lake Analytics

C SQL amp PowerShell のスキル

経験を活かせる

利便性効率性自動スケール

ジョブ実行の仕組みが提供される

(New)

(New)

一般的なパターン

処理読み込み 保存

INSERT

OUTPUT

OUTPUT

SELECThellip

FROMhellip

WHEREhellip

+

PythonR

EXTRACT

EXTRACT

SELECT

SELECT

Azure

Data

Lake

Azure

Data

Lake

Azure

SQL

DB

Azure

Storage

Blobs

Azure

Storage

Blobs

RowSet RowSet

Cognitive Services

REFERENCE ASSEMBLY WebLogExtASM

rs =

EXTRACT

UserID string

Start DateTime

End DateTime

Region string

SitesVisited string

PagesVisited string

FROM ldquoLogsWebLogRecordstxtrdquo

USING WebLogExtractor ()

result = SELECT UserID

(EndSubtract(Start))TotalSeconds AS Duration

FROM rs ORDER BY Duration DESC FETCH 10

OUTPUT result TO ldquoLogsResultstop10tsv

USING OutputterTsv()

bull 型定義は C の型定義と同じ

bull データをファイルから抽出読み込み

するときにスキーマが必要

Data Lake Store 内 のファイル

独自形式を解析するカスタム関数

C の関数

行セット(中間テーブルの概念

に近い)

TSV形式で書き込む関数

U-SQL ジョブのサブミットAzure PortalやVisual StudioのAzure Data Lake ToolsからU-SQLジョブをサブミット可能

67

進捗

統計情報

従来型の処理分析 Azure Data Lake を中心とした処理分析

Business apps

Custom apps

Sensors and devices

ADL StorePeople

非構造化データも含めてあらゆるデータを格納

Azure SQL DW

Azure AD

Power BI

ADF

ADL Analytics

bull 処理分析業務の大半はデータ準備作業が占めるbull 処理分析業務に手間時間が必要

Business apps

Custom apps

Sensors and devices

HDInsight

ユーザー管理認証

データの連携

Power BI

File System

Database

Database

Hadoop

DWH

Data Mart

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

①大量データの受け入れ

②リアルタイム処理データの集約

③データの蓄積

構造化非構造化文書など様々な形式での保存

④データの加工移行

⑥機械学習

⑦Hadoop解析

⑧マイクロソフト技術を用いた分散解析

⑨通常のRMSが機能を追加した企業向けRを使用した解析

⑪クラウドベースの Self-Service BI 機能

⑫機械学習の予測モデルを業務システムなどから呼び出し可能にするサービス

外部クラウドなどからのデータ取り込み

②リアルタイム処理データの加工

⑤ディープラーニング

⑩Excelを用いた可視化

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

リアルタイム

バッチ

Data Factory Tools for Visual Studio

Azure Portal

Azure TableStorage

(Web ログレコード)

Data Factory

HDInsight

(Web ログをファイルにして

バッチ処理で集計)

SQL Database

(集計データをDB テーブルに格納)

Power BI

社内システム

DataManagement

Gateway

SQL Database

Data Warehouse

Blob Storage

Table Storage

httpportalazurecom

接続

メッセージ作成

メッセージ送信

var cs = ldquo接続文字列rdquovar path = ldquoイベントハブ名rdquovar eh = EventHubClientCreateFromConnectionString(cs path)

var msg = new user = thisUserIdentityNamelevel = leveltimestamp = demoTimestamp

var json = JsonConvertSerializeObject(msg)

ehSend(new EventData(EncodingUTF8GetBytes(json)))

EventProcessorHostを使う

bull

bull

bull

Functionsを使う

bull

bull

IEventProcessorProcessEventAsync(msg)

IEventProcessorProcessEventAsync(msg)

Run(string msg)

Azure azure-sdk-for-python

Point of Service Devices

Self CheckoutStations

Kiosks

Smart Phones

SlatesTablets

PCsLaptops

Servers

Digital Signs

DiagnosticEquipmentRemote Medical

MonitorsLogic

Controllers

SpecializedDevicesThin

Clients

Handhelds

Security

POS Terminals

AutomationDevices

VendingMachines

Kinect

ATM

Stream Analytics

入力 出力クエリデータストリーム

参照

bull ldquo入力rdquoldquo出力rdquoをクリックしそれぞれ作成

bull ldquoクエリrdquoをクリックしクエリを定義bull 作業が終わったらldquo開始rdquoで実

行開始

SELECT

INTO

FROM

SELECT user level AS SATLevel timestamp

INTO

FROM

デバイス接続性とデバイス管理およびブローカーサービス

データ管理と高度な分析 情報活用業務の生産性とプロセスの最適化

IoT Agent Gateway

予兆原因の学習モデル

ダッシュボード

参照ERPbull 顧客bull 設備bull 担当者

Notification Hubs

通知

予兆イベント

メンテ方法の推奨

bull ヘルス状態bull インシデント管理bull 対応のディスパッチ

現地技術要員のモバイルデバイス

オペレーションセンター

bull イベント ドア開閉軸アライメントキャビン速度モーター温度など

bull アラーム 故障アラームエラーコードなど

httpisstkeazurewebsitesnet

Event Hub

Stream Analytics

Azure ML

制御機器とセンサーのデータ

マシンデータの蓄積

メンテナンス方法の学習モデル

Machine Learning

Blob Storage

セルフサービス分析

Power BI

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce

cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-

system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of

your data while making it faster to get up and running with

batch streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources

so you can run queries on exabytes of data Includes U-

SQL a new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully

managed NoSQL database service that indexes stores and

queries data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

What do all of these have in common

They can all use Azure Analysis Services

Azure Analysis Services

Azure Analysis Services

BI semantic model

Business logic amp metrics

Data modeling

Security

Azure Analysis Services

Lifecycle management

In-memory cache

On-premises

Cloud

Data sources

SQL Database

SQL Data Warehouse

Other data sources

SQL Server

Analytics platform

system

Other data sources

On-premises

Cloud

Client tools

Power BI

Excel

Third party BI tools

Power BI Desktop

Rich semantic modelling

locatioidentifier

identifiertype

fieldidentifier

numberofunitssoldtodate

remaningnumber

Numberofuntissoldtoday

receivedback

productidentifier

descriptionline1

descriptionline2

qtyafterqtysales

familyidentifier

Source DataComplex raw data optimized for processing

Semantic ModelRich business user friendly semantic model

Product Id

Product Name

Product Description

Category

Category Id

Category Name

Category Description

Sub Category

Product Id

Shelf qty

Return qty

Order qty

Sale qty

Cloud Data

On-Premises

Data

Azure Analysis Services

Lightning fast queries

データ管理をきっかけに処理を実行

Web Glue

Bots IoT

DOMINOS STORES

Key Vault

Azure Active Directory

Azure Files

SSIS FRANCHISEE

AZURE WEST EUROPE

Azure Function

KEMPSSDESSRS

IN- AND EXTERNAL DATA SOURCES

orderprocessing

O365

App Insights

indexhtml

Azure Functions Proxies

couponprocessing

Use Bindings in Your Codefunctionjson

bindings [type httpTriggerdirection inwebHookType genericJsonname req

type httpdirection outname res

type queuename eventOutputqueueName aievents1connectionAiStorageConnectiondirection out

]

public static class OrderHandler

[FunctionName(OrderWebhook)]public static async TaskltHttpResponseMessagegt Run(

[HttpTrigger] HttpRequestMessage req[Queue(aievents1 Connection = AiStorageConnection)]

IAsyncCollectorltStringgt eventOutputTraceWriter log)

logInfo($Webhook was triggered)

string jsonContent = await reqContentReadAsStringAsync()dynamic data = JsonConvertDeserializeObject(jsonContent)

await eventOutputAddAsync(JsonConvertSerializeObject(GetLogData(data)))

int orderId = PlaceOrder(data)

return reqCreateResponse(HttpStatusCodeOK new orderNumber = orderId )

bull Workflow in the cloud

bull Powerful control flow

bull Connect functions and APIs

bull Declarative definition to persist in source control and drive deployments

Logic AppsCloud APIs and platform

bull Supports over 125 built-in connectors

bull Scales to meet your needs

bull Enables rapid development

bull Extends with custom APIs and

Functions

API connections

bull Authenticate once and reuse

Big Data Solutions Decision Tree

httpsbiz-excellencecom20160830big-data-dt

Machine Learning Solutions Decision Tree

httpsbiz-excellencecom20160913machine-

learning-dt

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of your

data while making it faster to get up and running with batch

streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources so

you can run queries on exabytes of data Includes U-SQL a

new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully managed

NoSQL database service that indexes stores and queries

data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

Microsoft Big Data Portfolio

SQL Server Stretch

Business intelligence

Machine learning analytics

Insights

Azure SQL Database

SQL Server 2016

SQL Server 2016 Fast Track

Azure SQL DW

ADLS amp ADLA

DocumentDB

HDInsight

Hadoop

Analytics Platform System

Sequential Scale Out + AcrossScale Up

Key

Relational Non-relational

On

-pre

mis

es

Clo

ud

Microsoft has solutions covering

and connecting all four

quadrants ndash thatrsquos why SQL

Server is one of the most utilized

databases in the world

Azure

Data Lake Store

Azure

Blob StoragePurpose Optimized for big data analytics General purpose bulk storage

Use Cases Batch Interactive Streaming App backend backup data media storage for

streaming

Units of Storage Accounts Folders Files Accounts Containers Blobs

Structure Hierarchical File System Flat namespace

WebHDFS Implements WebHDFS No (WASB)

Security AD SAS keys

Storage Auto SharedFiles chunked Manually manage expansionFiles intact

Service State Generally Available PolyBase

just supported

Generally Available

Billing Pay for data stored and for IO Pay for data stored and for IO

Region Availability Two US regions (Other regions coming soon) All Azure Regions

ADL Store vs Blob Store

httpsdocsmicrosoftcomen-usazuredata-lake-storedata-lake-store-comparison-with-blob-storage

Want Hadoop

Need exact same on-prem

Need interactive streaming

MandatoryNo strong opinion

Azure Marketplace (IaaS)

bull Need all workloads exactly like on-

premises

bull Need 100 HortonworksClouderaMapR

Azure HDInsight

bull Most Hadoop workloads

bull Fully managed by Microsoft

bull Sell HDI + ADLS

bull Stickier to Microsoft than VMs

bull Can do interactive (Spark) and streaming

(StormSpark)

Azure Data Lake Analytics

bull Easiest experience for admin no sense of

clusters instant scale per job

bull Easiest experience for developers Visual

StudioU-SQL (C+SQL)

bull Sell ADLA + ADLS

bull Batch workloads only

Need everything exactly like on-prem

Need core projects Yes Batch is OK

Always present ADLA if NET or Visual Studio Shop

If NET or VS shop

Azure SQL DW HDInsight Hive HDInsight Spark Azure Data Lake SQL Server (IaaS)

Volume Petabytes Petabytes Petabytes Petabytes Terabytes

Security Encryption TD

Audit

ADLS Apache

Ranger

ADLS AAD Security

Groups (data)

Encryption TD

Audit

Languages T-SQL HiveQL SparkSQL HiveQL

Scala Java Python

R

U-SQL T-SQL

Extensibility No Yes NETSerDe Yes Packages Yes NET Yes NET CLR

External File

Types

ORC TXT

Parquet RCFile

ORC CSV Parquet

+ others

Parquet JSON

Hive + others

Many ORC TXT Parquet

RCFile

Admin Low-Medium Medium-High Medium-High Low High

Cost Model DWU Nodes amp VM Nodes amp VM UnitsJobs VM

Schema

Definition

Schema on Write

Polybase

Schema on Read Schema on Read Schema on Read Schema on Write

Polybase

Max DB Size 240TB Comp (5X

= 1PB)

Unlimited 64TB (64 1TB drives)

機械学習 Deep Learning 深層強化学習

画像解析

音声解析

データ分類異常検知 顧客グルーピング

数値予測売上予測 需要予測 品質管理

ラベル分類不良品分析 故障予測 チャーン分析

機械学習より強力な分析

自律学習型ロボット

自動運転車

テキストや画像等の自動生成

活用例

主に多層のニューラルネットワークを用いた手法での分析

分析のためには莫大なデータ量計算量知識スキルを要する

統計に基づいた手法での分析

そのため比較的少ないデータ量と計算量で分析を行うことができる

定義したあるべき姿に従い試行錯誤をして自ら学習を行うための分析手法である強化学習と深層学習を組み合わせた分析

Azure Machine Learning Cognitive Toolkit GPU Instance (N-Series)

マイクロソフトが提供する技術

テキストデータ機器のログデータなど

画像データ監視カメラの録画データ 機器の外観画像 顔画像など

動画データ監視カメラの録画データ 機器の稼働状況 人の作業映像など

音声データマイクからの収集データ 稼働音 室内音 人の音声など

数値データセンサーデータ 機器の制御データ計測データなど672342345

機械学習統計理論に基づいた分析手法を用いる用意するべきデータ量と処理する計算量の敷居が低め導入しやすい

Deep Learningデータ量が大きいため強力な分析手法が必要「膨大なデータ量を用意」「莫大な計算量を処理」が必要で敷居が非常に高い導入にはそれなりの覚悟が必要

Action

People

Automated Systems

Apps

Web

Mobile

Bots

Intelligence

Dashboards amp Visualizations

Cortana

Bot Framework

Cognitive Services

Power BI

Information Management

Event Hubs

Data Catalog

Data Factory

Machine Learning and Analytics

HDInsight

Stream Analytics

Intelligence

Data Lake Analytics

Machine Learning

Big Data Stores

SQL Data Warehouse

Data Lake Store

Data Sources

Apps

Sensors amp Devices

Data

Cortana Intelligence Suite

学習済み

モデル利用

学習モデル

作成

機械学習 教師あり学習

教師なし学習

強化学習

決定木

線形回帰

SVM

ロジスティック回帰

ニューラルネットワーク

クラスタリング

次元削減

Q学習

K-mean法

主成分分析

正準相関分析

ディープニューラルネットワーク

畳みこみニューラルネットワーク

再帰的ニューラルネットワーク

回帰結合ニューラルネットワーク

httpsazuremicrosoftcomen-usservicescognitive-services

わずか数行のコードで強力なアルゴリズムを持つアプリの作成が可能ですiOSAndroidWindows などのプラットフォームを問わず機能します

httpsazuremicrosoftcomja-jpservicesmachine-learning

ユーザーは簡単に予測分析ソリューションを構築デプロイ共有できます

httpswwwyoutubecomwatchv=9gDDO5ldT-4ampfeature=youtube

AI技術を利用したディープラーニング(深層学習)ツールキットです旧称「CNTK」から改名されました

ソースコード httpsgithubcomMicrosoftCNTK

SearchSpeech

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

コカコーラ誕生100周年キャンペーン

コカコーラボトルを「100歳」と認識

bull 自撮り写真をUp結果をSNS拡散

ナビタイムジャパン様

自然言語入力による路線検索BOT

bull ユーザーとの新たな接点(LINE)

bull 自然言語入力

Vision Language Knowledge

Vision Knowledge SearchSpeech Language

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

Microsoft SupportVirtual Agent

自然言語入力による自動応答サポート窓口

bull 過去QampAデータ解析に基づく回答抽出

bull 定型外はldquo人対応rdquo

UBER

登録ドライバーをスマホ経由で顔認証

VOLVO

表情からの危険予測

Search

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

アロバ様

監視カメラによる店舗内行動分析

bull 顔認識による 顧客識別

bull 表情分析

東京サマーランド様にて導入済み

HmComm様

コールセンターソリューション

bull 会話をテキスト化キーワードを解析

bull 過去QampA検索

bull 内容をCRM保存

Vision KnowledgeSpeech Language

導入事例東京サマーランド様

Video

Intelligent KioskhttpsgithubcomMicrosoftCognitive-Samples-IntelligentKiosk

ldquo(want to|request)rdquo

HoloLens

Page 43: やりたいことから考えるMicrosoft Azure 上の データストアの選び方とデータサイエンティスト向け活用法。KVSからDWHまで

無限に保存 分析 結果の参照

あらゆるデータ

ソースからの

データ収集

Schema-on-Read

全データ取込要件にかかわらず

全データ格納そのままのフォーマットでスキーマ定義なし

分析実行Hadoopのような分析エンジンの利用

インタラクティブクエリ

バッチ型クエリ

機械学習

データウェアハウス

リアルタイム分析

リレーショナル

デバイス

観察仮説集まったデータから仮説をたてる

58

無制限のサイズ

ギガバイトからペタバイトのサイズの単一ファイル

巨大なスループットを必要とする大規模な分析システムを実現

あらゆるスループットに自動最適化

ペタバイト超のデータの並列コンピューティング

同一リージョン内に3つのコピーを自動的に作成

インストールやチューニングは不要

数分で稼働開始

必要に応じてどのようなサイズにもスケールアウト可能

データウェアハウスデータレイクストア

非構造Rawデータ(ログ文書バイナリ)

Tier 1

MachineLearning

Data LakeAnalytics HDInsight

目的に合わせた

データウェハウス分析処理

(売上分析経営分析)

データウェハウスに格納しきれなかった

過去データ関連データを連結して分析

ハードウェアの性能限界によって行えなかった処理量の分析を実現

ディスクコンピューティング

非構造データの

分析処理

(画像音声映像など)

広範囲のデータを利用した

機械学習統計解析処理

などによる高度分析

SQL Data Warehouse

Data LakeAnalytics HDInsight

Data LakeAnalytics

構造化データ半構造データ

分析用に加工(csv等)

Tier 2

アーカイブデータTier 2 DWHのアーカイブ

Tier 3

Analytics

Storage

HDInsight(ldquomanaged clustersrdquo)

Azure Data Lake Analytics

Azure Data Lake Store

Azure Data Lake

LOB Applications

SocialDevices

Clickstream

Sensors

Video

Web

Relational

HDInsight

Data Lake Analytics

Machine Learning

Spark

R

Azure Data Lake Store

Azure Data Lake Store

Azure Storage Blob

外部表Azure SQLData Warehouse

HDInsight

開発者は OSS に馴染んでいる Java Eclipse Hive etc

マネージド Hadoop クラスタにおいてカスタマイズ管理が可能でフレキシビリティがある

Azure Data Lake Analytics

C SQL amp PowerShell のスキル

経験を活かせる

利便性効率性自動スケール

ジョブ実行の仕組みが提供される

(New)

(New)

一般的なパターン

処理読み込み 保存

INSERT

OUTPUT

OUTPUT

SELECThellip

FROMhellip

WHEREhellip

+

PythonR

EXTRACT

EXTRACT

SELECT

SELECT

Azure

Data

Lake

Azure

Data

Lake

Azure

SQL

DB

Azure

Storage

Blobs

Azure

Storage

Blobs

RowSet RowSet

Cognitive Services

REFERENCE ASSEMBLY WebLogExtASM

rs =

EXTRACT

UserID string

Start DateTime

End DateTime

Region string

SitesVisited string

PagesVisited string

FROM ldquoLogsWebLogRecordstxtrdquo

USING WebLogExtractor ()

result = SELECT UserID

(EndSubtract(Start))TotalSeconds AS Duration

FROM rs ORDER BY Duration DESC FETCH 10

OUTPUT result TO ldquoLogsResultstop10tsv

USING OutputterTsv()

bull 型定義は C の型定義と同じ

bull データをファイルから抽出読み込み

するときにスキーマが必要

Data Lake Store 内 のファイル

独自形式を解析するカスタム関数

C の関数

行セット(中間テーブルの概念

に近い)

TSV形式で書き込む関数

U-SQL ジョブのサブミットAzure PortalやVisual StudioのAzure Data Lake ToolsからU-SQLジョブをサブミット可能

67

進捗

統計情報

従来型の処理分析 Azure Data Lake を中心とした処理分析

Business apps

Custom apps

Sensors and devices

ADL StorePeople

非構造化データも含めてあらゆるデータを格納

Azure SQL DW

Azure AD

Power BI

ADF

ADL Analytics

bull 処理分析業務の大半はデータ準備作業が占めるbull 処理分析業務に手間時間が必要

Business apps

Custom apps

Sensors and devices

HDInsight

ユーザー管理認証

データの連携

Power BI

File System

Database

Database

Hadoop

DWH

Data Mart

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

①大量データの受け入れ

②リアルタイム処理データの集約

③データの蓄積

構造化非構造化文書など様々な形式での保存

④データの加工移行

⑥機械学習

⑦Hadoop解析

⑧マイクロソフト技術を用いた分散解析

⑨通常のRMSが機能を追加した企業向けRを使用した解析

⑪クラウドベースの Self-Service BI 機能

⑫機械学習の予測モデルを業務システムなどから呼び出し可能にするサービス

外部クラウドなどからのデータ取り込み

②リアルタイム処理データの加工

⑤ディープラーニング

⑩Excelを用いた可視化

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

リアルタイム

バッチ

Data Factory Tools for Visual Studio

Azure Portal

Azure TableStorage

(Web ログレコード)

Data Factory

HDInsight

(Web ログをファイルにして

バッチ処理で集計)

SQL Database

(集計データをDB テーブルに格納)

Power BI

社内システム

DataManagement

Gateway

SQL Database

Data Warehouse

Blob Storage

Table Storage

httpportalazurecom

接続

メッセージ作成

メッセージ送信

var cs = ldquo接続文字列rdquovar path = ldquoイベントハブ名rdquovar eh = EventHubClientCreateFromConnectionString(cs path)

var msg = new user = thisUserIdentityNamelevel = leveltimestamp = demoTimestamp

var json = JsonConvertSerializeObject(msg)

ehSend(new EventData(EncodingUTF8GetBytes(json)))

EventProcessorHostを使う

bull

bull

bull

Functionsを使う

bull

bull

IEventProcessorProcessEventAsync(msg)

IEventProcessorProcessEventAsync(msg)

Run(string msg)

Azure azure-sdk-for-python

Point of Service Devices

Self CheckoutStations

Kiosks

Smart Phones

SlatesTablets

PCsLaptops

Servers

Digital Signs

DiagnosticEquipmentRemote Medical

MonitorsLogic

Controllers

SpecializedDevicesThin

Clients

Handhelds

Security

POS Terminals

AutomationDevices

VendingMachines

Kinect

ATM

Stream Analytics

入力 出力クエリデータストリーム

参照

bull ldquo入力rdquoldquo出力rdquoをクリックしそれぞれ作成

bull ldquoクエリrdquoをクリックしクエリを定義bull 作業が終わったらldquo開始rdquoで実

行開始

SELECT

INTO

FROM

SELECT user level AS SATLevel timestamp

INTO

FROM

デバイス接続性とデバイス管理およびブローカーサービス

データ管理と高度な分析 情報活用業務の生産性とプロセスの最適化

IoT Agent Gateway

予兆原因の学習モデル

ダッシュボード

参照ERPbull 顧客bull 設備bull 担当者

Notification Hubs

通知

予兆イベント

メンテ方法の推奨

bull ヘルス状態bull インシデント管理bull 対応のディスパッチ

現地技術要員のモバイルデバイス

オペレーションセンター

bull イベント ドア開閉軸アライメントキャビン速度モーター温度など

bull アラーム 故障アラームエラーコードなど

httpisstkeazurewebsitesnet

Event Hub

Stream Analytics

Azure ML

制御機器とセンサーのデータ

マシンデータの蓄積

メンテナンス方法の学習モデル

Machine Learning

Blob Storage

セルフサービス分析

Power BI

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce

cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-

system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of

your data while making it faster to get up and running with

batch streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources

so you can run queries on exabytes of data Includes U-

SQL a new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully

managed NoSQL database service that indexes stores and

queries data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

What do all of these have in common

They can all use Azure Analysis Services

Azure Analysis Services

Azure Analysis Services

BI semantic model

Business logic amp metrics

Data modeling

Security

Azure Analysis Services

Lifecycle management

In-memory cache

On-premises

Cloud

Data sources

SQL Database

SQL Data Warehouse

Other data sources

SQL Server

Analytics platform

system

Other data sources

On-premises

Cloud

Client tools

Power BI

Excel

Third party BI tools

Power BI Desktop

Rich semantic modelling

locatioidentifier

identifiertype

fieldidentifier

numberofunitssoldtodate

remaningnumber

Numberofuntissoldtoday

receivedback

productidentifier

descriptionline1

descriptionline2

qtyafterqtysales

familyidentifier

Source DataComplex raw data optimized for processing

Semantic ModelRich business user friendly semantic model

Product Id

Product Name

Product Description

Category

Category Id

Category Name

Category Description

Sub Category

Product Id

Shelf qty

Return qty

Order qty

Sale qty

Cloud Data

On-Premises

Data

Azure Analysis Services

Lightning fast queries

データ管理をきっかけに処理を実行

Web Glue

Bots IoT

DOMINOS STORES

Key Vault

Azure Active Directory

Azure Files

SSIS FRANCHISEE

AZURE WEST EUROPE

Azure Function

KEMPSSDESSRS

IN- AND EXTERNAL DATA SOURCES

orderprocessing

O365

App Insights

indexhtml

Azure Functions Proxies

couponprocessing

Use Bindings in Your Codefunctionjson

bindings [type httpTriggerdirection inwebHookType genericJsonname req

type httpdirection outname res

type queuename eventOutputqueueName aievents1connectionAiStorageConnectiondirection out

]

public static class OrderHandler

[FunctionName(OrderWebhook)]public static async TaskltHttpResponseMessagegt Run(

[HttpTrigger] HttpRequestMessage req[Queue(aievents1 Connection = AiStorageConnection)]

IAsyncCollectorltStringgt eventOutputTraceWriter log)

logInfo($Webhook was triggered)

string jsonContent = await reqContentReadAsStringAsync()dynamic data = JsonConvertDeserializeObject(jsonContent)

await eventOutputAddAsync(JsonConvertSerializeObject(GetLogData(data)))

int orderId = PlaceOrder(data)

return reqCreateResponse(HttpStatusCodeOK new orderNumber = orderId )

bull Workflow in the cloud

bull Powerful control flow

bull Connect functions and APIs

bull Declarative definition to persist in source control and drive deployments

Logic AppsCloud APIs and platform

bull Supports over 125 built-in connectors

bull Scales to meet your needs

bull Enables rapid development

bull Extends with custom APIs and

Functions

API connections

bull Authenticate once and reuse

Big Data Solutions Decision Tree

httpsbiz-excellencecom20160830big-data-dt

Machine Learning Solutions Decision Tree

httpsbiz-excellencecom20160913machine-

learning-dt

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of your

data while making it faster to get up and running with batch

streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources so

you can run queries on exabytes of data Includes U-SQL a

new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully managed

NoSQL database service that indexes stores and queries

data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

Microsoft Big Data Portfolio

SQL Server Stretch

Business intelligence

Machine learning analytics

Insights

Azure SQL Database

SQL Server 2016

SQL Server 2016 Fast Track

Azure SQL DW

ADLS amp ADLA

DocumentDB

HDInsight

Hadoop

Analytics Platform System

Sequential Scale Out + AcrossScale Up

Key

Relational Non-relational

On

-pre

mis

es

Clo

ud

Microsoft has solutions covering

and connecting all four

quadrants ndash thatrsquos why SQL

Server is one of the most utilized

databases in the world

Azure

Data Lake Store

Azure

Blob StoragePurpose Optimized for big data analytics General purpose bulk storage

Use Cases Batch Interactive Streaming App backend backup data media storage for

streaming

Units of Storage Accounts Folders Files Accounts Containers Blobs

Structure Hierarchical File System Flat namespace

WebHDFS Implements WebHDFS No (WASB)

Security AD SAS keys

Storage Auto SharedFiles chunked Manually manage expansionFiles intact

Service State Generally Available PolyBase

just supported

Generally Available

Billing Pay for data stored and for IO Pay for data stored and for IO

Region Availability Two US regions (Other regions coming soon) All Azure Regions

ADL Store vs Blob Store

httpsdocsmicrosoftcomen-usazuredata-lake-storedata-lake-store-comparison-with-blob-storage

Want Hadoop

Need exact same on-prem

Need interactive streaming

MandatoryNo strong opinion

Azure Marketplace (IaaS)

bull Need all workloads exactly like on-

premises

bull Need 100 HortonworksClouderaMapR

Azure HDInsight

bull Most Hadoop workloads

bull Fully managed by Microsoft

bull Sell HDI + ADLS

bull Stickier to Microsoft than VMs

bull Can do interactive (Spark) and streaming

(StormSpark)

Azure Data Lake Analytics

bull Easiest experience for admin no sense of

clusters instant scale per job

bull Easiest experience for developers Visual

StudioU-SQL (C+SQL)

bull Sell ADLA + ADLS

bull Batch workloads only

Need everything exactly like on-prem

Need core projects Yes Batch is OK

Always present ADLA if NET or Visual Studio Shop

If NET or VS shop

Azure SQL DW HDInsight Hive HDInsight Spark Azure Data Lake SQL Server (IaaS)

Volume Petabytes Petabytes Petabytes Petabytes Terabytes

Security Encryption TD

Audit

ADLS Apache

Ranger

ADLS AAD Security

Groups (data)

Encryption TD

Audit

Languages T-SQL HiveQL SparkSQL HiveQL

Scala Java Python

R

U-SQL T-SQL

Extensibility No Yes NETSerDe Yes Packages Yes NET Yes NET CLR

External File

Types

ORC TXT

Parquet RCFile

ORC CSV Parquet

+ others

Parquet JSON

Hive + others

Many ORC TXT Parquet

RCFile

Admin Low-Medium Medium-High Medium-High Low High

Cost Model DWU Nodes amp VM Nodes amp VM UnitsJobs VM

Schema

Definition

Schema on Write

Polybase

Schema on Read Schema on Read Schema on Read Schema on Write

Polybase

Max DB Size 240TB Comp (5X

= 1PB)

Unlimited 64TB (64 1TB drives)

機械学習 Deep Learning 深層強化学習

画像解析

音声解析

データ分類異常検知 顧客グルーピング

数値予測売上予測 需要予測 品質管理

ラベル分類不良品分析 故障予測 チャーン分析

機械学習より強力な分析

自律学習型ロボット

自動運転車

テキストや画像等の自動生成

活用例

主に多層のニューラルネットワークを用いた手法での分析

分析のためには莫大なデータ量計算量知識スキルを要する

統計に基づいた手法での分析

そのため比較的少ないデータ量と計算量で分析を行うことができる

定義したあるべき姿に従い試行錯誤をして自ら学習を行うための分析手法である強化学習と深層学習を組み合わせた分析

Azure Machine Learning Cognitive Toolkit GPU Instance (N-Series)

マイクロソフトが提供する技術

テキストデータ機器のログデータなど

画像データ監視カメラの録画データ 機器の外観画像 顔画像など

動画データ監視カメラの録画データ 機器の稼働状況 人の作業映像など

音声データマイクからの収集データ 稼働音 室内音 人の音声など

数値データセンサーデータ 機器の制御データ計測データなど672342345

機械学習統計理論に基づいた分析手法を用いる用意するべきデータ量と処理する計算量の敷居が低め導入しやすい

Deep Learningデータ量が大きいため強力な分析手法が必要「膨大なデータ量を用意」「莫大な計算量を処理」が必要で敷居が非常に高い導入にはそれなりの覚悟が必要

Action

People

Automated Systems

Apps

Web

Mobile

Bots

Intelligence

Dashboards amp Visualizations

Cortana

Bot Framework

Cognitive Services

Power BI

Information Management

Event Hubs

Data Catalog

Data Factory

Machine Learning and Analytics

HDInsight

Stream Analytics

Intelligence

Data Lake Analytics

Machine Learning

Big Data Stores

SQL Data Warehouse

Data Lake Store

Data Sources

Apps

Sensors amp Devices

Data

Cortana Intelligence Suite

学習済み

モデル利用

学習モデル

作成

機械学習 教師あり学習

教師なし学習

強化学習

決定木

線形回帰

SVM

ロジスティック回帰

ニューラルネットワーク

クラスタリング

次元削減

Q学習

K-mean法

主成分分析

正準相関分析

ディープニューラルネットワーク

畳みこみニューラルネットワーク

再帰的ニューラルネットワーク

回帰結合ニューラルネットワーク

httpsazuremicrosoftcomen-usservicescognitive-services

わずか数行のコードで強力なアルゴリズムを持つアプリの作成が可能ですiOSAndroidWindows などのプラットフォームを問わず機能します

httpsazuremicrosoftcomja-jpservicesmachine-learning

ユーザーは簡単に予測分析ソリューションを構築デプロイ共有できます

httpswwwyoutubecomwatchv=9gDDO5ldT-4ampfeature=youtube

AI技術を利用したディープラーニング(深層学習)ツールキットです旧称「CNTK」から改名されました

ソースコード httpsgithubcomMicrosoftCNTK

SearchSpeech

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

コカコーラ誕生100周年キャンペーン

コカコーラボトルを「100歳」と認識

bull 自撮り写真をUp結果をSNS拡散

ナビタイムジャパン様

自然言語入力による路線検索BOT

bull ユーザーとの新たな接点(LINE)

bull 自然言語入力

Vision Language Knowledge

Vision Knowledge SearchSpeech Language

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

Microsoft SupportVirtual Agent

自然言語入力による自動応答サポート窓口

bull 過去QampAデータ解析に基づく回答抽出

bull 定型外はldquo人対応rdquo

UBER

登録ドライバーをスマホ経由で顔認証

VOLVO

表情からの危険予測

Search

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

アロバ様

監視カメラによる店舗内行動分析

bull 顔認識による 顧客識別

bull 表情分析

東京サマーランド様にて導入済み

HmComm様

コールセンターソリューション

bull 会話をテキスト化キーワードを解析

bull 過去QampA検索

bull 内容をCRM保存

Vision KnowledgeSpeech Language

導入事例東京サマーランド様

Video

Intelligent KioskhttpsgithubcomMicrosoftCognitive-Samples-IntelligentKiosk

ldquo(want to|request)rdquo

HoloLens

Page 44: やりたいことから考えるMicrosoft Azure 上の データストアの選び方とデータサイエンティスト向け活用法。KVSからDWHまで

全データ取込要件にかかわらず

全データ格納そのままのフォーマットでスキーマ定義なし

分析実行Hadoopのような分析エンジンの利用

インタラクティブクエリ

バッチ型クエリ

機械学習

データウェアハウス

リアルタイム分析

リレーショナル

デバイス

観察仮説集まったデータから仮説をたてる

58

無制限のサイズ

ギガバイトからペタバイトのサイズの単一ファイル

巨大なスループットを必要とする大規模な分析システムを実現

あらゆるスループットに自動最適化

ペタバイト超のデータの並列コンピューティング

同一リージョン内に3つのコピーを自動的に作成

インストールやチューニングは不要

数分で稼働開始

必要に応じてどのようなサイズにもスケールアウト可能

データウェアハウスデータレイクストア

非構造Rawデータ(ログ文書バイナリ)

Tier 1

MachineLearning

Data LakeAnalytics HDInsight

目的に合わせた

データウェハウス分析処理

(売上分析経営分析)

データウェハウスに格納しきれなかった

過去データ関連データを連結して分析

ハードウェアの性能限界によって行えなかった処理量の分析を実現

ディスクコンピューティング

非構造データの

分析処理

(画像音声映像など)

広範囲のデータを利用した

機械学習統計解析処理

などによる高度分析

SQL Data Warehouse

Data LakeAnalytics HDInsight

Data LakeAnalytics

構造化データ半構造データ

分析用に加工(csv等)

Tier 2

アーカイブデータTier 2 DWHのアーカイブ

Tier 3

Analytics

Storage

HDInsight(ldquomanaged clustersrdquo)

Azure Data Lake Analytics

Azure Data Lake Store

Azure Data Lake

LOB Applications

SocialDevices

Clickstream

Sensors

Video

Web

Relational

HDInsight

Data Lake Analytics

Machine Learning

Spark

R

Azure Data Lake Store

Azure Data Lake Store

Azure Storage Blob

外部表Azure SQLData Warehouse

HDInsight

開発者は OSS に馴染んでいる Java Eclipse Hive etc

マネージド Hadoop クラスタにおいてカスタマイズ管理が可能でフレキシビリティがある

Azure Data Lake Analytics

C SQL amp PowerShell のスキル

経験を活かせる

利便性効率性自動スケール

ジョブ実行の仕組みが提供される

(New)

(New)

一般的なパターン

処理読み込み 保存

INSERT

OUTPUT

OUTPUT

SELECThellip

FROMhellip

WHEREhellip

+

PythonR

EXTRACT

EXTRACT

SELECT

SELECT

Azure

Data

Lake

Azure

Data

Lake

Azure

SQL

DB

Azure

Storage

Blobs

Azure

Storage

Blobs

RowSet RowSet

Cognitive Services

REFERENCE ASSEMBLY WebLogExtASM

rs =

EXTRACT

UserID string

Start DateTime

End DateTime

Region string

SitesVisited string

PagesVisited string

FROM ldquoLogsWebLogRecordstxtrdquo

USING WebLogExtractor ()

result = SELECT UserID

(EndSubtract(Start))TotalSeconds AS Duration

FROM rs ORDER BY Duration DESC FETCH 10

OUTPUT result TO ldquoLogsResultstop10tsv

USING OutputterTsv()

bull 型定義は C の型定義と同じ

bull データをファイルから抽出読み込み

するときにスキーマが必要

Data Lake Store 内 のファイル

独自形式を解析するカスタム関数

C の関数

行セット(中間テーブルの概念

に近い)

TSV形式で書き込む関数

U-SQL ジョブのサブミットAzure PortalやVisual StudioのAzure Data Lake ToolsからU-SQLジョブをサブミット可能

67

進捗

統計情報

従来型の処理分析 Azure Data Lake を中心とした処理分析

Business apps

Custom apps

Sensors and devices

ADL StorePeople

非構造化データも含めてあらゆるデータを格納

Azure SQL DW

Azure AD

Power BI

ADF

ADL Analytics

bull 処理分析業務の大半はデータ準備作業が占めるbull 処理分析業務に手間時間が必要

Business apps

Custom apps

Sensors and devices

HDInsight

ユーザー管理認証

データの連携

Power BI

File System

Database

Database

Hadoop

DWH

Data Mart

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

①大量データの受け入れ

②リアルタイム処理データの集約

③データの蓄積

構造化非構造化文書など様々な形式での保存

④データの加工移行

⑥機械学習

⑦Hadoop解析

⑧マイクロソフト技術を用いた分散解析

⑨通常のRMSが機能を追加した企業向けRを使用した解析

⑪クラウドベースの Self-Service BI 機能

⑫機械学習の予測モデルを業務システムなどから呼び出し可能にするサービス

外部クラウドなどからのデータ取り込み

②リアルタイム処理データの加工

⑤ディープラーニング

⑩Excelを用いた可視化

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

リアルタイム

バッチ

Data Factory Tools for Visual Studio

Azure Portal

Azure TableStorage

(Web ログレコード)

Data Factory

HDInsight

(Web ログをファイルにして

バッチ処理で集計)

SQL Database

(集計データをDB テーブルに格納)

Power BI

社内システム

DataManagement

Gateway

SQL Database

Data Warehouse

Blob Storage

Table Storage

httpportalazurecom

接続

メッセージ作成

メッセージ送信

var cs = ldquo接続文字列rdquovar path = ldquoイベントハブ名rdquovar eh = EventHubClientCreateFromConnectionString(cs path)

var msg = new user = thisUserIdentityNamelevel = leveltimestamp = demoTimestamp

var json = JsonConvertSerializeObject(msg)

ehSend(new EventData(EncodingUTF8GetBytes(json)))

EventProcessorHostを使う

bull

bull

bull

Functionsを使う

bull

bull

IEventProcessorProcessEventAsync(msg)

IEventProcessorProcessEventAsync(msg)

Run(string msg)

Azure azure-sdk-for-python

Point of Service Devices

Self CheckoutStations

Kiosks

Smart Phones

SlatesTablets

PCsLaptops

Servers

Digital Signs

DiagnosticEquipmentRemote Medical

MonitorsLogic

Controllers

SpecializedDevicesThin

Clients

Handhelds

Security

POS Terminals

AutomationDevices

VendingMachines

Kinect

ATM

Stream Analytics

入力 出力クエリデータストリーム

参照

bull ldquo入力rdquoldquo出力rdquoをクリックしそれぞれ作成

bull ldquoクエリrdquoをクリックしクエリを定義bull 作業が終わったらldquo開始rdquoで実

行開始

SELECT

INTO

FROM

SELECT user level AS SATLevel timestamp

INTO

FROM

デバイス接続性とデバイス管理およびブローカーサービス

データ管理と高度な分析 情報活用業務の生産性とプロセスの最適化

IoT Agent Gateway

予兆原因の学習モデル

ダッシュボード

参照ERPbull 顧客bull 設備bull 担当者

Notification Hubs

通知

予兆イベント

メンテ方法の推奨

bull ヘルス状態bull インシデント管理bull 対応のディスパッチ

現地技術要員のモバイルデバイス

オペレーションセンター

bull イベント ドア開閉軸アライメントキャビン速度モーター温度など

bull アラーム 故障アラームエラーコードなど

httpisstkeazurewebsitesnet

Event Hub

Stream Analytics

Azure ML

制御機器とセンサーのデータ

マシンデータの蓄積

メンテナンス方法の学習モデル

Machine Learning

Blob Storage

セルフサービス分析

Power BI

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce

cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-

system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of

your data while making it faster to get up and running with

batch streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources

so you can run queries on exabytes of data Includes U-

SQL a new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully

managed NoSQL database service that indexes stores and

queries data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

What do all of these have in common

They can all use Azure Analysis Services

Azure Analysis Services

Azure Analysis Services

BI semantic model

Business logic amp metrics

Data modeling

Security

Azure Analysis Services

Lifecycle management

In-memory cache

On-premises

Cloud

Data sources

SQL Database

SQL Data Warehouse

Other data sources

SQL Server

Analytics platform

system

Other data sources

On-premises

Cloud

Client tools

Power BI

Excel

Third party BI tools

Power BI Desktop

Rich semantic modelling

locatioidentifier

identifiertype

fieldidentifier

numberofunitssoldtodate

remaningnumber

Numberofuntissoldtoday

receivedback

productidentifier

descriptionline1

descriptionline2

qtyafterqtysales

familyidentifier

Source DataComplex raw data optimized for processing

Semantic ModelRich business user friendly semantic model

Product Id

Product Name

Product Description

Category

Category Id

Category Name

Category Description

Sub Category

Product Id

Shelf qty

Return qty

Order qty

Sale qty

Cloud Data

On-Premises

Data

Azure Analysis Services

Lightning fast queries

データ管理をきっかけに処理を実行

Web Glue

Bots IoT

DOMINOS STORES

Key Vault

Azure Active Directory

Azure Files

SSIS FRANCHISEE

AZURE WEST EUROPE

Azure Function

KEMPSSDESSRS

IN- AND EXTERNAL DATA SOURCES

orderprocessing

O365

App Insights

indexhtml

Azure Functions Proxies

couponprocessing

Use Bindings in Your Codefunctionjson

bindings [type httpTriggerdirection inwebHookType genericJsonname req

type httpdirection outname res

type queuename eventOutputqueueName aievents1connectionAiStorageConnectiondirection out

]

public static class OrderHandler

[FunctionName(OrderWebhook)]public static async TaskltHttpResponseMessagegt Run(

[HttpTrigger] HttpRequestMessage req[Queue(aievents1 Connection = AiStorageConnection)]

IAsyncCollectorltStringgt eventOutputTraceWriter log)

logInfo($Webhook was triggered)

string jsonContent = await reqContentReadAsStringAsync()dynamic data = JsonConvertDeserializeObject(jsonContent)

await eventOutputAddAsync(JsonConvertSerializeObject(GetLogData(data)))

int orderId = PlaceOrder(data)

return reqCreateResponse(HttpStatusCodeOK new orderNumber = orderId )

bull Workflow in the cloud

bull Powerful control flow

bull Connect functions and APIs

bull Declarative definition to persist in source control and drive deployments

Logic AppsCloud APIs and platform

bull Supports over 125 built-in connectors

bull Scales to meet your needs

bull Enables rapid development

bull Extends with custom APIs and

Functions

API connections

bull Authenticate once and reuse

Big Data Solutions Decision Tree

httpsbiz-excellencecom20160830big-data-dt

Machine Learning Solutions Decision Tree

httpsbiz-excellencecom20160913machine-

learning-dt

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of your

data while making it faster to get up and running with batch

streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources so

you can run queries on exabytes of data Includes U-SQL a

new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully managed

NoSQL database service that indexes stores and queries

data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

Microsoft Big Data Portfolio

SQL Server Stretch

Business intelligence

Machine learning analytics

Insights

Azure SQL Database

SQL Server 2016

SQL Server 2016 Fast Track

Azure SQL DW

ADLS amp ADLA

DocumentDB

HDInsight

Hadoop

Analytics Platform System

Sequential Scale Out + AcrossScale Up

Key

Relational Non-relational

On

-pre

mis

es

Clo

ud

Microsoft has solutions covering

and connecting all four

quadrants ndash thatrsquos why SQL

Server is one of the most utilized

databases in the world

Azure

Data Lake Store

Azure

Blob StoragePurpose Optimized for big data analytics General purpose bulk storage

Use Cases Batch Interactive Streaming App backend backup data media storage for

streaming

Units of Storage Accounts Folders Files Accounts Containers Blobs

Structure Hierarchical File System Flat namespace

WebHDFS Implements WebHDFS No (WASB)

Security AD SAS keys

Storage Auto SharedFiles chunked Manually manage expansionFiles intact

Service State Generally Available PolyBase

just supported

Generally Available

Billing Pay for data stored and for IO Pay for data stored and for IO

Region Availability Two US regions (Other regions coming soon) All Azure Regions

ADL Store vs Blob Store

httpsdocsmicrosoftcomen-usazuredata-lake-storedata-lake-store-comparison-with-blob-storage

Want Hadoop

Need exact same on-prem

Need interactive streaming

MandatoryNo strong opinion

Azure Marketplace (IaaS)

bull Need all workloads exactly like on-

premises

bull Need 100 HortonworksClouderaMapR

Azure HDInsight

bull Most Hadoop workloads

bull Fully managed by Microsoft

bull Sell HDI + ADLS

bull Stickier to Microsoft than VMs

bull Can do interactive (Spark) and streaming

(StormSpark)

Azure Data Lake Analytics

bull Easiest experience for admin no sense of

clusters instant scale per job

bull Easiest experience for developers Visual

StudioU-SQL (C+SQL)

bull Sell ADLA + ADLS

bull Batch workloads only

Need everything exactly like on-prem

Need core projects Yes Batch is OK

Always present ADLA if NET or Visual Studio Shop

If NET or VS shop

Azure SQL DW HDInsight Hive HDInsight Spark Azure Data Lake SQL Server (IaaS)

Volume Petabytes Petabytes Petabytes Petabytes Terabytes

Security Encryption TD

Audit

ADLS Apache

Ranger

ADLS AAD Security

Groups (data)

Encryption TD

Audit

Languages T-SQL HiveQL SparkSQL HiveQL

Scala Java Python

R

U-SQL T-SQL

Extensibility No Yes NETSerDe Yes Packages Yes NET Yes NET CLR

External File

Types

ORC TXT

Parquet RCFile

ORC CSV Parquet

+ others

Parquet JSON

Hive + others

Many ORC TXT Parquet

RCFile

Admin Low-Medium Medium-High Medium-High Low High

Cost Model DWU Nodes amp VM Nodes amp VM UnitsJobs VM

Schema

Definition

Schema on Write

Polybase

Schema on Read Schema on Read Schema on Read Schema on Write

Polybase

Max DB Size 240TB Comp (5X

= 1PB)

Unlimited 64TB (64 1TB drives)

機械学習 Deep Learning 深層強化学習

画像解析

音声解析

データ分類異常検知 顧客グルーピング

数値予測売上予測 需要予測 品質管理

ラベル分類不良品分析 故障予測 チャーン分析

機械学習より強力な分析

自律学習型ロボット

自動運転車

テキストや画像等の自動生成

活用例

主に多層のニューラルネットワークを用いた手法での分析

分析のためには莫大なデータ量計算量知識スキルを要する

統計に基づいた手法での分析

そのため比較的少ないデータ量と計算量で分析を行うことができる

定義したあるべき姿に従い試行錯誤をして自ら学習を行うための分析手法である強化学習と深層学習を組み合わせた分析

Azure Machine Learning Cognitive Toolkit GPU Instance (N-Series)

マイクロソフトが提供する技術

テキストデータ機器のログデータなど

画像データ監視カメラの録画データ 機器の外観画像 顔画像など

動画データ監視カメラの録画データ 機器の稼働状況 人の作業映像など

音声データマイクからの収集データ 稼働音 室内音 人の音声など

数値データセンサーデータ 機器の制御データ計測データなど672342345

機械学習統計理論に基づいた分析手法を用いる用意するべきデータ量と処理する計算量の敷居が低め導入しやすい

Deep Learningデータ量が大きいため強力な分析手法が必要「膨大なデータ量を用意」「莫大な計算量を処理」が必要で敷居が非常に高い導入にはそれなりの覚悟が必要

Action

People

Automated Systems

Apps

Web

Mobile

Bots

Intelligence

Dashboards amp Visualizations

Cortana

Bot Framework

Cognitive Services

Power BI

Information Management

Event Hubs

Data Catalog

Data Factory

Machine Learning and Analytics

HDInsight

Stream Analytics

Intelligence

Data Lake Analytics

Machine Learning

Big Data Stores

SQL Data Warehouse

Data Lake Store

Data Sources

Apps

Sensors amp Devices

Data

Cortana Intelligence Suite

学習済み

モデル利用

学習モデル

作成

機械学習 教師あり学習

教師なし学習

強化学習

決定木

線形回帰

SVM

ロジスティック回帰

ニューラルネットワーク

クラスタリング

次元削減

Q学習

K-mean法

主成分分析

正準相関分析

ディープニューラルネットワーク

畳みこみニューラルネットワーク

再帰的ニューラルネットワーク

回帰結合ニューラルネットワーク

httpsazuremicrosoftcomen-usservicescognitive-services

わずか数行のコードで強力なアルゴリズムを持つアプリの作成が可能ですiOSAndroidWindows などのプラットフォームを問わず機能します

httpsazuremicrosoftcomja-jpservicesmachine-learning

ユーザーは簡単に予測分析ソリューションを構築デプロイ共有できます

httpswwwyoutubecomwatchv=9gDDO5ldT-4ampfeature=youtube

AI技術を利用したディープラーニング(深層学習)ツールキットです旧称「CNTK」から改名されました

ソースコード httpsgithubcomMicrosoftCNTK

SearchSpeech

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

コカコーラ誕生100周年キャンペーン

コカコーラボトルを「100歳」と認識

bull 自撮り写真をUp結果をSNS拡散

ナビタイムジャパン様

自然言語入力による路線検索BOT

bull ユーザーとの新たな接点(LINE)

bull 自然言語入力

Vision Language Knowledge

Vision Knowledge SearchSpeech Language

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

Microsoft SupportVirtual Agent

自然言語入力による自動応答サポート窓口

bull 過去QampAデータ解析に基づく回答抽出

bull 定型外はldquo人対応rdquo

UBER

登録ドライバーをスマホ経由で顔認証

VOLVO

表情からの危険予測

Search

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

アロバ様

監視カメラによる店舗内行動分析

bull 顔認識による 顧客識別

bull 表情分析

東京サマーランド様にて導入済み

HmComm様

コールセンターソリューション

bull 会話をテキスト化キーワードを解析

bull 過去QampA検索

bull 内容をCRM保存

Vision KnowledgeSpeech Language

導入事例東京サマーランド様

Video

Intelligent KioskhttpsgithubcomMicrosoftCognitive-Samples-IntelligentKiosk

ldquo(want to|request)rdquo

HoloLens

Page 45: やりたいことから考えるMicrosoft Azure 上の データストアの選び方とデータサイエンティスト向け活用法。KVSからDWHまで

58

無制限のサイズ

ギガバイトからペタバイトのサイズの単一ファイル

巨大なスループットを必要とする大規模な分析システムを実現

あらゆるスループットに自動最適化

ペタバイト超のデータの並列コンピューティング

同一リージョン内に3つのコピーを自動的に作成

インストールやチューニングは不要

数分で稼働開始

必要に応じてどのようなサイズにもスケールアウト可能

データウェアハウスデータレイクストア

非構造Rawデータ(ログ文書バイナリ)

Tier 1

MachineLearning

Data LakeAnalytics HDInsight

目的に合わせた

データウェハウス分析処理

(売上分析経営分析)

データウェハウスに格納しきれなかった

過去データ関連データを連結して分析

ハードウェアの性能限界によって行えなかった処理量の分析を実現

ディスクコンピューティング

非構造データの

分析処理

(画像音声映像など)

広範囲のデータを利用した

機械学習統計解析処理

などによる高度分析

SQL Data Warehouse

Data LakeAnalytics HDInsight

Data LakeAnalytics

構造化データ半構造データ

分析用に加工(csv等)

Tier 2

アーカイブデータTier 2 DWHのアーカイブ

Tier 3

Analytics

Storage

HDInsight(ldquomanaged clustersrdquo)

Azure Data Lake Analytics

Azure Data Lake Store

Azure Data Lake

LOB Applications

SocialDevices

Clickstream

Sensors

Video

Web

Relational

HDInsight

Data Lake Analytics

Machine Learning

Spark

R

Azure Data Lake Store

Azure Data Lake Store

Azure Storage Blob

外部表Azure SQLData Warehouse

HDInsight

開発者は OSS に馴染んでいる Java Eclipse Hive etc

マネージド Hadoop クラスタにおいてカスタマイズ管理が可能でフレキシビリティがある

Azure Data Lake Analytics

C SQL amp PowerShell のスキル

経験を活かせる

利便性効率性自動スケール

ジョブ実行の仕組みが提供される

(New)

(New)

一般的なパターン

処理読み込み 保存

INSERT

OUTPUT

OUTPUT

SELECThellip

FROMhellip

WHEREhellip

+

PythonR

EXTRACT

EXTRACT

SELECT

SELECT

Azure

Data

Lake

Azure

Data

Lake

Azure

SQL

DB

Azure

Storage

Blobs

Azure

Storage

Blobs

RowSet RowSet

Cognitive Services

REFERENCE ASSEMBLY WebLogExtASM

rs =

EXTRACT

UserID string

Start DateTime

End DateTime

Region string

SitesVisited string

PagesVisited string

FROM ldquoLogsWebLogRecordstxtrdquo

USING WebLogExtractor ()

result = SELECT UserID

(EndSubtract(Start))TotalSeconds AS Duration

FROM rs ORDER BY Duration DESC FETCH 10

OUTPUT result TO ldquoLogsResultstop10tsv

USING OutputterTsv()

bull 型定義は C の型定義と同じ

bull データをファイルから抽出読み込み

するときにスキーマが必要

Data Lake Store 内 のファイル

独自形式を解析するカスタム関数

C の関数

行セット(中間テーブルの概念

に近い)

TSV形式で書き込む関数

U-SQL ジョブのサブミットAzure PortalやVisual StudioのAzure Data Lake ToolsからU-SQLジョブをサブミット可能

67

進捗

統計情報

従来型の処理分析 Azure Data Lake を中心とした処理分析

Business apps

Custom apps

Sensors and devices

ADL StorePeople

非構造化データも含めてあらゆるデータを格納

Azure SQL DW

Azure AD

Power BI

ADF

ADL Analytics

bull 処理分析業務の大半はデータ準備作業が占めるbull 処理分析業務に手間時間が必要

Business apps

Custom apps

Sensors and devices

HDInsight

ユーザー管理認証

データの連携

Power BI

File System

Database

Database

Hadoop

DWH

Data Mart

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

①大量データの受け入れ

②リアルタイム処理データの集約

③データの蓄積

構造化非構造化文書など様々な形式での保存

④データの加工移行

⑥機械学習

⑦Hadoop解析

⑧マイクロソフト技術を用いた分散解析

⑨通常のRMSが機能を追加した企業向けRを使用した解析

⑪クラウドベースの Self-Service BI 機能

⑫機械学習の予測モデルを業務システムなどから呼び出し可能にするサービス

外部クラウドなどからのデータ取り込み

②リアルタイム処理データの加工

⑤ディープラーニング

⑩Excelを用いた可視化

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

リアルタイム

バッチ

Data Factory Tools for Visual Studio

Azure Portal

Azure TableStorage

(Web ログレコード)

Data Factory

HDInsight

(Web ログをファイルにして

バッチ処理で集計)

SQL Database

(集計データをDB テーブルに格納)

Power BI

社内システム

DataManagement

Gateway

SQL Database

Data Warehouse

Blob Storage

Table Storage

httpportalazurecom

接続

メッセージ作成

メッセージ送信

var cs = ldquo接続文字列rdquovar path = ldquoイベントハブ名rdquovar eh = EventHubClientCreateFromConnectionString(cs path)

var msg = new user = thisUserIdentityNamelevel = leveltimestamp = demoTimestamp

var json = JsonConvertSerializeObject(msg)

ehSend(new EventData(EncodingUTF8GetBytes(json)))

EventProcessorHostを使う

bull

bull

bull

Functionsを使う

bull

bull

IEventProcessorProcessEventAsync(msg)

IEventProcessorProcessEventAsync(msg)

Run(string msg)

Azure azure-sdk-for-python

Point of Service Devices

Self CheckoutStations

Kiosks

Smart Phones

SlatesTablets

PCsLaptops

Servers

Digital Signs

DiagnosticEquipmentRemote Medical

MonitorsLogic

Controllers

SpecializedDevicesThin

Clients

Handhelds

Security

POS Terminals

AutomationDevices

VendingMachines

Kinect

ATM

Stream Analytics

入力 出力クエリデータストリーム

参照

bull ldquo入力rdquoldquo出力rdquoをクリックしそれぞれ作成

bull ldquoクエリrdquoをクリックしクエリを定義bull 作業が終わったらldquo開始rdquoで実

行開始

SELECT

INTO

FROM

SELECT user level AS SATLevel timestamp

INTO

FROM

デバイス接続性とデバイス管理およびブローカーサービス

データ管理と高度な分析 情報活用業務の生産性とプロセスの最適化

IoT Agent Gateway

予兆原因の学習モデル

ダッシュボード

参照ERPbull 顧客bull 設備bull 担当者

Notification Hubs

通知

予兆イベント

メンテ方法の推奨

bull ヘルス状態bull インシデント管理bull 対応のディスパッチ

現地技術要員のモバイルデバイス

オペレーションセンター

bull イベント ドア開閉軸アライメントキャビン速度モーター温度など

bull アラーム 故障アラームエラーコードなど

httpisstkeazurewebsitesnet

Event Hub

Stream Analytics

Azure ML

制御機器とセンサーのデータ

マシンデータの蓄積

メンテナンス方法の学習モデル

Machine Learning

Blob Storage

セルフサービス分析

Power BI

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce

cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-

system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of

your data while making it faster to get up and running with

batch streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources

so you can run queries on exabytes of data Includes U-

SQL a new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully

managed NoSQL database service that indexes stores and

queries data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

What do all of these have in common

They can all use Azure Analysis Services

Azure Analysis Services

Azure Analysis Services

BI semantic model

Business logic amp metrics

Data modeling

Security

Azure Analysis Services

Lifecycle management

In-memory cache

On-premises

Cloud

Data sources

SQL Database

SQL Data Warehouse

Other data sources

SQL Server

Analytics platform

system

Other data sources

On-premises

Cloud

Client tools

Power BI

Excel

Third party BI tools

Power BI Desktop

Rich semantic modelling

locatioidentifier

identifiertype

fieldidentifier

numberofunitssoldtodate

remaningnumber

Numberofuntissoldtoday

receivedback

productidentifier

descriptionline1

descriptionline2

qtyafterqtysales

familyidentifier

Source DataComplex raw data optimized for processing

Semantic ModelRich business user friendly semantic model

Product Id

Product Name

Product Description

Category

Category Id

Category Name

Category Description

Sub Category

Product Id

Shelf qty

Return qty

Order qty

Sale qty

Cloud Data

On-Premises

Data

Azure Analysis Services

Lightning fast queries

データ管理をきっかけに処理を実行

Web Glue

Bots IoT

DOMINOS STORES

Key Vault

Azure Active Directory

Azure Files

SSIS FRANCHISEE

AZURE WEST EUROPE

Azure Function

KEMPSSDESSRS

IN- AND EXTERNAL DATA SOURCES

orderprocessing

O365

App Insights

indexhtml

Azure Functions Proxies

couponprocessing

Use Bindings in Your Codefunctionjson

bindings [type httpTriggerdirection inwebHookType genericJsonname req

type httpdirection outname res

type queuename eventOutputqueueName aievents1connectionAiStorageConnectiondirection out

]

public static class OrderHandler

[FunctionName(OrderWebhook)]public static async TaskltHttpResponseMessagegt Run(

[HttpTrigger] HttpRequestMessage req[Queue(aievents1 Connection = AiStorageConnection)]

IAsyncCollectorltStringgt eventOutputTraceWriter log)

logInfo($Webhook was triggered)

string jsonContent = await reqContentReadAsStringAsync()dynamic data = JsonConvertDeserializeObject(jsonContent)

await eventOutputAddAsync(JsonConvertSerializeObject(GetLogData(data)))

int orderId = PlaceOrder(data)

return reqCreateResponse(HttpStatusCodeOK new orderNumber = orderId )

bull Workflow in the cloud

bull Powerful control flow

bull Connect functions and APIs

bull Declarative definition to persist in source control and drive deployments

Logic AppsCloud APIs and platform

bull Supports over 125 built-in connectors

bull Scales to meet your needs

bull Enables rapid development

bull Extends with custom APIs and

Functions

API connections

bull Authenticate once and reuse

Big Data Solutions Decision Tree

httpsbiz-excellencecom20160830big-data-dt

Machine Learning Solutions Decision Tree

httpsbiz-excellencecom20160913machine-

learning-dt

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of your

data while making it faster to get up and running with batch

streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources so

you can run queries on exabytes of data Includes U-SQL a

new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully managed

NoSQL database service that indexes stores and queries

data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

Microsoft Big Data Portfolio

SQL Server Stretch

Business intelligence

Machine learning analytics

Insights

Azure SQL Database

SQL Server 2016

SQL Server 2016 Fast Track

Azure SQL DW

ADLS amp ADLA

DocumentDB

HDInsight

Hadoop

Analytics Platform System

Sequential Scale Out + AcrossScale Up

Key

Relational Non-relational

On

-pre

mis

es

Clo

ud

Microsoft has solutions covering

and connecting all four

quadrants ndash thatrsquos why SQL

Server is one of the most utilized

databases in the world

Azure

Data Lake Store

Azure

Blob StoragePurpose Optimized for big data analytics General purpose bulk storage

Use Cases Batch Interactive Streaming App backend backup data media storage for

streaming

Units of Storage Accounts Folders Files Accounts Containers Blobs

Structure Hierarchical File System Flat namespace

WebHDFS Implements WebHDFS No (WASB)

Security AD SAS keys

Storage Auto SharedFiles chunked Manually manage expansionFiles intact

Service State Generally Available PolyBase

just supported

Generally Available

Billing Pay for data stored and for IO Pay for data stored and for IO

Region Availability Two US regions (Other regions coming soon) All Azure Regions

ADL Store vs Blob Store

httpsdocsmicrosoftcomen-usazuredata-lake-storedata-lake-store-comparison-with-blob-storage

Want Hadoop

Need exact same on-prem

Need interactive streaming

MandatoryNo strong opinion

Azure Marketplace (IaaS)

bull Need all workloads exactly like on-

premises

bull Need 100 HortonworksClouderaMapR

Azure HDInsight

bull Most Hadoop workloads

bull Fully managed by Microsoft

bull Sell HDI + ADLS

bull Stickier to Microsoft than VMs

bull Can do interactive (Spark) and streaming

(StormSpark)

Azure Data Lake Analytics

bull Easiest experience for admin no sense of

clusters instant scale per job

bull Easiest experience for developers Visual

StudioU-SQL (C+SQL)

bull Sell ADLA + ADLS

bull Batch workloads only

Need everything exactly like on-prem

Need core projects Yes Batch is OK

Always present ADLA if NET or Visual Studio Shop

If NET or VS shop

Azure SQL DW HDInsight Hive HDInsight Spark Azure Data Lake SQL Server (IaaS)

Volume Petabytes Petabytes Petabytes Petabytes Terabytes

Security Encryption TD

Audit

ADLS Apache

Ranger

ADLS AAD Security

Groups (data)

Encryption TD

Audit

Languages T-SQL HiveQL SparkSQL HiveQL

Scala Java Python

R

U-SQL T-SQL

Extensibility No Yes NETSerDe Yes Packages Yes NET Yes NET CLR

External File

Types

ORC TXT

Parquet RCFile

ORC CSV Parquet

+ others

Parquet JSON

Hive + others

Many ORC TXT Parquet

RCFile

Admin Low-Medium Medium-High Medium-High Low High

Cost Model DWU Nodes amp VM Nodes amp VM UnitsJobs VM

Schema

Definition

Schema on Write

Polybase

Schema on Read Schema on Read Schema on Read Schema on Write

Polybase

Max DB Size 240TB Comp (5X

= 1PB)

Unlimited 64TB (64 1TB drives)

機械学習 Deep Learning 深層強化学習

画像解析

音声解析

データ分類異常検知 顧客グルーピング

数値予測売上予測 需要予測 品質管理

ラベル分類不良品分析 故障予測 チャーン分析

機械学習より強力な分析

自律学習型ロボット

自動運転車

テキストや画像等の自動生成

活用例

主に多層のニューラルネットワークを用いた手法での分析

分析のためには莫大なデータ量計算量知識スキルを要する

統計に基づいた手法での分析

そのため比較的少ないデータ量と計算量で分析を行うことができる

定義したあるべき姿に従い試行錯誤をして自ら学習を行うための分析手法である強化学習と深層学習を組み合わせた分析

Azure Machine Learning Cognitive Toolkit GPU Instance (N-Series)

マイクロソフトが提供する技術

テキストデータ機器のログデータなど

画像データ監視カメラの録画データ 機器の外観画像 顔画像など

動画データ監視カメラの録画データ 機器の稼働状況 人の作業映像など

音声データマイクからの収集データ 稼働音 室内音 人の音声など

数値データセンサーデータ 機器の制御データ計測データなど672342345

機械学習統計理論に基づいた分析手法を用いる用意するべきデータ量と処理する計算量の敷居が低め導入しやすい

Deep Learningデータ量が大きいため強力な分析手法が必要「膨大なデータ量を用意」「莫大な計算量を処理」が必要で敷居が非常に高い導入にはそれなりの覚悟が必要

Action

People

Automated Systems

Apps

Web

Mobile

Bots

Intelligence

Dashboards amp Visualizations

Cortana

Bot Framework

Cognitive Services

Power BI

Information Management

Event Hubs

Data Catalog

Data Factory

Machine Learning and Analytics

HDInsight

Stream Analytics

Intelligence

Data Lake Analytics

Machine Learning

Big Data Stores

SQL Data Warehouse

Data Lake Store

Data Sources

Apps

Sensors amp Devices

Data

Cortana Intelligence Suite

学習済み

モデル利用

学習モデル

作成

機械学習 教師あり学習

教師なし学習

強化学習

決定木

線形回帰

SVM

ロジスティック回帰

ニューラルネットワーク

クラスタリング

次元削減

Q学習

K-mean法

主成分分析

正準相関分析

ディープニューラルネットワーク

畳みこみニューラルネットワーク

再帰的ニューラルネットワーク

回帰結合ニューラルネットワーク

httpsazuremicrosoftcomen-usservicescognitive-services

わずか数行のコードで強力なアルゴリズムを持つアプリの作成が可能ですiOSAndroidWindows などのプラットフォームを問わず機能します

httpsazuremicrosoftcomja-jpservicesmachine-learning

ユーザーは簡単に予測分析ソリューションを構築デプロイ共有できます

httpswwwyoutubecomwatchv=9gDDO5ldT-4ampfeature=youtube

AI技術を利用したディープラーニング(深層学習)ツールキットです旧称「CNTK」から改名されました

ソースコード httpsgithubcomMicrosoftCNTK

SearchSpeech

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

コカコーラ誕生100周年キャンペーン

コカコーラボトルを「100歳」と認識

bull 自撮り写真をUp結果をSNS拡散

ナビタイムジャパン様

自然言語入力による路線検索BOT

bull ユーザーとの新たな接点(LINE)

bull 自然言語入力

Vision Language Knowledge

Vision Knowledge SearchSpeech Language

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

Microsoft SupportVirtual Agent

自然言語入力による自動応答サポート窓口

bull 過去QampAデータ解析に基づく回答抽出

bull 定型外はldquo人対応rdquo

UBER

登録ドライバーをスマホ経由で顔認証

VOLVO

表情からの危険予測

Search

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

アロバ様

監視カメラによる店舗内行動分析

bull 顔認識による 顧客識別

bull 表情分析

東京サマーランド様にて導入済み

HmComm様

コールセンターソリューション

bull 会話をテキスト化キーワードを解析

bull 過去QampA検索

bull 内容をCRM保存

Vision KnowledgeSpeech Language

導入事例東京サマーランド様

Video

Intelligent KioskhttpsgithubcomMicrosoftCognitive-Samples-IntelligentKiosk

ldquo(want to|request)rdquo

HoloLens

Page 46: やりたいことから考えるMicrosoft Azure 上の データストアの選び方とデータサイエンティスト向け活用法。KVSからDWHまで

データウェアハウスデータレイクストア

非構造Rawデータ(ログ文書バイナリ)

Tier 1

MachineLearning

Data LakeAnalytics HDInsight

目的に合わせた

データウェハウス分析処理

(売上分析経営分析)

データウェハウスに格納しきれなかった

過去データ関連データを連結して分析

ハードウェアの性能限界によって行えなかった処理量の分析を実現

ディスクコンピューティング

非構造データの

分析処理

(画像音声映像など)

広範囲のデータを利用した

機械学習統計解析処理

などによる高度分析

SQL Data Warehouse

Data LakeAnalytics HDInsight

Data LakeAnalytics

構造化データ半構造データ

分析用に加工(csv等)

Tier 2

アーカイブデータTier 2 DWHのアーカイブ

Tier 3

Analytics

Storage

HDInsight(ldquomanaged clustersrdquo)

Azure Data Lake Analytics

Azure Data Lake Store

Azure Data Lake

LOB Applications

SocialDevices

Clickstream

Sensors

Video

Web

Relational

HDInsight

Data Lake Analytics

Machine Learning

Spark

R

Azure Data Lake Store

Azure Data Lake Store

Azure Storage Blob

外部表Azure SQLData Warehouse

HDInsight

開発者は OSS に馴染んでいる Java Eclipse Hive etc

マネージド Hadoop クラスタにおいてカスタマイズ管理が可能でフレキシビリティがある

Azure Data Lake Analytics

C SQL amp PowerShell のスキル

経験を活かせる

利便性効率性自動スケール

ジョブ実行の仕組みが提供される

(New)

(New)

一般的なパターン

処理読み込み 保存

INSERT

OUTPUT

OUTPUT

SELECThellip

FROMhellip

WHEREhellip

+

PythonR

EXTRACT

EXTRACT

SELECT

SELECT

Azure

Data

Lake

Azure

Data

Lake

Azure

SQL

DB

Azure

Storage

Blobs

Azure

Storage

Blobs

RowSet RowSet

Cognitive Services

REFERENCE ASSEMBLY WebLogExtASM

rs =

EXTRACT

UserID string

Start DateTime

End DateTime

Region string

SitesVisited string

PagesVisited string

FROM ldquoLogsWebLogRecordstxtrdquo

USING WebLogExtractor ()

result = SELECT UserID

(EndSubtract(Start))TotalSeconds AS Duration

FROM rs ORDER BY Duration DESC FETCH 10

OUTPUT result TO ldquoLogsResultstop10tsv

USING OutputterTsv()

bull 型定義は C の型定義と同じ

bull データをファイルから抽出読み込み

するときにスキーマが必要

Data Lake Store 内 のファイル

独自形式を解析するカスタム関数

C の関数

行セット(中間テーブルの概念

に近い)

TSV形式で書き込む関数

U-SQL ジョブのサブミットAzure PortalやVisual StudioのAzure Data Lake ToolsからU-SQLジョブをサブミット可能

67

進捗

統計情報

従来型の処理分析 Azure Data Lake を中心とした処理分析

Business apps

Custom apps

Sensors and devices

ADL StorePeople

非構造化データも含めてあらゆるデータを格納

Azure SQL DW

Azure AD

Power BI

ADF

ADL Analytics

bull 処理分析業務の大半はデータ準備作業が占めるbull 処理分析業務に手間時間が必要

Business apps

Custom apps

Sensors and devices

HDInsight

ユーザー管理認証

データの連携

Power BI

File System

Database

Database

Hadoop

DWH

Data Mart

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

①大量データの受け入れ

②リアルタイム処理データの集約

③データの蓄積

構造化非構造化文書など様々な形式での保存

④データの加工移行

⑥機械学習

⑦Hadoop解析

⑧マイクロソフト技術を用いた分散解析

⑨通常のRMSが機能を追加した企業向けRを使用した解析

⑪クラウドベースの Self-Service BI 機能

⑫機械学習の予測モデルを業務システムなどから呼び出し可能にするサービス

外部クラウドなどからのデータ取り込み

②リアルタイム処理データの加工

⑤ディープラーニング

⑩Excelを用いた可視化

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

リアルタイム

バッチ

Data Factory Tools for Visual Studio

Azure Portal

Azure TableStorage

(Web ログレコード)

Data Factory

HDInsight

(Web ログをファイルにして

バッチ処理で集計)

SQL Database

(集計データをDB テーブルに格納)

Power BI

社内システム

DataManagement

Gateway

SQL Database

Data Warehouse

Blob Storage

Table Storage

httpportalazurecom

接続

メッセージ作成

メッセージ送信

var cs = ldquo接続文字列rdquovar path = ldquoイベントハブ名rdquovar eh = EventHubClientCreateFromConnectionString(cs path)

var msg = new user = thisUserIdentityNamelevel = leveltimestamp = demoTimestamp

var json = JsonConvertSerializeObject(msg)

ehSend(new EventData(EncodingUTF8GetBytes(json)))

EventProcessorHostを使う

bull

bull

bull

Functionsを使う

bull

bull

IEventProcessorProcessEventAsync(msg)

IEventProcessorProcessEventAsync(msg)

Run(string msg)

Azure azure-sdk-for-python

Point of Service Devices

Self CheckoutStations

Kiosks

Smart Phones

SlatesTablets

PCsLaptops

Servers

Digital Signs

DiagnosticEquipmentRemote Medical

MonitorsLogic

Controllers

SpecializedDevicesThin

Clients

Handhelds

Security

POS Terminals

AutomationDevices

VendingMachines

Kinect

ATM

Stream Analytics

入力 出力クエリデータストリーム

参照

bull ldquo入力rdquoldquo出力rdquoをクリックしそれぞれ作成

bull ldquoクエリrdquoをクリックしクエリを定義bull 作業が終わったらldquo開始rdquoで実

行開始

SELECT

INTO

FROM

SELECT user level AS SATLevel timestamp

INTO

FROM

デバイス接続性とデバイス管理およびブローカーサービス

データ管理と高度な分析 情報活用業務の生産性とプロセスの最適化

IoT Agent Gateway

予兆原因の学習モデル

ダッシュボード

参照ERPbull 顧客bull 設備bull 担当者

Notification Hubs

通知

予兆イベント

メンテ方法の推奨

bull ヘルス状態bull インシデント管理bull 対応のディスパッチ

現地技術要員のモバイルデバイス

オペレーションセンター

bull イベント ドア開閉軸アライメントキャビン速度モーター温度など

bull アラーム 故障アラームエラーコードなど

httpisstkeazurewebsitesnet

Event Hub

Stream Analytics

Azure ML

制御機器とセンサーのデータ

マシンデータの蓄積

メンテナンス方法の学習モデル

Machine Learning

Blob Storage

セルフサービス分析

Power BI

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce

cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-

system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of

your data while making it faster to get up and running with

batch streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources

so you can run queries on exabytes of data Includes U-

SQL a new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully

managed NoSQL database service that indexes stores and

queries data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

What do all of these have in common

They can all use Azure Analysis Services

Azure Analysis Services

Azure Analysis Services

BI semantic model

Business logic amp metrics

Data modeling

Security

Azure Analysis Services

Lifecycle management

In-memory cache

On-premises

Cloud

Data sources

SQL Database

SQL Data Warehouse

Other data sources

SQL Server

Analytics platform

system

Other data sources

On-premises

Cloud

Client tools

Power BI

Excel

Third party BI tools

Power BI Desktop

Rich semantic modelling

locatioidentifier

identifiertype

fieldidentifier

numberofunitssoldtodate

remaningnumber

Numberofuntissoldtoday

receivedback

productidentifier

descriptionline1

descriptionline2

qtyafterqtysales

familyidentifier

Source DataComplex raw data optimized for processing

Semantic ModelRich business user friendly semantic model

Product Id

Product Name

Product Description

Category

Category Id

Category Name

Category Description

Sub Category

Product Id

Shelf qty

Return qty

Order qty

Sale qty

Cloud Data

On-Premises

Data

Azure Analysis Services

Lightning fast queries

データ管理をきっかけに処理を実行

Web Glue

Bots IoT

DOMINOS STORES

Key Vault

Azure Active Directory

Azure Files

SSIS FRANCHISEE

AZURE WEST EUROPE

Azure Function

KEMPSSDESSRS

IN- AND EXTERNAL DATA SOURCES

orderprocessing

O365

App Insights

indexhtml

Azure Functions Proxies

couponprocessing

Use Bindings in Your Codefunctionjson

bindings [type httpTriggerdirection inwebHookType genericJsonname req

type httpdirection outname res

type queuename eventOutputqueueName aievents1connectionAiStorageConnectiondirection out

]

public static class OrderHandler

[FunctionName(OrderWebhook)]public static async TaskltHttpResponseMessagegt Run(

[HttpTrigger] HttpRequestMessage req[Queue(aievents1 Connection = AiStorageConnection)]

IAsyncCollectorltStringgt eventOutputTraceWriter log)

logInfo($Webhook was triggered)

string jsonContent = await reqContentReadAsStringAsync()dynamic data = JsonConvertDeserializeObject(jsonContent)

await eventOutputAddAsync(JsonConvertSerializeObject(GetLogData(data)))

int orderId = PlaceOrder(data)

return reqCreateResponse(HttpStatusCodeOK new orderNumber = orderId )

bull Workflow in the cloud

bull Powerful control flow

bull Connect functions and APIs

bull Declarative definition to persist in source control and drive deployments

Logic AppsCloud APIs and platform

bull Supports over 125 built-in connectors

bull Scales to meet your needs

bull Enables rapid development

bull Extends with custom APIs and

Functions

API connections

bull Authenticate once and reuse

Big Data Solutions Decision Tree

httpsbiz-excellencecom20160830big-data-dt

Machine Learning Solutions Decision Tree

httpsbiz-excellencecom20160913machine-

learning-dt

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of your

data while making it faster to get up and running with batch

streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources so

you can run queries on exabytes of data Includes U-SQL a

new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully managed

NoSQL database service that indexes stores and queries

data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

Microsoft Big Data Portfolio

SQL Server Stretch

Business intelligence

Machine learning analytics

Insights

Azure SQL Database

SQL Server 2016

SQL Server 2016 Fast Track

Azure SQL DW

ADLS amp ADLA

DocumentDB

HDInsight

Hadoop

Analytics Platform System

Sequential Scale Out + AcrossScale Up

Key

Relational Non-relational

On

-pre

mis

es

Clo

ud

Microsoft has solutions covering

and connecting all four

quadrants ndash thatrsquos why SQL

Server is one of the most utilized

databases in the world

Azure

Data Lake Store

Azure

Blob StoragePurpose Optimized for big data analytics General purpose bulk storage

Use Cases Batch Interactive Streaming App backend backup data media storage for

streaming

Units of Storage Accounts Folders Files Accounts Containers Blobs

Structure Hierarchical File System Flat namespace

WebHDFS Implements WebHDFS No (WASB)

Security AD SAS keys

Storage Auto SharedFiles chunked Manually manage expansionFiles intact

Service State Generally Available PolyBase

just supported

Generally Available

Billing Pay for data stored and for IO Pay for data stored and for IO

Region Availability Two US regions (Other regions coming soon) All Azure Regions

ADL Store vs Blob Store

httpsdocsmicrosoftcomen-usazuredata-lake-storedata-lake-store-comparison-with-blob-storage

Want Hadoop

Need exact same on-prem

Need interactive streaming

MandatoryNo strong opinion

Azure Marketplace (IaaS)

bull Need all workloads exactly like on-

premises

bull Need 100 HortonworksClouderaMapR

Azure HDInsight

bull Most Hadoop workloads

bull Fully managed by Microsoft

bull Sell HDI + ADLS

bull Stickier to Microsoft than VMs

bull Can do interactive (Spark) and streaming

(StormSpark)

Azure Data Lake Analytics

bull Easiest experience for admin no sense of

clusters instant scale per job

bull Easiest experience for developers Visual

StudioU-SQL (C+SQL)

bull Sell ADLA + ADLS

bull Batch workloads only

Need everything exactly like on-prem

Need core projects Yes Batch is OK

Always present ADLA if NET or Visual Studio Shop

If NET or VS shop

Azure SQL DW HDInsight Hive HDInsight Spark Azure Data Lake SQL Server (IaaS)

Volume Petabytes Petabytes Petabytes Petabytes Terabytes

Security Encryption TD

Audit

ADLS Apache

Ranger

ADLS AAD Security

Groups (data)

Encryption TD

Audit

Languages T-SQL HiveQL SparkSQL HiveQL

Scala Java Python

R

U-SQL T-SQL

Extensibility No Yes NETSerDe Yes Packages Yes NET Yes NET CLR

External File

Types

ORC TXT

Parquet RCFile

ORC CSV Parquet

+ others

Parquet JSON

Hive + others

Many ORC TXT Parquet

RCFile

Admin Low-Medium Medium-High Medium-High Low High

Cost Model DWU Nodes amp VM Nodes amp VM UnitsJobs VM

Schema

Definition

Schema on Write

Polybase

Schema on Read Schema on Read Schema on Read Schema on Write

Polybase

Max DB Size 240TB Comp (5X

= 1PB)

Unlimited 64TB (64 1TB drives)

機械学習 Deep Learning 深層強化学習

画像解析

音声解析

データ分類異常検知 顧客グルーピング

数値予測売上予測 需要予測 品質管理

ラベル分類不良品分析 故障予測 チャーン分析

機械学習より強力な分析

自律学習型ロボット

自動運転車

テキストや画像等の自動生成

活用例

主に多層のニューラルネットワークを用いた手法での分析

分析のためには莫大なデータ量計算量知識スキルを要する

統計に基づいた手法での分析

そのため比較的少ないデータ量と計算量で分析を行うことができる

定義したあるべき姿に従い試行錯誤をして自ら学習を行うための分析手法である強化学習と深層学習を組み合わせた分析

Azure Machine Learning Cognitive Toolkit GPU Instance (N-Series)

マイクロソフトが提供する技術

テキストデータ機器のログデータなど

画像データ監視カメラの録画データ 機器の外観画像 顔画像など

動画データ監視カメラの録画データ 機器の稼働状況 人の作業映像など

音声データマイクからの収集データ 稼働音 室内音 人の音声など

数値データセンサーデータ 機器の制御データ計測データなど672342345

機械学習統計理論に基づいた分析手法を用いる用意するべきデータ量と処理する計算量の敷居が低め導入しやすい

Deep Learningデータ量が大きいため強力な分析手法が必要「膨大なデータ量を用意」「莫大な計算量を処理」が必要で敷居が非常に高い導入にはそれなりの覚悟が必要

Action

People

Automated Systems

Apps

Web

Mobile

Bots

Intelligence

Dashboards amp Visualizations

Cortana

Bot Framework

Cognitive Services

Power BI

Information Management

Event Hubs

Data Catalog

Data Factory

Machine Learning and Analytics

HDInsight

Stream Analytics

Intelligence

Data Lake Analytics

Machine Learning

Big Data Stores

SQL Data Warehouse

Data Lake Store

Data Sources

Apps

Sensors amp Devices

Data

Cortana Intelligence Suite

学習済み

モデル利用

学習モデル

作成

機械学習 教師あり学習

教師なし学習

強化学習

決定木

線形回帰

SVM

ロジスティック回帰

ニューラルネットワーク

クラスタリング

次元削減

Q学習

K-mean法

主成分分析

正準相関分析

ディープニューラルネットワーク

畳みこみニューラルネットワーク

再帰的ニューラルネットワーク

回帰結合ニューラルネットワーク

httpsazuremicrosoftcomen-usservicescognitive-services

わずか数行のコードで強力なアルゴリズムを持つアプリの作成が可能ですiOSAndroidWindows などのプラットフォームを問わず機能します

httpsazuremicrosoftcomja-jpservicesmachine-learning

ユーザーは簡単に予測分析ソリューションを構築デプロイ共有できます

httpswwwyoutubecomwatchv=9gDDO5ldT-4ampfeature=youtube

AI技術を利用したディープラーニング(深層学習)ツールキットです旧称「CNTK」から改名されました

ソースコード httpsgithubcomMicrosoftCNTK

SearchSpeech

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

コカコーラ誕生100周年キャンペーン

コカコーラボトルを「100歳」と認識

bull 自撮り写真をUp結果をSNS拡散

ナビタイムジャパン様

自然言語入力による路線検索BOT

bull ユーザーとの新たな接点(LINE)

bull 自然言語入力

Vision Language Knowledge

Vision Knowledge SearchSpeech Language

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

Microsoft SupportVirtual Agent

自然言語入力による自動応答サポート窓口

bull 過去QampAデータ解析に基づく回答抽出

bull 定型外はldquo人対応rdquo

UBER

登録ドライバーをスマホ経由で顔認証

VOLVO

表情からの危険予測

Search

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

アロバ様

監視カメラによる店舗内行動分析

bull 顔認識による 顧客識別

bull 表情分析

東京サマーランド様にて導入済み

HmComm様

コールセンターソリューション

bull 会話をテキスト化キーワードを解析

bull 過去QampA検索

bull 内容をCRM保存

Vision KnowledgeSpeech Language

導入事例東京サマーランド様

Video

Intelligent KioskhttpsgithubcomMicrosoftCognitive-Samples-IntelligentKiosk

ldquo(want to|request)rdquo

HoloLens

Page 47: やりたいことから考えるMicrosoft Azure 上の データストアの選び方とデータサイエンティスト向け活用法。KVSからDWHまで

Analytics

Storage

HDInsight(ldquomanaged clustersrdquo)

Azure Data Lake Analytics

Azure Data Lake Store

Azure Data Lake

LOB Applications

SocialDevices

Clickstream

Sensors

Video

Web

Relational

HDInsight

Data Lake Analytics

Machine Learning

Spark

R

Azure Data Lake Store

Azure Data Lake Store

Azure Storage Blob

外部表Azure SQLData Warehouse

HDInsight

開発者は OSS に馴染んでいる Java Eclipse Hive etc

マネージド Hadoop クラスタにおいてカスタマイズ管理が可能でフレキシビリティがある

Azure Data Lake Analytics

C SQL amp PowerShell のスキル

経験を活かせる

利便性効率性自動スケール

ジョブ実行の仕組みが提供される

(New)

(New)

一般的なパターン

処理読み込み 保存

INSERT

OUTPUT

OUTPUT

SELECThellip

FROMhellip

WHEREhellip

+

PythonR

EXTRACT

EXTRACT

SELECT

SELECT

Azure

Data

Lake

Azure

Data

Lake

Azure

SQL

DB

Azure

Storage

Blobs

Azure

Storage

Blobs

RowSet RowSet

Cognitive Services

REFERENCE ASSEMBLY WebLogExtASM

rs =

EXTRACT

UserID string

Start DateTime

End DateTime

Region string

SitesVisited string

PagesVisited string

FROM ldquoLogsWebLogRecordstxtrdquo

USING WebLogExtractor ()

result = SELECT UserID

(EndSubtract(Start))TotalSeconds AS Duration

FROM rs ORDER BY Duration DESC FETCH 10

OUTPUT result TO ldquoLogsResultstop10tsv

USING OutputterTsv()

bull 型定義は C の型定義と同じ

bull データをファイルから抽出読み込み

するときにスキーマが必要

Data Lake Store 内 のファイル

独自形式を解析するカスタム関数

C の関数

行セット(中間テーブルの概念

に近い)

TSV形式で書き込む関数

U-SQL ジョブのサブミットAzure PortalやVisual StudioのAzure Data Lake ToolsからU-SQLジョブをサブミット可能

67

進捗

統計情報

従来型の処理分析 Azure Data Lake を中心とした処理分析

Business apps

Custom apps

Sensors and devices

ADL StorePeople

非構造化データも含めてあらゆるデータを格納

Azure SQL DW

Azure AD

Power BI

ADF

ADL Analytics

bull 処理分析業務の大半はデータ準備作業が占めるbull 処理分析業務に手間時間が必要

Business apps

Custom apps

Sensors and devices

HDInsight

ユーザー管理認証

データの連携

Power BI

File System

Database

Database

Hadoop

DWH

Data Mart

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

①大量データの受け入れ

②リアルタイム処理データの集約

③データの蓄積

構造化非構造化文書など様々な形式での保存

④データの加工移行

⑥機械学習

⑦Hadoop解析

⑧マイクロソフト技術を用いた分散解析

⑨通常のRMSが機能を追加した企業向けRを使用した解析

⑪クラウドベースの Self-Service BI 機能

⑫機械学習の予測モデルを業務システムなどから呼び出し可能にするサービス

外部クラウドなどからのデータ取り込み

②リアルタイム処理データの加工

⑤ディープラーニング

⑩Excelを用いた可視化

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

リアルタイム

バッチ

Data Factory Tools for Visual Studio

Azure Portal

Azure TableStorage

(Web ログレコード)

Data Factory

HDInsight

(Web ログをファイルにして

バッチ処理で集計)

SQL Database

(集計データをDB テーブルに格納)

Power BI

社内システム

DataManagement

Gateway

SQL Database

Data Warehouse

Blob Storage

Table Storage

httpportalazurecom

接続

メッセージ作成

メッセージ送信

var cs = ldquo接続文字列rdquovar path = ldquoイベントハブ名rdquovar eh = EventHubClientCreateFromConnectionString(cs path)

var msg = new user = thisUserIdentityNamelevel = leveltimestamp = demoTimestamp

var json = JsonConvertSerializeObject(msg)

ehSend(new EventData(EncodingUTF8GetBytes(json)))

EventProcessorHostを使う

bull

bull

bull

Functionsを使う

bull

bull

IEventProcessorProcessEventAsync(msg)

IEventProcessorProcessEventAsync(msg)

Run(string msg)

Azure azure-sdk-for-python

Point of Service Devices

Self CheckoutStations

Kiosks

Smart Phones

SlatesTablets

PCsLaptops

Servers

Digital Signs

DiagnosticEquipmentRemote Medical

MonitorsLogic

Controllers

SpecializedDevicesThin

Clients

Handhelds

Security

POS Terminals

AutomationDevices

VendingMachines

Kinect

ATM

Stream Analytics

入力 出力クエリデータストリーム

参照

bull ldquo入力rdquoldquo出力rdquoをクリックしそれぞれ作成

bull ldquoクエリrdquoをクリックしクエリを定義bull 作業が終わったらldquo開始rdquoで実

行開始

SELECT

INTO

FROM

SELECT user level AS SATLevel timestamp

INTO

FROM

デバイス接続性とデバイス管理およびブローカーサービス

データ管理と高度な分析 情報活用業務の生産性とプロセスの最適化

IoT Agent Gateway

予兆原因の学習モデル

ダッシュボード

参照ERPbull 顧客bull 設備bull 担当者

Notification Hubs

通知

予兆イベント

メンテ方法の推奨

bull ヘルス状態bull インシデント管理bull 対応のディスパッチ

現地技術要員のモバイルデバイス

オペレーションセンター

bull イベント ドア開閉軸アライメントキャビン速度モーター温度など

bull アラーム 故障アラームエラーコードなど

httpisstkeazurewebsitesnet

Event Hub

Stream Analytics

Azure ML

制御機器とセンサーのデータ

マシンデータの蓄積

メンテナンス方法の学習モデル

Machine Learning

Blob Storage

セルフサービス分析

Power BI

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce

cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-

system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of

your data while making it faster to get up and running with

batch streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources

so you can run queries on exabytes of data Includes U-

SQL a new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully

managed NoSQL database service that indexes stores and

queries data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

What do all of these have in common

They can all use Azure Analysis Services

Azure Analysis Services

Azure Analysis Services

BI semantic model

Business logic amp metrics

Data modeling

Security

Azure Analysis Services

Lifecycle management

In-memory cache

On-premises

Cloud

Data sources

SQL Database

SQL Data Warehouse

Other data sources

SQL Server

Analytics platform

system

Other data sources

On-premises

Cloud

Client tools

Power BI

Excel

Third party BI tools

Power BI Desktop

Rich semantic modelling

locatioidentifier

identifiertype

fieldidentifier

numberofunitssoldtodate

remaningnumber

Numberofuntissoldtoday

receivedback

productidentifier

descriptionline1

descriptionline2

qtyafterqtysales

familyidentifier

Source DataComplex raw data optimized for processing

Semantic ModelRich business user friendly semantic model

Product Id

Product Name

Product Description

Category

Category Id

Category Name

Category Description

Sub Category

Product Id

Shelf qty

Return qty

Order qty

Sale qty

Cloud Data

On-Premises

Data

Azure Analysis Services

Lightning fast queries

データ管理をきっかけに処理を実行

Web Glue

Bots IoT

DOMINOS STORES

Key Vault

Azure Active Directory

Azure Files

SSIS FRANCHISEE

AZURE WEST EUROPE

Azure Function

KEMPSSDESSRS

IN- AND EXTERNAL DATA SOURCES

orderprocessing

O365

App Insights

indexhtml

Azure Functions Proxies

couponprocessing

Use Bindings in Your Codefunctionjson

bindings [type httpTriggerdirection inwebHookType genericJsonname req

type httpdirection outname res

type queuename eventOutputqueueName aievents1connectionAiStorageConnectiondirection out

]

public static class OrderHandler

[FunctionName(OrderWebhook)]public static async TaskltHttpResponseMessagegt Run(

[HttpTrigger] HttpRequestMessage req[Queue(aievents1 Connection = AiStorageConnection)]

IAsyncCollectorltStringgt eventOutputTraceWriter log)

logInfo($Webhook was triggered)

string jsonContent = await reqContentReadAsStringAsync()dynamic data = JsonConvertDeserializeObject(jsonContent)

await eventOutputAddAsync(JsonConvertSerializeObject(GetLogData(data)))

int orderId = PlaceOrder(data)

return reqCreateResponse(HttpStatusCodeOK new orderNumber = orderId )

bull Workflow in the cloud

bull Powerful control flow

bull Connect functions and APIs

bull Declarative definition to persist in source control and drive deployments

Logic AppsCloud APIs and platform

bull Supports over 125 built-in connectors

bull Scales to meet your needs

bull Enables rapid development

bull Extends with custom APIs and

Functions

API connections

bull Authenticate once and reuse

Big Data Solutions Decision Tree

httpsbiz-excellencecom20160830big-data-dt

Machine Learning Solutions Decision Tree

httpsbiz-excellencecom20160913machine-

learning-dt

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of your

data while making it faster to get up and running with batch

streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources so

you can run queries on exabytes of data Includes U-SQL a

new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully managed

NoSQL database service that indexes stores and queries

data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

Microsoft Big Data Portfolio

SQL Server Stretch

Business intelligence

Machine learning analytics

Insights

Azure SQL Database

SQL Server 2016

SQL Server 2016 Fast Track

Azure SQL DW

ADLS amp ADLA

DocumentDB

HDInsight

Hadoop

Analytics Platform System

Sequential Scale Out + AcrossScale Up

Key

Relational Non-relational

On

-pre

mis

es

Clo

ud

Microsoft has solutions covering

and connecting all four

quadrants ndash thatrsquos why SQL

Server is one of the most utilized

databases in the world

Azure

Data Lake Store

Azure

Blob StoragePurpose Optimized for big data analytics General purpose bulk storage

Use Cases Batch Interactive Streaming App backend backup data media storage for

streaming

Units of Storage Accounts Folders Files Accounts Containers Blobs

Structure Hierarchical File System Flat namespace

WebHDFS Implements WebHDFS No (WASB)

Security AD SAS keys

Storage Auto SharedFiles chunked Manually manage expansionFiles intact

Service State Generally Available PolyBase

just supported

Generally Available

Billing Pay for data stored and for IO Pay for data stored and for IO

Region Availability Two US regions (Other regions coming soon) All Azure Regions

ADL Store vs Blob Store

httpsdocsmicrosoftcomen-usazuredata-lake-storedata-lake-store-comparison-with-blob-storage

Want Hadoop

Need exact same on-prem

Need interactive streaming

MandatoryNo strong opinion

Azure Marketplace (IaaS)

bull Need all workloads exactly like on-

premises

bull Need 100 HortonworksClouderaMapR

Azure HDInsight

bull Most Hadoop workloads

bull Fully managed by Microsoft

bull Sell HDI + ADLS

bull Stickier to Microsoft than VMs

bull Can do interactive (Spark) and streaming

(StormSpark)

Azure Data Lake Analytics

bull Easiest experience for admin no sense of

clusters instant scale per job

bull Easiest experience for developers Visual

StudioU-SQL (C+SQL)

bull Sell ADLA + ADLS

bull Batch workloads only

Need everything exactly like on-prem

Need core projects Yes Batch is OK

Always present ADLA if NET or Visual Studio Shop

If NET or VS shop

Azure SQL DW HDInsight Hive HDInsight Spark Azure Data Lake SQL Server (IaaS)

Volume Petabytes Petabytes Petabytes Petabytes Terabytes

Security Encryption TD

Audit

ADLS Apache

Ranger

ADLS AAD Security

Groups (data)

Encryption TD

Audit

Languages T-SQL HiveQL SparkSQL HiveQL

Scala Java Python

R

U-SQL T-SQL

Extensibility No Yes NETSerDe Yes Packages Yes NET Yes NET CLR

External File

Types

ORC TXT

Parquet RCFile

ORC CSV Parquet

+ others

Parquet JSON

Hive + others

Many ORC TXT Parquet

RCFile

Admin Low-Medium Medium-High Medium-High Low High

Cost Model DWU Nodes amp VM Nodes amp VM UnitsJobs VM

Schema

Definition

Schema on Write

Polybase

Schema on Read Schema on Read Schema on Read Schema on Write

Polybase

Max DB Size 240TB Comp (5X

= 1PB)

Unlimited 64TB (64 1TB drives)

機械学習 Deep Learning 深層強化学習

画像解析

音声解析

データ分類異常検知 顧客グルーピング

数値予測売上予測 需要予測 品質管理

ラベル分類不良品分析 故障予測 チャーン分析

機械学習より強力な分析

自律学習型ロボット

自動運転車

テキストや画像等の自動生成

活用例

主に多層のニューラルネットワークを用いた手法での分析

分析のためには莫大なデータ量計算量知識スキルを要する

統計に基づいた手法での分析

そのため比較的少ないデータ量と計算量で分析を行うことができる

定義したあるべき姿に従い試行錯誤をして自ら学習を行うための分析手法である強化学習と深層学習を組み合わせた分析

Azure Machine Learning Cognitive Toolkit GPU Instance (N-Series)

マイクロソフトが提供する技術

テキストデータ機器のログデータなど

画像データ監視カメラの録画データ 機器の外観画像 顔画像など

動画データ監視カメラの録画データ 機器の稼働状況 人の作業映像など

音声データマイクからの収集データ 稼働音 室内音 人の音声など

数値データセンサーデータ 機器の制御データ計測データなど672342345

機械学習統計理論に基づいた分析手法を用いる用意するべきデータ量と処理する計算量の敷居が低め導入しやすい

Deep Learningデータ量が大きいため強力な分析手法が必要「膨大なデータ量を用意」「莫大な計算量を処理」が必要で敷居が非常に高い導入にはそれなりの覚悟が必要

Action

People

Automated Systems

Apps

Web

Mobile

Bots

Intelligence

Dashboards amp Visualizations

Cortana

Bot Framework

Cognitive Services

Power BI

Information Management

Event Hubs

Data Catalog

Data Factory

Machine Learning and Analytics

HDInsight

Stream Analytics

Intelligence

Data Lake Analytics

Machine Learning

Big Data Stores

SQL Data Warehouse

Data Lake Store

Data Sources

Apps

Sensors amp Devices

Data

Cortana Intelligence Suite

学習済み

モデル利用

学習モデル

作成

機械学習 教師あり学習

教師なし学習

強化学習

決定木

線形回帰

SVM

ロジスティック回帰

ニューラルネットワーク

クラスタリング

次元削減

Q学習

K-mean法

主成分分析

正準相関分析

ディープニューラルネットワーク

畳みこみニューラルネットワーク

再帰的ニューラルネットワーク

回帰結合ニューラルネットワーク

httpsazuremicrosoftcomen-usservicescognitive-services

わずか数行のコードで強力なアルゴリズムを持つアプリの作成が可能ですiOSAndroidWindows などのプラットフォームを問わず機能します

httpsazuremicrosoftcomja-jpservicesmachine-learning

ユーザーは簡単に予測分析ソリューションを構築デプロイ共有できます

httpswwwyoutubecomwatchv=9gDDO5ldT-4ampfeature=youtube

AI技術を利用したディープラーニング(深層学習)ツールキットです旧称「CNTK」から改名されました

ソースコード httpsgithubcomMicrosoftCNTK

SearchSpeech

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

コカコーラ誕生100周年キャンペーン

コカコーラボトルを「100歳」と認識

bull 自撮り写真をUp結果をSNS拡散

ナビタイムジャパン様

自然言語入力による路線検索BOT

bull ユーザーとの新たな接点(LINE)

bull 自然言語入力

Vision Language Knowledge

Vision Knowledge SearchSpeech Language

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

Microsoft SupportVirtual Agent

自然言語入力による自動応答サポート窓口

bull 過去QampAデータ解析に基づく回答抽出

bull 定型外はldquo人対応rdquo

UBER

登録ドライバーをスマホ経由で顔認証

VOLVO

表情からの危険予測

Search

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

アロバ様

監視カメラによる店舗内行動分析

bull 顔認識による 顧客識別

bull 表情分析

東京サマーランド様にて導入済み

HmComm様

コールセンターソリューション

bull 会話をテキスト化キーワードを解析

bull 過去QampA検索

bull 内容をCRM保存

Vision KnowledgeSpeech Language

導入事例東京サマーランド様

Video

Intelligent KioskhttpsgithubcomMicrosoftCognitive-Samples-IntelligentKiosk

ldquo(want to|request)rdquo

HoloLens

Page 48: やりたいことから考えるMicrosoft Azure 上の データストアの選び方とデータサイエンティスト向け活用法。KVSからDWHまで

LOB Applications

SocialDevices

Clickstream

Sensors

Video

Web

Relational

HDInsight

Data Lake Analytics

Machine Learning

Spark

R

Azure Data Lake Store

Azure Data Lake Store

Azure Storage Blob

外部表Azure SQLData Warehouse

HDInsight

開発者は OSS に馴染んでいる Java Eclipse Hive etc

マネージド Hadoop クラスタにおいてカスタマイズ管理が可能でフレキシビリティがある

Azure Data Lake Analytics

C SQL amp PowerShell のスキル

経験を活かせる

利便性効率性自動スケール

ジョブ実行の仕組みが提供される

(New)

(New)

一般的なパターン

処理読み込み 保存

INSERT

OUTPUT

OUTPUT

SELECThellip

FROMhellip

WHEREhellip

+

PythonR

EXTRACT

EXTRACT

SELECT

SELECT

Azure

Data

Lake

Azure

Data

Lake

Azure

SQL

DB

Azure

Storage

Blobs

Azure

Storage

Blobs

RowSet RowSet

Cognitive Services

REFERENCE ASSEMBLY WebLogExtASM

rs =

EXTRACT

UserID string

Start DateTime

End DateTime

Region string

SitesVisited string

PagesVisited string

FROM ldquoLogsWebLogRecordstxtrdquo

USING WebLogExtractor ()

result = SELECT UserID

(EndSubtract(Start))TotalSeconds AS Duration

FROM rs ORDER BY Duration DESC FETCH 10

OUTPUT result TO ldquoLogsResultstop10tsv

USING OutputterTsv()

bull 型定義は C の型定義と同じ

bull データをファイルから抽出読み込み

するときにスキーマが必要

Data Lake Store 内 のファイル

独自形式を解析するカスタム関数

C の関数

行セット(中間テーブルの概念

に近い)

TSV形式で書き込む関数

U-SQL ジョブのサブミットAzure PortalやVisual StudioのAzure Data Lake ToolsからU-SQLジョブをサブミット可能

67

進捗

統計情報

従来型の処理分析 Azure Data Lake を中心とした処理分析

Business apps

Custom apps

Sensors and devices

ADL StorePeople

非構造化データも含めてあらゆるデータを格納

Azure SQL DW

Azure AD

Power BI

ADF

ADL Analytics

bull 処理分析業務の大半はデータ準備作業が占めるbull 処理分析業務に手間時間が必要

Business apps

Custom apps

Sensors and devices

HDInsight

ユーザー管理認証

データの連携

Power BI

File System

Database

Database

Hadoop

DWH

Data Mart

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

①大量データの受け入れ

②リアルタイム処理データの集約

③データの蓄積

構造化非構造化文書など様々な形式での保存

④データの加工移行

⑥機械学習

⑦Hadoop解析

⑧マイクロソフト技術を用いた分散解析

⑨通常のRMSが機能を追加した企業向けRを使用した解析

⑪クラウドベースの Self-Service BI 機能

⑫機械学習の予測モデルを業務システムなどから呼び出し可能にするサービス

外部クラウドなどからのデータ取り込み

②リアルタイム処理データの加工

⑤ディープラーニング

⑩Excelを用いた可視化

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

リアルタイム

バッチ

Data Factory Tools for Visual Studio

Azure Portal

Azure TableStorage

(Web ログレコード)

Data Factory

HDInsight

(Web ログをファイルにして

バッチ処理で集計)

SQL Database

(集計データをDB テーブルに格納)

Power BI

社内システム

DataManagement

Gateway

SQL Database

Data Warehouse

Blob Storage

Table Storage

httpportalazurecom

接続

メッセージ作成

メッセージ送信

var cs = ldquo接続文字列rdquovar path = ldquoイベントハブ名rdquovar eh = EventHubClientCreateFromConnectionString(cs path)

var msg = new user = thisUserIdentityNamelevel = leveltimestamp = demoTimestamp

var json = JsonConvertSerializeObject(msg)

ehSend(new EventData(EncodingUTF8GetBytes(json)))

EventProcessorHostを使う

bull

bull

bull

Functionsを使う

bull

bull

IEventProcessorProcessEventAsync(msg)

IEventProcessorProcessEventAsync(msg)

Run(string msg)

Azure azure-sdk-for-python

Point of Service Devices

Self CheckoutStations

Kiosks

Smart Phones

SlatesTablets

PCsLaptops

Servers

Digital Signs

DiagnosticEquipmentRemote Medical

MonitorsLogic

Controllers

SpecializedDevicesThin

Clients

Handhelds

Security

POS Terminals

AutomationDevices

VendingMachines

Kinect

ATM

Stream Analytics

入力 出力クエリデータストリーム

参照

bull ldquo入力rdquoldquo出力rdquoをクリックしそれぞれ作成

bull ldquoクエリrdquoをクリックしクエリを定義bull 作業が終わったらldquo開始rdquoで実

行開始

SELECT

INTO

FROM

SELECT user level AS SATLevel timestamp

INTO

FROM

デバイス接続性とデバイス管理およびブローカーサービス

データ管理と高度な分析 情報活用業務の生産性とプロセスの最適化

IoT Agent Gateway

予兆原因の学習モデル

ダッシュボード

参照ERPbull 顧客bull 設備bull 担当者

Notification Hubs

通知

予兆イベント

メンテ方法の推奨

bull ヘルス状態bull インシデント管理bull 対応のディスパッチ

現地技術要員のモバイルデバイス

オペレーションセンター

bull イベント ドア開閉軸アライメントキャビン速度モーター温度など

bull アラーム 故障アラームエラーコードなど

httpisstkeazurewebsitesnet

Event Hub

Stream Analytics

Azure ML

制御機器とセンサーのデータ

マシンデータの蓄積

メンテナンス方法の学習モデル

Machine Learning

Blob Storage

セルフサービス分析

Power BI

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce

cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-

system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of

your data while making it faster to get up and running with

batch streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources

so you can run queries on exabytes of data Includes U-

SQL a new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully

managed NoSQL database service that indexes stores and

queries data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

What do all of these have in common

They can all use Azure Analysis Services

Azure Analysis Services

Azure Analysis Services

BI semantic model

Business logic amp metrics

Data modeling

Security

Azure Analysis Services

Lifecycle management

In-memory cache

On-premises

Cloud

Data sources

SQL Database

SQL Data Warehouse

Other data sources

SQL Server

Analytics platform

system

Other data sources

On-premises

Cloud

Client tools

Power BI

Excel

Third party BI tools

Power BI Desktop

Rich semantic modelling

locatioidentifier

identifiertype

fieldidentifier

numberofunitssoldtodate

remaningnumber

Numberofuntissoldtoday

receivedback

productidentifier

descriptionline1

descriptionline2

qtyafterqtysales

familyidentifier

Source DataComplex raw data optimized for processing

Semantic ModelRich business user friendly semantic model

Product Id

Product Name

Product Description

Category

Category Id

Category Name

Category Description

Sub Category

Product Id

Shelf qty

Return qty

Order qty

Sale qty

Cloud Data

On-Premises

Data

Azure Analysis Services

Lightning fast queries

データ管理をきっかけに処理を実行

Web Glue

Bots IoT

DOMINOS STORES

Key Vault

Azure Active Directory

Azure Files

SSIS FRANCHISEE

AZURE WEST EUROPE

Azure Function

KEMPSSDESSRS

IN- AND EXTERNAL DATA SOURCES

orderprocessing

O365

App Insights

indexhtml

Azure Functions Proxies

couponprocessing

Use Bindings in Your Codefunctionjson

bindings [type httpTriggerdirection inwebHookType genericJsonname req

type httpdirection outname res

type queuename eventOutputqueueName aievents1connectionAiStorageConnectiondirection out

]

public static class OrderHandler

[FunctionName(OrderWebhook)]public static async TaskltHttpResponseMessagegt Run(

[HttpTrigger] HttpRequestMessage req[Queue(aievents1 Connection = AiStorageConnection)]

IAsyncCollectorltStringgt eventOutputTraceWriter log)

logInfo($Webhook was triggered)

string jsonContent = await reqContentReadAsStringAsync()dynamic data = JsonConvertDeserializeObject(jsonContent)

await eventOutputAddAsync(JsonConvertSerializeObject(GetLogData(data)))

int orderId = PlaceOrder(data)

return reqCreateResponse(HttpStatusCodeOK new orderNumber = orderId )

bull Workflow in the cloud

bull Powerful control flow

bull Connect functions and APIs

bull Declarative definition to persist in source control and drive deployments

Logic AppsCloud APIs and platform

bull Supports over 125 built-in connectors

bull Scales to meet your needs

bull Enables rapid development

bull Extends with custom APIs and

Functions

API connections

bull Authenticate once and reuse

Big Data Solutions Decision Tree

httpsbiz-excellencecom20160830big-data-dt

Machine Learning Solutions Decision Tree

httpsbiz-excellencecom20160913machine-

learning-dt

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of your

data while making it faster to get up and running with batch

streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources so

you can run queries on exabytes of data Includes U-SQL a

new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully managed

NoSQL database service that indexes stores and queries

data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

Microsoft Big Data Portfolio

SQL Server Stretch

Business intelligence

Machine learning analytics

Insights

Azure SQL Database

SQL Server 2016

SQL Server 2016 Fast Track

Azure SQL DW

ADLS amp ADLA

DocumentDB

HDInsight

Hadoop

Analytics Platform System

Sequential Scale Out + AcrossScale Up

Key

Relational Non-relational

On

-pre

mis

es

Clo

ud

Microsoft has solutions covering

and connecting all four

quadrants ndash thatrsquos why SQL

Server is one of the most utilized

databases in the world

Azure

Data Lake Store

Azure

Blob StoragePurpose Optimized for big data analytics General purpose bulk storage

Use Cases Batch Interactive Streaming App backend backup data media storage for

streaming

Units of Storage Accounts Folders Files Accounts Containers Blobs

Structure Hierarchical File System Flat namespace

WebHDFS Implements WebHDFS No (WASB)

Security AD SAS keys

Storage Auto SharedFiles chunked Manually manage expansionFiles intact

Service State Generally Available PolyBase

just supported

Generally Available

Billing Pay for data stored and for IO Pay for data stored and for IO

Region Availability Two US regions (Other regions coming soon) All Azure Regions

ADL Store vs Blob Store

httpsdocsmicrosoftcomen-usazuredata-lake-storedata-lake-store-comparison-with-blob-storage

Want Hadoop

Need exact same on-prem

Need interactive streaming

MandatoryNo strong opinion

Azure Marketplace (IaaS)

bull Need all workloads exactly like on-

premises

bull Need 100 HortonworksClouderaMapR

Azure HDInsight

bull Most Hadoop workloads

bull Fully managed by Microsoft

bull Sell HDI + ADLS

bull Stickier to Microsoft than VMs

bull Can do interactive (Spark) and streaming

(StormSpark)

Azure Data Lake Analytics

bull Easiest experience for admin no sense of

clusters instant scale per job

bull Easiest experience for developers Visual

StudioU-SQL (C+SQL)

bull Sell ADLA + ADLS

bull Batch workloads only

Need everything exactly like on-prem

Need core projects Yes Batch is OK

Always present ADLA if NET or Visual Studio Shop

If NET or VS shop

Azure SQL DW HDInsight Hive HDInsight Spark Azure Data Lake SQL Server (IaaS)

Volume Petabytes Petabytes Petabytes Petabytes Terabytes

Security Encryption TD

Audit

ADLS Apache

Ranger

ADLS AAD Security

Groups (data)

Encryption TD

Audit

Languages T-SQL HiveQL SparkSQL HiveQL

Scala Java Python

R

U-SQL T-SQL

Extensibility No Yes NETSerDe Yes Packages Yes NET Yes NET CLR

External File

Types

ORC TXT

Parquet RCFile

ORC CSV Parquet

+ others

Parquet JSON

Hive + others

Many ORC TXT Parquet

RCFile

Admin Low-Medium Medium-High Medium-High Low High

Cost Model DWU Nodes amp VM Nodes amp VM UnitsJobs VM

Schema

Definition

Schema on Write

Polybase

Schema on Read Schema on Read Schema on Read Schema on Write

Polybase

Max DB Size 240TB Comp (5X

= 1PB)

Unlimited 64TB (64 1TB drives)

機械学習 Deep Learning 深層強化学習

画像解析

音声解析

データ分類異常検知 顧客グルーピング

数値予測売上予測 需要予測 品質管理

ラベル分類不良品分析 故障予測 チャーン分析

機械学習より強力な分析

自律学習型ロボット

自動運転車

テキストや画像等の自動生成

活用例

主に多層のニューラルネットワークを用いた手法での分析

分析のためには莫大なデータ量計算量知識スキルを要する

統計に基づいた手法での分析

そのため比較的少ないデータ量と計算量で分析を行うことができる

定義したあるべき姿に従い試行錯誤をして自ら学習を行うための分析手法である強化学習と深層学習を組み合わせた分析

Azure Machine Learning Cognitive Toolkit GPU Instance (N-Series)

マイクロソフトが提供する技術

テキストデータ機器のログデータなど

画像データ監視カメラの録画データ 機器の外観画像 顔画像など

動画データ監視カメラの録画データ 機器の稼働状況 人の作業映像など

音声データマイクからの収集データ 稼働音 室内音 人の音声など

数値データセンサーデータ 機器の制御データ計測データなど672342345

機械学習統計理論に基づいた分析手法を用いる用意するべきデータ量と処理する計算量の敷居が低め導入しやすい

Deep Learningデータ量が大きいため強力な分析手法が必要「膨大なデータ量を用意」「莫大な計算量を処理」が必要で敷居が非常に高い導入にはそれなりの覚悟が必要

Action

People

Automated Systems

Apps

Web

Mobile

Bots

Intelligence

Dashboards amp Visualizations

Cortana

Bot Framework

Cognitive Services

Power BI

Information Management

Event Hubs

Data Catalog

Data Factory

Machine Learning and Analytics

HDInsight

Stream Analytics

Intelligence

Data Lake Analytics

Machine Learning

Big Data Stores

SQL Data Warehouse

Data Lake Store

Data Sources

Apps

Sensors amp Devices

Data

Cortana Intelligence Suite

学習済み

モデル利用

学習モデル

作成

機械学習 教師あり学習

教師なし学習

強化学習

決定木

線形回帰

SVM

ロジスティック回帰

ニューラルネットワーク

クラスタリング

次元削減

Q学習

K-mean法

主成分分析

正準相関分析

ディープニューラルネットワーク

畳みこみニューラルネットワーク

再帰的ニューラルネットワーク

回帰結合ニューラルネットワーク

httpsazuremicrosoftcomen-usservicescognitive-services

わずか数行のコードで強力なアルゴリズムを持つアプリの作成が可能ですiOSAndroidWindows などのプラットフォームを問わず機能します

httpsazuremicrosoftcomja-jpservicesmachine-learning

ユーザーは簡単に予測分析ソリューションを構築デプロイ共有できます

httpswwwyoutubecomwatchv=9gDDO5ldT-4ampfeature=youtube

AI技術を利用したディープラーニング(深層学習)ツールキットです旧称「CNTK」から改名されました

ソースコード httpsgithubcomMicrosoftCNTK

SearchSpeech

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

コカコーラ誕生100周年キャンペーン

コカコーラボトルを「100歳」と認識

bull 自撮り写真をUp結果をSNS拡散

ナビタイムジャパン様

自然言語入力による路線検索BOT

bull ユーザーとの新たな接点(LINE)

bull 自然言語入力

Vision Language Knowledge

Vision Knowledge SearchSpeech Language

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

Microsoft SupportVirtual Agent

自然言語入力による自動応答サポート窓口

bull 過去QampAデータ解析に基づく回答抽出

bull 定型外はldquo人対応rdquo

UBER

登録ドライバーをスマホ経由で顔認証

VOLVO

表情からの危険予測

Search

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

アロバ様

監視カメラによる店舗内行動分析

bull 顔認識による 顧客識別

bull 表情分析

東京サマーランド様にて導入済み

HmComm様

コールセンターソリューション

bull 会話をテキスト化キーワードを解析

bull 過去QampA検索

bull 内容をCRM保存

Vision KnowledgeSpeech Language

導入事例東京サマーランド様

Video

Intelligent KioskhttpsgithubcomMicrosoftCognitive-Samples-IntelligentKiosk

ldquo(want to|request)rdquo

HoloLens

Page 49: やりたいことから考えるMicrosoft Azure 上の データストアの選び方とデータサイエンティスト向け活用法。KVSからDWHまで

Azure Data Lake Store

Azure Storage Blob

外部表Azure SQLData Warehouse

HDInsight

開発者は OSS に馴染んでいる Java Eclipse Hive etc

マネージド Hadoop クラスタにおいてカスタマイズ管理が可能でフレキシビリティがある

Azure Data Lake Analytics

C SQL amp PowerShell のスキル

経験を活かせる

利便性効率性自動スケール

ジョブ実行の仕組みが提供される

(New)

(New)

一般的なパターン

処理読み込み 保存

INSERT

OUTPUT

OUTPUT

SELECThellip

FROMhellip

WHEREhellip

+

PythonR

EXTRACT

EXTRACT

SELECT

SELECT

Azure

Data

Lake

Azure

Data

Lake

Azure

SQL

DB

Azure

Storage

Blobs

Azure

Storage

Blobs

RowSet RowSet

Cognitive Services

REFERENCE ASSEMBLY WebLogExtASM

rs =

EXTRACT

UserID string

Start DateTime

End DateTime

Region string

SitesVisited string

PagesVisited string

FROM ldquoLogsWebLogRecordstxtrdquo

USING WebLogExtractor ()

result = SELECT UserID

(EndSubtract(Start))TotalSeconds AS Duration

FROM rs ORDER BY Duration DESC FETCH 10

OUTPUT result TO ldquoLogsResultstop10tsv

USING OutputterTsv()

bull 型定義は C の型定義と同じ

bull データをファイルから抽出読み込み

するときにスキーマが必要

Data Lake Store 内 のファイル

独自形式を解析するカスタム関数

C の関数

行セット(中間テーブルの概念

に近い)

TSV形式で書き込む関数

U-SQL ジョブのサブミットAzure PortalやVisual StudioのAzure Data Lake ToolsからU-SQLジョブをサブミット可能

67

進捗

統計情報

従来型の処理分析 Azure Data Lake を中心とした処理分析

Business apps

Custom apps

Sensors and devices

ADL StorePeople

非構造化データも含めてあらゆるデータを格納

Azure SQL DW

Azure AD

Power BI

ADF

ADL Analytics

bull 処理分析業務の大半はデータ準備作業が占めるbull 処理分析業務に手間時間が必要

Business apps

Custom apps

Sensors and devices

HDInsight

ユーザー管理認証

データの連携

Power BI

File System

Database

Database

Hadoop

DWH

Data Mart

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

①大量データの受け入れ

②リアルタイム処理データの集約

③データの蓄積

構造化非構造化文書など様々な形式での保存

④データの加工移行

⑥機械学習

⑦Hadoop解析

⑧マイクロソフト技術を用いた分散解析

⑨通常のRMSが機能を追加した企業向けRを使用した解析

⑪クラウドベースの Self-Service BI 機能

⑫機械学習の予測モデルを業務システムなどから呼び出し可能にするサービス

外部クラウドなどからのデータ取り込み

②リアルタイム処理データの加工

⑤ディープラーニング

⑩Excelを用いた可視化

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

リアルタイム

バッチ

Data Factory Tools for Visual Studio

Azure Portal

Azure TableStorage

(Web ログレコード)

Data Factory

HDInsight

(Web ログをファイルにして

バッチ処理で集計)

SQL Database

(集計データをDB テーブルに格納)

Power BI

社内システム

DataManagement

Gateway

SQL Database

Data Warehouse

Blob Storage

Table Storage

httpportalazurecom

接続

メッセージ作成

メッセージ送信

var cs = ldquo接続文字列rdquovar path = ldquoイベントハブ名rdquovar eh = EventHubClientCreateFromConnectionString(cs path)

var msg = new user = thisUserIdentityNamelevel = leveltimestamp = demoTimestamp

var json = JsonConvertSerializeObject(msg)

ehSend(new EventData(EncodingUTF8GetBytes(json)))

EventProcessorHostを使う

bull

bull

bull

Functionsを使う

bull

bull

IEventProcessorProcessEventAsync(msg)

IEventProcessorProcessEventAsync(msg)

Run(string msg)

Azure azure-sdk-for-python

Point of Service Devices

Self CheckoutStations

Kiosks

Smart Phones

SlatesTablets

PCsLaptops

Servers

Digital Signs

DiagnosticEquipmentRemote Medical

MonitorsLogic

Controllers

SpecializedDevicesThin

Clients

Handhelds

Security

POS Terminals

AutomationDevices

VendingMachines

Kinect

ATM

Stream Analytics

入力 出力クエリデータストリーム

参照

bull ldquo入力rdquoldquo出力rdquoをクリックしそれぞれ作成

bull ldquoクエリrdquoをクリックしクエリを定義bull 作業が終わったらldquo開始rdquoで実

行開始

SELECT

INTO

FROM

SELECT user level AS SATLevel timestamp

INTO

FROM

デバイス接続性とデバイス管理およびブローカーサービス

データ管理と高度な分析 情報活用業務の生産性とプロセスの最適化

IoT Agent Gateway

予兆原因の学習モデル

ダッシュボード

参照ERPbull 顧客bull 設備bull 担当者

Notification Hubs

通知

予兆イベント

メンテ方法の推奨

bull ヘルス状態bull インシデント管理bull 対応のディスパッチ

現地技術要員のモバイルデバイス

オペレーションセンター

bull イベント ドア開閉軸アライメントキャビン速度モーター温度など

bull アラーム 故障アラームエラーコードなど

httpisstkeazurewebsitesnet

Event Hub

Stream Analytics

Azure ML

制御機器とセンサーのデータ

マシンデータの蓄積

メンテナンス方法の学習モデル

Machine Learning

Blob Storage

セルフサービス分析

Power BI

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce

cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-

system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of

your data while making it faster to get up and running with

batch streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources

so you can run queries on exabytes of data Includes U-

SQL a new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully

managed NoSQL database service that indexes stores and

queries data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

What do all of these have in common

They can all use Azure Analysis Services

Azure Analysis Services

Azure Analysis Services

BI semantic model

Business logic amp metrics

Data modeling

Security

Azure Analysis Services

Lifecycle management

In-memory cache

On-premises

Cloud

Data sources

SQL Database

SQL Data Warehouse

Other data sources

SQL Server

Analytics platform

system

Other data sources

On-premises

Cloud

Client tools

Power BI

Excel

Third party BI tools

Power BI Desktop

Rich semantic modelling

locatioidentifier

identifiertype

fieldidentifier

numberofunitssoldtodate

remaningnumber

Numberofuntissoldtoday

receivedback

productidentifier

descriptionline1

descriptionline2

qtyafterqtysales

familyidentifier

Source DataComplex raw data optimized for processing

Semantic ModelRich business user friendly semantic model

Product Id

Product Name

Product Description

Category

Category Id

Category Name

Category Description

Sub Category

Product Id

Shelf qty

Return qty

Order qty

Sale qty

Cloud Data

On-Premises

Data

Azure Analysis Services

Lightning fast queries

データ管理をきっかけに処理を実行

Web Glue

Bots IoT

DOMINOS STORES

Key Vault

Azure Active Directory

Azure Files

SSIS FRANCHISEE

AZURE WEST EUROPE

Azure Function

KEMPSSDESSRS

IN- AND EXTERNAL DATA SOURCES

orderprocessing

O365

App Insights

indexhtml

Azure Functions Proxies

couponprocessing

Use Bindings in Your Codefunctionjson

bindings [type httpTriggerdirection inwebHookType genericJsonname req

type httpdirection outname res

type queuename eventOutputqueueName aievents1connectionAiStorageConnectiondirection out

]

public static class OrderHandler

[FunctionName(OrderWebhook)]public static async TaskltHttpResponseMessagegt Run(

[HttpTrigger] HttpRequestMessage req[Queue(aievents1 Connection = AiStorageConnection)]

IAsyncCollectorltStringgt eventOutputTraceWriter log)

logInfo($Webhook was triggered)

string jsonContent = await reqContentReadAsStringAsync()dynamic data = JsonConvertDeserializeObject(jsonContent)

await eventOutputAddAsync(JsonConvertSerializeObject(GetLogData(data)))

int orderId = PlaceOrder(data)

return reqCreateResponse(HttpStatusCodeOK new orderNumber = orderId )

bull Workflow in the cloud

bull Powerful control flow

bull Connect functions and APIs

bull Declarative definition to persist in source control and drive deployments

Logic AppsCloud APIs and platform

bull Supports over 125 built-in connectors

bull Scales to meet your needs

bull Enables rapid development

bull Extends with custom APIs and

Functions

API connections

bull Authenticate once and reuse

Big Data Solutions Decision Tree

httpsbiz-excellencecom20160830big-data-dt

Machine Learning Solutions Decision Tree

httpsbiz-excellencecom20160913machine-

learning-dt

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of your

data while making it faster to get up and running with batch

streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources so

you can run queries on exabytes of data Includes U-SQL a

new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully managed

NoSQL database service that indexes stores and queries

data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

Microsoft Big Data Portfolio

SQL Server Stretch

Business intelligence

Machine learning analytics

Insights

Azure SQL Database

SQL Server 2016

SQL Server 2016 Fast Track

Azure SQL DW

ADLS amp ADLA

DocumentDB

HDInsight

Hadoop

Analytics Platform System

Sequential Scale Out + AcrossScale Up

Key

Relational Non-relational

On

-pre

mis

es

Clo

ud

Microsoft has solutions covering

and connecting all four

quadrants ndash thatrsquos why SQL

Server is one of the most utilized

databases in the world

Azure

Data Lake Store

Azure

Blob StoragePurpose Optimized for big data analytics General purpose bulk storage

Use Cases Batch Interactive Streaming App backend backup data media storage for

streaming

Units of Storage Accounts Folders Files Accounts Containers Blobs

Structure Hierarchical File System Flat namespace

WebHDFS Implements WebHDFS No (WASB)

Security AD SAS keys

Storage Auto SharedFiles chunked Manually manage expansionFiles intact

Service State Generally Available PolyBase

just supported

Generally Available

Billing Pay for data stored and for IO Pay for data stored and for IO

Region Availability Two US regions (Other regions coming soon) All Azure Regions

ADL Store vs Blob Store

httpsdocsmicrosoftcomen-usazuredata-lake-storedata-lake-store-comparison-with-blob-storage

Want Hadoop

Need exact same on-prem

Need interactive streaming

MandatoryNo strong opinion

Azure Marketplace (IaaS)

bull Need all workloads exactly like on-

premises

bull Need 100 HortonworksClouderaMapR

Azure HDInsight

bull Most Hadoop workloads

bull Fully managed by Microsoft

bull Sell HDI + ADLS

bull Stickier to Microsoft than VMs

bull Can do interactive (Spark) and streaming

(StormSpark)

Azure Data Lake Analytics

bull Easiest experience for admin no sense of

clusters instant scale per job

bull Easiest experience for developers Visual

StudioU-SQL (C+SQL)

bull Sell ADLA + ADLS

bull Batch workloads only

Need everything exactly like on-prem

Need core projects Yes Batch is OK

Always present ADLA if NET or Visual Studio Shop

If NET or VS shop

Azure SQL DW HDInsight Hive HDInsight Spark Azure Data Lake SQL Server (IaaS)

Volume Petabytes Petabytes Petabytes Petabytes Terabytes

Security Encryption TD

Audit

ADLS Apache

Ranger

ADLS AAD Security

Groups (data)

Encryption TD

Audit

Languages T-SQL HiveQL SparkSQL HiveQL

Scala Java Python

R

U-SQL T-SQL

Extensibility No Yes NETSerDe Yes Packages Yes NET Yes NET CLR

External File

Types

ORC TXT

Parquet RCFile

ORC CSV Parquet

+ others

Parquet JSON

Hive + others

Many ORC TXT Parquet

RCFile

Admin Low-Medium Medium-High Medium-High Low High

Cost Model DWU Nodes amp VM Nodes amp VM UnitsJobs VM

Schema

Definition

Schema on Write

Polybase

Schema on Read Schema on Read Schema on Read Schema on Write

Polybase

Max DB Size 240TB Comp (5X

= 1PB)

Unlimited 64TB (64 1TB drives)

機械学習 Deep Learning 深層強化学習

画像解析

音声解析

データ分類異常検知 顧客グルーピング

数値予測売上予測 需要予測 品質管理

ラベル分類不良品分析 故障予測 チャーン分析

機械学習より強力な分析

自律学習型ロボット

自動運転車

テキストや画像等の自動生成

活用例

主に多層のニューラルネットワークを用いた手法での分析

分析のためには莫大なデータ量計算量知識スキルを要する

統計に基づいた手法での分析

そのため比較的少ないデータ量と計算量で分析を行うことができる

定義したあるべき姿に従い試行錯誤をして自ら学習を行うための分析手法である強化学習と深層学習を組み合わせた分析

Azure Machine Learning Cognitive Toolkit GPU Instance (N-Series)

マイクロソフトが提供する技術

テキストデータ機器のログデータなど

画像データ監視カメラの録画データ 機器の外観画像 顔画像など

動画データ監視カメラの録画データ 機器の稼働状況 人の作業映像など

音声データマイクからの収集データ 稼働音 室内音 人の音声など

数値データセンサーデータ 機器の制御データ計測データなど672342345

機械学習統計理論に基づいた分析手法を用いる用意するべきデータ量と処理する計算量の敷居が低め導入しやすい

Deep Learningデータ量が大きいため強力な分析手法が必要「膨大なデータ量を用意」「莫大な計算量を処理」が必要で敷居が非常に高い導入にはそれなりの覚悟が必要

Action

People

Automated Systems

Apps

Web

Mobile

Bots

Intelligence

Dashboards amp Visualizations

Cortana

Bot Framework

Cognitive Services

Power BI

Information Management

Event Hubs

Data Catalog

Data Factory

Machine Learning and Analytics

HDInsight

Stream Analytics

Intelligence

Data Lake Analytics

Machine Learning

Big Data Stores

SQL Data Warehouse

Data Lake Store

Data Sources

Apps

Sensors amp Devices

Data

Cortana Intelligence Suite

学習済み

モデル利用

学習モデル

作成

機械学習 教師あり学習

教師なし学習

強化学習

決定木

線形回帰

SVM

ロジスティック回帰

ニューラルネットワーク

クラスタリング

次元削減

Q学習

K-mean法

主成分分析

正準相関分析

ディープニューラルネットワーク

畳みこみニューラルネットワーク

再帰的ニューラルネットワーク

回帰結合ニューラルネットワーク

httpsazuremicrosoftcomen-usservicescognitive-services

わずか数行のコードで強力なアルゴリズムを持つアプリの作成が可能ですiOSAndroidWindows などのプラットフォームを問わず機能します

httpsazuremicrosoftcomja-jpservicesmachine-learning

ユーザーは簡単に予測分析ソリューションを構築デプロイ共有できます

httpswwwyoutubecomwatchv=9gDDO5ldT-4ampfeature=youtube

AI技術を利用したディープラーニング(深層学習)ツールキットです旧称「CNTK」から改名されました

ソースコード httpsgithubcomMicrosoftCNTK

SearchSpeech

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

コカコーラ誕生100周年キャンペーン

コカコーラボトルを「100歳」と認識

bull 自撮り写真をUp結果をSNS拡散

ナビタイムジャパン様

自然言語入力による路線検索BOT

bull ユーザーとの新たな接点(LINE)

bull 自然言語入力

Vision Language Knowledge

Vision Knowledge SearchSpeech Language

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

Microsoft SupportVirtual Agent

自然言語入力による自動応答サポート窓口

bull 過去QampAデータ解析に基づく回答抽出

bull 定型外はldquo人対応rdquo

UBER

登録ドライバーをスマホ経由で顔認証

VOLVO

表情からの危険予測

Search

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

アロバ様

監視カメラによる店舗内行動分析

bull 顔認識による 顧客識別

bull 表情分析

東京サマーランド様にて導入済み

HmComm様

コールセンターソリューション

bull 会話をテキスト化キーワードを解析

bull 過去QampA検索

bull 内容をCRM保存

Vision KnowledgeSpeech Language

導入事例東京サマーランド様

Video

Intelligent KioskhttpsgithubcomMicrosoftCognitive-Samples-IntelligentKiosk

ldquo(want to|request)rdquo

HoloLens

Page 50: やりたいことから考えるMicrosoft Azure 上の データストアの選び方とデータサイエンティスト向け活用法。KVSからDWHまで

HDInsight

開発者は OSS に馴染んでいる Java Eclipse Hive etc

マネージド Hadoop クラスタにおいてカスタマイズ管理が可能でフレキシビリティがある

Azure Data Lake Analytics

C SQL amp PowerShell のスキル

経験を活かせる

利便性効率性自動スケール

ジョブ実行の仕組みが提供される

(New)

(New)

一般的なパターン

処理読み込み 保存

INSERT

OUTPUT

OUTPUT

SELECThellip

FROMhellip

WHEREhellip

+

PythonR

EXTRACT

EXTRACT

SELECT

SELECT

Azure

Data

Lake

Azure

Data

Lake

Azure

SQL

DB

Azure

Storage

Blobs

Azure

Storage

Blobs

RowSet RowSet

Cognitive Services

REFERENCE ASSEMBLY WebLogExtASM

rs =

EXTRACT

UserID string

Start DateTime

End DateTime

Region string

SitesVisited string

PagesVisited string

FROM ldquoLogsWebLogRecordstxtrdquo

USING WebLogExtractor ()

result = SELECT UserID

(EndSubtract(Start))TotalSeconds AS Duration

FROM rs ORDER BY Duration DESC FETCH 10

OUTPUT result TO ldquoLogsResultstop10tsv

USING OutputterTsv()

bull 型定義は C の型定義と同じ

bull データをファイルから抽出読み込み

するときにスキーマが必要

Data Lake Store 内 のファイル

独自形式を解析するカスタム関数

C の関数

行セット(中間テーブルの概念

に近い)

TSV形式で書き込む関数

U-SQL ジョブのサブミットAzure PortalやVisual StudioのAzure Data Lake ToolsからU-SQLジョブをサブミット可能

67

進捗

統計情報

従来型の処理分析 Azure Data Lake を中心とした処理分析

Business apps

Custom apps

Sensors and devices

ADL StorePeople

非構造化データも含めてあらゆるデータを格納

Azure SQL DW

Azure AD

Power BI

ADF

ADL Analytics

bull 処理分析業務の大半はデータ準備作業が占めるbull 処理分析業務に手間時間が必要

Business apps

Custom apps

Sensors and devices

HDInsight

ユーザー管理認証

データの連携

Power BI

File System

Database

Database

Hadoop

DWH

Data Mart

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

①大量データの受け入れ

②リアルタイム処理データの集約

③データの蓄積

構造化非構造化文書など様々な形式での保存

④データの加工移行

⑥機械学習

⑦Hadoop解析

⑧マイクロソフト技術を用いた分散解析

⑨通常のRMSが機能を追加した企業向けRを使用した解析

⑪クラウドベースの Self-Service BI 機能

⑫機械学習の予測モデルを業務システムなどから呼び出し可能にするサービス

外部クラウドなどからのデータ取り込み

②リアルタイム処理データの加工

⑤ディープラーニング

⑩Excelを用いた可視化

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

リアルタイム

バッチ

Data Factory Tools for Visual Studio

Azure Portal

Azure TableStorage

(Web ログレコード)

Data Factory

HDInsight

(Web ログをファイルにして

バッチ処理で集計)

SQL Database

(集計データをDB テーブルに格納)

Power BI

社内システム

DataManagement

Gateway

SQL Database

Data Warehouse

Blob Storage

Table Storage

httpportalazurecom

接続

メッセージ作成

メッセージ送信

var cs = ldquo接続文字列rdquovar path = ldquoイベントハブ名rdquovar eh = EventHubClientCreateFromConnectionString(cs path)

var msg = new user = thisUserIdentityNamelevel = leveltimestamp = demoTimestamp

var json = JsonConvertSerializeObject(msg)

ehSend(new EventData(EncodingUTF8GetBytes(json)))

EventProcessorHostを使う

bull

bull

bull

Functionsを使う

bull

bull

IEventProcessorProcessEventAsync(msg)

IEventProcessorProcessEventAsync(msg)

Run(string msg)

Azure azure-sdk-for-python

Point of Service Devices

Self CheckoutStations

Kiosks

Smart Phones

SlatesTablets

PCsLaptops

Servers

Digital Signs

DiagnosticEquipmentRemote Medical

MonitorsLogic

Controllers

SpecializedDevicesThin

Clients

Handhelds

Security

POS Terminals

AutomationDevices

VendingMachines

Kinect

ATM

Stream Analytics

入力 出力クエリデータストリーム

参照

bull ldquo入力rdquoldquo出力rdquoをクリックしそれぞれ作成

bull ldquoクエリrdquoをクリックしクエリを定義bull 作業が終わったらldquo開始rdquoで実

行開始

SELECT

INTO

FROM

SELECT user level AS SATLevel timestamp

INTO

FROM

デバイス接続性とデバイス管理およびブローカーサービス

データ管理と高度な分析 情報活用業務の生産性とプロセスの最適化

IoT Agent Gateway

予兆原因の学習モデル

ダッシュボード

参照ERPbull 顧客bull 設備bull 担当者

Notification Hubs

通知

予兆イベント

メンテ方法の推奨

bull ヘルス状態bull インシデント管理bull 対応のディスパッチ

現地技術要員のモバイルデバイス

オペレーションセンター

bull イベント ドア開閉軸アライメントキャビン速度モーター温度など

bull アラーム 故障アラームエラーコードなど

httpisstkeazurewebsitesnet

Event Hub

Stream Analytics

Azure ML

制御機器とセンサーのデータ

マシンデータの蓄積

メンテナンス方法の学習モデル

Machine Learning

Blob Storage

セルフサービス分析

Power BI

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce

cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-

system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of

your data while making it faster to get up and running with

batch streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources

so you can run queries on exabytes of data Includes U-

SQL a new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully

managed NoSQL database service that indexes stores and

queries data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

What do all of these have in common

They can all use Azure Analysis Services

Azure Analysis Services

Azure Analysis Services

BI semantic model

Business logic amp metrics

Data modeling

Security

Azure Analysis Services

Lifecycle management

In-memory cache

On-premises

Cloud

Data sources

SQL Database

SQL Data Warehouse

Other data sources

SQL Server

Analytics platform

system

Other data sources

On-premises

Cloud

Client tools

Power BI

Excel

Third party BI tools

Power BI Desktop

Rich semantic modelling

locatioidentifier

identifiertype

fieldidentifier

numberofunitssoldtodate

remaningnumber

Numberofuntissoldtoday

receivedback

productidentifier

descriptionline1

descriptionline2

qtyafterqtysales

familyidentifier

Source DataComplex raw data optimized for processing

Semantic ModelRich business user friendly semantic model

Product Id

Product Name

Product Description

Category

Category Id

Category Name

Category Description

Sub Category

Product Id

Shelf qty

Return qty

Order qty

Sale qty

Cloud Data

On-Premises

Data

Azure Analysis Services

Lightning fast queries

データ管理をきっかけに処理を実行

Web Glue

Bots IoT

DOMINOS STORES

Key Vault

Azure Active Directory

Azure Files

SSIS FRANCHISEE

AZURE WEST EUROPE

Azure Function

KEMPSSDESSRS

IN- AND EXTERNAL DATA SOURCES

orderprocessing

O365

App Insights

indexhtml

Azure Functions Proxies

couponprocessing

Use Bindings in Your Codefunctionjson

bindings [type httpTriggerdirection inwebHookType genericJsonname req

type httpdirection outname res

type queuename eventOutputqueueName aievents1connectionAiStorageConnectiondirection out

]

public static class OrderHandler

[FunctionName(OrderWebhook)]public static async TaskltHttpResponseMessagegt Run(

[HttpTrigger] HttpRequestMessage req[Queue(aievents1 Connection = AiStorageConnection)]

IAsyncCollectorltStringgt eventOutputTraceWriter log)

logInfo($Webhook was triggered)

string jsonContent = await reqContentReadAsStringAsync()dynamic data = JsonConvertDeserializeObject(jsonContent)

await eventOutputAddAsync(JsonConvertSerializeObject(GetLogData(data)))

int orderId = PlaceOrder(data)

return reqCreateResponse(HttpStatusCodeOK new orderNumber = orderId )

bull Workflow in the cloud

bull Powerful control flow

bull Connect functions and APIs

bull Declarative definition to persist in source control and drive deployments

Logic AppsCloud APIs and platform

bull Supports over 125 built-in connectors

bull Scales to meet your needs

bull Enables rapid development

bull Extends with custom APIs and

Functions

API connections

bull Authenticate once and reuse

Big Data Solutions Decision Tree

httpsbiz-excellencecom20160830big-data-dt

Machine Learning Solutions Decision Tree

httpsbiz-excellencecom20160913machine-

learning-dt

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of your

data while making it faster to get up and running with batch

streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources so

you can run queries on exabytes of data Includes U-SQL a

new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully managed

NoSQL database service that indexes stores and queries

data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

Microsoft Big Data Portfolio

SQL Server Stretch

Business intelligence

Machine learning analytics

Insights

Azure SQL Database

SQL Server 2016

SQL Server 2016 Fast Track

Azure SQL DW

ADLS amp ADLA

DocumentDB

HDInsight

Hadoop

Analytics Platform System

Sequential Scale Out + AcrossScale Up

Key

Relational Non-relational

On

-pre

mis

es

Clo

ud

Microsoft has solutions covering

and connecting all four

quadrants ndash thatrsquos why SQL

Server is one of the most utilized

databases in the world

Azure

Data Lake Store

Azure

Blob StoragePurpose Optimized for big data analytics General purpose bulk storage

Use Cases Batch Interactive Streaming App backend backup data media storage for

streaming

Units of Storage Accounts Folders Files Accounts Containers Blobs

Structure Hierarchical File System Flat namespace

WebHDFS Implements WebHDFS No (WASB)

Security AD SAS keys

Storage Auto SharedFiles chunked Manually manage expansionFiles intact

Service State Generally Available PolyBase

just supported

Generally Available

Billing Pay for data stored and for IO Pay for data stored and for IO

Region Availability Two US regions (Other regions coming soon) All Azure Regions

ADL Store vs Blob Store

httpsdocsmicrosoftcomen-usazuredata-lake-storedata-lake-store-comparison-with-blob-storage

Want Hadoop

Need exact same on-prem

Need interactive streaming

MandatoryNo strong opinion

Azure Marketplace (IaaS)

bull Need all workloads exactly like on-

premises

bull Need 100 HortonworksClouderaMapR

Azure HDInsight

bull Most Hadoop workloads

bull Fully managed by Microsoft

bull Sell HDI + ADLS

bull Stickier to Microsoft than VMs

bull Can do interactive (Spark) and streaming

(StormSpark)

Azure Data Lake Analytics

bull Easiest experience for admin no sense of

clusters instant scale per job

bull Easiest experience for developers Visual

StudioU-SQL (C+SQL)

bull Sell ADLA + ADLS

bull Batch workloads only

Need everything exactly like on-prem

Need core projects Yes Batch is OK

Always present ADLA if NET or Visual Studio Shop

If NET or VS shop

Azure SQL DW HDInsight Hive HDInsight Spark Azure Data Lake SQL Server (IaaS)

Volume Petabytes Petabytes Petabytes Petabytes Terabytes

Security Encryption TD

Audit

ADLS Apache

Ranger

ADLS AAD Security

Groups (data)

Encryption TD

Audit

Languages T-SQL HiveQL SparkSQL HiveQL

Scala Java Python

R

U-SQL T-SQL

Extensibility No Yes NETSerDe Yes Packages Yes NET Yes NET CLR

External File

Types

ORC TXT

Parquet RCFile

ORC CSV Parquet

+ others

Parquet JSON

Hive + others

Many ORC TXT Parquet

RCFile

Admin Low-Medium Medium-High Medium-High Low High

Cost Model DWU Nodes amp VM Nodes amp VM UnitsJobs VM

Schema

Definition

Schema on Write

Polybase

Schema on Read Schema on Read Schema on Read Schema on Write

Polybase

Max DB Size 240TB Comp (5X

= 1PB)

Unlimited 64TB (64 1TB drives)

機械学習 Deep Learning 深層強化学習

画像解析

音声解析

データ分類異常検知 顧客グルーピング

数値予測売上予測 需要予測 品質管理

ラベル分類不良品分析 故障予測 チャーン分析

機械学習より強力な分析

自律学習型ロボット

自動運転車

テキストや画像等の自動生成

活用例

主に多層のニューラルネットワークを用いた手法での分析

分析のためには莫大なデータ量計算量知識スキルを要する

統計に基づいた手法での分析

そのため比較的少ないデータ量と計算量で分析を行うことができる

定義したあるべき姿に従い試行錯誤をして自ら学習を行うための分析手法である強化学習と深層学習を組み合わせた分析

Azure Machine Learning Cognitive Toolkit GPU Instance (N-Series)

マイクロソフトが提供する技術

テキストデータ機器のログデータなど

画像データ監視カメラの録画データ 機器の外観画像 顔画像など

動画データ監視カメラの録画データ 機器の稼働状況 人の作業映像など

音声データマイクからの収集データ 稼働音 室内音 人の音声など

数値データセンサーデータ 機器の制御データ計測データなど672342345

機械学習統計理論に基づいた分析手法を用いる用意するべきデータ量と処理する計算量の敷居が低め導入しやすい

Deep Learningデータ量が大きいため強力な分析手法が必要「膨大なデータ量を用意」「莫大な計算量を処理」が必要で敷居が非常に高い導入にはそれなりの覚悟が必要

Action

People

Automated Systems

Apps

Web

Mobile

Bots

Intelligence

Dashboards amp Visualizations

Cortana

Bot Framework

Cognitive Services

Power BI

Information Management

Event Hubs

Data Catalog

Data Factory

Machine Learning and Analytics

HDInsight

Stream Analytics

Intelligence

Data Lake Analytics

Machine Learning

Big Data Stores

SQL Data Warehouse

Data Lake Store

Data Sources

Apps

Sensors amp Devices

Data

Cortana Intelligence Suite

学習済み

モデル利用

学習モデル

作成

機械学習 教師あり学習

教師なし学習

強化学習

決定木

線形回帰

SVM

ロジスティック回帰

ニューラルネットワーク

クラスタリング

次元削減

Q学習

K-mean法

主成分分析

正準相関分析

ディープニューラルネットワーク

畳みこみニューラルネットワーク

再帰的ニューラルネットワーク

回帰結合ニューラルネットワーク

httpsazuremicrosoftcomen-usservicescognitive-services

わずか数行のコードで強力なアルゴリズムを持つアプリの作成が可能ですiOSAndroidWindows などのプラットフォームを問わず機能します

httpsazuremicrosoftcomja-jpservicesmachine-learning

ユーザーは簡単に予測分析ソリューションを構築デプロイ共有できます

httpswwwyoutubecomwatchv=9gDDO5ldT-4ampfeature=youtube

AI技術を利用したディープラーニング(深層学習)ツールキットです旧称「CNTK」から改名されました

ソースコード httpsgithubcomMicrosoftCNTK

SearchSpeech

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

コカコーラ誕生100周年キャンペーン

コカコーラボトルを「100歳」と認識

bull 自撮り写真をUp結果をSNS拡散

ナビタイムジャパン様

自然言語入力による路線検索BOT

bull ユーザーとの新たな接点(LINE)

bull 自然言語入力

Vision Language Knowledge

Vision Knowledge SearchSpeech Language

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

Microsoft SupportVirtual Agent

自然言語入力による自動応答サポート窓口

bull 過去QampAデータ解析に基づく回答抽出

bull 定型外はldquo人対応rdquo

UBER

登録ドライバーをスマホ経由で顔認証

VOLVO

表情からの危険予測

Search

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

アロバ様

監視カメラによる店舗内行動分析

bull 顔認識による 顧客識別

bull 表情分析

東京サマーランド様にて導入済み

HmComm様

コールセンターソリューション

bull 会話をテキスト化キーワードを解析

bull 過去QampA検索

bull 内容をCRM保存

Vision KnowledgeSpeech Language

導入事例東京サマーランド様

Video

Intelligent KioskhttpsgithubcomMicrosoftCognitive-Samples-IntelligentKiosk

ldquo(want to|request)rdquo

HoloLens

Page 51: やりたいことから考えるMicrosoft Azure 上の データストアの選び方とデータサイエンティスト向け活用法。KVSからDWHまで

(New)

(New)

一般的なパターン

処理読み込み 保存

INSERT

OUTPUT

OUTPUT

SELECThellip

FROMhellip

WHEREhellip

+

PythonR

EXTRACT

EXTRACT

SELECT

SELECT

Azure

Data

Lake

Azure

Data

Lake

Azure

SQL

DB

Azure

Storage

Blobs

Azure

Storage

Blobs

RowSet RowSet

Cognitive Services

REFERENCE ASSEMBLY WebLogExtASM

rs =

EXTRACT

UserID string

Start DateTime

End DateTime

Region string

SitesVisited string

PagesVisited string

FROM ldquoLogsWebLogRecordstxtrdquo

USING WebLogExtractor ()

result = SELECT UserID

(EndSubtract(Start))TotalSeconds AS Duration

FROM rs ORDER BY Duration DESC FETCH 10

OUTPUT result TO ldquoLogsResultstop10tsv

USING OutputterTsv()

bull 型定義は C の型定義と同じ

bull データをファイルから抽出読み込み

するときにスキーマが必要

Data Lake Store 内 のファイル

独自形式を解析するカスタム関数

C の関数

行セット(中間テーブルの概念

に近い)

TSV形式で書き込む関数

U-SQL ジョブのサブミットAzure PortalやVisual StudioのAzure Data Lake ToolsからU-SQLジョブをサブミット可能

67

進捗

統計情報

従来型の処理分析 Azure Data Lake を中心とした処理分析

Business apps

Custom apps

Sensors and devices

ADL StorePeople

非構造化データも含めてあらゆるデータを格納

Azure SQL DW

Azure AD

Power BI

ADF

ADL Analytics

bull 処理分析業務の大半はデータ準備作業が占めるbull 処理分析業務に手間時間が必要

Business apps

Custom apps

Sensors and devices

HDInsight

ユーザー管理認証

データの連携

Power BI

File System

Database

Database

Hadoop

DWH

Data Mart

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

①大量データの受け入れ

②リアルタイム処理データの集約

③データの蓄積

構造化非構造化文書など様々な形式での保存

④データの加工移行

⑥機械学習

⑦Hadoop解析

⑧マイクロソフト技術を用いた分散解析

⑨通常のRMSが機能を追加した企業向けRを使用した解析

⑪クラウドベースの Self-Service BI 機能

⑫機械学習の予測モデルを業務システムなどから呼び出し可能にするサービス

外部クラウドなどからのデータ取り込み

②リアルタイム処理データの加工

⑤ディープラーニング

⑩Excelを用いた可視化

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

リアルタイム

バッチ

Data Factory Tools for Visual Studio

Azure Portal

Azure TableStorage

(Web ログレコード)

Data Factory

HDInsight

(Web ログをファイルにして

バッチ処理で集計)

SQL Database

(集計データをDB テーブルに格納)

Power BI

社内システム

DataManagement

Gateway

SQL Database

Data Warehouse

Blob Storage

Table Storage

httpportalazurecom

接続

メッセージ作成

メッセージ送信

var cs = ldquo接続文字列rdquovar path = ldquoイベントハブ名rdquovar eh = EventHubClientCreateFromConnectionString(cs path)

var msg = new user = thisUserIdentityNamelevel = leveltimestamp = demoTimestamp

var json = JsonConvertSerializeObject(msg)

ehSend(new EventData(EncodingUTF8GetBytes(json)))

EventProcessorHostを使う

bull

bull

bull

Functionsを使う

bull

bull

IEventProcessorProcessEventAsync(msg)

IEventProcessorProcessEventAsync(msg)

Run(string msg)

Azure azure-sdk-for-python

Point of Service Devices

Self CheckoutStations

Kiosks

Smart Phones

SlatesTablets

PCsLaptops

Servers

Digital Signs

DiagnosticEquipmentRemote Medical

MonitorsLogic

Controllers

SpecializedDevicesThin

Clients

Handhelds

Security

POS Terminals

AutomationDevices

VendingMachines

Kinect

ATM

Stream Analytics

入力 出力クエリデータストリーム

参照

bull ldquo入力rdquoldquo出力rdquoをクリックしそれぞれ作成

bull ldquoクエリrdquoをクリックしクエリを定義bull 作業が終わったらldquo開始rdquoで実

行開始

SELECT

INTO

FROM

SELECT user level AS SATLevel timestamp

INTO

FROM

デバイス接続性とデバイス管理およびブローカーサービス

データ管理と高度な分析 情報活用業務の生産性とプロセスの最適化

IoT Agent Gateway

予兆原因の学習モデル

ダッシュボード

参照ERPbull 顧客bull 設備bull 担当者

Notification Hubs

通知

予兆イベント

メンテ方法の推奨

bull ヘルス状態bull インシデント管理bull 対応のディスパッチ

現地技術要員のモバイルデバイス

オペレーションセンター

bull イベント ドア開閉軸アライメントキャビン速度モーター温度など

bull アラーム 故障アラームエラーコードなど

httpisstkeazurewebsitesnet

Event Hub

Stream Analytics

Azure ML

制御機器とセンサーのデータ

マシンデータの蓄積

メンテナンス方法の学習モデル

Machine Learning

Blob Storage

セルフサービス分析

Power BI

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce

cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-

system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of

your data while making it faster to get up and running with

batch streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources

so you can run queries on exabytes of data Includes U-

SQL a new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully

managed NoSQL database service that indexes stores and

queries data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

What do all of these have in common

They can all use Azure Analysis Services

Azure Analysis Services

Azure Analysis Services

BI semantic model

Business logic amp metrics

Data modeling

Security

Azure Analysis Services

Lifecycle management

In-memory cache

On-premises

Cloud

Data sources

SQL Database

SQL Data Warehouse

Other data sources

SQL Server

Analytics platform

system

Other data sources

On-premises

Cloud

Client tools

Power BI

Excel

Third party BI tools

Power BI Desktop

Rich semantic modelling

locatioidentifier

identifiertype

fieldidentifier

numberofunitssoldtodate

remaningnumber

Numberofuntissoldtoday

receivedback

productidentifier

descriptionline1

descriptionline2

qtyafterqtysales

familyidentifier

Source DataComplex raw data optimized for processing

Semantic ModelRich business user friendly semantic model

Product Id

Product Name

Product Description

Category

Category Id

Category Name

Category Description

Sub Category

Product Id

Shelf qty

Return qty

Order qty

Sale qty

Cloud Data

On-Premises

Data

Azure Analysis Services

Lightning fast queries

データ管理をきっかけに処理を実行

Web Glue

Bots IoT

DOMINOS STORES

Key Vault

Azure Active Directory

Azure Files

SSIS FRANCHISEE

AZURE WEST EUROPE

Azure Function

KEMPSSDESSRS

IN- AND EXTERNAL DATA SOURCES

orderprocessing

O365

App Insights

indexhtml

Azure Functions Proxies

couponprocessing

Use Bindings in Your Codefunctionjson

bindings [type httpTriggerdirection inwebHookType genericJsonname req

type httpdirection outname res

type queuename eventOutputqueueName aievents1connectionAiStorageConnectiondirection out

]

public static class OrderHandler

[FunctionName(OrderWebhook)]public static async TaskltHttpResponseMessagegt Run(

[HttpTrigger] HttpRequestMessage req[Queue(aievents1 Connection = AiStorageConnection)]

IAsyncCollectorltStringgt eventOutputTraceWriter log)

logInfo($Webhook was triggered)

string jsonContent = await reqContentReadAsStringAsync()dynamic data = JsonConvertDeserializeObject(jsonContent)

await eventOutputAddAsync(JsonConvertSerializeObject(GetLogData(data)))

int orderId = PlaceOrder(data)

return reqCreateResponse(HttpStatusCodeOK new orderNumber = orderId )

bull Workflow in the cloud

bull Powerful control flow

bull Connect functions and APIs

bull Declarative definition to persist in source control and drive deployments

Logic AppsCloud APIs and platform

bull Supports over 125 built-in connectors

bull Scales to meet your needs

bull Enables rapid development

bull Extends with custom APIs and

Functions

API connections

bull Authenticate once and reuse

Big Data Solutions Decision Tree

httpsbiz-excellencecom20160830big-data-dt

Machine Learning Solutions Decision Tree

httpsbiz-excellencecom20160913machine-

learning-dt

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of your

data while making it faster to get up and running with batch

streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources so

you can run queries on exabytes of data Includes U-SQL a

new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully managed

NoSQL database service that indexes stores and queries

data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

Microsoft Big Data Portfolio

SQL Server Stretch

Business intelligence

Machine learning analytics

Insights

Azure SQL Database

SQL Server 2016

SQL Server 2016 Fast Track

Azure SQL DW

ADLS amp ADLA

DocumentDB

HDInsight

Hadoop

Analytics Platform System

Sequential Scale Out + AcrossScale Up

Key

Relational Non-relational

On

-pre

mis

es

Clo

ud

Microsoft has solutions covering

and connecting all four

quadrants ndash thatrsquos why SQL

Server is one of the most utilized

databases in the world

Azure

Data Lake Store

Azure

Blob StoragePurpose Optimized for big data analytics General purpose bulk storage

Use Cases Batch Interactive Streaming App backend backup data media storage for

streaming

Units of Storage Accounts Folders Files Accounts Containers Blobs

Structure Hierarchical File System Flat namespace

WebHDFS Implements WebHDFS No (WASB)

Security AD SAS keys

Storage Auto SharedFiles chunked Manually manage expansionFiles intact

Service State Generally Available PolyBase

just supported

Generally Available

Billing Pay for data stored and for IO Pay for data stored and for IO

Region Availability Two US regions (Other regions coming soon) All Azure Regions

ADL Store vs Blob Store

httpsdocsmicrosoftcomen-usazuredata-lake-storedata-lake-store-comparison-with-blob-storage

Want Hadoop

Need exact same on-prem

Need interactive streaming

MandatoryNo strong opinion

Azure Marketplace (IaaS)

bull Need all workloads exactly like on-

premises

bull Need 100 HortonworksClouderaMapR

Azure HDInsight

bull Most Hadoop workloads

bull Fully managed by Microsoft

bull Sell HDI + ADLS

bull Stickier to Microsoft than VMs

bull Can do interactive (Spark) and streaming

(StormSpark)

Azure Data Lake Analytics

bull Easiest experience for admin no sense of

clusters instant scale per job

bull Easiest experience for developers Visual

StudioU-SQL (C+SQL)

bull Sell ADLA + ADLS

bull Batch workloads only

Need everything exactly like on-prem

Need core projects Yes Batch is OK

Always present ADLA if NET or Visual Studio Shop

If NET or VS shop

Azure SQL DW HDInsight Hive HDInsight Spark Azure Data Lake SQL Server (IaaS)

Volume Petabytes Petabytes Petabytes Petabytes Terabytes

Security Encryption TD

Audit

ADLS Apache

Ranger

ADLS AAD Security

Groups (data)

Encryption TD

Audit

Languages T-SQL HiveQL SparkSQL HiveQL

Scala Java Python

R

U-SQL T-SQL

Extensibility No Yes NETSerDe Yes Packages Yes NET Yes NET CLR

External File

Types

ORC TXT

Parquet RCFile

ORC CSV Parquet

+ others

Parquet JSON

Hive + others

Many ORC TXT Parquet

RCFile

Admin Low-Medium Medium-High Medium-High Low High

Cost Model DWU Nodes amp VM Nodes amp VM UnitsJobs VM

Schema

Definition

Schema on Write

Polybase

Schema on Read Schema on Read Schema on Read Schema on Write

Polybase

Max DB Size 240TB Comp (5X

= 1PB)

Unlimited 64TB (64 1TB drives)

機械学習 Deep Learning 深層強化学習

画像解析

音声解析

データ分類異常検知 顧客グルーピング

数値予測売上予測 需要予測 品質管理

ラベル分類不良品分析 故障予測 チャーン分析

機械学習より強力な分析

自律学習型ロボット

自動運転車

テキストや画像等の自動生成

活用例

主に多層のニューラルネットワークを用いた手法での分析

分析のためには莫大なデータ量計算量知識スキルを要する

統計に基づいた手法での分析

そのため比較的少ないデータ量と計算量で分析を行うことができる

定義したあるべき姿に従い試行錯誤をして自ら学習を行うための分析手法である強化学習と深層学習を組み合わせた分析

Azure Machine Learning Cognitive Toolkit GPU Instance (N-Series)

マイクロソフトが提供する技術

テキストデータ機器のログデータなど

画像データ監視カメラの録画データ 機器の外観画像 顔画像など

動画データ監視カメラの録画データ 機器の稼働状況 人の作業映像など

音声データマイクからの収集データ 稼働音 室内音 人の音声など

数値データセンサーデータ 機器の制御データ計測データなど672342345

機械学習統計理論に基づいた分析手法を用いる用意するべきデータ量と処理する計算量の敷居が低め導入しやすい

Deep Learningデータ量が大きいため強力な分析手法が必要「膨大なデータ量を用意」「莫大な計算量を処理」が必要で敷居が非常に高い導入にはそれなりの覚悟が必要

Action

People

Automated Systems

Apps

Web

Mobile

Bots

Intelligence

Dashboards amp Visualizations

Cortana

Bot Framework

Cognitive Services

Power BI

Information Management

Event Hubs

Data Catalog

Data Factory

Machine Learning and Analytics

HDInsight

Stream Analytics

Intelligence

Data Lake Analytics

Machine Learning

Big Data Stores

SQL Data Warehouse

Data Lake Store

Data Sources

Apps

Sensors amp Devices

Data

Cortana Intelligence Suite

学習済み

モデル利用

学習モデル

作成

機械学習 教師あり学習

教師なし学習

強化学習

決定木

線形回帰

SVM

ロジスティック回帰

ニューラルネットワーク

クラスタリング

次元削減

Q学習

K-mean法

主成分分析

正準相関分析

ディープニューラルネットワーク

畳みこみニューラルネットワーク

再帰的ニューラルネットワーク

回帰結合ニューラルネットワーク

httpsazuremicrosoftcomen-usservicescognitive-services

わずか数行のコードで強力なアルゴリズムを持つアプリの作成が可能ですiOSAndroidWindows などのプラットフォームを問わず機能します

httpsazuremicrosoftcomja-jpservicesmachine-learning

ユーザーは簡単に予測分析ソリューションを構築デプロイ共有できます

httpswwwyoutubecomwatchv=9gDDO5ldT-4ampfeature=youtube

AI技術を利用したディープラーニング(深層学習)ツールキットです旧称「CNTK」から改名されました

ソースコード httpsgithubcomMicrosoftCNTK

SearchSpeech

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

コカコーラ誕生100周年キャンペーン

コカコーラボトルを「100歳」と認識

bull 自撮り写真をUp結果をSNS拡散

ナビタイムジャパン様

自然言語入力による路線検索BOT

bull ユーザーとの新たな接点(LINE)

bull 自然言語入力

Vision Language Knowledge

Vision Knowledge SearchSpeech Language

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

Microsoft SupportVirtual Agent

自然言語入力による自動応答サポート窓口

bull 過去QampAデータ解析に基づく回答抽出

bull 定型外はldquo人対応rdquo

UBER

登録ドライバーをスマホ経由で顔認証

VOLVO

表情からの危険予測

Search

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

アロバ様

監視カメラによる店舗内行動分析

bull 顔認識による 顧客識別

bull 表情分析

東京サマーランド様にて導入済み

HmComm様

コールセンターソリューション

bull 会話をテキスト化キーワードを解析

bull 過去QampA検索

bull 内容をCRM保存

Vision KnowledgeSpeech Language

導入事例東京サマーランド様

Video

Intelligent KioskhttpsgithubcomMicrosoftCognitive-Samples-IntelligentKiosk

ldquo(want to|request)rdquo

HoloLens

Page 52: やりたいことから考えるMicrosoft Azure 上の データストアの選び方とデータサイエンティスト向け活用法。KVSからDWHまで

一般的なパターン

処理読み込み 保存

INSERT

OUTPUT

OUTPUT

SELECThellip

FROMhellip

WHEREhellip

+

PythonR

EXTRACT

EXTRACT

SELECT

SELECT

Azure

Data

Lake

Azure

Data

Lake

Azure

SQL

DB

Azure

Storage

Blobs

Azure

Storage

Blobs

RowSet RowSet

Cognitive Services

REFERENCE ASSEMBLY WebLogExtASM

rs =

EXTRACT

UserID string

Start DateTime

End DateTime

Region string

SitesVisited string

PagesVisited string

FROM ldquoLogsWebLogRecordstxtrdquo

USING WebLogExtractor ()

result = SELECT UserID

(EndSubtract(Start))TotalSeconds AS Duration

FROM rs ORDER BY Duration DESC FETCH 10

OUTPUT result TO ldquoLogsResultstop10tsv

USING OutputterTsv()

bull 型定義は C の型定義と同じ

bull データをファイルから抽出読み込み

するときにスキーマが必要

Data Lake Store 内 のファイル

独自形式を解析するカスタム関数

C の関数

行セット(中間テーブルの概念

に近い)

TSV形式で書き込む関数

U-SQL ジョブのサブミットAzure PortalやVisual StudioのAzure Data Lake ToolsからU-SQLジョブをサブミット可能

67

進捗

統計情報

従来型の処理分析 Azure Data Lake を中心とした処理分析

Business apps

Custom apps

Sensors and devices

ADL StorePeople

非構造化データも含めてあらゆるデータを格納

Azure SQL DW

Azure AD

Power BI

ADF

ADL Analytics

bull 処理分析業務の大半はデータ準備作業が占めるbull 処理分析業務に手間時間が必要

Business apps

Custom apps

Sensors and devices

HDInsight

ユーザー管理認証

データの連携

Power BI

File System

Database

Database

Hadoop

DWH

Data Mart

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

①大量データの受け入れ

②リアルタイム処理データの集約

③データの蓄積

構造化非構造化文書など様々な形式での保存

④データの加工移行

⑥機械学習

⑦Hadoop解析

⑧マイクロソフト技術を用いた分散解析

⑨通常のRMSが機能を追加した企業向けRを使用した解析

⑪クラウドベースの Self-Service BI 機能

⑫機械学習の予測モデルを業務システムなどから呼び出し可能にするサービス

外部クラウドなどからのデータ取り込み

②リアルタイム処理データの加工

⑤ディープラーニング

⑩Excelを用いた可視化

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

リアルタイム

バッチ

Data Factory Tools for Visual Studio

Azure Portal

Azure TableStorage

(Web ログレコード)

Data Factory

HDInsight

(Web ログをファイルにして

バッチ処理で集計)

SQL Database

(集計データをDB テーブルに格納)

Power BI

社内システム

DataManagement

Gateway

SQL Database

Data Warehouse

Blob Storage

Table Storage

httpportalazurecom

接続

メッセージ作成

メッセージ送信

var cs = ldquo接続文字列rdquovar path = ldquoイベントハブ名rdquovar eh = EventHubClientCreateFromConnectionString(cs path)

var msg = new user = thisUserIdentityNamelevel = leveltimestamp = demoTimestamp

var json = JsonConvertSerializeObject(msg)

ehSend(new EventData(EncodingUTF8GetBytes(json)))

EventProcessorHostを使う

bull

bull

bull

Functionsを使う

bull

bull

IEventProcessorProcessEventAsync(msg)

IEventProcessorProcessEventAsync(msg)

Run(string msg)

Azure azure-sdk-for-python

Point of Service Devices

Self CheckoutStations

Kiosks

Smart Phones

SlatesTablets

PCsLaptops

Servers

Digital Signs

DiagnosticEquipmentRemote Medical

MonitorsLogic

Controllers

SpecializedDevicesThin

Clients

Handhelds

Security

POS Terminals

AutomationDevices

VendingMachines

Kinect

ATM

Stream Analytics

入力 出力クエリデータストリーム

参照

bull ldquo入力rdquoldquo出力rdquoをクリックしそれぞれ作成

bull ldquoクエリrdquoをクリックしクエリを定義bull 作業が終わったらldquo開始rdquoで実

行開始

SELECT

INTO

FROM

SELECT user level AS SATLevel timestamp

INTO

FROM

デバイス接続性とデバイス管理およびブローカーサービス

データ管理と高度な分析 情報活用業務の生産性とプロセスの最適化

IoT Agent Gateway

予兆原因の学習モデル

ダッシュボード

参照ERPbull 顧客bull 設備bull 担当者

Notification Hubs

通知

予兆イベント

メンテ方法の推奨

bull ヘルス状態bull インシデント管理bull 対応のディスパッチ

現地技術要員のモバイルデバイス

オペレーションセンター

bull イベント ドア開閉軸アライメントキャビン速度モーター温度など

bull アラーム 故障アラームエラーコードなど

httpisstkeazurewebsitesnet

Event Hub

Stream Analytics

Azure ML

制御機器とセンサーのデータ

マシンデータの蓄積

メンテナンス方法の学習モデル

Machine Learning

Blob Storage

セルフサービス分析

Power BI

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce

cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-

system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of

your data while making it faster to get up and running with

batch streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources

so you can run queries on exabytes of data Includes U-

SQL a new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully

managed NoSQL database service that indexes stores and

queries data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

What do all of these have in common

They can all use Azure Analysis Services

Azure Analysis Services

Azure Analysis Services

BI semantic model

Business logic amp metrics

Data modeling

Security

Azure Analysis Services

Lifecycle management

In-memory cache

On-premises

Cloud

Data sources

SQL Database

SQL Data Warehouse

Other data sources

SQL Server

Analytics platform

system

Other data sources

On-premises

Cloud

Client tools

Power BI

Excel

Third party BI tools

Power BI Desktop

Rich semantic modelling

locatioidentifier

identifiertype

fieldidentifier

numberofunitssoldtodate

remaningnumber

Numberofuntissoldtoday

receivedback

productidentifier

descriptionline1

descriptionline2

qtyafterqtysales

familyidentifier

Source DataComplex raw data optimized for processing

Semantic ModelRich business user friendly semantic model

Product Id

Product Name

Product Description

Category

Category Id

Category Name

Category Description

Sub Category

Product Id

Shelf qty

Return qty

Order qty

Sale qty

Cloud Data

On-Premises

Data

Azure Analysis Services

Lightning fast queries

データ管理をきっかけに処理を実行

Web Glue

Bots IoT

DOMINOS STORES

Key Vault

Azure Active Directory

Azure Files

SSIS FRANCHISEE

AZURE WEST EUROPE

Azure Function

KEMPSSDESSRS

IN- AND EXTERNAL DATA SOURCES

orderprocessing

O365

App Insights

indexhtml

Azure Functions Proxies

couponprocessing

Use Bindings in Your Codefunctionjson

bindings [type httpTriggerdirection inwebHookType genericJsonname req

type httpdirection outname res

type queuename eventOutputqueueName aievents1connectionAiStorageConnectiondirection out

]

public static class OrderHandler

[FunctionName(OrderWebhook)]public static async TaskltHttpResponseMessagegt Run(

[HttpTrigger] HttpRequestMessage req[Queue(aievents1 Connection = AiStorageConnection)]

IAsyncCollectorltStringgt eventOutputTraceWriter log)

logInfo($Webhook was triggered)

string jsonContent = await reqContentReadAsStringAsync()dynamic data = JsonConvertDeserializeObject(jsonContent)

await eventOutputAddAsync(JsonConvertSerializeObject(GetLogData(data)))

int orderId = PlaceOrder(data)

return reqCreateResponse(HttpStatusCodeOK new orderNumber = orderId )

bull Workflow in the cloud

bull Powerful control flow

bull Connect functions and APIs

bull Declarative definition to persist in source control and drive deployments

Logic AppsCloud APIs and platform

bull Supports over 125 built-in connectors

bull Scales to meet your needs

bull Enables rapid development

bull Extends with custom APIs and

Functions

API connections

bull Authenticate once and reuse

Big Data Solutions Decision Tree

httpsbiz-excellencecom20160830big-data-dt

Machine Learning Solutions Decision Tree

httpsbiz-excellencecom20160913machine-

learning-dt

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of your

data while making it faster to get up and running with batch

streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources so

you can run queries on exabytes of data Includes U-SQL a

new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully managed

NoSQL database service that indexes stores and queries

data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

Microsoft Big Data Portfolio

SQL Server Stretch

Business intelligence

Machine learning analytics

Insights

Azure SQL Database

SQL Server 2016

SQL Server 2016 Fast Track

Azure SQL DW

ADLS amp ADLA

DocumentDB

HDInsight

Hadoop

Analytics Platform System

Sequential Scale Out + AcrossScale Up

Key

Relational Non-relational

On

-pre

mis

es

Clo

ud

Microsoft has solutions covering

and connecting all four

quadrants ndash thatrsquos why SQL

Server is one of the most utilized

databases in the world

Azure

Data Lake Store

Azure

Blob StoragePurpose Optimized for big data analytics General purpose bulk storage

Use Cases Batch Interactive Streaming App backend backup data media storage for

streaming

Units of Storage Accounts Folders Files Accounts Containers Blobs

Structure Hierarchical File System Flat namespace

WebHDFS Implements WebHDFS No (WASB)

Security AD SAS keys

Storage Auto SharedFiles chunked Manually manage expansionFiles intact

Service State Generally Available PolyBase

just supported

Generally Available

Billing Pay for data stored and for IO Pay for data stored and for IO

Region Availability Two US regions (Other regions coming soon) All Azure Regions

ADL Store vs Blob Store

httpsdocsmicrosoftcomen-usazuredata-lake-storedata-lake-store-comparison-with-blob-storage

Want Hadoop

Need exact same on-prem

Need interactive streaming

MandatoryNo strong opinion

Azure Marketplace (IaaS)

bull Need all workloads exactly like on-

premises

bull Need 100 HortonworksClouderaMapR

Azure HDInsight

bull Most Hadoop workloads

bull Fully managed by Microsoft

bull Sell HDI + ADLS

bull Stickier to Microsoft than VMs

bull Can do interactive (Spark) and streaming

(StormSpark)

Azure Data Lake Analytics

bull Easiest experience for admin no sense of

clusters instant scale per job

bull Easiest experience for developers Visual

StudioU-SQL (C+SQL)

bull Sell ADLA + ADLS

bull Batch workloads only

Need everything exactly like on-prem

Need core projects Yes Batch is OK

Always present ADLA if NET or Visual Studio Shop

If NET or VS shop

Azure SQL DW HDInsight Hive HDInsight Spark Azure Data Lake SQL Server (IaaS)

Volume Petabytes Petabytes Petabytes Petabytes Terabytes

Security Encryption TD

Audit

ADLS Apache

Ranger

ADLS AAD Security

Groups (data)

Encryption TD

Audit

Languages T-SQL HiveQL SparkSQL HiveQL

Scala Java Python

R

U-SQL T-SQL

Extensibility No Yes NETSerDe Yes Packages Yes NET Yes NET CLR

External File

Types

ORC TXT

Parquet RCFile

ORC CSV Parquet

+ others

Parquet JSON

Hive + others

Many ORC TXT Parquet

RCFile

Admin Low-Medium Medium-High Medium-High Low High

Cost Model DWU Nodes amp VM Nodes amp VM UnitsJobs VM

Schema

Definition

Schema on Write

Polybase

Schema on Read Schema on Read Schema on Read Schema on Write

Polybase

Max DB Size 240TB Comp (5X

= 1PB)

Unlimited 64TB (64 1TB drives)

機械学習 Deep Learning 深層強化学習

画像解析

音声解析

データ分類異常検知 顧客グルーピング

数値予測売上予測 需要予測 品質管理

ラベル分類不良品分析 故障予測 チャーン分析

機械学習より強力な分析

自律学習型ロボット

自動運転車

テキストや画像等の自動生成

活用例

主に多層のニューラルネットワークを用いた手法での分析

分析のためには莫大なデータ量計算量知識スキルを要する

統計に基づいた手法での分析

そのため比較的少ないデータ量と計算量で分析を行うことができる

定義したあるべき姿に従い試行錯誤をして自ら学習を行うための分析手法である強化学習と深層学習を組み合わせた分析

Azure Machine Learning Cognitive Toolkit GPU Instance (N-Series)

マイクロソフトが提供する技術

テキストデータ機器のログデータなど

画像データ監視カメラの録画データ 機器の外観画像 顔画像など

動画データ監視カメラの録画データ 機器の稼働状況 人の作業映像など

音声データマイクからの収集データ 稼働音 室内音 人の音声など

数値データセンサーデータ 機器の制御データ計測データなど672342345

機械学習統計理論に基づいた分析手法を用いる用意するべきデータ量と処理する計算量の敷居が低め導入しやすい

Deep Learningデータ量が大きいため強力な分析手法が必要「膨大なデータ量を用意」「莫大な計算量を処理」が必要で敷居が非常に高い導入にはそれなりの覚悟が必要

Action

People

Automated Systems

Apps

Web

Mobile

Bots

Intelligence

Dashboards amp Visualizations

Cortana

Bot Framework

Cognitive Services

Power BI

Information Management

Event Hubs

Data Catalog

Data Factory

Machine Learning and Analytics

HDInsight

Stream Analytics

Intelligence

Data Lake Analytics

Machine Learning

Big Data Stores

SQL Data Warehouse

Data Lake Store

Data Sources

Apps

Sensors amp Devices

Data

Cortana Intelligence Suite

学習済み

モデル利用

学習モデル

作成

機械学習 教師あり学習

教師なし学習

強化学習

決定木

線形回帰

SVM

ロジスティック回帰

ニューラルネットワーク

クラスタリング

次元削減

Q学習

K-mean法

主成分分析

正準相関分析

ディープニューラルネットワーク

畳みこみニューラルネットワーク

再帰的ニューラルネットワーク

回帰結合ニューラルネットワーク

httpsazuremicrosoftcomen-usservicescognitive-services

わずか数行のコードで強力なアルゴリズムを持つアプリの作成が可能ですiOSAndroidWindows などのプラットフォームを問わず機能します

httpsazuremicrosoftcomja-jpservicesmachine-learning

ユーザーは簡単に予測分析ソリューションを構築デプロイ共有できます

httpswwwyoutubecomwatchv=9gDDO5ldT-4ampfeature=youtube

AI技術を利用したディープラーニング(深層学習)ツールキットです旧称「CNTK」から改名されました

ソースコード httpsgithubcomMicrosoftCNTK

SearchSpeech

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

コカコーラ誕生100周年キャンペーン

コカコーラボトルを「100歳」と認識

bull 自撮り写真をUp結果をSNS拡散

ナビタイムジャパン様

自然言語入力による路線検索BOT

bull ユーザーとの新たな接点(LINE)

bull 自然言語入力

Vision Language Knowledge

Vision Knowledge SearchSpeech Language

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

Microsoft SupportVirtual Agent

自然言語入力による自動応答サポート窓口

bull 過去QampAデータ解析に基づく回答抽出

bull 定型外はldquo人対応rdquo

UBER

登録ドライバーをスマホ経由で顔認証

VOLVO

表情からの危険予測

Search

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

アロバ様

監視カメラによる店舗内行動分析

bull 顔認識による 顧客識別

bull 表情分析

東京サマーランド様にて導入済み

HmComm様

コールセンターソリューション

bull 会話をテキスト化キーワードを解析

bull 過去QampA検索

bull 内容をCRM保存

Vision KnowledgeSpeech Language

導入事例東京サマーランド様

Video

Intelligent KioskhttpsgithubcomMicrosoftCognitive-Samples-IntelligentKiosk

ldquo(want to|request)rdquo

HoloLens

Page 53: やりたいことから考えるMicrosoft Azure 上の データストアの選び方とデータサイエンティスト向け活用法。KVSからDWHまで

REFERENCE ASSEMBLY WebLogExtASM

rs =

EXTRACT

UserID string

Start DateTime

End DateTime

Region string

SitesVisited string

PagesVisited string

FROM ldquoLogsWebLogRecordstxtrdquo

USING WebLogExtractor ()

result = SELECT UserID

(EndSubtract(Start))TotalSeconds AS Duration

FROM rs ORDER BY Duration DESC FETCH 10

OUTPUT result TO ldquoLogsResultstop10tsv

USING OutputterTsv()

bull 型定義は C の型定義と同じ

bull データをファイルから抽出読み込み

するときにスキーマが必要

Data Lake Store 内 のファイル

独自形式を解析するカスタム関数

C の関数

行セット(中間テーブルの概念

に近い)

TSV形式で書き込む関数

U-SQL ジョブのサブミットAzure PortalやVisual StudioのAzure Data Lake ToolsからU-SQLジョブをサブミット可能

67

進捗

統計情報

従来型の処理分析 Azure Data Lake を中心とした処理分析

Business apps

Custom apps

Sensors and devices

ADL StorePeople

非構造化データも含めてあらゆるデータを格納

Azure SQL DW

Azure AD

Power BI

ADF

ADL Analytics

bull 処理分析業務の大半はデータ準備作業が占めるbull 処理分析業務に手間時間が必要

Business apps

Custom apps

Sensors and devices

HDInsight

ユーザー管理認証

データの連携

Power BI

File System

Database

Database

Hadoop

DWH

Data Mart

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

①大量データの受け入れ

②リアルタイム処理データの集約

③データの蓄積

構造化非構造化文書など様々な形式での保存

④データの加工移行

⑥機械学習

⑦Hadoop解析

⑧マイクロソフト技術を用いた分散解析

⑨通常のRMSが機能を追加した企業向けRを使用した解析

⑪クラウドベースの Self-Service BI 機能

⑫機械学習の予測モデルを業務システムなどから呼び出し可能にするサービス

外部クラウドなどからのデータ取り込み

②リアルタイム処理データの加工

⑤ディープラーニング

⑩Excelを用いた可視化

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

リアルタイム

バッチ

Data Factory Tools for Visual Studio

Azure Portal

Azure TableStorage

(Web ログレコード)

Data Factory

HDInsight

(Web ログをファイルにして

バッチ処理で集計)

SQL Database

(集計データをDB テーブルに格納)

Power BI

社内システム

DataManagement

Gateway

SQL Database

Data Warehouse

Blob Storage

Table Storage

httpportalazurecom

接続

メッセージ作成

メッセージ送信

var cs = ldquo接続文字列rdquovar path = ldquoイベントハブ名rdquovar eh = EventHubClientCreateFromConnectionString(cs path)

var msg = new user = thisUserIdentityNamelevel = leveltimestamp = demoTimestamp

var json = JsonConvertSerializeObject(msg)

ehSend(new EventData(EncodingUTF8GetBytes(json)))

EventProcessorHostを使う

bull

bull

bull

Functionsを使う

bull

bull

IEventProcessorProcessEventAsync(msg)

IEventProcessorProcessEventAsync(msg)

Run(string msg)

Azure azure-sdk-for-python

Point of Service Devices

Self CheckoutStations

Kiosks

Smart Phones

SlatesTablets

PCsLaptops

Servers

Digital Signs

DiagnosticEquipmentRemote Medical

MonitorsLogic

Controllers

SpecializedDevicesThin

Clients

Handhelds

Security

POS Terminals

AutomationDevices

VendingMachines

Kinect

ATM

Stream Analytics

入力 出力クエリデータストリーム

参照

bull ldquo入力rdquoldquo出力rdquoをクリックしそれぞれ作成

bull ldquoクエリrdquoをクリックしクエリを定義bull 作業が終わったらldquo開始rdquoで実

行開始

SELECT

INTO

FROM

SELECT user level AS SATLevel timestamp

INTO

FROM

デバイス接続性とデバイス管理およびブローカーサービス

データ管理と高度な分析 情報活用業務の生産性とプロセスの最適化

IoT Agent Gateway

予兆原因の学習モデル

ダッシュボード

参照ERPbull 顧客bull 設備bull 担当者

Notification Hubs

通知

予兆イベント

メンテ方法の推奨

bull ヘルス状態bull インシデント管理bull 対応のディスパッチ

現地技術要員のモバイルデバイス

オペレーションセンター

bull イベント ドア開閉軸アライメントキャビン速度モーター温度など

bull アラーム 故障アラームエラーコードなど

httpisstkeazurewebsitesnet

Event Hub

Stream Analytics

Azure ML

制御機器とセンサーのデータ

マシンデータの蓄積

メンテナンス方法の学習モデル

Machine Learning

Blob Storage

セルフサービス分析

Power BI

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce

cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-

system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of

your data while making it faster to get up and running with

batch streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources

so you can run queries on exabytes of data Includes U-

SQL a new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully

managed NoSQL database service that indexes stores and

queries data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

What do all of these have in common

They can all use Azure Analysis Services

Azure Analysis Services

Azure Analysis Services

BI semantic model

Business logic amp metrics

Data modeling

Security

Azure Analysis Services

Lifecycle management

In-memory cache

On-premises

Cloud

Data sources

SQL Database

SQL Data Warehouse

Other data sources

SQL Server

Analytics platform

system

Other data sources

On-premises

Cloud

Client tools

Power BI

Excel

Third party BI tools

Power BI Desktop

Rich semantic modelling

locatioidentifier

identifiertype

fieldidentifier

numberofunitssoldtodate

remaningnumber

Numberofuntissoldtoday

receivedback

productidentifier

descriptionline1

descriptionline2

qtyafterqtysales

familyidentifier

Source DataComplex raw data optimized for processing

Semantic ModelRich business user friendly semantic model

Product Id

Product Name

Product Description

Category

Category Id

Category Name

Category Description

Sub Category

Product Id

Shelf qty

Return qty

Order qty

Sale qty

Cloud Data

On-Premises

Data

Azure Analysis Services

Lightning fast queries

データ管理をきっかけに処理を実行

Web Glue

Bots IoT

DOMINOS STORES

Key Vault

Azure Active Directory

Azure Files

SSIS FRANCHISEE

AZURE WEST EUROPE

Azure Function

KEMPSSDESSRS

IN- AND EXTERNAL DATA SOURCES

orderprocessing

O365

App Insights

indexhtml

Azure Functions Proxies

couponprocessing

Use Bindings in Your Codefunctionjson

bindings [type httpTriggerdirection inwebHookType genericJsonname req

type httpdirection outname res

type queuename eventOutputqueueName aievents1connectionAiStorageConnectiondirection out

]

public static class OrderHandler

[FunctionName(OrderWebhook)]public static async TaskltHttpResponseMessagegt Run(

[HttpTrigger] HttpRequestMessage req[Queue(aievents1 Connection = AiStorageConnection)]

IAsyncCollectorltStringgt eventOutputTraceWriter log)

logInfo($Webhook was triggered)

string jsonContent = await reqContentReadAsStringAsync()dynamic data = JsonConvertDeserializeObject(jsonContent)

await eventOutputAddAsync(JsonConvertSerializeObject(GetLogData(data)))

int orderId = PlaceOrder(data)

return reqCreateResponse(HttpStatusCodeOK new orderNumber = orderId )

bull Workflow in the cloud

bull Powerful control flow

bull Connect functions and APIs

bull Declarative definition to persist in source control and drive deployments

Logic AppsCloud APIs and platform

bull Supports over 125 built-in connectors

bull Scales to meet your needs

bull Enables rapid development

bull Extends with custom APIs and

Functions

API connections

bull Authenticate once and reuse

Big Data Solutions Decision Tree

httpsbiz-excellencecom20160830big-data-dt

Machine Learning Solutions Decision Tree

httpsbiz-excellencecom20160913machine-

learning-dt

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of your

data while making it faster to get up and running with batch

streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources so

you can run queries on exabytes of data Includes U-SQL a

new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully managed

NoSQL database service that indexes stores and queries

data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

Microsoft Big Data Portfolio

SQL Server Stretch

Business intelligence

Machine learning analytics

Insights

Azure SQL Database

SQL Server 2016

SQL Server 2016 Fast Track

Azure SQL DW

ADLS amp ADLA

DocumentDB

HDInsight

Hadoop

Analytics Platform System

Sequential Scale Out + AcrossScale Up

Key

Relational Non-relational

On

-pre

mis

es

Clo

ud

Microsoft has solutions covering

and connecting all four

quadrants ndash thatrsquos why SQL

Server is one of the most utilized

databases in the world

Azure

Data Lake Store

Azure

Blob StoragePurpose Optimized for big data analytics General purpose bulk storage

Use Cases Batch Interactive Streaming App backend backup data media storage for

streaming

Units of Storage Accounts Folders Files Accounts Containers Blobs

Structure Hierarchical File System Flat namespace

WebHDFS Implements WebHDFS No (WASB)

Security AD SAS keys

Storage Auto SharedFiles chunked Manually manage expansionFiles intact

Service State Generally Available PolyBase

just supported

Generally Available

Billing Pay for data stored and for IO Pay for data stored and for IO

Region Availability Two US regions (Other regions coming soon) All Azure Regions

ADL Store vs Blob Store

httpsdocsmicrosoftcomen-usazuredata-lake-storedata-lake-store-comparison-with-blob-storage

Want Hadoop

Need exact same on-prem

Need interactive streaming

MandatoryNo strong opinion

Azure Marketplace (IaaS)

bull Need all workloads exactly like on-

premises

bull Need 100 HortonworksClouderaMapR

Azure HDInsight

bull Most Hadoop workloads

bull Fully managed by Microsoft

bull Sell HDI + ADLS

bull Stickier to Microsoft than VMs

bull Can do interactive (Spark) and streaming

(StormSpark)

Azure Data Lake Analytics

bull Easiest experience for admin no sense of

clusters instant scale per job

bull Easiest experience for developers Visual

StudioU-SQL (C+SQL)

bull Sell ADLA + ADLS

bull Batch workloads only

Need everything exactly like on-prem

Need core projects Yes Batch is OK

Always present ADLA if NET or Visual Studio Shop

If NET or VS shop

Azure SQL DW HDInsight Hive HDInsight Spark Azure Data Lake SQL Server (IaaS)

Volume Petabytes Petabytes Petabytes Petabytes Terabytes

Security Encryption TD

Audit

ADLS Apache

Ranger

ADLS AAD Security

Groups (data)

Encryption TD

Audit

Languages T-SQL HiveQL SparkSQL HiveQL

Scala Java Python

R

U-SQL T-SQL

Extensibility No Yes NETSerDe Yes Packages Yes NET Yes NET CLR

External File

Types

ORC TXT

Parquet RCFile

ORC CSV Parquet

+ others

Parquet JSON

Hive + others

Many ORC TXT Parquet

RCFile

Admin Low-Medium Medium-High Medium-High Low High

Cost Model DWU Nodes amp VM Nodes amp VM UnitsJobs VM

Schema

Definition

Schema on Write

Polybase

Schema on Read Schema on Read Schema on Read Schema on Write

Polybase

Max DB Size 240TB Comp (5X

= 1PB)

Unlimited 64TB (64 1TB drives)

機械学習 Deep Learning 深層強化学習

画像解析

音声解析

データ分類異常検知 顧客グルーピング

数値予測売上予測 需要予測 品質管理

ラベル分類不良品分析 故障予測 チャーン分析

機械学習より強力な分析

自律学習型ロボット

自動運転車

テキストや画像等の自動生成

活用例

主に多層のニューラルネットワークを用いた手法での分析

分析のためには莫大なデータ量計算量知識スキルを要する

統計に基づいた手法での分析

そのため比較的少ないデータ量と計算量で分析を行うことができる

定義したあるべき姿に従い試行錯誤をして自ら学習を行うための分析手法である強化学習と深層学習を組み合わせた分析

Azure Machine Learning Cognitive Toolkit GPU Instance (N-Series)

マイクロソフトが提供する技術

テキストデータ機器のログデータなど

画像データ監視カメラの録画データ 機器の外観画像 顔画像など

動画データ監視カメラの録画データ 機器の稼働状況 人の作業映像など

音声データマイクからの収集データ 稼働音 室内音 人の音声など

数値データセンサーデータ 機器の制御データ計測データなど672342345

機械学習統計理論に基づいた分析手法を用いる用意するべきデータ量と処理する計算量の敷居が低め導入しやすい

Deep Learningデータ量が大きいため強力な分析手法が必要「膨大なデータ量を用意」「莫大な計算量を処理」が必要で敷居が非常に高い導入にはそれなりの覚悟が必要

Action

People

Automated Systems

Apps

Web

Mobile

Bots

Intelligence

Dashboards amp Visualizations

Cortana

Bot Framework

Cognitive Services

Power BI

Information Management

Event Hubs

Data Catalog

Data Factory

Machine Learning and Analytics

HDInsight

Stream Analytics

Intelligence

Data Lake Analytics

Machine Learning

Big Data Stores

SQL Data Warehouse

Data Lake Store

Data Sources

Apps

Sensors amp Devices

Data

Cortana Intelligence Suite

学習済み

モデル利用

学習モデル

作成

機械学習 教師あり学習

教師なし学習

強化学習

決定木

線形回帰

SVM

ロジスティック回帰

ニューラルネットワーク

クラスタリング

次元削減

Q学習

K-mean法

主成分分析

正準相関分析

ディープニューラルネットワーク

畳みこみニューラルネットワーク

再帰的ニューラルネットワーク

回帰結合ニューラルネットワーク

httpsazuremicrosoftcomen-usservicescognitive-services

わずか数行のコードで強力なアルゴリズムを持つアプリの作成が可能ですiOSAndroidWindows などのプラットフォームを問わず機能します

httpsazuremicrosoftcomja-jpservicesmachine-learning

ユーザーは簡単に予測分析ソリューションを構築デプロイ共有できます

httpswwwyoutubecomwatchv=9gDDO5ldT-4ampfeature=youtube

AI技術を利用したディープラーニング(深層学習)ツールキットです旧称「CNTK」から改名されました

ソースコード httpsgithubcomMicrosoftCNTK

SearchSpeech

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

コカコーラ誕生100周年キャンペーン

コカコーラボトルを「100歳」と認識

bull 自撮り写真をUp結果をSNS拡散

ナビタイムジャパン様

自然言語入力による路線検索BOT

bull ユーザーとの新たな接点(LINE)

bull 自然言語入力

Vision Language Knowledge

Vision Knowledge SearchSpeech Language

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

Microsoft SupportVirtual Agent

自然言語入力による自動応答サポート窓口

bull 過去QampAデータ解析に基づく回答抽出

bull 定型外はldquo人対応rdquo

UBER

登録ドライバーをスマホ経由で顔認証

VOLVO

表情からの危険予測

Search

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

アロバ様

監視カメラによる店舗内行動分析

bull 顔認識による 顧客識別

bull 表情分析

東京サマーランド様にて導入済み

HmComm様

コールセンターソリューション

bull 会話をテキスト化キーワードを解析

bull 過去QampA検索

bull 内容をCRM保存

Vision KnowledgeSpeech Language

導入事例東京サマーランド様

Video

Intelligent KioskhttpsgithubcomMicrosoftCognitive-Samples-IntelligentKiosk

ldquo(want to|request)rdquo

HoloLens

Page 54: やりたいことから考えるMicrosoft Azure 上の データストアの選び方とデータサイエンティスト向け活用法。KVSからDWHまで

U-SQL ジョブのサブミットAzure PortalやVisual StudioのAzure Data Lake ToolsからU-SQLジョブをサブミット可能

67

進捗

統計情報

従来型の処理分析 Azure Data Lake を中心とした処理分析

Business apps

Custom apps

Sensors and devices

ADL StorePeople

非構造化データも含めてあらゆるデータを格納

Azure SQL DW

Azure AD

Power BI

ADF

ADL Analytics

bull 処理分析業務の大半はデータ準備作業が占めるbull 処理分析業務に手間時間が必要

Business apps

Custom apps

Sensors and devices

HDInsight

ユーザー管理認証

データの連携

Power BI

File System

Database

Database

Hadoop

DWH

Data Mart

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

①大量データの受け入れ

②リアルタイム処理データの集約

③データの蓄積

構造化非構造化文書など様々な形式での保存

④データの加工移行

⑥機械学習

⑦Hadoop解析

⑧マイクロソフト技術を用いた分散解析

⑨通常のRMSが機能を追加した企業向けRを使用した解析

⑪クラウドベースの Self-Service BI 機能

⑫機械学習の予測モデルを業務システムなどから呼び出し可能にするサービス

外部クラウドなどからのデータ取り込み

②リアルタイム処理データの加工

⑤ディープラーニング

⑩Excelを用いた可視化

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

リアルタイム

バッチ

Data Factory Tools for Visual Studio

Azure Portal

Azure TableStorage

(Web ログレコード)

Data Factory

HDInsight

(Web ログをファイルにして

バッチ処理で集計)

SQL Database

(集計データをDB テーブルに格納)

Power BI

社内システム

DataManagement

Gateway

SQL Database

Data Warehouse

Blob Storage

Table Storage

httpportalazurecom

接続

メッセージ作成

メッセージ送信

var cs = ldquo接続文字列rdquovar path = ldquoイベントハブ名rdquovar eh = EventHubClientCreateFromConnectionString(cs path)

var msg = new user = thisUserIdentityNamelevel = leveltimestamp = demoTimestamp

var json = JsonConvertSerializeObject(msg)

ehSend(new EventData(EncodingUTF8GetBytes(json)))

EventProcessorHostを使う

bull

bull

bull

Functionsを使う

bull

bull

IEventProcessorProcessEventAsync(msg)

IEventProcessorProcessEventAsync(msg)

Run(string msg)

Azure azure-sdk-for-python

Point of Service Devices

Self CheckoutStations

Kiosks

Smart Phones

SlatesTablets

PCsLaptops

Servers

Digital Signs

DiagnosticEquipmentRemote Medical

MonitorsLogic

Controllers

SpecializedDevicesThin

Clients

Handhelds

Security

POS Terminals

AutomationDevices

VendingMachines

Kinect

ATM

Stream Analytics

入力 出力クエリデータストリーム

参照

bull ldquo入力rdquoldquo出力rdquoをクリックしそれぞれ作成

bull ldquoクエリrdquoをクリックしクエリを定義bull 作業が終わったらldquo開始rdquoで実

行開始

SELECT

INTO

FROM

SELECT user level AS SATLevel timestamp

INTO

FROM

デバイス接続性とデバイス管理およびブローカーサービス

データ管理と高度な分析 情報活用業務の生産性とプロセスの最適化

IoT Agent Gateway

予兆原因の学習モデル

ダッシュボード

参照ERPbull 顧客bull 設備bull 担当者

Notification Hubs

通知

予兆イベント

メンテ方法の推奨

bull ヘルス状態bull インシデント管理bull 対応のディスパッチ

現地技術要員のモバイルデバイス

オペレーションセンター

bull イベント ドア開閉軸アライメントキャビン速度モーター温度など

bull アラーム 故障アラームエラーコードなど

httpisstkeazurewebsitesnet

Event Hub

Stream Analytics

Azure ML

制御機器とセンサーのデータ

マシンデータの蓄積

メンテナンス方法の学習モデル

Machine Learning

Blob Storage

セルフサービス分析

Power BI

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce

cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-

system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of

your data while making it faster to get up and running with

batch streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources

so you can run queries on exabytes of data Includes U-

SQL a new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully

managed NoSQL database service that indexes stores and

queries data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

What do all of these have in common

They can all use Azure Analysis Services

Azure Analysis Services

Azure Analysis Services

BI semantic model

Business logic amp metrics

Data modeling

Security

Azure Analysis Services

Lifecycle management

In-memory cache

On-premises

Cloud

Data sources

SQL Database

SQL Data Warehouse

Other data sources

SQL Server

Analytics platform

system

Other data sources

On-premises

Cloud

Client tools

Power BI

Excel

Third party BI tools

Power BI Desktop

Rich semantic modelling

locatioidentifier

identifiertype

fieldidentifier

numberofunitssoldtodate

remaningnumber

Numberofuntissoldtoday

receivedback

productidentifier

descriptionline1

descriptionline2

qtyafterqtysales

familyidentifier

Source DataComplex raw data optimized for processing

Semantic ModelRich business user friendly semantic model

Product Id

Product Name

Product Description

Category

Category Id

Category Name

Category Description

Sub Category

Product Id

Shelf qty

Return qty

Order qty

Sale qty

Cloud Data

On-Premises

Data

Azure Analysis Services

Lightning fast queries

データ管理をきっかけに処理を実行

Web Glue

Bots IoT

DOMINOS STORES

Key Vault

Azure Active Directory

Azure Files

SSIS FRANCHISEE

AZURE WEST EUROPE

Azure Function

KEMPSSDESSRS

IN- AND EXTERNAL DATA SOURCES

orderprocessing

O365

App Insights

indexhtml

Azure Functions Proxies

couponprocessing

Use Bindings in Your Codefunctionjson

bindings [type httpTriggerdirection inwebHookType genericJsonname req

type httpdirection outname res

type queuename eventOutputqueueName aievents1connectionAiStorageConnectiondirection out

]

public static class OrderHandler

[FunctionName(OrderWebhook)]public static async TaskltHttpResponseMessagegt Run(

[HttpTrigger] HttpRequestMessage req[Queue(aievents1 Connection = AiStorageConnection)]

IAsyncCollectorltStringgt eventOutputTraceWriter log)

logInfo($Webhook was triggered)

string jsonContent = await reqContentReadAsStringAsync()dynamic data = JsonConvertDeserializeObject(jsonContent)

await eventOutputAddAsync(JsonConvertSerializeObject(GetLogData(data)))

int orderId = PlaceOrder(data)

return reqCreateResponse(HttpStatusCodeOK new orderNumber = orderId )

bull Workflow in the cloud

bull Powerful control flow

bull Connect functions and APIs

bull Declarative definition to persist in source control and drive deployments

Logic AppsCloud APIs and platform

bull Supports over 125 built-in connectors

bull Scales to meet your needs

bull Enables rapid development

bull Extends with custom APIs and

Functions

API connections

bull Authenticate once and reuse

Big Data Solutions Decision Tree

httpsbiz-excellencecom20160830big-data-dt

Machine Learning Solutions Decision Tree

httpsbiz-excellencecom20160913machine-

learning-dt

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of your

data while making it faster to get up and running with batch

streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources so

you can run queries on exabytes of data Includes U-SQL a

new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully managed

NoSQL database service that indexes stores and queries

data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

Microsoft Big Data Portfolio

SQL Server Stretch

Business intelligence

Machine learning analytics

Insights

Azure SQL Database

SQL Server 2016

SQL Server 2016 Fast Track

Azure SQL DW

ADLS amp ADLA

DocumentDB

HDInsight

Hadoop

Analytics Platform System

Sequential Scale Out + AcrossScale Up

Key

Relational Non-relational

On

-pre

mis

es

Clo

ud

Microsoft has solutions covering

and connecting all four

quadrants ndash thatrsquos why SQL

Server is one of the most utilized

databases in the world

Azure

Data Lake Store

Azure

Blob StoragePurpose Optimized for big data analytics General purpose bulk storage

Use Cases Batch Interactive Streaming App backend backup data media storage for

streaming

Units of Storage Accounts Folders Files Accounts Containers Blobs

Structure Hierarchical File System Flat namespace

WebHDFS Implements WebHDFS No (WASB)

Security AD SAS keys

Storage Auto SharedFiles chunked Manually manage expansionFiles intact

Service State Generally Available PolyBase

just supported

Generally Available

Billing Pay for data stored and for IO Pay for data stored and for IO

Region Availability Two US regions (Other regions coming soon) All Azure Regions

ADL Store vs Blob Store

httpsdocsmicrosoftcomen-usazuredata-lake-storedata-lake-store-comparison-with-blob-storage

Want Hadoop

Need exact same on-prem

Need interactive streaming

MandatoryNo strong opinion

Azure Marketplace (IaaS)

bull Need all workloads exactly like on-

premises

bull Need 100 HortonworksClouderaMapR

Azure HDInsight

bull Most Hadoop workloads

bull Fully managed by Microsoft

bull Sell HDI + ADLS

bull Stickier to Microsoft than VMs

bull Can do interactive (Spark) and streaming

(StormSpark)

Azure Data Lake Analytics

bull Easiest experience for admin no sense of

clusters instant scale per job

bull Easiest experience for developers Visual

StudioU-SQL (C+SQL)

bull Sell ADLA + ADLS

bull Batch workloads only

Need everything exactly like on-prem

Need core projects Yes Batch is OK

Always present ADLA if NET or Visual Studio Shop

If NET or VS shop

Azure SQL DW HDInsight Hive HDInsight Spark Azure Data Lake SQL Server (IaaS)

Volume Petabytes Petabytes Petabytes Petabytes Terabytes

Security Encryption TD

Audit

ADLS Apache

Ranger

ADLS AAD Security

Groups (data)

Encryption TD

Audit

Languages T-SQL HiveQL SparkSQL HiveQL

Scala Java Python

R

U-SQL T-SQL

Extensibility No Yes NETSerDe Yes Packages Yes NET Yes NET CLR

External File

Types

ORC TXT

Parquet RCFile

ORC CSV Parquet

+ others

Parquet JSON

Hive + others

Many ORC TXT Parquet

RCFile

Admin Low-Medium Medium-High Medium-High Low High

Cost Model DWU Nodes amp VM Nodes amp VM UnitsJobs VM

Schema

Definition

Schema on Write

Polybase

Schema on Read Schema on Read Schema on Read Schema on Write

Polybase

Max DB Size 240TB Comp (5X

= 1PB)

Unlimited 64TB (64 1TB drives)

機械学習 Deep Learning 深層強化学習

画像解析

音声解析

データ分類異常検知 顧客グルーピング

数値予測売上予測 需要予測 品質管理

ラベル分類不良品分析 故障予測 チャーン分析

機械学習より強力な分析

自律学習型ロボット

自動運転車

テキストや画像等の自動生成

活用例

主に多層のニューラルネットワークを用いた手法での分析

分析のためには莫大なデータ量計算量知識スキルを要する

統計に基づいた手法での分析

そのため比較的少ないデータ量と計算量で分析を行うことができる

定義したあるべき姿に従い試行錯誤をして自ら学習を行うための分析手法である強化学習と深層学習を組み合わせた分析

Azure Machine Learning Cognitive Toolkit GPU Instance (N-Series)

マイクロソフトが提供する技術

テキストデータ機器のログデータなど

画像データ監視カメラの録画データ 機器の外観画像 顔画像など

動画データ監視カメラの録画データ 機器の稼働状況 人の作業映像など

音声データマイクからの収集データ 稼働音 室内音 人の音声など

数値データセンサーデータ 機器の制御データ計測データなど672342345

機械学習統計理論に基づいた分析手法を用いる用意するべきデータ量と処理する計算量の敷居が低め導入しやすい

Deep Learningデータ量が大きいため強力な分析手法が必要「膨大なデータ量を用意」「莫大な計算量を処理」が必要で敷居が非常に高い導入にはそれなりの覚悟が必要

Action

People

Automated Systems

Apps

Web

Mobile

Bots

Intelligence

Dashboards amp Visualizations

Cortana

Bot Framework

Cognitive Services

Power BI

Information Management

Event Hubs

Data Catalog

Data Factory

Machine Learning and Analytics

HDInsight

Stream Analytics

Intelligence

Data Lake Analytics

Machine Learning

Big Data Stores

SQL Data Warehouse

Data Lake Store

Data Sources

Apps

Sensors amp Devices

Data

Cortana Intelligence Suite

学習済み

モデル利用

学習モデル

作成

機械学習 教師あり学習

教師なし学習

強化学習

決定木

線形回帰

SVM

ロジスティック回帰

ニューラルネットワーク

クラスタリング

次元削減

Q学習

K-mean法

主成分分析

正準相関分析

ディープニューラルネットワーク

畳みこみニューラルネットワーク

再帰的ニューラルネットワーク

回帰結合ニューラルネットワーク

httpsazuremicrosoftcomen-usservicescognitive-services

わずか数行のコードで強力なアルゴリズムを持つアプリの作成が可能ですiOSAndroidWindows などのプラットフォームを問わず機能します

httpsazuremicrosoftcomja-jpservicesmachine-learning

ユーザーは簡単に予測分析ソリューションを構築デプロイ共有できます

httpswwwyoutubecomwatchv=9gDDO5ldT-4ampfeature=youtube

AI技術を利用したディープラーニング(深層学習)ツールキットです旧称「CNTK」から改名されました

ソースコード httpsgithubcomMicrosoftCNTK

SearchSpeech

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

コカコーラ誕生100周年キャンペーン

コカコーラボトルを「100歳」と認識

bull 自撮り写真をUp結果をSNS拡散

ナビタイムジャパン様

自然言語入力による路線検索BOT

bull ユーザーとの新たな接点(LINE)

bull 自然言語入力

Vision Language Knowledge

Vision Knowledge SearchSpeech Language

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

Microsoft SupportVirtual Agent

自然言語入力による自動応答サポート窓口

bull 過去QampAデータ解析に基づく回答抽出

bull 定型外はldquo人対応rdquo

UBER

登録ドライバーをスマホ経由で顔認証

VOLVO

表情からの危険予測

Search

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

アロバ様

監視カメラによる店舗内行動分析

bull 顔認識による 顧客識別

bull 表情分析

東京サマーランド様にて導入済み

HmComm様

コールセンターソリューション

bull 会話をテキスト化キーワードを解析

bull 過去QampA検索

bull 内容をCRM保存

Vision KnowledgeSpeech Language

導入事例東京サマーランド様

Video

Intelligent KioskhttpsgithubcomMicrosoftCognitive-Samples-IntelligentKiosk

ldquo(want to|request)rdquo

HoloLens

Page 55: やりたいことから考えるMicrosoft Azure 上の データストアの選び方とデータサイエンティスト向け活用法。KVSからDWHまで

進捗

統計情報

従来型の処理分析 Azure Data Lake を中心とした処理分析

Business apps

Custom apps

Sensors and devices

ADL StorePeople

非構造化データも含めてあらゆるデータを格納

Azure SQL DW

Azure AD

Power BI

ADF

ADL Analytics

bull 処理分析業務の大半はデータ準備作業が占めるbull 処理分析業務に手間時間が必要

Business apps

Custom apps

Sensors and devices

HDInsight

ユーザー管理認証

データの連携

Power BI

File System

Database

Database

Hadoop

DWH

Data Mart

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

①大量データの受け入れ

②リアルタイム処理データの集約

③データの蓄積

構造化非構造化文書など様々な形式での保存

④データの加工移行

⑥機械学習

⑦Hadoop解析

⑧マイクロソフト技術を用いた分散解析

⑨通常のRMSが機能を追加した企業向けRを使用した解析

⑪クラウドベースの Self-Service BI 機能

⑫機械学習の予測モデルを業務システムなどから呼び出し可能にするサービス

外部クラウドなどからのデータ取り込み

②リアルタイム処理データの加工

⑤ディープラーニング

⑩Excelを用いた可視化

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

リアルタイム

バッチ

Data Factory Tools for Visual Studio

Azure Portal

Azure TableStorage

(Web ログレコード)

Data Factory

HDInsight

(Web ログをファイルにして

バッチ処理で集計)

SQL Database

(集計データをDB テーブルに格納)

Power BI

社内システム

DataManagement

Gateway

SQL Database

Data Warehouse

Blob Storage

Table Storage

httpportalazurecom

接続

メッセージ作成

メッセージ送信

var cs = ldquo接続文字列rdquovar path = ldquoイベントハブ名rdquovar eh = EventHubClientCreateFromConnectionString(cs path)

var msg = new user = thisUserIdentityNamelevel = leveltimestamp = demoTimestamp

var json = JsonConvertSerializeObject(msg)

ehSend(new EventData(EncodingUTF8GetBytes(json)))

EventProcessorHostを使う

bull

bull

bull

Functionsを使う

bull

bull

IEventProcessorProcessEventAsync(msg)

IEventProcessorProcessEventAsync(msg)

Run(string msg)

Azure azure-sdk-for-python

Point of Service Devices

Self CheckoutStations

Kiosks

Smart Phones

SlatesTablets

PCsLaptops

Servers

Digital Signs

DiagnosticEquipmentRemote Medical

MonitorsLogic

Controllers

SpecializedDevicesThin

Clients

Handhelds

Security

POS Terminals

AutomationDevices

VendingMachines

Kinect

ATM

Stream Analytics

入力 出力クエリデータストリーム

参照

bull ldquo入力rdquoldquo出力rdquoをクリックしそれぞれ作成

bull ldquoクエリrdquoをクリックしクエリを定義bull 作業が終わったらldquo開始rdquoで実

行開始

SELECT

INTO

FROM

SELECT user level AS SATLevel timestamp

INTO

FROM

デバイス接続性とデバイス管理およびブローカーサービス

データ管理と高度な分析 情報活用業務の生産性とプロセスの最適化

IoT Agent Gateway

予兆原因の学習モデル

ダッシュボード

参照ERPbull 顧客bull 設備bull 担当者

Notification Hubs

通知

予兆イベント

メンテ方法の推奨

bull ヘルス状態bull インシデント管理bull 対応のディスパッチ

現地技術要員のモバイルデバイス

オペレーションセンター

bull イベント ドア開閉軸アライメントキャビン速度モーター温度など

bull アラーム 故障アラームエラーコードなど

httpisstkeazurewebsitesnet

Event Hub

Stream Analytics

Azure ML

制御機器とセンサーのデータ

マシンデータの蓄積

メンテナンス方法の学習モデル

Machine Learning

Blob Storage

セルフサービス分析

Power BI

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce

cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-

system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of

your data while making it faster to get up and running with

batch streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources

so you can run queries on exabytes of data Includes U-

SQL a new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully

managed NoSQL database service that indexes stores and

queries data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

What do all of these have in common

They can all use Azure Analysis Services

Azure Analysis Services

Azure Analysis Services

BI semantic model

Business logic amp metrics

Data modeling

Security

Azure Analysis Services

Lifecycle management

In-memory cache

On-premises

Cloud

Data sources

SQL Database

SQL Data Warehouse

Other data sources

SQL Server

Analytics platform

system

Other data sources

On-premises

Cloud

Client tools

Power BI

Excel

Third party BI tools

Power BI Desktop

Rich semantic modelling

locatioidentifier

identifiertype

fieldidentifier

numberofunitssoldtodate

remaningnumber

Numberofuntissoldtoday

receivedback

productidentifier

descriptionline1

descriptionline2

qtyafterqtysales

familyidentifier

Source DataComplex raw data optimized for processing

Semantic ModelRich business user friendly semantic model

Product Id

Product Name

Product Description

Category

Category Id

Category Name

Category Description

Sub Category

Product Id

Shelf qty

Return qty

Order qty

Sale qty

Cloud Data

On-Premises

Data

Azure Analysis Services

Lightning fast queries

データ管理をきっかけに処理を実行

Web Glue

Bots IoT

DOMINOS STORES

Key Vault

Azure Active Directory

Azure Files

SSIS FRANCHISEE

AZURE WEST EUROPE

Azure Function

KEMPSSDESSRS

IN- AND EXTERNAL DATA SOURCES

orderprocessing

O365

App Insights

indexhtml

Azure Functions Proxies

couponprocessing

Use Bindings in Your Codefunctionjson

bindings [type httpTriggerdirection inwebHookType genericJsonname req

type httpdirection outname res

type queuename eventOutputqueueName aievents1connectionAiStorageConnectiondirection out

]

public static class OrderHandler

[FunctionName(OrderWebhook)]public static async TaskltHttpResponseMessagegt Run(

[HttpTrigger] HttpRequestMessage req[Queue(aievents1 Connection = AiStorageConnection)]

IAsyncCollectorltStringgt eventOutputTraceWriter log)

logInfo($Webhook was triggered)

string jsonContent = await reqContentReadAsStringAsync()dynamic data = JsonConvertDeserializeObject(jsonContent)

await eventOutputAddAsync(JsonConvertSerializeObject(GetLogData(data)))

int orderId = PlaceOrder(data)

return reqCreateResponse(HttpStatusCodeOK new orderNumber = orderId )

bull Workflow in the cloud

bull Powerful control flow

bull Connect functions and APIs

bull Declarative definition to persist in source control and drive deployments

Logic AppsCloud APIs and platform

bull Supports over 125 built-in connectors

bull Scales to meet your needs

bull Enables rapid development

bull Extends with custom APIs and

Functions

API connections

bull Authenticate once and reuse

Big Data Solutions Decision Tree

httpsbiz-excellencecom20160830big-data-dt

Machine Learning Solutions Decision Tree

httpsbiz-excellencecom20160913machine-

learning-dt

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of your

data while making it faster to get up and running with batch

streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources so

you can run queries on exabytes of data Includes U-SQL a

new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully managed

NoSQL database service that indexes stores and queries

data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

Microsoft Big Data Portfolio

SQL Server Stretch

Business intelligence

Machine learning analytics

Insights

Azure SQL Database

SQL Server 2016

SQL Server 2016 Fast Track

Azure SQL DW

ADLS amp ADLA

DocumentDB

HDInsight

Hadoop

Analytics Platform System

Sequential Scale Out + AcrossScale Up

Key

Relational Non-relational

On

-pre

mis

es

Clo

ud

Microsoft has solutions covering

and connecting all four

quadrants ndash thatrsquos why SQL

Server is one of the most utilized

databases in the world

Azure

Data Lake Store

Azure

Blob StoragePurpose Optimized for big data analytics General purpose bulk storage

Use Cases Batch Interactive Streaming App backend backup data media storage for

streaming

Units of Storage Accounts Folders Files Accounts Containers Blobs

Structure Hierarchical File System Flat namespace

WebHDFS Implements WebHDFS No (WASB)

Security AD SAS keys

Storage Auto SharedFiles chunked Manually manage expansionFiles intact

Service State Generally Available PolyBase

just supported

Generally Available

Billing Pay for data stored and for IO Pay for data stored and for IO

Region Availability Two US regions (Other regions coming soon) All Azure Regions

ADL Store vs Blob Store

httpsdocsmicrosoftcomen-usazuredata-lake-storedata-lake-store-comparison-with-blob-storage

Want Hadoop

Need exact same on-prem

Need interactive streaming

MandatoryNo strong opinion

Azure Marketplace (IaaS)

bull Need all workloads exactly like on-

premises

bull Need 100 HortonworksClouderaMapR

Azure HDInsight

bull Most Hadoop workloads

bull Fully managed by Microsoft

bull Sell HDI + ADLS

bull Stickier to Microsoft than VMs

bull Can do interactive (Spark) and streaming

(StormSpark)

Azure Data Lake Analytics

bull Easiest experience for admin no sense of

clusters instant scale per job

bull Easiest experience for developers Visual

StudioU-SQL (C+SQL)

bull Sell ADLA + ADLS

bull Batch workloads only

Need everything exactly like on-prem

Need core projects Yes Batch is OK

Always present ADLA if NET or Visual Studio Shop

If NET or VS shop

Azure SQL DW HDInsight Hive HDInsight Spark Azure Data Lake SQL Server (IaaS)

Volume Petabytes Petabytes Petabytes Petabytes Terabytes

Security Encryption TD

Audit

ADLS Apache

Ranger

ADLS AAD Security

Groups (data)

Encryption TD

Audit

Languages T-SQL HiveQL SparkSQL HiveQL

Scala Java Python

R

U-SQL T-SQL

Extensibility No Yes NETSerDe Yes Packages Yes NET Yes NET CLR

External File

Types

ORC TXT

Parquet RCFile

ORC CSV Parquet

+ others

Parquet JSON

Hive + others

Many ORC TXT Parquet

RCFile

Admin Low-Medium Medium-High Medium-High Low High

Cost Model DWU Nodes amp VM Nodes amp VM UnitsJobs VM

Schema

Definition

Schema on Write

Polybase

Schema on Read Schema on Read Schema on Read Schema on Write

Polybase

Max DB Size 240TB Comp (5X

= 1PB)

Unlimited 64TB (64 1TB drives)

機械学習 Deep Learning 深層強化学習

画像解析

音声解析

データ分類異常検知 顧客グルーピング

数値予測売上予測 需要予測 品質管理

ラベル分類不良品分析 故障予測 チャーン分析

機械学習より強力な分析

自律学習型ロボット

自動運転車

テキストや画像等の自動生成

活用例

主に多層のニューラルネットワークを用いた手法での分析

分析のためには莫大なデータ量計算量知識スキルを要する

統計に基づいた手法での分析

そのため比較的少ないデータ量と計算量で分析を行うことができる

定義したあるべき姿に従い試行錯誤をして自ら学習を行うための分析手法である強化学習と深層学習を組み合わせた分析

Azure Machine Learning Cognitive Toolkit GPU Instance (N-Series)

マイクロソフトが提供する技術

テキストデータ機器のログデータなど

画像データ監視カメラの録画データ 機器の外観画像 顔画像など

動画データ監視カメラの録画データ 機器の稼働状況 人の作業映像など

音声データマイクからの収集データ 稼働音 室内音 人の音声など

数値データセンサーデータ 機器の制御データ計測データなど672342345

機械学習統計理論に基づいた分析手法を用いる用意するべきデータ量と処理する計算量の敷居が低め導入しやすい

Deep Learningデータ量が大きいため強力な分析手法が必要「膨大なデータ量を用意」「莫大な計算量を処理」が必要で敷居が非常に高い導入にはそれなりの覚悟が必要

Action

People

Automated Systems

Apps

Web

Mobile

Bots

Intelligence

Dashboards amp Visualizations

Cortana

Bot Framework

Cognitive Services

Power BI

Information Management

Event Hubs

Data Catalog

Data Factory

Machine Learning and Analytics

HDInsight

Stream Analytics

Intelligence

Data Lake Analytics

Machine Learning

Big Data Stores

SQL Data Warehouse

Data Lake Store

Data Sources

Apps

Sensors amp Devices

Data

Cortana Intelligence Suite

学習済み

モデル利用

学習モデル

作成

機械学習 教師あり学習

教師なし学習

強化学習

決定木

線形回帰

SVM

ロジスティック回帰

ニューラルネットワーク

クラスタリング

次元削減

Q学習

K-mean法

主成分分析

正準相関分析

ディープニューラルネットワーク

畳みこみニューラルネットワーク

再帰的ニューラルネットワーク

回帰結合ニューラルネットワーク

httpsazuremicrosoftcomen-usservicescognitive-services

わずか数行のコードで強力なアルゴリズムを持つアプリの作成が可能ですiOSAndroidWindows などのプラットフォームを問わず機能します

httpsazuremicrosoftcomja-jpservicesmachine-learning

ユーザーは簡単に予測分析ソリューションを構築デプロイ共有できます

httpswwwyoutubecomwatchv=9gDDO5ldT-4ampfeature=youtube

AI技術を利用したディープラーニング(深層学習)ツールキットです旧称「CNTK」から改名されました

ソースコード httpsgithubcomMicrosoftCNTK

SearchSpeech

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

コカコーラ誕生100周年キャンペーン

コカコーラボトルを「100歳」と認識

bull 自撮り写真をUp結果をSNS拡散

ナビタイムジャパン様

自然言語入力による路線検索BOT

bull ユーザーとの新たな接点(LINE)

bull 自然言語入力

Vision Language Knowledge

Vision Knowledge SearchSpeech Language

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

Microsoft SupportVirtual Agent

自然言語入力による自動応答サポート窓口

bull 過去QampAデータ解析に基づく回答抽出

bull 定型外はldquo人対応rdquo

UBER

登録ドライバーをスマホ経由で顔認証

VOLVO

表情からの危険予測

Search

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

アロバ様

監視カメラによる店舗内行動分析

bull 顔認識による 顧客識別

bull 表情分析

東京サマーランド様にて導入済み

HmComm様

コールセンターソリューション

bull 会話をテキスト化キーワードを解析

bull 過去QampA検索

bull 内容をCRM保存

Vision KnowledgeSpeech Language

導入事例東京サマーランド様

Video

Intelligent KioskhttpsgithubcomMicrosoftCognitive-Samples-IntelligentKiosk

ldquo(want to|request)rdquo

HoloLens

Page 56: やりたいことから考えるMicrosoft Azure 上の データストアの選び方とデータサイエンティスト向け活用法。KVSからDWHまで

従来型の処理分析 Azure Data Lake を中心とした処理分析

Business apps

Custom apps

Sensors and devices

ADL StorePeople

非構造化データも含めてあらゆるデータを格納

Azure SQL DW

Azure AD

Power BI

ADF

ADL Analytics

bull 処理分析業務の大半はデータ準備作業が占めるbull 処理分析業務に手間時間が必要

Business apps

Custom apps

Sensors and devices

HDInsight

ユーザー管理認証

データの連携

Power BI

File System

Database

Database

Hadoop

DWH

Data Mart

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

①大量データの受け入れ

②リアルタイム処理データの集約

③データの蓄積

構造化非構造化文書など様々な形式での保存

④データの加工移行

⑥機械学習

⑦Hadoop解析

⑧マイクロソフト技術を用いた分散解析

⑨通常のRMSが機能を追加した企業向けRを使用した解析

⑪クラウドベースの Self-Service BI 機能

⑫機械学習の予測モデルを業務システムなどから呼び出し可能にするサービス

外部クラウドなどからのデータ取り込み

②リアルタイム処理データの加工

⑤ディープラーニング

⑩Excelを用いた可視化

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

リアルタイム

バッチ

Data Factory Tools for Visual Studio

Azure Portal

Azure TableStorage

(Web ログレコード)

Data Factory

HDInsight

(Web ログをファイルにして

バッチ処理で集計)

SQL Database

(集計データをDB テーブルに格納)

Power BI

社内システム

DataManagement

Gateway

SQL Database

Data Warehouse

Blob Storage

Table Storage

httpportalazurecom

接続

メッセージ作成

メッセージ送信

var cs = ldquo接続文字列rdquovar path = ldquoイベントハブ名rdquovar eh = EventHubClientCreateFromConnectionString(cs path)

var msg = new user = thisUserIdentityNamelevel = leveltimestamp = demoTimestamp

var json = JsonConvertSerializeObject(msg)

ehSend(new EventData(EncodingUTF8GetBytes(json)))

EventProcessorHostを使う

bull

bull

bull

Functionsを使う

bull

bull

IEventProcessorProcessEventAsync(msg)

IEventProcessorProcessEventAsync(msg)

Run(string msg)

Azure azure-sdk-for-python

Point of Service Devices

Self CheckoutStations

Kiosks

Smart Phones

SlatesTablets

PCsLaptops

Servers

Digital Signs

DiagnosticEquipmentRemote Medical

MonitorsLogic

Controllers

SpecializedDevicesThin

Clients

Handhelds

Security

POS Terminals

AutomationDevices

VendingMachines

Kinect

ATM

Stream Analytics

入力 出力クエリデータストリーム

参照

bull ldquo入力rdquoldquo出力rdquoをクリックしそれぞれ作成

bull ldquoクエリrdquoをクリックしクエリを定義bull 作業が終わったらldquo開始rdquoで実

行開始

SELECT

INTO

FROM

SELECT user level AS SATLevel timestamp

INTO

FROM

デバイス接続性とデバイス管理およびブローカーサービス

データ管理と高度な分析 情報活用業務の生産性とプロセスの最適化

IoT Agent Gateway

予兆原因の学習モデル

ダッシュボード

参照ERPbull 顧客bull 設備bull 担当者

Notification Hubs

通知

予兆イベント

メンテ方法の推奨

bull ヘルス状態bull インシデント管理bull 対応のディスパッチ

現地技術要員のモバイルデバイス

オペレーションセンター

bull イベント ドア開閉軸アライメントキャビン速度モーター温度など

bull アラーム 故障アラームエラーコードなど

httpisstkeazurewebsitesnet

Event Hub

Stream Analytics

Azure ML

制御機器とセンサーのデータ

マシンデータの蓄積

メンテナンス方法の学習モデル

Machine Learning

Blob Storage

セルフサービス分析

Power BI

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce

cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-

system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of

your data while making it faster to get up and running with

batch streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources

so you can run queries on exabytes of data Includes U-

SQL a new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully

managed NoSQL database service that indexes stores and

queries data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

What do all of these have in common

They can all use Azure Analysis Services

Azure Analysis Services

Azure Analysis Services

BI semantic model

Business logic amp metrics

Data modeling

Security

Azure Analysis Services

Lifecycle management

In-memory cache

On-premises

Cloud

Data sources

SQL Database

SQL Data Warehouse

Other data sources

SQL Server

Analytics platform

system

Other data sources

On-premises

Cloud

Client tools

Power BI

Excel

Third party BI tools

Power BI Desktop

Rich semantic modelling

locatioidentifier

identifiertype

fieldidentifier

numberofunitssoldtodate

remaningnumber

Numberofuntissoldtoday

receivedback

productidentifier

descriptionline1

descriptionline2

qtyafterqtysales

familyidentifier

Source DataComplex raw data optimized for processing

Semantic ModelRich business user friendly semantic model

Product Id

Product Name

Product Description

Category

Category Id

Category Name

Category Description

Sub Category

Product Id

Shelf qty

Return qty

Order qty

Sale qty

Cloud Data

On-Premises

Data

Azure Analysis Services

Lightning fast queries

データ管理をきっかけに処理を実行

Web Glue

Bots IoT

DOMINOS STORES

Key Vault

Azure Active Directory

Azure Files

SSIS FRANCHISEE

AZURE WEST EUROPE

Azure Function

KEMPSSDESSRS

IN- AND EXTERNAL DATA SOURCES

orderprocessing

O365

App Insights

indexhtml

Azure Functions Proxies

couponprocessing

Use Bindings in Your Codefunctionjson

bindings [type httpTriggerdirection inwebHookType genericJsonname req

type httpdirection outname res

type queuename eventOutputqueueName aievents1connectionAiStorageConnectiondirection out

]

public static class OrderHandler

[FunctionName(OrderWebhook)]public static async TaskltHttpResponseMessagegt Run(

[HttpTrigger] HttpRequestMessage req[Queue(aievents1 Connection = AiStorageConnection)]

IAsyncCollectorltStringgt eventOutputTraceWriter log)

logInfo($Webhook was triggered)

string jsonContent = await reqContentReadAsStringAsync()dynamic data = JsonConvertDeserializeObject(jsonContent)

await eventOutputAddAsync(JsonConvertSerializeObject(GetLogData(data)))

int orderId = PlaceOrder(data)

return reqCreateResponse(HttpStatusCodeOK new orderNumber = orderId )

bull Workflow in the cloud

bull Powerful control flow

bull Connect functions and APIs

bull Declarative definition to persist in source control and drive deployments

Logic AppsCloud APIs and platform

bull Supports over 125 built-in connectors

bull Scales to meet your needs

bull Enables rapid development

bull Extends with custom APIs and

Functions

API connections

bull Authenticate once and reuse

Big Data Solutions Decision Tree

httpsbiz-excellencecom20160830big-data-dt

Machine Learning Solutions Decision Tree

httpsbiz-excellencecom20160913machine-

learning-dt

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of your

data while making it faster to get up and running with batch

streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources so

you can run queries on exabytes of data Includes U-SQL a

new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully managed

NoSQL database service that indexes stores and queries

data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

Microsoft Big Data Portfolio

SQL Server Stretch

Business intelligence

Machine learning analytics

Insights

Azure SQL Database

SQL Server 2016

SQL Server 2016 Fast Track

Azure SQL DW

ADLS amp ADLA

DocumentDB

HDInsight

Hadoop

Analytics Platform System

Sequential Scale Out + AcrossScale Up

Key

Relational Non-relational

On

-pre

mis

es

Clo

ud

Microsoft has solutions covering

and connecting all four

quadrants ndash thatrsquos why SQL

Server is one of the most utilized

databases in the world

Azure

Data Lake Store

Azure

Blob StoragePurpose Optimized for big data analytics General purpose bulk storage

Use Cases Batch Interactive Streaming App backend backup data media storage for

streaming

Units of Storage Accounts Folders Files Accounts Containers Blobs

Structure Hierarchical File System Flat namespace

WebHDFS Implements WebHDFS No (WASB)

Security AD SAS keys

Storage Auto SharedFiles chunked Manually manage expansionFiles intact

Service State Generally Available PolyBase

just supported

Generally Available

Billing Pay for data stored and for IO Pay for data stored and for IO

Region Availability Two US regions (Other regions coming soon) All Azure Regions

ADL Store vs Blob Store

httpsdocsmicrosoftcomen-usazuredata-lake-storedata-lake-store-comparison-with-blob-storage

Want Hadoop

Need exact same on-prem

Need interactive streaming

MandatoryNo strong opinion

Azure Marketplace (IaaS)

bull Need all workloads exactly like on-

premises

bull Need 100 HortonworksClouderaMapR

Azure HDInsight

bull Most Hadoop workloads

bull Fully managed by Microsoft

bull Sell HDI + ADLS

bull Stickier to Microsoft than VMs

bull Can do interactive (Spark) and streaming

(StormSpark)

Azure Data Lake Analytics

bull Easiest experience for admin no sense of

clusters instant scale per job

bull Easiest experience for developers Visual

StudioU-SQL (C+SQL)

bull Sell ADLA + ADLS

bull Batch workloads only

Need everything exactly like on-prem

Need core projects Yes Batch is OK

Always present ADLA if NET or Visual Studio Shop

If NET or VS shop

Azure SQL DW HDInsight Hive HDInsight Spark Azure Data Lake SQL Server (IaaS)

Volume Petabytes Petabytes Petabytes Petabytes Terabytes

Security Encryption TD

Audit

ADLS Apache

Ranger

ADLS AAD Security

Groups (data)

Encryption TD

Audit

Languages T-SQL HiveQL SparkSQL HiveQL

Scala Java Python

R

U-SQL T-SQL

Extensibility No Yes NETSerDe Yes Packages Yes NET Yes NET CLR

External File

Types

ORC TXT

Parquet RCFile

ORC CSV Parquet

+ others

Parquet JSON

Hive + others

Many ORC TXT Parquet

RCFile

Admin Low-Medium Medium-High Medium-High Low High

Cost Model DWU Nodes amp VM Nodes amp VM UnitsJobs VM

Schema

Definition

Schema on Write

Polybase

Schema on Read Schema on Read Schema on Read Schema on Write

Polybase

Max DB Size 240TB Comp (5X

= 1PB)

Unlimited 64TB (64 1TB drives)

機械学習 Deep Learning 深層強化学習

画像解析

音声解析

データ分類異常検知 顧客グルーピング

数値予測売上予測 需要予測 品質管理

ラベル分類不良品分析 故障予測 チャーン分析

機械学習より強力な分析

自律学習型ロボット

自動運転車

テキストや画像等の自動生成

活用例

主に多層のニューラルネットワークを用いた手法での分析

分析のためには莫大なデータ量計算量知識スキルを要する

統計に基づいた手法での分析

そのため比較的少ないデータ量と計算量で分析を行うことができる

定義したあるべき姿に従い試行錯誤をして自ら学習を行うための分析手法である強化学習と深層学習を組み合わせた分析

Azure Machine Learning Cognitive Toolkit GPU Instance (N-Series)

マイクロソフトが提供する技術

テキストデータ機器のログデータなど

画像データ監視カメラの録画データ 機器の外観画像 顔画像など

動画データ監視カメラの録画データ 機器の稼働状況 人の作業映像など

音声データマイクからの収集データ 稼働音 室内音 人の音声など

数値データセンサーデータ 機器の制御データ計測データなど672342345

機械学習統計理論に基づいた分析手法を用いる用意するべきデータ量と処理する計算量の敷居が低め導入しやすい

Deep Learningデータ量が大きいため強力な分析手法が必要「膨大なデータ量を用意」「莫大な計算量を処理」が必要で敷居が非常に高い導入にはそれなりの覚悟が必要

Action

People

Automated Systems

Apps

Web

Mobile

Bots

Intelligence

Dashboards amp Visualizations

Cortana

Bot Framework

Cognitive Services

Power BI

Information Management

Event Hubs

Data Catalog

Data Factory

Machine Learning and Analytics

HDInsight

Stream Analytics

Intelligence

Data Lake Analytics

Machine Learning

Big Data Stores

SQL Data Warehouse

Data Lake Store

Data Sources

Apps

Sensors amp Devices

Data

Cortana Intelligence Suite

学習済み

モデル利用

学習モデル

作成

機械学習 教師あり学習

教師なし学習

強化学習

決定木

線形回帰

SVM

ロジスティック回帰

ニューラルネットワーク

クラスタリング

次元削減

Q学習

K-mean法

主成分分析

正準相関分析

ディープニューラルネットワーク

畳みこみニューラルネットワーク

再帰的ニューラルネットワーク

回帰結合ニューラルネットワーク

httpsazuremicrosoftcomen-usservicescognitive-services

わずか数行のコードで強力なアルゴリズムを持つアプリの作成が可能ですiOSAndroidWindows などのプラットフォームを問わず機能します

httpsazuremicrosoftcomja-jpservicesmachine-learning

ユーザーは簡単に予測分析ソリューションを構築デプロイ共有できます

httpswwwyoutubecomwatchv=9gDDO5ldT-4ampfeature=youtube

AI技術を利用したディープラーニング(深層学習)ツールキットです旧称「CNTK」から改名されました

ソースコード httpsgithubcomMicrosoftCNTK

SearchSpeech

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

コカコーラ誕生100周年キャンペーン

コカコーラボトルを「100歳」と認識

bull 自撮り写真をUp結果をSNS拡散

ナビタイムジャパン様

自然言語入力による路線検索BOT

bull ユーザーとの新たな接点(LINE)

bull 自然言語入力

Vision Language Knowledge

Vision Knowledge SearchSpeech Language

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

Microsoft SupportVirtual Agent

自然言語入力による自動応答サポート窓口

bull 過去QampAデータ解析に基づく回答抽出

bull 定型外はldquo人対応rdquo

UBER

登録ドライバーをスマホ経由で顔認証

VOLVO

表情からの危険予測

Search

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

アロバ様

監視カメラによる店舗内行動分析

bull 顔認識による 顧客識別

bull 表情分析

東京サマーランド様にて導入済み

HmComm様

コールセンターソリューション

bull 会話をテキスト化キーワードを解析

bull 過去QampA検索

bull 内容をCRM保存

Vision KnowledgeSpeech Language

導入事例東京サマーランド様

Video

Intelligent KioskhttpsgithubcomMicrosoftCognitive-Samples-IntelligentKiosk

ldquo(want to|request)rdquo

HoloLens

Page 57: やりたいことから考えるMicrosoft Azure 上の データストアの選び方とデータサイエンティスト向け活用法。KVSからDWHまで

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

①大量データの受け入れ

②リアルタイム処理データの集約

③データの蓄積

構造化非構造化文書など様々な形式での保存

④データの加工移行

⑥機械学習

⑦Hadoop解析

⑧マイクロソフト技術を用いた分散解析

⑨通常のRMSが機能を追加した企業向けRを使用した解析

⑪クラウドベースの Self-Service BI 機能

⑫機械学習の予測モデルを業務システムなどから呼び出し可能にするサービス

外部クラウドなどからのデータ取り込み

②リアルタイム処理データの加工

⑤ディープラーニング

⑩Excelを用いた可視化

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

リアルタイム

バッチ

Data Factory Tools for Visual Studio

Azure Portal

Azure TableStorage

(Web ログレコード)

Data Factory

HDInsight

(Web ログをファイルにして

バッチ処理で集計)

SQL Database

(集計データをDB テーブルに格納)

Power BI

社内システム

DataManagement

Gateway

SQL Database

Data Warehouse

Blob Storage

Table Storage

httpportalazurecom

接続

メッセージ作成

メッセージ送信

var cs = ldquo接続文字列rdquovar path = ldquoイベントハブ名rdquovar eh = EventHubClientCreateFromConnectionString(cs path)

var msg = new user = thisUserIdentityNamelevel = leveltimestamp = demoTimestamp

var json = JsonConvertSerializeObject(msg)

ehSend(new EventData(EncodingUTF8GetBytes(json)))

EventProcessorHostを使う

bull

bull

bull

Functionsを使う

bull

bull

IEventProcessorProcessEventAsync(msg)

IEventProcessorProcessEventAsync(msg)

Run(string msg)

Azure azure-sdk-for-python

Point of Service Devices

Self CheckoutStations

Kiosks

Smart Phones

SlatesTablets

PCsLaptops

Servers

Digital Signs

DiagnosticEquipmentRemote Medical

MonitorsLogic

Controllers

SpecializedDevicesThin

Clients

Handhelds

Security

POS Terminals

AutomationDevices

VendingMachines

Kinect

ATM

Stream Analytics

入力 出力クエリデータストリーム

参照

bull ldquo入力rdquoldquo出力rdquoをクリックしそれぞれ作成

bull ldquoクエリrdquoをクリックしクエリを定義bull 作業が終わったらldquo開始rdquoで実

行開始

SELECT

INTO

FROM

SELECT user level AS SATLevel timestamp

INTO

FROM

デバイス接続性とデバイス管理およびブローカーサービス

データ管理と高度な分析 情報活用業務の生産性とプロセスの最適化

IoT Agent Gateway

予兆原因の学習モデル

ダッシュボード

参照ERPbull 顧客bull 設備bull 担当者

Notification Hubs

通知

予兆イベント

メンテ方法の推奨

bull ヘルス状態bull インシデント管理bull 対応のディスパッチ

現地技術要員のモバイルデバイス

オペレーションセンター

bull イベント ドア開閉軸アライメントキャビン速度モーター温度など

bull アラーム 故障アラームエラーコードなど

httpisstkeazurewebsitesnet

Event Hub

Stream Analytics

Azure ML

制御機器とセンサーのデータ

マシンデータの蓄積

メンテナンス方法の学習モデル

Machine Learning

Blob Storage

セルフサービス分析

Power BI

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce

cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-

system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of

your data while making it faster to get up and running with

batch streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources

so you can run queries on exabytes of data Includes U-

SQL a new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully

managed NoSQL database service that indexes stores and

queries data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

What do all of these have in common

They can all use Azure Analysis Services

Azure Analysis Services

Azure Analysis Services

BI semantic model

Business logic amp metrics

Data modeling

Security

Azure Analysis Services

Lifecycle management

In-memory cache

On-premises

Cloud

Data sources

SQL Database

SQL Data Warehouse

Other data sources

SQL Server

Analytics platform

system

Other data sources

On-premises

Cloud

Client tools

Power BI

Excel

Third party BI tools

Power BI Desktop

Rich semantic modelling

locatioidentifier

identifiertype

fieldidentifier

numberofunitssoldtodate

remaningnumber

Numberofuntissoldtoday

receivedback

productidentifier

descriptionline1

descriptionline2

qtyafterqtysales

familyidentifier

Source DataComplex raw data optimized for processing

Semantic ModelRich business user friendly semantic model

Product Id

Product Name

Product Description

Category

Category Id

Category Name

Category Description

Sub Category

Product Id

Shelf qty

Return qty

Order qty

Sale qty

Cloud Data

On-Premises

Data

Azure Analysis Services

Lightning fast queries

データ管理をきっかけに処理を実行

Web Glue

Bots IoT

DOMINOS STORES

Key Vault

Azure Active Directory

Azure Files

SSIS FRANCHISEE

AZURE WEST EUROPE

Azure Function

KEMPSSDESSRS

IN- AND EXTERNAL DATA SOURCES

orderprocessing

O365

App Insights

indexhtml

Azure Functions Proxies

couponprocessing

Use Bindings in Your Codefunctionjson

bindings [type httpTriggerdirection inwebHookType genericJsonname req

type httpdirection outname res

type queuename eventOutputqueueName aievents1connectionAiStorageConnectiondirection out

]

public static class OrderHandler

[FunctionName(OrderWebhook)]public static async TaskltHttpResponseMessagegt Run(

[HttpTrigger] HttpRequestMessage req[Queue(aievents1 Connection = AiStorageConnection)]

IAsyncCollectorltStringgt eventOutputTraceWriter log)

logInfo($Webhook was triggered)

string jsonContent = await reqContentReadAsStringAsync()dynamic data = JsonConvertDeserializeObject(jsonContent)

await eventOutputAddAsync(JsonConvertSerializeObject(GetLogData(data)))

int orderId = PlaceOrder(data)

return reqCreateResponse(HttpStatusCodeOK new orderNumber = orderId )

bull Workflow in the cloud

bull Powerful control flow

bull Connect functions and APIs

bull Declarative definition to persist in source control and drive deployments

Logic AppsCloud APIs and platform

bull Supports over 125 built-in connectors

bull Scales to meet your needs

bull Enables rapid development

bull Extends with custom APIs and

Functions

API connections

bull Authenticate once and reuse

Big Data Solutions Decision Tree

httpsbiz-excellencecom20160830big-data-dt

Machine Learning Solutions Decision Tree

httpsbiz-excellencecom20160913machine-

learning-dt

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of your

data while making it faster to get up and running with batch

streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources so

you can run queries on exabytes of data Includes U-SQL a

new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully managed

NoSQL database service that indexes stores and queries

data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

Microsoft Big Data Portfolio

SQL Server Stretch

Business intelligence

Machine learning analytics

Insights

Azure SQL Database

SQL Server 2016

SQL Server 2016 Fast Track

Azure SQL DW

ADLS amp ADLA

DocumentDB

HDInsight

Hadoop

Analytics Platform System

Sequential Scale Out + AcrossScale Up

Key

Relational Non-relational

On

-pre

mis

es

Clo

ud

Microsoft has solutions covering

and connecting all four

quadrants ndash thatrsquos why SQL

Server is one of the most utilized

databases in the world

Azure

Data Lake Store

Azure

Blob StoragePurpose Optimized for big data analytics General purpose bulk storage

Use Cases Batch Interactive Streaming App backend backup data media storage for

streaming

Units of Storage Accounts Folders Files Accounts Containers Blobs

Structure Hierarchical File System Flat namespace

WebHDFS Implements WebHDFS No (WASB)

Security AD SAS keys

Storage Auto SharedFiles chunked Manually manage expansionFiles intact

Service State Generally Available PolyBase

just supported

Generally Available

Billing Pay for data stored and for IO Pay for data stored and for IO

Region Availability Two US regions (Other regions coming soon) All Azure Regions

ADL Store vs Blob Store

httpsdocsmicrosoftcomen-usazuredata-lake-storedata-lake-store-comparison-with-blob-storage

Want Hadoop

Need exact same on-prem

Need interactive streaming

MandatoryNo strong opinion

Azure Marketplace (IaaS)

bull Need all workloads exactly like on-

premises

bull Need 100 HortonworksClouderaMapR

Azure HDInsight

bull Most Hadoop workloads

bull Fully managed by Microsoft

bull Sell HDI + ADLS

bull Stickier to Microsoft than VMs

bull Can do interactive (Spark) and streaming

(StormSpark)

Azure Data Lake Analytics

bull Easiest experience for admin no sense of

clusters instant scale per job

bull Easiest experience for developers Visual

StudioU-SQL (C+SQL)

bull Sell ADLA + ADLS

bull Batch workloads only

Need everything exactly like on-prem

Need core projects Yes Batch is OK

Always present ADLA if NET or Visual Studio Shop

If NET or VS shop

Azure SQL DW HDInsight Hive HDInsight Spark Azure Data Lake SQL Server (IaaS)

Volume Petabytes Petabytes Petabytes Petabytes Terabytes

Security Encryption TD

Audit

ADLS Apache

Ranger

ADLS AAD Security

Groups (data)

Encryption TD

Audit

Languages T-SQL HiveQL SparkSQL HiveQL

Scala Java Python

R

U-SQL T-SQL

Extensibility No Yes NETSerDe Yes Packages Yes NET Yes NET CLR

External File

Types

ORC TXT

Parquet RCFile

ORC CSV Parquet

+ others

Parquet JSON

Hive + others

Many ORC TXT Parquet

RCFile

Admin Low-Medium Medium-High Medium-High Low High

Cost Model DWU Nodes amp VM Nodes amp VM UnitsJobs VM

Schema

Definition

Schema on Write

Polybase

Schema on Read Schema on Read Schema on Read Schema on Write

Polybase

Max DB Size 240TB Comp (5X

= 1PB)

Unlimited 64TB (64 1TB drives)

機械学習 Deep Learning 深層強化学習

画像解析

音声解析

データ分類異常検知 顧客グルーピング

数値予測売上予測 需要予測 品質管理

ラベル分類不良品分析 故障予測 チャーン分析

機械学習より強力な分析

自律学習型ロボット

自動運転車

テキストや画像等の自動生成

活用例

主に多層のニューラルネットワークを用いた手法での分析

分析のためには莫大なデータ量計算量知識スキルを要する

統計に基づいた手法での分析

そのため比較的少ないデータ量と計算量で分析を行うことができる

定義したあるべき姿に従い試行錯誤をして自ら学習を行うための分析手法である強化学習と深層学習を組み合わせた分析

Azure Machine Learning Cognitive Toolkit GPU Instance (N-Series)

マイクロソフトが提供する技術

テキストデータ機器のログデータなど

画像データ監視カメラの録画データ 機器の外観画像 顔画像など

動画データ監視カメラの録画データ 機器の稼働状況 人の作業映像など

音声データマイクからの収集データ 稼働音 室内音 人の音声など

数値データセンサーデータ 機器の制御データ計測データなど672342345

機械学習統計理論に基づいた分析手法を用いる用意するべきデータ量と処理する計算量の敷居が低め導入しやすい

Deep Learningデータ量が大きいため強力な分析手法が必要「膨大なデータ量を用意」「莫大な計算量を処理」が必要で敷居が非常に高い導入にはそれなりの覚悟が必要

Action

People

Automated Systems

Apps

Web

Mobile

Bots

Intelligence

Dashboards amp Visualizations

Cortana

Bot Framework

Cognitive Services

Power BI

Information Management

Event Hubs

Data Catalog

Data Factory

Machine Learning and Analytics

HDInsight

Stream Analytics

Intelligence

Data Lake Analytics

Machine Learning

Big Data Stores

SQL Data Warehouse

Data Lake Store

Data Sources

Apps

Sensors amp Devices

Data

Cortana Intelligence Suite

学習済み

モデル利用

学習モデル

作成

機械学習 教師あり学習

教師なし学習

強化学習

決定木

線形回帰

SVM

ロジスティック回帰

ニューラルネットワーク

クラスタリング

次元削減

Q学習

K-mean法

主成分分析

正準相関分析

ディープニューラルネットワーク

畳みこみニューラルネットワーク

再帰的ニューラルネットワーク

回帰結合ニューラルネットワーク

httpsazuremicrosoftcomen-usservicescognitive-services

わずか数行のコードで強力なアルゴリズムを持つアプリの作成が可能ですiOSAndroidWindows などのプラットフォームを問わず機能します

httpsazuremicrosoftcomja-jpservicesmachine-learning

ユーザーは簡単に予測分析ソリューションを構築デプロイ共有できます

httpswwwyoutubecomwatchv=9gDDO5ldT-4ampfeature=youtube

AI技術を利用したディープラーニング(深層学習)ツールキットです旧称「CNTK」から改名されました

ソースコード httpsgithubcomMicrosoftCNTK

SearchSpeech

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

コカコーラ誕生100周年キャンペーン

コカコーラボトルを「100歳」と認識

bull 自撮り写真をUp結果をSNS拡散

ナビタイムジャパン様

自然言語入力による路線検索BOT

bull ユーザーとの新たな接点(LINE)

bull 自然言語入力

Vision Language Knowledge

Vision Knowledge SearchSpeech Language

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

Microsoft SupportVirtual Agent

自然言語入力による自動応答サポート窓口

bull 過去QampAデータ解析に基づく回答抽出

bull 定型外はldquo人対応rdquo

UBER

登録ドライバーをスマホ経由で顔認証

VOLVO

表情からの危険予測

Search

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

アロバ様

監視カメラによる店舗内行動分析

bull 顔認識による 顧客識別

bull 表情分析

東京サマーランド様にて導入済み

HmComm様

コールセンターソリューション

bull 会話をテキスト化キーワードを解析

bull 過去QampA検索

bull 内容をCRM保存

Vision KnowledgeSpeech Language

導入事例東京サマーランド様

Video

Intelligent KioskhttpsgithubcomMicrosoftCognitive-Samples-IntelligentKiosk

ldquo(want to|request)rdquo

HoloLens

Page 58: やりたいことから考えるMicrosoft Azure 上の データストアの選び方とデータサイエンティスト向け活用法。KVSからDWHまで

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

リアルタイム

バッチ

Data Factory Tools for Visual Studio

Azure Portal

Azure TableStorage

(Web ログレコード)

Data Factory

HDInsight

(Web ログをファイルにして

バッチ処理で集計)

SQL Database

(集計データをDB テーブルに格納)

Power BI

社内システム

DataManagement

Gateway

SQL Database

Data Warehouse

Blob Storage

Table Storage

httpportalazurecom

接続

メッセージ作成

メッセージ送信

var cs = ldquo接続文字列rdquovar path = ldquoイベントハブ名rdquovar eh = EventHubClientCreateFromConnectionString(cs path)

var msg = new user = thisUserIdentityNamelevel = leveltimestamp = demoTimestamp

var json = JsonConvertSerializeObject(msg)

ehSend(new EventData(EncodingUTF8GetBytes(json)))

EventProcessorHostを使う

bull

bull

bull

Functionsを使う

bull

bull

IEventProcessorProcessEventAsync(msg)

IEventProcessorProcessEventAsync(msg)

Run(string msg)

Azure azure-sdk-for-python

Point of Service Devices

Self CheckoutStations

Kiosks

Smart Phones

SlatesTablets

PCsLaptops

Servers

Digital Signs

DiagnosticEquipmentRemote Medical

MonitorsLogic

Controllers

SpecializedDevicesThin

Clients

Handhelds

Security

POS Terminals

AutomationDevices

VendingMachines

Kinect

ATM

Stream Analytics

入力 出力クエリデータストリーム

参照

bull ldquo入力rdquoldquo出力rdquoをクリックしそれぞれ作成

bull ldquoクエリrdquoをクリックしクエリを定義bull 作業が終わったらldquo開始rdquoで実

行開始

SELECT

INTO

FROM

SELECT user level AS SATLevel timestamp

INTO

FROM

デバイス接続性とデバイス管理およびブローカーサービス

データ管理と高度な分析 情報活用業務の生産性とプロセスの最適化

IoT Agent Gateway

予兆原因の学習モデル

ダッシュボード

参照ERPbull 顧客bull 設備bull 担当者

Notification Hubs

通知

予兆イベント

メンテ方法の推奨

bull ヘルス状態bull インシデント管理bull 対応のディスパッチ

現地技術要員のモバイルデバイス

オペレーションセンター

bull イベント ドア開閉軸アライメントキャビン速度モーター温度など

bull アラーム 故障アラームエラーコードなど

httpisstkeazurewebsitesnet

Event Hub

Stream Analytics

Azure ML

制御機器とセンサーのデータ

マシンデータの蓄積

メンテナンス方法の学習モデル

Machine Learning

Blob Storage

セルフサービス分析

Power BI

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce

cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-

system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of

your data while making it faster to get up and running with

batch streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources

so you can run queries on exabytes of data Includes U-

SQL a new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully

managed NoSQL database service that indexes stores and

queries data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

What do all of these have in common

They can all use Azure Analysis Services

Azure Analysis Services

Azure Analysis Services

BI semantic model

Business logic amp metrics

Data modeling

Security

Azure Analysis Services

Lifecycle management

In-memory cache

On-premises

Cloud

Data sources

SQL Database

SQL Data Warehouse

Other data sources

SQL Server

Analytics platform

system

Other data sources

On-premises

Cloud

Client tools

Power BI

Excel

Third party BI tools

Power BI Desktop

Rich semantic modelling

locatioidentifier

identifiertype

fieldidentifier

numberofunitssoldtodate

remaningnumber

Numberofuntissoldtoday

receivedback

productidentifier

descriptionline1

descriptionline2

qtyafterqtysales

familyidentifier

Source DataComplex raw data optimized for processing

Semantic ModelRich business user friendly semantic model

Product Id

Product Name

Product Description

Category

Category Id

Category Name

Category Description

Sub Category

Product Id

Shelf qty

Return qty

Order qty

Sale qty

Cloud Data

On-Premises

Data

Azure Analysis Services

Lightning fast queries

データ管理をきっかけに処理を実行

Web Glue

Bots IoT

DOMINOS STORES

Key Vault

Azure Active Directory

Azure Files

SSIS FRANCHISEE

AZURE WEST EUROPE

Azure Function

KEMPSSDESSRS

IN- AND EXTERNAL DATA SOURCES

orderprocessing

O365

App Insights

indexhtml

Azure Functions Proxies

couponprocessing

Use Bindings in Your Codefunctionjson

bindings [type httpTriggerdirection inwebHookType genericJsonname req

type httpdirection outname res

type queuename eventOutputqueueName aievents1connectionAiStorageConnectiondirection out

]

public static class OrderHandler

[FunctionName(OrderWebhook)]public static async TaskltHttpResponseMessagegt Run(

[HttpTrigger] HttpRequestMessage req[Queue(aievents1 Connection = AiStorageConnection)]

IAsyncCollectorltStringgt eventOutputTraceWriter log)

logInfo($Webhook was triggered)

string jsonContent = await reqContentReadAsStringAsync()dynamic data = JsonConvertDeserializeObject(jsonContent)

await eventOutputAddAsync(JsonConvertSerializeObject(GetLogData(data)))

int orderId = PlaceOrder(data)

return reqCreateResponse(HttpStatusCodeOK new orderNumber = orderId )

bull Workflow in the cloud

bull Powerful control flow

bull Connect functions and APIs

bull Declarative definition to persist in source control and drive deployments

Logic AppsCloud APIs and platform

bull Supports over 125 built-in connectors

bull Scales to meet your needs

bull Enables rapid development

bull Extends with custom APIs and

Functions

API connections

bull Authenticate once and reuse

Big Data Solutions Decision Tree

httpsbiz-excellencecom20160830big-data-dt

Machine Learning Solutions Decision Tree

httpsbiz-excellencecom20160913machine-

learning-dt

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of your

data while making it faster to get up and running with batch

streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources so

you can run queries on exabytes of data Includes U-SQL a

new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully managed

NoSQL database service that indexes stores and queries

data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

Microsoft Big Data Portfolio

SQL Server Stretch

Business intelligence

Machine learning analytics

Insights

Azure SQL Database

SQL Server 2016

SQL Server 2016 Fast Track

Azure SQL DW

ADLS amp ADLA

DocumentDB

HDInsight

Hadoop

Analytics Platform System

Sequential Scale Out + AcrossScale Up

Key

Relational Non-relational

On

-pre

mis

es

Clo

ud

Microsoft has solutions covering

and connecting all four

quadrants ndash thatrsquos why SQL

Server is one of the most utilized

databases in the world

Azure

Data Lake Store

Azure

Blob StoragePurpose Optimized for big data analytics General purpose bulk storage

Use Cases Batch Interactive Streaming App backend backup data media storage for

streaming

Units of Storage Accounts Folders Files Accounts Containers Blobs

Structure Hierarchical File System Flat namespace

WebHDFS Implements WebHDFS No (WASB)

Security AD SAS keys

Storage Auto SharedFiles chunked Manually manage expansionFiles intact

Service State Generally Available PolyBase

just supported

Generally Available

Billing Pay for data stored and for IO Pay for data stored and for IO

Region Availability Two US regions (Other regions coming soon) All Azure Regions

ADL Store vs Blob Store

httpsdocsmicrosoftcomen-usazuredata-lake-storedata-lake-store-comparison-with-blob-storage

Want Hadoop

Need exact same on-prem

Need interactive streaming

MandatoryNo strong opinion

Azure Marketplace (IaaS)

bull Need all workloads exactly like on-

premises

bull Need 100 HortonworksClouderaMapR

Azure HDInsight

bull Most Hadoop workloads

bull Fully managed by Microsoft

bull Sell HDI + ADLS

bull Stickier to Microsoft than VMs

bull Can do interactive (Spark) and streaming

(StormSpark)

Azure Data Lake Analytics

bull Easiest experience for admin no sense of

clusters instant scale per job

bull Easiest experience for developers Visual

StudioU-SQL (C+SQL)

bull Sell ADLA + ADLS

bull Batch workloads only

Need everything exactly like on-prem

Need core projects Yes Batch is OK

Always present ADLA if NET or Visual Studio Shop

If NET or VS shop

Azure SQL DW HDInsight Hive HDInsight Spark Azure Data Lake SQL Server (IaaS)

Volume Petabytes Petabytes Petabytes Petabytes Terabytes

Security Encryption TD

Audit

ADLS Apache

Ranger

ADLS AAD Security

Groups (data)

Encryption TD

Audit

Languages T-SQL HiveQL SparkSQL HiveQL

Scala Java Python

R

U-SQL T-SQL

Extensibility No Yes NETSerDe Yes Packages Yes NET Yes NET CLR

External File

Types

ORC TXT

Parquet RCFile

ORC CSV Parquet

+ others

Parquet JSON

Hive + others

Many ORC TXT Parquet

RCFile

Admin Low-Medium Medium-High Medium-High Low High

Cost Model DWU Nodes amp VM Nodes amp VM UnitsJobs VM

Schema

Definition

Schema on Write

Polybase

Schema on Read Schema on Read Schema on Read Schema on Write

Polybase

Max DB Size 240TB Comp (5X

= 1PB)

Unlimited 64TB (64 1TB drives)

機械学習 Deep Learning 深層強化学習

画像解析

音声解析

データ分類異常検知 顧客グルーピング

数値予測売上予測 需要予測 品質管理

ラベル分類不良品分析 故障予測 チャーン分析

機械学習より強力な分析

自律学習型ロボット

自動運転車

テキストや画像等の自動生成

活用例

主に多層のニューラルネットワークを用いた手法での分析

分析のためには莫大なデータ量計算量知識スキルを要する

統計に基づいた手法での分析

そのため比較的少ないデータ量と計算量で分析を行うことができる

定義したあるべき姿に従い試行錯誤をして自ら学習を行うための分析手法である強化学習と深層学習を組み合わせた分析

Azure Machine Learning Cognitive Toolkit GPU Instance (N-Series)

マイクロソフトが提供する技術

テキストデータ機器のログデータなど

画像データ監視カメラの録画データ 機器の外観画像 顔画像など

動画データ監視カメラの録画データ 機器の稼働状況 人の作業映像など

音声データマイクからの収集データ 稼働音 室内音 人の音声など

数値データセンサーデータ 機器の制御データ計測データなど672342345

機械学習統計理論に基づいた分析手法を用いる用意するべきデータ量と処理する計算量の敷居が低め導入しやすい

Deep Learningデータ量が大きいため強力な分析手法が必要「膨大なデータ量を用意」「莫大な計算量を処理」が必要で敷居が非常に高い導入にはそれなりの覚悟が必要

Action

People

Automated Systems

Apps

Web

Mobile

Bots

Intelligence

Dashboards amp Visualizations

Cortana

Bot Framework

Cognitive Services

Power BI

Information Management

Event Hubs

Data Catalog

Data Factory

Machine Learning and Analytics

HDInsight

Stream Analytics

Intelligence

Data Lake Analytics

Machine Learning

Big Data Stores

SQL Data Warehouse

Data Lake Store

Data Sources

Apps

Sensors amp Devices

Data

Cortana Intelligence Suite

学習済み

モデル利用

学習モデル

作成

機械学習 教師あり学習

教師なし学習

強化学習

決定木

線形回帰

SVM

ロジスティック回帰

ニューラルネットワーク

クラスタリング

次元削減

Q学習

K-mean法

主成分分析

正準相関分析

ディープニューラルネットワーク

畳みこみニューラルネットワーク

再帰的ニューラルネットワーク

回帰結合ニューラルネットワーク

httpsazuremicrosoftcomen-usservicescognitive-services

わずか数行のコードで強力なアルゴリズムを持つアプリの作成が可能ですiOSAndroidWindows などのプラットフォームを問わず機能します

httpsazuremicrosoftcomja-jpservicesmachine-learning

ユーザーは簡単に予測分析ソリューションを構築デプロイ共有できます

httpswwwyoutubecomwatchv=9gDDO5ldT-4ampfeature=youtube

AI技術を利用したディープラーニング(深層学習)ツールキットです旧称「CNTK」から改名されました

ソースコード httpsgithubcomMicrosoftCNTK

SearchSpeech

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

コカコーラ誕生100周年キャンペーン

コカコーラボトルを「100歳」と認識

bull 自撮り写真をUp結果をSNS拡散

ナビタイムジャパン様

自然言語入力による路線検索BOT

bull ユーザーとの新たな接点(LINE)

bull 自然言語入力

Vision Language Knowledge

Vision Knowledge SearchSpeech Language

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

Microsoft SupportVirtual Agent

自然言語入力による自動応答サポート窓口

bull 過去QampAデータ解析に基づく回答抽出

bull 定型外はldquo人対応rdquo

UBER

登録ドライバーをスマホ経由で顔認証

VOLVO

表情からの危険予測

Search

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

アロバ様

監視カメラによる店舗内行動分析

bull 顔認識による 顧客識別

bull 表情分析

東京サマーランド様にて導入済み

HmComm様

コールセンターソリューション

bull 会話をテキスト化キーワードを解析

bull 過去QampA検索

bull 内容をCRM保存

Vision KnowledgeSpeech Language

導入事例東京サマーランド様

Video

Intelligent KioskhttpsgithubcomMicrosoftCognitive-Samples-IntelligentKiosk

ldquo(want to|request)rdquo

HoloLens

Page 59: やりたいことから考えるMicrosoft Azure 上の データストアの選び方とデータサイエンティスト向け活用法。KVSからDWHまで

デバイス

MachineLearning

StreamAnalytics

SQL Database

Azure Storage

HDInsight(Hadoop)

Event Hubs

BIツール(Power BI など)

機器

制御装置

Stream AnalyticsData Factory

Data LakeStore

SQL

Data

Warehouse

業務システム

Machine Learning

API

IoT Hub

DocumentDB

Data Lake

Analytics service

Revolution R

Enterprise

Recommendations

customer churn

forecasting etc

Face vision Speech text

Cognitive Services

リアルタイム

バッチ

Data Factory Tools for Visual Studio

Azure Portal

Azure TableStorage

(Web ログレコード)

Data Factory

HDInsight

(Web ログをファイルにして

バッチ処理で集計)

SQL Database

(集計データをDB テーブルに格納)

Power BI

社内システム

DataManagement

Gateway

SQL Database

Data Warehouse

Blob Storage

Table Storage

httpportalazurecom

接続

メッセージ作成

メッセージ送信

var cs = ldquo接続文字列rdquovar path = ldquoイベントハブ名rdquovar eh = EventHubClientCreateFromConnectionString(cs path)

var msg = new user = thisUserIdentityNamelevel = leveltimestamp = demoTimestamp

var json = JsonConvertSerializeObject(msg)

ehSend(new EventData(EncodingUTF8GetBytes(json)))

EventProcessorHostを使う

bull

bull

bull

Functionsを使う

bull

bull

IEventProcessorProcessEventAsync(msg)

IEventProcessorProcessEventAsync(msg)

Run(string msg)

Azure azure-sdk-for-python

Point of Service Devices

Self CheckoutStations

Kiosks

Smart Phones

SlatesTablets

PCsLaptops

Servers

Digital Signs

DiagnosticEquipmentRemote Medical

MonitorsLogic

Controllers

SpecializedDevicesThin

Clients

Handhelds

Security

POS Terminals

AutomationDevices

VendingMachines

Kinect

ATM

Stream Analytics

入力 出力クエリデータストリーム

参照

bull ldquo入力rdquoldquo出力rdquoをクリックしそれぞれ作成

bull ldquoクエリrdquoをクリックしクエリを定義bull 作業が終わったらldquo開始rdquoで実

行開始

SELECT

INTO

FROM

SELECT user level AS SATLevel timestamp

INTO

FROM

デバイス接続性とデバイス管理およびブローカーサービス

データ管理と高度な分析 情報活用業務の生産性とプロセスの最適化

IoT Agent Gateway

予兆原因の学習モデル

ダッシュボード

参照ERPbull 顧客bull 設備bull 担当者

Notification Hubs

通知

予兆イベント

メンテ方法の推奨

bull ヘルス状態bull インシデント管理bull 対応のディスパッチ

現地技術要員のモバイルデバイス

オペレーションセンター

bull イベント ドア開閉軸アライメントキャビン速度モーター温度など

bull アラーム 故障アラームエラーコードなど

httpisstkeazurewebsitesnet

Event Hub

Stream Analytics

Azure ML

制御機器とセンサーのデータ

マシンデータの蓄積

メンテナンス方法の学習モデル

Machine Learning

Blob Storage

セルフサービス分析

Power BI

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce

cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-

system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of

your data while making it faster to get up and running with

batch streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources

so you can run queries on exabytes of data Includes U-

SQL a new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully

managed NoSQL database service that indexes stores and

queries data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

What do all of these have in common

They can all use Azure Analysis Services

Azure Analysis Services

Azure Analysis Services

BI semantic model

Business logic amp metrics

Data modeling

Security

Azure Analysis Services

Lifecycle management

In-memory cache

On-premises

Cloud

Data sources

SQL Database

SQL Data Warehouse

Other data sources

SQL Server

Analytics platform

system

Other data sources

On-premises

Cloud

Client tools

Power BI

Excel

Third party BI tools

Power BI Desktop

Rich semantic modelling

locatioidentifier

identifiertype

fieldidentifier

numberofunitssoldtodate

remaningnumber

Numberofuntissoldtoday

receivedback

productidentifier

descriptionline1

descriptionline2

qtyafterqtysales

familyidentifier

Source DataComplex raw data optimized for processing

Semantic ModelRich business user friendly semantic model

Product Id

Product Name

Product Description

Category

Category Id

Category Name

Category Description

Sub Category

Product Id

Shelf qty

Return qty

Order qty

Sale qty

Cloud Data

On-Premises

Data

Azure Analysis Services

Lightning fast queries

データ管理をきっかけに処理を実行

Web Glue

Bots IoT

DOMINOS STORES

Key Vault

Azure Active Directory

Azure Files

SSIS FRANCHISEE

AZURE WEST EUROPE

Azure Function

KEMPSSDESSRS

IN- AND EXTERNAL DATA SOURCES

orderprocessing

O365

App Insights

indexhtml

Azure Functions Proxies

couponprocessing

Use Bindings in Your Codefunctionjson

bindings [type httpTriggerdirection inwebHookType genericJsonname req

type httpdirection outname res

type queuename eventOutputqueueName aievents1connectionAiStorageConnectiondirection out

]

public static class OrderHandler

[FunctionName(OrderWebhook)]public static async TaskltHttpResponseMessagegt Run(

[HttpTrigger] HttpRequestMessage req[Queue(aievents1 Connection = AiStorageConnection)]

IAsyncCollectorltStringgt eventOutputTraceWriter log)

logInfo($Webhook was triggered)

string jsonContent = await reqContentReadAsStringAsync()dynamic data = JsonConvertDeserializeObject(jsonContent)

await eventOutputAddAsync(JsonConvertSerializeObject(GetLogData(data)))

int orderId = PlaceOrder(data)

return reqCreateResponse(HttpStatusCodeOK new orderNumber = orderId )

bull Workflow in the cloud

bull Powerful control flow

bull Connect functions and APIs

bull Declarative definition to persist in source control and drive deployments

Logic AppsCloud APIs and platform

bull Supports over 125 built-in connectors

bull Scales to meet your needs

bull Enables rapid development

bull Extends with custom APIs and

Functions

API connections

bull Authenticate once and reuse

Big Data Solutions Decision Tree

httpsbiz-excellencecom20160830big-data-dt

Machine Learning Solutions Decision Tree

httpsbiz-excellencecom20160913machine-

learning-dt

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of your

data while making it faster to get up and running with batch

streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources so

you can run queries on exabytes of data Includes U-SQL a

new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully managed

NoSQL database service that indexes stores and queries

data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

Microsoft Big Data Portfolio

SQL Server Stretch

Business intelligence

Machine learning analytics

Insights

Azure SQL Database

SQL Server 2016

SQL Server 2016 Fast Track

Azure SQL DW

ADLS amp ADLA

DocumentDB

HDInsight

Hadoop

Analytics Platform System

Sequential Scale Out + AcrossScale Up

Key

Relational Non-relational

On

-pre

mis

es

Clo

ud

Microsoft has solutions covering

and connecting all four

quadrants ndash thatrsquos why SQL

Server is one of the most utilized

databases in the world

Azure

Data Lake Store

Azure

Blob StoragePurpose Optimized for big data analytics General purpose bulk storage

Use Cases Batch Interactive Streaming App backend backup data media storage for

streaming

Units of Storage Accounts Folders Files Accounts Containers Blobs

Structure Hierarchical File System Flat namespace

WebHDFS Implements WebHDFS No (WASB)

Security AD SAS keys

Storage Auto SharedFiles chunked Manually manage expansionFiles intact

Service State Generally Available PolyBase

just supported

Generally Available

Billing Pay for data stored and for IO Pay for data stored and for IO

Region Availability Two US regions (Other regions coming soon) All Azure Regions

ADL Store vs Blob Store

httpsdocsmicrosoftcomen-usazuredata-lake-storedata-lake-store-comparison-with-blob-storage

Want Hadoop

Need exact same on-prem

Need interactive streaming

MandatoryNo strong opinion

Azure Marketplace (IaaS)

bull Need all workloads exactly like on-

premises

bull Need 100 HortonworksClouderaMapR

Azure HDInsight

bull Most Hadoop workloads

bull Fully managed by Microsoft

bull Sell HDI + ADLS

bull Stickier to Microsoft than VMs

bull Can do interactive (Spark) and streaming

(StormSpark)

Azure Data Lake Analytics

bull Easiest experience for admin no sense of

clusters instant scale per job

bull Easiest experience for developers Visual

StudioU-SQL (C+SQL)

bull Sell ADLA + ADLS

bull Batch workloads only

Need everything exactly like on-prem

Need core projects Yes Batch is OK

Always present ADLA if NET or Visual Studio Shop

If NET or VS shop

Azure SQL DW HDInsight Hive HDInsight Spark Azure Data Lake SQL Server (IaaS)

Volume Petabytes Petabytes Petabytes Petabytes Terabytes

Security Encryption TD

Audit

ADLS Apache

Ranger

ADLS AAD Security

Groups (data)

Encryption TD

Audit

Languages T-SQL HiveQL SparkSQL HiveQL

Scala Java Python

R

U-SQL T-SQL

Extensibility No Yes NETSerDe Yes Packages Yes NET Yes NET CLR

External File

Types

ORC TXT

Parquet RCFile

ORC CSV Parquet

+ others

Parquet JSON

Hive + others

Many ORC TXT Parquet

RCFile

Admin Low-Medium Medium-High Medium-High Low High

Cost Model DWU Nodes amp VM Nodes amp VM UnitsJobs VM

Schema

Definition

Schema on Write

Polybase

Schema on Read Schema on Read Schema on Read Schema on Write

Polybase

Max DB Size 240TB Comp (5X

= 1PB)

Unlimited 64TB (64 1TB drives)

機械学習 Deep Learning 深層強化学習

画像解析

音声解析

データ分類異常検知 顧客グルーピング

数値予測売上予測 需要予測 品質管理

ラベル分類不良品分析 故障予測 チャーン分析

機械学習より強力な分析

自律学習型ロボット

自動運転車

テキストや画像等の自動生成

活用例

主に多層のニューラルネットワークを用いた手法での分析

分析のためには莫大なデータ量計算量知識スキルを要する

統計に基づいた手法での分析

そのため比較的少ないデータ量と計算量で分析を行うことができる

定義したあるべき姿に従い試行錯誤をして自ら学習を行うための分析手法である強化学習と深層学習を組み合わせた分析

Azure Machine Learning Cognitive Toolkit GPU Instance (N-Series)

マイクロソフトが提供する技術

テキストデータ機器のログデータなど

画像データ監視カメラの録画データ 機器の外観画像 顔画像など

動画データ監視カメラの録画データ 機器の稼働状況 人の作業映像など

音声データマイクからの収集データ 稼働音 室内音 人の音声など

数値データセンサーデータ 機器の制御データ計測データなど672342345

機械学習統計理論に基づいた分析手法を用いる用意するべきデータ量と処理する計算量の敷居が低め導入しやすい

Deep Learningデータ量が大きいため強力な分析手法が必要「膨大なデータ量を用意」「莫大な計算量を処理」が必要で敷居が非常に高い導入にはそれなりの覚悟が必要

Action

People

Automated Systems

Apps

Web

Mobile

Bots

Intelligence

Dashboards amp Visualizations

Cortana

Bot Framework

Cognitive Services

Power BI

Information Management

Event Hubs

Data Catalog

Data Factory

Machine Learning and Analytics

HDInsight

Stream Analytics

Intelligence

Data Lake Analytics

Machine Learning

Big Data Stores

SQL Data Warehouse

Data Lake Store

Data Sources

Apps

Sensors amp Devices

Data

Cortana Intelligence Suite

学習済み

モデル利用

学習モデル

作成

機械学習 教師あり学習

教師なし学習

強化学習

決定木

線形回帰

SVM

ロジスティック回帰

ニューラルネットワーク

クラスタリング

次元削減

Q学習

K-mean法

主成分分析

正準相関分析

ディープニューラルネットワーク

畳みこみニューラルネットワーク

再帰的ニューラルネットワーク

回帰結合ニューラルネットワーク

httpsazuremicrosoftcomen-usservicescognitive-services

わずか数行のコードで強力なアルゴリズムを持つアプリの作成が可能ですiOSAndroidWindows などのプラットフォームを問わず機能します

httpsazuremicrosoftcomja-jpservicesmachine-learning

ユーザーは簡単に予測分析ソリューションを構築デプロイ共有できます

httpswwwyoutubecomwatchv=9gDDO5ldT-4ampfeature=youtube

AI技術を利用したディープラーニング(深層学習)ツールキットです旧称「CNTK」から改名されました

ソースコード httpsgithubcomMicrosoftCNTK

SearchSpeech

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

コカコーラ誕生100周年キャンペーン

コカコーラボトルを「100歳」と認識

bull 自撮り写真をUp結果をSNS拡散

ナビタイムジャパン様

自然言語入力による路線検索BOT

bull ユーザーとの新たな接点(LINE)

bull 自然言語入力

Vision Language Knowledge

Vision Knowledge SearchSpeech Language

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

Microsoft SupportVirtual Agent

自然言語入力による自動応答サポート窓口

bull 過去QampAデータ解析に基づく回答抽出

bull 定型外はldquo人対応rdquo

UBER

登録ドライバーをスマホ経由で顔認証

VOLVO

表情からの危険予測

Search

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

アロバ様

監視カメラによる店舗内行動分析

bull 顔認識による 顧客識別

bull 表情分析

東京サマーランド様にて導入済み

HmComm様

コールセンターソリューション

bull 会話をテキスト化キーワードを解析

bull 過去QampA検索

bull 内容をCRM保存

Vision KnowledgeSpeech Language

導入事例東京サマーランド様

Video

Intelligent KioskhttpsgithubcomMicrosoftCognitive-Samples-IntelligentKiosk

ldquo(want to|request)rdquo

HoloLens

Page 60: やりたいことから考えるMicrosoft Azure 上の データストアの選び方とデータサイエンティスト向け活用法。KVSからDWHまで

Data Factory Tools for Visual Studio

Azure Portal

Azure TableStorage

(Web ログレコード)

Data Factory

HDInsight

(Web ログをファイルにして

バッチ処理で集計)

SQL Database

(集計データをDB テーブルに格納)

Power BI

社内システム

DataManagement

Gateway

SQL Database

Data Warehouse

Blob Storage

Table Storage

httpportalazurecom

接続

メッセージ作成

メッセージ送信

var cs = ldquo接続文字列rdquovar path = ldquoイベントハブ名rdquovar eh = EventHubClientCreateFromConnectionString(cs path)

var msg = new user = thisUserIdentityNamelevel = leveltimestamp = demoTimestamp

var json = JsonConvertSerializeObject(msg)

ehSend(new EventData(EncodingUTF8GetBytes(json)))

EventProcessorHostを使う

bull

bull

bull

Functionsを使う

bull

bull

IEventProcessorProcessEventAsync(msg)

IEventProcessorProcessEventAsync(msg)

Run(string msg)

Azure azure-sdk-for-python

Point of Service Devices

Self CheckoutStations

Kiosks

Smart Phones

SlatesTablets

PCsLaptops

Servers

Digital Signs

DiagnosticEquipmentRemote Medical

MonitorsLogic

Controllers

SpecializedDevicesThin

Clients

Handhelds

Security

POS Terminals

AutomationDevices

VendingMachines

Kinect

ATM

Stream Analytics

入力 出力クエリデータストリーム

参照

bull ldquo入力rdquoldquo出力rdquoをクリックしそれぞれ作成

bull ldquoクエリrdquoをクリックしクエリを定義bull 作業が終わったらldquo開始rdquoで実

行開始

SELECT

INTO

FROM

SELECT user level AS SATLevel timestamp

INTO

FROM

デバイス接続性とデバイス管理およびブローカーサービス

データ管理と高度な分析 情報活用業務の生産性とプロセスの最適化

IoT Agent Gateway

予兆原因の学習モデル

ダッシュボード

参照ERPbull 顧客bull 設備bull 担当者

Notification Hubs

通知

予兆イベント

メンテ方法の推奨

bull ヘルス状態bull インシデント管理bull 対応のディスパッチ

現地技術要員のモバイルデバイス

オペレーションセンター

bull イベント ドア開閉軸アライメントキャビン速度モーター温度など

bull アラーム 故障アラームエラーコードなど

httpisstkeazurewebsitesnet

Event Hub

Stream Analytics

Azure ML

制御機器とセンサーのデータ

マシンデータの蓄積

メンテナンス方法の学習モデル

Machine Learning

Blob Storage

セルフサービス分析

Power BI

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce

cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-

system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of

your data while making it faster to get up and running with

batch streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources

so you can run queries on exabytes of data Includes U-

SQL a new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully

managed NoSQL database service that indexes stores and

queries data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

What do all of these have in common

They can all use Azure Analysis Services

Azure Analysis Services

Azure Analysis Services

BI semantic model

Business logic amp metrics

Data modeling

Security

Azure Analysis Services

Lifecycle management

In-memory cache

On-premises

Cloud

Data sources

SQL Database

SQL Data Warehouse

Other data sources

SQL Server

Analytics platform

system

Other data sources

On-premises

Cloud

Client tools

Power BI

Excel

Third party BI tools

Power BI Desktop

Rich semantic modelling

locatioidentifier

identifiertype

fieldidentifier

numberofunitssoldtodate

remaningnumber

Numberofuntissoldtoday

receivedback

productidentifier

descriptionline1

descriptionline2

qtyafterqtysales

familyidentifier

Source DataComplex raw data optimized for processing

Semantic ModelRich business user friendly semantic model

Product Id

Product Name

Product Description

Category

Category Id

Category Name

Category Description

Sub Category

Product Id

Shelf qty

Return qty

Order qty

Sale qty

Cloud Data

On-Premises

Data

Azure Analysis Services

Lightning fast queries

データ管理をきっかけに処理を実行

Web Glue

Bots IoT

DOMINOS STORES

Key Vault

Azure Active Directory

Azure Files

SSIS FRANCHISEE

AZURE WEST EUROPE

Azure Function

KEMPSSDESSRS

IN- AND EXTERNAL DATA SOURCES

orderprocessing

O365

App Insights

indexhtml

Azure Functions Proxies

couponprocessing

Use Bindings in Your Codefunctionjson

bindings [type httpTriggerdirection inwebHookType genericJsonname req

type httpdirection outname res

type queuename eventOutputqueueName aievents1connectionAiStorageConnectiondirection out

]

public static class OrderHandler

[FunctionName(OrderWebhook)]public static async TaskltHttpResponseMessagegt Run(

[HttpTrigger] HttpRequestMessage req[Queue(aievents1 Connection = AiStorageConnection)]

IAsyncCollectorltStringgt eventOutputTraceWriter log)

logInfo($Webhook was triggered)

string jsonContent = await reqContentReadAsStringAsync()dynamic data = JsonConvertDeserializeObject(jsonContent)

await eventOutputAddAsync(JsonConvertSerializeObject(GetLogData(data)))

int orderId = PlaceOrder(data)

return reqCreateResponse(HttpStatusCodeOK new orderNumber = orderId )

bull Workflow in the cloud

bull Powerful control flow

bull Connect functions and APIs

bull Declarative definition to persist in source control and drive deployments

Logic AppsCloud APIs and platform

bull Supports over 125 built-in connectors

bull Scales to meet your needs

bull Enables rapid development

bull Extends with custom APIs and

Functions

API connections

bull Authenticate once and reuse

Big Data Solutions Decision Tree

httpsbiz-excellencecom20160830big-data-dt

Machine Learning Solutions Decision Tree

httpsbiz-excellencecom20160913machine-

learning-dt

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of your

data while making it faster to get up and running with batch

streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources so

you can run queries on exabytes of data Includes U-SQL a

new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully managed

NoSQL database service that indexes stores and queries

data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

Microsoft Big Data Portfolio

SQL Server Stretch

Business intelligence

Machine learning analytics

Insights

Azure SQL Database

SQL Server 2016

SQL Server 2016 Fast Track

Azure SQL DW

ADLS amp ADLA

DocumentDB

HDInsight

Hadoop

Analytics Platform System

Sequential Scale Out + AcrossScale Up

Key

Relational Non-relational

On

-pre

mis

es

Clo

ud

Microsoft has solutions covering

and connecting all four

quadrants ndash thatrsquos why SQL

Server is one of the most utilized

databases in the world

Azure

Data Lake Store

Azure

Blob StoragePurpose Optimized for big data analytics General purpose bulk storage

Use Cases Batch Interactive Streaming App backend backup data media storage for

streaming

Units of Storage Accounts Folders Files Accounts Containers Blobs

Structure Hierarchical File System Flat namespace

WebHDFS Implements WebHDFS No (WASB)

Security AD SAS keys

Storage Auto SharedFiles chunked Manually manage expansionFiles intact

Service State Generally Available PolyBase

just supported

Generally Available

Billing Pay for data stored and for IO Pay for data stored and for IO

Region Availability Two US regions (Other regions coming soon) All Azure Regions

ADL Store vs Blob Store

httpsdocsmicrosoftcomen-usazuredata-lake-storedata-lake-store-comparison-with-blob-storage

Want Hadoop

Need exact same on-prem

Need interactive streaming

MandatoryNo strong opinion

Azure Marketplace (IaaS)

bull Need all workloads exactly like on-

premises

bull Need 100 HortonworksClouderaMapR

Azure HDInsight

bull Most Hadoop workloads

bull Fully managed by Microsoft

bull Sell HDI + ADLS

bull Stickier to Microsoft than VMs

bull Can do interactive (Spark) and streaming

(StormSpark)

Azure Data Lake Analytics

bull Easiest experience for admin no sense of

clusters instant scale per job

bull Easiest experience for developers Visual

StudioU-SQL (C+SQL)

bull Sell ADLA + ADLS

bull Batch workloads only

Need everything exactly like on-prem

Need core projects Yes Batch is OK

Always present ADLA if NET or Visual Studio Shop

If NET or VS shop

Azure SQL DW HDInsight Hive HDInsight Spark Azure Data Lake SQL Server (IaaS)

Volume Petabytes Petabytes Petabytes Petabytes Terabytes

Security Encryption TD

Audit

ADLS Apache

Ranger

ADLS AAD Security

Groups (data)

Encryption TD

Audit

Languages T-SQL HiveQL SparkSQL HiveQL

Scala Java Python

R

U-SQL T-SQL

Extensibility No Yes NETSerDe Yes Packages Yes NET Yes NET CLR

External File

Types

ORC TXT

Parquet RCFile

ORC CSV Parquet

+ others

Parquet JSON

Hive + others

Many ORC TXT Parquet

RCFile

Admin Low-Medium Medium-High Medium-High Low High

Cost Model DWU Nodes amp VM Nodes amp VM UnitsJobs VM

Schema

Definition

Schema on Write

Polybase

Schema on Read Schema on Read Schema on Read Schema on Write

Polybase

Max DB Size 240TB Comp (5X

= 1PB)

Unlimited 64TB (64 1TB drives)

機械学習 Deep Learning 深層強化学習

画像解析

音声解析

データ分類異常検知 顧客グルーピング

数値予測売上予測 需要予測 品質管理

ラベル分類不良品分析 故障予測 チャーン分析

機械学習より強力な分析

自律学習型ロボット

自動運転車

テキストや画像等の自動生成

活用例

主に多層のニューラルネットワークを用いた手法での分析

分析のためには莫大なデータ量計算量知識スキルを要する

統計に基づいた手法での分析

そのため比較的少ないデータ量と計算量で分析を行うことができる

定義したあるべき姿に従い試行錯誤をして自ら学習を行うための分析手法である強化学習と深層学習を組み合わせた分析

Azure Machine Learning Cognitive Toolkit GPU Instance (N-Series)

マイクロソフトが提供する技術

テキストデータ機器のログデータなど

画像データ監視カメラの録画データ 機器の外観画像 顔画像など

動画データ監視カメラの録画データ 機器の稼働状況 人の作業映像など

音声データマイクからの収集データ 稼働音 室内音 人の音声など

数値データセンサーデータ 機器の制御データ計測データなど672342345

機械学習統計理論に基づいた分析手法を用いる用意するべきデータ量と処理する計算量の敷居が低め導入しやすい

Deep Learningデータ量が大きいため強力な分析手法が必要「膨大なデータ量を用意」「莫大な計算量を処理」が必要で敷居が非常に高い導入にはそれなりの覚悟が必要

Action

People

Automated Systems

Apps

Web

Mobile

Bots

Intelligence

Dashboards amp Visualizations

Cortana

Bot Framework

Cognitive Services

Power BI

Information Management

Event Hubs

Data Catalog

Data Factory

Machine Learning and Analytics

HDInsight

Stream Analytics

Intelligence

Data Lake Analytics

Machine Learning

Big Data Stores

SQL Data Warehouse

Data Lake Store

Data Sources

Apps

Sensors amp Devices

Data

Cortana Intelligence Suite

学習済み

モデル利用

学習モデル

作成

機械学習 教師あり学習

教師なし学習

強化学習

決定木

線形回帰

SVM

ロジスティック回帰

ニューラルネットワーク

クラスタリング

次元削減

Q学習

K-mean法

主成分分析

正準相関分析

ディープニューラルネットワーク

畳みこみニューラルネットワーク

再帰的ニューラルネットワーク

回帰結合ニューラルネットワーク

httpsazuremicrosoftcomen-usservicescognitive-services

わずか数行のコードで強力なアルゴリズムを持つアプリの作成が可能ですiOSAndroidWindows などのプラットフォームを問わず機能します

httpsazuremicrosoftcomja-jpservicesmachine-learning

ユーザーは簡単に予測分析ソリューションを構築デプロイ共有できます

httpswwwyoutubecomwatchv=9gDDO5ldT-4ampfeature=youtube

AI技術を利用したディープラーニング(深層学習)ツールキットです旧称「CNTK」から改名されました

ソースコード httpsgithubcomMicrosoftCNTK

SearchSpeech

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

コカコーラ誕生100周年キャンペーン

コカコーラボトルを「100歳」と認識

bull 自撮り写真をUp結果をSNS拡散

ナビタイムジャパン様

自然言語入力による路線検索BOT

bull ユーザーとの新たな接点(LINE)

bull 自然言語入力

Vision Language Knowledge

Vision Knowledge SearchSpeech Language

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

Microsoft SupportVirtual Agent

自然言語入力による自動応答サポート窓口

bull 過去QampAデータ解析に基づく回答抽出

bull 定型外はldquo人対応rdquo

UBER

登録ドライバーをスマホ経由で顔認証

VOLVO

表情からの危険予測

Search

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

アロバ様

監視カメラによる店舗内行動分析

bull 顔認識による 顧客識別

bull 表情分析

東京サマーランド様にて導入済み

HmComm様

コールセンターソリューション

bull 会話をテキスト化キーワードを解析

bull 過去QampA検索

bull 内容をCRM保存

Vision KnowledgeSpeech Language

導入事例東京サマーランド様

Video

Intelligent KioskhttpsgithubcomMicrosoftCognitive-Samples-IntelligentKiosk

ldquo(want to|request)rdquo

HoloLens

Page 61: やりたいことから考えるMicrosoft Azure 上の データストアの選び方とデータサイエンティスト向け活用法。KVSからDWHまで

Azure TableStorage

(Web ログレコード)

Data Factory

HDInsight

(Web ログをファイルにして

バッチ処理で集計)

SQL Database

(集計データをDB テーブルに格納)

Power BI

社内システム

DataManagement

Gateway

SQL Database

Data Warehouse

Blob Storage

Table Storage

httpportalazurecom

接続

メッセージ作成

メッセージ送信

var cs = ldquo接続文字列rdquovar path = ldquoイベントハブ名rdquovar eh = EventHubClientCreateFromConnectionString(cs path)

var msg = new user = thisUserIdentityNamelevel = leveltimestamp = demoTimestamp

var json = JsonConvertSerializeObject(msg)

ehSend(new EventData(EncodingUTF8GetBytes(json)))

EventProcessorHostを使う

bull

bull

bull

Functionsを使う

bull

bull

IEventProcessorProcessEventAsync(msg)

IEventProcessorProcessEventAsync(msg)

Run(string msg)

Azure azure-sdk-for-python

Point of Service Devices

Self CheckoutStations

Kiosks

Smart Phones

SlatesTablets

PCsLaptops

Servers

Digital Signs

DiagnosticEquipmentRemote Medical

MonitorsLogic

Controllers

SpecializedDevicesThin

Clients

Handhelds

Security

POS Terminals

AutomationDevices

VendingMachines

Kinect

ATM

Stream Analytics

入力 出力クエリデータストリーム

参照

bull ldquo入力rdquoldquo出力rdquoをクリックしそれぞれ作成

bull ldquoクエリrdquoをクリックしクエリを定義bull 作業が終わったらldquo開始rdquoで実

行開始

SELECT

INTO

FROM

SELECT user level AS SATLevel timestamp

INTO

FROM

デバイス接続性とデバイス管理およびブローカーサービス

データ管理と高度な分析 情報活用業務の生産性とプロセスの最適化

IoT Agent Gateway

予兆原因の学習モデル

ダッシュボード

参照ERPbull 顧客bull 設備bull 担当者

Notification Hubs

通知

予兆イベント

メンテ方法の推奨

bull ヘルス状態bull インシデント管理bull 対応のディスパッチ

現地技術要員のモバイルデバイス

オペレーションセンター

bull イベント ドア開閉軸アライメントキャビン速度モーター温度など

bull アラーム 故障アラームエラーコードなど

httpisstkeazurewebsitesnet

Event Hub

Stream Analytics

Azure ML

制御機器とセンサーのデータ

マシンデータの蓄積

メンテナンス方法の学習モデル

Machine Learning

Blob Storage

セルフサービス分析

Power BI

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce

cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-

system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of

your data while making it faster to get up and running with

batch streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources

so you can run queries on exabytes of data Includes U-

SQL a new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully

managed NoSQL database service that indexes stores and

queries data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

What do all of these have in common

They can all use Azure Analysis Services

Azure Analysis Services

Azure Analysis Services

BI semantic model

Business logic amp metrics

Data modeling

Security

Azure Analysis Services

Lifecycle management

In-memory cache

On-premises

Cloud

Data sources

SQL Database

SQL Data Warehouse

Other data sources

SQL Server

Analytics platform

system

Other data sources

On-premises

Cloud

Client tools

Power BI

Excel

Third party BI tools

Power BI Desktop

Rich semantic modelling

locatioidentifier

identifiertype

fieldidentifier

numberofunitssoldtodate

remaningnumber

Numberofuntissoldtoday

receivedback

productidentifier

descriptionline1

descriptionline2

qtyafterqtysales

familyidentifier

Source DataComplex raw data optimized for processing

Semantic ModelRich business user friendly semantic model

Product Id

Product Name

Product Description

Category

Category Id

Category Name

Category Description

Sub Category

Product Id

Shelf qty

Return qty

Order qty

Sale qty

Cloud Data

On-Premises

Data

Azure Analysis Services

Lightning fast queries

データ管理をきっかけに処理を実行

Web Glue

Bots IoT

DOMINOS STORES

Key Vault

Azure Active Directory

Azure Files

SSIS FRANCHISEE

AZURE WEST EUROPE

Azure Function

KEMPSSDESSRS

IN- AND EXTERNAL DATA SOURCES

orderprocessing

O365

App Insights

indexhtml

Azure Functions Proxies

couponprocessing

Use Bindings in Your Codefunctionjson

bindings [type httpTriggerdirection inwebHookType genericJsonname req

type httpdirection outname res

type queuename eventOutputqueueName aievents1connectionAiStorageConnectiondirection out

]

public static class OrderHandler

[FunctionName(OrderWebhook)]public static async TaskltHttpResponseMessagegt Run(

[HttpTrigger] HttpRequestMessage req[Queue(aievents1 Connection = AiStorageConnection)]

IAsyncCollectorltStringgt eventOutputTraceWriter log)

logInfo($Webhook was triggered)

string jsonContent = await reqContentReadAsStringAsync()dynamic data = JsonConvertDeserializeObject(jsonContent)

await eventOutputAddAsync(JsonConvertSerializeObject(GetLogData(data)))

int orderId = PlaceOrder(data)

return reqCreateResponse(HttpStatusCodeOK new orderNumber = orderId )

bull Workflow in the cloud

bull Powerful control flow

bull Connect functions and APIs

bull Declarative definition to persist in source control and drive deployments

Logic AppsCloud APIs and platform

bull Supports over 125 built-in connectors

bull Scales to meet your needs

bull Enables rapid development

bull Extends with custom APIs and

Functions

API connections

bull Authenticate once and reuse

Big Data Solutions Decision Tree

httpsbiz-excellencecom20160830big-data-dt

Machine Learning Solutions Decision Tree

httpsbiz-excellencecom20160913machine-

learning-dt

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of your

data while making it faster to get up and running with batch

streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources so

you can run queries on exabytes of data Includes U-SQL a

new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully managed

NoSQL database service that indexes stores and queries

data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

Microsoft Big Data Portfolio

SQL Server Stretch

Business intelligence

Machine learning analytics

Insights

Azure SQL Database

SQL Server 2016

SQL Server 2016 Fast Track

Azure SQL DW

ADLS amp ADLA

DocumentDB

HDInsight

Hadoop

Analytics Platform System

Sequential Scale Out + AcrossScale Up

Key

Relational Non-relational

On

-pre

mis

es

Clo

ud

Microsoft has solutions covering

and connecting all four

quadrants ndash thatrsquos why SQL

Server is one of the most utilized

databases in the world

Azure

Data Lake Store

Azure

Blob StoragePurpose Optimized for big data analytics General purpose bulk storage

Use Cases Batch Interactive Streaming App backend backup data media storage for

streaming

Units of Storage Accounts Folders Files Accounts Containers Blobs

Structure Hierarchical File System Flat namespace

WebHDFS Implements WebHDFS No (WASB)

Security AD SAS keys

Storage Auto SharedFiles chunked Manually manage expansionFiles intact

Service State Generally Available PolyBase

just supported

Generally Available

Billing Pay for data stored and for IO Pay for data stored and for IO

Region Availability Two US regions (Other regions coming soon) All Azure Regions

ADL Store vs Blob Store

httpsdocsmicrosoftcomen-usazuredata-lake-storedata-lake-store-comparison-with-blob-storage

Want Hadoop

Need exact same on-prem

Need interactive streaming

MandatoryNo strong opinion

Azure Marketplace (IaaS)

bull Need all workloads exactly like on-

premises

bull Need 100 HortonworksClouderaMapR

Azure HDInsight

bull Most Hadoop workloads

bull Fully managed by Microsoft

bull Sell HDI + ADLS

bull Stickier to Microsoft than VMs

bull Can do interactive (Spark) and streaming

(StormSpark)

Azure Data Lake Analytics

bull Easiest experience for admin no sense of

clusters instant scale per job

bull Easiest experience for developers Visual

StudioU-SQL (C+SQL)

bull Sell ADLA + ADLS

bull Batch workloads only

Need everything exactly like on-prem

Need core projects Yes Batch is OK

Always present ADLA if NET or Visual Studio Shop

If NET or VS shop

Azure SQL DW HDInsight Hive HDInsight Spark Azure Data Lake SQL Server (IaaS)

Volume Petabytes Petabytes Petabytes Petabytes Terabytes

Security Encryption TD

Audit

ADLS Apache

Ranger

ADLS AAD Security

Groups (data)

Encryption TD

Audit

Languages T-SQL HiveQL SparkSQL HiveQL

Scala Java Python

R

U-SQL T-SQL

Extensibility No Yes NETSerDe Yes Packages Yes NET Yes NET CLR

External File

Types

ORC TXT

Parquet RCFile

ORC CSV Parquet

+ others

Parquet JSON

Hive + others

Many ORC TXT Parquet

RCFile

Admin Low-Medium Medium-High Medium-High Low High

Cost Model DWU Nodes amp VM Nodes amp VM UnitsJobs VM

Schema

Definition

Schema on Write

Polybase

Schema on Read Schema on Read Schema on Read Schema on Write

Polybase

Max DB Size 240TB Comp (5X

= 1PB)

Unlimited 64TB (64 1TB drives)

機械学習 Deep Learning 深層強化学習

画像解析

音声解析

データ分類異常検知 顧客グルーピング

数値予測売上予測 需要予測 品質管理

ラベル分類不良品分析 故障予測 チャーン分析

機械学習より強力な分析

自律学習型ロボット

自動運転車

テキストや画像等の自動生成

活用例

主に多層のニューラルネットワークを用いた手法での分析

分析のためには莫大なデータ量計算量知識スキルを要する

統計に基づいた手法での分析

そのため比較的少ないデータ量と計算量で分析を行うことができる

定義したあるべき姿に従い試行錯誤をして自ら学習を行うための分析手法である強化学習と深層学習を組み合わせた分析

Azure Machine Learning Cognitive Toolkit GPU Instance (N-Series)

マイクロソフトが提供する技術

テキストデータ機器のログデータなど

画像データ監視カメラの録画データ 機器の外観画像 顔画像など

動画データ監視カメラの録画データ 機器の稼働状況 人の作業映像など

音声データマイクからの収集データ 稼働音 室内音 人の音声など

数値データセンサーデータ 機器の制御データ計測データなど672342345

機械学習統計理論に基づいた分析手法を用いる用意するべきデータ量と処理する計算量の敷居が低め導入しやすい

Deep Learningデータ量が大きいため強力な分析手法が必要「膨大なデータ量を用意」「莫大な計算量を処理」が必要で敷居が非常に高い導入にはそれなりの覚悟が必要

Action

People

Automated Systems

Apps

Web

Mobile

Bots

Intelligence

Dashboards amp Visualizations

Cortana

Bot Framework

Cognitive Services

Power BI

Information Management

Event Hubs

Data Catalog

Data Factory

Machine Learning and Analytics

HDInsight

Stream Analytics

Intelligence

Data Lake Analytics

Machine Learning

Big Data Stores

SQL Data Warehouse

Data Lake Store

Data Sources

Apps

Sensors amp Devices

Data

Cortana Intelligence Suite

学習済み

モデル利用

学習モデル

作成

機械学習 教師あり学習

教師なし学習

強化学習

決定木

線形回帰

SVM

ロジスティック回帰

ニューラルネットワーク

クラスタリング

次元削減

Q学習

K-mean法

主成分分析

正準相関分析

ディープニューラルネットワーク

畳みこみニューラルネットワーク

再帰的ニューラルネットワーク

回帰結合ニューラルネットワーク

httpsazuremicrosoftcomen-usservicescognitive-services

わずか数行のコードで強力なアルゴリズムを持つアプリの作成が可能ですiOSAndroidWindows などのプラットフォームを問わず機能します

httpsazuremicrosoftcomja-jpservicesmachine-learning

ユーザーは簡単に予測分析ソリューションを構築デプロイ共有できます

httpswwwyoutubecomwatchv=9gDDO5ldT-4ampfeature=youtube

AI技術を利用したディープラーニング(深層学習)ツールキットです旧称「CNTK」から改名されました

ソースコード httpsgithubcomMicrosoftCNTK

SearchSpeech

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

コカコーラ誕生100周年キャンペーン

コカコーラボトルを「100歳」と認識

bull 自撮り写真をUp結果をSNS拡散

ナビタイムジャパン様

自然言語入力による路線検索BOT

bull ユーザーとの新たな接点(LINE)

bull 自然言語入力

Vision Language Knowledge

Vision Knowledge SearchSpeech Language

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

Microsoft SupportVirtual Agent

自然言語入力による自動応答サポート窓口

bull 過去QampAデータ解析に基づく回答抽出

bull 定型外はldquo人対応rdquo

UBER

登録ドライバーをスマホ経由で顔認証

VOLVO

表情からの危険予測

Search

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

アロバ様

監視カメラによる店舗内行動分析

bull 顔認識による 顧客識別

bull 表情分析

東京サマーランド様にて導入済み

HmComm様

コールセンターソリューション

bull 会話をテキスト化キーワードを解析

bull 過去QampA検索

bull 内容をCRM保存

Vision KnowledgeSpeech Language

導入事例東京サマーランド様

Video

Intelligent KioskhttpsgithubcomMicrosoftCognitive-Samples-IntelligentKiosk

ldquo(want to|request)rdquo

HoloLens

Page 62: やりたいことから考えるMicrosoft Azure 上の データストアの選び方とデータサイエンティスト向け活用法。KVSからDWHまで

社内システム

DataManagement

Gateway

SQL Database

Data Warehouse

Blob Storage

Table Storage

httpportalazurecom

接続

メッセージ作成

メッセージ送信

var cs = ldquo接続文字列rdquovar path = ldquoイベントハブ名rdquovar eh = EventHubClientCreateFromConnectionString(cs path)

var msg = new user = thisUserIdentityNamelevel = leveltimestamp = demoTimestamp

var json = JsonConvertSerializeObject(msg)

ehSend(new EventData(EncodingUTF8GetBytes(json)))

EventProcessorHostを使う

bull

bull

bull

Functionsを使う

bull

bull

IEventProcessorProcessEventAsync(msg)

IEventProcessorProcessEventAsync(msg)

Run(string msg)

Azure azure-sdk-for-python

Point of Service Devices

Self CheckoutStations

Kiosks

Smart Phones

SlatesTablets

PCsLaptops

Servers

Digital Signs

DiagnosticEquipmentRemote Medical

MonitorsLogic

Controllers

SpecializedDevicesThin

Clients

Handhelds

Security

POS Terminals

AutomationDevices

VendingMachines

Kinect

ATM

Stream Analytics

入力 出力クエリデータストリーム

参照

bull ldquo入力rdquoldquo出力rdquoをクリックしそれぞれ作成

bull ldquoクエリrdquoをクリックしクエリを定義bull 作業が終わったらldquo開始rdquoで実

行開始

SELECT

INTO

FROM

SELECT user level AS SATLevel timestamp

INTO

FROM

デバイス接続性とデバイス管理およびブローカーサービス

データ管理と高度な分析 情報活用業務の生産性とプロセスの最適化

IoT Agent Gateway

予兆原因の学習モデル

ダッシュボード

参照ERPbull 顧客bull 設備bull 担当者

Notification Hubs

通知

予兆イベント

メンテ方法の推奨

bull ヘルス状態bull インシデント管理bull 対応のディスパッチ

現地技術要員のモバイルデバイス

オペレーションセンター

bull イベント ドア開閉軸アライメントキャビン速度モーター温度など

bull アラーム 故障アラームエラーコードなど

httpisstkeazurewebsitesnet

Event Hub

Stream Analytics

Azure ML

制御機器とセンサーのデータ

マシンデータの蓄積

メンテナンス方法の学習モデル

Machine Learning

Blob Storage

セルフサービス分析

Power BI

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce

cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-

system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of

your data while making it faster to get up and running with

batch streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources

so you can run queries on exabytes of data Includes U-

SQL a new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully

managed NoSQL database service that indexes stores and

queries data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

What do all of these have in common

They can all use Azure Analysis Services

Azure Analysis Services

Azure Analysis Services

BI semantic model

Business logic amp metrics

Data modeling

Security

Azure Analysis Services

Lifecycle management

In-memory cache

On-premises

Cloud

Data sources

SQL Database

SQL Data Warehouse

Other data sources

SQL Server

Analytics platform

system

Other data sources

On-premises

Cloud

Client tools

Power BI

Excel

Third party BI tools

Power BI Desktop

Rich semantic modelling

locatioidentifier

identifiertype

fieldidentifier

numberofunitssoldtodate

remaningnumber

Numberofuntissoldtoday

receivedback

productidentifier

descriptionline1

descriptionline2

qtyafterqtysales

familyidentifier

Source DataComplex raw data optimized for processing

Semantic ModelRich business user friendly semantic model

Product Id

Product Name

Product Description

Category

Category Id

Category Name

Category Description

Sub Category

Product Id

Shelf qty

Return qty

Order qty

Sale qty

Cloud Data

On-Premises

Data

Azure Analysis Services

Lightning fast queries

データ管理をきっかけに処理を実行

Web Glue

Bots IoT

DOMINOS STORES

Key Vault

Azure Active Directory

Azure Files

SSIS FRANCHISEE

AZURE WEST EUROPE

Azure Function

KEMPSSDESSRS

IN- AND EXTERNAL DATA SOURCES

orderprocessing

O365

App Insights

indexhtml

Azure Functions Proxies

couponprocessing

Use Bindings in Your Codefunctionjson

bindings [type httpTriggerdirection inwebHookType genericJsonname req

type httpdirection outname res

type queuename eventOutputqueueName aievents1connectionAiStorageConnectiondirection out

]

public static class OrderHandler

[FunctionName(OrderWebhook)]public static async TaskltHttpResponseMessagegt Run(

[HttpTrigger] HttpRequestMessage req[Queue(aievents1 Connection = AiStorageConnection)]

IAsyncCollectorltStringgt eventOutputTraceWriter log)

logInfo($Webhook was triggered)

string jsonContent = await reqContentReadAsStringAsync()dynamic data = JsonConvertDeserializeObject(jsonContent)

await eventOutputAddAsync(JsonConvertSerializeObject(GetLogData(data)))

int orderId = PlaceOrder(data)

return reqCreateResponse(HttpStatusCodeOK new orderNumber = orderId )

bull Workflow in the cloud

bull Powerful control flow

bull Connect functions and APIs

bull Declarative definition to persist in source control and drive deployments

Logic AppsCloud APIs and platform

bull Supports over 125 built-in connectors

bull Scales to meet your needs

bull Enables rapid development

bull Extends with custom APIs and

Functions

API connections

bull Authenticate once and reuse

Big Data Solutions Decision Tree

httpsbiz-excellencecom20160830big-data-dt

Machine Learning Solutions Decision Tree

httpsbiz-excellencecom20160913machine-

learning-dt

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of your

data while making it faster to get up and running with batch

streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources so

you can run queries on exabytes of data Includes U-SQL a

new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully managed

NoSQL database service that indexes stores and queries

data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

Microsoft Big Data Portfolio

SQL Server Stretch

Business intelligence

Machine learning analytics

Insights

Azure SQL Database

SQL Server 2016

SQL Server 2016 Fast Track

Azure SQL DW

ADLS amp ADLA

DocumentDB

HDInsight

Hadoop

Analytics Platform System

Sequential Scale Out + AcrossScale Up

Key

Relational Non-relational

On

-pre

mis

es

Clo

ud

Microsoft has solutions covering

and connecting all four

quadrants ndash thatrsquos why SQL

Server is one of the most utilized

databases in the world

Azure

Data Lake Store

Azure

Blob StoragePurpose Optimized for big data analytics General purpose bulk storage

Use Cases Batch Interactive Streaming App backend backup data media storage for

streaming

Units of Storage Accounts Folders Files Accounts Containers Blobs

Structure Hierarchical File System Flat namespace

WebHDFS Implements WebHDFS No (WASB)

Security AD SAS keys

Storage Auto SharedFiles chunked Manually manage expansionFiles intact

Service State Generally Available PolyBase

just supported

Generally Available

Billing Pay for data stored and for IO Pay for data stored and for IO

Region Availability Two US regions (Other regions coming soon) All Azure Regions

ADL Store vs Blob Store

httpsdocsmicrosoftcomen-usazuredata-lake-storedata-lake-store-comparison-with-blob-storage

Want Hadoop

Need exact same on-prem

Need interactive streaming

MandatoryNo strong opinion

Azure Marketplace (IaaS)

bull Need all workloads exactly like on-

premises

bull Need 100 HortonworksClouderaMapR

Azure HDInsight

bull Most Hadoop workloads

bull Fully managed by Microsoft

bull Sell HDI + ADLS

bull Stickier to Microsoft than VMs

bull Can do interactive (Spark) and streaming

(StormSpark)

Azure Data Lake Analytics

bull Easiest experience for admin no sense of

clusters instant scale per job

bull Easiest experience for developers Visual

StudioU-SQL (C+SQL)

bull Sell ADLA + ADLS

bull Batch workloads only

Need everything exactly like on-prem

Need core projects Yes Batch is OK

Always present ADLA if NET or Visual Studio Shop

If NET or VS shop

Azure SQL DW HDInsight Hive HDInsight Spark Azure Data Lake SQL Server (IaaS)

Volume Petabytes Petabytes Petabytes Petabytes Terabytes

Security Encryption TD

Audit

ADLS Apache

Ranger

ADLS AAD Security

Groups (data)

Encryption TD

Audit

Languages T-SQL HiveQL SparkSQL HiveQL

Scala Java Python

R

U-SQL T-SQL

Extensibility No Yes NETSerDe Yes Packages Yes NET Yes NET CLR

External File

Types

ORC TXT

Parquet RCFile

ORC CSV Parquet

+ others

Parquet JSON

Hive + others

Many ORC TXT Parquet

RCFile

Admin Low-Medium Medium-High Medium-High Low High

Cost Model DWU Nodes amp VM Nodes amp VM UnitsJobs VM

Schema

Definition

Schema on Write

Polybase

Schema on Read Schema on Read Schema on Read Schema on Write

Polybase

Max DB Size 240TB Comp (5X

= 1PB)

Unlimited 64TB (64 1TB drives)

機械学習 Deep Learning 深層強化学習

画像解析

音声解析

データ分類異常検知 顧客グルーピング

数値予測売上予測 需要予測 品質管理

ラベル分類不良品分析 故障予測 チャーン分析

機械学習より強力な分析

自律学習型ロボット

自動運転車

テキストや画像等の自動生成

活用例

主に多層のニューラルネットワークを用いた手法での分析

分析のためには莫大なデータ量計算量知識スキルを要する

統計に基づいた手法での分析

そのため比較的少ないデータ量と計算量で分析を行うことができる

定義したあるべき姿に従い試行錯誤をして自ら学習を行うための分析手法である強化学習と深層学習を組み合わせた分析

Azure Machine Learning Cognitive Toolkit GPU Instance (N-Series)

マイクロソフトが提供する技術

テキストデータ機器のログデータなど

画像データ監視カメラの録画データ 機器の外観画像 顔画像など

動画データ監視カメラの録画データ 機器の稼働状況 人の作業映像など

音声データマイクからの収集データ 稼働音 室内音 人の音声など

数値データセンサーデータ 機器の制御データ計測データなど672342345

機械学習統計理論に基づいた分析手法を用いる用意するべきデータ量と処理する計算量の敷居が低め導入しやすい

Deep Learningデータ量が大きいため強力な分析手法が必要「膨大なデータ量を用意」「莫大な計算量を処理」が必要で敷居が非常に高い導入にはそれなりの覚悟が必要

Action

People

Automated Systems

Apps

Web

Mobile

Bots

Intelligence

Dashboards amp Visualizations

Cortana

Bot Framework

Cognitive Services

Power BI

Information Management

Event Hubs

Data Catalog

Data Factory

Machine Learning and Analytics

HDInsight

Stream Analytics

Intelligence

Data Lake Analytics

Machine Learning

Big Data Stores

SQL Data Warehouse

Data Lake Store

Data Sources

Apps

Sensors amp Devices

Data

Cortana Intelligence Suite

学習済み

モデル利用

学習モデル

作成

機械学習 教師あり学習

教師なし学習

強化学習

決定木

線形回帰

SVM

ロジスティック回帰

ニューラルネットワーク

クラスタリング

次元削減

Q学習

K-mean法

主成分分析

正準相関分析

ディープニューラルネットワーク

畳みこみニューラルネットワーク

再帰的ニューラルネットワーク

回帰結合ニューラルネットワーク

httpsazuremicrosoftcomen-usservicescognitive-services

わずか数行のコードで強力なアルゴリズムを持つアプリの作成が可能ですiOSAndroidWindows などのプラットフォームを問わず機能します

httpsazuremicrosoftcomja-jpservicesmachine-learning

ユーザーは簡単に予測分析ソリューションを構築デプロイ共有できます

httpswwwyoutubecomwatchv=9gDDO5ldT-4ampfeature=youtube

AI技術を利用したディープラーニング(深層学習)ツールキットです旧称「CNTK」から改名されました

ソースコード httpsgithubcomMicrosoftCNTK

SearchSpeech

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

コカコーラ誕生100周年キャンペーン

コカコーラボトルを「100歳」と認識

bull 自撮り写真をUp結果をSNS拡散

ナビタイムジャパン様

自然言語入力による路線検索BOT

bull ユーザーとの新たな接点(LINE)

bull 自然言語入力

Vision Language Knowledge

Vision Knowledge SearchSpeech Language

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

Microsoft SupportVirtual Agent

自然言語入力による自動応答サポート窓口

bull 過去QampAデータ解析に基づく回答抽出

bull 定型外はldquo人対応rdquo

UBER

登録ドライバーをスマホ経由で顔認証

VOLVO

表情からの危険予測

Search

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

アロバ様

監視カメラによる店舗内行動分析

bull 顔認識による 顧客識別

bull 表情分析

東京サマーランド様にて導入済み

HmComm様

コールセンターソリューション

bull 会話をテキスト化キーワードを解析

bull 過去QampA検索

bull 内容をCRM保存

Vision KnowledgeSpeech Language

導入事例東京サマーランド様

Video

Intelligent KioskhttpsgithubcomMicrosoftCognitive-Samples-IntelligentKiosk

ldquo(want to|request)rdquo

HoloLens

Page 63: やりたいことから考えるMicrosoft Azure 上の データストアの選び方とデータサイエンティスト向け活用法。KVSからDWHまで

httpportalazurecom

接続

メッセージ作成

メッセージ送信

var cs = ldquo接続文字列rdquovar path = ldquoイベントハブ名rdquovar eh = EventHubClientCreateFromConnectionString(cs path)

var msg = new user = thisUserIdentityNamelevel = leveltimestamp = demoTimestamp

var json = JsonConvertSerializeObject(msg)

ehSend(new EventData(EncodingUTF8GetBytes(json)))

EventProcessorHostを使う

bull

bull

bull

Functionsを使う

bull

bull

IEventProcessorProcessEventAsync(msg)

IEventProcessorProcessEventAsync(msg)

Run(string msg)

Azure azure-sdk-for-python

Point of Service Devices

Self CheckoutStations

Kiosks

Smart Phones

SlatesTablets

PCsLaptops

Servers

Digital Signs

DiagnosticEquipmentRemote Medical

MonitorsLogic

Controllers

SpecializedDevicesThin

Clients

Handhelds

Security

POS Terminals

AutomationDevices

VendingMachines

Kinect

ATM

Stream Analytics

入力 出力クエリデータストリーム

参照

bull ldquo入力rdquoldquo出力rdquoをクリックしそれぞれ作成

bull ldquoクエリrdquoをクリックしクエリを定義bull 作業が終わったらldquo開始rdquoで実

行開始

SELECT

INTO

FROM

SELECT user level AS SATLevel timestamp

INTO

FROM

デバイス接続性とデバイス管理およびブローカーサービス

データ管理と高度な分析 情報活用業務の生産性とプロセスの最適化

IoT Agent Gateway

予兆原因の学習モデル

ダッシュボード

参照ERPbull 顧客bull 設備bull 担当者

Notification Hubs

通知

予兆イベント

メンテ方法の推奨

bull ヘルス状態bull インシデント管理bull 対応のディスパッチ

現地技術要員のモバイルデバイス

オペレーションセンター

bull イベント ドア開閉軸アライメントキャビン速度モーター温度など

bull アラーム 故障アラームエラーコードなど

httpisstkeazurewebsitesnet

Event Hub

Stream Analytics

Azure ML

制御機器とセンサーのデータ

マシンデータの蓄積

メンテナンス方法の学習モデル

Machine Learning

Blob Storage

セルフサービス分析

Power BI

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce

cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-

system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of

your data while making it faster to get up and running with

batch streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources

so you can run queries on exabytes of data Includes U-

SQL a new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully

managed NoSQL database service that indexes stores and

queries data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

What do all of these have in common

They can all use Azure Analysis Services

Azure Analysis Services

Azure Analysis Services

BI semantic model

Business logic amp metrics

Data modeling

Security

Azure Analysis Services

Lifecycle management

In-memory cache

On-premises

Cloud

Data sources

SQL Database

SQL Data Warehouse

Other data sources

SQL Server

Analytics platform

system

Other data sources

On-premises

Cloud

Client tools

Power BI

Excel

Third party BI tools

Power BI Desktop

Rich semantic modelling

locatioidentifier

identifiertype

fieldidentifier

numberofunitssoldtodate

remaningnumber

Numberofuntissoldtoday

receivedback

productidentifier

descriptionline1

descriptionline2

qtyafterqtysales

familyidentifier

Source DataComplex raw data optimized for processing

Semantic ModelRich business user friendly semantic model

Product Id

Product Name

Product Description

Category

Category Id

Category Name

Category Description

Sub Category

Product Id

Shelf qty

Return qty

Order qty

Sale qty

Cloud Data

On-Premises

Data

Azure Analysis Services

Lightning fast queries

データ管理をきっかけに処理を実行

Web Glue

Bots IoT

DOMINOS STORES

Key Vault

Azure Active Directory

Azure Files

SSIS FRANCHISEE

AZURE WEST EUROPE

Azure Function

KEMPSSDESSRS

IN- AND EXTERNAL DATA SOURCES

orderprocessing

O365

App Insights

indexhtml

Azure Functions Proxies

couponprocessing

Use Bindings in Your Codefunctionjson

bindings [type httpTriggerdirection inwebHookType genericJsonname req

type httpdirection outname res

type queuename eventOutputqueueName aievents1connectionAiStorageConnectiondirection out

]

public static class OrderHandler

[FunctionName(OrderWebhook)]public static async TaskltHttpResponseMessagegt Run(

[HttpTrigger] HttpRequestMessage req[Queue(aievents1 Connection = AiStorageConnection)]

IAsyncCollectorltStringgt eventOutputTraceWriter log)

logInfo($Webhook was triggered)

string jsonContent = await reqContentReadAsStringAsync()dynamic data = JsonConvertDeserializeObject(jsonContent)

await eventOutputAddAsync(JsonConvertSerializeObject(GetLogData(data)))

int orderId = PlaceOrder(data)

return reqCreateResponse(HttpStatusCodeOK new orderNumber = orderId )

bull Workflow in the cloud

bull Powerful control flow

bull Connect functions and APIs

bull Declarative definition to persist in source control and drive deployments

Logic AppsCloud APIs and platform

bull Supports over 125 built-in connectors

bull Scales to meet your needs

bull Enables rapid development

bull Extends with custom APIs and

Functions

API connections

bull Authenticate once and reuse

Big Data Solutions Decision Tree

httpsbiz-excellencecom20160830big-data-dt

Machine Learning Solutions Decision Tree

httpsbiz-excellencecom20160913machine-

learning-dt

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of your

data while making it faster to get up and running with batch

streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources so

you can run queries on exabytes of data Includes U-SQL a

new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully managed

NoSQL database service that indexes stores and queries

data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

Microsoft Big Data Portfolio

SQL Server Stretch

Business intelligence

Machine learning analytics

Insights

Azure SQL Database

SQL Server 2016

SQL Server 2016 Fast Track

Azure SQL DW

ADLS amp ADLA

DocumentDB

HDInsight

Hadoop

Analytics Platform System

Sequential Scale Out + AcrossScale Up

Key

Relational Non-relational

On

-pre

mis

es

Clo

ud

Microsoft has solutions covering

and connecting all four

quadrants ndash thatrsquos why SQL

Server is one of the most utilized

databases in the world

Azure

Data Lake Store

Azure

Blob StoragePurpose Optimized for big data analytics General purpose bulk storage

Use Cases Batch Interactive Streaming App backend backup data media storage for

streaming

Units of Storage Accounts Folders Files Accounts Containers Blobs

Structure Hierarchical File System Flat namespace

WebHDFS Implements WebHDFS No (WASB)

Security AD SAS keys

Storage Auto SharedFiles chunked Manually manage expansionFiles intact

Service State Generally Available PolyBase

just supported

Generally Available

Billing Pay for data stored and for IO Pay for data stored and for IO

Region Availability Two US regions (Other regions coming soon) All Azure Regions

ADL Store vs Blob Store

httpsdocsmicrosoftcomen-usazuredata-lake-storedata-lake-store-comparison-with-blob-storage

Want Hadoop

Need exact same on-prem

Need interactive streaming

MandatoryNo strong opinion

Azure Marketplace (IaaS)

bull Need all workloads exactly like on-

premises

bull Need 100 HortonworksClouderaMapR

Azure HDInsight

bull Most Hadoop workloads

bull Fully managed by Microsoft

bull Sell HDI + ADLS

bull Stickier to Microsoft than VMs

bull Can do interactive (Spark) and streaming

(StormSpark)

Azure Data Lake Analytics

bull Easiest experience for admin no sense of

clusters instant scale per job

bull Easiest experience for developers Visual

StudioU-SQL (C+SQL)

bull Sell ADLA + ADLS

bull Batch workloads only

Need everything exactly like on-prem

Need core projects Yes Batch is OK

Always present ADLA if NET or Visual Studio Shop

If NET or VS shop

Azure SQL DW HDInsight Hive HDInsight Spark Azure Data Lake SQL Server (IaaS)

Volume Petabytes Petabytes Petabytes Petabytes Terabytes

Security Encryption TD

Audit

ADLS Apache

Ranger

ADLS AAD Security

Groups (data)

Encryption TD

Audit

Languages T-SQL HiveQL SparkSQL HiveQL

Scala Java Python

R

U-SQL T-SQL

Extensibility No Yes NETSerDe Yes Packages Yes NET Yes NET CLR

External File

Types

ORC TXT

Parquet RCFile

ORC CSV Parquet

+ others

Parquet JSON

Hive + others

Many ORC TXT Parquet

RCFile

Admin Low-Medium Medium-High Medium-High Low High

Cost Model DWU Nodes amp VM Nodes amp VM UnitsJobs VM

Schema

Definition

Schema on Write

Polybase

Schema on Read Schema on Read Schema on Read Schema on Write

Polybase

Max DB Size 240TB Comp (5X

= 1PB)

Unlimited 64TB (64 1TB drives)

機械学習 Deep Learning 深層強化学習

画像解析

音声解析

データ分類異常検知 顧客グルーピング

数値予測売上予測 需要予測 品質管理

ラベル分類不良品分析 故障予測 チャーン分析

機械学習より強力な分析

自律学習型ロボット

自動運転車

テキストや画像等の自動生成

活用例

主に多層のニューラルネットワークを用いた手法での分析

分析のためには莫大なデータ量計算量知識スキルを要する

統計に基づいた手法での分析

そのため比較的少ないデータ量と計算量で分析を行うことができる

定義したあるべき姿に従い試行錯誤をして自ら学習を行うための分析手法である強化学習と深層学習を組み合わせた分析

Azure Machine Learning Cognitive Toolkit GPU Instance (N-Series)

マイクロソフトが提供する技術

テキストデータ機器のログデータなど

画像データ監視カメラの録画データ 機器の外観画像 顔画像など

動画データ監視カメラの録画データ 機器の稼働状況 人の作業映像など

音声データマイクからの収集データ 稼働音 室内音 人の音声など

数値データセンサーデータ 機器の制御データ計測データなど672342345

機械学習統計理論に基づいた分析手法を用いる用意するべきデータ量と処理する計算量の敷居が低め導入しやすい

Deep Learningデータ量が大きいため強力な分析手法が必要「膨大なデータ量を用意」「莫大な計算量を処理」が必要で敷居が非常に高い導入にはそれなりの覚悟が必要

Action

People

Automated Systems

Apps

Web

Mobile

Bots

Intelligence

Dashboards amp Visualizations

Cortana

Bot Framework

Cognitive Services

Power BI

Information Management

Event Hubs

Data Catalog

Data Factory

Machine Learning and Analytics

HDInsight

Stream Analytics

Intelligence

Data Lake Analytics

Machine Learning

Big Data Stores

SQL Data Warehouse

Data Lake Store

Data Sources

Apps

Sensors amp Devices

Data

Cortana Intelligence Suite

学習済み

モデル利用

学習モデル

作成

機械学習 教師あり学習

教師なし学習

強化学習

決定木

線形回帰

SVM

ロジスティック回帰

ニューラルネットワーク

クラスタリング

次元削減

Q学習

K-mean法

主成分分析

正準相関分析

ディープニューラルネットワーク

畳みこみニューラルネットワーク

再帰的ニューラルネットワーク

回帰結合ニューラルネットワーク

httpsazuremicrosoftcomen-usservicescognitive-services

わずか数行のコードで強力なアルゴリズムを持つアプリの作成が可能ですiOSAndroidWindows などのプラットフォームを問わず機能します

httpsazuremicrosoftcomja-jpservicesmachine-learning

ユーザーは簡単に予測分析ソリューションを構築デプロイ共有できます

httpswwwyoutubecomwatchv=9gDDO5ldT-4ampfeature=youtube

AI技術を利用したディープラーニング(深層学習)ツールキットです旧称「CNTK」から改名されました

ソースコード httpsgithubcomMicrosoftCNTK

SearchSpeech

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

コカコーラ誕生100周年キャンペーン

コカコーラボトルを「100歳」と認識

bull 自撮り写真をUp結果をSNS拡散

ナビタイムジャパン様

自然言語入力による路線検索BOT

bull ユーザーとの新たな接点(LINE)

bull 自然言語入力

Vision Language Knowledge

Vision Knowledge SearchSpeech Language

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

Microsoft SupportVirtual Agent

自然言語入力による自動応答サポート窓口

bull 過去QampAデータ解析に基づく回答抽出

bull 定型外はldquo人対応rdquo

UBER

登録ドライバーをスマホ経由で顔認証

VOLVO

表情からの危険予測

Search

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

アロバ様

監視カメラによる店舗内行動分析

bull 顔認識による 顧客識別

bull 表情分析

東京サマーランド様にて導入済み

HmComm様

コールセンターソリューション

bull 会話をテキスト化キーワードを解析

bull 過去QampA検索

bull 内容をCRM保存

Vision KnowledgeSpeech Language

導入事例東京サマーランド様

Video

Intelligent KioskhttpsgithubcomMicrosoftCognitive-Samples-IntelligentKiosk

ldquo(want to|request)rdquo

HoloLens

Page 64: やりたいことから考えるMicrosoft Azure 上の データストアの選び方とデータサイエンティスト向け活用法。KVSからDWHまで

接続

メッセージ作成

メッセージ送信

var cs = ldquo接続文字列rdquovar path = ldquoイベントハブ名rdquovar eh = EventHubClientCreateFromConnectionString(cs path)

var msg = new user = thisUserIdentityNamelevel = leveltimestamp = demoTimestamp

var json = JsonConvertSerializeObject(msg)

ehSend(new EventData(EncodingUTF8GetBytes(json)))

EventProcessorHostを使う

bull

bull

bull

Functionsを使う

bull

bull

IEventProcessorProcessEventAsync(msg)

IEventProcessorProcessEventAsync(msg)

Run(string msg)

Azure azure-sdk-for-python

Point of Service Devices

Self CheckoutStations

Kiosks

Smart Phones

SlatesTablets

PCsLaptops

Servers

Digital Signs

DiagnosticEquipmentRemote Medical

MonitorsLogic

Controllers

SpecializedDevicesThin

Clients

Handhelds

Security

POS Terminals

AutomationDevices

VendingMachines

Kinect

ATM

Stream Analytics

入力 出力クエリデータストリーム

参照

bull ldquo入力rdquoldquo出力rdquoをクリックしそれぞれ作成

bull ldquoクエリrdquoをクリックしクエリを定義bull 作業が終わったらldquo開始rdquoで実

行開始

SELECT

INTO

FROM

SELECT user level AS SATLevel timestamp

INTO

FROM

デバイス接続性とデバイス管理およびブローカーサービス

データ管理と高度な分析 情報活用業務の生産性とプロセスの最適化

IoT Agent Gateway

予兆原因の学習モデル

ダッシュボード

参照ERPbull 顧客bull 設備bull 担当者

Notification Hubs

通知

予兆イベント

メンテ方法の推奨

bull ヘルス状態bull インシデント管理bull 対応のディスパッチ

現地技術要員のモバイルデバイス

オペレーションセンター

bull イベント ドア開閉軸アライメントキャビン速度モーター温度など

bull アラーム 故障アラームエラーコードなど

httpisstkeazurewebsitesnet

Event Hub

Stream Analytics

Azure ML

制御機器とセンサーのデータ

マシンデータの蓄積

メンテナンス方法の学習モデル

Machine Learning

Blob Storage

セルフサービス分析

Power BI

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce

cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-

system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of

your data while making it faster to get up and running with

batch streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources

so you can run queries on exabytes of data Includes U-

SQL a new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully

managed NoSQL database service that indexes stores and

queries data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

What do all of these have in common

They can all use Azure Analysis Services

Azure Analysis Services

Azure Analysis Services

BI semantic model

Business logic amp metrics

Data modeling

Security

Azure Analysis Services

Lifecycle management

In-memory cache

On-premises

Cloud

Data sources

SQL Database

SQL Data Warehouse

Other data sources

SQL Server

Analytics platform

system

Other data sources

On-premises

Cloud

Client tools

Power BI

Excel

Third party BI tools

Power BI Desktop

Rich semantic modelling

locatioidentifier

identifiertype

fieldidentifier

numberofunitssoldtodate

remaningnumber

Numberofuntissoldtoday

receivedback

productidentifier

descriptionline1

descriptionline2

qtyafterqtysales

familyidentifier

Source DataComplex raw data optimized for processing

Semantic ModelRich business user friendly semantic model

Product Id

Product Name

Product Description

Category

Category Id

Category Name

Category Description

Sub Category

Product Id

Shelf qty

Return qty

Order qty

Sale qty

Cloud Data

On-Premises

Data

Azure Analysis Services

Lightning fast queries

データ管理をきっかけに処理を実行

Web Glue

Bots IoT

DOMINOS STORES

Key Vault

Azure Active Directory

Azure Files

SSIS FRANCHISEE

AZURE WEST EUROPE

Azure Function

KEMPSSDESSRS

IN- AND EXTERNAL DATA SOURCES

orderprocessing

O365

App Insights

indexhtml

Azure Functions Proxies

couponprocessing

Use Bindings in Your Codefunctionjson

bindings [type httpTriggerdirection inwebHookType genericJsonname req

type httpdirection outname res

type queuename eventOutputqueueName aievents1connectionAiStorageConnectiondirection out

]

public static class OrderHandler

[FunctionName(OrderWebhook)]public static async TaskltHttpResponseMessagegt Run(

[HttpTrigger] HttpRequestMessage req[Queue(aievents1 Connection = AiStorageConnection)]

IAsyncCollectorltStringgt eventOutputTraceWriter log)

logInfo($Webhook was triggered)

string jsonContent = await reqContentReadAsStringAsync()dynamic data = JsonConvertDeserializeObject(jsonContent)

await eventOutputAddAsync(JsonConvertSerializeObject(GetLogData(data)))

int orderId = PlaceOrder(data)

return reqCreateResponse(HttpStatusCodeOK new orderNumber = orderId )

bull Workflow in the cloud

bull Powerful control flow

bull Connect functions and APIs

bull Declarative definition to persist in source control and drive deployments

Logic AppsCloud APIs and platform

bull Supports over 125 built-in connectors

bull Scales to meet your needs

bull Enables rapid development

bull Extends with custom APIs and

Functions

API connections

bull Authenticate once and reuse

Big Data Solutions Decision Tree

httpsbiz-excellencecom20160830big-data-dt

Machine Learning Solutions Decision Tree

httpsbiz-excellencecom20160913machine-

learning-dt

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of your

data while making it faster to get up and running with batch

streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources so

you can run queries on exabytes of data Includes U-SQL a

new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully managed

NoSQL database service that indexes stores and queries

data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

Microsoft Big Data Portfolio

SQL Server Stretch

Business intelligence

Machine learning analytics

Insights

Azure SQL Database

SQL Server 2016

SQL Server 2016 Fast Track

Azure SQL DW

ADLS amp ADLA

DocumentDB

HDInsight

Hadoop

Analytics Platform System

Sequential Scale Out + AcrossScale Up

Key

Relational Non-relational

On

-pre

mis

es

Clo

ud

Microsoft has solutions covering

and connecting all four

quadrants ndash thatrsquos why SQL

Server is one of the most utilized

databases in the world

Azure

Data Lake Store

Azure

Blob StoragePurpose Optimized for big data analytics General purpose bulk storage

Use Cases Batch Interactive Streaming App backend backup data media storage for

streaming

Units of Storage Accounts Folders Files Accounts Containers Blobs

Structure Hierarchical File System Flat namespace

WebHDFS Implements WebHDFS No (WASB)

Security AD SAS keys

Storage Auto SharedFiles chunked Manually manage expansionFiles intact

Service State Generally Available PolyBase

just supported

Generally Available

Billing Pay for data stored and for IO Pay for data stored and for IO

Region Availability Two US regions (Other regions coming soon) All Azure Regions

ADL Store vs Blob Store

httpsdocsmicrosoftcomen-usazuredata-lake-storedata-lake-store-comparison-with-blob-storage

Want Hadoop

Need exact same on-prem

Need interactive streaming

MandatoryNo strong opinion

Azure Marketplace (IaaS)

bull Need all workloads exactly like on-

premises

bull Need 100 HortonworksClouderaMapR

Azure HDInsight

bull Most Hadoop workloads

bull Fully managed by Microsoft

bull Sell HDI + ADLS

bull Stickier to Microsoft than VMs

bull Can do interactive (Spark) and streaming

(StormSpark)

Azure Data Lake Analytics

bull Easiest experience for admin no sense of

clusters instant scale per job

bull Easiest experience for developers Visual

StudioU-SQL (C+SQL)

bull Sell ADLA + ADLS

bull Batch workloads only

Need everything exactly like on-prem

Need core projects Yes Batch is OK

Always present ADLA if NET or Visual Studio Shop

If NET or VS shop

Azure SQL DW HDInsight Hive HDInsight Spark Azure Data Lake SQL Server (IaaS)

Volume Petabytes Petabytes Petabytes Petabytes Terabytes

Security Encryption TD

Audit

ADLS Apache

Ranger

ADLS AAD Security

Groups (data)

Encryption TD

Audit

Languages T-SQL HiveQL SparkSQL HiveQL

Scala Java Python

R

U-SQL T-SQL

Extensibility No Yes NETSerDe Yes Packages Yes NET Yes NET CLR

External File

Types

ORC TXT

Parquet RCFile

ORC CSV Parquet

+ others

Parquet JSON

Hive + others

Many ORC TXT Parquet

RCFile

Admin Low-Medium Medium-High Medium-High Low High

Cost Model DWU Nodes amp VM Nodes amp VM UnitsJobs VM

Schema

Definition

Schema on Write

Polybase

Schema on Read Schema on Read Schema on Read Schema on Write

Polybase

Max DB Size 240TB Comp (5X

= 1PB)

Unlimited 64TB (64 1TB drives)

機械学習 Deep Learning 深層強化学習

画像解析

音声解析

データ分類異常検知 顧客グルーピング

数値予測売上予測 需要予測 品質管理

ラベル分類不良品分析 故障予測 チャーン分析

機械学習より強力な分析

自律学習型ロボット

自動運転車

テキストや画像等の自動生成

活用例

主に多層のニューラルネットワークを用いた手法での分析

分析のためには莫大なデータ量計算量知識スキルを要する

統計に基づいた手法での分析

そのため比較的少ないデータ量と計算量で分析を行うことができる

定義したあるべき姿に従い試行錯誤をして自ら学習を行うための分析手法である強化学習と深層学習を組み合わせた分析

Azure Machine Learning Cognitive Toolkit GPU Instance (N-Series)

マイクロソフトが提供する技術

テキストデータ機器のログデータなど

画像データ監視カメラの録画データ 機器の外観画像 顔画像など

動画データ監視カメラの録画データ 機器の稼働状況 人の作業映像など

音声データマイクからの収集データ 稼働音 室内音 人の音声など

数値データセンサーデータ 機器の制御データ計測データなど672342345

機械学習統計理論に基づいた分析手法を用いる用意するべきデータ量と処理する計算量の敷居が低め導入しやすい

Deep Learningデータ量が大きいため強力な分析手法が必要「膨大なデータ量を用意」「莫大な計算量を処理」が必要で敷居が非常に高い導入にはそれなりの覚悟が必要

Action

People

Automated Systems

Apps

Web

Mobile

Bots

Intelligence

Dashboards amp Visualizations

Cortana

Bot Framework

Cognitive Services

Power BI

Information Management

Event Hubs

Data Catalog

Data Factory

Machine Learning and Analytics

HDInsight

Stream Analytics

Intelligence

Data Lake Analytics

Machine Learning

Big Data Stores

SQL Data Warehouse

Data Lake Store

Data Sources

Apps

Sensors amp Devices

Data

Cortana Intelligence Suite

学習済み

モデル利用

学習モデル

作成

機械学習 教師あり学習

教師なし学習

強化学習

決定木

線形回帰

SVM

ロジスティック回帰

ニューラルネットワーク

クラスタリング

次元削減

Q学習

K-mean法

主成分分析

正準相関分析

ディープニューラルネットワーク

畳みこみニューラルネットワーク

再帰的ニューラルネットワーク

回帰結合ニューラルネットワーク

httpsazuremicrosoftcomen-usservicescognitive-services

わずか数行のコードで強力なアルゴリズムを持つアプリの作成が可能ですiOSAndroidWindows などのプラットフォームを問わず機能します

httpsazuremicrosoftcomja-jpservicesmachine-learning

ユーザーは簡単に予測分析ソリューションを構築デプロイ共有できます

httpswwwyoutubecomwatchv=9gDDO5ldT-4ampfeature=youtube

AI技術を利用したディープラーニング(深層学習)ツールキットです旧称「CNTK」から改名されました

ソースコード httpsgithubcomMicrosoftCNTK

SearchSpeech

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

コカコーラ誕生100周年キャンペーン

コカコーラボトルを「100歳」と認識

bull 自撮り写真をUp結果をSNS拡散

ナビタイムジャパン様

自然言語入力による路線検索BOT

bull ユーザーとの新たな接点(LINE)

bull 自然言語入力

Vision Language Knowledge

Vision Knowledge SearchSpeech Language

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

Microsoft SupportVirtual Agent

自然言語入力による自動応答サポート窓口

bull 過去QampAデータ解析に基づく回答抽出

bull 定型外はldquo人対応rdquo

UBER

登録ドライバーをスマホ経由で顔認証

VOLVO

表情からの危険予測

Search

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

アロバ様

監視カメラによる店舗内行動分析

bull 顔認識による 顧客識別

bull 表情分析

東京サマーランド様にて導入済み

HmComm様

コールセンターソリューション

bull 会話をテキスト化キーワードを解析

bull 過去QampA検索

bull 内容をCRM保存

Vision KnowledgeSpeech Language

導入事例東京サマーランド様

Video

Intelligent KioskhttpsgithubcomMicrosoftCognitive-Samples-IntelligentKiosk

ldquo(want to|request)rdquo

HoloLens

Page 65: やりたいことから考えるMicrosoft Azure 上の データストアの選び方とデータサイエンティスト向け活用法。KVSからDWHまで

EventProcessorHostを使う

bull

bull

bull

Functionsを使う

bull

bull

IEventProcessorProcessEventAsync(msg)

IEventProcessorProcessEventAsync(msg)

Run(string msg)

Azure azure-sdk-for-python

Point of Service Devices

Self CheckoutStations

Kiosks

Smart Phones

SlatesTablets

PCsLaptops

Servers

Digital Signs

DiagnosticEquipmentRemote Medical

MonitorsLogic

Controllers

SpecializedDevicesThin

Clients

Handhelds

Security

POS Terminals

AutomationDevices

VendingMachines

Kinect

ATM

Stream Analytics

入力 出力クエリデータストリーム

参照

bull ldquo入力rdquoldquo出力rdquoをクリックしそれぞれ作成

bull ldquoクエリrdquoをクリックしクエリを定義bull 作業が終わったらldquo開始rdquoで実

行開始

SELECT

INTO

FROM

SELECT user level AS SATLevel timestamp

INTO

FROM

デバイス接続性とデバイス管理およびブローカーサービス

データ管理と高度な分析 情報活用業務の生産性とプロセスの最適化

IoT Agent Gateway

予兆原因の学習モデル

ダッシュボード

参照ERPbull 顧客bull 設備bull 担当者

Notification Hubs

通知

予兆イベント

メンテ方法の推奨

bull ヘルス状態bull インシデント管理bull 対応のディスパッチ

現地技術要員のモバイルデバイス

オペレーションセンター

bull イベント ドア開閉軸アライメントキャビン速度モーター温度など

bull アラーム 故障アラームエラーコードなど

httpisstkeazurewebsitesnet

Event Hub

Stream Analytics

Azure ML

制御機器とセンサーのデータ

マシンデータの蓄積

メンテナンス方法の学習モデル

Machine Learning

Blob Storage

セルフサービス分析

Power BI

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce

cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-

system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of

your data while making it faster to get up and running with

batch streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources

so you can run queries on exabytes of data Includes U-

SQL a new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully

managed NoSQL database service that indexes stores and

queries data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

What do all of these have in common

They can all use Azure Analysis Services

Azure Analysis Services

Azure Analysis Services

BI semantic model

Business logic amp metrics

Data modeling

Security

Azure Analysis Services

Lifecycle management

In-memory cache

On-premises

Cloud

Data sources

SQL Database

SQL Data Warehouse

Other data sources

SQL Server

Analytics platform

system

Other data sources

On-premises

Cloud

Client tools

Power BI

Excel

Third party BI tools

Power BI Desktop

Rich semantic modelling

locatioidentifier

identifiertype

fieldidentifier

numberofunitssoldtodate

remaningnumber

Numberofuntissoldtoday

receivedback

productidentifier

descriptionline1

descriptionline2

qtyafterqtysales

familyidentifier

Source DataComplex raw data optimized for processing

Semantic ModelRich business user friendly semantic model

Product Id

Product Name

Product Description

Category

Category Id

Category Name

Category Description

Sub Category

Product Id

Shelf qty

Return qty

Order qty

Sale qty

Cloud Data

On-Premises

Data

Azure Analysis Services

Lightning fast queries

データ管理をきっかけに処理を実行

Web Glue

Bots IoT

DOMINOS STORES

Key Vault

Azure Active Directory

Azure Files

SSIS FRANCHISEE

AZURE WEST EUROPE

Azure Function

KEMPSSDESSRS

IN- AND EXTERNAL DATA SOURCES

orderprocessing

O365

App Insights

indexhtml

Azure Functions Proxies

couponprocessing

Use Bindings in Your Codefunctionjson

bindings [type httpTriggerdirection inwebHookType genericJsonname req

type httpdirection outname res

type queuename eventOutputqueueName aievents1connectionAiStorageConnectiondirection out

]

public static class OrderHandler

[FunctionName(OrderWebhook)]public static async TaskltHttpResponseMessagegt Run(

[HttpTrigger] HttpRequestMessage req[Queue(aievents1 Connection = AiStorageConnection)]

IAsyncCollectorltStringgt eventOutputTraceWriter log)

logInfo($Webhook was triggered)

string jsonContent = await reqContentReadAsStringAsync()dynamic data = JsonConvertDeserializeObject(jsonContent)

await eventOutputAddAsync(JsonConvertSerializeObject(GetLogData(data)))

int orderId = PlaceOrder(data)

return reqCreateResponse(HttpStatusCodeOK new orderNumber = orderId )

bull Workflow in the cloud

bull Powerful control flow

bull Connect functions and APIs

bull Declarative definition to persist in source control and drive deployments

Logic AppsCloud APIs and platform

bull Supports over 125 built-in connectors

bull Scales to meet your needs

bull Enables rapid development

bull Extends with custom APIs and

Functions

API connections

bull Authenticate once and reuse

Big Data Solutions Decision Tree

httpsbiz-excellencecom20160830big-data-dt

Machine Learning Solutions Decision Tree

httpsbiz-excellencecom20160913machine-

learning-dt

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of your

data while making it faster to get up and running with batch

streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources so

you can run queries on exabytes of data Includes U-SQL a

new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully managed

NoSQL database service that indexes stores and queries

data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

Microsoft Big Data Portfolio

SQL Server Stretch

Business intelligence

Machine learning analytics

Insights

Azure SQL Database

SQL Server 2016

SQL Server 2016 Fast Track

Azure SQL DW

ADLS amp ADLA

DocumentDB

HDInsight

Hadoop

Analytics Platform System

Sequential Scale Out + AcrossScale Up

Key

Relational Non-relational

On

-pre

mis

es

Clo

ud

Microsoft has solutions covering

and connecting all four

quadrants ndash thatrsquos why SQL

Server is one of the most utilized

databases in the world

Azure

Data Lake Store

Azure

Blob StoragePurpose Optimized for big data analytics General purpose bulk storage

Use Cases Batch Interactive Streaming App backend backup data media storage for

streaming

Units of Storage Accounts Folders Files Accounts Containers Blobs

Structure Hierarchical File System Flat namespace

WebHDFS Implements WebHDFS No (WASB)

Security AD SAS keys

Storage Auto SharedFiles chunked Manually manage expansionFiles intact

Service State Generally Available PolyBase

just supported

Generally Available

Billing Pay for data stored and for IO Pay for data stored and for IO

Region Availability Two US regions (Other regions coming soon) All Azure Regions

ADL Store vs Blob Store

httpsdocsmicrosoftcomen-usazuredata-lake-storedata-lake-store-comparison-with-blob-storage

Want Hadoop

Need exact same on-prem

Need interactive streaming

MandatoryNo strong opinion

Azure Marketplace (IaaS)

bull Need all workloads exactly like on-

premises

bull Need 100 HortonworksClouderaMapR

Azure HDInsight

bull Most Hadoop workloads

bull Fully managed by Microsoft

bull Sell HDI + ADLS

bull Stickier to Microsoft than VMs

bull Can do interactive (Spark) and streaming

(StormSpark)

Azure Data Lake Analytics

bull Easiest experience for admin no sense of

clusters instant scale per job

bull Easiest experience for developers Visual

StudioU-SQL (C+SQL)

bull Sell ADLA + ADLS

bull Batch workloads only

Need everything exactly like on-prem

Need core projects Yes Batch is OK

Always present ADLA if NET or Visual Studio Shop

If NET or VS shop

Azure SQL DW HDInsight Hive HDInsight Spark Azure Data Lake SQL Server (IaaS)

Volume Petabytes Petabytes Petabytes Petabytes Terabytes

Security Encryption TD

Audit

ADLS Apache

Ranger

ADLS AAD Security

Groups (data)

Encryption TD

Audit

Languages T-SQL HiveQL SparkSQL HiveQL

Scala Java Python

R

U-SQL T-SQL

Extensibility No Yes NETSerDe Yes Packages Yes NET Yes NET CLR

External File

Types

ORC TXT

Parquet RCFile

ORC CSV Parquet

+ others

Parquet JSON

Hive + others

Many ORC TXT Parquet

RCFile

Admin Low-Medium Medium-High Medium-High Low High

Cost Model DWU Nodes amp VM Nodes amp VM UnitsJobs VM

Schema

Definition

Schema on Write

Polybase

Schema on Read Schema on Read Schema on Read Schema on Write

Polybase

Max DB Size 240TB Comp (5X

= 1PB)

Unlimited 64TB (64 1TB drives)

機械学習 Deep Learning 深層強化学習

画像解析

音声解析

データ分類異常検知 顧客グルーピング

数値予測売上予測 需要予測 品質管理

ラベル分類不良品分析 故障予測 チャーン分析

機械学習より強力な分析

自律学習型ロボット

自動運転車

テキストや画像等の自動生成

活用例

主に多層のニューラルネットワークを用いた手法での分析

分析のためには莫大なデータ量計算量知識スキルを要する

統計に基づいた手法での分析

そのため比較的少ないデータ量と計算量で分析を行うことができる

定義したあるべき姿に従い試行錯誤をして自ら学習を行うための分析手法である強化学習と深層学習を組み合わせた分析

Azure Machine Learning Cognitive Toolkit GPU Instance (N-Series)

マイクロソフトが提供する技術

テキストデータ機器のログデータなど

画像データ監視カメラの録画データ 機器の外観画像 顔画像など

動画データ監視カメラの録画データ 機器の稼働状況 人の作業映像など

音声データマイクからの収集データ 稼働音 室内音 人の音声など

数値データセンサーデータ 機器の制御データ計測データなど672342345

機械学習統計理論に基づいた分析手法を用いる用意するべきデータ量と処理する計算量の敷居が低め導入しやすい

Deep Learningデータ量が大きいため強力な分析手法が必要「膨大なデータ量を用意」「莫大な計算量を処理」が必要で敷居が非常に高い導入にはそれなりの覚悟が必要

Action

People

Automated Systems

Apps

Web

Mobile

Bots

Intelligence

Dashboards amp Visualizations

Cortana

Bot Framework

Cognitive Services

Power BI

Information Management

Event Hubs

Data Catalog

Data Factory

Machine Learning and Analytics

HDInsight

Stream Analytics

Intelligence

Data Lake Analytics

Machine Learning

Big Data Stores

SQL Data Warehouse

Data Lake Store

Data Sources

Apps

Sensors amp Devices

Data

Cortana Intelligence Suite

学習済み

モデル利用

学習モデル

作成

機械学習 教師あり学習

教師なし学習

強化学習

決定木

線形回帰

SVM

ロジスティック回帰

ニューラルネットワーク

クラスタリング

次元削減

Q学習

K-mean法

主成分分析

正準相関分析

ディープニューラルネットワーク

畳みこみニューラルネットワーク

再帰的ニューラルネットワーク

回帰結合ニューラルネットワーク

httpsazuremicrosoftcomen-usservicescognitive-services

わずか数行のコードで強力なアルゴリズムを持つアプリの作成が可能ですiOSAndroidWindows などのプラットフォームを問わず機能します

httpsazuremicrosoftcomja-jpservicesmachine-learning

ユーザーは簡単に予測分析ソリューションを構築デプロイ共有できます

httpswwwyoutubecomwatchv=9gDDO5ldT-4ampfeature=youtube

AI技術を利用したディープラーニング(深層学習)ツールキットです旧称「CNTK」から改名されました

ソースコード httpsgithubcomMicrosoftCNTK

SearchSpeech

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

コカコーラ誕生100周年キャンペーン

コカコーラボトルを「100歳」と認識

bull 自撮り写真をUp結果をSNS拡散

ナビタイムジャパン様

自然言語入力による路線検索BOT

bull ユーザーとの新たな接点(LINE)

bull 自然言語入力

Vision Language Knowledge

Vision Knowledge SearchSpeech Language

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

Microsoft SupportVirtual Agent

自然言語入力による自動応答サポート窓口

bull 過去QampAデータ解析に基づく回答抽出

bull 定型外はldquo人対応rdquo

UBER

登録ドライバーをスマホ経由で顔認証

VOLVO

表情からの危険予測

Search

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

アロバ様

監視カメラによる店舗内行動分析

bull 顔認識による 顧客識別

bull 表情分析

東京サマーランド様にて導入済み

HmComm様

コールセンターソリューション

bull 会話をテキスト化キーワードを解析

bull 過去QampA検索

bull 内容をCRM保存

Vision KnowledgeSpeech Language

導入事例東京サマーランド様

Video

Intelligent KioskhttpsgithubcomMicrosoftCognitive-Samples-IntelligentKiosk

ldquo(want to|request)rdquo

HoloLens

Page 66: やりたいことから考えるMicrosoft Azure 上の データストアの選び方とデータサイエンティスト向け活用法。KVSからDWHまで

Azure azure-sdk-for-python

Point of Service Devices

Self CheckoutStations

Kiosks

Smart Phones

SlatesTablets

PCsLaptops

Servers

Digital Signs

DiagnosticEquipmentRemote Medical

MonitorsLogic

Controllers

SpecializedDevicesThin

Clients

Handhelds

Security

POS Terminals

AutomationDevices

VendingMachines

Kinect

ATM

Stream Analytics

入力 出力クエリデータストリーム

参照

bull ldquo入力rdquoldquo出力rdquoをクリックしそれぞれ作成

bull ldquoクエリrdquoをクリックしクエリを定義bull 作業が終わったらldquo開始rdquoで実

行開始

SELECT

INTO

FROM

SELECT user level AS SATLevel timestamp

INTO

FROM

デバイス接続性とデバイス管理およびブローカーサービス

データ管理と高度な分析 情報活用業務の生産性とプロセスの最適化

IoT Agent Gateway

予兆原因の学習モデル

ダッシュボード

参照ERPbull 顧客bull 設備bull 担当者

Notification Hubs

通知

予兆イベント

メンテ方法の推奨

bull ヘルス状態bull インシデント管理bull 対応のディスパッチ

現地技術要員のモバイルデバイス

オペレーションセンター

bull イベント ドア開閉軸アライメントキャビン速度モーター温度など

bull アラーム 故障アラームエラーコードなど

httpisstkeazurewebsitesnet

Event Hub

Stream Analytics

Azure ML

制御機器とセンサーのデータ

マシンデータの蓄積

メンテナンス方法の学習モデル

Machine Learning

Blob Storage

セルフサービス分析

Power BI

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce

cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-

system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of

your data while making it faster to get up and running with

batch streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources

so you can run queries on exabytes of data Includes U-

SQL a new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully

managed NoSQL database service that indexes stores and

queries data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

What do all of these have in common

They can all use Azure Analysis Services

Azure Analysis Services

Azure Analysis Services

BI semantic model

Business logic amp metrics

Data modeling

Security

Azure Analysis Services

Lifecycle management

In-memory cache

On-premises

Cloud

Data sources

SQL Database

SQL Data Warehouse

Other data sources

SQL Server

Analytics platform

system

Other data sources

On-premises

Cloud

Client tools

Power BI

Excel

Third party BI tools

Power BI Desktop

Rich semantic modelling

locatioidentifier

identifiertype

fieldidentifier

numberofunitssoldtodate

remaningnumber

Numberofuntissoldtoday

receivedback

productidentifier

descriptionline1

descriptionline2

qtyafterqtysales

familyidentifier

Source DataComplex raw data optimized for processing

Semantic ModelRich business user friendly semantic model

Product Id

Product Name

Product Description

Category

Category Id

Category Name

Category Description

Sub Category

Product Id

Shelf qty

Return qty

Order qty

Sale qty

Cloud Data

On-Premises

Data

Azure Analysis Services

Lightning fast queries

データ管理をきっかけに処理を実行

Web Glue

Bots IoT

DOMINOS STORES

Key Vault

Azure Active Directory

Azure Files

SSIS FRANCHISEE

AZURE WEST EUROPE

Azure Function

KEMPSSDESSRS

IN- AND EXTERNAL DATA SOURCES

orderprocessing

O365

App Insights

indexhtml

Azure Functions Proxies

couponprocessing

Use Bindings in Your Codefunctionjson

bindings [type httpTriggerdirection inwebHookType genericJsonname req

type httpdirection outname res

type queuename eventOutputqueueName aievents1connectionAiStorageConnectiondirection out

]

public static class OrderHandler

[FunctionName(OrderWebhook)]public static async TaskltHttpResponseMessagegt Run(

[HttpTrigger] HttpRequestMessage req[Queue(aievents1 Connection = AiStorageConnection)]

IAsyncCollectorltStringgt eventOutputTraceWriter log)

logInfo($Webhook was triggered)

string jsonContent = await reqContentReadAsStringAsync()dynamic data = JsonConvertDeserializeObject(jsonContent)

await eventOutputAddAsync(JsonConvertSerializeObject(GetLogData(data)))

int orderId = PlaceOrder(data)

return reqCreateResponse(HttpStatusCodeOK new orderNumber = orderId )

bull Workflow in the cloud

bull Powerful control flow

bull Connect functions and APIs

bull Declarative definition to persist in source control and drive deployments

Logic AppsCloud APIs and platform

bull Supports over 125 built-in connectors

bull Scales to meet your needs

bull Enables rapid development

bull Extends with custom APIs and

Functions

API connections

bull Authenticate once and reuse

Big Data Solutions Decision Tree

httpsbiz-excellencecom20160830big-data-dt

Machine Learning Solutions Decision Tree

httpsbiz-excellencecom20160913machine-

learning-dt

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of your

data while making it faster to get up and running with batch

streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources so

you can run queries on exabytes of data Includes U-SQL a

new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully managed

NoSQL database service that indexes stores and queries

data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

Microsoft Big Data Portfolio

SQL Server Stretch

Business intelligence

Machine learning analytics

Insights

Azure SQL Database

SQL Server 2016

SQL Server 2016 Fast Track

Azure SQL DW

ADLS amp ADLA

DocumentDB

HDInsight

Hadoop

Analytics Platform System

Sequential Scale Out + AcrossScale Up

Key

Relational Non-relational

On

-pre

mis

es

Clo

ud

Microsoft has solutions covering

and connecting all four

quadrants ndash thatrsquos why SQL

Server is one of the most utilized

databases in the world

Azure

Data Lake Store

Azure

Blob StoragePurpose Optimized for big data analytics General purpose bulk storage

Use Cases Batch Interactive Streaming App backend backup data media storage for

streaming

Units of Storage Accounts Folders Files Accounts Containers Blobs

Structure Hierarchical File System Flat namespace

WebHDFS Implements WebHDFS No (WASB)

Security AD SAS keys

Storage Auto SharedFiles chunked Manually manage expansionFiles intact

Service State Generally Available PolyBase

just supported

Generally Available

Billing Pay for data stored and for IO Pay for data stored and for IO

Region Availability Two US regions (Other regions coming soon) All Azure Regions

ADL Store vs Blob Store

httpsdocsmicrosoftcomen-usazuredata-lake-storedata-lake-store-comparison-with-blob-storage

Want Hadoop

Need exact same on-prem

Need interactive streaming

MandatoryNo strong opinion

Azure Marketplace (IaaS)

bull Need all workloads exactly like on-

premises

bull Need 100 HortonworksClouderaMapR

Azure HDInsight

bull Most Hadoop workloads

bull Fully managed by Microsoft

bull Sell HDI + ADLS

bull Stickier to Microsoft than VMs

bull Can do interactive (Spark) and streaming

(StormSpark)

Azure Data Lake Analytics

bull Easiest experience for admin no sense of

clusters instant scale per job

bull Easiest experience for developers Visual

StudioU-SQL (C+SQL)

bull Sell ADLA + ADLS

bull Batch workloads only

Need everything exactly like on-prem

Need core projects Yes Batch is OK

Always present ADLA if NET or Visual Studio Shop

If NET or VS shop

Azure SQL DW HDInsight Hive HDInsight Spark Azure Data Lake SQL Server (IaaS)

Volume Petabytes Petabytes Petabytes Petabytes Terabytes

Security Encryption TD

Audit

ADLS Apache

Ranger

ADLS AAD Security

Groups (data)

Encryption TD

Audit

Languages T-SQL HiveQL SparkSQL HiveQL

Scala Java Python

R

U-SQL T-SQL

Extensibility No Yes NETSerDe Yes Packages Yes NET Yes NET CLR

External File

Types

ORC TXT

Parquet RCFile

ORC CSV Parquet

+ others

Parquet JSON

Hive + others

Many ORC TXT Parquet

RCFile

Admin Low-Medium Medium-High Medium-High Low High

Cost Model DWU Nodes amp VM Nodes amp VM UnitsJobs VM

Schema

Definition

Schema on Write

Polybase

Schema on Read Schema on Read Schema on Read Schema on Write

Polybase

Max DB Size 240TB Comp (5X

= 1PB)

Unlimited 64TB (64 1TB drives)

機械学習 Deep Learning 深層強化学習

画像解析

音声解析

データ分類異常検知 顧客グルーピング

数値予測売上予測 需要予測 品質管理

ラベル分類不良品分析 故障予測 チャーン分析

機械学習より強力な分析

自律学習型ロボット

自動運転車

テキストや画像等の自動生成

活用例

主に多層のニューラルネットワークを用いた手法での分析

分析のためには莫大なデータ量計算量知識スキルを要する

統計に基づいた手法での分析

そのため比較的少ないデータ量と計算量で分析を行うことができる

定義したあるべき姿に従い試行錯誤をして自ら学習を行うための分析手法である強化学習と深層学習を組み合わせた分析

Azure Machine Learning Cognitive Toolkit GPU Instance (N-Series)

マイクロソフトが提供する技術

テキストデータ機器のログデータなど

画像データ監視カメラの録画データ 機器の外観画像 顔画像など

動画データ監視カメラの録画データ 機器の稼働状況 人の作業映像など

音声データマイクからの収集データ 稼働音 室内音 人の音声など

数値データセンサーデータ 機器の制御データ計測データなど672342345

機械学習統計理論に基づいた分析手法を用いる用意するべきデータ量と処理する計算量の敷居が低め導入しやすい

Deep Learningデータ量が大きいため強力な分析手法が必要「膨大なデータ量を用意」「莫大な計算量を処理」が必要で敷居が非常に高い導入にはそれなりの覚悟が必要

Action

People

Automated Systems

Apps

Web

Mobile

Bots

Intelligence

Dashboards amp Visualizations

Cortana

Bot Framework

Cognitive Services

Power BI

Information Management

Event Hubs

Data Catalog

Data Factory

Machine Learning and Analytics

HDInsight

Stream Analytics

Intelligence

Data Lake Analytics

Machine Learning

Big Data Stores

SQL Data Warehouse

Data Lake Store

Data Sources

Apps

Sensors amp Devices

Data

Cortana Intelligence Suite

学習済み

モデル利用

学習モデル

作成

機械学習 教師あり学習

教師なし学習

強化学習

決定木

線形回帰

SVM

ロジスティック回帰

ニューラルネットワーク

クラスタリング

次元削減

Q学習

K-mean法

主成分分析

正準相関分析

ディープニューラルネットワーク

畳みこみニューラルネットワーク

再帰的ニューラルネットワーク

回帰結合ニューラルネットワーク

httpsazuremicrosoftcomen-usservicescognitive-services

わずか数行のコードで強力なアルゴリズムを持つアプリの作成が可能ですiOSAndroidWindows などのプラットフォームを問わず機能します

httpsazuremicrosoftcomja-jpservicesmachine-learning

ユーザーは簡単に予測分析ソリューションを構築デプロイ共有できます

httpswwwyoutubecomwatchv=9gDDO5ldT-4ampfeature=youtube

AI技術を利用したディープラーニング(深層学習)ツールキットです旧称「CNTK」から改名されました

ソースコード httpsgithubcomMicrosoftCNTK

SearchSpeech

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

コカコーラ誕生100周年キャンペーン

コカコーラボトルを「100歳」と認識

bull 自撮り写真をUp結果をSNS拡散

ナビタイムジャパン様

自然言語入力による路線検索BOT

bull ユーザーとの新たな接点(LINE)

bull 自然言語入力

Vision Language Knowledge

Vision Knowledge SearchSpeech Language

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

Microsoft SupportVirtual Agent

自然言語入力による自動応答サポート窓口

bull 過去QampAデータ解析に基づく回答抽出

bull 定型外はldquo人対応rdquo

UBER

登録ドライバーをスマホ経由で顔認証

VOLVO

表情からの危険予測

Search

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

アロバ様

監視カメラによる店舗内行動分析

bull 顔認識による 顧客識別

bull 表情分析

東京サマーランド様にて導入済み

HmComm様

コールセンターソリューション

bull 会話をテキスト化キーワードを解析

bull 過去QampA検索

bull 内容をCRM保存

Vision KnowledgeSpeech Language

導入事例東京サマーランド様

Video

Intelligent KioskhttpsgithubcomMicrosoftCognitive-Samples-IntelligentKiosk

ldquo(want to|request)rdquo

HoloLens

Page 67: やりたいことから考えるMicrosoft Azure 上の データストアの選び方とデータサイエンティスト向け活用法。KVSからDWHまで

Point of Service Devices

Self CheckoutStations

Kiosks

Smart Phones

SlatesTablets

PCsLaptops

Servers

Digital Signs

DiagnosticEquipmentRemote Medical

MonitorsLogic

Controllers

SpecializedDevicesThin

Clients

Handhelds

Security

POS Terminals

AutomationDevices

VendingMachines

Kinect

ATM

Stream Analytics

入力 出力クエリデータストリーム

参照

bull ldquo入力rdquoldquo出力rdquoをクリックしそれぞれ作成

bull ldquoクエリrdquoをクリックしクエリを定義bull 作業が終わったらldquo開始rdquoで実

行開始

SELECT

INTO

FROM

SELECT user level AS SATLevel timestamp

INTO

FROM

デバイス接続性とデバイス管理およびブローカーサービス

データ管理と高度な分析 情報活用業務の生産性とプロセスの最適化

IoT Agent Gateway

予兆原因の学習モデル

ダッシュボード

参照ERPbull 顧客bull 設備bull 担当者

Notification Hubs

通知

予兆イベント

メンテ方法の推奨

bull ヘルス状態bull インシデント管理bull 対応のディスパッチ

現地技術要員のモバイルデバイス

オペレーションセンター

bull イベント ドア開閉軸アライメントキャビン速度モーター温度など

bull アラーム 故障アラームエラーコードなど

httpisstkeazurewebsitesnet

Event Hub

Stream Analytics

Azure ML

制御機器とセンサーのデータ

マシンデータの蓄積

メンテナンス方法の学習モデル

Machine Learning

Blob Storage

セルフサービス分析

Power BI

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce

cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-

system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of

your data while making it faster to get up and running with

batch streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources

so you can run queries on exabytes of data Includes U-

SQL a new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully

managed NoSQL database service that indexes stores and

queries data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

What do all of these have in common

They can all use Azure Analysis Services

Azure Analysis Services

Azure Analysis Services

BI semantic model

Business logic amp metrics

Data modeling

Security

Azure Analysis Services

Lifecycle management

In-memory cache

On-premises

Cloud

Data sources

SQL Database

SQL Data Warehouse

Other data sources

SQL Server

Analytics platform

system

Other data sources

On-premises

Cloud

Client tools

Power BI

Excel

Third party BI tools

Power BI Desktop

Rich semantic modelling

locatioidentifier

identifiertype

fieldidentifier

numberofunitssoldtodate

remaningnumber

Numberofuntissoldtoday

receivedback

productidentifier

descriptionline1

descriptionline2

qtyafterqtysales

familyidentifier

Source DataComplex raw data optimized for processing

Semantic ModelRich business user friendly semantic model

Product Id

Product Name

Product Description

Category

Category Id

Category Name

Category Description

Sub Category

Product Id

Shelf qty

Return qty

Order qty

Sale qty

Cloud Data

On-Premises

Data

Azure Analysis Services

Lightning fast queries

データ管理をきっかけに処理を実行

Web Glue

Bots IoT

DOMINOS STORES

Key Vault

Azure Active Directory

Azure Files

SSIS FRANCHISEE

AZURE WEST EUROPE

Azure Function

KEMPSSDESSRS

IN- AND EXTERNAL DATA SOURCES

orderprocessing

O365

App Insights

indexhtml

Azure Functions Proxies

couponprocessing

Use Bindings in Your Codefunctionjson

bindings [type httpTriggerdirection inwebHookType genericJsonname req

type httpdirection outname res

type queuename eventOutputqueueName aievents1connectionAiStorageConnectiondirection out

]

public static class OrderHandler

[FunctionName(OrderWebhook)]public static async TaskltHttpResponseMessagegt Run(

[HttpTrigger] HttpRequestMessage req[Queue(aievents1 Connection = AiStorageConnection)]

IAsyncCollectorltStringgt eventOutputTraceWriter log)

logInfo($Webhook was triggered)

string jsonContent = await reqContentReadAsStringAsync()dynamic data = JsonConvertDeserializeObject(jsonContent)

await eventOutputAddAsync(JsonConvertSerializeObject(GetLogData(data)))

int orderId = PlaceOrder(data)

return reqCreateResponse(HttpStatusCodeOK new orderNumber = orderId )

bull Workflow in the cloud

bull Powerful control flow

bull Connect functions and APIs

bull Declarative definition to persist in source control and drive deployments

Logic AppsCloud APIs and platform

bull Supports over 125 built-in connectors

bull Scales to meet your needs

bull Enables rapid development

bull Extends with custom APIs and

Functions

API connections

bull Authenticate once and reuse

Big Data Solutions Decision Tree

httpsbiz-excellencecom20160830big-data-dt

Machine Learning Solutions Decision Tree

httpsbiz-excellencecom20160913machine-

learning-dt

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of your

data while making it faster to get up and running with batch

streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources so

you can run queries on exabytes of data Includes U-SQL a

new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully managed

NoSQL database service that indexes stores and queries

data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

Microsoft Big Data Portfolio

SQL Server Stretch

Business intelligence

Machine learning analytics

Insights

Azure SQL Database

SQL Server 2016

SQL Server 2016 Fast Track

Azure SQL DW

ADLS amp ADLA

DocumentDB

HDInsight

Hadoop

Analytics Platform System

Sequential Scale Out + AcrossScale Up

Key

Relational Non-relational

On

-pre

mis

es

Clo

ud

Microsoft has solutions covering

and connecting all four

quadrants ndash thatrsquos why SQL

Server is one of the most utilized

databases in the world

Azure

Data Lake Store

Azure

Blob StoragePurpose Optimized for big data analytics General purpose bulk storage

Use Cases Batch Interactive Streaming App backend backup data media storage for

streaming

Units of Storage Accounts Folders Files Accounts Containers Blobs

Structure Hierarchical File System Flat namespace

WebHDFS Implements WebHDFS No (WASB)

Security AD SAS keys

Storage Auto SharedFiles chunked Manually manage expansionFiles intact

Service State Generally Available PolyBase

just supported

Generally Available

Billing Pay for data stored and for IO Pay for data stored and for IO

Region Availability Two US regions (Other regions coming soon) All Azure Regions

ADL Store vs Blob Store

httpsdocsmicrosoftcomen-usazuredata-lake-storedata-lake-store-comparison-with-blob-storage

Want Hadoop

Need exact same on-prem

Need interactive streaming

MandatoryNo strong opinion

Azure Marketplace (IaaS)

bull Need all workloads exactly like on-

premises

bull Need 100 HortonworksClouderaMapR

Azure HDInsight

bull Most Hadoop workloads

bull Fully managed by Microsoft

bull Sell HDI + ADLS

bull Stickier to Microsoft than VMs

bull Can do interactive (Spark) and streaming

(StormSpark)

Azure Data Lake Analytics

bull Easiest experience for admin no sense of

clusters instant scale per job

bull Easiest experience for developers Visual

StudioU-SQL (C+SQL)

bull Sell ADLA + ADLS

bull Batch workloads only

Need everything exactly like on-prem

Need core projects Yes Batch is OK

Always present ADLA if NET or Visual Studio Shop

If NET or VS shop

Azure SQL DW HDInsight Hive HDInsight Spark Azure Data Lake SQL Server (IaaS)

Volume Petabytes Petabytes Petabytes Petabytes Terabytes

Security Encryption TD

Audit

ADLS Apache

Ranger

ADLS AAD Security

Groups (data)

Encryption TD

Audit

Languages T-SQL HiveQL SparkSQL HiveQL

Scala Java Python

R

U-SQL T-SQL

Extensibility No Yes NETSerDe Yes Packages Yes NET Yes NET CLR

External File

Types

ORC TXT

Parquet RCFile

ORC CSV Parquet

+ others

Parquet JSON

Hive + others

Many ORC TXT Parquet

RCFile

Admin Low-Medium Medium-High Medium-High Low High

Cost Model DWU Nodes amp VM Nodes amp VM UnitsJobs VM

Schema

Definition

Schema on Write

Polybase

Schema on Read Schema on Read Schema on Read Schema on Write

Polybase

Max DB Size 240TB Comp (5X

= 1PB)

Unlimited 64TB (64 1TB drives)

機械学習 Deep Learning 深層強化学習

画像解析

音声解析

データ分類異常検知 顧客グルーピング

数値予測売上予測 需要予測 品質管理

ラベル分類不良品分析 故障予測 チャーン分析

機械学習より強力な分析

自律学習型ロボット

自動運転車

テキストや画像等の自動生成

活用例

主に多層のニューラルネットワークを用いた手法での分析

分析のためには莫大なデータ量計算量知識スキルを要する

統計に基づいた手法での分析

そのため比較的少ないデータ量と計算量で分析を行うことができる

定義したあるべき姿に従い試行錯誤をして自ら学習を行うための分析手法である強化学習と深層学習を組み合わせた分析

Azure Machine Learning Cognitive Toolkit GPU Instance (N-Series)

マイクロソフトが提供する技術

テキストデータ機器のログデータなど

画像データ監視カメラの録画データ 機器の外観画像 顔画像など

動画データ監視カメラの録画データ 機器の稼働状況 人の作業映像など

音声データマイクからの収集データ 稼働音 室内音 人の音声など

数値データセンサーデータ 機器の制御データ計測データなど672342345

機械学習統計理論に基づいた分析手法を用いる用意するべきデータ量と処理する計算量の敷居が低め導入しやすい

Deep Learningデータ量が大きいため強力な分析手法が必要「膨大なデータ量を用意」「莫大な計算量を処理」が必要で敷居が非常に高い導入にはそれなりの覚悟が必要

Action

People

Automated Systems

Apps

Web

Mobile

Bots

Intelligence

Dashboards amp Visualizations

Cortana

Bot Framework

Cognitive Services

Power BI

Information Management

Event Hubs

Data Catalog

Data Factory

Machine Learning and Analytics

HDInsight

Stream Analytics

Intelligence

Data Lake Analytics

Machine Learning

Big Data Stores

SQL Data Warehouse

Data Lake Store

Data Sources

Apps

Sensors amp Devices

Data

Cortana Intelligence Suite

学習済み

モデル利用

学習モデル

作成

機械学習 教師あり学習

教師なし学習

強化学習

決定木

線形回帰

SVM

ロジスティック回帰

ニューラルネットワーク

クラスタリング

次元削減

Q学習

K-mean法

主成分分析

正準相関分析

ディープニューラルネットワーク

畳みこみニューラルネットワーク

再帰的ニューラルネットワーク

回帰結合ニューラルネットワーク

httpsazuremicrosoftcomen-usservicescognitive-services

わずか数行のコードで強力なアルゴリズムを持つアプリの作成が可能ですiOSAndroidWindows などのプラットフォームを問わず機能します

httpsazuremicrosoftcomja-jpservicesmachine-learning

ユーザーは簡単に予測分析ソリューションを構築デプロイ共有できます

httpswwwyoutubecomwatchv=9gDDO5ldT-4ampfeature=youtube

AI技術を利用したディープラーニング(深層学習)ツールキットです旧称「CNTK」から改名されました

ソースコード httpsgithubcomMicrosoftCNTK

SearchSpeech

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

コカコーラ誕生100周年キャンペーン

コカコーラボトルを「100歳」と認識

bull 自撮り写真をUp結果をSNS拡散

ナビタイムジャパン様

自然言語入力による路線検索BOT

bull ユーザーとの新たな接点(LINE)

bull 自然言語入力

Vision Language Knowledge

Vision Knowledge SearchSpeech Language

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

Microsoft SupportVirtual Agent

自然言語入力による自動応答サポート窓口

bull 過去QampAデータ解析に基づく回答抽出

bull 定型外はldquo人対応rdquo

UBER

登録ドライバーをスマホ経由で顔認証

VOLVO

表情からの危険予測

Search

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

アロバ様

監視カメラによる店舗内行動分析

bull 顔認識による 顧客識別

bull 表情分析

東京サマーランド様にて導入済み

HmComm様

コールセンターソリューション

bull 会話をテキスト化キーワードを解析

bull 過去QampA検索

bull 内容をCRM保存

Vision KnowledgeSpeech Language

導入事例東京サマーランド様

Video

Intelligent KioskhttpsgithubcomMicrosoftCognitive-Samples-IntelligentKiosk

ldquo(want to|request)rdquo

HoloLens

Page 68: やりたいことから考えるMicrosoft Azure 上の データストアの選び方とデータサイエンティスト向け活用法。KVSからDWHまで

Stream Analytics

入力 出力クエリデータストリーム

参照

bull ldquo入力rdquoldquo出力rdquoをクリックしそれぞれ作成

bull ldquoクエリrdquoをクリックしクエリを定義bull 作業が終わったらldquo開始rdquoで実

行開始

SELECT

INTO

FROM

SELECT user level AS SATLevel timestamp

INTO

FROM

デバイス接続性とデバイス管理およびブローカーサービス

データ管理と高度な分析 情報活用業務の生産性とプロセスの最適化

IoT Agent Gateway

予兆原因の学習モデル

ダッシュボード

参照ERPbull 顧客bull 設備bull 担当者

Notification Hubs

通知

予兆イベント

メンテ方法の推奨

bull ヘルス状態bull インシデント管理bull 対応のディスパッチ

現地技術要員のモバイルデバイス

オペレーションセンター

bull イベント ドア開閉軸アライメントキャビン速度モーター温度など

bull アラーム 故障アラームエラーコードなど

httpisstkeazurewebsitesnet

Event Hub

Stream Analytics

Azure ML

制御機器とセンサーのデータ

マシンデータの蓄積

メンテナンス方法の学習モデル

Machine Learning

Blob Storage

セルフサービス分析

Power BI

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce

cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-

system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of

your data while making it faster to get up and running with

batch streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources

so you can run queries on exabytes of data Includes U-

SQL a new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully

managed NoSQL database service that indexes stores and

queries data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

What do all of these have in common

They can all use Azure Analysis Services

Azure Analysis Services

Azure Analysis Services

BI semantic model

Business logic amp metrics

Data modeling

Security

Azure Analysis Services

Lifecycle management

In-memory cache

On-premises

Cloud

Data sources

SQL Database

SQL Data Warehouse

Other data sources

SQL Server

Analytics platform

system

Other data sources

On-premises

Cloud

Client tools

Power BI

Excel

Third party BI tools

Power BI Desktop

Rich semantic modelling

locatioidentifier

identifiertype

fieldidentifier

numberofunitssoldtodate

remaningnumber

Numberofuntissoldtoday

receivedback

productidentifier

descriptionline1

descriptionline2

qtyafterqtysales

familyidentifier

Source DataComplex raw data optimized for processing

Semantic ModelRich business user friendly semantic model

Product Id

Product Name

Product Description

Category

Category Id

Category Name

Category Description

Sub Category

Product Id

Shelf qty

Return qty

Order qty

Sale qty

Cloud Data

On-Premises

Data

Azure Analysis Services

Lightning fast queries

データ管理をきっかけに処理を実行

Web Glue

Bots IoT

DOMINOS STORES

Key Vault

Azure Active Directory

Azure Files

SSIS FRANCHISEE

AZURE WEST EUROPE

Azure Function

KEMPSSDESSRS

IN- AND EXTERNAL DATA SOURCES

orderprocessing

O365

App Insights

indexhtml

Azure Functions Proxies

couponprocessing

Use Bindings in Your Codefunctionjson

bindings [type httpTriggerdirection inwebHookType genericJsonname req

type httpdirection outname res

type queuename eventOutputqueueName aievents1connectionAiStorageConnectiondirection out

]

public static class OrderHandler

[FunctionName(OrderWebhook)]public static async TaskltHttpResponseMessagegt Run(

[HttpTrigger] HttpRequestMessage req[Queue(aievents1 Connection = AiStorageConnection)]

IAsyncCollectorltStringgt eventOutputTraceWriter log)

logInfo($Webhook was triggered)

string jsonContent = await reqContentReadAsStringAsync()dynamic data = JsonConvertDeserializeObject(jsonContent)

await eventOutputAddAsync(JsonConvertSerializeObject(GetLogData(data)))

int orderId = PlaceOrder(data)

return reqCreateResponse(HttpStatusCodeOK new orderNumber = orderId )

bull Workflow in the cloud

bull Powerful control flow

bull Connect functions and APIs

bull Declarative definition to persist in source control and drive deployments

Logic AppsCloud APIs and platform

bull Supports over 125 built-in connectors

bull Scales to meet your needs

bull Enables rapid development

bull Extends with custom APIs and

Functions

API connections

bull Authenticate once and reuse

Big Data Solutions Decision Tree

httpsbiz-excellencecom20160830big-data-dt

Machine Learning Solutions Decision Tree

httpsbiz-excellencecom20160913machine-

learning-dt

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of your

data while making it faster to get up and running with batch

streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources so

you can run queries on exabytes of data Includes U-SQL a

new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully managed

NoSQL database service that indexes stores and queries

data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

Microsoft Big Data Portfolio

SQL Server Stretch

Business intelligence

Machine learning analytics

Insights

Azure SQL Database

SQL Server 2016

SQL Server 2016 Fast Track

Azure SQL DW

ADLS amp ADLA

DocumentDB

HDInsight

Hadoop

Analytics Platform System

Sequential Scale Out + AcrossScale Up

Key

Relational Non-relational

On

-pre

mis

es

Clo

ud

Microsoft has solutions covering

and connecting all four

quadrants ndash thatrsquos why SQL

Server is one of the most utilized

databases in the world

Azure

Data Lake Store

Azure

Blob StoragePurpose Optimized for big data analytics General purpose bulk storage

Use Cases Batch Interactive Streaming App backend backup data media storage for

streaming

Units of Storage Accounts Folders Files Accounts Containers Blobs

Structure Hierarchical File System Flat namespace

WebHDFS Implements WebHDFS No (WASB)

Security AD SAS keys

Storage Auto SharedFiles chunked Manually manage expansionFiles intact

Service State Generally Available PolyBase

just supported

Generally Available

Billing Pay for data stored and for IO Pay for data stored and for IO

Region Availability Two US regions (Other regions coming soon) All Azure Regions

ADL Store vs Blob Store

httpsdocsmicrosoftcomen-usazuredata-lake-storedata-lake-store-comparison-with-blob-storage

Want Hadoop

Need exact same on-prem

Need interactive streaming

MandatoryNo strong opinion

Azure Marketplace (IaaS)

bull Need all workloads exactly like on-

premises

bull Need 100 HortonworksClouderaMapR

Azure HDInsight

bull Most Hadoop workloads

bull Fully managed by Microsoft

bull Sell HDI + ADLS

bull Stickier to Microsoft than VMs

bull Can do interactive (Spark) and streaming

(StormSpark)

Azure Data Lake Analytics

bull Easiest experience for admin no sense of

clusters instant scale per job

bull Easiest experience for developers Visual

StudioU-SQL (C+SQL)

bull Sell ADLA + ADLS

bull Batch workloads only

Need everything exactly like on-prem

Need core projects Yes Batch is OK

Always present ADLA if NET or Visual Studio Shop

If NET or VS shop

Azure SQL DW HDInsight Hive HDInsight Spark Azure Data Lake SQL Server (IaaS)

Volume Petabytes Petabytes Petabytes Petabytes Terabytes

Security Encryption TD

Audit

ADLS Apache

Ranger

ADLS AAD Security

Groups (data)

Encryption TD

Audit

Languages T-SQL HiveQL SparkSQL HiveQL

Scala Java Python

R

U-SQL T-SQL

Extensibility No Yes NETSerDe Yes Packages Yes NET Yes NET CLR

External File

Types

ORC TXT

Parquet RCFile

ORC CSV Parquet

+ others

Parquet JSON

Hive + others

Many ORC TXT Parquet

RCFile

Admin Low-Medium Medium-High Medium-High Low High

Cost Model DWU Nodes amp VM Nodes amp VM UnitsJobs VM

Schema

Definition

Schema on Write

Polybase

Schema on Read Schema on Read Schema on Read Schema on Write

Polybase

Max DB Size 240TB Comp (5X

= 1PB)

Unlimited 64TB (64 1TB drives)

機械学習 Deep Learning 深層強化学習

画像解析

音声解析

データ分類異常検知 顧客グルーピング

数値予測売上予測 需要予測 品質管理

ラベル分類不良品分析 故障予測 チャーン分析

機械学習より強力な分析

自律学習型ロボット

自動運転車

テキストや画像等の自動生成

活用例

主に多層のニューラルネットワークを用いた手法での分析

分析のためには莫大なデータ量計算量知識スキルを要する

統計に基づいた手法での分析

そのため比較的少ないデータ量と計算量で分析を行うことができる

定義したあるべき姿に従い試行錯誤をして自ら学習を行うための分析手法である強化学習と深層学習を組み合わせた分析

Azure Machine Learning Cognitive Toolkit GPU Instance (N-Series)

マイクロソフトが提供する技術

テキストデータ機器のログデータなど

画像データ監視カメラの録画データ 機器の外観画像 顔画像など

動画データ監視カメラの録画データ 機器の稼働状況 人の作業映像など

音声データマイクからの収集データ 稼働音 室内音 人の音声など

数値データセンサーデータ 機器の制御データ計測データなど672342345

機械学習統計理論に基づいた分析手法を用いる用意するべきデータ量と処理する計算量の敷居が低め導入しやすい

Deep Learningデータ量が大きいため強力な分析手法が必要「膨大なデータ量を用意」「莫大な計算量を処理」が必要で敷居が非常に高い導入にはそれなりの覚悟が必要

Action

People

Automated Systems

Apps

Web

Mobile

Bots

Intelligence

Dashboards amp Visualizations

Cortana

Bot Framework

Cognitive Services

Power BI

Information Management

Event Hubs

Data Catalog

Data Factory

Machine Learning and Analytics

HDInsight

Stream Analytics

Intelligence

Data Lake Analytics

Machine Learning

Big Data Stores

SQL Data Warehouse

Data Lake Store

Data Sources

Apps

Sensors amp Devices

Data

Cortana Intelligence Suite

学習済み

モデル利用

学習モデル

作成

機械学習 教師あり学習

教師なし学習

強化学習

決定木

線形回帰

SVM

ロジスティック回帰

ニューラルネットワーク

クラスタリング

次元削減

Q学習

K-mean法

主成分分析

正準相関分析

ディープニューラルネットワーク

畳みこみニューラルネットワーク

再帰的ニューラルネットワーク

回帰結合ニューラルネットワーク

httpsazuremicrosoftcomen-usservicescognitive-services

わずか数行のコードで強力なアルゴリズムを持つアプリの作成が可能ですiOSAndroidWindows などのプラットフォームを問わず機能します

httpsazuremicrosoftcomja-jpservicesmachine-learning

ユーザーは簡単に予測分析ソリューションを構築デプロイ共有できます

httpswwwyoutubecomwatchv=9gDDO5ldT-4ampfeature=youtube

AI技術を利用したディープラーニング(深層学習)ツールキットです旧称「CNTK」から改名されました

ソースコード httpsgithubcomMicrosoftCNTK

SearchSpeech

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

コカコーラ誕生100周年キャンペーン

コカコーラボトルを「100歳」と認識

bull 自撮り写真をUp結果をSNS拡散

ナビタイムジャパン様

自然言語入力による路線検索BOT

bull ユーザーとの新たな接点(LINE)

bull 自然言語入力

Vision Language Knowledge

Vision Knowledge SearchSpeech Language

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

Microsoft SupportVirtual Agent

自然言語入力による自動応答サポート窓口

bull 過去QampAデータ解析に基づく回答抽出

bull 定型外はldquo人対応rdquo

UBER

登録ドライバーをスマホ経由で顔認証

VOLVO

表情からの危険予測

Search

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

アロバ様

監視カメラによる店舗内行動分析

bull 顔認識による 顧客識別

bull 表情分析

東京サマーランド様にて導入済み

HmComm様

コールセンターソリューション

bull 会話をテキスト化キーワードを解析

bull 過去QampA検索

bull 内容をCRM保存

Vision KnowledgeSpeech Language

導入事例東京サマーランド様

Video

Intelligent KioskhttpsgithubcomMicrosoftCognitive-Samples-IntelligentKiosk

ldquo(want to|request)rdquo

HoloLens

Page 69: やりたいことから考えるMicrosoft Azure 上の データストアの選び方とデータサイエンティスト向け活用法。KVSからDWHまで

bull ldquo入力rdquoldquo出力rdquoをクリックしそれぞれ作成

bull ldquoクエリrdquoをクリックしクエリを定義bull 作業が終わったらldquo開始rdquoで実

行開始

SELECT

INTO

FROM

SELECT user level AS SATLevel timestamp

INTO

FROM

デバイス接続性とデバイス管理およびブローカーサービス

データ管理と高度な分析 情報活用業務の生産性とプロセスの最適化

IoT Agent Gateway

予兆原因の学習モデル

ダッシュボード

参照ERPbull 顧客bull 設備bull 担当者

Notification Hubs

通知

予兆イベント

メンテ方法の推奨

bull ヘルス状態bull インシデント管理bull 対応のディスパッチ

現地技術要員のモバイルデバイス

オペレーションセンター

bull イベント ドア開閉軸アライメントキャビン速度モーター温度など

bull アラーム 故障アラームエラーコードなど

httpisstkeazurewebsitesnet

Event Hub

Stream Analytics

Azure ML

制御機器とセンサーのデータ

マシンデータの蓄積

メンテナンス方法の学習モデル

Machine Learning

Blob Storage

セルフサービス分析

Power BI

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce

cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-

system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of

your data while making it faster to get up and running with

batch streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources

so you can run queries on exabytes of data Includes U-

SQL a new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully

managed NoSQL database service that indexes stores and

queries data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

What do all of these have in common

They can all use Azure Analysis Services

Azure Analysis Services

Azure Analysis Services

BI semantic model

Business logic amp metrics

Data modeling

Security

Azure Analysis Services

Lifecycle management

In-memory cache

On-premises

Cloud

Data sources

SQL Database

SQL Data Warehouse

Other data sources

SQL Server

Analytics platform

system

Other data sources

On-premises

Cloud

Client tools

Power BI

Excel

Third party BI tools

Power BI Desktop

Rich semantic modelling

locatioidentifier

identifiertype

fieldidentifier

numberofunitssoldtodate

remaningnumber

Numberofuntissoldtoday

receivedback

productidentifier

descriptionline1

descriptionline2

qtyafterqtysales

familyidentifier

Source DataComplex raw data optimized for processing

Semantic ModelRich business user friendly semantic model

Product Id

Product Name

Product Description

Category

Category Id

Category Name

Category Description

Sub Category

Product Id

Shelf qty

Return qty

Order qty

Sale qty

Cloud Data

On-Premises

Data

Azure Analysis Services

Lightning fast queries

データ管理をきっかけに処理を実行

Web Glue

Bots IoT

DOMINOS STORES

Key Vault

Azure Active Directory

Azure Files

SSIS FRANCHISEE

AZURE WEST EUROPE

Azure Function

KEMPSSDESSRS

IN- AND EXTERNAL DATA SOURCES

orderprocessing

O365

App Insights

indexhtml

Azure Functions Proxies

couponprocessing

Use Bindings in Your Codefunctionjson

bindings [type httpTriggerdirection inwebHookType genericJsonname req

type httpdirection outname res

type queuename eventOutputqueueName aievents1connectionAiStorageConnectiondirection out

]

public static class OrderHandler

[FunctionName(OrderWebhook)]public static async TaskltHttpResponseMessagegt Run(

[HttpTrigger] HttpRequestMessage req[Queue(aievents1 Connection = AiStorageConnection)]

IAsyncCollectorltStringgt eventOutputTraceWriter log)

logInfo($Webhook was triggered)

string jsonContent = await reqContentReadAsStringAsync()dynamic data = JsonConvertDeserializeObject(jsonContent)

await eventOutputAddAsync(JsonConvertSerializeObject(GetLogData(data)))

int orderId = PlaceOrder(data)

return reqCreateResponse(HttpStatusCodeOK new orderNumber = orderId )

bull Workflow in the cloud

bull Powerful control flow

bull Connect functions and APIs

bull Declarative definition to persist in source control and drive deployments

Logic AppsCloud APIs and platform

bull Supports over 125 built-in connectors

bull Scales to meet your needs

bull Enables rapid development

bull Extends with custom APIs and

Functions

API connections

bull Authenticate once and reuse

Big Data Solutions Decision Tree

httpsbiz-excellencecom20160830big-data-dt

Machine Learning Solutions Decision Tree

httpsbiz-excellencecom20160913machine-

learning-dt

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of your

data while making it faster to get up and running with batch

streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources so

you can run queries on exabytes of data Includes U-SQL a

new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully managed

NoSQL database service that indexes stores and queries

data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

Microsoft Big Data Portfolio

SQL Server Stretch

Business intelligence

Machine learning analytics

Insights

Azure SQL Database

SQL Server 2016

SQL Server 2016 Fast Track

Azure SQL DW

ADLS amp ADLA

DocumentDB

HDInsight

Hadoop

Analytics Platform System

Sequential Scale Out + AcrossScale Up

Key

Relational Non-relational

On

-pre

mis

es

Clo

ud

Microsoft has solutions covering

and connecting all four

quadrants ndash thatrsquos why SQL

Server is one of the most utilized

databases in the world

Azure

Data Lake Store

Azure

Blob StoragePurpose Optimized for big data analytics General purpose bulk storage

Use Cases Batch Interactive Streaming App backend backup data media storage for

streaming

Units of Storage Accounts Folders Files Accounts Containers Blobs

Structure Hierarchical File System Flat namespace

WebHDFS Implements WebHDFS No (WASB)

Security AD SAS keys

Storage Auto SharedFiles chunked Manually manage expansionFiles intact

Service State Generally Available PolyBase

just supported

Generally Available

Billing Pay for data stored and for IO Pay for data stored and for IO

Region Availability Two US regions (Other regions coming soon) All Azure Regions

ADL Store vs Blob Store

httpsdocsmicrosoftcomen-usazuredata-lake-storedata-lake-store-comparison-with-blob-storage

Want Hadoop

Need exact same on-prem

Need interactive streaming

MandatoryNo strong opinion

Azure Marketplace (IaaS)

bull Need all workloads exactly like on-

premises

bull Need 100 HortonworksClouderaMapR

Azure HDInsight

bull Most Hadoop workloads

bull Fully managed by Microsoft

bull Sell HDI + ADLS

bull Stickier to Microsoft than VMs

bull Can do interactive (Spark) and streaming

(StormSpark)

Azure Data Lake Analytics

bull Easiest experience for admin no sense of

clusters instant scale per job

bull Easiest experience for developers Visual

StudioU-SQL (C+SQL)

bull Sell ADLA + ADLS

bull Batch workloads only

Need everything exactly like on-prem

Need core projects Yes Batch is OK

Always present ADLA if NET or Visual Studio Shop

If NET or VS shop

Azure SQL DW HDInsight Hive HDInsight Spark Azure Data Lake SQL Server (IaaS)

Volume Petabytes Petabytes Petabytes Petabytes Terabytes

Security Encryption TD

Audit

ADLS Apache

Ranger

ADLS AAD Security

Groups (data)

Encryption TD

Audit

Languages T-SQL HiveQL SparkSQL HiveQL

Scala Java Python

R

U-SQL T-SQL

Extensibility No Yes NETSerDe Yes Packages Yes NET Yes NET CLR

External File

Types

ORC TXT

Parquet RCFile

ORC CSV Parquet

+ others

Parquet JSON

Hive + others

Many ORC TXT Parquet

RCFile

Admin Low-Medium Medium-High Medium-High Low High

Cost Model DWU Nodes amp VM Nodes amp VM UnitsJobs VM

Schema

Definition

Schema on Write

Polybase

Schema on Read Schema on Read Schema on Read Schema on Write

Polybase

Max DB Size 240TB Comp (5X

= 1PB)

Unlimited 64TB (64 1TB drives)

機械学習 Deep Learning 深層強化学習

画像解析

音声解析

データ分類異常検知 顧客グルーピング

数値予測売上予測 需要予測 品質管理

ラベル分類不良品分析 故障予測 チャーン分析

機械学習より強力な分析

自律学習型ロボット

自動運転車

テキストや画像等の自動生成

活用例

主に多層のニューラルネットワークを用いた手法での分析

分析のためには莫大なデータ量計算量知識スキルを要する

統計に基づいた手法での分析

そのため比較的少ないデータ量と計算量で分析を行うことができる

定義したあるべき姿に従い試行錯誤をして自ら学習を行うための分析手法である強化学習と深層学習を組み合わせた分析

Azure Machine Learning Cognitive Toolkit GPU Instance (N-Series)

マイクロソフトが提供する技術

テキストデータ機器のログデータなど

画像データ監視カメラの録画データ 機器の外観画像 顔画像など

動画データ監視カメラの録画データ 機器の稼働状況 人の作業映像など

音声データマイクからの収集データ 稼働音 室内音 人の音声など

数値データセンサーデータ 機器の制御データ計測データなど672342345

機械学習統計理論に基づいた分析手法を用いる用意するべきデータ量と処理する計算量の敷居が低め導入しやすい

Deep Learningデータ量が大きいため強力な分析手法が必要「膨大なデータ量を用意」「莫大な計算量を処理」が必要で敷居が非常に高い導入にはそれなりの覚悟が必要

Action

People

Automated Systems

Apps

Web

Mobile

Bots

Intelligence

Dashboards amp Visualizations

Cortana

Bot Framework

Cognitive Services

Power BI

Information Management

Event Hubs

Data Catalog

Data Factory

Machine Learning and Analytics

HDInsight

Stream Analytics

Intelligence

Data Lake Analytics

Machine Learning

Big Data Stores

SQL Data Warehouse

Data Lake Store

Data Sources

Apps

Sensors amp Devices

Data

Cortana Intelligence Suite

学習済み

モデル利用

学習モデル

作成

機械学習 教師あり学習

教師なし学習

強化学習

決定木

線形回帰

SVM

ロジスティック回帰

ニューラルネットワーク

クラスタリング

次元削減

Q学習

K-mean法

主成分分析

正準相関分析

ディープニューラルネットワーク

畳みこみニューラルネットワーク

再帰的ニューラルネットワーク

回帰結合ニューラルネットワーク

httpsazuremicrosoftcomen-usservicescognitive-services

わずか数行のコードで強力なアルゴリズムを持つアプリの作成が可能ですiOSAndroidWindows などのプラットフォームを問わず機能します

httpsazuremicrosoftcomja-jpservicesmachine-learning

ユーザーは簡単に予測分析ソリューションを構築デプロイ共有できます

httpswwwyoutubecomwatchv=9gDDO5ldT-4ampfeature=youtube

AI技術を利用したディープラーニング(深層学習)ツールキットです旧称「CNTK」から改名されました

ソースコード httpsgithubcomMicrosoftCNTK

SearchSpeech

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

コカコーラ誕生100周年キャンペーン

コカコーラボトルを「100歳」と認識

bull 自撮り写真をUp結果をSNS拡散

ナビタイムジャパン様

自然言語入力による路線検索BOT

bull ユーザーとの新たな接点(LINE)

bull 自然言語入力

Vision Language Knowledge

Vision Knowledge SearchSpeech Language

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

Microsoft SupportVirtual Agent

自然言語入力による自動応答サポート窓口

bull 過去QampAデータ解析に基づく回答抽出

bull 定型外はldquo人対応rdquo

UBER

登録ドライバーをスマホ経由で顔認証

VOLVO

表情からの危険予測

Search

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

アロバ様

監視カメラによる店舗内行動分析

bull 顔認識による 顧客識別

bull 表情分析

東京サマーランド様にて導入済み

HmComm様

コールセンターソリューション

bull 会話をテキスト化キーワードを解析

bull 過去QampA検索

bull 内容をCRM保存

Vision KnowledgeSpeech Language

導入事例東京サマーランド様

Video

Intelligent KioskhttpsgithubcomMicrosoftCognitive-Samples-IntelligentKiosk

ldquo(want to|request)rdquo

HoloLens

Page 70: やりたいことから考えるMicrosoft Azure 上の データストアの選び方とデータサイエンティスト向け活用法。KVSからDWHまで

SELECT

INTO

FROM

SELECT user level AS SATLevel timestamp

INTO

FROM

デバイス接続性とデバイス管理およびブローカーサービス

データ管理と高度な分析 情報活用業務の生産性とプロセスの最適化

IoT Agent Gateway

予兆原因の学習モデル

ダッシュボード

参照ERPbull 顧客bull 設備bull 担当者

Notification Hubs

通知

予兆イベント

メンテ方法の推奨

bull ヘルス状態bull インシデント管理bull 対応のディスパッチ

現地技術要員のモバイルデバイス

オペレーションセンター

bull イベント ドア開閉軸アライメントキャビン速度モーター温度など

bull アラーム 故障アラームエラーコードなど

httpisstkeazurewebsitesnet

Event Hub

Stream Analytics

Azure ML

制御機器とセンサーのデータ

マシンデータの蓄積

メンテナンス方法の学習モデル

Machine Learning

Blob Storage

セルフサービス分析

Power BI

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce

cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-

system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of

your data while making it faster to get up and running with

batch streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources

so you can run queries on exabytes of data Includes U-

SQL a new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully

managed NoSQL database service that indexes stores and

queries data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

What do all of these have in common

They can all use Azure Analysis Services

Azure Analysis Services

Azure Analysis Services

BI semantic model

Business logic amp metrics

Data modeling

Security

Azure Analysis Services

Lifecycle management

In-memory cache

On-premises

Cloud

Data sources

SQL Database

SQL Data Warehouse

Other data sources

SQL Server

Analytics platform

system

Other data sources

On-premises

Cloud

Client tools

Power BI

Excel

Third party BI tools

Power BI Desktop

Rich semantic modelling

locatioidentifier

identifiertype

fieldidentifier

numberofunitssoldtodate

remaningnumber

Numberofuntissoldtoday

receivedback

productidentifier

descriptionline1

descriptionline2

qtyafterqtysales

familyidentifier

Source DataComplex raw data optimized for processing

Semantic ModelRich business user friendly semantic model

Product Id

Product Name

Product Description

Category

Category Id

Category Name

Category Description

Sub Category

Product Id

Shelf qty

Return qty

Order qty

Sale qty

Cloud Data

On-Premises

Data

Azure Analysis Services

Lightning fast queries

データ管理をきっかけに処理を実行

Web Glue

Bots IoT

DOMINOS STORES

Key Vault

Azure Active Directory

Azure Files

SSIS FRANCHISEE

AZURE WEST EUROPE

Azure Function

KEMPSSDESSRS

IN- AND EXTERNAL DATA SOURCES

orderprocessing

O365

App Insights

indexhtml

Azure Functions Proxies

couponprocessing

Use Bindings in Your Codefunctionjson

bindings [type httpTriggerdirection inwebHookType genericJsonname req

type httpdirection outname res

type queuename eventOutputqueueName aievents1connectionAiStorageConnectiondirection out

]

public static class OrderHandler

[FunctionName(OrderWebhook)]public static async TaskltHttpResponseMessagegt Run(

[HttpTrigger] HttpRequestMessage req[Queue(aievents1 Connection = AiStorageConnection)]

IAsyncCollectorltStringgt eventOutputTraceWriter log)

logInfo($Webhook was triggered)

string jsonContent = await reqContentReadAsStringAsync()dynamic data = JsonConvertDeserializeObject(jsonContent)

await eventOutputAddAsync(JsonConvertSerializeObject(GetLogData(data)))

int orderId = PlaceOrder(data)

return reqCreateResponse(HttpStatusCodeOK new orderNumber = orderId )

bull Workflow in the cloud

bull Powerful control flow

bull Connect functions and APIs

bull Declarative definition to persist in source control and drive deployments

Logic AppsCloud APIs and platform

bull Supports over 125 built-in connectors

bull Scales to meet your needs

bull Enables rapid development

bull Extends with custom APIs and

Functions

API connections

bull Authenticate once and reuse

Big Data Solutions Decision Tree

httpsbiz-excellencecom20160830big-data-dt

Machine Learning Solutions Decision Tree

httpsbiz-excellencecom20160913machine-

learning-dt

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of your

data while making it faster to get up and running with batch

streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources so

you can run queries on exabytes of data Includes U-SQL a

new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully managed

NoSQL database service that indexes stores and queries

data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

Microsoft Big Data Portfolio

SQL Server Stretch

Business intelligence

Machine learning analytics

Insights

Azure SQL Database

SQL Server 2016

SQL Server 2016 Fast Track

Azure SQL DW

ADLS amp ADLA

DocumentDB

HDInsight

Hadoop

Analytics Platform System

Sequential Scale Out + AcrossScale Up

Key

Relational Non-relational

On

-pre

mis

es

Clo

ud

Microsoft has solutions covering

and connecting all four

quadrants ndash thatrsquos why SQL

Server is one of the most utilized

databases in the world

Azure

Data Lake Store

Azure

Blob StoragePurpose Optimized for big data analytics General purpose bulk storage

Use Cases Batch Interactive Streaming App backend backup data media storage for

streaming

Units of Storage Accounts Folders Files Accounts Containers Blobs

Structure Hierarchical File System Flat namespace

WebHDFS Implements WebHDFS No (WASB)

Security AD SAS keys

Storage Auto SharedFiles chunked Manually manage expansionFiles intact

Service State Generally Available PolyBase

just supported

Generally Available

Billing Pay for data stored and for IO Pay for data stored and for IO

Region Availability Two US regions (Other regions coming soon) All Azure Regions

ADL Store vs Blob Store

httpsdocsmicrosoftcomen-usazuredata-lake-storedata-lake-store-comparison-with-blob-storage

Want Hadoop

Need exact same on-prem

Need interactive streaming

MandatoryNo strong opinion

Azure Marketplace (IaaS)

bull Need all workloads exactly like on-

premises

bull Need 100 HortonworksClouderaMapR

Azure HDInsight

bull Most Hadoop workloads

bull Fully managed by Microsoft

bull Sell HDI + ADLS

bull Stickier to Microsoft than VMs

bull Can do interactive (Spark) and streaming

(StormSpark)

Azure Data Lake Analytics

bull Easiest experience for admin no sense of

clusters instant scale per job

bull Easiest experience for developers Visual

StudioU-SQL (C+SQL)

bull Sell ADLA + ADLS

bull Batch workloads only

Need everything exactly like on-prem

Need core projects Yes Batch is OK

Always present ADLA if NET or Visual Studio Shop

If NET or VS shop

Azure SQL DW HDInsight Hive HDInsight Spark Azure Data Lake SQL Server (IaaS)

Volume Petabytes Petabytes Petabytes Petabytes Terabytes

Security Encryption TD

Audit

ADLS Apache

Ranger

ADLS AAD Security

Groups (data)

Encryption TD

Audit

Languages T-SQL HiveQL SparkSQL HiveQL

Scala Java Python

R

U-SQL T-SQL

Extensibility No Yes NETSerDe Yes Packages Yes NET Yes NET CLR

External File

Types

ORC TXT

Parquet RCFile

ORC CSV Parquet

+ others

Parquet JSON

Hive + others

Many ORC TXT Parquet

RCFile

Admin Low-Medium Medium-High Medium-High Low High

Cost Model DWU Nodes amp VM Nodes amp VM UnitsJobs VM

Schema

Definition

Schema on Write

Polybase

Schema on Read Schema on Read Schema on Read Schema on Write

Polybase

Max DB Size 240TB Comp (5X

= 1PB)

Unlimited 64TB (64 1TB drives)

機械学習 Deep Learning 深層強化学習

画像解析

音声解析

データ分類異常検知 顧客グルーピング

数値予測売上予測 需要予測 品質管理

ラベル分類不良品分析 故障予測 チャーン分析

機械学習より強力な分析

自律学習型ロボット

自動運転車

テキストや画像等の自動生成

活用例

主に多層のニューラルネットワークを用いた手法での分析

分析のためには莫大なデータ量計算量知識スキルを要する

統計に基づいた手法での分析

そのため比較的少ないデータ量と計算量で分析を行うことができる

定義したあるべき姿に従い試行錯誤をして自ら学習を行うための分析手法である強化学習と深層学習を組み合わせた分析

Azure Machine Learning Cognitive Toolkit GPU Instance (N-Series)

マイクロソフトが提供する技術

テキストデータ機器のログデータなど

画像データ監視カメラの録画データ 機器の外観画像 顔画像など

動画データ監視カメラの録画データ 機器の稼働状況 人の作業映像など

音声データマイクからの収集データ 稼働音 室内音 人の音声など

数値データセンサーデータ 機器の制御データ計測データなど672342345

機械学習統計理論に基づいた分析手法を用いる用意するべきデータ量と処理する計算量の敷居が低め導入しやすい

Deep Learningデータ量が大きいため強力な分析手法が必要「膨大なデータ量を用意」「莫大な計算量を処理」が必要で敷居が非常に高い導入にはそれなりの覚悟が必要

Action

People

Automated Systems

Apps

Web

Mobile

Bots

Intelligence

Dashboards amp Visualizations

Cortana

Bot Framework

Cognitive Services

Power BI

Information Management

Event Hubs

Data Catalog

Data Factory

Machine Learning and Analytics

HDInsight

Stream Analytics

Intelligence

Data Lake Analytics

Machine Learning

Big Data Stores

SQL Data Warehouse

Data Lake Store

Data Sources

Apps

Sensors amp Devices

Data

Cortana Intelligence Suite

学習済み

モデル利用

学習モデル

作成

機械学習 教師あり学習

教師なし学習

強化学習

決定木

線形回帰

SVM

ロジスティック回帰

ニューラルネットワーク

クラスタリング

次元削減

Q学習

K-mean法

主成分分析

正準相関分析

ディープニューラルネットワーク

畳みこみニューラルネットワーク

再帰的ニューラルネットワーク

回帰結合ニューラルネットワーク

httpsazuremicrosoftcomen-usservicescognitive-services

わずか数行のコードで強力なアルゴリズムを持つアプリの作成が可能ですiOSAndroidWindows などのプラットフォームを問わず機能します

httpsazuremicrosoftcomja-jpservicesmachine-learning

ユーザーは簡単に予測分析ソリューションを構築デプロイ共有できます

httpswwwyoutubecomwatchv=9gDDO5ldT-4ampfeature=youtube

AI技術を利用したディープラーニング(深層学習)ツールキットです旧称「CNTK」から改名されました

ソースコード httpsgithubcomMicrosoftCNTK

SearchSpeech

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

コカコーラ誕生100周年キャンペーン

コカコーラボトルを「100歳」と認識

bull 自撮り写真をUp結果をSNS拡散

ナビタイムジャパン様

自然言語入力による路線検索BOT

bull ユーザーとの新たな接点(LINE)

bull 自然言語入力

Vision Language Knowledge

Vision Knowledge SearchSpeech Language

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

Microsoft SupportVirtual Agent

自然言語入力による自動応答サポート窓口

bull 過去QampAデータ解析に基づく回答抽出

bull 定型外はldquo人対応rdquo

UBER

登録ドライバーをスマホ経由で顔認証

VOLVO

表情からの危険予測

Search

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

アロバ様

監視カメラによる店舗内行動分析

bull 顔認識による 顧客識別

bull 表情分析

東京サマーランド様にて導入済み

HmComm様

コールセンターソリューション

bull 会話をテキスト化キーワードを解析

bull 過去QampA検索

bull 内容をCRM保存

Vision KnowledgeSpeech Language

導入事例東京サマーランド様

Video

Intelligent KioskhttpsgithubcomMicrosoftCognitive-Samples-IntelligentKiosk

ldquo(want to|request)rdquo

HoloLens

Page 71: やりたいことから考えるMicrosoft Azure 上の データストアの選び方とデータサイエンティスト向け活用法。KVSからDWHまで

SELECT user level AS SATLevel timestamp

INTO

FROM

デバイス接続性とデバイス管理およびブローカーサービス

データ管理と高度な分析 情報活用業務の生産性とプロセスの最適化

IoT Agent Gateway

予兆原因の学習モデル

ダッシュボード

参照ERPbull 顧客bull 設備bull 担当者

Notification Hubs

通知

予兆イベント

メンテ方法の推奨

bull ヘルス状態bull インシデント管理bull 対応のディスパッチ

現地技術要員のモバイルデバイス

オペレーションセンター

bull イベント ドア開閉軸アライメントキャビン速度モーター温度など

bull アラーム 故障アラームエラーコードなど

httpisstkeazurewebsitesnet

Event Hub

Stream Analytics

Azure ML

制御機器とセンサーのデータ

マシンデータの蓄積

メンテナンス方法の学習モデル

Machine Learning

Blob Storage

セルフサービス分析

Power BI

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce

cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-

system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of

your data while making it faster to get up and running with

batch streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources

so you can run queries on exabytes of data Includes U-

SQL a new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully

managed NoSQL database service that indexes stores and

queries data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

What do all of these have in common

They can all use Azure Analysis Services

Azure Analysis Services

Azure Analysis Services

BI semantic model

Business logic amp metrics

Data modeling

Security

Azure Analysis Services

Lifecycle management

In-memory cache

On-premises

Cloud

Data sources

SQL Database

SQL Data Warehouse

Other data sources

SQL Server

Analytics platform

system

Other data sources

On-premises

Cloud

Client tools

Power BI

Excel

Third party BI tools

Power BI Desktop

Rich semantic modelling

locatioidentifier

identifiertype

fieldidentifier

numberofunitssoldtodate

remaningnumber

Numberofuntissoldtoday

receivedback

productidentifier

descriptionline1

descriptionline2

qtyafterqtysales

familyidentifier

Source DataComplex raw data optimized for processing

Semantic ModelRich business user friendly semantic model

Product Id

Product Name

Product Description

Category

Category Id

Category Name

Category Description

Sub Category

Product Id

Shelf qty

Return qty

Order qty

Sale qty

Cloud Data

On-Premises

Data

Azure Analysis Services

Lightning fast queries

データ管理をきっかけに処理を実行

Web Glue

Bots IoT

DOMINOS STORES

Key Vault

Azure Active Directory

Azure Files

SSIS FRANCHISEE

AZURE WEST EUROPE

Azure Function

KEMPSSDESSRS

IN- AND EXTERNAL DATA SOURCES

orderprocessing

O365

App Insights

indexhtml

Azure Functions Proxies

couponprocessing

Use Bindings in Your Codefunctionjson

bindings [type httpTriggerdirection inwebHookType genericJsonname req

type httpdirection outname res

type queuename eventOutputqueueName aievents1connectionAiStorageConnectiondirection out

]

public static class OrderHandler

[FunctionName(OrderWebhook)]public static async TaskltHttpResponseMessagegt Run(

[HttpTrigger] HttpRequestMessage req[Queue(aievents1 Connection = AiStorageConnection)]

IAsyncCollectorltStringgt eventOutputTraceWriter log)

logInfo($Webhook was triggered)

string jsonContent = await reqContentReadAsStringAsync()dynamic data = JsonConvertDeserializeObject(jsonContent)

await eventOutputAddAsync(JsonConvertSerializeObject(GetLogData(data)))

int orderId = PlaceOrder(data)

return reqCreateResponse(HttpStatusCodeOK new orderNumber = orderId )

bull Workflow in the cloud

bull Powerful control flow

bull Connect functions and APIs

bull Declarative definition to persist in source control and drive deployments

Logic AppsCloud APIs and platform

bull Supports over 125 built-in connectors

bull Scales to meet your needs

bull Enables rapid development

bull Extends with custom APIs and

Functions

API connections

bull Authenticate once and reuse

Big Data Solutions Decision Tree

httpsbiz-excellencecom20160830big-data-dt

Machine Learning Solutions Decision Tree

httpsbiz-excellencecom20160913machine-

learning-dt

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of your

data while making it faster to get up and running with batch

streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources so

you can run queries on exabytes of data Includes U-SQL a

new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully managed

NoSQL database service that indexes stores and queries

data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

Microsoft Big Data Portfolio

SQL Server Stretch

Business intelligence

Machine learning analytics

Insights

Azure SQL Database

SQL Server 2016

SQL Server 2016 Fast Track

Azure SQL DW

ADLS amp ADLA

DocumentDB

HDInsight

Hadoop

Analytics Platform System

Sequential Scale Out + AcrossScale Up

Key

Relational Non-relational

On

-pre

mis

es

Clo

ud

Microsoft has solutions covering

and connecting all four

quadrants ndash thatrsquos why SQL

Server is one of the most utilized

databases in the world

Azure

Data Lake Store

Azure

Blob StoragePurpose Optimized for big data analytics General purpose bulk storage

Use Cases Batch Interactive Streaming App backend backup data media storage for

streaming

Units of Storage Accounts Folders Files Accounts Containers Blobs

Structure Hierarchical File System Flat namespace

WebHDFS Implements WebHDFS No (WASB)

Security AD SAS keys

Storage Auto SharedFiles chunked Manually manage expansionFiles intact

Service State Generally Available PolyBase

just supported

Generally Available

Billing Pay for data stored and for IO Pay for data stored and for IO

Region Availability Two US regions (Other regions coming soon) All Azure Regions

ADL Store vs Blob Store

httpsdocsmicrosoftcomen-usazuredata-lake-storedata-lake-store-comparison-with-blob-storage

Want Hadoop

Need exact same on-prem

Need interactive streaming

MandatoryNo strong opinion

Azure Marketplace (IaaS)

bull Need all workloads exactly like on-

premises

bull Need 100 HortonworksClouderaMapR

Azure HDInsight

bull Most Hadoop workloads

bull Fully managed by Microsoft

bull Sell HDI + ADLS

bull Stickier to Microsoft than VMs

bull Can do interactive (Spark) and streaming

(StormSpark)

Azure Data Lake Analytics

bull Easiest experience for admin no sense of

clusters instant scale per job

bull Easiest experience for developers Visual

StudioU-SQL (C+SQL)

bull Sell ADLA + ADLS

bull Batch workloads only

Need everything exactly like on-prem

Need core projects Yes Batch is OK

Always present ADLA if NET or Visual Studio Shop

If NET or VS shop

Azure SQL DW HDInsight Hive HDInsight Spark Azure Data Lake SQL Server (IaaS)

Volume Petabytes Petabytes Petabytes Petabytes Terabytes

Security Encryption TD

Audit

ADLS Apache

Ranger

ADLS AAD Security

Groups (data)

Encryption TD

Audit

Languages T-SQL HiveQL SparkSQL HiveQL

Scala Java Python

R

U-SQL T-SQL

Extensibility No Yes NETSerDe Yes Packages Yes NET Yes NET CLR

External File

Types

ORC TXT

Parquet RCFile

ORC CSV Parquet

+ others

Parquet JSON

Hive + others

Many ORC TXT Parquet

RCFile

Admin Low-Medium Medium-High Medium-High Low High

Cost Model DWU Nodes amp VM Nodes amp VM UnitsJobs VM

Schema

Definition

Schema on Write

Polybase

Schema on Read Schema on Read Schema on Read Schema on Write

Polybase

Max DB Size 240TB Comp (5X

= 1PB)

Unlimited 64TB (64 1TB drives)

機械学習 Deep Learning 深層強化学習

画像解析

音声解析

データ分類異常検知 顧客グルーピング

数値予測売上予測 需要予測 品質管理

ラベル分類不良品分析 故障予測 チャーン分析

機械学習より強力な分析

自律学習型ロボット

自動運転車

テキストや画像等の自動生成

活用例

主に多層のニューラルネットワークを用いた手法での分析

分析のためには莫大なデータ量計算量知識スキルを要する

統計に基づいた手法での分析

そのため比較的少ないデータ量と計算量で分析を行うことができる

定義したあるべき姿に従い試行錯誤をして自ら学習を行うための分析手法である強化学習と深層学習を組み合わせた分析

Azure Machine Learning Cognitive Toolkit GPU Instance (N-Series)

マイクロソフトが提供する技術

テキストデータ機器のログデータなど

画像データ監視カメラの録画データ 機器の外観画像 顔画像など

動画データ監視カメラの録画データ 機器の稼働状況 人の作業映像など

音声データマイクからの収集データ 稼働音 室内音 人の音声など

数値データセンサーデータ 機器の制御データ計測データなど672342345

機械学習統計理論に基づいた分析手法を用いる用意するべきデータ量と処理する計算量の敷居が低め導入しやすい

Deep Learningデータ量が大きいため強力な分析手法が必要「膨大なデータ量を用意」「莫大な計算量を処理」が必要で敷居が非常に高い導入にはそれなりの覚悟が必要

Action

People

Automated Systems

Apps

Web

Mobile

Bots

Intelligence

Dashboards amp Visualizations

Cortana

Bot Framework

Cognitive Services

Power BI

Information Management

Event Hubs

Data Catalog

Data Factory

Machine Learning and Analytics

HDInsight

Stream Analytics

Intelligence

Data Lake Analytics

Machine Learning

Big Data Stores

SQL Data Warehouse

Data Lake Store

Data Sources

Apps

Sensors amp Devices

Data

Cortana Intelligence Suite

学習済み

モデル利用

学習モデル

作成

機械学習 教師あり学習

教師なし学習

強化学習

決定木

線形回帰

SVM

ロジスティック回帰

ニューラルネットワーク

クラスタリング

次元削減

Q学習

K-mean法

主成分分析

正準相関分析

ディープニューラルネットワーク

畳みこみニューラルネットワーク

再帰的ニューラルネットワーク

回帰結合ニューラルネットワーク

httpsazuremicrosoftcomen-usservicescognitive-services

わずか数行のコードで強力なアルゴリズムを持つアプリの作成が可能ですiOSAndroidWindows などのプラットフォームを問わず機能します

httpsazuremicrosoftcomja-jpservicesmachine-learning

ユーザーは簡単に予測分析ソリューションを構築デプロイ共有できます

httpswwwyoutubecomwatchv=9gDDO5ldT-4ampfeature=youtube

AI技術を利用したディープラーニング(深層学習)ツールキットです旧称「CNTK」から改名されました

ソースコード httpsgithubcomMicrosoftCNTK

SearchSpeech

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

コカコーラ誕生100周年キャンペーン

コカコーラボトルを「100歳」と認識

bull 自撮り写真をUp結果をSNS拡散

ナビタイムジャパン様

自然言語入力による路線検索BOT

bull ユーザーとの新たな接点(LINE)

bull 自然言語入力

Vision Language Knowledge

Vision Knowledge SearchSpeech Language

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

Microsoft SupportVirtual Agent

自然言語入力による自動応答サポート窓口

bull 過去QampAデータ解析に基づく回答抽出

bull 定型外はldquo人対応rdquo

UBER

登録ドライバーをスマホ経由で顔認証

VOLVO

表情からの危険予測

Search

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

アロバ様

監視カメラによる店舗内行動分析

bull 顔認識による 顧客識別

bull 表情分析

東京サマーランド様にて導入済み

HmComm様

コールセンターソリューション

bull 会話をテキスト化キーワードを解析

bull 過去QampA検索

bull 内容をCRM保存

Vision KnowledgeSpeech Language

導入事例東京サマーランド様

Video

Intelligent KioskhttpsgithubcomMicrosoftCognitive-Samples-IntelligentKiosk

ldquo(want to|request)rdquo

HoloLens

Page 72: やりたいことから考えるMicrosoft Azure 上の データストアの選び方とデータサイエンティスト向け活用法。KVSからDWHまで

デバイス接続性とデバイス管理およびブローカーサービス

データ管理と高度な分析 情報活用業務の生産性とプロセスの最適化

IoT Agent Gateway

予兆原因の学習モデル

ダッシュボード

参照ERPbull 顧客bull 設備bull 担当者

Notification Hubs

通知

予兆イベント

メンテ方法の推奨

bull ヘルス状態bull インシデント管理bull 対応のディスパッチ

現地技術要員のモバイルデバイス

オペレーションセンター

bull イベント ドア開閉軸アライメントキャビン速度モーター温度など

bull アラーム 故障アラームエラーコードなど

httpisstkeazurewebsitesnet

Event Hub

Stream Analytics

Azure ML

制御機器とセンサーのデータ

マシンデータの蓄積

メンテナンス方法の学習モデル

Machine Learning

Blob Storage

セルフサービス分析

Power BI

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce

cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-

system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of

your data while making it faster to get up and running with

batch streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources

so you can run queries on exabytes of data Includes U-

SQL a new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully

managed NoSQL database service that indexes stores and

queries data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

What do all of these have in common

They can all use Azure Analysis Services

Azure Analysis Services

Azure Analysis Services

BI semantic model

Business logic amp metrics

Data modeling

Security

Azure Analysis Services

Lifecycle management

In-memory cache

On-premises

Cloud

Data sources

SQL Database

SQL Data Warehouse

Other data sources

SQL Server

Analytics platform

system

Other data sources

On-premises

Cloud

Client tools

Power BI

Excel

Third party BI tools

Power BI Desktop

Rich semantic modelling

locatioidentifier

identifiertype

fieldidentifier

numberofunitssoldtodate

remaningnumber

Numberofuntissoldtoday

receivedback

productidentifier

descriptionline1

descriptionline2

qtyafterqtysales

familyidentifier

Source DataComplex raw data optimized for processing

Semantic ModelRich business user friendly semantic model

Product Id

Product Name

Product Description

Category

Category Id

Category Name

Category Description

Sub Category

Product Id

Shelf qty

Return qty

Order qty

Sale qty

Cloud Data

On-Premises

Data

Azure Analysis Services

Lightning fast queries

データ管理をきっかけに処理を実行

Web Glue

Bots IoT

DOMINOS STORES

Key Vault

Azure Active Directory

Azure Files

SSIS FRANCHISEE

AZURE WEST EUROPE

Azure Function

KEMPSSDESSRS

IN- AND EXTERNAL DATA SOURCES

orderprocessing

O365

App Insights

indexhtml

Azure Functions Proxies

couponprocessing

Use Bindings in Your Codefunctionjson

bindings [type httpTriggerdirection inwebHookType genericJsonname req

type httpdirection outname res

type queuename eventOutputqueueName aievents1connectionAiStorageConnectiondirection out

]

public static class OrderHandler

[FunctionName(OrderWebhook)]public static async TaskltHttpResponseMessagegt Run(

[HttpTrigger] HttpRequestMessage req[Queue(aievents1 Connection = AiStorageConnection)]

IAsyncCollectorltStringgt eventOutputTraceWriter log)

logInfo($Webhook was triggered)

string jsonContent = await reqContentReadAsStringAsync()dynamic data = JsonConvertDeserializeObject(jsonContent)

await eventOutputAddAsync(JsonConvertSerializeObject(GetLogData(data)))

int orderId = PlaceOrder(data)

return reqCreateResponse(HttpStatusCodeOK new orderNumber = orderId )

bull Workflow in the cloud

bull Powerful control flow

bull Connect functions and APIs

bull Declarative definition to persist in source control and drive deployments

Logic AppsCloud APIs and platform

bull Supports over 125 built-in connectors

bull Scales to meet your needs

bull Enables rapid development

bull Extends with custom APIs and

Functions

API connections

bull Authenticate once and reuse

Big Data Solutions Decision Tree

httpsbiz-excellencecom20160830big-data-dt

Machine Learning Solutions Decision Tree

httpsbiz-excellencecom20160913machine-

learning-dt

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of your

data while making it faster to get up and running with batch

streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources so

you can run queries on exabytes of data Includes U-SQL a

new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully managed

NoSQL database service that indexes stores and queries

data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

Microsoft Big Data Portfolio

SQL Server Stretch

Business intelligence

Machine learning analytics

Insights

Azure SQL Database

SQL Server 2016

SQL Server 2016 Fast Track

Azure SQL DW

ADLS amp ADLA

DocumentDB

HDInsight

Hadoop

Analytics Platform System

Sequential Scale Out + AcrossScale Up

Key

Relational Non-relational

On

-pre

mis

es

Clo

ud

Microsoft has solutions covering

and connecting all four

quadrants ndash thatrsquos why SQL

Server is one of the most utilized

databases in the world

Azure

Data Lake Store

Azure

Blob StoragePurpose Optimized for big data analytics General purpose bulk storage

Use Cases Batch Interactive Streaming App backend backup data media storage for

streaming

Units of Storage Accounts Folders Files Accounts Containers Blobs

Structure Hierarchical File System Flat namespace

WebHDFS Implements WebHDFS No (WASB)

Security AD SAS keys

Storage Auto SharedFiles chunked Manually manage expansionFiles intact

Service State Generally Available PolyBase

just supported

Generally Available

Billing Pay for data stored and for IO Pay for data stored and for IO

Region Availability Two US regions (Other regions coming soon) All Azure Regions

ADL Store vs Blob Store

httpsdocsmicrosoftcomen-usazuredata-lake-storedata-lake-store-comparison-with-blob-storage

Want Hadoop

Need exact same on-prem

Need interactive streaming

MandatoryNo strong opinion

Azure Marketplace (IaaS)

bull Need all workloads exactly like on-

premises

bull Need 100 HortonworksClouderaMapR

Azure HDInsight

bull Most Hadoop workloads

bull Fully managed by Microsoft

bull Sell HDI + ADLS

bull Stickier to Microsoft than VMs

bull Can do interactive (Spark) and streaming

(StormSpark)

Azure Data Lake Analytics

bull Easiest experience for admin no sense of

clusters instant scale per job

bull Easiest experience for developers Visual

StudioU-SQL (C+SQL)

bull Sell ADLA + ADLS

bull Batch workloads only

Need everything exactly like on-prem

Need core projects Yes Batch is OK

Always present ADLA if NET or Visual Studio Shop

If NET or VS shop

Azure SQL DW HDInsight Hive HDInsight Spark Azure Data Lake SQL Server (IaaS)

Volume Petabytes Petabytes Petabytes Petabytes Terabytes

Security Encryption TD

Audit

ADLS Apache

Ranger

ADLS AAD Security

Groups (data)

Encryption TD

Audit

Languages T-SQL HiveQL SparkSQL HiveQL

Scala Java Python

R

U-SQL T-SQL

Extensibility No Yes NETSerDe Yes Packages Yes NET Yes NET CLR

External File

Types

ORC TXT

Parquet RCFile

ORC CSV Parquet

+ others

Parquet JSON

Hive + others

Many ORC TXT Parquet

RCFile

Admin Low-Medium Medium-High Medium-High Low High

Cost Model DWU Nodes amp VM Nodes amp VM UnitsJobs VM

Schema

Definition

Schema on Write

Polybase

Schema on Read Schema on Read Schema on Read Schema on Write

Polybase

Max DB Size 240TB Comp (5X

= 1PB)

Unlimited 64TB (64 1TB drives)

機械学習 Deep Learning 深層強化学習

画像解析

音声解析

データ分類異常検知 顧客グルーピング

数値予測売上予測 需要予測 品質管理

ラベル分類不良品分析 故障予測 チャーン分析

機械学習より強力な分析

自律学習型ロボット

自動運転車

テキストや画像等の自動生成

活用例

主に多層のニューラルネットワークを用いた手法での分析

分析のためには莫大なデータ量計算量知識スキルを要する

統計に基づいた手法での分析

そのため比較的少ないデータ量と計算量で分析を行うことができる

定義したあるべき姿に従い試行錯誤をして自ら学習を行うための分析手法である強化学習と深層学習を組み合わせた分析

Azure Machine Learning Cognitive Toolkit GPU Instance (N-Series)

マイクロソフトが提供する技術

テキストデータ機器のログデータなど

画像データ監視カメラの録画データ 機器の外観画像 顔画像など

動画データ監視カメラの録画データ 機器の稼働状況 人の作業映像など

音声データマイクからの収集データ 稼働音 室内音 人の音声など

数値データセンサーデータ 機器の制御データ計測データなど672342345

機械学習統計理論に基づいた分析手法を用いる用意するべきデータ量と処理する計算量の敷居が低め導入しやすい

Deep Learningデータ量が大きいため強力な分析手法が必要「膨大なデータ量を用意」「莫大な計算量を処理」が必要で敷居が非常に高い導入にはそれなりの覚悟が必要

Action

People

Automated Systems

Apps

Web

Mobile

Bots

Intelligence

Dashboards amp Visualizations

Cortana

Bot Framework

Cognitive Services

Power BI

Information Management

Event Hubs

Data Catalog

Data Factory

Machine Learning and Analytics

HDInsight

Stream Analytics

Intelligence

Data Lake Analytics

Machine Learning

Big Data Stores

SQL Data Warehouse

Data Lake Store

Data Sources

Apps

Sensors amp Devices

Data

Cortana Intelligence Suite

学習済み

モデル利用

学習モデル

作成

機械学習 教師あり学習

教師なし学習

強化学習

決定木

線形回帰

SVM

ロジスティック回帰

ニューラルネットワーク

クラスタリング

次元削減

Q学習

K-mean法

主成分分析

正準相関分析

ディープニューラルネットワーク

畳みこみニューラルネットワーク

再帰的ニューラルネットワーク

回帰結合ニューラルネットワーク

httpsazuremicrosoftcomen-usservicescognitive-services

わずか数行のコードで強力なアルゴリズムを持つアプリの作成が可能ですiOSAndroidWindows などのプラットフォームを問わず機能します

httpsazuremicrosoftcomja-jpservicesmachine-learning

ユーザーは簡単に予測分析ソリューションを構築デプロイ共有できます

httpswwwyoutubecomwatchv=9gDDO5ldT-4ampfeature=youtube

AI技術を利用したディープラーニング(深層学習)ツールキットです旧称「CNTK」から改名されました

ソースコード httpsgithubcomMicrosoftCNTK

SearchSpeech

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

コカコーラ誕生100周年キャンペーン

コカコーラボトルを「100歳」と認識

bull 自撮り写真をUp結果をSNS拡散

ナビタイムジャパン様

自然言語入力による路線検索BOT

bull ユーザーとの新たな接点(LINE)

bull 自然言語入力

Vision Language Knowledge

Vision Knowledge SearchSpeech Language

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

Microsoft SupportVirtual Agent

自然言語入力による自動応答サポート窓口

bull 過去QampAデータ解析に基づく回答抽出

bull 定型外はldquo人対応rdquo

UBER

登録ドライバーをスマホ経由で顔認証

VOLVO

表情からの危険予測

Search

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

アロバ様

監視カメラによる店舗内行動分析

bull 顔認識による 顧客識別

bull 表情分析

東京サマーランド様にて導入済み

HmComm様

コールセンターソリューション

bull 会話をテキスト化キーワードを解析

bull 過去QampA検索

bull 内容をCRM保存

Vision KnowledgeSpeech Language

導入事例東京サマーランド様

Video

Intelligent KioskhttpsgithubcomMicrosoftCognitive-Samples-IntelligentKiosk

ldquo(want to|request)rdquo

HoloLens

Page 73: やりたいことから考えるMicrosoft Azure 上の データストアの選び方とデータサイエンティスト向け活用法。KVSからDWHまで

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce

cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-

system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of

your data while making it faster to get up and running with

batch streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources

so you can run queries on exabytes of data Includes U-

SQL a new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully

managed NoSQL database service that indexes stores and

queries data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

What do all of these have in common

They can all use Azure Analysis Services

Azure Analysis Services

Azure Analysis Services

BI semantic model

Business logic amp metrics

Data modeling

Security

Azure Analysis Services

Lifecycle management

In-memory cache

On-premises

Cloud

Data sources

SQL Database

SQL Data Warehouse

Other data sources

SQL Server

Analytics platform

system

Other data sources

On-premises

Cloud

Client tools

Power BI

Excel

Third party BI tools

Power BI Desktop

Rich semantic modelling

locatioidentifier

identifiertype

fieldidentifier

numberofunitssoldtodate

remaningnumber

Numberofuntissoldtoday

receivedback

productidentifier

descriptionline1

descriptionline2

qtyafterqtysales

familyidentifier

Source DataComplex raw data optimized for processing

Semantic ModelRich business user friendly semantic model

Product Id

Product Name

Product Description

Category

Category Id

Category Name

Category Description

Sub Category

Product Id

Shelf qty

Return qty

Order qty

Sale qty

Cloud Data

On-Premises

Data

Azure Analysis Services

Lightning fast queries

データ管理をきっかけに処理を実行

Web Glue

Bots IoT

DOMINOS STORES

Key Vault

Azure Active Directory

Azure Files

SSIS FRANCHISEE

AZURE WEST EUROPE

Azure Function

KEMPSSDESSRS

IN- AND EXTERNAL DATA SOURCES

orderprocessing

O365

App Insights

indexhtml

Azure Functions Proxies

couponprocessing

Use Bindings in Your Codefunctionjson

bindings [type httpTriggerdirection inwebHookType genericJsonname req

type httpdirection outname res

type queuename eventOutputqueueName aievents1connectionAiStorageConnectiondirection out

]

public static class OrderHandler

[FunctionName(OrderWebhook)]public static async TaskltHttpResponseMessagegt Run(

[HttpTrigger] HttpRequestMessage req[Queue(aievents1 Connection = AiStorageConnection)]

IAsyncCollectorltStringgt eventOutputTraceWriter log)

logInfo($Webhook was triggered)

string jsonContent = await reqContentReadAsStringAsync()dynamic data = JsonConvertDeserializeObject(jsonContent)

await eventOutputAddAsync(JsonConvertSerializeObject(GetLogData(data)))

int orderId = PlaceOrder(data)

return reqCreateResponse(HttpStatusCodeOK new orderNumber = orderId )

bull Workflow in the cloud

bull Powerful control flow

bull Connect functions and APIs

bull Declarative definition to persist in source control and drive deployments

Logic AppsCloud APIs and platform

bull Supports over 125 built-in connectors

bull Scales to meet your needs

bull Enables rapid development

bull Extends with custom APIs and

Functions

API connections

bull Authenticate once and reuse

Big Data Solutions Decision Tree

httpsbiz-excellencecom20160830big-data-dt

Machine Learning Solutions Decision Tree

httpsbiz-excellencecom20160913machine-

learning-dt

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of your

data while making it faster to get up and running with batch

streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources so

you can run queries on exabytes of data Includes U-SQL a

new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully managed

NoSQL database service that indexes stores and queries

data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

Microsoft Big Data Portfolio

SQL Server Stretch

Business intelligence

Machine learning analytics

Insights

Azure SQL Database

SQL Server 2016

SQL Server 2016 Fast Track

Azure SQL DW

ADLS amp ADLA

DocumentDB

HDInsight

Hadoop

Analytics Platform System

Sequential Scale Out + AcrossScale Up

Key

Relational Non-relational

On

-pre

mis

es

Clo

ud

Microsoft has solutions covering

and connecting all four

quadrants ndash thatrsquos why SQL

Server is one of the most utilized

databases in the world

Azure

Data Lake Store

Azure

Blob StoragePurpose Optimized for big data analytics General purpose bulk storage

Use Cases Batch Interactive Streaming App backend backup data media storage for

streaming

Units of Storage Accounts Folders Files Accounts Containers Blobs

Structure Hierarchical File System Flat namespace

WebHDFS Implements WebHDFS No (WASB)

Security AD SAS keys

Storage Auto SharedFiles chunked Manually manage expansionFiles intact

Service State Generally Available PolyBase

just supported

Generally Available

Billing Pay for data stored and for IO Pay for data stored and for IO

Region Availability Two US regions (Other regions coming soon) All Azure Regions

ADL Store vs Blob Store

httpsdocsmicrosoftcomen-usazuredata-lake-storedata-lake-store-comparison-with-blob-storage

Want Hadoop

Need exact same on-prem

Need interactive streaming

MandatoryNo strong opinion

Azure Marketplace (IaaS)

bull Need all workloads exactly like on-

premises

bull Need 100 HortonworksClouderaMapR

Azure HDInsight

bull Most Hadoop workloads

bull Fully managed by Microsoft

bull Sell HDI + ADLS

bull Stickier to Microsoft than VMs

bull Can do interactive (Spark) and streaming

(StormSpark)

Azure Data Lake Analytics

bull Easiest experience for admin no sense of

clusters instant scale per job

bull Easiest experience for developers Visual

StudioU-SQL (C+SQL)

bull Sell ADLA + ADLS

bull Batch workloads only

Need everything exactly like on-prem

Need core projects Yes Batch is OK

Always present ADLA if NET or Visual Studio Shop

If NET or VS shop

Azure SQL DW HDInsight Hive HDInsight Spark Azure Data Lake SQL Server (IaaS)

Volume Petabytes Petabytes Petabytes Petabytes Terabytes

Security Encryption TD

Audit

ADLS Apache

Ranger

ADLS AAD Security

Groups (data)

Encryption TD

Audit

Languages T-SQL HiveQL SparkSQL HiveQL

Scala Java Python

R

U-SQL T-SQL

Extensibility No Yes NETSerDe Yes Packages Yes NET Yes NET CLR

External File

Types

ORC TXT

Parquet RCFile

ORC CSV Parquet

+ others

Parquet JSON

Hive + others

Many ORC TXT Parquet

RCFile

Admin Low-Medium Medium-High Medium-High Low High

Cost Model DWU Nodes amp VM Nodes amp VM UnitsJobs VM

Schema

Definition

Schema on Write

Polybase

Schema on Read Schema on Read Schema on Read Schema on Write

Polybase

Max DB Size 240TB Comp (5X

= 1PB)

Unlimited 64TB (64 1TB drives)

機械学習 Deep Learning 深層強化学習

画像解析

音声解析

データ分類異常検知 顧客グルーピング

数値予測売上予測 需要予測 品質管理

ラベル分類不良品分析 故障予測 チャーン分析

機械学習より強力な分析

自律学習型ロボット

自動運転車

テキストや画像等の自動生成

活用例

主に多層のニューラルネットワークを用いた手法での分析

分析のためには莫大なデータ量計算量知識スキルを要する

統計に基づいた手法での分析

そのため比較的少ないデータ量と計算量で分析を行うことができる

定義したあるべき姿に従い試行錯誤をして自ら学習を行うための分析手法である強化学習と深層学習を組み合わせた分析

Azure Machine Learning Cognitive Toolkit GPU Instance (N-Series)

マイクロソフトが提供する技術

テキストデータ機器のログデータなど

画像データ監視カメラの録画データ 機器の外観画像 顔画像など

動画データ監視カメラの録画データ 機器の稼働状況 人の作業映像など

音声データマイクからの収集データ 稼働音 室内音 人の音声など

数値データセンサーデータ 機器の制御データ計測データなど672342345

機械学習統計理論に基づいた分析手法を用いる用意するべきデータ量と処理する計算量の敷居が低め導入しやすい

Deep Learningデータ量が大きいため強力な分析手法が必要「膨大なデータ量を用意」「莫大な計算量を処理」が必要で敷居が非常に高い導入にはそれなりの覚悟が必要

Action

People

Automated Systems

Apps

Web

Mobile

Bots

Intelligence

Dashboards amp Visualizations

Cortana

Bot Framework

Cognitive Services

Power BI

Information Management

Event Hubs

Data Catalog

Data Factory

Machine Learning and Analytics

HDInsight

Stream Analytics

Intelligence

Data Lake Analytics

Machine Learning

Big Data Stores

SQL Data Warehouse

Data Lake Store

Data Sources

Apps

Sensors amp Devices

Data

Cortana Intelligence Suite

学習済み

モデル利用

学習モデル

作成

機械学習 教師あり学習

教師なし学習

強化学習

決定木

線形回帰

SVM

ロジスティック回帰

ニューラルネットワーク

クラスタリング

次元削減

Q学習

K-mean法

主成分分析

正準相関分析

ディープニューラルネットワーク

畳みこみニューラルネットワーク

再帰的ニューラルネットワーク

回帰結合ニューラルネットワーク

httpsazuremicrosoftcomen-usservicescognitive-services

わずか数行のコードで強力なアルゴリズムを持つアプリの作成が可能ですiOSAndroidWindows などのプラットフォームを問わず機能します

httpsazuremicrosoftcomja-jpservicesmachine-learning

ユーザーは簡単に予測分析ソリューションを構築デプロイ共有できます

httpswwwyoutubecomwatchv=9gDDO5ldT-4ampfeature=youtube

AI技術を利用したディープラーニング(深層学習)ツールキットです旧称「CNTK」から改名されました

ソースコード httpsgithubcomMicrosoftCNTK

SearchSpeech

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

コカコーラ誕生100周年キャンペーン

コカコーラボトルを「100歳」と認識

bull 自撮り写真をUp結果をSNS拡散

ナビタイムジャパン様

自然言語入力による路線検索BOT

bull ユーザーとの新たな接点(LINE)

bull 自然言語入力

Vision Language Knowledge

Vision Knowledge SearchSpeech Language

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

Microsoft SupportVirtual Agent

自然言語入力による自動応答サポート窓口

bull 過去QampAデータ解析に基づく回答抽出

bull 定型外はldquo人対応rdquo

UBER

登録ドライバーをスマホ経由で顔認証

VOLVO

表情からの危険予測

Search

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

アロバ様

監視カメラによる店舗内行動分析

bull 顔認識による 顧客識別

bull 表情分析

東京サマーランド様にて導入済み

HmComm様

コールセンターソリューション

bull 会話をテキスト化キーワードを解析

bull 過去QampA検索

bull 内容をCRM保存

Vision KnowledgeSpeech Language

導入事例東京サマーランド様

Video

Intelligent KioskhttpsgithubcomMicrosoftCognitive-Samples-IntelligentKiosk

ldquo(want to|request)rdquo

HoloLens

Page 74: やりたいことから考えるMicrosoft Azure 上の データストアの選び方とデータサイエンティスト向け活用法。KVSからDWHまで

What do all of these have in common

They can all use Azure Analysis Services

Azure Analysis Services

Azure Analysis Services

BI semantic model

Business logic amp metrics

Data modeling

Security

Azure Analysis Services

Lifecycle management

In-memory cache

On-premises

Cloud

Data sources

SQL Database

SQL Data Warehouse

Other data sources

SQL Server

Analytics platform

system

Other data sources

On-premises

Cloud

Client tools

Power BI

Excel

Third party BI tools

Power BI Desktop

Rich semantic modelling

locatioidentifier

identifiertype

fieldidentifier

numberofunitssoldtodate

remaningnumber

Numberofuntissoldtoday

receivedback

productidentifier

descriptionline1

descriptionline2

qtyafterqtysales

familyidentifier

Source DataComplex raw data optimized for processing

Semantic ModelRich business user friendly semantic model

Product Id

Product Name

Product Description

Category

Category Id

Category Name

Category Description

Sub Category

Product Id

Shelf qty

Return qty

Order qty

Sale qty

Cloud Data

On-Premises

Data

Azure Analysis Services

Lightning fast queries

データ管理をきっかけに処理を実行

Web Glue

Bots IoT

DOMINOS STORES

Key Vault

Azure Active Directory

Azure Files

SSIS FRANCHISEE

AZURE WEST EUROPE

Azure Function

KEMPSSDESSRS

IN- AND EXTERNAL DATA SOURCES

orderprocessing

O365

App Insights

indexhtml

Azure Functions Proxies

couponprocessing

Use Bindings in Your Codefunctionjson

bindings [type httpTriggerdirection inwebHookType genericJsonname req

type httpdirection outname res

type queuename eventOutputqueueName aievents1connectionAiStorageConnectiondirection out

]

public static class OrderHandler

[FunctionName(OrderWebhook)]public static async TaskltHttpResponseMessagegt Run(

[HttpTrigger] HttpRequestMessage req[Queue(aievents1 Connection = AiStorageConnection)]

IAsyncCollectorltStringgt eventOutputTraceWriter log)

logInfo($Webhook was triggered)

string jsonContent = await reqContentReadAsStringAsync()dynamic data = JsonConvertDeserializeObject(jsonContent)

await eventOutputAddAsync(JsonConvertSerializeObject(GetLogData(data)))

int orderId = PlaceOrder(data)

return reqCreateResponse(HttpStatusCodeOK new orderNumber = orderId )

bull Workflow in the cloud

bull Powerful control flow

bull Connect functions and APIs

bull Declarative definition to persist in source control and drive deployments

Logic AppsCloud APIs and platform

bull Supports over 125 built-in connectors

bull Scales to meet your needs

bull Enables rapid development

bull Extends with custom APIs and

Functions

API connections

bull Authenticate once and reuse

Big Data Solutions Decision Tree

httpsbiz-excellencecom20160830big-data-dt

Machine Learning Solutions Decision Tree

httpsbiz-excellencecom20160913machine-

learning-dt

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of your

data while making it faster to get up and running with batch

streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources so

you can run queries on exabytes of data Includes U-SQL a

new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully managed

NoSQL database service that indexes stores and queries

data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

Microsoft Big Data Portfolio

SQL Server Stretch

Business intelligence

Machine learning analytics

Insights

Azure SQL Database

SQL Server 2016

SQL Server 2016 Fast Track

Azure SQL DW

ADLS amp ADLA

DocumentDB

HDInsight

Hadoop

Analytics Platform System

Sequential Scale Out + AcrossScale Up

Key

Relational Non-relational

On

-pre

mis

es

Clo

ud

Microsoft has solutions covering

and connecting all four

quadrants ndash thatrsquos why SQL

Server is one of the most utilized

databases in the world

Azure

Data Lake Store

Azure

Blob StoragePurpose Optimized for big data analytics General purpose bulk storage

Use Cases Batch Interactive Streaming App backend backup data media storage for

streaming

Units of Storage Accounts Folders Files Accounts Containers Blobs

Structure Hierarchical File System Flat namespace

WebHDFS Implements WebHDFS No (WASB)

Security AD SAS keys

Storage Auto SharedFiles chunked Manually manage expansionFiles intact

Service State Generally Available PolyBase

just supported

Generally Available

Billing Pay for data stored and for IO Pay for data stored and for IO

Region Availability Two US regions (Other regions coming soon) All Azure Regions

ADL Store vs Blob Store

httpsdocsmicrosoftcomen-usazuredata-lake-storedata-lake-store-comparison-with-blob-storage

Want Hadoop

Need exact same on-prem

Need interactive streaming

MandatoryNo strong opinion

Azure Marketplace (IaaS)

bull Need all workloads exactly like on-

premises

bull Need 100 HortonworksClouderaMapR

Azure HDInsight

bull Most Hadoop workloads

bull Fully managed by Microsoft

bull Sell HDI + ADLS

bull Stickier to Microsoft than VMs

bull Can do interactive (Spark) and streaming

(StormSpark)

Azure Data Lake Analytics

bull Easiest experience for admin no sense of

clusters instant scale per job

bull Easiest experience for developers Visual

StudioU-SQL (C+SQL)

bull Sell ADLA + ADLS

bull Batch workloads only

Need everything exactly like on-prem

Need core projects Yes Batch is OK

Always present ADLA if NET or Visual Studio Shop

If NET or VS shop

Azure SQL DW HDInsight Hive HDInsight Spark Azure Data Lake SQL Server (IaaS)

Volume Petabytes Petabytes Petabytes Petabytes Terabytes

Security Encryption TD

Audit

ADLS Apache

Ranger

ADLS AAD Security

Groups (data)

Encryption TD

Audit

Languages T-SQL HiveQL SparkSQL HiveQL

Scala Java Python

R

U-SQL T-SQL

Extensibility No Yes NETSerDe Yes Packages Yes NET Yes NET CLR

External File

Types

ORC TXT

Parquet RCFile

ORC CSV Parquet

+ others

Parquet JSON

Hive + others

Many ORC TXT Parquet

RCFile

Admin Low-Medium Medium-High Medium-High Low High

Cost Model DWU Nodes amp VM Nodes amp VM UnitsJobs VM

Schema

Definition

Schema on Write

Polybase

Schema on Read Schema on Read Schema on Read Schema on Write

Polybase

Max DB Size 240TB Comp (5X

= 1PB)

Unlimited 64TB (64 1TB drives)

機械学習 Deep Learning 深層強化学習

画像解析

音声解析

データ分類異常検知 顧客グルーピング

数値予測売上予測 需要予測 品質管理

ラベル分類不良品分析 故障予測 チャーン分析

機械学習より強力な分析

自律学習型ロボット

自動運転車

テキストや画像等の自動生成

活用例

主に多層のニューラルネットワークを用いた手法での分析

分析のためには莫大なデータ量計算量知識スキルを要する

統計に基づいた手法での分析

そのため比較的少ないデータ量と計算量で分析を行うことができる

定義したあるべき姿に従い試行錯誤をして自ら学習を行うための分析手法である強化学習と深層学習を組み合わせた分析

Azure Machine Learning Cognitive Toolkit GPU Instance (N-Series)

マイクロソフトが提供する技術

テキストデータ機器のログデータなど

画像データ監視カメラの録画データ 機器の外観画像 顔画像など

動画データ監視カメラの録画データ 機器の稼働状況 人の作業映像など

音声データマイクからの収集データ 稼働音 室内音 人の音声など

数値データセンサーデータ 機器の制御データ計測データなど672342345

機械学習統計理論に基づいた分析手法を用いる用意するべきデータ量と処理する計算量の敷居が低め導入しやすい

Deep Learningデータ量が大きいため強力な分析手法が必要「膨大なデータ量を用意」「莫大な計算量を処理」が必要で敷居が非常に高い導入にはそれなりの覚悟が必要

Action

People

Automated Systems

Apps

Web

Mobile

Bots

Intelligence

Dashboards amp Visualizations

Cortana

Bot Framework

Cognitive Services

Power BI

Information Management

Event Hubs

Data Catalog

Data Factory

Machine Learning and Analytics

HDInsight

Stream Analytics

Intelligence

Data Lake Analytics

Machine Learning

Big Data Stores

SQL Data Warehouse

Data Lake Store

Data Sources

Apps

Sensors amp Devices

Data

Cortana Intelligence Suite

学習済み

モデル利用

学習モデル

作成

機械学習 教師あり学習

教師なし学習

強化学習

決定木

線形回帰

SVM

ロジスティック回帰

ニューラルネットワーク

クラスタリング

次元削減

Q学習

K-mean法

主成分分析

正準相関分析

ディープニューラルネットワーク

畳みこみニューラルネットワーク

再帰的ニューラルネットワーク

回帰結合ニューラルネットワーク

httpsazuremicrosoftcomen-usservicescognitive-services

わずか数行のコードで強力なアルゴリズムを持つアプリの作成が可能ですiOSAndroidWindows などのプラットフォームを問わず機能します

httpsazuremicrosoftcomja-jpservicesmachine-learning

ユーザーは簡単に予測分析ソリューションを構築デプロイ共有できます

httpswwwyoutubecomwatchv=9gDDO5ldT-4ampfeature=youtube

AI技術を利用したディープラーニング(深層学習)ツールキットです旧称「CNTK」から改名されました

ソースコード httpsgithubcomMicrosoftCNTK

SearchSpeech

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

コカコーラ誕生100周年キャンペーン

コカコーラボトルを「100歳」と認識

bull 自撮り写真をUp結果をSNS拡散

ナビタイムジャパン様

自然言語入力による路線検索BOT

bull ユーザーとの新たな接点(LINE)

bull 自然言語入力

Vision Language Knowledge

Vision Knowledge SearchSpeech Language

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

Microsoft SupportVirtual Agent

自然言語入力による自動応答サポート窓口

bull 過去QampAデータ解析に基づく回答抽出

bull 定型外はldquo人対応rdquo

UBER

登録ドライバーをスマホ経由で顔認証

VOLVO

表情からの危険予測

Search

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

アロバ様

監視カメラによる店舗内行動分析

bull 顔認識による 顧客識別

bull 表情分析

東京サマーランド様にて導入済み

HmComm様

コールセンターソリューション

bull 会話をテキスト化キーワードを解析

bull 過去QampA検索

bull 内容をCRM保存

Vision KnowledgeSpeech Language

導入事例東京サマーランド様

Video

Intelligent KioskhttpsgithubcomMicrosoftCognitive-Samples-IntelligentKiosk

ldquo(want to|request)rdquo

HoloLens

Page 75: やりたいことから考えるMicrosoft Azure 上の データストアの選び方とデータサイエンティスト向け活用法。KVSからDWHまで

They can all use Azure Analysis Services

Azure Analysis Services

Azure Analysis Services

BI semantic model

Business logic amp metrics

Data modeling

Security

Azure Analysis Services

Lifecycle management

In-memory cache

On-premises

Cloud

Data sources

SQL Database

SQL Data Warehouse

Other data sources

SQL Server

Analytics platform

system

Other data sources

On-premises

Cloud

Client tools

Power BI

Excel

Third party BI tools

Power BI Desktop

Rich semantic modelling

locatioidentifier

identifiertype

fieldidentifier

numberofunitssoldtodate

remaningnumber

Numberofuntissoldtoday

receivedback

productidentifier

descriptionline1

descriptionline2

qtyafterqtysales

familyidentifier

Source DataComplex raw data optimized for processing

Semantic ModelRich business user friendly semantic model

Product Id

Product Name

Product Description

Category

Category Id

Category Name

Category Description

Sub Category

Product Id

Shelf qty

Return qty

Order qty

Sale qty

Cloud Data

On-Premises

Data

Azure Analysis Services

Lightning fast queries

データ管理をきっかけに処理を実行

Web Glue

Bots IoT

DOMINOS STORES

Key Vault

Azure Active Directory

Azure Files

SSIS FRANCHISEE

AZURE WEST EUROPE

Azure Function

KEMPSSDESSRS

IN- AND EXTERNAL DATA SOURCES

orderprocessing

O365

App Insights

indexhtml

Azure Functions Proxies

couponprocessing

Use Bindings in Your Codefunctionjson

bindings [type httpTriggerdirection inwebHookType genericJsonname req

type httpdirection outname res

type queuename eventOutputqueueName aievents1connectionAiStorageConnectiondirection out

]

public static class OrderHandler

[FunctionName(OrderWebhook)]public static async TaskltHttpResponseMessagegt Run(

[HttpTrigger] HttpRequestMessage req[Queue(aievents1 Connection = AiStorageConnection)]

IAsyncCollectorltStringgt eventOutputTraceWriter log)

logInfo($Webhook was triggered)

string jsonContent = await reqContentReadAsStringAsync()dynamic data = JsonConvertDeserializeObject(jsonContent)

await eventOutputAddAsync(JsonConvertSerializeObject(GetLogData(data)))

int orderId = PlaceOrder(data)

return reqCreateResponse(HttpStatusCodeOK new orderNumber = orderId )

bull Workflow in the cloud

bull Powerful control flow

bull Connect functions and APIs

bull Declarative definition to persist in source control and drive deployments

Logic AppsCloud APIs and platform

bull Supports over 125 built-in connectors

bull Scales to meet your needs

bull Enables rapid development

bull Extends with custom APIs and

Functions

API connections

bull Authenticate once and reuse

Big Data Solutions Decision Tree

httpsbiz-excellencecom20160830big-data-dt

Machine Learning Solutions Decision Tree

httpsbiz-excellencecom20160913machine-

learning-dt

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of your

data while making it faster to get up and running with batch

streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources so

you can run queries on exabytes of data Includes U-SQL a

new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully managed

NoSQL database service that indexes stores and queries

data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

Microsoft Big Data Portfolio

SQL Server Stretch

Business intelligence

Machine learning analytics

Insights

Azure SQL Database

SQL Server 2016

SQL Server 2016 Fast Track

Azure SQL DW

ADLS amp ADLA

DocumentDB

HDInsight

Hadoop

Analytics Platform System

Sequential Scale Out + AcrossScale Up

Key

Relational Non-relational

On

-pre

mis

es

Clo

ud

Microsoft has solutions covering

and connecting all four

quadrants ndash thatrsquos why SQL

Server is one of the most utilized

databases in the world

Azure

Data Lake Store

Azure

Blob StoragePurpose Optimized for big data analytics General purpose bulk storage

Use Cases Batch Interactive Streaming App backend backup data media storage for

streaming

Units of Storage Accounts Folders Files Accounts Containers Blobs

Structure Hierarchical File System Flat namespace

WebHDFS Implements WebHDFS No (WASB)

Security AD SAS keys

Storage Auto SharedFiles chunked Manually manage expansionFiles intact

Service State Generally Available PolyBase

just supported

Generally Available

Billing Pay for data stored and for IO Pay for data stored and for IO

Region Availability Two US regions (Other regions coming soon) All Azure Regions

ADL Store vs Blob Store

httpsdocsmicrosoftcomen-usazuredata-lake-storedata-lake-store-comparison-with-blob-storage

Want Hadoop

Need exact same on-prem

Need interactive streaming

MandatoryNo strong opinion

Azure Marketplace (IaaS)

bull Need all workloads exactly like on-

premises

bull Need 100 HortonworksClouderaMapR

Azure HDInsight

bull Most Hadoop workloads

bull Fully managed by Microsoft

bull Sell HDI + ADLS

bull Stickier to Microsoft than VMs

bull Can do interactive (Spark) and streaming

(StormSpark)

Azure Data Lake Analytics

bull Easiest experience for admin no sense of

clusters instant scale per job

bull Easiest experience for developers Visual

StudioU-SQL (C+SQL)

bull Sell ADLA + ADLS

bull Batch workloads only

Need everything exactly like on-prem

Need core projects Yes Batch is OK

Always present ADLA if NET or Visual Studio Shop

If NET or VS shop

Azure SQL DW HDInsight Hive HDInsight Spark Azure Data Lake SQL Server (IaaS)

Volume Petabytes Petabytes Petabytes Petabytes Terabytes

Security Encryption TD

Audit

ADLS Apache

Ranger

ADLS AAD Security

Groups (data)

Encryption TD

Audit

Languages T-SQL HiveQL SparkSQL HiveQL

Scala Java Python

R

U-SQL T-SQL

Extensibility No Yes NETSerDe Yes Packages Yes NET Yes NET CLR

External File

Types

ORC TXT

Parquet RCFile

ORC CSV Parquet

+ others

Parquet JSON

Hive + others

Many ORC TXT Parquet

RCFile

Admin Low-Medium Medium-High Medium-High Low High

Cost Model DWU Nodes amp VM Nodes amp VM UnitsJobs VM

Schema

Definition

Schema on Write

Polybase

Schema on Read Schema on Read Schema on Read Schema on Write

Polybase

Max DB Size 240TB Comp (5X

= 1PB)

Unlimited 64TB (64 1TB drives)

機械学習 Deep Learning 深層強化学習

画像解析

音声解析

データ分類異常検知 顧客グルーピング

数値予測売上予測 需要予測 品質管理

ラベル分類不良品分析 故障予測 チャーン分析

機械学習より強力な分析

自律学習型ロボット

自動運転車

テキストや画像等の自動生成

活用例

主に多層のニューラルネットワークを用いた手法での分析

分析のためには莫大なデータ量計算量知識スキルを要する

統計に基づいた手法での分析

そのため比較的少ないデータ量と計算量で分析を行うことができる

定義したあるべき姿に従い試行錯誤をして自ら学習を行うための分析手法である強化学習と深層学習を組み合わせた分析

Azure Machine Learning Cognitive Toolkit GPU Instance (N-Series)

マイクロソフトが提供する技術

テキストデータ機器のログデータなど

画像データ監視カメラの録画データ 機器の外観画像 顔画像など

動画データ監視カメラの録画データ 機器の稼働状況 人の作業映像など

音声データマイクからの収集データ 稼働音 室内音 人の音声など

数値データセンサーデータ 機器の制御データ計測データなど672342345

機械学習統計理論に基づいた分析手法を用いる用意するべきデータ量と処理する計算量の敷居が低め導入しやすい

Deep Learningデータ量が大きいため強力な分析手法が必要「膨大なデータ量を用意」「莫大な計算量を処理」が必要で敷居が非常に高い導入にはそれなりの覚悟が必要

Action

People

Automated Systems

Apps

Web

Mobile

Bots

Intelligence

Dashboards amp Visualizations

Cortana

Bot Framework

Cognitive Services

Power BI

Information Management

Event Hubs

Data Catalog

Data Factory

Machine Learning and Analytics

HDInsight

Stream Analytics

Intelligence

Data Lake Analytics

Machine Learning

Big Data Stores

SQL Data Warehouse

Data Lake Store

Data Sources

Apps

Sensors amp Devices

Data

Cortana Intelligence Suite

学習済み

モデル利用

学習モデル

作成

機械学習 教師あり学習

教師なし学習

強化学習

決定木

線形回帰

SVM

ロジスティック回帰

ニューラルネットワーク

クラスタリング

次元削減

Q学習

K-mean法

主成分分析

正準相関分析

ディープニューラルネットワーク

畳みこみニューラルネットワーク

再帰的ニューラルネットワーク

回帰結合ニューラルネットワーク

httpsazuremicrosoftcomen-usservicescognitive-services

わずか数行のコードで強力なアルゴリズムを持つアプリの作成が可能ですiOSAndroidWindows などのプラットフォームを問わず機能します

httpsazuremicrosoftcomja-jpservicesmachine-learning

ユーザーは簡単に予測分析ソリューションを構築デプロイ共有できます

httpswwwyoutubecomwatchv=9gDDO5ldT-4ampfeature=youtube

AI技術を利用したディープラーニング(深層学習)ツールキットです旧称「CNTK」から改名されました

ソースコード httpsgithubcomMicrosoftCNTK

SearchSpeech

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

コカコーラ誕生100周年キャンペーン

コカコーラボトルを「100歳」と認識

bull 自撮り写真をUp結果をSNS拡散

ナビタイムジャパン様

自然言語入力による路線検索BOT

bull ユーザーとの新たな接点(LINE)

bull 自然言語入力

Vision Language Knowledge

Vision Knowledge SearchSpeech Language

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

Microsoft SupportVirtual Agent

自然言語入力による自動応答サポート窓口

bull 過去QampAデータ解析に基づく回答抽出

bull 定型外はldquo人対応rdquo

UBER

登録ドライバーをスマホ経由で顔認証

VOLVO

表情からの危険予測

Search

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

アロバ様

監視カメラによる店舗内行動分析

bull 顔認識による 顧客識別

bull 表情分析

東京サマーランド様にて導入済み

HmComm様

コールセンターソリューション

bull 会話をテキスト化キーワードを解析

bull 過去QampA検索

bull 内容をCRM保存

Vision KnowledgeSpeech Language

導入事例東京サマーランド様

Video

Intelligent KioskhttpsgithubcomMicrosoftCognitive-Samples-IntelligentKiosk

ldquo(want to|request)rdquo

HoloLens

Page 76: やりたいことから考えるMicrosoft Azure 上の データストアの選び方とデータサイエンティスト向け活用法。KVSからDWHまで

Azure Analysis Services

BI semantic model

Business logic amp metrics

Data modeling

Security

Azure Analysis Services

Lifecycle management

In-memory cache

On-premises

Cloud

Data sources

SQL Database

SQL Data Warehouse

Other data sources

SQL Server

Analytics platform

system

Other data sources

On-premises

Cloud

Client tools

Power BI

Excel

Third party BI tools

Power BI Desktop

Rich semantic modelling

locatioidentifier

identifiertype

fieldidentifier

numberofunitssoldtodate

remaningnumber

Numberofuntissoldtoday

receivedback

productidentifier

descriptionline1

descriptionline2

qtyafterqtysales

familyidentifier

Source DataComplex raw data optimized for processing

Semantic ModelRich business user friendly semantic model

Product Id

Product Name

Product Description

Category

Category Id

Category Name

Category Description

Sub Category

Product Id

Shelf qty

Return qty

Order qty

Sale qty

Cloud Data

On-Premises

Data

Azure Analysis Services

Lightning fast queries

データ管理をきっかけに処理を実行

Web Glue

Bots IoT

DOMINOS STORES

Key Vault

Azure Active Directory

Azure Files

SSIS FRANCHISEE

AZURE WEST EUROPE

Azure Function

KEMPSSDESSRS

IN- AND EXTERNAL DATA SOURCES

orderprocessing

O365

App Insights

indexhtml

Azure Functions Proxies

couponprocessing

Use Bindings in Your Codefunctionjson

bindings [type httpTriggerdirection inwebHookType genericJsonname req

type httpdirection outname res

type queuename eventOutputqueueName aievents1connectionAiStorageConnectiondirection out

]

public static class OrderHandler

[FunctionName(OrderWebhook)]public static async TaskltHttpResponseMessagegt Run(

[HttpTrigger] HttpRequestMessage req[Queue(aievents1 Connection = AiStorageConnection)]

IAsyncCollectorltStringgt eventOutputTraceWriter log)

logInfo($Webhook was triggered)

string jsonContent = await reqContentReadAsStringAsync()dynamic data = JsonConvertDeserializeObject(jsonContent)

await eventOutputAddAsync(JsonConvertSerializeObject(GetLogData(data)))

int orderId = PlaceOrder(data)

return reqCreateResponse(HttpStatusCodeOK new orderNumber = orderId )

bull Workflow in the cloud

bull Powerful control flow

bull Connect functions and APIs

bull Declarative definition to persist in source control and drive deployments

Logic AppsCloud APIs and platform

bull Supports over 125 built-in connectors

bull Scales to meet your needs

bull Enables rapid development

bull Extends with custom APIs and

Functions

API connections

bull Authenticate once and reuse

Big Data Solutions Decision Tree

httpsbiz-excellencecom20160830big-data-dt

Machine Learning Solutions Decision Tree

httpsbiz-excellencecom20160913machine-

learning-dt

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of your

data while making it faster to get up and running with batch

streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources so

you can run queries on exabytes of data Includes U-SQL a

new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully managed

NoSQL database service that indexes stores and queries

data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

Microsoft Big Data Portfolio

SQL Server Stretch

Business intelligence

Machine learning analytics

Insights

Azure SQL Database

SQL Server 2016

SQL Server 2016 Fast Track

Azure SQL DW

ADLS amp ADLA

DocumentDB

HDInsight

Hadoop

Analytics Platform System

Sequential Scale Out + AcrossScale Up

Key

Relational Non-relational

On

-pre

mis

es

Clo

ud

Microsoft has solutions covering

and connecting all four

quadrants ndash thatrsquos why SQL

Server is one of the most utilized

databases in the world

Azure

Data Lake Store

Azure

Blob StoragePurpose Optimized for big data analytics General purpose bulk storage

Use Cases Batch Interactive Streaming App backend backup data media storage for

streaming

Units of Storage Accounts Folders Files Accounts Containers Blobs

Structure Hierarchical File System Flat namespace

WebHDFS Implements WebHDFS No (WASB)

Security AD SAS keys

Storage Auto SharedFiles chunked Manually manage expansionFiles intact

Service State Generally Available PolyBase

just supported

Generally Available

Billing Pay for data stored and for IO Pay for data stored and for IO

Region Availability Two US regions (Other regions coming soon) All Azure Regions

ADL Store vs Blob Store

httpsdocsmicrosoftcomen-usazuredata-lake-storedata-lake-store-comparison-with-blob-storage

Want Hadoop

Need exact same on-prem

Need interactive streaming

MandatoryNo strong opinion

Azure Marketplace (IaaS)

bull Need all workloads exactly like on-

premises

bull Need 100 HortonworksClouderaMapR

Azure HDInsight

bull Most Hadoop workloads

bull Fully managed by Microsoft

bull Sell HDI + ADLS

bull Stickier to Microsoft than VMs

bull Can do interactive (Spark) and streaming

(StormSpark)

Azure Data Lake Analytics

bull Easiest experience for admin no sense of

clusters instant scale per job

bull Easiest experience for developers Visual

StudioU-SQL (C+SQL)

bull Sell ADLA + ADLS

bull Batch workloads only

Need everything exactly like on-prem

Need core projects Yes Batch is OK

Always present ADLA if NET or Visual Studio Shop

If NET or VS shop

Azure SQL DW HDInsight Hive HDInsight Spark Azure Data Lake SQL Server (IaaS)

Volume Petabytes Petabytes Petabytes Petabytes Terabytes

Security Encryption TD

Audit

ADLS Apache

Ranger

ADLS AAD Security

Groups (data)

Encryption TD

Audit

Languages T-SQL HiveQL SparkSQL HiveQL

Scala Java Python

R

U-SQL T-SQL

Extensibility No Yes NETSerDe Yes Packages Yes NET Yes NET CLR

External File

Types

ORC TXT

Parquet RCFile

ORC CSV Parquet

+ others

Parquet JSON

Hive + others

Many ORC TXT Parquet

RCFile

Admin Low-Medium Medium-High Medium-High Low High

Cost Model DWU Nodes amp VM Nodes amp VM UnitsJobs VM

Schema

Definition

Schema on Write

Polybase

Schema on Read Schema on Read Schema on Read Schema on Write

Polybase

Max DB Size 240TB Comp (5X

= 1PB)

Unlimited 64TB (64 1TB drives)

機械学習 Deep Learning 深層強化学習

画像解析

音声解析

データ分類異常検知 顧客グルーピング

数値予測売上予測 需要予測 品質管理

ラベル分類不良品分析 故障予測 チャーン分析

機械学習より強力な分析

自律学習型ロボット

自動運転車

テキストや画像等の自動生成

活用例

主に多層のニューラルネットワークを用いた手法での分析

分析のためには莫大なデータ量計算量知識スキルを要する

統計に基づいた手法での分析

そのため比較的少ないデータ量と計算量で分析を行うことができる

定義したあるべき姿に従い試行錯誤をして自ら学習を行うための分析手法である強化学習と深層学習を組み合わせた分析

Azure Machine Learning Cognitive Toolkit GPU Instance (N-Series)

マイクロソフトが提供する技術

テキストデータ機器のログデータなど

画像データ監視カメラの録画データ 機器の外観画像 顔画像など

動画データ監視カメラの録画データ 機器の稼働状況 人の作業映像など

音声データマイクからの収集データ 稼働音 室内音 人の音声など

数値データセンサーデータ 機器の制御データ計測データなど672342345

機械学習統計理論に基づいた分析手法を用いる用意するべきデータ量と処理する計算量の敷居が低め導入しやすい

Deep Learningデータ量が大きいため強力な分析手法が必要「膨大なデータ量を用意」「莫大な計算量を処理」が必要で敷居が非常に高い導入にはそれなりの覚悟が必要

Action

People

Automated Systems

Apps

Web

Mobile

Bots

Intelligence

Dashboards amp Visualizations

Cortana

Bot Framework

Cognitive Services

Power BI

Information Management

Event Hubs

Data Catalog

Data Factory

Machine Learning and Analytics

HDInsight

Stream Analytics

Intelligence

Data Lake Analytics

Machine Learning

Big Data Stores

SQL Data Warehouse

Data Lake Store

Data Sources

Apps

Sensors amp Devices

Data

Cortana Intelligence Suite

学習済み

モデル利用

学習モデル

作成

機械学習 教師あり学習

教師なし学習

強化学習

決定木

線形回帰

SVM

ロジスティック回帰

ニューラルネットワーク

クラスタリング

次元削減

Q学習

K-mean法

主成分分析

正準相関分析

ディープニューラルネットワーク

畳みこみニューラルネットワーク

再帰的ニューラルネットワーク

回帰結合ニューラルネットワーク

httpsazuremicrosoftcomen-usservicescognitive-services

わずか数行のコードで強力なアルゴリズムを持つアプリの作成が可能ですiOSAndroidWindows などのプラットフォームを問わず機能します

httpsazuremicrosoftcomja-jpservicesmachine-learning

ユーザーは簡単に予測分析ソリューションを構築デプロイ共有できます

httpswwwyoutubecomwatchv=9gDDO5ldT-4ampfeature=youtube

AI技術を利用したディープラーニング(深層学習)ツールキットです旧称「CNTK」から改名されました

ソースコード httpsgithubcomMicrosoftCNTK

SearchSpeech

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

コカコーラ誕生100周年キャンペーン

コカコーラボトルを「100歳」と認識

bull 自撮り写真をUp結果をSNS拡散

ナビタイムジャパン様

自然言語入力による路線検索BOT

bull ユーザーとの新たな接点(LINE)

bull 自然言語入力

Vision Language Knowledge

Vision Knowledge SearchSpeech Language

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

Microsoft SupportVirtual Agent

自然言語入力による自動応答サポート窓口

bull 過去QampAデータ解析に基づく回答抽出

bull 定型外はldquo人対応rdquo

UBER

登録ドライバーをスマホ経由で顔認証

VOLVO

表情からの危険予測

Search

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

アロバ様

監視カメラによる店舗内行動分析

bull 顔認識による 顧客識別

bull 表情分析

東京サマーランド様にて導入済み

HmComm様

コールセンターソリューション

bull 会話をテキスト化キーワードを解析

bull 過去QampA検索

bull 内容をCRM保存

Vision KnowledgeSpeech Language

導入事例東京サマーランド様

Video

Intelligent KioskhttpsgithubcomMicrosoftCognitive-Samples-IntelligentKiosk

ldquo(want to|request)rdquo

HoloLens

Page 77: やりたいことから考えるMicrosoft Azure 上の データストアの選び方とデータサイエンティスト向け活用法。KVSからDWHまで

Rich semantic modelling

locatioidentifier

identifiertype

fieldidentifier

numberofunitssoldtodate

remaningnumber

Numberofuntissoldtoday

receivedback

productidentifier

descriptionline1

descriptionline2

qtyafterqtysales

familyidentifier

Source DataComplex raw data optimized for processing

Semantic ModelRich business user friendly semantic model

Product Id

Product Name

Product Description

Category

Category Id

Category Name

Category Description

Sub Category

Product Id

Shelf qty

Return qty

Order qty

Sale qty

Cloud Data

On-Premises

Data

Azure Analysis Services

Lightning fast queries

データ管理をきっかけに処理を実行

Web Glue

Bots IoT

DOMINOS STORES

Key Vault

Azure Active Directory

Azure Files

SSIS FRANCHISEE

AZURE WEST EUROPE

Azure Function

KEMPSSDESSRS

IN- AND EXTERNAL DATA SOURCES

orderprocessing

O365

App Insights

indexhtml

Azure Functions Proxies

couponprocessing

Use Bindings in Your Codefunctionjson

bindings [type httpTriggerdirection inwebHookType genericJsonname req

type httpdirection outname res

type queuename eventOutputqueueName aievents1connectionAiStorageConnectiondirection out

]

public static class OrderHandler

[FunctionName(OrderWebhook)]public static async TaskltHttpResponseMessagegt Run(

[HttpTrigger] HttpRequestMessage req[Queue(aievents1 Connection = AiStorageConnection)]

IAsyncCollectorltStringgt eventOutputTraceWriter log)

logInfo($Webhook was triggered)

string jsonContent = await reqContentReadAsStringAsync()dynamic data = JsonConvertDeserializeObject(jsonContent)

await eventOutputAddAsync(JsonConvertSerializeObject(GetLogData(data)))

int orderId = PlaceOrder(data)

return reqCreateResponse(HttpStatusCodeOK new orderNumber = orderId )

bull Workflow in the cloud

bull Powerful control flow

bull Connect functions and APIs

bull Declarative definition to persist in source control and drive deployments

Logic AppsCloud APIs and platform

bull Supports over 125 built-in connectors

bull Scales to meet your needs

bull Enables rapid development

bull Extends with custom APIs and

Functions

API connections

bull Authenticate once and reuse

Big Data Solutions Decision Tree

httpsbiz-excellencecom20160830big-data-dt

Machine Learning Solutions Decision Tree

httpsbiz-excellencecom20160913machine-

learning-dt

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of your

data while making it faster to get up and running with batch

streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources so

you can run queries on exabytes of data Includes U-SQL a

new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully managed

NoSQL database service that indexes stores and queries

data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

Microsoft Big Data Portfolio

SQL Server Stretch

Business intelligence

Machine learning analytics

Insights

Azure SQL Database

SQL Server 2016

SQL Server 2016 Fast Track

Azure SQL DW

ADLS amp ADLA

DocumentDB

HDInsight

Hadoop

Analytics Platform System

Sequential Scale Out + AcrossScale Up

Key

Relational Non-relational

On

-pre

mis

es

Clo

ud

Microsoft has solutions covering

and connecting all four

quadrants ndash thatrsquos why SQL

Server is one of the most utilized

databases in the world

Azure

Data Lake Store

Azure

Blob StoragePurpose Optimized for big data analytics General purpose bulk storage

Use Cases Batch Interactive Streaming App backend backup data media storage for

streaming

Units of Storage Accounts Folders Files Accounts Containers Blobs

Structure Hierarchical File System Flat namespace

WebHDFS Implements WebHDFS No (WASB)

Security AD SAS keys

Storage Auto SharedFiles chunked Manually manage expansionFiles intact

Service State Generally Available PolyBase

just supported

Generally Available

Billing Pay for data stored and for IO Pay for data stored and for IO

Region Availability Two US regions (Other regions coming soon) All Azure Regions

ADL Store vs Blob Store

httpsdocsmicrosoftcomen-usazuredata-lake-storedata-lake-store-comparison-with-blob-storage

Want Hadoop

Need exact same on-prem

Need interactive streaming

MandatoryNo strong opinion

Azure Marketplace (IaaS)

bull Need all workloads exactly like on-

premises

bull Need 100 HortonworksClouderaMapR

Azure HDInsight

bull Most Hadoop workloads

bull Fully managed by Microsoft

bull Sell HDI + ADLS

bull Stickier to Microsoft than VMs

bull Can do interactive (Spark) and streaming

(StormSpark)

Azure Data Lake Analytics

bull Easiest experience for admin no sense of

clusters instant scale per job

bull Easiest experience for developers Visual

StudioU-SQL (C+SQL)

bull Sell ADLA + ADLS

bull Batch workloads only

Need everything exactly like on-prem

Need core projects Yes Batch is OK

Always present ADLA if NET or Visual Studio Shop

If NET or VS shop

Azure SQL DW HDInsight Hive HDInsight Spark Azure Data Lake SQL Server (IaaS)

Volume Petabytes Petabytes Petabytes Petabytes Terabytes

Security Encryption TD

Audit

ADLS Apache

Ranger

ADLS AAD Security

Groups (data)

Encryption TD

Audit

Languages T-SQL HiveQL SparkSQL HiveQL

Scala Java Python

R

U-SQL T-SQL

Extensibility No Yes NETSerDe Yes Packages Yes NET Yes NET CLR

External File

Types

ORC TXT

Parquet RCFile

ORC CSV Parquet

+ others

Parquet JSON

Hive + others

Many ORC TXT Parquet

RCFile

Admin Low-Medium Medium-High Medium-High Low High

Cost Model DWU Nodes amp VM Nodes amp VM UnitsJobs VM

Schema

Definition

Schema on Write

Polybase

Schema on Read Schema on Read Schema on Read Schema on Write

Polybase

Max DB Size 240TB Comp (5X

= 1PB)

Unlimited 64TB (64 1TB drives)

機械学習 Deep Learning 深層強化学習

画像解析

音声解析

データ分類異常検知 顧客グルーピング

数値予測売上予測 需要予測 品質管理

ラベル分類不良品分析 故障予測 チャーン分析

機械学習より強力な分析

自律学習型ロボット

自動運転車

テキストや画像等の自動生成

活用例

主に多層のニューラルネットワークを用いた手法での分析

分析のためには莫大なデータ量計算量知識スキルを要する

統計に基づいた手法での分析

そのため比較的少ないデータ量と計算量で分析を行うことができる

定義したあるべき姿に従い試行錯誤をして自ら学習を行うための分析手法である強化学習と深層学習を組み合わせた分析

Azure Machine Learning Cognitive Toolkit GPU Instance (N-Series)

マイクロソフトが提供する技術

テキストデータ機器のログデータなど

画像データ監視カメラの録画データ 機器の外観画像 顔画像など

動画データ監視カメラの録画データ 機器の稼働状況 人の作業映像など

音声データマイクからの収集データ 稼働音 室内音 人の音声など

数値データセンサーデータ 機器の制御データ計測データなど672342345

機械学習統計理論に基づいた分析手法を用いる用意するべきデータ量と処理する計算量の敷居が低め導入しやすい

Deep Learningデータ量が大きいため強力な分析手法が必要「膨大なデータ量を用意」「莫大な計算量を処理」が必要で敷居が非常に高い導入にはそれなりの覚悟が必要

Action

People

Automated Systems

Apps

Web

Mobile

Bots

Intelligence

Dashboards amp Visualizations

Cortana

Bot Framework

Cognitive Services

Power BI

Information Management

Event Hubs

Data Catalog

Data Factory

Machine Learning and Analytics

HDInsight

Stream Analytics

Intelligence

Data Lake Analytics

Machine Learning

Big Data Stores

SQL Data Warehouse

Data Lake Store

Data Sources

Apps

Sensors amp Devices

Data

Cortana Intelligence Suite

学習済み

モデル利用

学習モデル

作成

機械学習 教師あり学習

教師なし学習

強化学習

決定木

線形回帰

SVM

ロジスティック回帰

ニューラルネットワーク

クラスタリング

次元削減

Q学習

K-mean法

主成分分析

正準相関分析

ディープニューラルネットワーク

畳みこみニューラルネットワーク

再帰的ニューラルネットワーク

回帰結合ニューラルネットワーク

httpsazuremicrosoftcomen-usservicescognitive-services

わずか数行のコードで強力なアルゴリズムを持つアプリの作成が可能ですiOSAndroidWindows などのプラットフォームを問わず機能します

httpsazuremicrosoftcomja-jpservicesmachine-learning

ユーザーは簡単に予測分析ソリューションを構築デプロイ共有できます

httpswwwyoutubecomwatchv=9gDDO5ldT-4ampfeature=youtube

AI技術を利用したディープラーニング(深層学習)ツールキットです旧称「CNTK」から改名されました

ソースコード httpsgithubcomMicrosoftCNTK

SearchSpeech

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

コカコーラ誕生100周年キャンペーン

コカコーラボトルを「100歳」と認識

bull 自撮り写真をUp結果をSNS拡散

ナビタイムジャパン様

自然言語入力による路線検索BOT

bull ユーザーとの新たな接点(LINE)

bull 自然言語入力

Vision Language Knowledge

Vision Knowledge SearchSpeech Language

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

Microsoft SupportVirtual Agent

自然言語入力による自動応答サポート窓口

bull 過去QampAデータ解析に基づく回答抽出

bull 定型外はldquo人対応rdquo

UBER

登録ドライバーをスマホ経由で顔認証

VOLVO

表情からの危険予測

Search

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

アロバ様

監視カメラによる店舗内行動分析

bull 顔認識による 顧客識別

bull 表情分析

東京サマーランド様にて導入済み

HmComm様

コールセンターソリューション

bull 会話をテキスト化キーワードを解析

bull 過去QampA検索

bull 内容をCRM保存

Vision KnowledgeSpeech Language

導入事例東京サマーランド様

Video

Intelligent KioskhttpsgithubcomMicrosoftCognitive-Samples-IntelligentKiosk

ldquo(want to|request)rdquo

HoloLens

Page 78: やりたいことから考えるMicrosoft Azure 上の データストアの選び方とデータサイエンティスト向け活用法。KVSからDWHまで

Lightning fast queries

データ管理をきっかけに処理を実行

Web Glue

Bots IoT

DOMINOS STORES

Key Vault

Azure Active Directory

Azure Files

SSIS FRANCHISEE

AZURE WEST EUROPE

Azure Function

KEMPSSDESSRS

IN- AND EXTERNAL DATA SOURCES

orderprocessing

O365

App Insights

indexhtml

Azure Functions Proxies

couponprocessing

Use Bindings in Your Codefunctionjson

bindings [type httpTriggerdirection inwebHookType genericJsonname req

type httpdirection outname res

type queuename eventOutputqueueName aievents1connectionAiStorageConnectiondirection out

]

public static class OrderHandler

[FunctionName(OrderWebhook)]public static async TaskltHttpResponseMessagegt Run(

[HttpTrigger] HttpRequestMessage req[Queue(aievents1 Connection = AiStorageConnection)]

IAsyncCollectorltStringgt eventOutputTraceWriter log)

logInfo($Webhook was triggered)

string jsonContent = await reqContentReadAsStringAsync()dynamic data = JsonConvertDeserializeObject(jsonContent)

await eventOutputAddAsync(JsonConvertSerializeObject(GetLogData(data)))

int orderId = PlaceOrder(data)

return reqCreateResponse(HttpStatusCodeOK new orderNumber = orderId )

bull Workflow in the cloud

bull Powerful control flow

bull Connect functions and APIs

bull Declarative definition to persist in source control and drive deployments

Logic AppsCloud APIs and platform

bull Supports over 125 built-in connectors

bull Scales to meet your needs

bull Enables rapid development

bull Extends with custom APIs and

Functions

API connections

bull Authenticate once and reuse

Big Data Solutions Decision Tree

httpsbiz-excellencecom20160830big-data-dt

Machine Learning Solutions Decision Tree

httpsbiz-excellencecom20160913machine-

learning-dt

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of your

data while making it faster to get up and running with batch

streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources so

you can run queries on exabytes of data Includes U-SQL a

new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully managed

NoSQL database service that indexes stores and queries

data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

Microsoft Big Data Portfolio

SQL Server Stretch

Business intelligence

Machine learning analytics

Insights

Azure SQL Database

SQL Server 2016

SQL Server 2016 Fast Track

Azure SQL DW

ADLS amp ADLA

DocumentDB

HDInsight

Hadoop

Analytics Platform System

Sequential Scale Out + AcrossScale Up

Key

Relational Non-relational

On

-pre

mis

es

Clo

ud

Microsoft has solutions covering

and connecting all four

quadrants ndash thatrsquos why SQL

Server is one of the most utilized

databases in the world

Azure

Data Lake Store

Azure

Blob StoragePurpose Optimized for big data analytics General purpose bulk storage

Use Cases Batch Interactive Streaming App backend backup data media storage for

streaming

Units of Storage Accounts Folders Files Accounts Containers Blobs

Structure Hierarchical File System Flat namespace

WebHDFS Implements WebHDFS No (WASB)

Security AD SAS keys

Storage Auto SharedFiles chunked Manually manage expansionFiles intact

Service State Generally Available PolyBase

just supported

Generally Available

Billing Pay for data stored and for IO Pay for data stored and for IO

Region Availability Two US regions (Other regions coming soon) All Azure Regions

ADL Store vs Blob Store

httpsdocsmicrosoftcomen-usazuredata-lake-storedata-lake-store-comparison-with-blob-storage

Want Hadoop

Need exact same on-prem

Need interactive streaming

MandatoryNo strong opinion

Azure Marketplace (IaaS)

bull Need all workloads exactly like on-

premises

bull Need 100 HortonworksClouderaMapR

Azure HDInsight

bull Most Hadoop workloads

bull Fully managed by Microsoft

bull Sell HDI + ADLS

bull Stickier to Microsoft than VMs

bull Can do interactive (Spark) and streaming

(StormSpark)

Azure Data Lake Analytics

bull Easiest experience for admin no sense of

clusters instant scale per job

bull Easiest experience for developers Visual

StudioU-SQL (C+SQL)

bull Sell ADLA + ADLS

bull Batch workloads only

Need everything exactly like on-prem

Need core projects Yes Batch is OK

Always present ADLA if NET or Visual Studio Shop

If NET or VS shop

Azure SQL DW HDInsight Hive HDInsight Spark Azure Data Lake SQL Server (IaaS)

Volume Petabytes Petabytes Petabytes Petabytes Terabytes

Security Encryption TD

Audit

ADLS Apache

Ranger

ADLS AAD Security

Groups (data)

Encryption TD

Audit

Languages T-SQL HiveQL SparkSQL HiveQL

Scala Java Python

R

U-SQL T-SQL

Extensibility No Yes NETSerDe Yes Packages Yes NET Yes NET CLR

External File

Types

ORC TXT

Parquet RCFile

ORC CSV Parquet

+ others

Parquet JSON

Hive + others

Many ORC TXT Parquet

RCFile

Admin Low-Medium Medium-High Medium-High Low High

Cost Model DWU Nodes amp VM Nodes amp VM UnitsJobs VM

Schema

Definition

Schema on Write

Polybase

Schema on Read Schema on Read Schema on Read Schema on Write

Polybase

Max DB Size 240TB Comp (5X

= 1PB)

Unlimited 64TB (64 1TB drives)

機械学習 Deep Learning 深層強化学習

画像解析

音声解析

データ分類異常検知 顧客グルーピング

数値予測売上予測 需要予測 品質管理

ラベル分類不良品分析 故障予測 チャーン分析

機械学習より強力な分析

自律学習型ロボット

自動運転車

テキストや画像等の自動生成

活用例

主に多層のニューラルネットワークを用いた手法での分析

分析のためには莫大なデータ量計算量知識スキルを要する

統計に基づいた手法での分析

そのため比較的少ないデータ量と計算量で分析を行うことができる

定義したあるべき姿に従い試行錯誤をして自ら学習を行うための分析手法である強化学習と深層学習を組み合わせた分析

Azure Machine Learning Cognitive Toolkit GPU Instance (N-Series)

マイクロソフトが提供する技術

テキストデータ機器のログデータなど

画像データ監視カメラの録画データ 機器の外観画像 顔画像など

動画データ監視カメラの録画データ 機器の稼働状況 人の作業映像など

音声データマイクからの収集データ 稼働音 室内音 人の音声など

数値データセンサーデータ 機器の制御データ計測データなど672342345

機械学習統計理論に基づいた分析手法を用いる用意するべきデータ量と処理する計算量の敷居が低め導入しやすい

Deep Learningデータ量が大きいため強力な分析手法が必要「膨大なデータ量を用意」「莫大な計算量を処理」が必要で敷居が非常に高い導入にはそれなりの覚悟が必要

Action

People

Automated Systems

Apps

Web

Mobile

Bots

Intelligence

Dashboards amp Visualizations

Cortana

Bot Framework

Cognitive Services

Power BI

Information Management

Event Hubs

Data Catalog

Data Factory

Machine Learning and Analytics

HDInsight

Stream Analytics

Intelligence

Data Lake Analytics

Machine Learning

Big Data Stores

SQL Data Warehouse

Data Lake Store

Data Sources

Apps

Sensors amp Devices

Data

Cortana Intelligence Suite

学習済み

モデル利用

学習モデル

作成

機械学習 教師あり学習

教師なし学習

強化学習

決定木

線形回帰

SVM

ロジスティック回帰

ニューラルネットワーク

クラスタリング

次元削減

Q学習

K-mean法

主成分分析

正準相関分析

ディープニューラルネットワーク

畳みこみニューラルネットワーク

再帰的ニューラルネットワーク

回帰結合ニューラルネットワーク

httpsazuremicrosoftcomen-usservicescognitive-services

わずか数行のコードで強力なアルゴリズムを持つアプリの作成が可能ですiOSAndroidWindows などのプラットフォームを問わず機能します

httpsazuremicrosoftcomja-jpservicesmachine-learning

ユーザーは簡単に予測分析ソリューションを構築デプロイ共有できます

httpswwwyoutubecomwatchv=9gDDO5ldT-4ampfeature=youtube

AI技術を利用したディープラーニング(深層学習)ツールキットです旧称「CNTK」から改名されました

ソースコード httpsgithubcomMicrosoftCNTK

SearchSpeech

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

コカコーラ誕生100周年キャンペーン

コカコーラボトルを「100歳」と認識

bull 自撮り写真をUp結果をSNS拡散

ナビタイムジャパン様

自然言語入力による路線検索BOT

bull ユーザーとの新たな接点(LINE)

bull 自然言語入力

Vision Language Knowledge

Vision Knowledge SearchSpeech Language

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

Microsoft SupportVirtual Agent

自然言語入力による自動応答サポート窓口

bull 過去QampAデータ解析に基づく回答抽出

bull 定型外はldquo人対応rdquo

UBER

登録ドライバーをスマホ経由で顔認証

VOLVO

表情からの危険予測

Search

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

アロバ様

監視カメラによる店舗内行動分析

bull 顔認識による 顧客識別

bull 表情分析

東京サマーランド様にて導入済み

HmComm様

コールセンターソリューション

bull 会話をテキスト化キーワードを解析

bull 過去QampA検索

bull 内容をCRM保存

Vision KnowledgeSpeech Language

導入事例東京サマーランド様

Video

Intelligent KioskhttpsgithubcomMicrosoftCognitive-Samples-IntelligentKiosk

ldquo(want to|request)rdquo

HoloLens

Page 79: やりたいことから考えるMicrosoft Azure 上の データストアの選び方とデータサイエンティスト向け活用法。KVSからDWHまで

データ管理をきっかけに処理を実行

Web Glue

Bots IoT

DOMINOS STORES

Key Vault

Azure Active Directory

Azure Files

SSIS FRANCHISEE

AZURE WEST EUROPE

Azure Function

KEMPSSDESSRS

IN- AND EXTERNAL DATA SOURCES

orderprocessing

O365

App Insights

indexhtml

Azure Functions Proxies

couponprocessing

Use Bindings in Your Codefunctionjson

bindings [type httpTriggerdirection inwebHookType genericJsonname req

type httpdirection outname res

type queuename eventOutputqueueName aievents1connectionAiStorageConnectiondirection out

]

public static class OrderHandler

[FunctionName(OrderWebhook)]public static async TaskltHttpResponseMessagegt Run(

[HttpTrigger] HttpRequestMessage req[Queue(aievents1 Connection = AiStorageConnection)]

IAsyncCollectorltStringgt eventOutputTraceWriter log)

logInfo($Webhook was triggered)

string jsonContent = await reqContentReadAsStringAsync()dynamic data = JsonConvertDeserializeObject(jsonContent)

await eventOutputAddAsync(JsonConvertSerializeObject(GetLogData(data)))

int orderId = PlaceOrder(data)

return reqCreateResponse(HttpStatusCodeOK new orderNumber = orderId )

bull Workflow in the cloud

bull Powerful control flow

bull Connect functions and APIs

bull Declarative definition to persist in source control and drive deployments

Logic AppsCloud APIs and platform

bull Supports over 125 built-in connectors

bull Scales to meet your needs

bull Enables rapid development

bull Extends with custom APIs and

Functions

API connections

bull Authenticate once and reuse

Big Data Solutions Decision Tree

httpsbiz-excellencecom20160830big-data-dt

Machine Learning Solutions Decision Tree

httpsbiz-excellencecom20160913machine-

learning-dt

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of your

data while making it faster to get up and running with batch

streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources so

you can run queries on exabytes of data Includes U-SQL a

new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully managed

NoSQL database service that indexes stores and queries

data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

Microsoft Big Data Portfolio

SQL Server Stretch

Business intelligence

Machine learning analytics

Insights

Azure SQL Database

SQL Server 2016

SQL Server 2016 Fast Track

Azure SQL DW

ADLS amp ADLA

DocumentDB

HDInsight

Hadoop

Analytics Platform System

Sequential Scale Out + AcrossScale Up

Key

Relational Non-relational

On

-pre

mis

es

Clo

ud

Microsoft has solutions covering

and connecting all four

quadrants ndash thatrsquos why SQL

Server is one of the most utilized

databases in the world

Azure

Data Lake Store

Azure

Blob StoragePurpose Optimized for big data analytics General purpose bulk storage

Use Cases Batch Interactive Streaming App backend backup data media storage for

streaming

Units of Storage Accounts Folders Files Accounts Containers Blobs

Structure Hierarchical File System Flat namespace

WebHDFS Implements WebHDFS No (WASB)

Security AD SAS keys

Storage Auto SharedFiles chunked Manually manage expansionFiles intact

Service State Generally Available PolyBase

just supported

Generally Available

Billing Pay for data stored and for IO Pay for data stored and for IO

Region Availability Two US regions (Other regions coming soon) All Azure Regions

ADL Store vs Blob Store

httpsdocsmicrosoftcomen-usazuredata-lake-storedata-lake-store-comparison-with-blob-storage

Want Hadoop

Need exact same on-prem

Need interactive streaming

MandatoryNo strong opinion

Azure Marketplace (IaaS)

bull Need all workloads exactly like on-

premises

bull Need 100 HortonworksClouderaMapR

Azure HDInsight

bull Most Hadoop workloads

bull Fully managed by Microsoft

bull Sell HDI + ADLS

bull Stickier to Microsoft than VMs

bull Can do interactive (Spark) and streaming

(StormSpark)

Azure Data Lake Analytics

bull Easiest experience for admin no sense of

clusters instant scale per job

bull Easiest experience for developers Visual

StudioU-SQL (C+SQL)

bull Sell ADLA + ADLS

bull Batch workloads only

Need everything exactly like on-prem

Need core projects Yes Batch is OK

Always present ADLA if NET or Visual Studio Shop

If NET or VS shop

Azure SQL DW HDInsight Hive HDInsight Spark Azure Data Lake SQL Server (IaaS)

Volume Petabytes Petabytes Petabytes Petabytes Terabytes

Security Encryption TD

Audit

ADLS Apache

Ranger

ADLS AAD Security

Groups (data)

Encryption TD

Audit

Languages T-SQL HiveQL SparkSQL HiveQL

Scala Java Python

R

U-SQL T-SQL

Extensibility No Yes NETSerDe Yes Packages Yes NET Yes NET CLR

External File

Types

ORC TXT

Parquet RCFile

ORC CSV Parquet

+ others

Parquet JSON

Hive + others

Many ORC TXT Parquet

RCFile

Admin Low-Medium Medium-High Medium-High Low High

Cost Model DWU Nodes amp VM Nodes amp VM UnitsJobs VM

Schema

Definition

Schema on Write

Polybase

Schema on Read Schema on Read Schema on Read Schema on Write

Polybase

Max DB Size 240TB Comp (5X

= 1PB)

Unlimited 64TB (64 1TB drives)

機械学習 Deep Learning 深層強化学習

画像解析

音声解析

データ分類異常検知 顧客グルーピング

数値予測売上予測 需要予測 品質管理

ラベル分類不良品分析 故障予測 チャーン分析

機械学習より強力な分析

自律学習型ロボット

自動運転車

テキストや画像等の自動生成

活用例

主に多層のニューラルネットワークを用いた手法での分析

分析のためには莫大なデータ量計算量知識スキルを要する

統計に基づいた手法での分析

そのため比較的少ないデータ量と計算量で分析を行うことができる

定義したあるべき姿に従い試行錯誤をして自ら学習を行うための分析手法である強化学習と深層学習を組み合わせた分析

Azure Machine Learning Cognitive Toolkit GPU Instance (N-Series)

マイクロソフトが提供する技術

テキストデータ機器のログデータなど

画像データ監視カメラの録画データ 機器の外観画像 顔画像など

動画データ監視カメラの録画データ 機器の稼働状況 人の作業映像など

音声データマイクからの収集データ 稼働音 室内音 人の音声など

数値データセンサーデータ 機器の制御データ計測データなど672342345

機械学習統計理論に基づいた分析手法を用いる用意するべきデータ量と処理する計算量の敷居が低め導入しやすい

Deep Learningデータ量が大きいため強力な分析手法が必要「膨大なデータ量を用意」「莫大な計算量を処理」が必要で敷居が非常に高い導入にはそれなりの覚悟が必要

Action

People

Automated Systems

Apps

Web

Mobile

Bots

Intelligence

Dashboards amp Visualizations

Cortana

Bot Framework

Cognitive Services

Power BI

Information Management

Event Hubs

Data Catalog

Data Factory

Machine Learning and Analytics

HDInsight

Stream Analytics

Intelligence

Data Lake Analytics

Machine Learning

Big Data Stores

SQL Data Warehouse

Data Lake Store

Data Sources

Apps

Sensors amp Devices

Data

Cortana Intelligence Suite

学習済み

モデル利用

学習モデル

作成

機械学習 教師あり学習

教師なし学習

強化学習

決定木

線形回帰

SVM

ロジスティック回帰

ニューラルネットワーク

クラスタリング

次元削減

Q学習

K-mean法

主成分分析

正準相関分析

ディープニューラルネットワーク

畳みこみニューラルネットワーク

再帰的ニューラルネットワーク

回帰結合ニューラルネットワーク

httpsazuremicrosoftcomen-usservicescognitive-services

わずか数行のコードで強力なアルゴリズムを持つアプリの作成が可能ですiOSAndroidWindows などのプラットフォームを問わず機能します

httpsazuremicrosoftcomja-jpservicesmachine-learning

ユーザーは簡単に予測分析ソリューションを構築デプロイ共有できます

httpswwwyoutubecomwatchv=9gDDO5ldT-4ampfeature=youtube

AI技術を利用したディープラーニング(深層学習)ツールキットです旧称「CNTK」から改名されました

ソースコード httpsgithubcomMicrosoftCNTK

SearchSpeech

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

コカコーラ誕生100周年キャンペーン

コカコーラボトルを「100歳」と認識

bull 自撮り写真をUp結果をSNS拡散

ナビタイムジャパン様

自然言語入力による路線検索BOT

bull ユーザーとの新たな接点(LINE)

bull 自然言語入力

Vision Language Knowledge

Vision Knowledge SearchSpeech Language

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

Microsoft SupportVirtual Agent

自然言語入力による自動応答サポート窓口

bull 過去QampAデータ解析に基づく回答抽出

bull 定型外はldquo人対応rdquo

UBER

登録ドライバーをスマホ経由で顔認証

VOLVO

表情からの危険予測

Search

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

アロバ様

監視カメラによる店舗内行動分析

bull 顔認識による 顧客識別

bull 表情分析

東京サマーランド様にて導入済み

HmComm様

コールセンターソリューション

bull 会話をテキスト化キーワードを解析

bull 過去QampA検索

bull 内容をCRM保存

Vision KnowledgeSpeech Language

導入事例東京サマーランド様

Video

Intelligent KioskhttpsgithubcomMicrosoftCognitive-Samples-IntelligentKiosk

ldquo(want to|request)rdquo

HoloLens

Page 80: やりたいことから考えるMicrosoft Azure 上の データストアの選び方とデータサイエンティスト向け活用法。KVSからDWHまで

Web Glue

Bots IoT

DOMINOS STORES

Key Vault

Azure Active Directory

Azure Files

SSIS FRANCHISEE

AZURE WEST EUROPE

Azure Function

KEMPSSDESSRS

IN- AND EXTERNAL DATA SOURCES

orderprocessing

O365

App Insights

indexhtml

Azure Functions Proxies

couponprocessing

Use Bindings in Your Codefunctionjson

bindings [type httpTriggerdirection inwebHookType genericJsonname req

type httpdirection outname res

type queuename eventOutputqueueName aievents1connectionAiStorageConnectiondirection out

]

public static class OrderHandler

[FunctionName(OrderWebhook)]public static async TaskltHttpResponseMessagegt Run(

[HttpTrigger] HttpRequestMessage req[Queue(aievents1 Connection = AiStorageConnection)]

IAsyncCollectorltStringgt eventOutputTraceWriter log)

logInfo($Webhook was triggered)

string jsonContent = await reqContentReadAsStringAsync()dynamic data = JsonConvertDeserializeObject(jsonContent)

await eventOutputAddAsync(JsonConvertSerializeObject(GetLogData(data)))

int orderId = PlaceOrder(data)

return reqCreateResponse(HttpStatusCodeOK new orderNumber = orderId )

bull Workflow in the cloud

bull Powerful control flow

bull Connect functions and APIs

bull Declarative definition to persist in source control and drive deployments

Logic AppsCloud APIs and platform

bull Supports over 125 built-in connectors

bull Scales to meet your needs

bull Enables rapid development

bull Extends with custom APIs and

Functions

API connections

bull Authenticate once and reuse

Big Data Solutions Decision Tree

httpsbiz-excellencecom20160830big-data-dt

Machine Learning Solutions Decision Tree

httpsbiz-excellencecom20160913machine-

learning-dt

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of your

data while making it faster to get up and running with batch

streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources so

you can run queries on exabytes of data Includes U-SQL a

new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully managed

NoSQL database service that indexes stores and queries

data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

Microsoft Big Data Portfolio

SQL Server Stretch

Business intelligence

Machine learning analytics

Insights

Azure SQL Database

SQL Server 2016

SQL Server 2016 Fast Track

Azure SQL DW

ADLS amp ADLA

DocumentDB

HDInsight

Hadoop

Analytics Platform System

Sequential Scale Out + AcrossScale Up

Key

Relational Non-relational

On

-pre

mis

es

Clo

ud

Microsoft has solutions covering

and connecting all four

quadrants ndash thatrsquos why SQL

Server is one of the most utilized

databases in the world

Azure

Data Lake Store

Azure

Blob StoragePurpose Optimized for big data analytics General purpose bulk storage

Use Cases Batch Interactive Streaming App backend backup data media storage for

streaming

Units of Storage Accounts Folders Files Accounts Containers Blobs

Structure Hierarchical File System Flat namespace

WebHDFS Implements WebHDFS No (WASB)

Security AD SAS keys

Storage Auto SharedFiles chunked Manually manage expansionFiles intact

Service State Generally Available PolyBase

just supported

Generally Available

Billing Pay for data stored and for IO Pay for data stored and for IO

Region Availability Two US regions (Other regions coming soon) All Azure Regions

ADL Store vs Blob Store

httpsdocsmicrosoftcomen-usazuredata-lake-storedata-lake-store-comparison-with-blob-storage

Want Hadoop

Need exact same on-prem

Need interactive streaming

MandatoryNo strong opinion

Azure Marketplace (IaaS)

bull Need all workloads exactly like on-

premises

bull Need 100 HortonworksClouderaMapR

Azure HDInsight

bull Most Hadoop workloads

bull Fully managed by Microsoft

bull Sell HDI + ADLS

bull Stickier to Microsoft than VMs

bull Can do interactive (Spark) and streaming

(StormSpark)

Azure Data Lake Analytics

bull Easiest experience for admin no sense of

clusters instant scale per job

bull Easiest experience for developers Visual

StudioU-SQL (C+SQL)

bull Sell ADLA + ADLS

bull Batch workloads only

Need everything exactly like on-prem

Need core projects Yes Batch is OK

Always present ADLA if NET or Visual Studio Shop

If NET or VS shop

Azure SQL DW HDInsight Hive HDInsight Spark Azure Data Lake SQL Server (IaaS)

Volume Petabytes Petabytes Petabytes Petabytes Terabytes

Security Encryption TD

Audit

ADLS Apache

Ranger

ADLS AAD Security

Groups (data)

Encryption TD

Audit

Languages T-SQL HiveQL SparkSQL HiveQL

Scala Java Python

R

U-SQL T-SQL

Extensibility No Yes NETSerDe Yes Packages Yes NET Yes NET CLR

External File

Types

ORC TXT

Parquet RCFile

ORC CSV Parquet

+ others

Parquet JSON

Hive + others

Many ORC TXT Parquet

RCFile

Admin Low-Medium Medium-High Medium-High Low High

Cost Model DWU Nodes amp VM Nodes amp VM UnitsJobs VM

Schema

Definition

Schema on Write

Polybase

Schema on Read Schema on Read Schema on Read Schema on Write

Polybase

Max DB Size 240TB Comp (5X

= 1PB)

Unlimited 64TB (64 1TB drives)

機械学習 Deep Learning 深層強化学習

画像解析

音声解析

データ分類異常検知 顧客グルーピング

数値予測売上予測 需要予測 品質管理

ラベル分類不良品分析 故障予測 チャーン分析

機械学習より強力な分析

自律学習型ロボット

自動運転車

テキストや画像等の自動生成

活用例

主に多層のニューラルネットワークを用いた手法での分析

分析のためには莫大なデータ量計算量知識スキルを要する

統計に基づいた手法での分析

そのため比較的少ないデータ量と計算量で分析を行うことができる

定義したあるべき姿に従い試行錯誤をして自ら学習を行うための分析手法である強化学習と深層学習を組み合わせた分析

Azure Machine Learning Cognitive Toolkit GPU Instance (N-Series)

マイクロソフトが提供する技術

テキストデータ機器のログデータなど

画像データ監視カメラの録画データ 機器の外観画像 顔画像など

動画データ監視カメラの録画データ 機器の稼働状況 人の作業映像など

音声データマイクからの収集データ 稼働音 室内音 人の音声など

数値データセンサーデータ 機器の制御データ計測データなど672342345

機械学習統計理論に基づいた分析手法を用いる用意するべきデータ量と処理する計算量の敷居が低め導入しやすい

Deep Learningデータ量が大きいため強力な分析手法が必要「膨大なデータ量を用意」「莫大な計算量を処理」が必要で敷居が非常に高い導入にはそれなりの覚悟が必要

Action

People

Automated Systems

Apps

Web

Mobile

Bots

Intelligence

Dashboards amp Visualizations

Cortana

Bot Framework

Cognitive Services

Power BI

Information Management

Event Hubs

Data Catalog

Data Factory

Machine Learning and Analytics

HDInsight

Stream Analytics

Intelligence

Data Lake Analytics

Machine Learning

Big Data Stores

SQL Data Warehouse

Data Lake Store

Data Sources

Apps

Sensors amp Devices

Data

Cortana Intelligence Suite

学習済み

モデル利用

学習モデル

作成

機械学習 教師あり学習

教師なし学習

強化学習

決定木

線形回帰

SVM

ロジスティック回帰

ニューラルネットワーク

クラスタリング

次元削減

Q学習

K-mean法

主成分分析

正準相関分析

ディープニューラルネットワーク

畳みこみニューラルネットワーク

再帰的ニューラルネットワーク

回帰結合ニューラルネットワーク

httpsazuremicrosoftcomen-usservicescognitive-services

わずか数行のコードで強力なアルゴリズムを持つアプリの作成が可能ですiOSAndroidWindows などのプラットフォームを問わず機能します

httpsazuremicrosoftcomja-jpservicesmachine-learning

ユーザーは簡単に予測分析ソリューションを構築デプロイ共有できます

httpswwwyoutubecomwatchv=9gDDO5ldT-4ampfeature=youtube

AI技術を利用したディープラーニング(深層学習)ツールキットです旧称「CNTK」から改名されました

ソースコード httpsgithubcomMicrosoftCNTK

SearchSpeech

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

コカコーラ誕生100周年キャンペーン

コカコーラボトルを「100歳」と認識

bull 自撮り写真をUp結果をSNS拡散

ナビタイムジャパン様

自然言語入力による路線検索BOT

bull ユーザーとの新たな接点(LINE)

bull 自然言語入力

Vision Language Knowledge

Vision Knowledge SearchSpeech Language

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

Microsoft SupportVirtual Agent

自然言語入力による自動応答サポート窓口

bull 過去QampAデータ解析に基づく回答抽出

bull 定型外はldquo人対応rdquo

UBER

登録ドライバーをスマホ経由で顔認証

VOLVO

表情からの危険予測

Search

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

アロバ様

監視カメラによる店舗内行動分析

bull 顔認識による 顧客識別

bull 表情分析

東京サマーランド様にて導入済み

HmComm様

コールセンターソリューション

bull 会話をテキスト化キーワードを解析

bull 過去QampA検索

bull 内容をCRM保存

Vision KnowledgeSpeech Language

導入事例東京サマーランド様

Video

Intelligent KioskhttpsgithubcomMicrosoftCognitive-Samples-IntelligentKiosk

ldquo(want to|request)rdquo

HoloLens

Page 81: やりたいことから考えるMicrosoft Azure 上の データストアの選び方とデータサイエンティスト向け活用法。KVSからDWHまで

DOMINOS STORES

Key Vault

Azure Active Directory

Azure Files

SSIS FRANCHISEE

AZURE WEST EUROPE

Azure Function

KEMPSSDESSRS

IN- AND EXTERNAL DATA SOURCES

orderprocessing

O365

App Insights

indexhtml

Azure Functions Proxies

couponprocessing

Use Bindings in Your Codefunctionjson

bindings [type httpTriggerdirection inwebHookType genericJsonname req

type httpdirection outname res

type queuename eventOutputqueueName aievents1connectionAiStorageConnectiondirection out

]

public static class OrderHandler

[FunctionName(OrderWebhook)]public static async TaskltHttpResponseMessagegt Run(

[HttpTrigger] HttpRequestMessage req[Queue(aievents1 Connection = AiStorageConnection)]

IAsyncCollectorltStringgt eventOutputTraceWriter log)

logInfo($Webhook was triggered)

string jsonContent = await reqContentReadAsStringAsync()dynamic data = JsonConvertDeserializeObject(jsonContent)

await eventOutputAddAsync(JsonConvertSerializeObject(GetLogData(data)))

int orderId = PlaceOrder(data)

return reqCreateResponse(HttpStatusCodeOK new orderNumber = orderId )

bull Workflow in the cloud

bull Powerful control flow

bull Connect functions and APIs

bull Declarative definition to persist in source control and drive deployments

Logic AppsCloud APIs and platform

bull Supports over 125 built-in connectors

bull Scales to meet your needs

bull Enables rapid development

bull Extends with custom APIs and

Functions

API connections

bull Authenticate once and reuse

Big Data Solutions Decision Tree

httpsbiz-excellencecom20160830big-data-dt

Machine Learning Solutions Decision Tree

httpsbiz-excellencecom20160913machine-

learning-dt

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of your

data while making it faster to get up and running with batch

streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources so

you can run queries on exabytes of data Includes U-SQL a

new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully managed

NoSQL database service that indexes stores and queries

data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

Microsoft Big Data Portfolio

SQL Server Stretch

Business intelligence

Machine learning analytics

Insights

Azure SQL Database

SQL Server 2016

SQL Server 2016 Fast Track

Azure SQL DW

ADLS amp ADLA

DocumentDB

HDInsight

Hadoop

Analytics Platform System

Sequential Scale Out + AcrossScale Up

Key

Relational Non-relational

On

-pre

mis

es

Clo

ud

Microsoft has solutions covering

and connecting all four

quadrants ndash thatrsquos why SQL

Server is one of the most utilized

databases in the world

Azure

Data Lake Store

Azure

Blob StoragePurpose Optimized for big data analytics General purpose bulk storage

Use Cases Batch Interactive Streaming App backend backup data media storage for

streaming

Units of Storage Accounts Folders Files Accounts Containers Blobs

Structure Hierarchical File System Flat namespace

WebHDFS Implements WebHDFS No (WASB)

Security AD SAS keys

Storage Auto SharedFiles chunked Manually manage expansionFiles intact

Service State Generally Available PolyBase

just supported

Generally Available

Billing Pay for data stored and for IO Pay for data stored and for IO

Region Availability Two US regions (Other regions coming soon) All Azure Regions

ADL Store vs Blob Store

httpsdocsmicrosoftcomen-usazuredata-lake-storedata-lake-store-comparison-with-blob-storage

Want Hadoop

Need exact same on-prem

Need interactive streaming

MandatoryNo strong opinion

Azure Marketplace (IaaS)

bull Need all workloads exactly like on-

premises

bull Need 100 HortonworksClouderaMapR

Azure HDInsight

bull Most Hadoop workloads

bull Fully managed by Microsoft

bull Sell HDI + ADLS

bull Stickier to Microsoft than VMs

bull Can do interactive (Spark) and streaming

(StormSpark)

Azure Data Lake Analytics

bull Easiest experience for admin no sense of

clusters instant scale per job

bull Easiest experience for developers Visual

StudioU-SQL (C+SQL)

bull Sell ADLA + ADLS

bull Batch workloads only

Need everything exactly like on-prem

Need core projects Yes Batch is OK

Always present ADLA if NET or Visual Studio Shop

If NET or VS shop

Azure SQL DW HDInsight Hive HDInsight Spark Azure Data Lake SQL Server (IaaS)

Volume Petabytes Petabytes Petabytes Petabytes Terabytes

Security Encryption TD

Audit

ADLS Apache

Ranger

ADLS AAD Security

Groups (data)

Encryption TD

Audit

Languages T-SQL HiveQL SparkSQL HiveQL

Scala Java Python

R

U-SQL T-SQL

Extensibility No Yes NETSerDe Yes Packages Yes NET Yes NET CLR

External File

Types

ORC TXT

Parquet RCFile

ORC CSV Parquet

+ others

Parquet JSON

Hive + others

Many ORC TXT Parquet

RCFile

Admin Low-Medium Medium-High Medium-High Low High

Cost Model DWU Nodes amp VM Nodes amp VM UnitsJobs VM

Schema

Definition

Schema on Write

Polybase

Schema on Read Schema on Read Schema on Read Schema on Write

Polybase

Max DB Size 240TB Comp (5X

= 1PB)

Unlimited 64TB (64 1TB drives)

機械学習 Deep Learning 深層強化学習

画像解析

音声解析

データ分類異常検知 顧客グルーピング

数値予測売上予測 需要予測 品質管理

ラベル分類不良品分析 故障予測 チャーン分析

機械学習より強力な分析

自律学習型ロボット

自動運転車

テキストや画像等の自動生成

活用例

主に多層のニューラルネットワークを用いた手法での分析

分析のためには莫大なデータ量計算量知識スキルを要する

統計に基づいた手法での分析

そのため比較的少ないデータ量と計算量で分析を行うことができる

定義したあるべき姿に従い試行錯誤をして自ら学習を行うための分析手法である強化学習と深層学習を組み合わせた分析

Azure Machine Learning Cognitive Toolkit GPU Instance (N-Series)

マイクロソフトが提供する技術

テキストデータ機器のログデータなど

画像データ監視カメラの録画データ 機器の外観画像 顔画像など

動画データ監視カメラの録画データ 機器の稼働状況 人の作業映像など

音声データマイクからの収集データ 稼働音 室内音 人の音声など

数値データセンサーデータ 機器の制御データ計測データなど672342345

機械学習統計理論に基づいた分析手法を用いる用意するべきデータ量と処理する計算量の敷居が低め導入しやすい

Deep Learningデータ量が大きいため強力な分析手法が必要「膨大なデータ量を用意」「莫大な計算量を処理」が必要で敷居が非常に高い導入にはそれなりの覚悟が必要

Action

People

Automated Systems

Apps

Web

Mobile

Bots

Intelligence

Dashboards amp Visualizations

Cortana

Bot Framework

Cognitive Services

Power BI

Information Management

Event Hubs

Data Catalog

Data Factory

Machine Learning and Analytics

HDInsight

Stream Analytics

Intelligence

Data Lake Analytics

Machine Learning

Big Data Stores

SQL Data Warehouse

Data Lake Store

Data Sources

Apps

Sensors amp Devices

Data

Cortana Intelligence Suite

学習済み

モデル利用

学習モデル

作成

機械学習 教師あり学習

教師なし学習

強化学習

決定木

線形回帰

SVM

ロジスティック回帰

ニューラルネットワーク

クラスタリング

次元削減

Q学習

K-mean法

主成分分析

正準相関分析

ディープニューラルネットワーク

畳みこみニューラルネットワーク

再帰的ニューラルネットワーク

回帰結合ニューラルネットワーク

httpsazuremicrosoftcomen-usservicescognitive-services

わずか数行のコードで強力なアルゴリズムを持つアプリの作成が可能ですiOSAndroidWindows などのプラットフォームを問わず機能します

httpsazuremicrosoftcomja-jpservicesmachine-learning

ユーザーは簡単に予測分析ソリューションを構築デプロイ共有できます

httpswwwyoutubecomwatchv=9gDDO5ldT-4ampfeature=youtube

AI技術を利用したディープラーニング(深層学習)ツールキットです旧称「CNTK」から改名されました

ソースコード httpsgithubcomMicrosoftCNTK

SearchSpeech

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

コカコーラ誕生100周年キャンペーン

コカコーラボトルを「100歳」と認識

bull 自撮り写真をUp結果をSNS拡散

ナビタイムジャパン様

自然言語入力による路線検索BOT

bull ユーザーとの新たな接点(LINE)

bull 自然言語入力

Vision Language Knowledge

Vision Knowledge SearchSpeech Language

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

Microsoft SupportVirtual Agent

自然言語入力による自動応答サポート窓口

bull 過去QampAデータ解析に基づく回答抽出

bull 定型外はldquo人対応rdquo

UBER

登録ドライバーをスマホ経由で顔認証

VOLVO

表情からの危険予測

Search

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

アロバ様

監視カメラによる店舗内行動分析

bull 顔認識による 顧客識別

bull 表情分析

東京サマーランド様にて導入済み

HmComm様

コールセンターソリューション

bull 会話をテキスト化キーワードを解析

bull 過去QampA検索

bull 内容をCRM保存

Vision KnowledgeSpeech Language

導入事例東京サマーランド様

Video

Intelligent KioskhttpsgithubcomMicrosoftCognitive-Samples-IntelligentKiosk

ldquo(want to|request)rdquo

HoloLens

Page 82: やりたいことから考えるMicrosoft Azure 上の データストアの選び方とデータサイエンティスト向け活用法。KVSからDWHまで

orderprocessing

O365

App Insights

indexhtml

Azure Functions Proxies

couponprocessing

Use Bindings in Your Codefunctionjson

bindings [type httpTriggerdirection inwebHookType genericJsonname req

type httpdirection outname res

type queuename eventOutputqueueName aievents1connectionAiStorageConnectiondirection out

]

public static class OrderHandler

[FunctionName(OrderWebhook)]public static async TaskltHttpResponseMessagegt Run(

[HttpTrigger] HttpRequestMessage req[Queue(aievents1 Connection = AiStorageConnection)]

IAsyncCollectorltStringgt eventOutputTraceWriter log)

logInfo($Webhook was triggered)

string jsonContent = await reqContentReadAsStringAsync()dynamic data = JsonConvertDeserializeObject(jsonContent)

await eventOutputAddAsync(JsonConvertSerializeObject(GetLogData(data)))

int orderId = PlaceOrder(data)

return reqCreateResponse(HttpStatusCodeOK new orderNumber = orderId )

bull Workflow in the cloud

bull Powerful control flow

bull Connect functions and APIs

bull Declarative definition to persist in source control and drive deployments

Logic AppsCloud APIs and platform

bull Supports over 125 built-in connectors

bull Scales to meet your needs

bull Enables rapid development

bull Extends with custom APIs and

Functions

API connections

bull Authenticate once and reuse

Big Data Solutions Decision Tree

httpsbiz-excellencecom20160830big-data-dt

Machine Learning Solutions Decision Tree

httpsbiz-excellencecom20160913machine-

learning-dt

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of your

data while making it faster to get up and running with batch

streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources so

you can run queries on exabytes of data Includes U-SQL a

new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully managed

NoSQL database service that indexes stores and queries

data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

Microsoft Big Data Portfolio

SQL Server Stretch

Business intelligence

Machine learning analytics

Insights

Azure SQL Database

SQL Server 2016

SQL Server 2016 Fast Track

Azure SQL DW

ADLS amp ADLA

DocumentDB

HDInsight

Hadoop

Analytics Platform System

Sequential Scale Out + AcrossScale Up

Key

Relational Non-relational

On

-pre

mis

es

Clo

ud

Microsoft has solutions covering

and connecting all four

quadrants ndash thatrsquos why SQL

Server is one of the most utilized

databases in the world

Azure

Data Lake Store

Azure

Blob StoragePurpose Optimized for big data analytics General purpose bulk storage

Use Cases Batch Interactive Streaming App backend backup data media storage for

streaming

Units of Storage Accounts Folders Files Accounts Containers Blobs

Structure Hierarchical File System Flat namespace

WebHDFS Implements WebHDFS No (WASB)

Security AD SAS keys

Storage Auto SharedFiles chunked Manually manage expansionFiles intact

Service State Generally Available PolyBase

just supported

Generally Available

Billing Pay for data stored and for IO Pay for data stored and for IO

Region Availability Two US regions (Other regions coming soon) All Azure Regions

ADL Store vs Blob Store

httpsdocsmicrosoftcomen-usazuredata-lake-storedata-lake-store-comparison-with-blob-storage

Want Hadoop

Need exact same on-prem

Need interactive streaming

MandatoryNo strong opinion

Azure Marketplace (IaaS)

bull Need all workloads exactly like on-

premises

bull Need 100 HortonworksClouderaMapR

Azure HDInsight

bull Most Hadoop workloads

bull Fully managed by Microsoft

bull Sell HDI + ADLS

bull Stickier to Microsoft than VMs

bull Can do interactive (Spark) and streaming

(StormSpark)

Azure Data Lake Analytics

bull Easiest experience for admin no sense of

clusters instant scale per job

bull Easiest experience for developers Visual

StudioU-SQL (C+SQL)

bull Sell ADLA + ADLS

bull Batch workloads only

Need everything exactly like on-prem

Need core projects Yes Batch is OK

Always present ADLA if NET or Visual Studio Shop

If NET or VS shop

Azure SQL DW HDInsight Hive HDInsight Spark Azure Data Lake SQL Server (IaaS)

Volume Petabytes Petabytes Petabytes Petabytes Terabytes

Security Encryption TD

Audit

ADLS Apache

Ranger

ADLS AAD Security

Groups (data)

Encryption TD

Audit

Languages T-SQL HiveQL SparkSQL HiveQL

Scala Java Python

R

U-SQL T-SQL

Extensibility No Yes NETSerDe Yes Packages Yes NET Yes NET CLR

External File

Types

ORC TXT

Parquet RCFile

ORC CSV Parquet

+ others

Parquet JSON

Hive + others

Many ORC TXT Parquet

RCFile

Admin Low-Medium Medium-High Medium-High Low High

Cost Model DWU Nodes amp VM Nodes amp VM UnitsJobs VM

Schema

Definition

Schema on Write

Polybase

Schema on Read Schema on Read Schema on Read Schema on Write

Polybase

Max DB Size 240TB Comp (5X

= 1PB)

Unlimited 64TB (64 1TB drives)

機械学習 Deep Learning 深層強化学習

画像解析

音声解析

データ分類異常検知 顧客グルーピング

数値予測売上予測 需要予測 品質管理

ラベル分類不良品分析 故障予測 チャーン分析

機械学習より強力な分析

自律学習型ロボット

自動運転車

テキストや画像等の自動生成

活用例

主に多層のニューラルネットワークを用いた手法での分析

分析のためには莫大なデータ量計算量知識スキルを要する

統計に基づいた手法での分析

そのため比較的少ないデータ量と計算量で分析を行うことができる

定義したあるべき姿に従い試行錯誤をして自ら学習を行うための分析手法である強化学習と深層学習を組み合わせた分析

Azure Machine Learning Cognitive Toolkit GPU Instance (N-Series)

マイクロソフトが提供する技術

テキストデータ機器のログデータなど

画像データ監視カメラの録画データ 機器の外観画像 顔画像など

動画データ監視カメラの録画データ 機器の稼働状況 人の作業映像など

音声データマイクからの収集データ 稼働音 室内音 人の音声など

数値データセンサーデータ 機器の制御データ計測データなど672342345

機械学習統計理論に基づいた分析手法を用いる用意するべきデータ量と処理する計算量の敷居が低め導入しやすい

Deep Learningデータ量が大きいため強力な分析手法が必要「膨大なデータ量を用意」「莫大な計算量を処理」が必要で敷居が非常に高い導入にはそれなりの覚悟が必要

Action

People

Automated Systems

Apps

Web

Mobile

Bots

Intelligence

Dashboards amp Visualizations

Cortana

Bot Framework

Cognitive Services

Power BI

Information Management

Event Hubs

Data Catalog

Data Factory

Machine Learning and Analytics

HDInsight

Stream Analytics

Intelligence

Data Lake Analytics

Machine Learning

Big Data Stores

SQL Data Warehouse

Data Lake Store

Data Sources

Apps

Sensors amp Devices

Data

Cortana Intelligence Suite

学習済み

モデル利用

学習モデル

作成

機械学習 教師あり学習

教師なし学習

強化学習

決定木

線形回帰

SVM

ロジスティック回帰

ニューラルネットワーク

クラスタリング

次元削減

Q学習

K-mean法

主成分分析

正準相関分析

ディープニューラルネットワーク

畳みこみニューラルネットワーク

再帰的ニューラルネットワーク

回帰結合ニューラルネットワーク

httpsazuremicrosoftcomen-usservicescognitive-services

わずか数行のコードで強力なアルゴリズムを持つアプリの作成が可能ですiOSAndroidWindows などのプラットフォームを問わず機能します

httpsazuremicrosoftcomja-jpservicesmachine-learning

ユーザーは簡単に予測分析ソリューションを構築デプロイ共有できます

httpswwwyoutubecomwatchv=9gDDO5ldT-4ampfeature=youtube

AI技術を利用したディープラーニング(深層学習)ツールキットです旧称「CNTK」から改名されました

ソースコード httpsgithubcomMicrosoftCNTK

SearchSpeech

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

コカコーラ誕生100周年キャンペーン

コカコーラボトルを「100歳」と認識

bull 自撮り写真をUp結果をSNS拡散

ナビタイムジャパン様

自然言語入力による路線検索BOT

bull ユーザーとの新たな接点(LINE)

bull 自然言語入力

Vision Language Knowledge

Vision Knowledge SearchSpeech Language

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

Microsoft SupportVirtual Agent

自然言語入力による自動応答サポート窓口

bull 過去QampAデータ解析に基づく回答抽出

bull 定型外はldquo人対応rdquo

UBER

登録ドライバーをスマホ経由で顔認証

VOLVO

表情からの危険予測

Search

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

アロバ様

監視カメラによる店舗内行動分析

bull 顔認識による 顧客識別

bull 表情分析

東京サマーランド様にて導入済み

HmComm様

コールセンターソリューション

bull 会話をテキスト化キーワードを解析

bull 過去QampA検索

bull 内容をCRM保存

Vision KnowledgeSpeech Language

導入事例東京サマーランド様

Video

Intelligent KioskhttpsgithubcomMicrosoftCognitive-Samples-IntelligentKiosk

ldquo(want to|request)rdquo

HoloLens

Page 83: やりたいことから考えるMicrosoft Azure 上の データストアの選び方とデータサイエンティスト向け活用法。KVSからDWHまで

Use Bindings in Your Codefunctionjson

bindings [type httpTriggerdirection inwebHookType genericJsonname req

type httpdirection outname res

type queuename eventOutputqueueName aievents1connectionAiStorageConnectiondirection out

]

public static class OrderHandler

[FunctionName(OrderWebhook)]public static async TaskltHttpResponseMessagegt Run(

[HttpTrigger] HttpRequestMessage req[Queue(aievents1 Connection = AiStorageConnection)]

IAsyncCollectorltStringgt eventOutputTraceWriter log)

logInfo($Webhook was triggered)

string jsonContent = await reqContentReadAsStringAsync()dynamic data = JsonConvertDeserializeObject(jsonContent)

await eventOutputAddAsync(JsonConvertSerializeObject(GetLogData(data)))

int orderId = PlaceOrder(data)

return reqCreateResponse(HttpStatusCodeOK new orderNumber = orderId )

bull Workflow in the cloud

bull Powerful control flow

bull Connect functions and APIs

bull Declarative definition to persist in source control and drive deployments

Logic AppsCloud APIs and platform

bull Supports over 125 built-in connectors

bull Scales to meet your needs

bull Enables rapid development

bull Extends with custom APIs and

Functions

API connections

bull Authenticate once and reuse

Big Data Solutions Decision Tree

httpsbiz-excellencecom20160830big-data-dt

Machine Learning Solutions Decision Tree

httpsbiz-excellencecom20160913machine-

learning-dt

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of your

data while making it faster to get up and running with batch

streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources so

you can run queries on exabytes of data Includes U-SQL a

new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully managed

NoSQL database service that indexes stores and queries

data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

Microsoft Big Data Portfolio

SQL Server Stretch

Business intelligence

Machine learning analytics

Insights

Azure SQL Database

SQL Server 2016

SQL Server 2016 Fast Track

Azure SQL DW

ADLS amp ADLA

DocumentDB

HDInsight

Hadoop

Analytics Platform System

Sequential Scale Out + AcrossScale Up

Key

Relational Non-relational

On

-pre

mis

es

Clo

ud

Microsoft has solutions covering

and connecting all four

quadrants ndash thatrsquos why SQL

Server is one of the most utilized

databases in the world

Azure

Data Lake Store

Azure

Blob StoragePurpose Optimized for big data analytics General purpose bulk storage

Use Cases Batch Interactive Streaming App backend backup data media storage for

streaming

Units of Storage Accounts Folders Files Accounts Containers Blobs

Structure Hierarchical File System Flat namespace

WebHDFS Implements WebHDFS No (WASB)

Security AD SAS keys

Storage Auto SharedFiles chunked Manually manage expansionFiles intact

Service State Generally Available PolyBase

just supported

Generally Available

Billing Pay for data stored and for IO Pay for data stored and for IO

Region Availability Two US regions (Other regions coming soon) All Azure Regions

ADL Store vs Blob Store

httpsdocsmicrosoftcomen-usazuredata-lake-storedata-lake-store-comparison-with-blob-storage

Want Hadoop

Need exact same on-prem

Need interactive streaming

MandatoryNo strong opinion

Azure Marketplace (IaaS)

bull Need all workloads exactly like on-

premises

bull Need 100 HortonworksClouderaMapR

Azure HDInsight

bull Most Hadoop workloads

bull Fully managed by Microsoft

bull Sell HDI + ADLS

bull Stickier to Microsoft than VMs

bull Can do interactive (Spark) and streaming

(StormSpark)

Azure Data Lake Analytics

bull Easiest experience for admin no sense of

clusters instant scale per job

bull Easiest experience for developers Visual

StudioU-SQL (C+SQL)

bull Sell ADLA + ADLS

bull Batch workloads only

Need everything exactly like on-prem

Need core projects Yes Batch is OK

Always present ADLA if NET or Visual Studio Shop

If NET or VS shop

Azure SQL DW HDInsight Hive HDInsight Spark Azure Data Lake SQL Server (IaaS)

Volume Petabytes Petabytes Petabytes Petabytes Terabytes

Security Encryption TD

Audit

ADLS Apache

Ranger

ADLS AAD Security

Groups (data)

Encryption TD

Audit

Languages T-SQL HiveQL SparkSQL HiveQL

Scala Java Python

R

U-SQL T-SQL

Extensibility No Yes NETSerDe Yes Packages Yes NET Yes NET CLR

External File

Types

ORC TXT

Parquet RCFile

ORC CSV Parquet

+ others

Parquet JSON

Hive + others

Many ORC TXT Parquet

RCFile

Admin Low-Medium Medium-High Medium-High Low High

Cost Model DWU Nodes amp VM Nodes amp VM UnitsJobs VM

Schema

Definition

Schema on Write

Polybase

Schema on Read Schema on Read Schema on Read Schema on Write

Polybase

Max DB Size 240TB Comp (5X

= 1PB)

Unlimited 64TB (64 1TB drives)

機械学習 Deep Learning 深層強化学習

画像解析

音声解析

データ分類異常検知 顧客グルーピング

数値予測売上予測 需要予測 品質管理

ラベル分類不良品分析 故障予測 チャーン分析

機械学習より強力な分析

自律学習型ロボット

自動運転車

テキストや画像等の自動生成

活用例

主に多層のニューラルネットワークを用いた手法での分析

分析のためには莫大なデータ量計算量知識スキルを要する

統計に基づいた手法での分析

そのため比較的少ないデータ量と計算量で分析を行うことができる

定義したあるべき姿に従い試行錯誤をして自ら学習を行うための分析手法である強化学習と深層学習を組み合わせた分析

Azure Machine Learning Cognitive Toolkit GPU Instance (N-Series)

マイクロソフトが提供する技術

テキストデータ機器のログデータなど

画像データ監視カメラの録画データ 機器の外観画像 顔画像など

動画データ監視カメラの録画データ 機器の稼働状況 人の作業映像など

音声データマイクからの収集データ 稼働音 室内音 人の音声など

数値データセンサーデータ 機器の制御データ計測データなど672342345

機械学習統計理論に基づいた分析手法を用いる用意するべきデータ量と処理する計算量の敷居が低め導入しやすい

Deep Learningデータ量が大きいため強力な分析手法が必要「膨大なデータ量を用意」「莫大な計算量を処理」が必要で敷居が非常に高い導入にはそれなりの覚悟が必要

Action

People

Automated Systems

Apps

Web

Mobile

Bots

Intelligence

Dashboards amp Visualizations

Cortana

Bot Framework

Cognitive Services

Power BI

Information Management

Event Hubs

Data Catalog

Data Factory

Machine Learning and Analytics

HDInsight

Stream Analytics

Intelligence

Data Lake Analytics

Machine Learning

Big Data Stores

SQL Data Warehouse

Data Lake Store

Data Sources

Apps

Sensors amp Devices

Data

Cortana Intelligence Suite

学習済み

モデル利用

学習モデル

作成

機械学習 教師あり学習

教師なし学習

強化学習

決定木

線形回帰

SVM

ロジスティック回帰

ニューラルネットワーク

クラスタリング

次元削減

Q学習

K-mean法

主成分分析

正準相関分析

ディープニューラルネットワーク

畳みこみニューラルネットワーク

再帰的ニューラルネットワーク

回帰結合ニューラルネットワーク

httpsazuremicrosoftcomen-usservicescognitive-services

わずか数行のコードで強力なアルゴリズムを持つアプリの作成が可能ですiOSAndroidWindows などのプラットフォームを問わず機能します

httpsazuremicrosoftcomja-jpservicesmachine-learning

ユーザーは簡単に予測分析ソリューションを構築デプロイ共有できます

httpswwwyoutubecomwatchv=9gDDO5ldT-4ampfeature=youtube

AI技術を利用したディープラーニング(深層学習)ツールキットです旧称「CNTK」から改名されました

ソースコード httpsgithubcomMicrosoftCNTK

SearchSpeech

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

コカコーラ誕生100周年キャンペーン

コカコーラボトルを「100歳」と認識

bull 自撮り写真をUp結果をSNS拡散

ナビタイムジャパン様

自然言語入力による路線検索BOT

bull ユーザーとの新たな接点(LINE)

bull 自然言語入力

Vision Language Knowledge

Vision Knowledge SearchSpeech Language

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

Microsoft SupportVirtual Agent

自然言語入力による自動応答サポート窓口

bull 過去QampAデータ解析に基づく回答抽出

bull 定型外はldquo人対応rdquo

UBER

登録ドライバーをスマホ経由で顔認証

VOLVO

表情からの危険予測

Search

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

アロバ様

監視カメラによる店舗内行動分析

bull 顔認識による 顧客識別

bull 表情分析

東京サマーランド様にて導入済み

HmComm様

コールセンターソリューション

bull 会話をテキスト化キーワードを解析

bull 過去QampA検索

bull 内容をCRM保存

Vision KnowledgeSpeech Language

導入事例東京サマーランド様

Video

Intelligent KioskhttpsgithubcomMicrosoftCognitive-Samples-IntelligentKiosk

ldquo(want to|request)rdquo

HoloLens

Page 84: やりたいことから考えるMicrosoft Azure 上の データストアの選び方とデータサイエンティスト向け活用法。KVSからDWHまで

bull Workflow in the cloud

bull Powerful control flow

bull Connect functions and APIs

bull Declarative definition to persist in source control and drive deployments

Logic AppsCloud APIs and platform

bull Supports over 125 built-in connectors

bull Scales to meet your needs

bull Enables rapid development

bull Extends with custom APIs and

Functions

API connections

bull Authenticate once and reuse

Big Data Solutions Decision Tree

httpsbiz-excellencecom20160830big-data-dt

Machine Learning Solutions Decision Tree

httpsbiz-excellencecom20160913machine-

learning-dt

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of your

data while making it faster to get up and running with batch

streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources so

you can run queries on exabytes of data Includes U-SQL a

new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully managed

NoSQL database service that indexes stores and queries

data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

Microsoft Big Data Portfolio

SQL Server Stretch

Business intelligence

Machine learning analytics

Insights

Azure SQL Database

SQL Server 2016

SQL Server 2016 Fast Track

Azure SQL DW

ADLS amp ADLA

DocumentDB

HDInsight

Hadoop

Analytics Platform System

Sequential Scale Out + AcrossScale Up

Key

Relational Non-relational

On

-pre

mis

es

Clo

ud

Microsoft has solutions covering

and connecting all four

quadrants ndash thatrsquos why SQL

Server is one of the most utilized

databases in the world

Azure

Data Lake Store

Azure

Blob StoragePurpose Optimized for big data analytics General purpose bulk storage

Use Cases Batch Interactive Streaming App backend backup data media storage for

streaming

Units of Storage Accounts Folders Files Accounts Containers Blobs

Structure Hierarchical File System Flat namespace

WebHDFS Implements WebHDFS No (WASB)

Security AD SAS keys

Storage Auto SharedFiles chunked Manually manage expansionFiles intact

Service State Generally Available PolyBase

just supported

Generally Available

Billing Pay for data stored and for IO Pay for data stored and for IO

Region Availability Two US regions (Other regions coming soon) All Azure Regions

ADL Store vs Blob Store

httpsdocsmicrosoftcomen-usazuredata-lake-storedata-lake-store-comparison-with-blob-storage

Want Hadoop

Need exact same on-prem

Need interactive streaming

MandatoryNo strong opinion

Azure Marketplace (IaaS)

bull Need all workloads exactly like on-

premises

bull Need 100 HortonworksClouderaMapR

Azure HDInsight

bull Most Hadoop workloads

bull Fully managed by Microsoft

bull Sell HDI + ADLS

bull Stickier to Microsoft than VMs

bull Can do interactive (Spark) and streaming

(StormSpark)

Azure Data Lake Analytics

bull Easiest experience for admin no sense of

clusters instant scale per job

bull Easiest experience for developers Visual

StudioU-SQL (C+SQL)

bull Sell ADLA + ADLS

bull Batch workloads only

Need everything exactly like on-prem

Need core projects Yes Batch is OK

Always present ADLA if NET or Visual Studio Shop

If NET or VS shop

Azure SQL DW HDInsight Hive HDInsight Spark Azure Data Lake SQL Server (IaaS)

Volume Petabytes Petabytes Petabytes Petabytes Terabytes

Security Encryption TD

Audit

ADLS Apache

Ranger

ADLS AAD Security

Groups (data)

Encryption TD

Audit

Languages T-SQL HiveQL SparkSQL HiveQL

Scala Java Python

R

U-SQL T-SQL

Extensibility No Yes NETSerDe Yes Packages Yes NET Yes NET CLR

External File

Types

ORC TXT

Parquet RCFile

ORC CSV Parquet

+ others

Parquet JSON

Hive + others

Many ORC TXT Parquet

RCFile

Admin Low-Medium Medium-High Medium-High Low High

Cost Model DWU Nodes amp VM Nodes amp VM UnitsJobs VM

Schema

Definition

Schema on Write

Polybase

Schema on Read Schema on Read Schema on Read Schema on Write

Polybase

Max DB Size 240TB Comp (5X

= 1PB)

Unlimited 64TB (64 1TB drives)

機械学習 Deep Learning 深層強化学習

画像解析

音声解析

データ分類異常検知 顧客グルーピング

数値予測売上予測 需要予測 品質管理

ラベル分類不良品分析 故障予測 チャーン分析

機械学習より強力な分析

自律学習型ロボット

自動運転車

テキストや画像等の自動生成

活用例

主に多層のニューラルネットワークを用いた手法での分析

分析のためには莫大なデータ量計算量知識スキルを要する

統計に基づいた手法での分析

そのため比較的少ないデータ量と計算量で分析を行うことができる

定義したあるべき姿に従い試行錯誤をして自ら学習を行うための分析手法である強化学習と深層学習を組み合わせた分析

Azure Machine Learning Cognitive Toolkit GPU Instance (N-Series)

マイクロソフトが提供する技術

テキストデータ機器のログデータなど

画像データ監視カメラの録画データ 機器の外観画像 顔画像など

動画データ監視カメラの録画データ 機器の稼働状況 人の作業映像など

音声データマイクからの収集データ 稼働音 室内音 人の音声など

数値データセンサーデータ 機器の制御データ計測データなど672342345

機械学習統計理論に基づいた分析手法を用いる用意するべきデータ量と処理する計算量の敷居が低め導入しやすい

Deep Learningデータ量が大きいため強力な分析手法が必要「膨大なデータ量を用意」「莫大な計算量を処理」が必要で敷居が非常に高い導入にはそれなりの覚悟が必要

Action

People

Automated Systems

Apps

Web

Mobile

Bots

Intelligence

Dashboards amp Visualizations

Cortana

Bot Framework

Cognitive Services

Power BI

Information Management

Event Hubs

Data Catalog

Data Factory

Machine Learning and Analytics

HDInsight

Stream Analytics

Intelligence

Data Lake Analytics

Machine Learning

Big Data Stores

SQL Data Warehouse

Data Lake Store

Data Sources

Apps

Sensors amp Devices

Data

Cortana Intelligence Suite

学習済み

モデル利用

学習モデル

作成

機械学習 教師あり学習

教師なし学習

強化学習

決定木

線形回帰

SVM

ロジスティック回帰

ニューラルネットワーク

クラスタリング

次元削減

Q学習

K-mean法

主成分分析

正準相関分析

ディープニューラルネットワーク

畳みこみニューラルネットワーク

再帰的ニューラルネットワーク

回帰結合ニューラルネットワーク

httpsazuremicrosoftcomen-usservicescognitive-services

わずか数行のコードで強力なアルゴリズムを持つアプリの作成が可能ですiOSAndroidWindows などのプラットフォームを問わず機能します

httpsazuremicrosoftcomja-jpservicesmachine-learning

ユーザーは簡単に予測分析ソリューションを構築デプロイ共有できます

httpswwwyoutubecomwatchv=9gDDO5ldT-4ampfeature=youtube

AI技術を利用したディープラーニング(深層学習)ツールキットです旧称「CNTK」から改名されました

ソースコード httpsgithubcomMicrosoftCNTK

SearchSpeech

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

コカコーラ誕生100周年キャンペーン

コカコーラボトルを「100歳」と認識

bull 自撮り写真をUp結果をSNS拡散

ナビタイムジャパン様

自然言語入力による路線検索BOT

bull ユーザーとの新たな接点(LINE)

bull 自然言語入力

Vision Language Knowledge

Vision Knowledge SearchSpeech Language

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

Microsoft SupportVirtual Agent

自然言語入力による自動応答サポート窓口

bull 過去QampAデータ解析に基づく回答抽出

bull 定型外はldquo人対応rdquo

UBER

登録ドライバーをスマホ経由で顔認証

VOLVO

表情からの危険予測

Search

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

アロバ様

監視カメラによる店舗内行動分析

bull 顔認識による 顧客識別

bull 表情分析

東京サマーランド様にて導入済み

HmComm様

コールセンターソリューション

bull 会話をテキスト化キーワードを解析

bull 過去QampA検索

bull 内容をCRM保存

Vision KnowledgeSpeech Language

導入事例東京サマーランド様

Video

Intelligent KioskhttpsgithubcomMicrosoftCognitive-Samples-IntelligentKiosk

ldquo(want to|request)rdquo

HoloLens

Page 85: やりたいことから考えるMicrosoft Azure 上の データストアの選び方とデータサイエンティスト向け活用法。KVSからDWHまで

Logic AppsCloud APIs and platform

bull Supports over 125 built-in connectors

bull Scales to meet your needs

bull Enables rapid development

bull Extends with custom APIs and

Functions

API connections

bull Authenticate once and reuse

Big Data Solutions Decision Tree

httpsbiz-excellencecom20160830big-data-dt

Machine Learning Solutions Decision Tree

httpsbiz-excellencecom20160913machine-

learning-dt

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of your

data while making it faster to get up and running with batch

streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources so

you can run queries on exabytes of data Includes U-SQL a

new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully managed

NoSQL database service that indexes stores and queries

data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

Microsoft Big Data Portfolio

SQL Server Stretch

Business intelligence

Machine learning analytics

Insights

Azure SQL Database

SQL Server 2016

SQL Server 2016 Fast Track

Azure SQL DW

ADLS amp ADLA

DocumentDB

HDInsight

Hadoop

Analytics Platform System

Sequential Scale Out + AcrossScale Up

Key

Relational Non-relational

On

-pre

mis

es

Clo

ud

Microsoft has solutions covering

and connecting all four

quadrants ndash thatrsquos why SQL

Server is one of the most utilized

databases in the world

Azure

Data Lake Store

Azure

Blob StoragePurpose Optimized for big data analytics General purpose bulk storage

Use Cases Batch Interactive Streaming App backend backup data media storage for

streaming

Units of Storage Accounts Folders Files Accounts Containers Blobs

Structure Hierarchical File System Flat namespace

WebHDFS Implements WebHDFS No (WASB)

Security AD SAS keys

Storage Auto SharedFiles chunked Manually manage expansionFiles intact

Service State Generally Available PolyBase

just supported

Generally Available

Billing Pay for data stored and for IO Pay for data stored and for IO

Region Availability Two US regions (Other regions coming soon) All Azure Regions

ADL Store vs Blob Store

httpsdocsmicrosoftcomen-usazuredata-lake-storedata-lake-store-comparison-with-blob-storage

Want Hadoop

Need exact same on-prem

Need interactive streaming

MandatoryNo strong opinion

Azure Marketplace (IaaS)

bull Need all workloads exactly like on-

premises

bull Need 100 HortonworksClouderaMapR

Azure HDInsight

bull Most Hadoop workloads

bull Fully managed by Microsoft

bull Sell HDI + ADLS

bull Stickier to Microsoft than VMs

bull Can do interactive (Spark) and streaming

(StormSpark)

Azure Data Lake Analytics

bull Easiest experience for admin no sense of

clusters instant scale per job

bull Easiest experience for developers Visual

StudioU-SQL (C+SQL)

bull Sell ADLA + ADLS

bull Batch workloads only

Need everything exactly like on-prem

Need core projects Yes Batch is OK

Always present ADLA if NET or Visual Studio Shop

If NET or VS shop

Azure SQL DW HDInsight Hive HDInsight Spark Azure Data Lake SQL Server (IaaS)

Volume Petabytes Petabytes Petabytes Petabytes Terabytes

Security Encryption TD

Audit

ADLS Apache

Ranger

ADLS AAD Security

Groups (data)

Encryption TD

Audit

Languages T-SQL HiveQL SparkSQL HiveQL

Scala Java Python

R

U-SQL T-SQL

Extensibility No Yes NETSerDe Yes Packages Yes NET Yes NET CLR

External File

Types

ORC TXT

Parquet RCFile

ORC CSV Parquet

+ others

Parquet JSON

Hive + others

Many ORC TXT Parquet

RCFile

Admin Low-Medium Medium-High Medium-High Low High

Cost Model DWU Nodes amp VM Nodes amp VM UnitsJobs VM

Schema

Definition

Schema on Write

Polybase

Schema on Read Schema on Read Schema on Read Schema on Write

Polybase

Max DB Size 240TB Comp (5X

= 1PB)

Unlimited 64TB (64 1TB drives)

機械学習 Deep Learning 深層強化学習

画像解析

音声解析

データ分類異常検知 顧客グルーピング

数値予測売上予測 需要予測 品質管理

ラベル分類不良品分析 故障予測 チャーン分析

機械学習より強力な分析

自律学習型ロボット

自動運転車

テキストや画像等の自動生成

活用例

主に多層のニューラルネットワークを用いた手法での分析

分析のためには莫大なデータ量計算量知識スキルを要する

統計に基づいた手法での分析

そのため比較的少ないデータ量と計算量で分析を行うことができる

定義したあるべき姿に従い試行錯誤をして自ら学習を行うための分析手法である強化学習と深層学習を組み合わせた分析

Azure Machine Learning Cognitive Toolkit GPU Instance (N-Series)

マイクロソフトが提供する技術

テキストデータ機器のログデータなど

画像データ監視カメラの録画データ 機器の外観画像 顔画像など

動画データ監視カメラの録画データ 機器の稼働状況 人の作業映像など

音声データマイクからの収集データ 稼働音 室内音 人の音声など

数値データセンサーデータ 機器の制御データ計測データなど672342345

機械学習統計理論に基づいた分析手法を用いる用意するべきデータ量と処理する計算量の敷居が低め導入しやすい

Deep Learningデータ量が大きいため強力な分析手法が必要「膨大なデータ量を用意」「莫大な計算量を処理」が必要で敷居が非常に高い導入にはそれなりの覚悟が必要

Action

People

Automated Systems

Apps

Web

Mobile

Bots

Intelligence

Dashboards amp Visualizations

Cortana

Bot Framework

Cognitive Services

Power BI

Information Management

Event Hubs

Data Catalog

Data Factory

Machine Learning and Analytics

HDInsight

Stream Analytics

Intelligence

Data Lake Analytics

Machine Learning

Big Data Stores

SQL Data Warehouse

Data Lake Store

Data Sources

Apps

Sensors amp Devices

Data

Cortana Intelligence Suite

学習済み

モデル利用

学習モデル

作成

機械学習 教師あり学習

教師なし学習

強化学習

決定木

線形回帰

SVM

ロジスティック回帰

ニューラルネットワーク

クラスタリング

次元削減

Q学習

K-mean法

主成分分析

正準相関分析

ディープニューラルネットワーク

畳みこみニューラルネットワーク

再帰的ニューラルネットワーク

回帰結合ニューラルネットワーク

httpsazuremicrosoftcomen-usservicescognitive-services

わずか数行のコードで強力なアルゴリズムを持つアプリの作成が可能ですiOSAndroidWindows などのプラットフォームを問わず機能します

httpsazuremicrosoftcomja-jpservicesmachine-learning

ユーザーは簡単に予測分析ソリューションを構築デプロイ共有できます

httpswwwyoutubecomwatchv=9gDDO5ldT-4ampfeature=youtube

AI技術を利用したディープラーニング(深層学習)ツールキットです旧称「CNTK」から改名されました

ソースコード httpsgithubcomMicrosoftCNTK

SearchSpeech

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

コカコーラ誕生100周年キャンペーン

コカコーラボトルを「100歳」と認識

bull 自撮り写真をUp結果をSNS拡散

ナビタイムジャパン様

自然言語入力による路線検索BOT

bull ユーザーとの新たな接点(LINE)

bull 自然言語入力

Vision Language Knowledge

Vision Knowledge SearchSpeech Language

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

Microsoft SupportVirtual Agent

自然言語入力による自動応答サポート窓口

bull 過去QampAデータ解析に基づく回答抽出

bull 定型外はldquo人対応rdquo

UBER

登録ドライバーをスマホ経由で顔認証

VOLVO

表情からの危険予測

Search

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

アロバ様

監視カメラによる店舗内行動分析

bull 顔認識による 顧客識別

bull 表情分析

東京サマーランド様にて導入済み

HmComm様

コールセンターソリューション

bull 会話をテキスト化キーワードを解析

bull 過去QampA検索

bull 内容をCRM保存

Vision KnowledgeSpeech Language

導入事例東京サマーランド様

Video

Intelligent KioskhttpsgithubcomMicrosoftCognitive-Samples-IntelligentKiosk

ldquo(want to|request)rdquo

HoloLens

Page 86: やりたいことから考えるMicrosoft Azure 上の データストアの選び方とデータサイエンティスト向け活用法。KVSからDWHまで

Big Data Solutions Decision Tree

httpsbiz-excellencecom20160830big-data-dt

Machine Learning Solutions Decision Tree

httpsbiz-excellencecom20160913machine-

learning-dt

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of your

data while making it faster to get up and running with batch

streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources so

you can run queries on exabytes of data Includes U-SQL a

new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully managed

NoSQL database service that indexes stores and queries

data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

Microsoft Big Data Portfolio

SQL Server Stretch

Business intelligence

Machine learning analytics

Insights

Azure SQL Database

SQL Server 2016

SQL Server 2016 Fast Track

Azure SQL DW

ADLS amp ADLA

DocumentDB

HDInsight

Hadoop

Analytics Platform System

Sequential Scale Out + AcrossScale Up

Key

Relational Non-relational

On

-pre

mis

es

Clo

ud

Microsoft has solutions covering

and connecting all four

quadrants ndash thatrsquos why SQL

Server is one of the most utilized

databases in the world

Azure

Data Lake Store

Azure

Blob StoragePurpose Optimized for big data analytics General purpose bulk storage

Use Cases Batch Interactive Streaming App backend backup data media storage for

streaming

Units of Storage Accounts Folders Files Accounts Containers Blobs

Structure Hierarchical File System Flat namespace

WebHDFS Implements WebHDFS No (WASB)

Security AD SAS keys

Storage Auto SharedFiles chunked Manually manage expansionFiles intact

Service State Generally Available PolyBase

just supported

Generally Available

Billing Pay for data stored and for IO Pay for data stored and for IO

Region Availability Two US regions (Other regions coming soon) All Azure Regions

ADL Store vs Blob Store

httpsdocsmicrosoftcomen-usazuredata-lake-storedata-lake-store-comparison-with-blob-storage

Want Hadoop

Need exact same on-prem

Need interactive streaming

MandatoryNo strong opinion

Azure Marketplace (IaaS)

bull Need all workloads exactly like on-

premises

bull Need 100 HortonworksClouderaMapR

Azure HDInsight

bull Most Hadoop workloads

bull Fully managed by Microsoft

bull Sell HDI + ADLS

bull Stickier to Microsoft than VMs

bull Can do interactive (Spark) and streaming

(StormSpark)

Azure Data Lake Analytics

bull Easiest experience for admin no sense of

clusters instant scale per job

bull Easiest experience for developers Visual

StudioU-SQL (C+SQL)

bull Sell ADLA + ADLS

bull Batch workloads only

Need everything exactly like on-prem

Need core projects Yes Batch is OK

Always present ADLA if NET or Visual Studio Shop

If NET or VS shop

Azure SQL DW HDInsight Hive HDInsight Spark Azure Data Lake SQL Server (IaaS)

Volume Petabytes Petabytes Petabytes Petabytes Terabytes

Security Encryption TD

Audit

ADLS Apache

Ranger

ADLS AAD Security

Groups (data)

Encryption TD

Audit

Languages T-SQL HiveQL SparkSQL HiveQL

Scala Java Python

R

U-SQL T-SQL

Extensibility No Yes NETSerDe Yes Packages Yes NET Yes NET CLR

External File

Types

ORC TXT

Parquet RCFile

ORC CSV Parquet

+ others

Parquet JSON

Hive + others

Many ORC TXT Parquet

RCFile

Admin Low-Medium Medium-High Medium-High Low High

Cost Model DWU Nodes amp VM Nodes amp VM UnitsJobs VM

Schema

Definition

Schema on Write

Polybase

Schema on Read Schema on Read Schema on Read Schema on Write

Polybase

Max DB Size 240TB Comp (5X

= 1PB)

Unlimited 64TB (64 1TB drives)

機械学習 Deep Learning 深層強化学習

画像解析

音声解析

データ分類異常検知 顧客グルーピング

数値予測売上予測 需要予測 品質管理

ラベル分類不良品分析 故障予測 チャーン分析

機械学習より強力な分析

自律学習型ロボット

自動運転車

テキストや画像等の自動生成

活用例

主に多層のニューラルネットワークを用いた手法での分析

分析のためには莫大なデータ量計算量知識スキルを要する

統計に基づいた手法での分析

そのため比較的少ないデータ量と計算量で分析を行うことができる

定義したあるべき姿に従い試行錯誤をして自ら学習を行うための分析手法である強化学習と深層学習を組み合わせた分析

Azure Machine Learning Cognitive Toolkit GPU Instance (N-Series)

マイクロソフトが提供する技術

テキストデータ機器のログデータなど

画像データ監視カメラの録画データ 機器の外観画像 顔画像など

動画データ監視カメラの録画データ 機器の稼働状況 人の作業映像など

音声データマイクからの収集データ 稼働音 室内音 人の音声など

数値データセンサーデータ 機器の制御データ計測データなど672342345

機械学習統計理論に基づいた分析手法を用いる用意するべきデータ量と処理する計算量の敷居が低め導入しやすい

Deep Learningデータ量が大きいため強力な分析手法が必要「膨大なデータ量を用意」「莫大な計算量を処理」が必要で敷居が非常に高い導入にはそれなりの覚悟が必要

Action

People

Automated Systems

Apps

Web

Mobile

Bots

Intelligence

Dashboards amp Visualizations

Cortana

Bot Framework

Cognitive Services

Power BI

Information Management

Event Hubs

Data Catalog

Data Factory

Machine Learning and Analytics

HDInsight

Stream Analytics

Intelligence

Data Lake Analytics

Machine Learning

Big Data Stores

SQL Data Warehouse

Data Lake Store

Data Sources

Apps

Sensors amp Devices

Data

Cortana Intelligence Suite

学習済み

モデル利用

学習モデル

作成

機械学習 教師あり学習

教師なし学習

強化学習

決定木

線形回帰

SVM

ロジスティック回帰

ニューラルネットワーク

クラスタリング

次元削減

Q学習

K-mean法

主成分分析

正準相関分析

ディープニューラルネットワーク

畳みこみニューラルネットワーク

再帰的ニューラルネットワーク

回帰結合ニューラルネットワーク

httpsazuremicrosoftcomen-usservicescognitive-services

わずか数行のコードで強力なアルゴリズムを持つアプリの作成が可能ですiOSAndroidWindows などのプラットフォームを問わず機能します

httpsazuremicrosoftcomja-jpservicesmachine-learning

ユーザーは簡単に予測分析ソリューションを構築デプロイ共有できます

httpswwwyoutubecomwatchv=9gDDO5ldT-4ampfeature=youtube

AI技術を利用したディープラーニング(深層学習)ツールキットです旧称「CNTK」から改名されました

ソースコード httpsgithubcomMicrosoftCNTK

SearchSpeech

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

コカコーラ誕生100周年キャンペーン

コカコーラボトルを「100歳」と認識

bull 自撮り写真をUp結果をSNS拡散

ナビタイムジャパン様

自然言語入力による路線検索BOT

bull ユーザーとの新たな接点(LINE)

bull 自然言語入力

Vision Language Knowledge

Vision Knowledge SearchSpeech Language

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

Microsoft SupportVirtual Agent

自然言語入力による自動応答サポート窓口

bull 過去QampAデータ解析に基づく回答抽出

bull 定型外はldquo人対応rdquo

UBER

登録ドライバーをスマホ経由で顔認証

VOLVO

表情からの危険予測

Search

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

アロバ様

監視カメラによる店舗内行動分析

bull 顔認識による 顧客識別

bull 表情分析

東京サマーランド様にて導入済み

HmComm様

コールセンターソリューション

bull 会話をテキスト化キーワードを解析

bull 過去QampA検索

bull 内容をCRM保存

Vision KnowledgeSpeech Language

導入事例東京サマーランド様

Video

Intelligent KioskhttpsgithubcomMicrosoftCognitive-Samples-IntelligentKiosk

ldquo(want to|request)rdquo

HoloLens

Page 87: やりたいことから考えるMicrosoft Azure 上の データストアの選び方とデータサイエンティスト向け活用法。KVSからDWHまで

Machine Learning Solutions Decision Tree

httpsbiz-excellencecom20160913machine-

learning-dt

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of your

data while making it faster to get up and running with batch

streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources so

you can run queries on exabytes of data Includes U-SQL a

new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully managed

NoSQL database service that indexes stores and queries

data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

Microsoft Big Data Portfolio

SQL Server Stretch

Business intelligence

Machine learning analytics

Insights

Azure SQL Database

SQL Server 2016

SQL Server 2016 Fast Track

Azure SQL DW

ADLS amp ADLA

DocumentDB

HDInsight

Hadoop

Analytics Platform System

Sequential Scale Out + AcrossScale Up

Key

Relational Non-relational

On

-pre

mis

es

Clo

ud

Microsoft has solutions covering

and connecting all four

quadrants ndash thatrsquos why SQL

Server is one of the most utilized

databases in the world

Azure

Data Lake Store

Azure

Blob StoragePurpose Optimized for big data analytics General purpose bulk storage

Use Cases Batch Interactive Streaming App backend backup data media storage for

streaming

Units of Storage Accounts Folders Files Accounts Containers Blobs

Structure Hierarchical File System Flat namespace

WebHDFS Implements WebHDFS No (WASB)

Security AD SAS keys

Storage Auto SharedFiles chunked Manually manage expansionFiles intact

Service State Generally Available PolyBase

just supported

Generally Available

Billing Pay for data stored and for IO Pay for data stored and for IO

Region Availability Two US regions (Other regions coming soon) All Azure Regions

ADL Store vs Blob Store

httpsdocsmicrosoftcomen-usazuredata-lake-storedata-lake-store-comparison-with-blob-storage

Want Hadoop

Need exact same on-prem

Need interactive streaming

MandatoryNo strong opinion

Azure Marketplace (IaaS)

bull Need all workloads exactly like on-

premises

bull Need 100 HortonworksClouderaMapR

Azure HDInsight

bull Most Hadoop workloads

bull Fully managed by Microsoft

bull Sell HDI + ADLS

bull Stickier to Microsoft than VMs

bull Can do interactive (Spark) and streaming

(StormSpark)

Azure Data Lake Analytics

bull Easiest experience for admin no sense of

clusters instant scale per job

bull Easiest experience for developers Visual

StudioU-SQL (C+SQL)

bull Sell ADLA + ADLS

bull Batch workloads only

Need everything exactly like on-prem

Need core projects Yes Batch is OK

Always present ADLA if NET or Visual Studio Shop

If NET or VS shop

Azure SQL DW HDInsight Hive HDInsight Spark Azure Data Lake SQL Server (IaaS)

Volume Petabytes Petabytes Petabytes Petabytes Terabytes

Security Encryption TD

Audit

ADLS Apache

Ranger

ADLS AAD Security

Groups (data)

Encryption TD

Audit

Languages T-SQL HiveQL SparkSQL HiveQL

Scala Java Python

R

U-SQL T-SQL

Extensibility No Yes NETSerDe Yes Packages Yes NET Yes NET CLR

External File

Types

ORC TXT

Parquet RCFile

ORC CSV Parquet

+ others

Parquet JSON

Hive + others

Many ORC TXT Parquet

RCFile

Admin Low-Medium Medium-High Medium-High Low High

Cost Model DWU Nodes amp VM Nodes amp VM UnitsJobs VM

Schema

Definition

Schema on Write

Polybase

Schema on Read Schema on Read Schema on Read Schema on Write

Polybase

Max DB Size 240TB Comp (5X

= 1PB)

Unlimited 64TB (64 1TB drives)

機械学習 Deep Learning 深層強化学習

画像解析

音声解析

データ分類異常検知 顧客グルーピング

数値予測売上予測 需要予測 品質管理

ラベル分類不良品分析 故障予測 チャーン分析

機械学習より強力な分析

自律学習型ロボット

自動運転車

テキストや画像等の自動生成

活用例

主に多層のニューラルネットワークを用いた手法での分析

分析のためには莫大なデータ量計算量知識スキルを要する

統計に基づいた手法での分析

そのため比較的少ないデータ量と計算量で分析を行うことができる

定義したあるべき姿に従い試行錯誤をして自ら学習を行うための分析手法である強化学習と深層学習を組み合わせた分析

Azure Machine Learning Cognitive Toolkit GPU Instance (N-Series)

マイクロソフトが提供する技術

テキストデータ機器のログデータなど

画像データ監視カメラの録画データ 機器の外観画像 顔画像など

動画データ監視カメラの録画データ 機器の稼働状況 人の作業映像など

音声データマイクからの収集データ 稼働音 室内音 人の音声など

数値データセンサーデータ 機器の制御データ計測データなど672342345

機械学習統計理論に基づいた分析手法を用いる用意するべきデータ量と処理する計算量の敷居が低め導入しやすい

Deep Learningデータ量が大きいため強力な分析手法が必要「膨大なデータ量を用意」「莫大な計算量を処理」が必要で敷居が非常に高い導入にはそれなりの覚悟が必要

Action

People

Automated Systems

Apps

Web

Mobile

Bots

Intelligence

Dashboards amp Visualizations

Cortana

Bot Framework

Cognitive Services

Power BI

Information Management

Event Hubs

Data Catalog

Data Factory

Machine Learning and Analytics

HDInsight

Stream Analytics

Intelligence

Data Lake Analytics

Machine Learning

Big Data Stores

SQL Data Warehouse

Data Lake Store

Data Sources

Apps

Sensors amp Devices

Data

Cortana Intelligence Suite

学習済み

モデル利用

学習モデル

作成

機械学習 教師あり学習

教師なし学習

強化学習

決定木

線形回帰

SVM

ロジスティック回帰

ニューラルネットワーク

クラスタリング

次元削減

Q学習

K-mean法

主成分分析

正準相関分析

ディープニューラルネットワーク

畳みこみニューラルネットワーク

再帰的ニューラルネットワーク

回帰結合ニューラルネットワーク

httpsazuremicrosoftcomen-usservicescognitive-services

わずか数行のコードで強力なアルゴリズムを持つアプリの作成が可能ですiOSAndroidWindows などのプラットフォームを問わず機能します

httpsazuremicrosoftcomja-jpservicesmachine-learning

ユーザーは簡単に予測分析ソリューションを構築デプロイ共有できます

httpswwwyoutubecomwatchv=9gDDO5ldT-4ampfeature=youtube

AI技術を利用したディープラーニング(深層学習)ツールキットです旧称「CNTK」から改名されました

ソースコード httpsgithubcomMicrosoftCNTK

SearchSpeech

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

コカコーラ誕生100周年キャンペーン

コカコーラボトルを「100歳」と認識

bull 自撮り写真をUp結果をSNS拡散

ナビタイムジャパン様

自然言語入力による路線検索BOT

bull ユーザーとの新たな接点(LINE)

bull 自然言語入力

Vision Language Knowledge

Vision Knowledge SearchSpeech Language

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

Microsoft SupportVirtual Agent

自然言語入力による自動応答サポート窓口

bull 過去QampAデータ解析に基づく回答抽出

bull 定型外はldquo人対応rdquo

UBER

登録ドライバーをスマホ経由で顔認証

VOLVO

表情からの危険予測

Search

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

アロバ様

監視カメラによる店舗内行動分析

bull 顔認識による 顧客識別

bull 表情分析

東京サマーランド様にて導入済み

HmComm様

コールセンターソリューション

bull 会話をテキスト化キーワードを解析

bull 過去QampA検索

bull 内容をCRM保存

Vision KnowledgeSpeech Language

導入事例東京サマーランド様

Video

Intelligent KioskhttpsgithubcomMicrosoftCognitive-Samples-IntelligentKiosk

ldquo(want to|request)rdquo

HoloLens

Page 88: やりたいことから考えるMicrosoft Azure 上の データストアの選び方とデータサイエンティスト向け活用法。KVSからDWHまで

Microsoft data platform solutions

Product Category Description More Info

SQL Server 2016 RDBMS Earned top spot in Gartnerrsquos Operational Database magic

quadrant JSON support Linux TBD

httpswwwmicrosoftcomen-usserver-

cloudproductssql-server-2016

SQL Database RDBMSDBaaS Cloud-based service that is provisioned and scaled quickly

Has built-in high availability and disaster recovery JSON

support

httpsazuremicrosoftcomen-

usservicessql-database

SQL Data Warehouse MPP RDBMSDBaaS Cloud-based service that handles relational big data

Provision and scale quickly Can pause service to reduce cost

httpsazuremicrosoftcomen-

usservicessql-data-warehouse

Analytics Platform System (APS) MPP RDBMS Big data analytics appliance for high performance and

seamless integration of all your data

httpswwwmicrosoftcomen-usserver-

cloudproductsanalytics-platform-system

Azure Data Lake Store Hadoop storage Removes the complexities of ingesting and storing all of your

data while making it faster to get up and running with batch

streaming and interactive analytics

httpsazuremicrosoftcomen-

usservicesdata-lake-store

Azure Data Lake Analytics On-demand analytics job

serviceBig Data-as-a-

service

Cloud-based service that dynamically provisions resources so

you can run queries on exabytes of data Includes U-SQL a

new big data query language

httpsazuremicrosoftcomen-

usservicesdata-lake-analytics

HDInsight PaaS Hadoop

computeHadoop

clusters-as-a-service

A managed Apache Hadoop Spark R HBase Kafka and

Storm cloud service made easy

httpsazuremicrosoftcomen-

usserviceshdinsight

DocumentDB PaaS NoSQL Document

Store

Get your apps up and running in hours with a fully managed

NoSQL database service that indexes stores and queries

data using familiar SQL syntax

httpsazuremicrosoftcomen-

usservicesdocumentdb

Azure Table Storage PaaS NoSQL Key-value

Store

Store large amount of semi-structured data in the cloud httpsazuremicrosoftcomen-

usservicesstoragetables

Microsoft Big Data Portfolio

SQL Server Stretch

Business intelligence

Machine learning analytics

Insights

Azure SQL Database

SQL Server 2016

SQL Server 2016 Fast Track

Azure SQL DW

ADLS amp ADLA

DocumentDB

HDInsight

Hadoop

Analytics Platform System

Sequential Scale Out + AcrossScale Up

Key

Relational Non-relational

On

-pre

mis

es

Clo

ud

Microsoft has solutions covering

and connecting all four

quadrants ndash thatrsquos why SQL

Server is one of the most utilized

databases in the world

Azure

Data Lake Store

Azure

Blob StoragePurpose Optimized for big data analytics General purpose bulk storage

Use Cases Batch Interactive Streaming App backend backup data media storage for

streaming

Units of Storage Accounts Folders Files Accounts Containers Blobs

Structure Hierarchical File System Flat namespace

WebHDFS Implements WebHDFS No (WASB)

Security AD SAS keys

Storage Auto SharedFiles chunked Manually manage expansionFiles intact

Service State Generally Available PolyBase

just supported

Generally Available

Billing Pay for data stored and for IO Pay for data stored and for IO

Region Availability Two US regions (Other regions coming soon) All Azure Regions

ADL Store vs Blob Store

httpsdocsmicrosoftcomen-usazuredata-lake-storedata-lake-store-comparison-with-blob-storage

Want Hadoop

Need exact same on-prem

Need interactive streaming

MandatoryNo strong opinion

Azure Marketplace (IaaS)

bull Need all workloads exactly like on-

premises

bull Need 100 HortonworksClouderaMapR

Azure HDInsight

bull Most Hadoop workloads

bull Fully managed by Microsoft

bull Sell HDI + ADLS

bull Stickier to Microsoft than VMs

bull Can do interactive (Spark) and streaming

(StormSpark)

Azure Data Lake Analytics

bull Easiest experience for admin no sense of

clusters instant scale per job

bull Easiest experience for developers Visual

StudioU-SQL (C+SQL)

bull Sell ADLA + ADLS

bull Batch workloads only

Need everything exactly like on-prem

Need core projects Yes Batch is OK

Always present ADLA if NET or Visual Studio Shop

If NET or VS shop

Azure SQL DW HDInsight Hive HDInsight Spark Azure Data Lake SQL Server (IaaS)

Volume Petabytes Petabytes Petabytes Petabytes Terabytes

Security Encryption TD

Audit

ADLS Apache

Ranger

ADLS AAD Security

Groups (data)

Encryption TD

Audit

Languages T-SQL HiveQL SparkSQL HiveQL

Scala Java Python

R

U-SQL T-SQL

Extensibility No Yes NETSerDe Yes Packages Yes NET Yes NET CLR

External File

Types

ORC TXT

Parquet RCFile

ORC CSV Parquet

+ others

Parquet JSON

Hive + others

Many ORC TXT Parquet

RCFile

Admin Low-Medium Medium-High Medium-High Low High

Cost Model DWU Nodes amp VM Nodes amp VM UnitsJobs VM

Schema

Definition

Schema on Write

Polybase

Schema on Read Schema on Read Schema on Read Schema on Write

Polybase

Max DB Size 240TB Comp (5X

= 1PB)

Unlimited 64TB (64 1TB drives)

機械学習 Deep Learning 深層強化学習

画像解析

音声解析

データ分類異常検知 顧客グルーピング

数値予測売上予測 需要予測 品質管理

ラベル分類不良品分析 故障予測 チャーン分析

機械学習より強力な分析

自律学習型ロボット

自動運転車

テキストや画像等の自動生成

活用例

主に多層のニューラルネットワークを用いた手法での分析

分析のためには莫大なデータ量計算量知識スキルを要する

統計に基づいた手法での分析

そのため比較的少ないデータ量と計算量で分析を行うことができる

定義したあるべき姿に従い試行錯誤をして自ら学習を行うための分析手法である強化学習と深層学習を組み合わせた分析

Azure Machine Learning Cognitive Toolkit GPU Instance (N-Series)

マイクロソフトが提供する技術

テキストデータ機器のログデータなど

画像データ監視カメラの録画データ 機器の外観画像 顔画像など

動画データ監視カメラの録画データ 機器の稼働状況 人の作業映像など

音声データマイクからの収集データ 稼働音 室内音 人の音声など

数値データセンサーデータ 機器の制御データ計測データなど672342345

機械学習統計理論に基づいた分析手法を用いる用意するべきデータ量と処理する計算量の敷居が低め導入しやすい

Deep Learningデータ量が大きいため強力な分析手法が必要「膨大なデータ量を用意」「莫大な計算量を処理」が必要で敷居が非常に高い導入にはそれなりの覚悟が必要

Action

People

Automated Systems

Apps

Web

Mobile

Bots

Intelligence

Dashboards amp Visualizations

Cortana

Bot Framework

Cognitive Services

Power BI

Information Management

Event Hubs

Data Catalog

Data Factory

Machine Learning and Analytics

HDInsight

Stream Analytics

Intelligence

Data Lake Analytics

Machine Learning

Big Data Stores

SQL Data Warehouse

Data Lake Store

Data Sources

Apps

Sensors amp Devices

Data

Cortana Intelligence Suite

学習済み

モデル利用

学習モデル

作成

機械学習 教師あり学習

教師なし学習

強化学習

決定木

線形回帰

SVM

ロジスティック回帰

ニューラルネットワーク

クラスタリング

次元削減

Q学習

K-mean法

主成分分析

正準相関分析

ディープニューラルネットワーク

畳みこみニューラルネットワーク

再帰的ニューラルネットワーク

回帰結合ニューラルネットワーク

httpsazuremicrosoftcomen-usservicescognitive-services

わずか数行のコードで強力なアルゴリズムを持つアプリの作成が可能ですiOSAndroidWindows などのプラットフォームを問わず機能します

httpsazuremicrosoftcomja-jpservicesmachine-learning

ユーザーは簡単に予測分析ソリューションを構築デプロイ共有できます

httpswwwyoutubecomwatchv=9gDDO5ldT-4ampfeature=youtube

AI技術を利用したディープラーニング(深層学習)ツールキットです旧称「CNTK」から改名されました

ソースコード httpsgithubcomMicrosoftCNTK

SearchSpeech

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

コカコーラ誕生100周年キャンペーン

コカコーラボトルを「100歳」と認識

bull 自撮り写真をUp結果をSNS拡散

ナビタイムジャパン様

自然言語入力による路線検索BOT

bull ユーザーとの新たな接点(LINE)

bull 自然言語入力

Vision Language Knowledge

Vision Knowledge SearchSpeech Language

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

Microsoft SupportVirtual Agent

自然言語入力による自動応答サポート窓口

bull 過去QampAデータ解析に基づく回答抽出

bull 定型外はldquo人対応rdquo

UBER

登録ドライバーをスマホ経由で顔認証

VOLVO

表情からの危険予測

Search

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

アロバ様

監視カメラによる店舗内行動分析

bull 顔認識による 顧客識別

bull 表情分析

東京サマーランド様にて導入済み

HmComm様

コールセンターソリューション

bull 会話をテキスト化キーワードを解析

bull 過去QampA検索

bull 内容をCRM保存

Vision KnowledgeSpeech Language

導入事例東京サマーランド様

Video

Intelligent KioskhttpsgithubcomMicrosoftCognitive-Samples-IntelligentKiosk

ldquo(want to|request)rdquo

HoloLens

Page 89: やりたいことから考えるMicrosoft Azure 上の データストアの選び方とデータサイエンティスト向け活用法。KVSからDWHまで

Microsoft Big Data Portfolio

SQL Server Stretch

Business intelligence

Machine learning analytics

Insights

Azure SQL Database

SQL Server 2016

SQL Server 2016 Fast Track

Azure SQL DW

ADLS amp ADLA

DocumentDB

HDInsight

Hadoop

Analytics Platform System

Sequential Scale Out + AcrossScale Up

Key

Relational Non-relational

On

-pre

mis

es

Clo

ud

Microsoft has solutions covering

and connecting all four

quadrants ndash thatrsquos why SQL

Server is one of the most utilized

databases in the world

Azure

Data Lake Store

Azure

Blob StoragePurpose Optimized for big data analytics General purpose bulk storage

Use Cases Batch Interactive Streaming App backend backup data media storage for

streaming

Units of Storage Accounts Folders Files Accounts Containers Blobs

Structure Hierarchical File System Flat namespace

WebHDFS Implements WebHDFS No (WASB)

Security AD SAS keys

Storage Auto SharedFiles chunked Manually manage expansionFiles intact

Service State Generally Available PolyBase

just supported

Generally Available

Billing Pay for data stored and for IO Pay for data stored and for IO

Region Availability Two US regions (Other regions coming soon) All Azure Regions

ADL Store vs Blob Store

httpsdocsmicrosoftcomen-usazuredata-lake-storedata-lake-store-comparison-with-blob-storage

Want Hadoop

Need exact same on-prem

Need interactive streaming

MandatoryNo strong opinion

Azure Marketplace (IaaS)

bull Need all workloads exactly like on-

premises

bull Need 100 HortonworksClouderaMapR

Azure HDInsight

bull Most Hadoop workloads

bull Fully managed by Microsoft

bull Sell HDI + ADLS

bull Stickier to Microsoft than VMs

bull Can do interactive (Spark) and streaming

(StormSpark)

Azure Data Lake Analytics

bull Easiest experience for admin no sense of

clusters instant scale per job

bull Easiest experience for developers Visual

StudioU-SQL (C+SQL)

bull Sell ADLA + ADLS

bull Batch workloads only

Need everything exactly like on-prem

Need core projects Yes Batch is OK

Always present ADLA if NET or Visual Studio Shop

If NET or VS shop

Azure SQL DW HDInsight Hive HDInsight Spark Azure Data Lake SQL Server (IaaS)

Volume Petabytes Petabytes Petabytes Petabytes Terabytes

Security Encryption TD

Audit

ADLS Apache

Ranger

ADLS AAD Security

Groups (data)

Encryption TD

Audit

Languages T-SQL HiveQL SparkSQL HiveQL

Scala Java Python

R

U-SQL T-SQL

Extensibility No Yes NETSerDe Yes Packages Yes NET Yes NET CLR

External File

Types

ORC TXT

Parquet RCFile

ORC CSV Parquet

+ others

Parquet JSON

Hive + others

Many ORC TXT Parquet

RCFile

Admin Low-Medium Medium-High Medium-High Low High

Cost Model DWU Nodes amp VM Nodes amp VM UnitsJobs VM

Schema

Definition

Schema on Write

Polybase

Schema on Read Schema on Read Schema on Read Schema on Write

Polybase

Max DB Size 240TB Comp (5X

= 1PB)

Unlimited 64TB (64 1TB drives)

機械学習 Deep Learning 深層強化学習

画像解析

音声解析

データ分類異常検知 顧客グルーピング

数値予測売上予測 需要予測 品質管理

ラベル分類不良品分析 故障予測 チャーン分析

機械学習より強力な分析

自律学習型ロボット

自動運転車

テキストや画像等の自動生成

活用例

主に多層のニューラルネットワークを用いた手法での分析

分析のためには莫大なデータ量計算量知識スキルを要する

統計に基づいた手法での分析

そのため比較的少ないデータ量と計算量で分析を行うことができる

定義したあるべき姿に従い試行錯誤をして自ら学習を行うための分析手法である強化学習と深層学習を組み合わせた分析

Azure Machine Learning Cognitive Toolkit GPU Instance (N-Series)

マイクロソフトが提供する技術

テキストデータ機器のログデータなど

画像データ監視カメラの録画データ 機器の外観画像 顔画像など

動画データ監視カメラの録画データ 機器の稼働状況 人の作業映像など

音声データマイクからの収集データ 稼働音 室内音 人の音声など

数値データセンサーデータ 機器の制御データ計測データなど672342345

機械学習統計理論に基づいた分析手法を用いる用意するべきデータ量と処理する計算量の敷居が低め導入しやすい

Deep Learningデータ量が大きいため強力な分析手法が必要「膨大なデータ量を用意」「莫大な計算量を処理」が必要で敷居が非常に高い導入にはそれなりの覚悟が必要

Action

People

Automated Systems

Apps

Web

Mobile

Bots

Intelligence

Dashboards amp Visualizations

Cortana

Bot Framework

Cognitive Services

Power BI

Information Management

Event Hubs

Data Catalog

Data Factory

Machine Learning and Analytics

HDInsight

Stream Analytics

Intelligence

Data Lake Analytics

Machine Learning

Big Data Stores

SQL Data Warehouse

Data Lake Store

Data Sources

Apps

Sensors amp Devices

Data

Cortana Intelligence Suite

学習済み

モデル利用

学習モデル

作成

機械学習 教師あり学習

教師なし学習

強化学習

決定木

線形回帰

SVM

ロジスティック回帰

ニューラルネットワーク

クラスタリング

次元削減

Q学習

K-mean法

主成分分析

正準相関分析

ディープニューラルネットワーク

畳みこみニューラルネットワーク

再帰的ニューラルネットワーク

回帰結合ニューラルネットワーク

httpsazuremicrosoftcomen-usservicescognitive-services

わずか数行のコードで強力なアルゴリズムを持つアプリの作成が可能ですiOSAndroidWindows などのプラットフォームを問わず機能します

httpsazuremicrosoftcomja-jpservicesmachine-learning

ユーザーは簡単に予測分析ソリューションを構築デプロイ共有できます

httpswwwyoutubecomwatchv=9gDDO5ldT-4ampfeature=youtube

AI技術を利用したディープラーニング(深層学習)ツールキットです旧称「CNTK」から改名されました

ソースコード httpsgithubcomMicrosoftCNTK

SearchSpeech

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

コカコーラ誕生100周年キャンペーン

コカコーラボトルを「100歳」と認識

bull 自撮り写真をUp結果をSNS拡散

ナビタイムジャパン様

自然言語入力による路線検索BOT

bull ユーザーとの新たな接点(LINE)

bull 自然言語入力

Vision Language Knowledge

Vision Knowledge SearchSpeech Language

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

Microsoft SupportVirtual Agent

自然言語入力による自動応答サポート窓口

bull 過去QampAデータ解析に基づく回答抽出

bull 定型外はldquo人対応rdquo

UBER

登録ドライバーをスマホ経由で顔認証

VOLVO

表情からの危険予測

Search

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

アロバ様

監視カメラによる店舗内行動分析

bull 顔認識による 顧客識別

bull 表情分析

東京サマーランド様にて導入済み

HmComm様

コールセンターソリューション

bull 会話をテキスト化キーワードを解析

bull 過去QampA検索

bull 内容をCRM保存

Vision KnowledgeSpeech Language

導入事例東京サマーランド様

Video

Intelligent KioskhttpsgithubcomMicrosoftCognitive-Samples-IntelligentKiosk

ldquo(want to|request)rdquo

HoloLens

Page 90: やりたいことから考えるMicrosoft Azure 上の データストアの選び方とデータサイエンティスト向け活用法。KVSからDWHまで

Azure

Data Lake Store

Azure

Blob StoragePurpose Optimized for big data analytics General purpose bulk storage

Use Cases Batch Interactive Streaming App backend backup data media storage for

streaming

Units of Storage Accounts Folders Files Accounts Containers Blobs

Structure Hierarchical File System Flat namespace

WebHDFS Implements WebHDFS No (WASB)

Security AD SAS keys

Storage Auto SharedFiles chunked Manually manage expansionFiles intact

Service State Generally Available PolyBase

just supported

Generally Available

Billing Pay for data stored and for IO Pay for data stored and for IO

Region Availability Two US regions (Other regions coming soon) All Azure Regions

ADL Store vs Blob Store

httpsdocsmicrosoftcomen-usazuredata-lake-storedata-lake-store-comparison-with-blob-storage

Want Hadoop

Need exact same on-prem

Need interactive streaming

MandatoryNo strong opinion

Azure Marketplace (IaaS)

bull Need all workloads exactly like on-

premises

bull Need 100 HortonworksClouderaMapR

Azure HDInsight

bull Most Hadoop workloads

bull Fully managed by Microsoft

bull Sell HDI + ADLS

bull Stickier to Microsoft than VMs

bull Can do interactive (Spark) and streaming

(StormSpark)

Azure Data Lake Analytics

bull Easiest experience for admin no sense of

clusters instant scale per job

bull Easiest experience for developers Visual

StudioU-SQL (C+SQL)

bull Sell ADLA + ADLS

bull Batch workloads only

Need everything exactly like on-prem

Need core projects Yes Batch is OK

Always present ADLA if NET or Visual Studio Shop

If NET or VS shop

Azure SQL DW HDInsight Hive HDInsight Spark Azure Data Lake SQL Server (IaaS)

Volume Petabytes Petabytes Petabytes Petabytes Terabytes

Security Encryption TD

Audit

ADLS Apache

Ranger

ADLS AAD Security

Groups (data)

Encryption TD

Audit

Languages T-SQL HiveQL SparkSQL HiveQL

Scala Java Python

R

U-SQL T-SQL

Extensibility No Yes NETSerDe Yes Packages Yes NET Yes NET CLR

External File

Types

ORC TXT

Parquet RCFile

ORC CSV Parquet

+ others

Parquet JSON

Hive + others

Many ORC TXT Parquet

RCFile

Admin Low-Medium Medium-High Medium-High Low High

Cost Model DWU Nodes amp VM Nodes amp VM UnitsJobs VM

Schema

Definition

Schema on Write

Polybase

Schema on Read Schema on Read Schema on Read Schema on Write

Polybase

Max DB Size 240TB Comp (5X

= 1PB)

Unlimited 64TB (64 1TB drives)

機械学習 Deep Learning 深層強化学習

画像解析

音声解析

データ分類異常検知 顧客グルーピング

数値予測売上予測 需要予測 品質管理

ラベル分類不良品分析 故障予測 チャーン分析

機械学習より強力な分析

自律学習型ロボット

自動運転車

テキストや画像等の自動生成

活用例

主に多層のニューラルネットワークを用いた手法での分析

分析のためには莫大なデータ量計算量知識スキルを要する

統計に基づいた手法での分析

そのため比較的少ないデータ量と計算量で分析を行うことができる

定義したあるべき姿に従い試行錯誤をして自ら学習を行うための分析手法である強化学習と深層学習を組み合わせた分析

Azure Machine Learning Cognitive Toolkit GPU Instance (N-Series)

マイクロソフトが提供する技術

テキストデータ機器のログデータなど

画像データ監視カメラの録画データ 機器の外観画像 顔画像など

動画データ監視カメラの録画データ 機器の稼働状況 人の作業映像など

音声データマイクからの収集データ 稼働音 室内音 人の音声など

数値データセンサーデータ 機器の制御データ計測データなど672342345

機械学習統計理論に基づいた分析手法を用いる用意するべきデータ量と処理する計算量の敷居が低め導入しやすい

Deep Learningデータ量が大きいため強力な分析手法が必要「膨大なデータ量を用意」「莫大な計算量を処理」が必要で敷居が非常に高い導入にはそれなりの覚悟が必要

Action

People

Automated Systems

Apps

Web

Mobile

Bots

Intelligence

Dashboards amp Visualizations

Cortana

Bot Framework

Cognitive Services

Power BI

Information Management

Event Hubs

Data Catalog

Data Factory

Machine Learning and Analytics

HDInsight

Stream Analytics

Intelligence

Data Lake Analytics

Machine Learning

Big Data Stores

SQL Data Warehouse

Data Lake Store

Data Sources

Apps

Sensors amp Devices

Data

Cortana Intelligence Suite

学習済み

モデル利用

学習モデル

作成

機械学習 教師あり学習

教師なし学習

強化学習

決定木

線形回帰

SVM

ロジスティック回帰

ニューラルネットワーク

クラスタリング

次元削減

Q学習

K-mean法

主成分分析

正準相関分析

ディープニューラルネットワーク

畳みこみニューラルネットワーク

再帰的ニューラルネットワーク

回帰結合ニューラルネットワーク

httpsazuremicrosoftcomen-usservicescognitive-services

わずか数行のコードで強力なアルゴリズムを持つアプリの作成が可能ですiOSAndroidWindows などのプラットフォームを問わず機能します

httpsazuremicrosoftcomja-jpservicesmachine-learning

ユーザーは簡単に予測分析ソリューションを構築デプロイ共有できます

httpswwwyoutubecomwatchv=9gDDO5ldT-4ampfeature=youtube

AI技術を利用したディープラーニング(深層学習)ツールキットです旧称「CNTK」から改名されました

ソースコード httpsgithubcomMicrosoftCNTK

SearchSpeech

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

コカコーラ誕生100周年キャンペーン

コカコーラボトルを「100歳」と認識

bull 自撮り写真をUp結果をSNS拡散

ナビタイムジャパン様

自然言語入力による路線検索BOT

bull ユーザーとの新たな接点(LINE)

bull 自然言語入力

Vision Language Knowledge

Vision Knowledge SearchSpeech Language

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

Microsoft SupportVirtual Agent

自然言語入力による自動応答サポート窓口

bull 過去QampAデータ解析に基づく回答抽出

bull 定型外はldquo人対応rdquo

UBER

登録ドライバーをスマホ経由で顔認証

VOLVO

表情からの危険予測

Search

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

アロバ様

監視カメラによる店舗内行動分析

bull 顔認識による 顧客識別

bull 表情分析

東京サマーランド様にて導入済み

HmComm様

コールセンターソリューション

bull 会話をテキスト化キーワードを解析

bull 過去QampA検索

bull 内容をCRM保存

Vision KnowledgeSpeech Language

導入事例東京サマーランド様

Video

Intelligent KioskhttpsgithubcomMicrosoftCognitive-Samples-IntelligentKiosk

ldquo(want to|request)rdquo

HoloLens

Page 91: やりたいことから考えるMicrosoft Azure 上の データストアの選び方とデータサイエンティスト向け活用法。KVSからDWHまで

Want Hadoop

Need exact same on-prem

Need interactive streaming

MandatoryNo strong opinion

Azure Marketplace (IaaS)

bull Need all workloads exactly like on-

premises

bull Need 100 HortonworksClouderaMapR

Azure HDInsight

bull Most Hadoop workloads

bull Fully managed by Microsoft

bull Sell HDI + ADLS

bull Stickier to Microsoft than VMs

bull Can do interactive (Spark) and streaming

(StormSpark)

Azure Data Lake Analytics

bull Easiest experience for admin no sense of

clusters instant scale per job

bull Easiest experience for developers Visual

StudioU-SQL (C+SQL)

bull Sell ADLA + ADLS

bull Batch workloads only

Need everything exactly like on-prem

Need core projects Yes Batch is OK

Always present ADLA if NET or Visual Studio Shop

If NET or VS shop

Azure SQL DW HDInsight Hive HDInsight Spark Azure Data Lake SQL Server (IaaS)

Volume Petabytes Petabytes Petabytes Petabytes Terabytes

Security Encryption TD

Audit

ADLS Apache

Ranger

ADLS AAD Security

Groups (data)

Encryption TD

Audit

Languages T-SQL HiveQL SparkSQL HiveQL

Scala Java Python

R

U-SQL T-SQL

Extensibility No Yes NETSerDe Yes Packages Yes NET Yes NET CLR

External File

Types

ORC TXT

Parquet RCFile

ORC CSV Parquet

+ others

Parquet JSON

Hive + others

Many ORC TXT Parquet

RCFile

Admin Low-Medium Medium-High Medium-High Low High

Cost Model DWU Nodes amp VM Nodes amp VM UnitsJobs VM

Schema

Definition

Schema on Write

Polybase

Schema on Read Schema on Read Schema on Read Schema on Write

Polybase

Max DB Size 240TB Comp (5X

= 1PB)

Unlimited 64TB (64 1TB drives)

機械学習 Deep Learning 深層強化学習

画像解析

音声解析

データ分類異常検知 顧客グルーピング

数値予測売上予測 需要予測 品質管理

ラベル分類不良品分析 故障予測 チャーン分析

機械学習より強力な分析

自律学習型ロボット

自動運転車

テキストや画像等の自動生成

活用例

主に多層のニューラルネットワークを用いた手法での分析

分析のためには莫大なデータ量計算量知識スキルを要する

統計に基づいた手法での分析

そのため比較的少ないデータ量と計算量で分析を行うことができる

定義したあるべき姿に従い試行錯誤をして自ら学習を行うための分析手法である強化学習と深層学習を組み合わせた分析

Azure Machine Learning Cognitive Toolkit GPU Instance (N-Series)

マイクロソフトが提供する技術

テキストデータ機器のログデータなど

画像データ監視カメラの録画データ 機器の外観画像 顔画像など

動画データ監視カメラの録画データ 機器の稼働状況 人の作業映像など

音声データマイクからの収集データ 稼働音 室内音 人の音声など

数値データセンサーデータ 機器の制御データ計測データなど672342345

機械学習統計理論に基づいた分析手法を用いる用意するべきデータ量と処理する計算量の敷居が低め導入しやすい

Deep Learningデータ量が大きいため強力な分析手法が必要「膨大なデータ量を用意」「莫大な計算量を処理」が必要で敷居が非常に高い導入にはそれなりの覚悟が必要

Action

People

Automated Systems

Apps

Web

Mobile

Bots

Intelligence

Dashboards amp Visualizations

Cortana

Bot Framework

Cognitive Services

Power BI

Information Management

Event Hubs

Data Catalog

Data Factory

Machine Learning and Analytics

HDInsight

Stream Analytics

Intelligence

Data Lake Analytics

Machine Learning

Big Data Stores

SQL Data Warehouse

Data Lake Store

Data Sources

Apps

Sensors amp Devices

Data

Cortana Intelligence Suite

学習済み

モデル利用

学習モデル

作成

機械学習 教師あり学習

教師なし学習

強化学習

決定木

線形回帰

SVM

ロジスティック回帰

ニューラルネットワーク

クラスタリング

次元削減

Q学習

K-mean法

主成分分析

正準相関分析

ディープニューラルネットワーク

畳みこみニューラルネットワーク

再帰的ニューラルネットワーク

回帰結合ニューラルネットワーク

httpsazuremicrosoftcomen-usservicescognitive-services

わずか数行のコードで強力なアルゴリズムを持つアプリの作成が可能ですiOSAndroidWindows などのプラットフォームを問わず機能します

httpsazuremicrosoftcomja-jpservicesmachine-learning

ユーザーは簡単に予測分析ソリューションを構築デプロイ共有できます

httpswwwyoutubecomwatchv=9gDDO5ldT-4ampfeature=youtube

AI技術を利用したディープラーニング(深層学習)ツールキットです旧称「CNTK」から改名されました

ソースコード httpsgithubcomMicrosoftCNTK

SearchSpeech

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

コカコーラ誕生100周年キャンペーン

コカコーラボトルを「100歳」と認識

bull 自撮り写真をUp結果をSNS拡散

ナビタイムジャパン様

自然言語入力による路線検索BOT

bull ユーザーとの新たな接点(LINE)

bull 自然言語入力

Vision Language Knowledge

Vision Knowledge SearchSpeech Language

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

Microsoft SupportVirtual Agent

自然言語入力による自動応答サポート窓口

bull 過去QampAデータ解析に基づく回答抽出

bull 定型外はldquo人対応rdquo

UBER

登録ドライバーをスマホ経由で顔認証

VOLVO

表情からの危険予測

Search

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

アロバ様

監視カメラによる店舗内行動分析

bull 顔認識による 顧客識別

bull 表情分析

東京サマーランド様にて導入済み

HmComm様

コールセンターソリューション

bull 会話をテキスト化キーワードを解析

bull 過去QampA検索

bull 内容をCRM保存

Vision KnowledgeSpeech Language

導入事例東京サマーランド様

Video

Intelligent KioskhttpsgithubcomMicrosoftCognitive-Samples-IntelligentKiosk

ldquo(want to|request)rdquo

HoloLens

Page 92: やりたいことから考えるMicrosoft Azure 上の データストアの選び方とデータサイエンティスト向け活用法。KVSからDWHまで

Azure SQL DW HDInsight Hive HDInsight Spark Azure Data Lake SQL Server (IaaS)

Volume Petabytes Petabytes Petabytes Petabytes Terabytes

Security Encryption TD

Audit

ADLS Apache

Ranger

ADLS AAD Security

Groups (data)

Encryption TD

Audit

Languages T-SQL HiveQL SparkSQL HiveQL

Scala Java Python

R

U-SQL T-SQL

Extensibility No Yes NETSerDe Yes Packages Yes NET Yes NET CLR

External File

Types

ORC TXT

Parquet RCFile

ORC CSV Parquet

+ others

Parquet JSON

Hive + others

Many ORC TXT Parquet

RCFile

Admin Low-Medium Medium-High Medium-High Low High

Cost Model DWU Nodes amp VM Nodes amp VM UnitsJobs VM

Schema

Definition

Schema on Write

Polybase

Schema on Read Schema on Read Schema on Read Schema on Write

Polybase

Max DB Size 240TB Comp (5X

= 1PB)

Unlimited 64TB (64 1TB drives)

機械学習 Deep Learning 深層強化学習

画像解析

音声解析

データ分類異常検知 顧客グルーピング

数値予測売上予測 需要予測 品質管理

ラベル分類不良品分析 故障予測 チャーン分析

機械学習より強力な分析

自律学習型ロボット

自動運転車

テキストや画像等の自動生成

活用例

主に多層のニューラルネットワークを用いた手法での分析

分析のためには莫大なデータ量計算量知識スキルを要する

統計に基づいた手法での分析

そのため比較的少ないデータ量と計算量で分析を行うことができる

定義したあるべき姿に従い試行錯誤をして自ら学習を行うための分析手法である強化学習と深層学習を組み合わせた分析

Azure Machine Learning Cognitive Toolkit GPU Instance (N-Series)

マイクロソフトが提供する技術

テキストデータ機器のログデータなど

画像データ監視カメラの録画データ 機器の外観画像 顔画像など

動画データ監視カメラの録画データ 機器の稼働状況 人の作業映像など

音声データマイクからの収集データ 稼働音 室内音 人の音声など

数値データセンサーデータ 機器の制御データ計測データなど672342345

機械学習統計理論に基づいた分析手法を用いる用意するべきデータ量と処理する計算量の敷居が低め導入しやすい

Deep Learningデータ量が大きいため強力な分析手法が必要「膨大なデータ量を用意」「莫大な計算量を処理」が必要で敷居が非常に高い導入にはそれなりの覚悟が必要

Action

People

Automated Systems

Apps

Web

Mobile

Bots

Intelligence

Dashboards amp Visualizations

Cortana

Bot Framework

Cognitive Services

Power BI

Information Management

Event Hubs

Data Catalog

Data Factory

Machine Learning and Analytics

HDInsight

Stream Analytics

Intelligence

Data Lake Analytics

Machine Learning

Big Data Stores

SQL Data Warehouse

Data Lake Store

Data Sources

Apps

Sensors amp Devices

Data

Cortana Intelligence Suite

学習済み

モデル利用

学習モデル

作成

機械学習 教師あり学習

教師なし学習

強化学習

決定木

線形回帰

SVM

ロジスティック回帰

ニューラルネットワーク

クラスタリング

次元削減

Q学習

K-mean法

主成分分析

正準相関分析

ディープニューラルネットワーク

畳みこみニューラルネットワーク

再帰的ニューラルネットワーク

回帰結合ニューラルネットワーク

httpsazuremicrosoftcomen-usservicescognitive-services

わずか数行のコードで強力なアルゴリズムを持つアプリの作成が可能ですiOSAndroidWindows などのプラットフォームを問わず機能します

httpsazuremicrosoftcomja-jpservicesmachine-learning

ユーザーは簡単に予測分析ソリューションを構築デプロイ共有できます

httpswwwyoutubecomwatchv=9gDDO5ldT-4ampfeature=youtube

AI技術を利用したディープラーニング(深層学習)ツールキットです旧称「CNTK」から改名されました

ソースコード httpsgithubcomMicrosoftCNTK

SearchSpeech

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

コカコーラ誕生100周年キャンペーン

コカコーラボトルを「100歳」と認識

bull 自撮り写真をUp結果をSNS拡散

ナビタイムジャパン様

自然言語入力による路線検索BOT

bull ユーザーとの新たな接点(LINE)

bull 自然言語入力

Vision Language Knowledge

Vision Knowledge SearchSpeech Language

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

Microsoft SupportVirtual Agent

自然言語入力による自動応答サポート窓口

bull 過去QampAデータ解析に基づく回答抽出

bull 定型外はldquo人対応rdquo

UBER

登録ドライバーをスマホ経由で顔認証

VOLVO

表情からの危険予測

Search

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

アロバ様

監視カメラによる店舗内行動分析

bull 顔認識による 顧客識別

bull 表情分析

東京サマーランド様にて導入済み

HmComm様

コールセンターソリューション

bull 会話をテキスト化キーワードを解析

bull 過去QampA検索

bull 内容をCRM保存

Vision KnowledgeSpeech Language

導入事例東京サマーランド様

Video

Intelligent KioskhttpsgithubcomMicrosoftCognitive-Samples-IntelligentKiosk

ldquo(want to|request)rdquo

HoloLens

Page 93: やりたいことから考えるMicrosoft Azure 上の データストアの選び方とデータサイエンティスト向け活用法。KVSからDWHまで

機械学習 Deep Learning 深層強化学習

画像解析

音声解析

データ分類異常検知 顧客グルーピング

数値予測売上予測 需要予測 品質管理

ラベル分類不良品分析 故障予測 チャーン分析

機械学習より強力な分析

自律学習型ロボット

自動運転車

テキストや画像等の自動生成

活用例

主に多層のニューラルネットワークを用いた手法での分析

分析のためには莫大なデータ量計算量知識スキルを要する

統計に基づいた手法での分析

そのため比較的少ないデータ量と計算量で分析を行うことができる

定義したあるべき姿に従い試行錯誤をして自ら学習を行うための分析手法である強化学習と深層学習を組み合わせた分析

Azure Machine Learning Cognitive Toolkit GPU Instance (N-Series)

マイクロソフトが提供する技術

テキストデータ機器のログデータなど

画像データ監視カメラの録画データ 機器の外観画像 顔画像など

動画データ監視カメラの録画データ 機器の稼働状況 人の作業映像など

音声データマイクからの収集データ 稼働音 室内音 人の音声など

数値データセンサーデータ 機器の制御データ計測データなど672342345

機械学習統計理論に基づいた分析手法を用いる用意するべきデータ量と処理する計算量の敷居が低め導入しやすい

Deep Learningデータ量が大きいため強力な分析手法が必要「膨大なデータ量を用意」「莫大な計算量を処理」が必要で敷居が非常に高い導入にはそれなりの覚悟が必要

Action

People

Automated Systems

Apps

Web

Mobile

Bots

Intelligence

Dashboards amp Visualizations

Cortana

Bot Framework

Cognitive Services

Power BI

Information Management

Event Hubs

Data Catalog

Data Factory

Machine Learning and Analytics

HDInsight

Stream Analytics

Intelligence

Data Lake Analytics

Machine Learning

Big Data Stores

SQL Data Warehouse

Data Lake Store

Data Sources

Apps

Sensors amp Devices

Data

Cortana Intelligence Suite

学習済み

モデル利用

学習モデル

作成

機械学習 教師あり学習

教師なし学習

強化学習

決定木

線形回帰

SVM

ロジスティック回帰

ニューラルネットワーク

クラスタリング

次元削減

Q学習

K-mean法

主成分分析

正準相関分析

ディープニューラルネットワーク

畳みこみニューラルネットワーク

再帰的ニューラルネットワーク

回帰結合ニューラルネットワーク

httpsazuremicrosoftcomen-usservicescognitive-services

わずか数行のコードで強力なアルゴリズムを持つアプリの作成が可能ですiOSAndroidWindows などのプラットフォームを問わず機能します

httpsazuremicrosoftcomja-jpservicesmachine-learning

ユーザーは簡単に予測分析ソリューションを構築デプロイ共有できます

httpswwwyoutubecomwatchv=9gDDO5ldT-4ampfeature=youtube

AI技術を利用したディープラーニング(深層学習)ツールキットです旧称「CNTK」から改名されました

ソースコード httpsgithubcomMicrosoftCNTK

SearchSpeech

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

コカコーラ誕生100周年キャンペーン

コカコーラボトルを「100歳」と認識

bull 自撮り写真をUp結果をSNS拡散

ナビタイムジャパン様

自然言語入力による路線検索BOT

bull ユーザーとの新たな接点(LINE)

bull 自然言語入力

Vision Language Knowledge

Vision Knowledge SearchSpeech Language

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

Microsoft SupportVirtual Agent

自然言語入力による自動応答サポート窓口

bull 過去QampAデータ解析に基づく回答抽出

bull 定型外はldquo人対応rdquo

UBER

登録ドライバーをスマホ経由で顔認証

VOLVO

表情からの危険予測

Search

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

アロバ様

監視カメラによる店舗内行動分析

bull 顔認識による 顧客識別

bull 表情分析

東京サマーランド様にて導入済み

HmComm様

コールセンターソリューション

bull 会話をテキスト化キーワードを解析

bull 過去QampA検索

bull 内容をCRM保存

Vision KnowledgeSpeech Language

導入事例東京サマーランド様

Video

Intelligent KioskhttpsgithubcomMicrosoftCognitive-Samples-IntelligentKiosk

ldquo(want to|request)rdquo

HoloLens

Page 94: やりたいことから考えるMicrosoft Azure 上の データストアの選び方とデータサイエンティスト向け活用法。KVSからDWHまで

テキストデータ機器のログデータなど

画像データ監視カメラの録画データ 機器の外観画像 顔画像など

動画データ監視カメラの録画データ 機器の稼働状況 人の作業映像など

音声データマイクからの収集データ 稼働音 室内音 人の音声など

数値データセンサーデータ 機器の制御データ計測データなど672342345

機械学習統計理論に基づいた分析手法を用いる用意するべきデータ量と処理する計算量の敷居が低め導入しやすい

Deep Learningデータ量が大きいため強力な分析手法が必要「膨大なデータ量を用意」「莫大な計算量を処理」が必要で敷居が非常に高い導入にはそれなりの覚悟が必要

Action

People

Automated Systems

Apps

Web

Mobile

Bots

Intelligence

Dashboards amp Visualizations

Cortana

Bot Framework

Cognitive Services

Power BI

Information Management

Event Hubs

Data Catalog

Data Factory

Machine Learning and Analytics

HDInsight

Stream Analytics

Intelligence

Data Lake Analytics

Machine Learning

Big Data Stores

SQL Data Warehouse

Data Lake Store

Data Sources

Apps

Sensors amp Devices

Data

Cortana Intelligence Suite

学習済み

モデル利用

学習モデル

作成

機械学習 教師あり学習

教師なし学習

強化学習

決定木

線形回帰

SVM

ロジスティック回帰

ニューラルネットワーク

クラスタリング

次元削減

Q学習

K-mean法

主成分分析

正準相関分析

ディープニューラルネットワーク

畳みこみニューラルネットワーク

再帰的ニューラルネットワーク

回帰結合ニューラルネットワーク

httpsazuremicrosoftcomen-usservicescognitive-services

わずか数行のコードで強力なアルゴリズムを持つアプリの作成が可能ですiOSAndroidWindows などのプラットフォームを問わず機能します

httpsazuremicrosoftcomja-jpservicesmachine-learning

ユーザーは簡単に予測分析ソリューションを構築デプロイ共有できます

httpswwwyoutubecomwatchv=9gDDO5ldT-4ampfeature=youtube

AI技術を利用したディープラーニング(深層学習)ツールキットです旧称「CNTK」から改名されました

ソースコード httpsgithubcomMicrosoftCNTK

SearchSpeech

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

コカコーラ誕生100周年キャンペーン

コカコーラボトルを「100歳」と認識

bull 自撮り写真をUp結果をSNS拡散

ナビタイムジャパン様

自然言語入力による路線検索BOT

bull ユーザーとの新たな接点(LINE)

bull 自然言語入力

Vision Language Knowledge

Vision Knowledge SearchSpeech Language

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

Microsoft SupportVirtual Agent

自然言語入力による自動応答サポート窓口

bull 過去QampAデータ解析に基づく回答抽出

bull 定型外はldquo人対応rdquo

UBER

登録ドライバーをスマホ経由で顔認証

VOLVO

表情からの危険予測

Search

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

アロバ様

監視カメラによる店舗内行動分析

bull 顔認識による 顧客識別

bull 表情分析

東京サマーランド様にて導入済み

HmComm様

コールセンターソリューション

bull 会話をテキスト化キーワードを解析

bull 過去QampA検索

bull 内容をCRM保存

Vision KnowledgeSpeech Language

導入事例東京サマーランド様

Video

Intelligent KioskhttpsgithubcomMicrosoftCognitive-Samples-IntelligentKiosk

ldquo(want to|request)rdquo

HoloLens

Page 95: やりたいことから考えるMicrosoft Azure 上の データストアの選び方とデータサイエンティスト向け活用法。KVSからDWHまで

Action

People

Automated Systems

Apps

Web

Mobile

Bots

Intelligence

Dashboards amp Visualizations

Cortana

Bot Framework

Cognitive Services

Power BI

Information Management

Event Hubs

Data Catalog

Data Factory

Machine Learning and Analytics

HDInsight

Stream Analytics

Intelligence

Data Lake Analytics

Machine Learning

Big Data Stores

SQL Data Warehouse

Data Lake Store

Data Sources

Apps

Sensors amp Devices

Data

Cortana Intelligence Suite

学習済み

モデル利用

学習モデル

作成

機械学習 教師あり学習

教師なし学習

強化学習

決定木

線形回帰

SVM

ロジスティック回帰

ニューラルネットワーク

クラスタリング

次元削減

Q学習

K-mean法

主成分分析

正準相関分析

ディープニューラルネットワーク

畳みこみニューラルネットワーク

再帰的ニューラルネットワーク

回帰結合ニューラルネットワーク

httpsazuremicrosoftcomen-usservicescognitive-services

わずか数行のコードで強力なアルゴリズムを持つアプリの作成が可能ですiOSAndroidWindows などのプラットフォームを問わず機能します

httpsazuremicrosoftcomja-jpservicesmachine-learning

ユーザーは簡単に予測分析ソリューションを構築デプロイ共有できます

httpswwwyoutubecomwatchv=9gDDO5ldT-4ampfeature=youtube

AI技術を利用したディープラーニング(深層学習)ツールキットです旧称「CNTK」から改名されました

ソースコード httpsgithubcomMicrosoftCNTK

SearchSpeech

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

コカコーラ誕生100周年キャンペーン

コカコーラボトルを「100歳」と認識

bull 自撮り写真をUp結果をSNS拡散

ナビタイムジャパン様

自然言語入力による路線検索BOT

bull ユーザーとの新たな接点(LINE)

bull 自然言語入力

Vision Language Knowledge

Vision Knowledge SearchSpeech Language

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

Microsoft SupportVirtual Agent

自然言語入力による自動応答サポート窓口

bull 過去QampAデータ解析に基づく回答抽出

bull 定型外はldquo人対応rdquo

UBER

登録ドライバーをスマホ経由で顔認証

VOLVO

表情からの危険予測

Search

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

アロバ様

監視カメラによる店舗内行動分析

bull 顔認識による 顧客識別

bull 表情分析

東京サマーランド様にて導入済み

HmComm様

コールセンターソリューション

bull 会話をテキスト化キーワードを解析

bull 過去QampA検索

bull 内容をCRM保存

Vision KnowledgeSpeech Language

導入事例東京サマーランド様

Video

Intelligent KioskhttpsgithubcomMicrosoftCognitive-Samples-IntelligentKiosk

ldquo(want to|request)rdquo

HoloLens

Page 96: やりたいことから考えるMicrosoft Azure 上の データストアの選び方とデータサイエンティスト向け活用法。KVSからDWHまで

学習済み

モデル利用

学習モデル

作成

機械学習 教師あり学習

教師なし学習

強化学習

決定木

線形回帰

SVM

ロジスティック回帰

ニューラルネットワーク

クラスタリング

次元削減

Q学習

K-mean法

主成分分析

正準相関分析

ディープニューラルネットワーク

畳みこみニューラルネットワーク

再帰的ニューラルネットワーク

回帰結合ニューラルネットワーク

httpsazuremicrosoftcomen-usservicescognitive-services

わずか数行のコードで強力なアルゴリズムを持つアプリの作成が可能ですiOSAndroidWindows などのプラットフォームを問わず機能します

httpsazuremicrosoftcomja-jpservicesmachine-learning

ユーザーは簡単に予測分析ソリューションを構築デプロイ共有できます

httpswwwyoutubecomwatchv=9gDDO5ldT-4ampfeature=youtube

AI技術を利用したディープラーニング(深層学習)ツールキットです旧称「CNTK」から改名されました

ソースコード httpsgithubcomMicrosoftCNTK

SearchSpeech

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

コカコーラ誕生100周年キャンペーン

コカコーラボトルを「100歳」と認識

bull 自撮り写真をUp結果をSNS拡散

ナビタイムジャパン様

自然言語入力による路線検索BOT

bull ユーザーとの新たな接点(LINE)

bull 自然言語入力

Vision Language Knowledge

Vision Knowledge SearchSpeech Language

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

Microsoft SupportVirtual Agent

自然言語入力による自動応答サポート窓口

bull 過去QampAデータ解析に基づく回答抽出

bull 定型外はldquo人対応rdquo

UBER

登録ドライバーをスマホ経由で顔認証

VOLVO

表情からの危険予測

Search

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

アロバ様

監視カメラによる店舗内行動分析

bull 顔認識による 顧客識別

bull 表情分析

東京サマーランド様にて導入済み

HmComm様

コールセンターソリューション

bull 会話をテキスト化キーワードを解析

bull 過去QampA検索

bull 内容をCRM保存

Vision KnowledgeSpeech Language

導入事例東京サマーランド様

Video

Intelligent KioskhttpsgithubcomMicrosoftCognitive-Samples-IntelligentKiosk

ldquo(want to|request)rdquo

HoloLens

Page 97: やりたいことから考えるMicrosoft Azure 上の データストアの選び方とデータサイエンティスト向け活用法。KVSからDWHまで

機械学習 教師あり学習

教師なし学習

強化学習

決定木

線形回帰

SVM

ロジスティック回帰

ニューラルネットワーク

クラスタリング

次元削減

Q学習

K-mean法

主成分分析

正準相関分析

ディープニューラルネットワーク

畳みこみニューラルネットワーク

再帰的ニューラルネットワーク

回帰結合ニューラルネットワーク

httpsazuremicrosoftcomen-usservicescognitive-services

わずか数行のコードで強力なアルゴリズムを持つアプリの作成が可能ですiOSAndroidWindows などのプラットフォームを問わず機能します

httpsazuremicrosoftcomja-jpservicesmachine-learning

ユーザーは簡単に予測分析ソリューションを構築デプロイ共有できます

httpswwwyoutubecomwatchv=9gDDO5ldT-4ampfeature=youtube

AI技術を利用したディープラーニング(深層学習)ツールキットです旧称「CNTK」から改名されました

ソースコード httpsgithubcomMicrosoftCNTK

SearchSpeech

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

コカコーラ誕生100周年キャンペーン

コカコーラボトルを「100歳」と認識

bull 自撮り写真をUp結果をSNS拡散

ナビタイムジャパン様

自然言語入力による路線検索BOT

bull ユーザーとの新たな接点(LINE)

bull 自然言語入力

Vision Language Knowledge

Vision Knowledge SearchSpeech Language

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

Microsoft SupportVirtual Agent

自然言語入力による自動応答サポート窓口

bull 過去QampAデータ解析に基づく回答抽出

bull 定型外はldquo人対応rdquo

UBER

登録ドライバーをスマホ経由で顔認証

VOLVO

表情からの危険予測

Search

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

アロバ様

監視カメラによる店舗内行動分析

bull 顔認識による 顧客識別

bull 表情分析

東京サマーランド様にて導入済み

HmComm様

コールセンターソリューション

bull 会話をテキスト化キーワードを解析

bull 過去QampA検索

bull 内容をCRM保存

Vision KnowledgeSpeech Language

導入事例東京サマーランド様

Video

Intelligent KioskhttpsgithubcomMicrosoftCognitive-Samples-IntelligentKiosk

ldquo(want to|request)rdquo

HoloLens

Page 98: やりたいことから考えるMicrosoft Azure 上の データストアの選び方とデータサイエンティスト向け活用法。KVSからDWHまで

httpsazuremicrosoftcomen-usservicescognitive-services

わずか数行のコードで強力なアルゴリズムを持つアプリの作成が可能ですiOSAndroidWindows などのプラットフォームを問わず機能します

httpsazuremicrosoftcomja-jpservicesmachine-learning

ユーザーは簡単に予測分析ソリューションを構築デプロイ共有できます

httpswwwyoutubecomwatchv=9gDDO5ldT-4ampfeature=youtube

AI技術を利用したディープラーニング(深層学習)ツールキットです旧称「CNTK」から改名されました

ソースコード httpsgithubcomMicrosoftCNTK

SearchSpeech

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

コカコーラ誕生100周年キャンペーン

コカコーラボトルを「100歳」と認識

bull 自撮り写真をUp結果をSNS拡散

ナビタイムジャパン様

自然言語入力による路線検索BOT

bull ユーザーとの新たな接点(LINE)

bull 自然言語入力

Vision Language Knowledge

Vision Knowledge SearchSpeech Language

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

Microsoft SupportVirtual Agent

自然言語入力による自動応答サポート窓口

bull 過去QampAデータ解析に基づく回答抽出

bull 定型外はldquo人対応rdquo

UBER

登録ドライバーをスマホ経由で顔認証

VOLVO

表情からの危険予測

Search

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

アロバ様

監視カメラによる店舗内行動分析

bull 顔認識による 顧客識別

bull 表情分析

東京サマーランド様にて導入済み

HmComm様

コールセンターソリューション

bull 会話をテキスト化キーワードを解析

bull 過去QampA検索

bull 内容をCRM保存

Vision KnowledgeSpeech Language

導入事例東京サマーランド様

Video

Intelligent KioskhttpsgithubcomMicrosoftCognitive-Samples-IntelligentKiosk

ldquo(want to|request)rdquo

HoloLens

Page 99: やりたいことから考えるMicrosoft Azure 上の データストアの選び方とデータサイエンティスト向け活用法。KVSからDWHまで

httpsazuremicrosoftcomja-jpservicesmachine-learning

ユーザーは簡単に予測分析ソリューションを構築デプロイ共有できます

httpswwwyoutubecomwatchv=9gDDO5ldT-4ampfeature=youtube

AI技術を利用したディープラーニング(深層学習)ツールキットです旧称「CNTK」から改名されました

ソースコード httpsgithubcomMicrosoftCNTK

SearchSpeech

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

コカコーラ誕生100周年キャンペーン

コカコーラボトルを「100歳」と認識

bull 自撮り写真をUp結果をSNS拡散

ナビタイムジャパン様

自然言語入力による路線検索BOT

bull ユーザーとの新たな接点(LINE)

bull 自然言語入力

Vision Language Knowledge

Vision Knowledge SearchSpeech Language

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

Microsoft SupportVirtual Agent

自然言語入力による自動応答サポート窓口

bull 過去QampAデータ解析に基づく回答抽出

bull 定型外はldquo人対応rdquo

UBER

登録ドライバーをスマホ経由で顔認証

VOLVO

表情からの危険予測

Search

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

アロバ様

監視カメラによる店舗内行動分析

bull 顔認識による 顧客識別

bull 表情分析

東京サマーランド様にて導入済み

HmComm様

コールセンターソリューション

bull 会話をテキスト化キーワードを解析

bull 過去QampA検索

bull 内容をCRM保存

Vision KnowledgeSpeech Language

導入事例東京サマーランド様

Video

Intelligent KioskhttpsgithubcomMicrosoftCognitive-Samples-IntelligentKiosk

ldquo(want to|request)rdquo

HoloLens

Page 100: やりたいことから考えるMicrosoft Azure 上の データストアの選び方とデータサイエンティスト向け活用法。KVSからDWHまで

httpswwwyoutubecomwatchv=9gDDO5ldT-4ampfeature=youtube

AI技術を利用したディープラーニング(深層学習)ツールキットです旧称「CNTK」から改名されました

ソースコード httpsgithubcomMicrosoftCNTK

SearchSpeech

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

コカコーラ誕生100周年キャンペーン

コカコーラボトルを「100歳」と認識

bull 自撮り写真をUp結果をSNS拡散

ナビタイムジャパン様

自然言語入力による路線検索BOT

bull ユーザーとの新たな接点(LINE)

bull 自然言語入力

Vision Language Knowledge

Vision Knowledge SearchSpeech Language

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

Microsoft SupportVirtual Agent

自然言語入力による自動応答サポート窓口

bull 過去QampAデータ解析に基づく回答抽出

bull 定型外はldquo人対応rdquo

UBER

登録ドライバーをスマホ経由で顔認証

VOLVO

表情からの危険予測

Search

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

アロバ様

監視カメラによる店舗内行動分析

bull 顔認識による 顧客識別

bull 表情分析

東京サマーランド様にて導入済み

HmComm様

コールセンターソリューション

bull 会話をテキスト化キーワードを解析

bull 過去QampA検索

bull 内容をCRM保存

Vision KnowledgeSpeech Language

導入事例東京サマーランド様

Video

Intelligent KioskhttpsgithubcomMicrosoftCognitive-Samples-IntelligentKiosk

ldquo(want to|request)rdquo

HoloLens

Page 101: やりたいことから考えるMicrosoft Azure 上の データストアの選び方とデータサイエンティスト向け活用法。KVSからDWHまで

SearchSpeech

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

コカコーラ誕生100周年キャンペーン

コカコーラボトルを「100歳」と認識

bull 自撮り写真をUp結果をSNS拡散

ナビタイムジャパン様

自然言語入力による路線検索BOT

bull ユーザーとの新たな接点(LINE)

bull 自然言語入力

Vision Language Knowledge

Vision Knowledge SearchSpeech Language

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

Microsoft SupportVirtual Agent

自然言語入力による自動応答サポート窓口

bull 過去QampAデータ解析に基づく回答抽出

bull 定型外はldquo人対応rdquo

UBER

登録ドライバーをスマホ経由で顔認証

VOLVO

表情からの危険予測

Search

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

アロバ様

監視カメラによる店舗内行動分析

bull 顔認識による 顧客識別

bull 表情分析

東京サマーランド様にて導入済み

HmComm様

コールセンターソリューション

bull 会話をテキスト化キーワードを解析

bull 過去QampA検索

bull 内容をCRM保存

Vision KnowledgeSpeech Language

導入事例東京サマーランド様

Video

Intelligent KioskhttpsgithubcomMicrosoftCognitive-Samples-IntelligentKiosk

ldquo(want to|request)rdquo

HoloLens

Page 102: やりたいことから考えるMicrosoft Azure 上の データストアの選び方とデータサイエンティスト向け活用法。KVSからDWHまで

Vision Knowledge SearchSpeech Language

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

Microsoft SupportVirtual Agent

自然言語入力による自動応答サポート窓口

bull 過去QampAデータ解析に基づく回答抽出

bull 定型外はldquo人対応rdquo

UBER

登録ドライバーをスマホ経由で顔認証

VOLVO

表情からの危険予測

Search

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

アロバ様

監視カメラによる店舗内行動分析

bull 顔認識による 顧客識別

bull 表情分析

東京サマーランド様にて導入済み

HmComm様

コールセンターソリューション

bull 会話をテキスト化キーワードを解析

bull 過去QampA検索

bull 内容をCRM保存

Vision KnowledgeSpeech Language

導入事例東京サマーランド様

Video

Intelligent KioskhttpsgithubcomMicrosoftCognitive-Samples-IntelligentKiosk

ldquo(want to|request)rdquo

HoloLens

Page 103: やりたいことから考えるMicrosoft Azure 上の データストアの選び方とデータサイエンティスト向け活用法。KVSからDWHまで

Search

マーケティング (Buzz)

新規チャネル

定型業務の削減

新たな解決方法

製品の評価分析

お客様対応の向上

アロバ様

監視カメラによる店舗内行動分析

bull 顔認識による 顧客識別

bull 表情分析

東京サマーランド様にて導入済み

HmComm様

コールセンターソリューション

bull 会話をテキスト化キーワードを解析

bull 過去QampA検索

bull 内容をCRM保存

Vision KnowledgeSpeech Language

導入事例東京サマーランド様

Video

Intelligent KioskhttpsgithubcomMicrosoftCognitive-Samples-IntelligentKiosk

ldquo(want to|request)rdquo

HoloLens

Page 104: やりたいことから考えるMicrosoft Azure 上の データストアの選び方とデータサイエンティスト向け活用法。KVSからDWHまで

導入事例東京サマーランド様

Video

Intelligent KioskhttpsgithubcomMicrosoftCognitive-Samples-IntelligentKiosk

ldquo(want to|request)rdquo

HoloLens

Page 105: やりたいことから考えるMicrosoft Azure 上の データストアの選び方とデータサイエンティスト向け活用法。KVSからDWHまで

Video

Intelligent KioskhttpsgithubcomMicrosoftCognitive-Samples-IntelligentKiosk

ldquo(want to|request)rdquo

HoloLens

Page 106: やりたいことから考えるMicrosoft Azure 上の データストアの選び方とデータサイエンティスト向け活用法。KVSからDWHまで

ldquo(want to|request)rdquo

HoloLens

Page 107: やりたいことから考えるMicrosoft Azure 上の データストアの選び方とデータサイエンティスト向け活用法。KVSからDWHまで