(2017.6.2) azure hdinsightで実現するスケーラブル分析環境

32
Copyright 2017 CREATIONLINE, INC. All Rights Reserved Azure HDInsightで実現するスケーラブル分析環境 クリエーションライン株式会社 Data Engineering Team - Director, シニアコンサルタント 木内 満歳 1

Upload: mitsutoshi-kiuchi

Post on 21-Jan-2018

89 views

Category:

Data & Analytics


0 download

TRANSCRIPT

Page 1: (2017.6.2) Azure HDInsightで実現するスケーラブル分析環境

Copyright ⓒ2017 CREATIONLINE, INC. All Rights Reserved

Azure HDInsightで実現するスケーラブル分析環境

クリエーションライン株式会社Data Engineering Team - Director, シニアコンサルタント

木内 満歳

1

Page 2: (2017.6.2) Azure HDInsightで実現するスケーラブル分析環境

Copyright ⓒ2017 CREATIONLINE, INC. All Rights Reserved

自己紹介 木内 満歳(きうち みつとし)

クリエーションライン株式会社 Data Engineering Team - Director,

兼シニアコンサルタント

Slideshare: http://www.slideshare.net/mkiuchi4

各種寄稿

a. gihyo.jp: “Mesosphere DCOSでつくるクラウドアプリケーション”

b. 日経クラウドファースト2016年6月 “Azure IoT Suiteの評価”

c. Codezine: “機械学習をクラウドで手軽に体験! BluemixのApache Sparkで異常

なセンサーデータを洗い出す”

各種講演a. Developer Summit 2016 Summer

b. 日経BP社 “パブリッククラウド導入の企画提案力養成講座”

c. Cloudweek Hokkaido 2015/2016

d. 政策研究大学院大学科学技術イノベーション政策研究センター「科学技術イノベーション政策のための科学オープンフォーラム」

専門分野:Apache Mesos, Apache Spark, 分散コンピューティング, クラウドコンピューテ

ィング, NoSQL DB, グラフDB

O’reilley Certified Developer on Apache Spark

Docker Certified Technical Trainer

2

Page 3: (2017.6.2) Azure HDInsightで実現するスケーラブル分析環境

Copyright ⓒ2017 CREATIONLINE, INC. All Rights Reserved

2006年1月設立拠点: 東京都神田佐久間町(秋葉原)

社員数: 35(業務委託・BP含め 60人)

主な業務:クラウド基盤コンサルティング・アプリケーション開発・運用IoT/ビッグデータ基盤構築、データ分析サービスアジャイル開発/DevOps開発/CI/CDに関するコンサルティング

クリエーションライン株式会社

3

Page 4: (2017.6.2) Azure HDInsightで実現するスケーラブル分析環境

Copyright ⓒ2017 CREATIONLINE, INC. All Rights Reserved

主な取扱い製品

クラウド基盤・アジャイル開発支援

データ分析基盤

4

Page 5: (2017.6.2) Azure HDInsightで実現するスケーラブル分析環境

Copyright ⓒ2017 CREATIONLINE, INC. All Rights Reserved

アルパイン株式会社伊藤忠テクノソリューションズ株式会社エヌ・ティ・ティ・コミュニケーションズ株式会社株式会社エヌ・ティ・ティ・データKDDI株式会社シトリックス・システムズ・ジャパン株式会社セコムトラストシステムズ株式会社ソフトバンクグループ株式会社ソフトバンク・テクノロジー株式会社TIS株式会社株式会社電通国際情報サービス西日本電信電話株式会社(NTT西日本)

日本アイ・ビー・エム株式会社日本電気株式会社日本ヒューレット・パッカード株式会社日本マイクロソフト株式会社ネットワンシステムズ株式会社株式会社日立製作所三菱電機インフォメーションネットワーク株式会社三菱電機ビルテクノサービス株式会社株式会社リクルートテクノロジーズレッドハット株式会社(五十音順)

主要取引先主要取引先

5

Page 6: (2017.6.2) Azure HDInsightで実現するスケーラブル分析環境

Copyright ⓒ2017 CREATIONLINE, INC. All Rights Reserved

コミュニティとともに常に最先端を歩んでいます

6

技術ブログ “CL Lab”:

https://www.creationline.com/lab

Page 7: (2017.6.2) Azure HDInsightで実現するスケーラブル分析環境

Copyright ⓒ2017 CREATIONLINE, INC. All Rights Reserved

Agenda

• なぜオンプレミスHadoopではなくAzure HDInsightを選択するのか

• ストーリーに即したテクノロジーの適用

– セールスダッシュボード

– 分散処理+データマート

– データのライフサイクルに合わせたストレージ選択

•デモ

•Key Takeout

7

Page 8: (2017.6.2) Azure HDInsightで実現するスケーラブル分析環境

Copyright ⓒ2017 CREATIONLINE, INC. All Rights Reserved

なぜオンプレミスHadoopではなくAzure HDInsightを選択するのか

8

Page 9: (2017.6.2) Azure HDInsightで実現するスケーラブル分析環境

Copyright ⓒ2017 CREATIONLINE, INC. All Rights Reserved

Azure HDInsightを選択するメリット

• CAPEXをOPEX化することによる費用最適化

– 高速な環境のデプロイと破棄によるオンデマンド環境

– ダッシュボードとの直接接続

– データライフサイクルに合わせた最適ストレージ戦略

•SQL on HadoopによるスケーラブルOLAP環境

– Hive on Tezによる高速DB

– Spark SQLによる移植性の高いスケーラブルETL環境

9

Page 10: (2017.6.2) Azure HDInsightで実現するスケーラブル分析環境

Copyright ⓒ2017 CREATIONLINE, INC. All Rights Reserved

CAPEXをOPEX化することによる費用最適化

(例) 下記要件を実現するシステムの5年間のTCOを試算• データソース: ID-POS

•店数: 10,000店•店あたりの来客数: 10,000人/日/店舗

• データ量: 64byte/購入(1回のPOSトランザクション)

• 処理– ダッシュボード数: 合計10種類– 期間: 直近1日(DB=3)、1週間(DB=3)、1ヶ月(DB=4)

• 処理– ダッシュボード数: 合計10種類– 期間: 直近1日(DB=3)、1週間(DB=3)、1ヶ月(DB=4)

1ヶ月 1年 5年

データ量 18GB 218GB 1PB

行数 300M 3B 18B

[データサイズ]

10

Page 11: (2017.6.2) Azure HDInsightで実現するスケーラブル分析環境

Copyright ⓒ2017 CREATIONLINE, INC. All Rights Reserved

CAPEXをOPEX化することによる費用最適化

オンプレミス約2.9億円

Azure

約1.1億円

5年間のTCO比較

約40%(-60%)

11

Page 12: (2017.6.2) Azure HDInsightで実現するスケーラブル分析環境

Copyright ⓒ2017 CREATIONLINE, INC. All Rights Reserved

CAPEXをOPEX化することによる費用最適化

オンプレミス Azure

一括投資は経営に大きな負担

約40%(-60%)莫大な初期投資経営に大きな負担3億円/回の出費出費の妥当性・・・一度購入したら5年間変更不可

月額精算経営負荷低150万円/月方針転換の容易性

ITベンダーのコメントをうのみにせず、「貴社の”今のコスト”が最小化する戦略を採るべき」。技術は3〜5年で代替わり。5年後には骨董品に・・・ 12

Page 13: (2017.6.2) Azure HDInsightで実現するスケーラブル分析環境

Copyright ⓒ2017 CREATIONLINE, INC. All Rights Reserved

高速な環境のデプロイと破棄によるオンデマンド処理

14:00 17:00 22:00 6:00 11:00 14:00

オンプレミス

Azu

re

コスト発生時間

コスト発生時間 コスト発生時間

日時データの投入 日時バッチ完了 修正バッチ開始

修正バッチ完了

Dashboard展開

経営会議

(例) 毎日14:00の経営会議に合わせてダッシュボード(前日売上速報)を作成

役員にダッシュボード展開

13

Page 14: (2017.6.2) Azure HDInsightで実現するスケーラブル分析環境

Copyright ⓒ2017 CREATIONLINE, INC. All Rights Reserved

ダッシュボードとの直接接続

従来のワークフロー

transaction analyticsprocess mart

SQL on Hadoopによるデータ統合

transaction analytics

兼mart

process

14

Page 15: (2017.6.2) Azure HDInsightで実現するスケーラブル分析環境

Copyright ⓒ2017 CREATIONLINE, INC. All Rights Reserved

データライフサイクルに合わせた最適ストレージ戦略

SQL on Hadoopによるデータ統合 + データライフサイクルに合わせた最適ストレージ戦略

transaction analytics

兼mart

process

mart

archive

(Warm, Cold)

15

Page 16: (2017.6.2) Azure HDInsightで実現するスケーラブル分析環境

Copyright ⓒ2017 CREATIONLINE, INC. All Rights Reserved

データライフサイクルに合わせた最適ストレージ戦略

SQL on Hadoopによるデータ統合 + データライフサイクルに合わせた最適ストレージ戦略

transaction analytics

兼mart

process

mart

archive自社オンプレミス

Azure ExpressRoute

Azure HDInsight

Azure Storage

Azure CosmosDB

Azure DataWarehouse

Microsoft PowerBI

Microsoft Azure

Hive on Tez

SparkSQL(DirectQuery)

Azure DataLake

Azure SQL Database

16

Page 17: (2017.6.2) Azure HDInsightで実現するスケーラブル分析環境

Copyright ⓒ2017 CREATIONLINE, INC. All Rights Reserved

ストーリーに即したテクノロジーの適用

17

Page 18: (2017.6.2) Azure HDInsightで実現するスケーラブル分析環境

Copyright ⓒ2017 CREATIONLINE, INC. All Rights Reserved

セールスダッシュボード

Hiveの高速化: Hive on TezStingerイニシアティブ: Hiveパフォーマンスを100倍向上させるための取込2013年2月から、2014年4月にかけて目標達成

カラムナストレージ

ORCfile

SQLエンジンの改良

ベクタライズドSQLエンジン

分散実行

Apache Tez

= 100倍の高速化を実現

18

Page 19: (2017.6.2) Azure HDInsightで実現するスケーラブル分析環境

Copyright ⓒ2017 CREATIONLINE, INC. All Rights Reserved

状況によって選択できるデータパス

Azure HDInsight

Hive DB

ORCFile

ODBCドライバ

ODBCドライバ

19

Page 20: (2017.6.2) Azure HDInsightで実現するスケーラブル分析環境

Copyright ⓒ2017 CREATIONLINE, INC. All Rights Reserved

分散処理+データマート

SparkSQLによる互換性の高い分散SQLSQL:2003準拠。Spark 2.0で実装オンメモリ処理、TEMPORALY TABLEの排除で高速なETL処理

153分

5分

SQL書換ほぼ不要で約30倍の高速化を達成

RDB+SQL 分散DB+SparkSQL

20

Page 21: (2017.6.2) Azure HDInsightで実現するスケーラブル分析環境

Copyright ⓒ2017 CREATIONLINE, INC. All Rights Reserved

データのライフサイクルに合わせたストレージ選択

Hot Warm Cold

Azure HDInsight

Azure

DataWarehouse

Azure

Storage

Azure

SQL Database

Azure

CosmosDB

Azure

Data Lake

Azure

ExpressRoute

+

自社NAS

21

Page 22: (2017.6.2) Azure HDInsightで実現するスケーラブル分析環境

Copyright ⓒ2017 CREATIONLINE, INC. All Rights Reserved

デモ:

PowerBIからHive DBへの接続HDInsight Apache Sparkを活用した分散ETL

22

Page 23: (2017.6.2) Azure HDInsightで実現するスケーラブル分析環境

Copyright ⓒ2017 CREATIONLINE, INC. All Rights Reserved

データセット: NYC Taxi Dataset

● 2009年以降のニューヨーク市におけるタクシー運行ログ

● CSV形式

[今回使用したもの]

● 2009年1月~2016年12月のyellow cab運行ログ● 2013年8月〜2016年12月のgreen cab運行ログ

○ 行数: 約 13 億行○ サイズ: 約 215 GB(CSV時)

○ カラム数: 19

■ 乗車位置、降車位置■ 乗車・降車日時■ 客数■ 料金(チップなどを含む)http://www.nyc.gov/html/tlc/html/about/trip_record_data.shtml

23

Page 24: (2017.6.2) Azure HDInsightで実現するスケーラブル分析環境

Copyright ⓒ2017 CREATIONLINE, INC. All Rights Reserved

デモ解説

24

• グリーン・タクシー(ボロ・タクシー)とは– ニューヨーク市のタクシーの一形態である。ボロ・タクシーはマンハッタン以外の区

(outer boroughs) およびマンハッタンの東96丁目または西110丁目以北で客を乗せる(通りの呼び止めまたは電話呼び出しで拾う)ことが許可されているタクシーである。車体の色は青リンゴ色で、ニューヨーク市の伝統的なイエロー・キャブと見分けられるようになっている。

– 従来は車体を独特の黄色に塗装した"メダリオン・タクシー(イエロー・キャブ)" のみが通りでの乗客の呼び止めに応じて拾うことが許可されていたが、GPSを用いたタクシーの運行状況の解析結果、

イエローキャブの乗客のピックアップの95%はマンハッタンの96丁目以南、JFK空港、およびラガーディア空港で行われており、アウター・ボロウ(クイーンズ、ブルックリン、ブロンクス、スタテン・アイランド)では乗客がほとんど正規のタクシーにアクセスできていないことが判明した。NY市は2012年4月に

タクシー制度を改定し、市民サービスの向上、新規市場の開拓、税収増加を目的として結果新たに6,000台、後に18,000台のボロ・タクシーを認可する旨を発表した。

– しかしこの計画には紆余曲折があった。2012年8月にはニューヨーク州高等裁判所がボロ・タクシ

ーの導入にストップをかけた。従来イエロー・キャブのライセンスは高額で取引されており、イエローキャブのドライバーにとっては重要な資産となっており、その価値の下落を恐れたドライバー組合がボロ・タクシー導入に反対の立場をとったからである。州高裁の判断はその後州控訴裁で棄

却されている。これに応じてNY市は2013年夏に最初の6,000台のボロ・タクシーを認可している【参考】1: https://ja.wikipedia.org/wiki/%E3%83%9C%E3%83%AD%E3%83%BB%E3%82%BF%E3%82%AF%E3%82%B7%E3%83%BC

2: http://www.clair.or.jp/j/forum/c_mailmagazine/201302_2/2-7.pdf

Page 25: (2017.6.2) Azure HDInsightで実現するスケーラブル分析環境

Copyright ⓒ2017 CREATIONLINE, INC. All Rights Reserved

デモで見ること

• 事実の確認

– イエロー・キャブのピックアップ位置

• “乗客のピックアップの95%はマンハッタンの96丁目以南、JFK

空港、およびラガーディア空港で行われている”のか?

– 対するボロ・タクシーのピックアップ位置

•新規市場開拓の有無と既存ステークホルダーへの影響

– ボロ・タクシーが出現したのち、イエロー・キャブの売り上げに影響

を及ぼしたのか?

– ボロ・タクシーとイエロー・キャブの売上額に差はあるのか?

25

Page 26: (2017.6.2) Azure HDInsightで実現するスケーラブル分析環境

Copyright ⓒ2017 CREATIONLINE, INC. All Rights Reserved

環境: Azure 東日本リージョン

Azure HDInsight

Master x2, Worker x4

- HDI 3.5

- Spark 1.6(Thrift Server)

- Hive 1.2.1.2.5, Tez 0.7.0.2.5

ssh

Web(Portal, Ambari, Hive, Jupyter)

PowerBI(DirectQuery)

Hive DB

ORCFile

26

Azure Storage Blob(コールドデータ)

CSV

(yellowcab)

CSV

(green cab)

Page 27: (2017.6.2) Azure HDInsightで実現するスケーラブル分析環境

Copyright ⓒ2017 CREATIONLINE, INC. All Rights Reserved

デモ(1):

PowerBIからHive DBへの接続

27

Page 28: (2017.6.2) Azure HDInsightで実現するスケーラブル分析環境

Copyright ⓒ2017 CREATIONLINE, INC. All Rights Reserved

デモ(2):

HDInsight Apache Sparkを活用した分散ETL

28

Page 29: (2017.6.2) Azure HDInsightで実現するスケーラブル分析環境

Copyright ⓒ2017 CREATIONLINE, INC. All Rights Reserved

デモ(2):

HDInsight Apache Sparkを活用した分散ETL

29

• ETL処理時間: 約 2 時間

Page 30: (2017.6.2) Azure HDInsightで実現するスケーラブル分析環境

Copyright ⓒ2017 CREATIONLINE, INC. All Rights Reserved

デモまとめ

• 事実の確認

– イエロー・キャブのピックアップ位置

• “乗客のピックアップの95%はマンハッタンの96丁目以南、JFK空港、およびラガー

ディア空港で行われている”のか?⇨確かにほとんどのピックアップは空港、マン

ハッタンで行われていた

– 対するボロ・タクシーのピックアップ位置

•新規市場開拓の有無と既存ステークホルダーへの影響

– ボロ・タクシーが出現したのちイエロー・キャブの売り上げに影響を及ぼしたのか?

– ボロ・タクシーとイエロー・キャブの売上額に差はあるのか?

⇨データから、既存ステークホルダーへの影響は軽微であり、新規市場が形成されたことを確

認できた。ボロ・タクシーはイエロー・キャブと同等の売り上げを達成しており、決して「2

級タクシー」ではないことがわかった

30

Page 31: (2017.6.2) Azure HDInsightで実現するスケーラブル分析環境

Copyright ⓒ2017 CREATIONLINE, INC. All Rights Reserved

Key Takeout

• 昨今のデータ爆発により、モノリシックRDBテクノロジーはダッシュボードのバックエンド、

ETLエンジン、いずれの場合においても実効性もしくは費用対効果に課題があります。Azure

HDInsightが提供するテクノロジーは費用対効果に優れたダッシュボードDB、スケールアウト

ETLエンジンを実現します

• Microsoft Azureクラウドの利点であるオンデマンド配備により、負荷が必要なタイミングで処

理エンジンを配備できるため、TCOを改善し莫大なCAPEX管理の負担から開放されます

• Azure HDInsightとAzure SQLServerと併用することで、既存のワークフローを変更することな

くクラウドと分散分析処理の恩恵を享受することができます

• Azure Data Lake, Azure Storage, Azure ExpressRouteなどのソリューションと併用することで、

データライフサイクルに合わせた最適ストレージを選択し、Hidden Costを最小化することがで

きます

31

Page 32: (2017.6.2) Azure HDInsightで実現するスケーラブル分析環境

Copyright ⓒ2017 CREATIONLINE, INC. All Rights Reserved 32