awsでのデータ収集、分析、そして機械学習自己紹介 山﨑翔太...
TRANSCRIPT
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.S U M M I T
AWSでのデータ収集、分析、そして機械学習
アマゾン ウェブ サービス ジャパン 株式会社 技術統括本部ソリューションアーキテクト
山﨑 翔太
C 2 - 0 5 / M 2 - 0 9
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.S U M M I T
自己紹介
山﨑 翔太
ソリューションアーキテクト
• AWS上で新しい仕組みを作るお手伝い
• データの流れ や 分散処理 の設計が好き
好きな言葉• “There is always a better way.”
by Thomas A. Edison
好きなAWSサービス• Amazon Kinesis Family & AWS Lambda
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.S U M M I T
本セッションの内容
1.データ活用の流れ と データレイク
2.最初のデータ活用フローの構築
3.機械学習の活用
4.まとめ
お話ししないこと• 各AWSサービスの詳しい説明
• データレイク設計や機械学習の詳しい説明
S U M M I T © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.S U M M I T
データ活用の流れ
データに基づいて意思決定をするために、
過去を蓄積することで、現在を理解し、未来を予測する
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.S U M M I T
例:ECサイトのデータ活用
データに基づいて意思決定をする
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.S U M M I T
例:ECサイトのデータ活用
過去を蓄積することで
意思決定をする
現在を理解し
未来・未知を予測し
人間が予測
(機械の予測結果を元にして)
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.S U M M I T
必要となる技術要素
過去を蓄積することで
意思決定をする
現在を理解し
未来・未知を予測し
人間が予測
(機械の予測結果を元にして)
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.S U M M I T
データに基づいた意思決定に必要なこと
• 十分な質と量のデータ
• データ分析や機械学習を行う仕組み
• 評価指標とそれを計測する仕組み
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.S U M M I T
データに基づいた意思決定に必要なこと
1. ビジネス課題
2. データ収集
3. データ分析or 機械学習
4. 評価
ビジネス課題からスタート する
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.S U M M I T
最も時間がかかるところはどこか?
売上実績
何が売れそうか?
現在を理解し過去の蓄積
現在の理解
未来・未知の予測
捨ててしまったデータ= 失われた時間
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.S U M M I T
やりたいことは後から必ず変わる、増える
売上実績
何が売れそうか?
現在を理解し
New!
New!
New!
改善!
拡張!
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.S U M M I T
………
データレイク
• すべてのデータを一箇所に集めて、そのままの形式で保存
• データレイクからデータを読み出して、新しいデータ活用を素早く簡単に実行
データベース
ログファイル
IoTデバイス
メディアデータ
データウェアハウス
機械学習
可視化
分析
データレイクをデータ活用の基盤とする
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.S U M M I T
データレイクに最適な Amazon S3
1. データを任意のファイル形式で保存
2. 容量の上限無し
3. 高い耐久性:99.999999999%
4. 低コスト:$0.025/GB/月*
5. 多様な権限管理や暗号化によるセキュリティ
6. APIにより様々なプログラム言語やサービスと連携
Amazon Simple Storage Service (S3) は、データを、安全に、容量制限なく、保存することが可能な、
クラウド時代のオブジェクトストレージ
Amazon S3
PUT
GET
* 2019年6月時点の東京リージョンでの標準ストレージの料金です
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.S U M M I T
多くのお客様が AWS でデータ活用を実現10,000 以上のデータレイクが AWS 上に構築
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.S U M M I T
S3 を中心に様々なデータ活用のサービスと連携
Amazon S3
データ分析
Amazon EMR
Amazon Athena
AmazonRedshift
データアーカイブ
Amazon S3 Glacier
IoT
AWS IoT Core Amazon Kinesis
ETL
AWS GlueAWS
Lambda
コンテンツ配信
Amazon CloudFront
可視化・BI
Amazon QuickSight
Amazon Elasticsearch
Service
データ転送・バックアップ
AWS Snowball
AWS Storage Gateway
AWS Backup
機械学習・AIサービス
Amazon SageMaker
Amazon Comprehend
Amazon Forecast
Amazon Rekognition
Amazon Personalize
Amazon Textract
データカタログ
AWS Glue Amazon RDS
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.S U M M I T
AWS のサービスを補完する多くのパートナー
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.S U M M I T
何からやるべきか?
データベース
データ活用は、常にビジネス課題からスタート
ログファイルAmazon S3
(最初のデータレイク)
意思決定と評価
まずは、一本のデータ活用フローを作ってみる
データを早く集め始めることが重要だが、それを目的化してはいけない
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.S U M M I T
何からやるべきか?
データベース
データ活用は、常にビジネス課題からスタート
ログファイル
意思決定と評価
まずは、一本のデータ活用フローを作ってみる
ループを回して、徐々に意思決定プロセスや評価指標を明確化する
データを早く集め始めることが重要だが、それを目的化してはいけない
Amazon S3(最初のデータレイク)
S U M M I T © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.S U M M I T
データ活用フロー設計のポイント
1. 万能なツールは存在しない✓ 適切なツールを適切な対象に適用 する
2. やりたいことは変わる✓ やりたいことに集中して素早く試行錯誤が
できるように マネージドサービス で作る
3. 扱いたいデータ量も変わる✓ スケールアウトするように サーバーレス で作る
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.S U M M I T
マネージドサービス と サーバーレス
電源・ネットワーク
ラッキング
HWメンテナンス
OSパッチ
ミドルウェアパッチ
定形運用設計
スケールアウト設計
ミドルウェア導入
OS導入
アプリケーション開発
オンプレミス 独自構築 on EC2 マネージドサービス
開発者が担当
AWSが担当
電源・ネットワーク
ラッキング
HWメンテナンス
OSパッチ
ミドルウェアパッチ
定形運用設計
スケールアウト設計
ミドルウェア導入
OS導入
アプリケーション開発
電源・ネットワーク
ラッキング
HWメンテナンス
OSパッチ
ミドルウェアパッチ
定形運用設計
スケールアウト設計
ミドルウェア導入
OS導入
アプリケーション開発
サーバーレス
電源・ネットワーク
ラッキング
HWメンテナンス
OSパッチ
ミドルウェアパッチ
定形運用設計
スケールアウト設計
ミドルウェア導入
OS導入
アプリケーション開発
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.S U M M I T
サーバーレスとは
プロビジョニングや管理対象のサーバを持たない
使用量に応じて自動でスケールする
アイドル状態ではコストがかからない
可用性や耐障害性がビルトインで備わっている
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.S U M M I T
………
データレイクデータベース
ログファイル
IoTデバイス
メディアデータ
データウェアハウス
機械学習
可視化
分析
データ活用フロー設計の順序
①② ③
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.S U M M I T
誰がどのようにデータを利用するか? - 分析基盤
• Hadoop/Sparkで分析
• アプリケーションをエンジニアが実装
• (高度な) SQLで分析• 管理者がクラスターを運用• 利用者はデータを分析
• SQLで分析
• 分析環境を意識せず利用者が簡単に利用
低 中 高
クエリサービス データウェアハウス Hadoopクラスター
Amazon Athena Amazon Redshift Amazon EMR
開発と運用のコスト
サーバーレス
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.S U M M I T
誰がどのようにデータを利用するか? - 分析ツール
• Jupyter Notebook を使い Python で分析
• データサイエンティストが活用
• 多数の表に跨がる分析やリアルタイムに近い分析
• データアナリストが活用
• BIの画面で分析
• グラフィカルに可視化
• 非エンジニアが参照
BIサービス SQL Client / 分析ツール ノートブック環境
Amazon QuickSight Amazon Elasticsearch Service
Amazon SageMaker3rd Party Tools
低 中 高分析の自由度必要なスキル
サーバーレス
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.S U M M I T
Amazon QuickSight - サーバーレスのBIサービス
ブラウザのみで全機能が利用可能
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.S U M M I T
構成例1:QuickSight のみで簡単BI
Amazon QuickSight
CSV
CSV
S3上のデータを定期取り込み
CSV
CSV
手元のファイルをアップロード
ブラウザでBIを利用
Amazon S3
CSV
CSV
インメモリ計算エンジン
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.S U M M I T
構成例2:QuickSight + Athena で大規模対応
Amazon QuickSight
CSV
CSV
一部のデータは QuickSightに取り込んで高速化
表ブラウザでBIを利用
Amazon S3
表
直接 Athena をクエリ
CSV
CSV
Amazon Athena
大規模データであってもサーバーレスでBI環境を実現
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.S U M M I T
………
データレイクデータベース
ログファイル
IoTデバイス
メディアデータ
データウェアハウス
機械学習
可視化
分析
データ活用フロー設計の順序
①② ③
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.S U M M I T
目指すデータ活用から必要なデータ収集を考える
• どのデータを、どこから、どのくらいの細かさと頻度で集めるか
• あとから増やせないので、可能な限り細かく データを取る方が良い
Amazon KinesisData Firehose Amazon S3
Amazon RDS
AWS Glue
ログデータ IoTデータ データベース 任意のデータファイル
ストリームデータの受信とバッファリング
ダンプファイル
AWS IoT Core
バルクインポート
SDK
直接S3にPUT
DB on EC2/オンプレミス
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.S U M M I T
必要であればデータ変換 (ETL) を行う
• JSON / XML のような半構造化データをParquet のような構造化データに変換
• 日付のフォーマットやカラムの外れ値処理などのデータ整形
• 複数のデータソースから収集したデータの結合
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.S U M M I T
ETL処理もサーバーレスが基本方針
• 大規模な処理• データをまとめて処理
• 中規模な処理• データをまとめて処理
• 15分以内の小規模な処理• S3に置かれたら逐次処理
AWS Lambda AWS GluePython Shell
AWS GlueSpark Job
データを変換する Pythonのコード のみを実装NumPy、SciPy、Pandas などのライブラリも利用可能
小 中 大データの規模実装コスト
PySpark や Scalaで実装
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.S U M M I T
シンプルなデータ活用フローの例
Amazon Athena
Amazon QuickSight
AWS Glue
AWS Lambda
ETL
Amazon KinesisData Firehose
Amazon S3
Amazon RDS
ログデータ
ダンプファイル
Amazon S3
データベース
バッファリング
ブラウザでBIを利用
ETL
全ての要素をサーバーレスで実現
S U M M I T © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.S U M M I T
機械学習の基本的な流れ
データ 学習 推論
Amazon S3
過去を蓄積することで 意思決定をする未来・未知を予測し
モデル
アルゴリズム
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.S U M M I T
機械学習を活用する意味を考える
• 機械学習の全てを、自社で行う必要があるとは限らない
• クラウドサービス や アルゴリズム・モデルの公開化 が進み、実装の難易度は下がる一方で、データの重要性は増している
機械学習も、常にビジネス課題からスタート
コンピュータビジョン、自然言語処理、時系列予測、異常検知、レコメンデーション など…
機械学習で解ける(解けそうな)問題を理解する
注力する領域を決める
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.S U M M I T
QuickSight ML Insights
専門家不要で使える
インサイト(洞察)機能を提供
1. 機械学習ベースの異常検知自動的に異常値を発見して報告
2. 機械学習ベースの予測過去の値から将来を予測
3. 自動ナラティブ分かりやすい文章で分析結果を提供
2019/03/14 に一般利用が可能に
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.S U M M I T
R E K O G N I T I O NI M A G E
P O L L Y T R A N S C R I B E T R A N S L A T E C O M P R E H E N D L E XR E K O G N I T I O NV I D E O
Vis ion S peech L ang uag e
A M A Z O N S A G E M A K E R
開 発 学 習
F O R E C A S T
F orecast ing
T E X T R A C T P E R S O N A L I Z E
Recommendat ions
推 論 ・ デ プ ロ イ
Pre - bu i l t a lg or i t hms & not ebooks
Dat a labe l ing ( G R O U N D T R U T H )
One - c l i ck mode l t ra in ing & t un ing
Opt imiz at ion ( N E O )
One - c l i ck dep loyment & host ing
フレームワーク インタフェース インフラストラクチャ
E C 2 P 3 & P 3 N
E C 2 C 5 F P G A s G R E E N G R A S S E L A S T I CI N F E R E N C E
Re inforcement learn ingAlg or i t hms & mode ls ( A W S M A R K E T P L A C E F O R M A C H I N E L E A R N I N G )
AWS が提供する機械学習サービスのスタック
AIサービス
MLサービス
MLフレームワーク &インフラストラクチャ
機械学習の深いスキルなしに、機械学習をアプリケーションに組み込める
機械学習のモデルを高速に開発・学習・デプロイできる
高性能なインフラストラクチャを自由に選ぶことができる
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.S U M M I T
R E K O G N I T I O NI M A G E
P O L L Y T R A N S C R I B E T R A N S L A T E C O M P R E H E N D L E XR E K O G N I T I O NV I D E O
Vis ion S peech L ang uag e
A M A Z O N S A G E M A K E R
開 発 学 習
F O R E C A S T
F orecast ing
T E X T R A C T P E R S O N A L I Z E
Recommendat ions
推 論 ・ デ プ ロ イ
Pre - bu i l t a lg or i t hms & not ebooks
Dat a labe l ing ( G R O U N D T R U T H )
One - c l i ck mode l t ra in ing & t un ing
Opt imiz at ion ( N E O )
One - c l i ck dep loyment & host ing
フレームワーク インタフェース インフラストラクチャ
E C 2 P 3 & P 3 N
E C 2 C 5 F P G A s G R E E N G R A S S E L A S T I CI N F E R E N C E
Re inforcement learn ingAlg or i t hms & mode ls ( A W S M A R K E T P L A C E F O R M A C H I N E L E A R N I N G )
AWS が提供する機械学習サービスのスタック
AIサービス
MLサービス
MLフレームワーク &インフラストラクチャ
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.S U M M I T
R E K O G N I T I O NI M A G E
P O L L Y T R A N S C R I B E T R A N S L A T E C O M P R E H E N D L E XR E K O G N I T I O NV I D E O
Vis ion S peech L ang uag e
A M A Z O N S A G E M A K E R
開 発 学 習
F O R E C A S T
F orecast ing
T E X T R A C T P E R S O N A L I Z E
Recommendat ions
推 論 ・ デ プ ロ イ
Pre - bu i l t a lg or i t hms & not ebooks
Dat a labe l ing ( G R O U N D T R U T H )
One - c l i ck mode l t ra in ing & t un ing
Opt imiz at ion ( N E O )
One - c l i ck dep loyment & host ing
フレームワーク インタフェース インフラストラクチャ
E C 2 P 3 & P 3 N
E C 2 C 5 F P G A s G R E E N G R A S S E L A S T I CI N F E R E N C E
Re inforcement learn ingAlg or i t hms & mode ls ( A W S M A R K E T P L A C E F O R M A C H I N E L E A R N I N G )
AWS が提供する機械学習サービスのスタック
AIサービス
MLサービス
MLフレームワーク &インフラストラクチャ
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.S U M M I T
Amazon Rekognition
画像に関するさまざまな認識機能を API で提供し、アプリケーションに簡単に追加
物体・シーン・動作認識 顔認識 顔分析
イメージモデレーション 有名人認識 画像内のテキスト認識
Deep Learning による画像認識サービス
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.S U M M I T
アクティビティ ストリームビュー・サインイン・コンバージョン等
在庫ビデオ・製品・記事等
カスタマイズされたレコメンデーション
API
ユーザープロファイルデータ(オプション)名前・年齢・場所等
1. データの読み込み
2. データの検査
3. 特徴の認識
4. アルゴリズムの選択
5. ハイパーパラメータの選択
6. モデルの学習
7. モデルの最適化
8. モデルの保存
9. デプロイとモデルのホスト
10.リアルタイムキャッシュの作成
Amazon PersonalizeAmazon S3
データ
機械学習の経験が不要なレコメンデーションサービス
2019/06/10 に一般利用が可能に
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.S U M M I T
モデル開発
学習モデル変換・推論
ラベリング
Amazon SageMaker機械学習のワークフロー全体をカバーするマネージドサービス
Amazon S3元データ
学習データ モデル
推論用データ
Amazon SageMaker
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.S U M M I T
解きたい問題とスキルに合わせてツールを選択
Amazon SageMaker
低 中 高活用の自由度必要なスキル
学習されたモデルを利用 サービスでモデルを学習して利用
推論のAIサービス 学習と推論のAIサービス MLサービス
アルゴリズムを実装/利用して自分でモデルを学習
• Amazon Rekognition• Amazon Translate…
• Amazon Personalize• Amazon Forecast…
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.S U M M I T
機械学習の活用例
Amazon Athena
Amazon QuickSight
AWS Glue
Amazon KinesisData Firehose
Amazon S3
アプリケーションサーバ
Amazon SageMaker
Amazon Personalize 学習推論
データの蓄積
継続的なサイクル
ETL(前処理)
ユーザーの属性や行動履歴に応じたリアルタイムなコンテンツ推薦
S U M M I T © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.S U M M I T
本セッションのまとめ
1. 常にビジネス課題からスタート• データを早く集め始めることが重要だが、それを目的化してはいけない
• まずは一本のデータ活用フローを組んでみる
2. データレイクはデータ活用の基盤• 将来の手を広げるためにも、Amazon S3 にデータを蓄積する
3. 目的と使う人に合ったツールを選択• 誰が使うものなのかを意識し、どこに注力するのかを決める
• マネージドサービス と サーバーレス を活用して素早くデータ活用を実現する
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.S U M M I T
まずはデータを見えるようにすることから
Amazon Athena
Amazon QuickSight
AWS Glue
AWS Lambda
ETL
Amazon KinesisData Firehose
Amazon S3
Amazon RDS
ログデータ
ダンプファイル
Amazon S3
データベース
バッファリング
ブラウザでBIを利用
ETL
全ての要素をサーバーレスで実現
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.S U M M I T
関連セッション
1. 【初級】AWSで構築するデータレイク基盤概要とアーキテクチャ例のご紹介⚫ C2-02: Day2 11:00-11:40
2. 【初級】AWS の機械学習サービス入門⚫ C2-04: Day2 13:00-13:40 / K2-09: Day2 18:00-18:40(再演)
3. 【お客様登壇】来たるべきAI時代のための「イケてる」データ基盤の作り方⚫ L3-02: Day3 13:00-13:40 株式会社リコー様
より詳しく聞きたい方へ✓ データレイク構築における成功の秘訣 ~マインドと進め方、設計ベストプラクティス~
⚫ A2-04: Day2 13:00-13:40
✓ 機械学習の実運用でよくある課題と、AWS を使った解決方法・事例紹介⚫ A2-06: Day2 15:00-15:40 / G2-09: Day2 18:00-18:40(再演)
✓ SageMaker Deep Dive⚫ A2-08: Day2 17:00-17:40
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.S U M M I T
AWS を活用して、データ活用の第一歩を!
Thank you!
S U M M I T © 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.
Shota Yamazaki(山﨑 翔太)