20161214 re growth-sapporo

33
1 Copylight © Classmethod, Inc. ビックデータ観点で見た AWS re:Invent 2016 re:Growth 2016 Sapporo 1 2016.12.14 クラスメソッド株式会社 石川 覚

Upload: satoru-ishikawa

Post on 16-Apr-2017

264 views

Category:

Data & Analytics


3 download

TRANSCRIPT

Page 1: 20161214 re growth-sapporo

1Copylight © Classmethod, Inc.

ビックデータ観点で見たAWS re:Invent 2016

re:Growth 2016 Sapporo

1

2016.12.14 クラスメソッド株式会社

石川 覚

Page 2: 20161214 re growth-sapporo

2Copylight © Classmethod, Inc.

自己紹介

石川 覚 (いしかわ さとる)

• データインテグレーション部

• 昨年インフラエンジニアからビックデータへ

• メーカー系SE、ベンチャーを経てCMに

• AWS全般、Redshift,Tableau,EMR

• マイブームは Amazon Athena

クラスメソッド株式会社

ソリューションアーキテクト

Page 3: 20161214 re growth-sapporo

3Copylight © Classmethod, Inc.

アジェンダ

• 新サービスのピックアップ

Amazon Glue•

Amazon Athena•

最後• に

Page 4: 20161214 re growth-sapporo

4Copylight © Classmethod, Inc.

新サービスのピックアップ

Page 5: 20161214 re growth-sapporo

5Copylight © Classmethod, Inc.

新サービス

1. AWS Organizations

2. AWS Service Delivery Program

3. AWS Partner Solutions Finder

4. Amazon Aurora PostgreSQL-Compatible Edition

5. Amazon Rekognition

6. Amazon Lex

7. Amazon Polly

8. Amazon Athena

9. Amazon LightSail

10. AWS Greengrass

11. AWS Batch

12. AWS Step Functions

13. AWS CodeBuild

14. AWS X-Ray

15. AWS Pinpoint

16. AWS Shield

17. AWS Glue

18. AWS Personal Health Dashboard

19. …

Page 6: 20161214 re growth-sapporo

6Copylight © Classmethod, Inc.

新サービス

1. AWS Organizations

2. AWS Service Delivery Program

3. AWS Partner Solutions Finder

4. Amazon Aurora PostgreSQL-Compatible Edition [Coming Soon]5. Amazon Rekognition

6. Amazon Lex

7. Amazon Polly

8. Amazon Athena [GA]9. Amazon LightSail

10. AWS Greengrass

11. AWS Batch [Coming Soon]

12. AWS Step Functions [GA]13. AWS CodeBuild

14. AWS X-Ray

15. AWS Pinpoint [Coming Soon]

16. AWS Shield

17. AWS Glue [Coming Soon]18. AWS Personal Health Dashboard

19. …

Page 7: 20161214 re growth-sapporo

7Copylight © Classmethod, Inc.

新サービス

1. AWS Organizations

2. AWS Service Delivery Program

3. AWS Partner Solutions Finder

4. Amazon Aurora PostgreSQL-Compatible Edition [Preview]5. Amazon Rekognition

6. Amazon Lex

7. Amazon Polly

8. Amazon Athena [GA]9. Amazon LightSail

10. AWS Greengrass

11. AWS Batch [Coming Soon]

12. AWS Step Functions [GA]13. AWS CodeBuild

14. AWS X-Ray

15. AWS Pinpoint [Coming Soon]

16. AWS Shield

17. AWS Glue [Coming Soon]18. AWS Personal Health Dashboard

19. …

• 従来のPostgreSQLと比較して2倍以上のパフォーマンス

• PostgreSQL 9.6.1• 互換他のAWSサービスとの統合

Page 8: 20161214 re growth-sapporo

8Copylight © Classmethod, Inc.

新サービス

1. AWS Organizations

2. AWS Service Delivery Program

3. AWS Partner Solutions Finder

4. Amazon Aurora PostgreSQL-Compatible Edition [Preview]5. Amazon Rekognition

6. Amazon Lex

7. Amazon Polly

8. Amazon Athena [GA]9. Amazon LightSail

10. AWS Greengrass

11. AWS Batch [Preview]

12. AWS Step Functions [GA]13. AWS CodeBuild

14. AWS X-Ray

15. AWS Pinpoint [Coming Soon]

16. AWS Shield

17. AWS Glue [Coming Soon]18. AWS Personal Health Dashboard

19. …

スケーラブルかつ• 、完全マネージド型バッチ処理サービス

Page 9: 20161214 re growth-sapporo

9Copylight © Classmethod, Inc.

新サービス

1. AWS Organizations

2. AWS Service Delivery Program

3. AWS Partner Solutions Finder

4. Amazon Aurora PostgreSQL-Compatible Edition [Preview]5. Amazon Rekognition

6. Amazon Lex

7. Amazon Polly

8. Amazon Athena [GA]9. Amazon LightSail

10. AWS Greengrass

11. AWS Batch [Preview]

12. AWS Step Functions [GA]13. AWS CodeBuild

14. AWS X-Ray

15. AWS Pinpoint [Coming Soon]

16. AWS Shield

17. AWS Glue [Coming Soon]18. AWS Personal Health Dashboard

19. …

• 視覚的なワークフローを使用して分散アプリケーションを構築・運用できるサービス

Page 10: 20161214 re growth-sapporo

10Copylight © Classmethod, Inc.

新サービス

1. AWS Organizations

2. AWS Service Delivery Program

3. AWS Partner Solutions Finder

4. Amazon Aurora PostgreSQL-Compatible Edition [Coming Soon]5. Amazon Rekognition

6. Amazon Lex

7. Amazon Polly

8. Amazon Athena [GA]9. Amazon LightSail

10. AWS Greengrass

11. AWS Batch [Coming Soon]

12. AWS Step Functions [GA]13. AWS CodeBuild

14. AWS X-Ray

15. AWS Pinpoint [Coming Soon]

16. AWS Shield

17. AWS Glue [Coming Soon]18. AWS Personal Health Dashboard

19. …

本日はこの2つをご紹介

Page 11: 20161214 re growth-sapporo

11Copylight © Classmethod, Inc.

Amazon Glue

Page 12: 20161214 re growth-sapporo

12Copylight © Classmethod, Inc.

AWS Glueとは

『データストア間でデータ移動を簡単に行うための完全マネージド型 ETL サービス』

3つの機能を提供

• Data Catalog Job

• Authoring Job

• Execution

困難で時間のかかるデータ検出、変換、マッピング、ジョブスケジューリングのタスクを自動化

Page 13: 20161214 re growth-sapporo

13Copylight © Classmethod, Inc.

Data Catalog

『データ検索と型定義を自動化』

• Hiveメタストア互換のメタデータ リポジトリ

• 予め設定していたデータソースのメタ情報を定期的に取得

データソースの理解、分析用データの準備、データソースから宛先へ信頼性の高いロードを実行

Page 14: 20161214 re growth-sapporo

14Copylight © Classmethod, Inc.

Data Catalog

『パーティション情報の自動検知と更新』

Page 15: 20161214 re growth-sapporo

15Copylight © Classmethod, Inc.

Job Authoring

『データ連携のロジックを自動生成』

• データ連携のためのPythonコード (PySpark)を自動生成

• 任意のIDEで改造し、Gitで共有

Page 16: 20161214 re growth-sapporo

16Copylight © Classmethod, Inc.

Job Authoring

『データ連携のロジックを自動生成、コード生成』

Page 17: 20161214 re growth-sapporo

17Copylight © Classmethod, Inc.

Job Execution

『データドリブン、スケジュールベースにスケーラブルなジョブ実行』

Page 18: 20161214 re growth-sapporo

18Copylight © Classmethod, Inc.

Coming Soon

Page 19: 20161214 re growth-sapporo

19Copylight © Classmethod, Inc.

Amazon Athena

Page 20: 20161214 re growth-sapporo

20Copylight © Classmethod, Inc.

Amazon Athena とは

標準SQLを用いてAmazon S3上にあるデータ を簡単に分析できるインタラクティブなクエリサービス

ザックリ表現で、

「S3のデータに、

直接SQL投げられるサービス」

マネジメントコンソールで• 数アクション

標準• SQLでアドホッククエリ実行

結果• は数秒

Page 21: 20161214 re growth-sapporo

21Copylight © Classmethod, Inc.

特長

• すぐ使える、直接クエリできる– データのロードが不要

– Athenaにデータを移す必要がない

– S3上のファイルにテーブル定義を適用するだけで、ファイルに変更を加える必要なく、高速にクエリを実行可能

• サーバレス– セットアップや管理用インフラは不要

– 高可用性、運用性

• 数秒で結果が得られる– クエリを自動で並列化し、何百、何千コアに 並列分

散し、高速処理

Page 22: 20161214 re growth-sapporo

22Copylight © Classmethod, Inc.

データソース

• 分散SQLエンジンPrestoでクエリ実行• Hive メタストアがベース(Hive DDL)

• 様々なデータフォーマットに対応– JSON、CSV、TSV、ログファイル、AWS サービスログ、カス

タム区切りのテキスト、 Apache Parquet、Apache ORC、AVRO(Coming Soon) 等

• 圧縮フォーマットもサポート– Snappy、Zlib、GZIP

• 結果はS3に保管される– s3://aws-athena-query-results-<account-id>-

<region>/Unsaved– S3_Staging_dir

Page 23: 20161214 re growth-sapporo

23Copylight © Classmethod, Inc.

S3

• S3へのストリームデータも対応

複数– ファイルに対応することで実現

Athena• 未対応リージョンのS3に対しても実行可能

東京– リージョンのバケットに対して利用可能

– 異なるリージョンのデータ転送費用が必要

従量課金•

実行– したクエリのみ課金

Page 24: 20161214 re growth-sapporo

24Copylight © Classmethod, Inc.

連携・接続

• Amazon QuickSightとの連携(Coming Soon?)

• JDBC接続

– Amazon Athena用のJDBCドライバはS3で公開済み

– WorkbenchなどSQLクライアントやJavaアプリケーションからクエリ実行可能

Page 25: 20161214 re growth-sapporo

25Copylight © Classmethod, Inc.

データのパーティショニング

• データを分割することのメリット

– パフォーマンスが向上

– コストを削減

– クエリのスキャンしたデータの量を制限

• 要件

– 想定したルールでパーティションデータを格納

– テーブル定義後、またはパーティションデータ追加後にパーティション構成の反映が必要

Page 26: 20161214 re growth-sapporo

26Copylight © Classmethod, Inc.

データのパーティショニング

パ• ーティション化されている場合フォルダが– 「/<カラム名>=<分割文字列>」形式

テーブル– 定義で PARTITIONED BY (dt string)

テーブル– 定義後 MSCK REPAIR TABLE <テーブル名>;を実行

パ• ーティションの考慮がない場合(ELBログ等)フォルダが– 「/YYYY/MM/DD」のような場合

パーティションデータ– 毎に ALTER TABLE elb_logs_raw_native_part ADD PARTITION (year=‘2015’,month=‘01’,day=‘01’) location ‘s3://athena-examples/elb/plaintext/2015/01/01/‘;を実行

Page 27: 20161214 re growth-sapporo

27Copylight © Classmethod, Inc.

利用費

• 実行したクエリのみに対する課金

• 各クエリでスキャンされたデータ量

• S3上のデータ1TBスキャン毎に$5

• 失敗クエリは課金対象外

• 異なるリージョンのデータ転送費用が必要

例. 0.33TBのデータスキャンに対して「$1.67」

$1.67 = 0.33TB * $5/TB

Page 28: 20161214 re growth-sapporo

28Copylight © Classmethod, Inc.

利用費削減のポイント

• データ圧縮

• カラムナフォーマット

– Parquet等の利用でデータ転送量を縮小し、データスキャンを縮小

– (必ずしもParquetの方が速くなる訳では無い)

• パーティショニング

– スキャン対象を指定

利用費削減 ≒ スキャン対象の削減

Page 29: 20161214 re growth-sapporo

29Copylight © Classmethod, Inc.

Athenaの利用用途

データレイク• (in S3)のデータ分析向け

実行頻度• の少ない大きなデータのクエリで強みが活かされる

ETL• 済みデータの参照用途での利用が想定されている

JDBC• ドライバ経由の参照

更新系• クエリに対応していないので、一時テーブル、中間テーブルが利用しないで済む用途

Page 30: 20161214 re growth-sapporo

30Copylight © Classmethod, Inc.

適切な選択

• Amazon Redshift– データウェアハウス

– 膨大な構造化データに対して複雑なクエリに対して高速に 結果を得られる

• Amazon EMR– Hadoop, Spark, Presto等の利用

– これらの分散処理フレームワークを効率的に高いコスト効率で利用できる

• Amazon Athena– データレイク(in S3)

– S3へのアドホッククエリを実行する最も簡単な方法要件や環境に応じた最適な選択

Page 31: 20161214 re growth-sapporo

31Copylight © Classmethod, Inc.

今すぐ、ご利用可能です! [GA]

Page 32: 20161214 re growth-sapporo

32Copylight © Classmethod, Inc.

最後に

データレイクは• Amazon Athena、データウェアハウスは Amazon Redshift

高度• かつ大規模なデータ分析は Amazon EMR

これらを• 効果的に連携するのが、Amazon Glue

Hadoopのエコシステムを活用して、ストレージとコンピューティングを分離した費用対効果の高いデータ分析基盤の提供が可能になりました。

Page 33: 20161214 re growth-sapporo

33Copylight © Classmethod, Inc.

ご清聴ありがとうございました。