エンタープライズデータレイク構築事例€¦ ·...

86
1 Copyright © 2019 BeeX Inc. All Rights Reserved. デジタル化への第一歩 エンタープライズデータレイク構築事例 ご紹介

Upload: others

Post on 14-Jul-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: エンタープライズデータレイク構築事例€¦ · SQL利用を想定したデータ保管 メタデータ (データの概要、オーナー、更新日等) DB,テーブル構造・型情報

1Copyright © 2019 BeeX Inc. All Rights Reserved.

デジタル化への第一歩

エンタープライズデータレイク構築事例ご紹介

Page 2: エンタープライズデータレイク構築事例€¦ · SQL利用を想定したデータ保管 メタデータ (データの概要、オーナー、更新日等) DB,テーブル構造・型情報

2Copyright © 2019 BeeX Inc. All Rights Reserved.

事例プロジェクトの背景

Page 3: エンタープライズデータレイク構築事例€¦ · SQL利用を想定したデータ保管 メタデータ (データの概要、オーナー、更新日等) DB,テーブル構造・型情報

3Copyright © 2019 BeeX Inc. All Rights Reserved.

データドリブンな経営の実現を目指して

文化

データドリブンな経営

勘よりデータ

Page 4: エンタープライズデータレイク構築事例€¦ · SQL利用を想定したデータ保管 メタデータ (データの概要、オーナー、更新日等) DB,テーブル構造・型情報

4Copyright © 2019 BeeX Inc. All Rights Reserved.

データドリブンな経営の実現を目指して

スキル

文化

データドリブンな経営

勘よりデータ

分析できる人

Page 5: エンタープライズデータレイク構築事例€¦ · SQL利用を想定したデータ保管 メタデータ (データの概要、オーナー、更新日等) DB,テーブル構造・型情報

5Copyright © 2019 BeeX Inc. All Rights Reserved.

データドリブンな経営の実現を目指して

データ

スキル

文化

データドリブンな経営

「データ」にフォーカス

勘よりデータ

分析できる人

分析するデータ

Page 6: エンタープライズデータレイク構築事例€¦ · SQL利用を想定したデータ保管 メタデータ (データの概要、オーナー、更新日等) DB,テーブル構造・型情報

6Copyright © 2019 BeeX Inc. All Rights Reserved.

データレイク(Data Lake)

Page 7: エンタープライズデータレイク構築事例€¦ · SQL利用を想定したデータ保管 メタデータ (データの概要、オーナー、更新日等) DB,テーブル構造・型情報

7Copyright © 2019 BeeX Inc. All Rights Reserved.

AWS様ページより引用

データレイクとは

データレイクは、規模にかかわらず、すべての構造化データと非構造化データを保存できる一元化されたリポジトリ

です。データをそのままの形で保存できるため、データを構造化しておく必要がありません。また、ダッシュボードや可視化、ビッグデータ処理、リアルタイム分析、機械学習など、さまざまなタイプの分析を実行し、的確な意思決定に役立てることができます。

引用元:https://aws.amazon.com/jp/big-data/datalakes-and-analytics/what-is-a-data-lake/

Page 8: エンタープライズデータレイク構築事例€¦ · SQL利用を想定したデータ保管 メタデータ (データの概要、オーナー、更新日等) DB,テーブル構造・型情報

8Copyright © 2019 BeeX Inc. All Rights Reserved.

AWS様ページより引用

データレイクとは

データレイクは、規模にかかわらず、すべての構造化データと非構造化データを保存できる一元化されたリポジトリ

です。データをそのままの形で保存できるため、データを構造化しておく必要がありません。また、ダッシュボードや可視化、ビッグデータ処理、リアルタイム分析、機械学習など、さまざまなタイプの分析を実行し、的確な意思決定に役立てることができます。

引用元:https://aws.amazon.com/jp/big-data/datalakes-and-analytics/what-is-a-data-lake/

どんな「大きさ」、「種類」のデータもそのまま入れられ、適宜取り出せる場所

Page 9: エンタープライズデータレイク構築事例€¦ · SQL利用を想定したデータ保管 メタデータ (データの概要、オーナー、更新日等) DB,テーブル構造・型情報

9Copyright © 2019 BeeX Inc. All Rights Reserved.

エンタープライズ・データレイク構築事例

Page 10: エンタープライズデータレイク構築事例€¦ · SQL利用を想定したデータ保管 メタデータ (データの概要、オーナー、更新日等) DB,テーブル構造・型情報

10Copyright © 2019 BeeX Inc. All Rights Reserved.

「データ」における課題とエンタープライズ・データレイク

多種多様なレガシーシステム企業の中核データ

顧客マスタ

取引伝票

工場毎に異なるライン

事業所固有システム

SAP

Page 11: エンタープライズデータレイク構築事例€¦ · SQL利用を想定したデータ保管 メタデータ (データの概要、オーナー、更新日等) DB,テーブル構造・型情報

11Copyright © 2019 BeeX Inc. All Rights Reserved.

「データ」における課題とエンタープライズ・データレイク

多種多様なレガシーシステム

データを利用したいのは

一般ユーザ

≠データサイエンティスト

企業の中核データ

顧客マスタ

取引伝票

工場毎に異なるライン

事業所固有システム

SAP

Page 12: エンタープライズデータレイク構築事例€¦ · SQL利用を想定したデータ保管 メタデータ (データの概要、オーナー、更新日等) DB,テーブル構造・型情報

12Copyright © 2019 BeeX Inc. All Rights Reserved.

「データ」における課題とエンタープライズ・データレイク

多種多様なレガシーシステム

データを利用したいのは

一般ユーザ

≠データサイエンティスト

企業の中核データ

顧客マスタ

取引伝票

工場毎に異なるライン

事業所固有システム

SAP

Page 13: エンタープライズデータレイク構築事例€¦ · SQL利用を想定したデータ保管 メタデータ (データの概要、オーナー、更新日等) DB,テーブル構造・型情報

13Copyright © 2019 BeeX Inc. All Rights Reserved.

「データ」における課題とエンタープライズ・データレイク

多種多様なレガシーシステム

データを利用したいのは

一般ユーザ

≠データサイエンティスト

組織を跨がる全社データ活用

企業の中核データ

顧客マスタ

取引伝票

工場毎に異なるライン

事業所固有システム

SAP

Page 14: エンタープライズデータレイク構築事例€¦ · SQL利用を想定したデータ保管 メタデータ (データの概要、オーナー、更新日等) DB,テーブル構造・型情報

14Copyright © 2019 BeeX Inc. All Rights Reserved.

「データ」における課題とエンタープライズ・データレイク

多種多様なレガシーシステム

データを利用したいのは

一般ユーザ

≠データサイエンティスト

組織を跨がる全社データ活用

企業の中核データ

顧客マスタ

取引伝票

工場毎に異なるライン

事業所固有システム

SAP

Page 15: エンタープライズデータレイク構築事例€¦ · SQL利用を想定したデータ保管 メタデータ (データの概要、オーナー、更新日等) DB,テーブル構造・型情報

15Copyright © 2019 BeeX Inc. All Rights Reserved.

「データ」における課題とエンタープライズ・データレイク

多種多様なレガシーシステム

データを利用したいのは

一般ユーザ

≠データサイエンティスト

組織を跨がる全社データ活用

企業の中核データ

顧客マスタ

取引伝票

工場毎に異なるライン

事業所固有システム

SAP

Page 16: エンタープライズデータレイク構築事例€¦ · SQL利用を想定したデータ保管 メタデータ (データの概要、オーナー、更新日等) DB,テーブル構造・型情報

16Copyright © 2019 BeeX Inc. All Rights Reserved.

「データ」における課題とエンタープライズ・データレイク

多種多様なレガシーシステム

データを利用したいのは

一般ユーザ

≠データサイエンティスト

組織を跨がる全社データ活用

企業の中核データ

顧客マスタ

取引伝票

工場毎に異なるライン

事業所固有システム

使えるデータが

適切に維持・管理されている

SAP

Page 17: エンタープライズデータレイク構築事例€¦ · SQL利用を想定したデータ保管 メタデータ (データの概要、オーナー、更新日等) DB,テーブル構造・型情報

17Copyright © 2019 BeeX Inc. All Rights Reserved.

「データ」における課題とエンタープライズ・データレイク

データを介して「人」と「サービス」をつなぐ

多種多様なレガシーシステム

データを利用したいのは

一般ユーザ

≠データサイエンティスト

組織を跨がる全社データ活用

企業の中核データ

顧客マスタ

取引伝票

工場毎に異なるライン

事業所固有システム

使えるデータが

適切に維持・管理されている

SAP

Page 18: エンタープライズデータレイク構築事例€¦ · SQL利用を想定したデータ保管 メタデータ (データの概要、オーナー、更新日等) DB,テーブル構造・型情報

18Copyright © 2019 BeeX Inc. All Rights Reserved.

データレイクの実装例

Page 19: エンタープライズデータレイク構築事例€¦ · SQL利用を想定したデータ保管 メタデータ (データの概要、オーナー、更新日等) DB,テーブル構造・型情報

19Copyright © 2019 BeeX Inc. All Rights Reserved.

データレイク データの流れ

データレイク

AWSにおけるデータレイクの中心となるサービス

S3

Page 20: エンタープライズデータレイク構築事例€¦ · SQL利用を想定したデータ保管 メタデータ (データの概要、オーナー、更新日等) DB,テーブル構造・型情報

20Copyright © 2019 BeeX Inc. All Rights Reserved.

データレイク データの流れ

保管する

データレイク

Page 21: エンタープライズデータレイク構築事例€¦ · SQL利用を想定したデータ保管 メタデータ (データの概要、オーナー、更新日等) DB,テーブル構造・型情報

21Copyright © 2019 BeeX Inc. All Rights Reserved.

データレイク データの流れ

保管する

データレイク

入れる

アップロード生データ 変換/整形

生データ

Page 22: エンタープライズデータレイク構築事例€¦ · SQL利用を想定したデータ保管 メタデータ (データの概要、オーナー、更新日等) DB,テーブル構造・型情報

22Copyright © 2019 BeeX Inc. All Rights Reserved.

データレイク データの流れ

保管する

データレイク

入れる

アップロード生データ 変換/整形

生データ

使う

読み込み 集計/分析生

Page 23: エンタープライズデータレイク構築事例€¦ · SQL利用を想定したデータ保管 メタデータ (データの概要、オーナー、更新日等) DB,テーブル構造・型情報

23Copyright © 2019 BeeX Inc. All Rights Reserved.

入れる 使う

データレイク データの流れ

アップロード生データ 変換/整形 読み込み 集計/分析

保管する

生データ データレイク

この流れをパイプラインと呼びます

「集計/分析」からパイプラインを遡りながら説明します

Page 24: エンタープライズデータレイク構築事例€¦ · SQL利用を想定したデータ保管 メタデータ (データの概要、オーナー、更新日等) DB,テーブル構造・型情報

24Copyright © 2019 BeeX Inc. All Rights Reserved.

「一般ユーザ」が利用できるデータは?

アップロード生データ 変換/整形 読み込み 集計/分析保管生

Page 25: エンタープライズデータレイク構築事例€¦ · SQL利用を想定したデータ保管 メタデータ (データの概要、オーナー、更新日等) DB,テーブル構造・型情報

25Copyright © 2019 BeeX Inc. All Rights Reserved.

現場での学び

◆ セルフサービスBIが普及• Tableau、 QlikView、 QuickSight等• より製造現場に近い人がBIを使いこなしている

Page 26: エンタープライズデータレイク構築事例€¦ · SQL利用を想定したデータ保管 メタデータ (データの概要、オーナー、更新日等) DB,テーブル構造・型情報

26Copyright © 2019 BeeX Inc. All Rights Reserved.

現場での学び

◆ まずは見える化• 画面を見せることで初めて製造現場側もイメージができる• 見える化できればあとは創意工夫

◆ セルフサービスBIが普及• Tableau、 QlikView、 QuickSight等• より製造現場に近い人がBIを使いこなしている

Page 27: エンタープライズデータレイク構築事例€¦ · SQL利用を想定したデータ保管 メタデータ (データの概要、オーナー、更新日等) DB,テーブル構造・型情報

27Copyright © 2019 BeeX Inc. All Rights Reserved.

「一般ユーザ」が利用できるデータは?

アップロード生データ 変換/整形 読み込み 集計/分析保管

データを利用したいユーザ ≠ データサイエンティスト

少ない

Page 28: エンタープライズデータレイク構築事例€¦ · SQL利用を想定したデータ保管 メタデータ (データの概要、オーナー、更新日等) DB,テーブル構造・型情報

28Copyright © 2019 BeeX Inc. All Rights Reserved.

「一般ユーザ」が利用できるデータは?

アップロード生データ 変換/整形 読み込み 集計/分析保管

Jupyter Notebookを使い

Pythonで分析

データを利用したいユーザ ≠ データサイエンティスト

Page 29: エンタープライズデータレイク構築事例€¦ · SQL利用を想定したデータ保管 メタデータ (データの概要、オーナー、更新日等) DB,テーブル構造・型情報

29Copyright © 2019 BeeX Inc. All Rights Reserved.

「一般ユーザ」が利用できるデータは?

アップロード生データ 変換/整形 読み込み 集計/分析保管

Jupyter Notebookを使い

Pythonで分析

既存のBIツール、

既存のSQLスキルで分析

データを利用したいユーザ ≠ データサイエンティスト

Page 30: エンタープライズデータレイク構築事例€¦ · SQL利用を想定したデータ保管 メタデータ (データの概要、オーナー、更新日等) DB,テーブル構造・型情報

30Copyright © 2019 BeeX Inc. All Rights Reserved.

「一般ユーザ」が利用できるデータは?

アップロード生データ 変換/整形 読み込み 集計/分析保管

Jupyter Notebookを使い

Pythonで分析

既存のBIツール、

既存のSQLスキルで分析

SQLで読み込める形式でデータが保管されていてほしい

データを利用したいユーザ ≠ データサイエンティスト

Page 31: エンタープライズデータレイク構築事例€¦ · SQL利用を想定したデータ保管 メタデータ (データの概要、オーナー、更新日等) DB,テーブル構造・型情報

31Copyright © 2019 BeeX Inc. All Rights Reserved.

SQL利用を想定したデータ保管

アップロード生データ 変換/整形 読み込み 集計/分析保管

SQLで読み込める形式でデータを保管するためには

Page 32: エンタープライズデータレイク構築事例€¦ · SQL利用を想定したデータ保管 メタデータ (データの概要、オーナー、更新日等) DB,テーブル構造・型情報

32Copyright © 2019 BeeX Inc. All Rights Reserved.

SQL利用を想定したデータ保管

DB,テーブル構造・型情報

SQL実行可能な構造

アップロード生データ 変換/整形 読み込み 集計/分析保管生

Page 33: エンタープライズデータレイク構築事例€¦ · SQL利用を想定したデータ保管 メタデータ (データの概要、オーナー、更新日等) DB,テーブル構造・型情報

33Copyright © 2019 BeeX Inc. All Rights Reserved.

SQL利用を想定したデータ保管

DB,テーブル構造・型情報

保管コスト、分析パフォーマンス

SQL実行可能な構造

大容量データへの対応

アップロード生データ 変換/整形 読み込み 集計/分析保管生

Page 34: エンタープライズデータレイク構築事例€¦ · SQL利用を想定したデータ保管 メタデータ (データの概要、オーナー、更新日等) DB,テーブル構造・型情報

34Copyright © 2019 BeeX Inc. All Rights Reserved.

SQL利用を想定したデータ保管

メタデータ(データの概要、オーナー、更新日等)

DB,テーブル構造・型情報

保管コスト、分析パフォーマンス

SQL実行可能な構造

大容量データへの対応

どこに、どんなデータがあるか

アップロード生データ 変換/整形 読み込み 集計/分析保管生

Page 35: エンタープライズデータレイク構築事例€¦ · SQL利用を想定したデータ保管 メタデータ (データの概要、オーナー、更新日等) DB,テーブル構造・型情報

35Copyright © 2019 BeeX Inc. All Rights Reserved.

SQL利用を想定したデータ保管

メタデータ(データの概要、オーナー、更新日等)

DB,テーブル構造・型情報

保管コスト、分析パフォーマンス

AWS Glue

Parquet

SQL実行可能な構造

大容量データへの対応

どこに、どんなデータがあるか

アップロード生データ 変換/整形 読み込み 集計/分析保管生

Page 36: エンタープライズデータレイク構築事例€¦ · SQL利用を想定したデータ保管 メタデータ (データの概要、オーナー、更新日等) DB,テーブル構造・型情報

36Copyright © 2019 BeeX Inc. All Rights Reserved.

SQL利用を想定したデータ保管

メタデータ(データの概要、オーナー、更新日等)

DB,テーブル構造・型情報

保管コスト、分析パフォーマンス

AWS Glue

Parquet

SQL実行可能な構造

大容量データへの対応

どこに、どんなデータがあるか

アップロード生データ 変換/整形 読み込み 集計/分析保管

少し説明

Page 37: エンタープライズデータレイク構築事例€¦ · SQL利用を想定したデータ保管 メタデータ (データの概要、オーナー、更新日等) DB,テーブル構造・型情報

37Copyright © 2019 BeeX Inc. All Rights Reserved.

Apache Parquet(パーケイ)とは

列指向ファイルフォーマットファイル

として扱える

Page 38: エンタープライズデータレイク構築事例€¦ · SQL利用を想定したデータ保管 メタデータ (データの概要、オーナー、更新日等) DB,テーブル構造・型情報

38Copyright © 2019 BeeX Inc. All Rights Reserved.

Apache Parquet(パーケイ)とは

列指向ファイルフォーマット

◆ 列指向(SAP HANAも列指向)

・ 必要な列のみ読み込み(I/O削減)

・ 高圧縮率

◆データの型情報・ String、Int、Boolean,Date、 Decimal型など・ 型毎の最適化 ⇨ 高圧縮率

ファイルとして扱える

男性

女性

男性

02/11

女性

女性

32

45

23

37

28

03/23

11/03

08/06

09/16

男性

女性

男性

02/11

女性

女性

32

45

23

37

28

03/23

11/03

08/06

09/16

行指向(CSV,JSON等) 列指向(Parquet)

Page 39: エンタープライズデータレイク構築事例€¦ · SQL利用を想定したデータ保管 メタデータ (データの概要、オーナー、更新日等) DB,テーブル構造・型情報

39Copyright © 2019 BeeX Inc. All Rights Reserved.

SQL利用を想定したデータ保管

メタデータ(データの概要、オーナー、更新日等)

DB,テーブル構造・型情報

保管コスト、分析パフォーマンス

AWS Glue

Parquet

SQL実行可能な構造

大容量データへの対応

どこに、どんなデータがあるか

アップロード生データ 変換/整形 読み込み 集計/分析保管

変換/整形と合わせて説明

Page 40: エンタープライズデータレイク構築事例€¦ · SQL利用を想定したデータ保管 メタデータ (データの概要、オーナー、更新日等) DB,テーブル構造・型情報

40Copyright © 2019 BeeX Inc. All Rights Reserved.

SQL利用可能な形式に変換するために

アップロード生データ 変換/整形 読み込み 集計/分析保管生

Page 41: エンタープライズデータレイク構築事例€¦ · SQL利用を想定したデータ保管 メタデータ (データの概要、オーナー、更新日等) DB,テーブル構造・型情報

41Copyright © 2019 BeeX Inc. All Rights Reserved.

SQL利用可能な形式に変換するために

アップロード生データ 変換/整形 読み込み 集計/分析保管

簡潔なコードで分散ETL処理記述可能

Page 42: エンタープライズデータレイク構築事例€¦ · SQL利用を想定したデータ保管 メタデータ (データの概要、オーナー、更新日等) DB,テーブル構造・型情報

42Copyright © 2019 BeeX Inc. All Rights Reserved.

SQL利用可能な形式に変換するために

アップロード生データ 変換/整形 読み込み 集計/分析保管

簡潔なコードで分散ETL処理記述可能

AWS Glue

Page 43: エンタープライズデータレイク構築事例€¦ · SQL利用を想定したデータ保管 メタデータ (データの概要、オーナー、更新日等) DB,テーブル構造・型情報

43Copyright © 2019 BeeX Inc. All Rights Reserved.

AWS Glue 利用例 (SQL利用可能な形式に変換)

Page 44: エンタープライズデータレイク構築事例€¦ · SQL利用を想定したデータ保管 メタデータ (データの概要、オーナー、更新日等) DB,テーブル構造・型情報

44Copyright © 2019 BeeX Inc. All Rights Reserved.

AWS Glue 利用例 (SQL利用可能な形式に変換)

生データ アップロード

CSVやJSONなど

no, first_name, last_name1, Hiroki, Masaru2, Tashiro, Hiroki3, Yusuke, Otomo

Page 45: エンタープライズデータレイク構築事例€¦ · SQL利用を想定したデータ保管 メタデータ (データの概要、オーナー、更新日等) DB,テーブル構造・型情報

45Copyright © 2019 BeeX Inc. All Rights Reserved.

AWS Glue 利用例 (SQL利用可能な形式に変換)

生データ アップロード

CSVやJSONなど

Glueクローラー

DB・テーブル構造

カラム名 型

no 整数

first_name 文字列

last_name 文字列

no, first_name, last_name1, Hiroki, Masaru2, Tashiro, Hiroki3, Yusuke, Otomo

Page 46: エンタープライズデータレイク構築事例€¦ · SQL利用を想定したデータ保管 メタデータ (データの概要、オーナー、更新日等) DB,テーブル構造・型情報

46Copyright © 2019 BeeX Inc. All Rights Reserved.

AWS Glue 利用例 (SQL利用可能な形式に変換)

生データ アップロード

CSVやJSONなど

Glueクローラー

DB・テーブル構造

カラム名 型

no 整数

first_name 文字列

last_name 文字列

Glue ETL Job

参照

サーバーレス

no, first_name, last_name1, Hiroki, Masaru2, Tashiro, Hiroki3, Yusuke, Otomo

Page 47: エンタープライズデータレイク構築事例€¦ · SQL利用を想定したデータ保管 メタデータ (データの概要、オーナー、更新日等) DB,テーブル構造・型情報

47Copyright © 2019 BeeX Inc. All Rights Reserved.

AWS Glue 利用例 (SQL利用可能な形式に変換)

生データ アップロード

CSVやJSONなど

Glueクローラー

カラム名 型

no 整数

first_name 文字列

last_name 文字列

Glue ETL Job

参照

サーバーレス

no, first_name, last_name1, Hiroki, Masaru2, Tashiro, Hiroki3, Yusuke, Otomo

DB・テーブル構造

Page 48: エンタープライズデータレイク構築事例€¦ · SQL利用を想定したデータ保管 メタデータ (データの概要、オーナー、更新日等) DB,テーブル構造・型情報

48Copyright © 2019 BeeX Inc. All Rights Reserved.

AWS Glue 利用例 (SQL利用可能な形式に変換)

生データ アップロード

CSVやJSONなど

Glueクローラー

no, first_name, last_name1, Hiroki, Masaru2, Tashiro, Hiroki3, Yusuke, Otomo

カラム名 型

no 整数

first_name 文字列

last_name 文字列

Glue ETL Job

参照

サーバーレス SQLAthena

RedshiftSpectrum

参照

DB・テーブル構造

Page 49: エンタープライズデータレイク構築事例€¦ · SQL利用を想定したデータ保管 メタデータ (データの概要、オーナー、更新日等) DB,テーブル構造・型情報

49Copyright © 2019 BeeX Inc. All Rights Reserved.

標準化された形式・場所に保管するために

アップロード生データ 変換/整形 読み込み 集計/分析保管

簡潔なコードで分散ETL処理記述可能

AWS Glue

・ 高いスケーラビリティ・ 1秒単位の従量課金・ スキーマの自動検出・ 独自ライブラリでコードを簡素化・ RedshiftやAthenaとの連携

Page 50: エンタープライズデータレイク構築事例€¦ · SQL利用を想定したデータ保管 メタデータ (データの概要、オーナー、更新日等) DB,テーブル構造・型情報

50Copyright © 2019 BeeX Inc. All Rights Reserved.

企業内には色々なデータがありパイプラインが多くなる

アップロード

アップロード

アップロード

データレイク

SAP

・・・

・・・

標準化されたディレクトリ構造

Glueによる変換/整形

Page 51: エンタープライズデータレイク構築事例€¦ · SQL利用を想定したデータ保管 メタデータ (データの概要、オーナー、更新日等) DB,テーブル構造・型情報

51Copyright © 2019 BeeX Inc. All Rights Reserved.

企業内には色々なデータがありパイプラインが多くなる

アップロード

アップロード

アップロード

データレイク

SAP

・・・

・・・

標準化されたディレクトリ構造

変換/整形

変換/整形

変換/整形

Page 52: エンタープライズデータレイク構築事例€¦ · SQL利用を想定したデータ保管 メタデータ (データの概要、オーナー、更新日等) DB,テーブル構造・型情報

52Copyright © 2019 BeeX Inc. All Rights Reserved.

標準化された形式・場所に保管するために

アップロード生データ 変換/整形 読み込み 集計/分析保管

簡潔なコードで分散ETL処理記述可能

AWS Glue

課題

・ パイプラインの増加・ 開発工数の増加・ 運用者スキルのバラツキ

・ 高いスケーラビリティ・ 1秒単位の従量課金・ スキーマの自動検出・ 独自ライブラリでコードを簡素化・ RedshiftやAthenaとの連携

Page 53: エンタープライズデータレイク構築事例€¦ · SQL利用を想定したデータ保管 メタデータ (データの概要、オーナー、更新日等) DB,テーブル構造・型情報

53Copyright © 2019 BeeX Inc. All Rights Reserved.

企業内の多様なデータを標準化し保管するために

アップロード生データ 変換/整形 読み込み 集計/分析保管

簡潔なコードで分散ETL処理記述可能

AWS Glue

課題

標準化 自動化

・ パイプラインの増加・ 開発工数の増加・ 運用者スキルのバラツキ

・ 高いスケーラビリティ・ 1秒単位の従量課金・ スキーマの自動検出・ 独自ライブラリでコードを簡素化・ RedshiftやAthenaとの連携

Page 54: エンタープライズデータレイク構築事例€¦ · SQL利用を想定したデータ保管 メタデータ (データの概要、オーナー、更新日等) DB,テーブル構造・型情報

54Copyright © 2019 BeeX Inc. All Rights Reserved.

EXCEL申請書をマスタとすることで定義の標準化・自動化

利用申請書兼データ定義書兼ヒアリングシート

開発ツール

Fluentd

Glue

Redshift

申請書マスターとして設定を生成

設定ファイル生成

Crawler登録

ETLジョブ生成・登録

View定義生成

ユーザ

Page 55: エンタープライズデータレイク構築事例€¦ · SQL利用を想定したデータ保管 メタデータ (データの概要、オーナー、更新日等) DB,テーブル構造・型情報

55Copyright © 2019 BeeX Inc. All Rights Reserved.

企業内の多様なデータを標準化し保管するために

アップロード生データ 変換/整形 読み込み 集計/分析保管

利用申請書

簡潔なコードで分散ETL処理記述可能

AWS Glue

課題

ツール

自動設定

・ パイプラインの増加・ 開発工数の増加・ 運用者スキルのバラツキ

標準化・自動化の仕組みを開発

・ 高いスケーラビリティ・ 1秒単位の従量課金・ スキーマの自動検出・ 独自ライブラリでより簡易なコード・ RedshiftやAthenaとの連携

Page 56: エンタープライズデータレイク構築事例€¦ · SQL利用を想定したデータ保管 メタデータ (データの概要、オーナー、更新日等) DB,テーブル構造・型情報

56Copyright © 2019 BeeX Inc. All Rights Reserved.

ユーザ側のアップロード形式と方式の標準化

アップロード生データ 変換/整形 読み込み 集計/分析保管生

変換処理開発の効率化はしましたが

標準化 自動化

Page 57: エンタープライズデータレイク構築事例€¦ · SQL利用を想定したデータ保管 メタデータ (データの概要、オーナー、更新日等) DB,テーブル構造・型情報

57Copyright © 2019 BeeX Inc. All Rights Reserved.

ユーザ側のアップロード形式と方式の標準化

アップロード生データ 変換/整形 読み込み保管

変換処理はシンプルに保ちたい⇨ 最低限標準化されたフォーマットでアップロード

生 集計/分析

Page 58: エンタープライズデータレイク構築事例€¦ · SQL利用を想定したデータ保管 メタデータ (データの概要、オーナー、更新日等) DB,テーブル構造・型情報

58Copyright © 2019 BeeX Inc. All Rights Reserved.

ユーザ側のアップロード形式と方式の標準化

アップロード生データ 変換/整形 読み込み保管

変換処理はシンプルに保ちたい⇨ 最低限標準化されたフォーマットでアップロード

ユーザ側がデータをアップロードするハードルは下げたい

生 集計/分析

Page 59: エンタープライズデータレイク構築事例€¦ · SQL利用を想定したデータ保管 メタデータ (データの概要、オーナー、更新日等) DB,テーブル構造・型情報

59Copyright © 2019 BeeX Inc. All Rights Reserved.

ユーザ側のアップロード形式と方式の標準化

アップロード生データ 変換/整形 読み込み保管

文字コード UTF-8 等

改行コード CRLF,LF 等

フォーマット CSV,JSON 等

圧縮 GZIP 等

タイムゾーン UTC、JST 等

変換処理をシンプルに保ちたい⇨ 標準フォーマット

生 集計/分析

Page 60: エンタープライズデータレイク構築事例€¦ · SQL利用を想定したデータ保管 メタデータ (データの概要、オーナー、更新日等) DB,テーブル構造・型情報

60Copyright © 2019 BeeX Inc. All Rights Reserved.

ユーザ側のアップロード形式と方式の標準化

アップロード生データ 変換/整形 読み込み保管

文字コード UTF-8 等

改行コード CRLF,LF 等

フォーマット CSV,JSON 等

圧縮 GZIP 等

タイムゾーン UTC、JST 等

アップロード方式の

標準メニュー化

変換処理をシンプルに保ちたい⇨ 標準フォーマット

ユーザ利用のハードルを下げたい

生 集計/分析

Page 61: エンタープライズデータレイク構築事例€¦ · SQL利用を想定したデータ保管 メタデータ (データの概要、オーナー、更新日等) DB,テーブル構造・型情報

61Copyright © 2019 BeeX Inc. All Rights Reserved.

ユーザ側のアップロード形式と方式の標準化

アップロード生データ 変換/整形 読み込み保管

SAPETL

文字コード UTF-8 等

改行コード CRLF,LF 等

フォーマット CSV,JSON 等

圧縮 GZIP 等

タイムゾーン UTC、JST 等

CSV

プロジェクト保有ETLツール

アップロード方式の

標準メニュー化

変換処理をシンプルに保ちたい⇨ 標準フォーマット

ユーザ利用のハードルを下げたい

生 集計/分析

Page 62: エンタープライズデータレイク構築事例€¦ · SQL利用を想定したデータ保管 メタデータ (データの概要、オーナー、更新日等) DB,テーブル構造・型情報

62Copyright © 2019 BeeX Inc. All Rights Reserved.

ユーザ側のアップロード形式と方式の標準化

アップロード生データ 変換/整形 読み込み保管

SAPETL

文字コード UTF-8 等

改行コード CRLF,LF 等

フォーマット CSV,JSON 等

圧縮 GZIP 等

タイムゾーン UTC、JST 等

CSV

DB ETLParquet

GlueのよるDBアクセス

プロジェクト保有ETLツール

アップロード方式の

標準メニュー化

変換処理をシンプルに保ちたい⇨ 標準フォーマット

ユーザ利用のハードルを下げたい

生 集計/分析

Page 63: エンタープライズデータレイク構築事例€¦ · SQL利用を想定したデータ保管 メタデータ (データの概要、オーナー、更新日等) DB,テーブル構造・型情報

63Copyright © 2019 BeeX Inc. All Rights Reserved.

ユーザ側のアップロード形式と方式の標準化

アップロード生データ 変換/整形 読み込み保管

SAPETL

JSON(GZIP)

文字コード UTF-8 等

改行コード CRLF,LF 等

フォーマット CSV,JSON 等

圧縮 GZIP 等

タイムゾーン UTC、JST 等

CSV等

CSV

DB

ログ

DB ETLParquet

汎用用途・OSSFluentd

GlueのよるDBアクセス

プロジェクト保有ETLツール

アップロード方式の

標準メニュー化

変換処理をシンプルに保ちたい⇨ 標準フォーマット

ユーザ利用のハードルを下げたい

生 集計/分析

Page 64: エンタープライズデータレイク構築事例€¦ · SQL利用を想定したデータ保管 メタデータ (データの概要、オーナー、更新日等) DB,テーブル構造・型情報

64Copyright © 2019 BeeX Inc. All Rights Reserved.

データマート

Fluentd

awscli

WinSCP

ETL

A社様データレイク実装例 アーキテクチャ一部抜粋

CSV、JSON等一時保管

Parquet長期保管

変換

Data Lake層 DWH層

Tier1 Tier2

大規模分析層

ETL

RDBMS

Tableau

アプリケーション

ツール

Python

Glueジョブ1日数回

SQLによる分析・集計

Redshift

spectrum他AWSサービス

アップロード生データ 変換/整形 読み込み 集計/分析保管生

Page 65: エンタープライズデータレイク構築事例€¦ · SQL利用を想定したデータ保管 メタデータ (データの概要、オーナー、更新日等) DB,テーブル構造・型情報

65Copyright © 2019 BeeX Inc. All Rights Reserved.

プロジェクトの特徴・進め方

Page 66: エンタープライズデータレイク構築事例€¦ · SQL利用を想定したデータ保管 メタデータ (データの概要、オーナー、更新日等) DB,テーブル構造・型情報

66Copyright © 2019 BeeX Inc. All Rights Reserved.

データドリブンな経営の実現を目指して

データ

スキル

文化

データドリブンな経営

勘よりデータ

分析できる人

分析するデータ

「データ」にフォーカス

Page 67: エンタープライズデータレイク構築事例€¦ · SQL利用を想定したデータ保管 メタデータ (データの概要、オーナー、更新日等) DB,テーブル構造・型情報

67Copyright © 2019 BeeX Inc. All Rights Reserved.

データを介して「人」と「サービス」をつなぐ

多種多様なレガシーシステム

データを利用したいのは一般ユーザ

≠データサイエンティスト

組織を跨がる全社データ活用

企業の中核データ顧客マスタ取引伝票

工場毎に異なるライン事業所固有システム

使えるデータが適切に維持・管理されている

SAP

Page 68: エンタープライズデータレイク構築事例€¦ · SQL利用を想定したデータ保管 メタデータ (データの概要、オーナー、更新日等) DB,テーブル構造・型情報

68Copyright © 2019 BeeX Inc. All Rights Reserved.

データレイクは使ってもらってこそ価値がある

ユーザに使ってもらえるサービスを作る

Page 69: エンタープライズデータレイク構築事例€¦ · SQL利用を想定したデータ保管 メタデータ (データの概要、オーナー、更新日等) DB,テーブル構造・型情報

69Copyright © 2019 BeeX Inc. All Rights Reserved.

当初のプロジェクトはウォーターフォールを想定していた

情シス部門

BeeX

企画

要件定義

設計開発

納品

検収

運用・保守

事業部門

Page 70: エンタープライズデータレイク構築事例€¦ · SQL利用を想定したデータ保管 メタデータ (データの概要、オーナー、更新日等) DB,テーブル構造・型情報

70Copyright © 2019 BeeX Inc. All Rights Reserved.

当初のプロジェクトはウォーターフォールを想定していた

情シス部門

BeeX

特にRedshiftとGlueは開発ペースが早いユーザの利便性が大きく改善する新機能が続々リリース

企画

要件定義

設計開発

納品

検収

運用・保守

事業部門

続々追加される新機能

Page 71: エンタープライズデータレイク構築事例€¦ · SQL利用を想定したデータ保管 メタデータ (データの概要、オーナー、更新日等) DB,テーブル構造・型情報

71Copyright © 2019 BeeX Inc. All Rights Reserved.

当初のプロジェクトはウォーターフォールを想定していた

情シス部門

BeeX

企画

要件定義

設計開発

納品

検収

運用・保守

事業部門

続々追加される新機能

多種多様で形になっていない要件

ユーザは複数部門、要件が形になっていない場合も要件は能動的、積極的に引き出す

特にRedshiftとGlueは開発ペースが早いユーザの利便性が大きく改善する新機能が続々リリース

Page 72: エンタープライズデータレイク構築事例€¦ · SQL利用を想定したデータ保管 メタデータ (データの概要、オーナー、更新日等) DB,テーブル構造・型情報

72Copyright © 2019 BeeX Inc. All Rights Reserved.

当初のプロジェクトはウォーターフォールを想定していた

情シス部門

BeeX

企画

要件定義

設計開発

納品

検収

運用・保守

事業部門

続々追加される新機能

進め方を調整

多種多様で形になっていない要件

ユーザは複数部門、要件が形になっていない場合も要件は能動的、積極的に引き出す

特にRedshiftとGlueは開発ペースが早いユーザの利便性が大きく改善する新機能が続々リリース

Page 73: エンタープライズデータレイク構築事例€¦ · SQL利用を想定したデータ保管 メタデータ (データの概要、オーナー、更新日等) DB,テーブル構造・型情報

73Copyright © 2019 BeeX Inc. All Rights Reserved.

AWSを利用したサービス

社内プロジェクトだが構図はB2B2Cに近い

B

B

C

Page 74: エンタープライズデータレイク構築事例€¦ · SQL利用を想定したデータ保管 メタデータ (データの概要、オーナー、更新日等) DB,テーブル構造・型情報

74Copyright © 2019 BeeX Inc. All Rights Reserved.

AWSを利用したサービス

DataLakeを利用した事業部側プロジェクト

社内プロジェクトだが構図はB2B2Cに近い

B

B

C

Page 75: エンタープライズデータレイク構築事例€¦ · SQL利用を想定したデータ保管 メタデータ (データの概要、オーナー、更新日等) DB,テーブル構造・型情報

75Copyright © 2019 BeeX Inc. All Rights Reserved.

ユーザ側に要件を探しにいく

プロトタイピング

PoC事業部側プロジェクト

・アジャイル的・高速・柔軟・短期・見えるモノ

Page 76: エンタープライズデータレイク構築事例€¦ · SQL利用を想定したデータ保管 メタデータ (データの概要、オーナー、更新日等) DB,テーブル構造・型情報

76Copyright © 2019 BeeX Inc. All Rights Reserved.

ユーザ側に要件を探しにいく

プロトタイピング

PoC事業部側プロジェクト

・アジャイル的・高速・柔軟・短期・見えるモノ

本当のユーザが更に先にいる場合も

Page 77: エンタープライズデータレイク構築事例€¦ · SQL利用を想定したデータ保管 メタデータ (データの概要、オーナー、更新日等) DB,テーブル構造・型情報

77Copyright © 2019 BeeX Inc. All Rights Reserved.

ウォーターフォールとアジャイルのハイブリット的な進め方

標準化設計環境構築 運用設計

要件定義

プロトタイピング

PoC

対話とフィードバック

DataLakeプロジェクト

事業部側プロジェクト

・ウォーターフォール的・着実,正確・高品質,安定・標準化,展開・中長期

・アジャイル的・高速・柔軟・短期・見えるモノ

本当のユーザが更に先にいる場合も

Page 78: エンタープライズデータレイク構築事例€¦ · SQL利用を想定したデータ保管 メタデータ (データの概要、オーナー、更新日等) DB,テーブル構造・型情報

78Copyright © 2019 BeeX Inc. All Rights Reserved.

データマート

Fluentd

awscli

WinSCP

ETL

A社様データレイク実装例

CSV、JSON等一時保管

Parquet長期保管

変換

Data Lake層 DWH層

Tier1 Tier2

大規模分析層

ETL

RDBMS

Tableau

アプリケーション

ツール

Python

Glueジョブ1日数回

SQLによる分析・集計

Redshift

spectrum他AWSサービス

Page 79: エンタープライズデータレイク構築事例€¦ · SQL利用を想定したデータ保管 メタデータ (データの概要、オーナー、更新日等) DB,テーブル構造・型情報

79Copyright © 2019 BeeX Inc. All Rights Reserved.

ニアリアルタイム分析

データマート

Fluentd

awscli

WinSCP

ETL

データレイク実装例 ユースケースを元に見える化層を拡張画像、動画や日誌、非構造化データに関しては別の流れを定義しています

PostgreSQL一時保管

CSV、JSON等一時保管

Parquet長期保管

変換

Data Lake層

Elasticsearch Service

DWH層

Tier1 Tier2

大規模分析層

見える化層

ETL

Fluentd

ETL

RDBMS

Tableau

Browser

アプリケーション

ツール

Python

Glueジョブ1日数回

SQLによる分析・集計

Redshift

spectrum他AWSサービス

他AWSサービス

Page 80: エンタープライズデータレイク構築事例€¦ · SQL利用を想定したデータ保管 メタデータ (データの概要、オーナー、更新日等) DB,テーブル構造・型情報

80Copyright © 2019 BeeX Inc. All Rights Reserved.

ウォーターフォールとアジャイルのハイブリット的な進め方

標準化設計環境構築 運用設計

要件定義

プロトタイピング

PoC

対話とフィードバック 展開

ブラッシュアップ

DataLakeプロジェクト

事業部側プロジェクト

・ウォーターフォール的・着実,正確・高品質,安定・標準化,展開・中長期

・アジャイル的・高速・柔軟・短期・見えるモノ

本当のユーザが更に先にいる場合も本稼働

Page 81: エンタープライズデータレイク構築事例€¦ · SQL利用を想定したデータ保管 メタデータ (データの概要、オーナー、更新日等) DB,テーブル構造・型情報

81Copyright © 2019 BeeX Inc. All Rights Reserved.

データレイクの開発・運用体制データスチュワードチーム

Page 82: エンタープライズデータレイク構築事例€¦ · SQL利用を想定したデータ保管 メタデータ (データの概要、オーナー、更新日等) DB,テーブル構造・型情報

82Copyright © 2019 BeeX Inc. All Rights Reserved.

テクノロジだけではデータレイクを機能させるのは難しい

このデータはデータレイクにどう入れれば良い?

データの内容に誤りがあったから調整したい

青システムのデータを使いたい

他の事業部はどんな使い方してるなかな?

Page 83: エンタープライズデータレイク構築事例€¦ · SQL利用を想定したデータ保管 メタデータ (データの概要、オーナー、更新日等) DB,テーブル構造・型情報

83Copyright © 2019 BeeX Inc. All Rights Reserved.

データスチュワードとは

データスチュワードの主な役割• 核となるメタデータの作成と管理• ルールと標準の文書化• データ品質の問題管理• データガバナンス運営アクティビティの実施※DMBOKより引用

データスチュワード(Data Steward)

組織内のデータ統制を保つ責任を負う役割、組織Data Steward

(執事)

Page 84: エンタープライズデータレイク構築事例€¦ · SQL利用を想定したデータ保管 メタデータ (データの概要、オーナー、更新日等) DB,テーブル構造・型情報

84Copyright © 2019 BeeX Inc. All Rights Reserved.

データスチュワードチームの設置

データスチュワードチームデータの健全性を保ち「データスワンプ」にしない

利用しやすいサービスに

Page 85: エンタープライズデータレイク構築事例€¦ · SQL利用を想定したデータ保管 メタデータ (データの概要、オーナー、更新日等) DB,テーブル構造・型情報

85Copyright © 2019 BeeX Inc. All Rights Reserved.

まとめ

• エンタープライズデータレイクの特徴• 「技術の壁」と「組織の壁」

• データレイク実装例• 入れる・保管する・使う

• SQLでのデータ取得をするためのパイプライン

• プロジェクトの進め方、体制• B2B2Cのサービスを作る意識

• アジャイルとウォーターフォールのハイブリッド

• データスチュワードチーム

Page 86: エンタープライズデータレイク構築事例€¦ · SQL利用を想定したデータ保管 メタデータ (データの概要、オーナー、更新日等) DB,テーブル構造・型情報

86Copyright © 2019 BeeX Inc. All Rights Reserved.