[よくわかるクラウドデータベース]...

39
(C) Recruit Technologies Co.,Ltd. All rights reserved. ITソリューション部 BDG BI-Unit リクルートにおける Redshift導入・活用事例 ~分析基盤の紹介~ 2014/1/17 山田 悦明

Upload: amazon-web-services-japan

Post on 26-Jan-2015

125 views

Category:

Technology


7 download

DESCRIPTION

 

TRANSCRIPT

Page 1: [よくわかるクラウドデータベース] リクルートにおけるRedshift導入・活用事例

(C) Recruit Technologies Co.,Ltd. All rights reserved.

ITソリューション部 BDG BI-Unit

リクルートにおけるRedshift導入・活用事例~分析基盤の紹介~

2014/1/17

山田 悦明

Page 2: [よくわかるクラウドデータベース] リクルートにおけるRedshift導入・活用事例

(C) Recruit Technologies Co.,Ltd. All rights reserved.

本日の登壇者紹介

山田 悦明 ( やまだ えつあき )

株式会社リクルートテクノロジーズ ITソリューション部

ビッグデータグループ

・2008年リクルート入社。

・広告配信サーバ導入や顧客企業の集客最適化などに従事。

・『じゃらん』『ホットペッパービューティー』の会員分析

・Hadoopを活用した『SUUMO』の集客モニタリング、アトリビューション分析など

最近ではアクセスログを解析する独自のソリューション開発・展開を推進。

1

Page 3: [よくわかるクラウドデータベース] リクルートにおけるRedshift導入・活用事例

(C) Recruit Technologies Co.,Ltd. All rights reserved.

本日のアジェンダ

1.はじめに~リクルートとリクルートテクノロジーズのご紹介~

2.ビッグデータグループの取り組み

3.ビッグデータ解析におけるデータ基盤環境について

4.Redshift利用事例

1. 実装編

2. サービス活用編

5.今後について

6.おわりに

2

Page 4: [よくわかるクラウドデータベース] リクルートにおけるRedshift導入・活用事例

(C) Recruit Technologies Co.,Ltd. All rights reserved.

はじめに~リクルートとリクルートテクノロジーズのご紹介~

3

Page 5: [よくわかるクラウドデータベース] リクルートにおけるRedshift導入・活用事例

(C) Recruit Technologies Co.,Ltd. All rights reserved.

はじめに ~リクルートとは

【企業概要】

創立 1960年3月31日 「大学新聞広告社」としてスタート

グループ従業員数

約 22,000名

連結売上高 約 1兆500億円 ※2013年3

月末

連結経常利益 約 1,250億円 ※2013年3月

関連企業数 国内:52社、海外:56社

目指す世界観 「あなた」を支える存在でありたい

Page 6: [よくわかるクラウドデータベース] リクルートにおけるRedshift導入・活用事例

(C) Recruit Technologies Co.,Ltd. All rights reserved.

マッチング

カスタマー(一般ユーザー)

クライアント(サービス提供者)

【リクルートのビジネスモデル】

世界中の生活者と産業界に「まだ、ここにない、出会い。」を提供します

はじめに ~リクルートとは

Page 7: [よくわかるクラウドデータベース] リクルートにおけるRedshift導入・活用事例

(C) Recruit Technologies Co.,Ltd. All rights reserved.

はじめに ~リクルートグループが提供するサービス

6

旅行

お稽古

時事

ファッション

飲食

「選択・意思決定・行動」を支援する

情報サービスの提供

進学

就職

結婚

転職

住宅購入

車購入

出産/育児

Life Eventライフイベント

Life Styleライフスタイル

ショッピング

Page 8: [よくわかるクラウドデータベース] リクルートにおけるRedshift導入・活用事例

(C) Recruit Technologies Co.,Ltd. All rights reserved.

リクルートキャリア

リクルートジョブズ

リクルートスタッフィング

リクルート住まいカンパニー

リクルートライフスタイル

リクルートマーケティングパートナーズ

スタッフサービス・ホールディングス

リクルートアドミニストレーション

リクルートコミュニケーションズ

事業会社

機能会社 インフラ部門

大規模プロジェクト推進部門

UI設計/SEO部門

ビッグデータ機能部門

テクノロジーR&D部門

事業・社内IT推進部門

リクルートホールディングス

2012/10月の分社化から1年以上が経ちました

ビッグデータグループ

はじめに ~リクルートテクノロジーズとは

Page 9: [よくわかるクラウドデータベース] リクルートにおけるRedshift導入・活用事例

(C) Recruit Technologies Co.,Ltd. All rights reserved.

ビッグデータグループの取り組み

8

Page 10: [よくわかるクラウドデータベース] リクルートにおけるRedshift導入・活用事例

(C) Recruit Technologies Co.,Ltd. All rights reserved.

ビッグデータの利活用のために

9

大きいだけでなく多種で複雑

Webサイト

セッション

UU

クライアント

アイテムpageview 会員

営業情報

エリア

店舗情報

ビジネス課題を顕在化情報の価値を判断

ビジネス課題に合わせてデータを情報化

ビジネス要件に合うよう大量・複雑なデータを効率的に処理

マーケター

コンサル エンジニア

ビッグデータ利活用に必要な要素は?

Page 11: [よくわかるクラウドデータベース] リクルートにおけるRedshift導入・活用事例

(C) Recruit Technologies Co.,Ltd. All rights reserved.

リクルートテクノロジーズの取組体制

10

エンジニア型アナリスト

事業会社担当者≒マーケター

「コンサル型」・「エンジニア型」のアナリストを揃え、マーケターとの三位一体で、最適なデータ活用を推進

ビッグデータ活用組織担当領域

コンサル型アナリスト

ビッグデータのビジネス活用にはマーケター視点が不可欠

Page 12: [よくわかるクラウドデータベース] リクルートにおけるRedshift導入・活用事例

(C) Recruit Technologies Co.,Ltd. All rights reserved.

ビッグデータ活用と取組事例

11

レポーティングBI分析BI

リアルタイム機械学習

KPIなどの未来予測

メールやwebのレコメンド

可視化 予測

事業利益への

間接的な効果

事業利益への

直接的な効果

ビッグデータ活用を”可視化” と ”予測”に分類

“可視化” は過去と現在のデータを集計、分類、統計処理して可視化する。“予測” は過去のデータを高度な数学で分析し、未来を予測する。この2つから、事業利益へ直接的、間接的に効果を出すことができる。

Page 13: [よくわかるクラウドデータベース] リクルートにおけるRedshift導入・活用事例

(C) Recruit Technologies Co.,Ltd. All rights reserved.

ビッグデータ活用と取組事例

1212

事業A

事業B

事業C

事業D

事業E

事業F

事業G

事業H

事業I

事業J

事業K

事業L

事業M

サイト間クロスUU

調査

サイト横断モニタリング

指標

施策シェア分析

レコメンド

予約分析

BIメルマガ施策

リスティング分析

KWD×LP分析

クチコミ分析

ステータス分析

LPO

メール通数分析

自然語解析

現行応募相関

行動ターゲティング

KPIモニタリング

レコメンド ログ分析

自然語解析 メールレコメンド 需要予測 クレンジング

需要予測

クライアントHP分析

領域間クロスUU

カスタマープロファイル

集客モニタリング

商材分析

レコメンド

カスタマートラッキング

共通バナー

KPIモニタリング アクション数予測 効果集計

価格分析 レコメンド クラスタリング クチコミ分析

レコメンド

レコメンド

効果見立て分析

13事業に対し、

年間176件のデータ利活用を推進

Page 14: [よくわかるクラウドデータベース] リクルートにおけるRedshift導入・活用事例

(C) Recruit Technologies Co.,Ltd. All rights reserved.

ビッグデータ解析におけるデータ基盤環境について

13

Page 15: [よくわかるクラウドデータベース] リクルートにおけるRedshift導入・活用事例

(C) Recruit Technologies Co.,Ltd. All rights reserved.

リクルートのビッグデータ基盤の変遷

14

リサーチ

3~4台

2008~9

実験機

実験・検証

20台

ラボ環境

2010

第1世代環境

120台

2011

プライベートクラウドとの部分的な

環境融合

第2世代環境

50台

2012

プライベートクラウド環境との完全なる環境融合

データ集約基盤構想

2013

パブリッククラウドとの連携を開始

DWH

BI

Page 16: [よくわかるクラウドデータベース] リクルートにおけるRedshift導入・活用事例

(C) Recruit Technologies Co.,Ltd. All rights reserved.

リクルートのビッグデータ基盤

15

2013年①全社規模BI導入展開

②全社分析データ集約環境「Total DB」の推進

オンプレミスとパブリッククラウドを融合した柔軟なビッグデータ基盤の構築

Page 17: [よくわかるクラウドデータベース] リクルートにおけるRedshift導入・活用事例

(C) Recruit Technologies Co.,Ltd. All rights reserved.

リクルート TotalDB (通称:出雲基盤)

Rクラウド(オロチ)

全社Hadoop(スサノオ)

全社DWH(ツクヨミ)

全社BI(アマテラス)

リクルート各事業データ

行動履歴データ

経営データ

分析用社外データ

ID/ポイントデータ 事業DWH

事業個別Hadoop

事業DWH分析ツール

Hadoopエコシステム

リクルート Total DB全体概要図

分析BI(ODBC)

16

Page 18: [よくわかるクラウドデータベース] リクルートにおけるRedshift導入・活用事例

(C) Recruit Technologies Co.,Ltd. All rights reserved.

リクルート TotalDB (通称:出雲基盤)

Rクラウド(オロチ)

全社Hadoop(スサノオ)

全社DWH(ツクヨミ)

全社BI(アマテラス)

リクルート各事業データ

行動履歴データ

経営データ

分析用社外データ

ID/ポイントデータ 事業DWH

事業個別Hadoop

事業DWH分析ツール

Hadoopエコシステム

リクルート Total DB全体概要図

分析BI(ODBC)

17

Page 19: [よくわかるクラウドデータベース] リクルートにおけるRedshift導入・活用事例

(C) Recruit Technologies Co.,Ltd. All rights reserved.

Redshift利用事例:実装編

18

Page 20: [よくわかるクラウドデータベース] リクルートにおけるRedshift導入・活用事例

(C) Recruit Technologies Co.,Ltd. All rights reserved.

レポーティングBI分析BI

リアルタイム機械学習

KPIなどの未来予測

メールやwebのレコメンド

可視化 予測

事業利益への

間接的な効果

事業利益への

直接的な効果

利用目的

サイトのアクセスログのモニタリング・分析サービス活用

既存のアクセスツールの機能にはない分析を行うためのプロジェクトを立ち上げた。

Redshiftは主に前処理やデータマート作成に活用

さらにBIツール(Tableau)とRedshiftを連携したアクセスログのモニタリングレポート作成

19

アクセスログの可視化(tableau)

独自集計・可視化ツール

Page 21: [よくわかるクラウドデータベース] リクルートにおけるRedshift導入・活用事例

(C) Recruit Technologies Co.,Ltd. All rights reserved.

アクセスログ解析基盤

20

オリジナルデータ

データAmazon EC2 Amazon S3 Amazon EMR

Amazon Redshiftアクセスログデータ

500万レコード/日

Hadoopデータ加工処理

1次データ 1次データ

2次データ

リクルート環境 Netezza

データマート

データ加工処理

2次データ

Tableau

データマート

オリジナルデータ

マスタデータ

1次処理:データクレンジング・標準化'ゴミから必要なデータを取り出す(

2次処理:マスタ統合'使えるデータにする(

独自アプリ

モニタリング分析ツール

アドホック分析

3次処理:データマート作成'使いやすいデータにする(

Page 22: [よくわかるクラウドデータベース] リクルートにおけるRedshift導入・活用事例

(C) Recruit Technologies Co.,Ltd. All rights reserved.

2012.12

Closed Beta

@Virginia

2013.02

On demand

@Virginia

2013.05

Reserved Instance

@Oregon

2013.11

Reserved Instance

&

On demand

@Oregon

XL ノード2TB ストレージ

2~8ノード 2ノード+ 4ノード4ノード

(一時的に+4)

経緯

当初計画では1~3次処理はすべてEMRで実施する予定だったが、2012年10月にRedshiftの発表があり、2次処理以降をEMRからRedshiftに切り替えを実施した

21

調査 判断 開発 運用体制構築

Amazon

Redshift

Page 23: [よくわかるクラウドデータベース] リクルートにおけるRedshift導入・活用事例

(C) Recruit Technologies Co.,Ltd. All rights reserved.

調査

Redshiftの特徴の把握1

22

Redshiftは既存のカラム型DBの特徴そのままSelect時にselect *ではなく必要なカラムを指定することで

早くデータが取り出せる

Page 24: [よくわかるクラウドデータベース] リクルートにおけるRedshift導入・活用事例

(C) Recruit Technologies Co.,Ltd. All rights reserved.

調査

Redshiftの特徴の把握2

23

Insert,Update,Deleteが遅い(不得意)Redshift特有のCopyFromコマンドで

利用可能なスピードになった

Page 25: [よくわかるクラウドデータベース] リクルートにおけるRedshift導入・活用事例

(C) Recruit Technologies Co.,Ltd. All rights reserved.

判断(Redshiftに決めた4つの理由)

1. EMR⇒Redshiftに変更しても開発遅延リスクが低い

– さらに今後の改修を考慮するとトータル開発工数は少なくなる

2. アジャイル型の開発であり、アドホック分析が多いプロジェクトにマッチしていること

– Redshiftにデータがることでデータマートの試行錯誤が分析者にもできる

3. リソースコントロールがしやすい

– オンプレのDWHもあるが、別サービスへの影響が懸念された

4. 予算上、問題がない

24

Page 26: [よくわかるクラウドデータベース] リクルートにおけるRedshift導入・活用事例

(C) Recruit Technologies Co.,Ltd. All rights reserved.

①Dailyバッチ'約500万レコード(・・・数時間

実装

25

オリジナルデータ

データAmazon EC2 Amazon S3 Amazon EMR

Amazon Redshiftアクセスログデータ

500万レコード/日

Hadoopデータ加工処理

1次データ 1次データ

2次データ

リクルート環境 Netezza

データマート

データ加工処理

2次データ

Tableau

データマート

オリジナルデータ

マスタデータ

②StartUpバッチ'約40億レコード(・・・約20日間※特定の事業や分析者のニーズに合わせたデータを抽出し、データマートを作成する※データ仕様変更時も②のバッチを使用

独自アプリ

Page 27: [よくわかるクラウドデータベース] リクルートにおけるRedshift導入・活用事例

(C) Recruit Technologies Co.,Ltd. All rights reserved.

実装(チューニング)

各カラムに対し最適な圧縮方式を実施し、I/Oを高速化

26

Analyze Compressでシステムが推奨する圧縮方式を採用することで高速化できるただし、すべてがベストとは限らない

Page 28: [よくわかるクラウドデータベース] リクルートにおけるRedshift導入・活用事例

(C) Recruit Technologies Co.,Ltd. All rights reserved.

実装(チューニング)

インポート方法をチューニングし約4倍の高速化に成功!

27

StartUp時間の約70%がRedshiftへのインポート時間 インポート方式を8パ

ターン検証

約4倍のスピードに!

'ディレクトリ単位でのインポートの結果(

Load Calculation Import

StartUp処理の時間20 7日間を短縮し、分析者や事業担当者に対し、スピード感を落とすことなくデータ提供できる環境に

Page 29: [よくわかるクラウドデータベース] リクルートにおけるRedshift導入・活用事例

(C) Recruit Technologies Co.,Ltd. All rights reserved.

運用体制構築

StartUpやデータ仕様変更処理中はRedshiftのリソースをほとんど使ってしまい、本番サービスに影響が出てしまう。

28

Redshift&EC2:本番環境

Redshift&EC2コピー環境AWSのスナップショット機能で

5TBの全く同じ環境が13時間で構築できる

Redshift&EC2:StartUp'データ仕様変更(環境

Redshift&EC2:本番環境

モニタリング分析ツール

アドホック分析

Page 30: [よくわかるクラウドデータベース] リクルートにおけるRedshift導入・活用事例

(C) Recruit Technologies Co.,Ltd. All rights reserved.

Redshift利用事例:サービス活用編

29

Page 31: [よくわかるクラウドデータベース] リクルートにおけるRedshift導入・活用事例

(C) Recruit Technologies Co.,Ltd. All rights reserved.

アクセスログ解析基盤(再掲)

30

オリジナルデータ

データAmazon EC2 Amazon S3 Amazon EMR

Amazon Redshiftアクセスログデータ

500万レコード/日

Hadoopデータ加工処理

1次データ 1次データ

2次データ

リクルート環境Netezza

データマート

データ加工処理

2次データ

Tableau

データマート

オリジナルデータ

マスタデータ

1次処理:データクレンジング・標準化'ゴミから必要なデータを取り出す(

2次処理:マスタ統合'使えるデータにする(

独自アプリ

モニタリング分析ツール

アドホック分析

3次処理:データマート作成'使いやすいデータにする(

Page 32: [よくわかるクラウドデータベース] リクルートにおけるRedshift導入・活用事例

(C) Recruit Technologies Co.,Ltd. All rights reserved.

利用事例

アクセスログモニタリングツール

31

現在2サイトに提供中2014年3月までに6サイト以上に拡大予定

Page 33: [よくわかるクラウドデータベース] リクルートにおけるRedshift導入・活用事例

(C) Recruit Technologies Co.,Ltd. All rights reserved.

利用事例

UI/UX分析基盤

32

Excelで集計していたUI/UX分析をBI化し効率化UP、さらにセグメント別の分析も可能とし

詳細な分析が可能となる

※画面は開発中のイメージです

Page 34: [よくわかるクラウドデータベース] リクルートにおけるRedshift導入・活用事例

(C) Recruit Technologies Co.,Ltd. All rights reserved.

利用事例

UI/UX分析「クリックヒートマップ」(一例)

33

既存ツールでは見れないセグメント別のクリックヒートマップなどから

定量的にUI改善プランニングを実施

Page 35: [よくわかるクラウドデータベース] リクルートにおけるRedshift導入・活用事例

(C) Recruit Technologies Co.,Ltd. All rights reserved.

利用事例

事業会社にはソリューションの提供だけでなく、UI/UXのコンサルティンググループと共同でビッグデータ活用をしたUX改善の提案を行っている

34

ソリューションを事業に提供し、間接的にカスタマーに価値を

届ける

UI/UXコンサルグループと協働し、直接カスタマーに価値を

届ける

Page 36: [よくわかるクラウドデータベース] リクルートにおけるRedshift導入・活用事例

(C) Recruit Technologies Co.,Ltd. All rights reserved.

今後について

35

Page 37: [よくわかるクラウドデータベース] リクルートにおけるRedshift導入・活用事例

(C) Recruit Technologies Co.,Ltd. All rights reserved.

今後について

36

オリジナルデータ

データAmazon EC2 Amazon S3 Amazon EMR

Amazon Redshiftアクセスログデータ

500万レコード/日

Hadoopデータ加工処理

1次データ 1次データ

2次データ

リクルート環境 Netezza

データマート

データ加工処理

2次データ

Tableau

データマート

オリジナルデータ

マスタデータ

②StartUpバッチ'約40億レコード(

20日 7日

独自アプリ

7日 ?日

アーキテクチャの進化によって、さらに分析者や事業担当者のニーズにこたえる

ソリューションに進化させる

さらなる、分析者や事業担当者のニーズにこたえるために、、、

Page 38: [よくわかるクラウドデータベース] リクルートにおけるRedshift導入・活用事例

(C) Recruit Technologies Co.,Ltd. All rights reserved.

リクルートキャリア

リクルートジョブズ

リクルートスタッフィング

リクルート住まいカンパニー

リクルートライフスタイル

リクルートマーケティングパートナーズ

スタッフサービス・ホールディングス

リクルートアドミニストレーション

リクルートコミュニケーションズ

事業会社

機能会社 インフラ部門

大規模プロジェクト推進部門

UI設計/SEO部門

ビッグデータ機能部門

テクノロジーR&D部門

事業・社内IT推進部門

リクルートホールディングス

おわりに

Page 39: [よくわかるクラウドデータベース] リクルートにおけるRedshift導入・活用事例

(C) Recruit Technologies Co.,Ltd. All rights reserved.

ご清聴ありがとうございました

リクルートテクノロジーズ