楽天におけるhadoop活用と、big dataのビジョン

32
1 1 1 楽天 楽天 楽天 楽天における における における におけるHadoop用と と、 BigDataのビジョン ビジョン ビジョン ビジョン

Upload: rakuten-inc

Post on 24-May-2015

4.524 views

Category:

Technology


2 download

DESCRIPTION

WebDB Forum, 2011/11/4楽天株式会社、森正弥

TRANSCRIPT

Page 1: 楽天におけるHadoop活用と、Big Dataのビジョン

1111

楽天楽天楽天楽天におけるにおけるにおけるにおけるHadoop 活用活用活用活用とととと、、、、

BigData ののののビジョンビジョンビジョンビジョン

楽 天 株 式 会 社 森 正 弥

Page 2: 楽天におけるHadoop活用と、Big Dataのビジョン

2222

Introduction

• 森森森森 正弥正弥正弥正弥 ((((もりもりもりもり まさやまさやまさやまさや))))

• 楽天株式会社 執行役員

• 楽天技術研究所 所長

• 職掌

– 開発部署のマネジメント

– 研究開発の推進・統括

Masaya Mori

Twitter: @emasha

Page 3: 楽天におけるHadoop活用と、Big Dataのビジョン

3333

Rakuten Group

Page 4: 楽天におけるHadoop活用と、Big Dataのビジョン

4444

1年間年間年間年間でででで1兆円以上兆円以上兆円以上兆円以上

Page 5: 楽天におけるHadoop活用と、Big Dataのビジョン

5555

サービス別会員数*1

Page 6: 楽天におけるHadoop活用と、Big Dataのビジョン

6666

楽天経済圏

楽天楽天楽天楽天スーパーポイントスーパーポイントスーパーポイントスーパーポイント

共通共通共通共通IDIDIDID

ラクーポンラクーポンラクーポンラクーポン

共通決済共通決済共通決済共通決済

Page 7: 楽天におけるHadoop活用と、Big Dataのビジョン

7777

グループビジネスの拡大と国際展開

1997199719971997年年年年 1998199819981998年年年年 1999199919991999年年年年 2000200020002000年年年年 2001200120012001年年年年 2002200220022002年年年年 2002002002003333年年年年 2002002002004444年年年年

2002002002005555年年年年 2002002002006666年年年年 2002002002007777年年年年 2002002002008888年年年年 2002002002009999年年年年 2010201020102010年年年年 2020202011111111年年年年

Page 8: 楽天におけるHadoop活用と、Big Dataのビジョン

8888

■■■■楽天楽天楽天楽天グループグループグループグループのののの国際展開国際展開国際展開国際展開

国際展開

Page 9: 楽天におけるHadoop活用と、Big Dataのビジョン

9999

For BigData: Hadoop

Page 10: 楽天におけるHadoop活用と、Big Dataのビジョン

10101010

BigDataへの取組み

• 70,000,000+ 会員会員会員会員

• 85,000,000+ 商品情報商品情報商品情報商品情報

• 80,000,000+ 購買情報購買情報購買情報購買情報

• 68,000,000+ レビューレビューレビューレビュー、、、、口口口口コミコミコミコミ

• 3,000,000+ 1ヶヶヶヶ月月月月あたりのあたりのあたりのあたりの宿泊情報宿泊情報宿泊情報宿泊情報

• 30,000+ 市場出店店舗市場出店店舗市場出店店舗市場出店店舗

• 60,000+ 登録登録登録登録ホテルホテルホテルホテル

• 銀行銀行銀行銀行、、、、クレジットカードクレジットカードクレジットカードクレジットカード情報情報情報情報….• 1日日日日あたりあたりあたりあたり数百数百数百数百ギガバイトギガバイトギガバイトギガバイト以上以上以上以上ののののTransaction

DataややややAccess Log• etc etc etc

上記上記上記上記はははは国内国内国内国内のみののみののみののみのデータデータデータデータ量量量量!!!!

■■■■楽天楽天楽天楽天にあるにあるにあるにあるBig DataBig DataBig DataBig Data

Page 11: 楽天におけるHadoop活用と、Big Dataのビジョン

11111111

Big Data Problem in Rakuten

� データは指数関数的に増加

– 2年で2倍

– 会員は1ヶ月で20万増える

� レコード10億ごえDBなんてのも

M

o

n

th

-

Y

e

a

r

J

u

n

-

9

7

D

e

c

-

9

7

J

u

n

-

9

8

D

e

c

-

9

8

J

u

n

-

9

9

D

e

c

-

9

9

J

u

n

-

0

0

J

a

n

-

0

0

J

u

n

-

0

1

D

e

c

-

0

1

J

u

n

-

0

2

D

e

c

-

0

2

J

u

n

-

0

3

D

e

c

-

0

3

J

u

n

-

0

4

D

e

c

-

0

4

J

u

n

-

0

5

D

e

c

-

0

5

J

u

n

-

0

6

D

e

c

-

0

6

J

u

n

-

0

7

D

e

c

-

0

7

J

u

n

-

0

8

D

e

c

-

0

8

J

u

n

-

0

9

D

e

c

-

0

9

J

u

n

-

1

0

D

e

c

-

1

0

Total size

2 years

x 2

分析・利活用

は一苦労

Page 12: 楽天におけるHadoop活用と、Big Dataのビジョン

12121212

• レコメンドエンジン

(楽天市場)

• 商品ランキング

(楽天市場)

• ジャンルランキング

(楽天市場)

• ログ分析 for

パーソナライズ

• レコメンドエンジン

(楽天市場)

• MD情報,注文情報分析

(楽天市場)

• お勧め検索機能強化

(楽天市場)

• 次世代サーチ

(楽天市場)

• ログデータ格納と分析

(楽天トラベル)

■■■■楽天楽天楽天楽天でのでのでのでのHadoopHadoopHadoopHadoop導入状況導入状況導入状況導入状況

Hadoop 活用

Page 13: 楽天におけるHadoop活用と、Big Dataのビジョン

13131313

レコメンドレコメンドレコメンドレコメンドでのでのでのでの活用活用活用活用

2009年以来、全商品レコメンドにてHadoop活用

70台規模のクラスタで、商品間の類似度計算や購買データをかけ

あわせた計算を実施

IchibaTOP- Browsing-History × Recommend all item

MyRakuten- Recommend all item

購買データ・数億件

十数億GB

Page 14: 楽天におけるHadoop活用と、Big Dataのビジョン

14141414

ログログログログ分析分析分析分析プラットフォームプラットフォームプラットフォームプラットフォーム: Mebius

userServicesServicesServicesServices

ServicesServicesServicesServicesRakuten Service

Mebius

Staff

Ad Hoc Query

Web UI

Rakuten APPs

Various API

Data Cooperate

Load, Transform, Classify

Log Analysis Platformtables

� 様々なサービスのアクセスログ・検索ログを統合的に解析するプラットフォーム

� ユーザーの傾向分析をしたり、レコメンド・サービス改善に活用

Page 15: 楽天におけるHadoop活用と、Big Dataのビジョン

15151515

サーチエンジンサーチエンジンサーチエンジンサーチエンジン購買履歴購買履歴購買履歴購買履歴

価格

レビュー

検索ワード 売上高

売上率

売上件数

楽天楽天楽天楽天プロダクトランキングプロダクトランキングプロダクトランキングプロダクトランキング

製品製品製品製品マスタマスタマスタマスタDBDBDBDB

商品件数

製品コード

スペック

製品名

発売日購買時間帯

■■■■処理内容処理内容処理内容処理内容

・ランキングデータ集計

・製品ページ用データ生成

■■■■データデータデータデータ量量量量

・1日/1億レコード

・1日/300GB

■■■■M/RM/RM/RM/R 処理時間処理時間処理時間処理時間

・1時間半

■■■■ノードノードノードノード数数数数

・70台

Page 16: 楽天におけるHadoop活用と、Big Dataのビジョン

16161616

検索検索検索検索でのでのでのでの関連語提示関連語提示関連語提示関連語提示やややや辞書構築辞書構築辞書構築辞書構築でのでのでのでの活用活用活用活用

NGS HiveShared Hadoop

Cluster dictionary batch Server

NGS common platform for hive

suggest batch server

DictionaryIndex

Suggest Index

update search index

update search index

sync analyzed data

検索エンジン

� クラスターから検索解析用のHiveにつなげ

� 関連語の提示や辞書構築等での活用

月 250GBのデータを解析

Page 17: 楽天におけるHadoop活用と、Big Dataのビジョン

17171717

楽天楽天楽天楽天トラベルトラベルトラベルトラベルでのでのでのでの活用活用活用活用

・・・・・

・・・・・

Rakuten Hadoop Cluster

DWH

Access Logs

AccessLogを

Hadoopクラスターへ

取り込む

Hiveでデータのサマリー

を作成しDWHへ

1111

2222

ビジネス施策やランキング、

レコメンドへの応用

Page 18: 楽天におけるHadoop活用と、Big Dataのビジョン

18181818

• レコメンドエンジン

(楽天市場)

• 商品ランキング

(楽天市場)

• ジャンルランキング

(楽天市場)

• ログ分析 for

パーソナライズ

• レコメンドエンジン

(楽天市場)

• MD情報,注文情報分析

(楽天市場)

• お勧め検索機能強化

(楽天市場)

• 次世代サーチ

(楽天市場)

• ログデータ格納と分析

(楽天トラベル)

■■■■楽天楽天楽天楽天でのでのでのでのHadoopHadoopHadoopHadoop導入状況導入状況導入状況導入状況

Hadoop 活用

Page 19: 楽天におけるHadoop活用と、Big Dataのビジョン

19191919

For BigData: Rakuten Super DB

Page 20: 楽天におけるHadoop活用と、Big Dataのビジョン

20202020

カード情報

アンケート

購入履歴

会員属性

スーパーポイント

ログイン

RakutenRakutenRakutenRakuten

Super DBSuper DBSuper DBSuper DB

デモグラフィックデモグラフィックデモグラフィックデモグラフィック

((((基本属性基本属性基本属性基本属性))))

ビヘイビアビヘイビアビヘイビアビヘイビア

((((行動行動行動行動))))

ジオグラフィックジオグラフィックジオグラフィックジオグラフィック

((((地理情報地理情報地理情報地理情報))))

サイコグラフィックサイコグラフィックサイコグラフィックサイコグラフィック

((((心理的属性心理的属性心理的属性心理的属性))))

外部データ

(Mosaic 等)

ファイルDB

加工・集計・分析

・パーソナライズ

・リコメンデーション

・行動ターゲティング広告

・営業支援

データデータデータデータ提供提供提供提供

アプリケーションアプリケーションアプリケーションアプリケーション

全体像

集約

楽天クーポン

・・・・

利用

Page 21: 楽天におけるHadoop活用と、Big Dataのビジョン

21212121

楽天

スーパーDB

自社レコメンデーション

エンジン開発

++++

レコメンデーションレコメンデーションレコメンデーションレコメンデーション////パーソナライゼーションパーソナライゼーションパーソナライゼーションパーソナライゼーションされたされたされたされたコンテンツコンテンツコンテンツコンテンツ

のののの提供提供提供提供によりによりによりにより、、、、購買転換率購買転換率購買転換率購買転換率UPUPUPUP

レコメンデーションレコメンデーションレコメンデーションレコメンデーション技術技術技術技術のののの自社開発自社開発自社開発自社開発

大量なデータをいかすレコメンドの自社開発

Page 22: 楽天におけるHadoop活用と、Big Dataのビジョン

22222222

【【【【レコメンドレコメンドレコメンドレコメンド・・・・エンジンエンジンエンジンエンジン】】】】

Page 23: 楽天におけるHadoop活用と、Big Dataのビジョン

23232323

【【【【レコメンドレコメンドレコメンドレコメンド・・・・エンジンエンジンエンジンエンジン】】】】 楽天楽天楽天楽天グループグループグループグループへへへへ横展開横展開横展開横展開

楽天楽天楽天楽天ブックスブックスブックスブックス 楽天楽天楽天楽天ダウンロードダウンロードダウンロードダウンロード

楽天市場楽天市場楽天市場楽天市場 楽天楽天楽天楽天レンタルレンタルレンタルレンタル

Page 24: 楽天におけるHadoop活用と、Big Dataのビジョン

24242424

レコメンデーションプラットフォームレコメンデーションプラットフォームレコメンデーションプラットフォームレコメンデーションプラットフォーム

TOHO

商品商品商品商品・・・・サービスサービスサービスサービスDBDBDBDB

顧客属性顧客属性顧客属性顧客属性DBDBDBDB

購買履歴購買履歴購買履歴購買履歴DBDBDBDB

閲覧履歴閲覧履歴閲覧履歴閲覧履歴DBDBDBDB

レコメンデーションレコメンデーションレコメンデーションレコメンデーション

プラットフォームプラットフォームプラットフォームプラットフォーム

【【【【各種各種各種各種レコメンドロジックレコメンドロジックレコメンドロジックレコメンドロジック】】】】

協調フィルタリング

リターゲティング

バスケット

グループ相関

コンテンツベース

スーパースーパースーパースーパーDB

TOHO サービスサービスサービスサービス特性毎特性毎特性毎特性毎ににににレコメンドロジックレコメンドロジックレコメンドロジックレコメンドロジックををををカスタマイズカスタマイズカスタマイズカスタマイズ可能可能可能可能なななな、、、、

楽天経済圏楽天経済圏楽天経済圏楽天経済圏ののののレコメンデーションプラットフォームレコメンデーションプラットフォームレコメンデーションプラットフォームレコメンデーションプラットフォーム

各各各各サービスサービスサービスサービスでのでのでのでの

レコメンドレコメンドレコメンドレコメンド展開展開展開展開

各各各各サービスサービスサービスサービス

サービスサービスサービスサービス独自独自独自独自DBDBDBDB

Page 25: 楽天におけるHadoop活用と、Big Dataのビジョン

25252525

RakutenRakutenRakutenRakuten

Super DBSuper DBSuper DBSuper DB

■■■■メールメールメールメール配信配信配信配信エンジンシステムエンジンシステムエンジンシステムエンジンシステム連携連携連携連携

メール配信の最適化

特定特定特定特定ジャンルジャンルジャンルジャンル購買者購買者購買者購買者・・・・見込者見込者見込者見込者へのへのへのへのアプローチアプローチアプローチアプローチ

特定特定特定特定クラスタクラスタクラスタクラスタ会員会員会員会員へのへのへのへのアプローチアプローチアプローチアプローチ

特定特定特定特定サービスサービスサービスサービス利用者利用者利用者利用者へのへのへのへのアプローチアプローチアプローチアプローチ

SPDBの集約/分析データをメール配信システムに自動連携

効果:

メール配信システムからSPDBの属性をセグメント指定をすることで、

精度の高いパーソナライズの実現→効果的なメールプロモーションが可能となる。

セグメントセグメントセグメントセグメント指定指定指定指定、、、、配信管理配信管理配信管理配信管理

Page 26: 楽天におけるHadoop活用と、Big Dataのビジョン

26262626

スーパーDBの利用方法・効果

0.0%

0.1%

0.2%

0.3%

0.4%

0.5%

0.6%

0.7%

08/08/08

08/08/09

08/08/10

08/08/11

08/08/12

08/08/13

08/08/14

08/08/15

08/08/16

08/08/17

08/08/18

08/08/19

08/08/20

GORAリテンション

コントロールグループ

効果例:

ゴルフ予約サービスGORAの既存顧客の

リテンションを目的とし、GORAを過去数ヶ

月以内に利用したことがあるが、直近利

用のないユーザにバナーを露出したところ、

クリッククリッククリッククリック率率率率でででで数倍数倍数倍数倍のののの効果効果効果効果!!!!

大幅大幅大幅大幅アップアップアップアップ

率率率率

■■■■パーソナライズパーソナライズパーソナライズパーソナライズ((((バナーバナーバナーバナー))))

顧客をセグメント化し、適切なバナーを出し分け

Page 27: 楽天におけるHadoop活用と、Big Dataのビジョン

27272727

スーパーDBの利用方法・効果

■■■■BIBIBIBIツールツールツールツールのののの提供提供提供提供とととと利用促進利用促進利用促進利用促進

SPDBの集約/分析データをBIツールで利用可能とすることで分析者を拡大

→BICCへの取り組みへ

Page 28: 楽天におけるHadoop活用と、Big Dataのビジョン

28282828

スーパーDBを利用したパーソナライゼーション等によりクロスユースが増加

■■■■クロスユースクロスユースクロスユースクロスユースのののの進展進展進展進展

スーパーDBの利用方法・効果

7.8%Up

Page 29: 楽天におけるHadoop活用と、Big Dataのビジョン

29292929

For the future

Page 30: 楽天におけるHadoop活用と、Big Dataのビジョン

30303030

■■■■SPDBSPDBSPDBSPDBとのとのとのとの連携連携連携連携についてについてについてについて

SuperDB ☓ Hadoop Infrastructure

Member

RakutenRakutenRakutenRakuten

Super DBSuper DBSuper DBSuper DB

Purchase Card Point Service

Page 31: 楽天におけるHadoop活用と、Big Dataのビジョン

31313131

データの研究目的での提供

■■■■アカデミックアカデミックアカデミックアカデミックへのへのへのへの貢献貢献貢献貢献

楽天の様々なデータを大学、公的研究機関に公開

•楽天市場の全商品データ(約5000万商品)、レビューデータ(約1660万レビュー)

•楽天トラベルの施設データ(11,468施設)、レビューデータ(35万レビュー、34万評価)

•楽天GORAの施設データ(1,669施設)、レビューデータ(32万レビュー)

<商品データ> <宿泊評価> <ゴルフ場データ>

楽天技術研究所-楽天データ公開

http://rit.rakuten.co.jp/rdr/index.html

<レビュー> 2011年追加!

Page 32: 楽天におけるHadoop活用と、Big Dataのビジョン

32323232

Thank You!

If you like big data:www.rakuten.co.jp /recruit

for job info!