楽天におけるhadoop活用と、big dataのビジョン
DESCRIPTION
WebDB Forum, 2011/11/4楽天株式会社、森正弥TRANSCRIPT
1111
楽天楽天楽天楽天におけるにおけるにおけるにおけるHadoop 活用活用活用活用とととと、、、、
BigData ののののビジョンビジョンビジョンビジョン
楽 天 株 式 会 社 森 正 弥
2222
Introduction
• 森森森森 正弥正弥正弥正弥 ((((もりもりもりもり まさやまさやまさやまさや))))
• 楽天株式会社 執行役員
• 楽天技術研究所 所長
• 職掌
– 開発部署のマネジメント
– 研究開発の推進・統括
Masaya Mori
Twitter: @emasha
3333
Rakuten Group
4444
1年間年間年間年間でででで1兆円以上兆円以上兆円以上兆円以上
5555
サービス別会員数*1
6666
楽天経済圏
楽天楽天楽天楽天スーパーポイントスーパーポイントスーパーポイントスーパーポイント
共通共通共通共通IDIDIDID
ラクーポンラクーポンラクーポンラクーポン
共通決済共通決済共通決済共通決済
7777
グループビジネスの拡大と国際展開
1997199719971997年年年年 1998199819981998年年年年 1999199919991999年年年年 2000200020002000年年年年 2001200120012001年年年年 2002200220022002年年年年 2002002002003333年年年年 2002002002004444年年年年
2002002002005555年年年年 2002002002006666年年年年 2002002002007777年年年年 2002002002008888年年年年 2002002002009999年年年年 2010201020102010年年年年 2020202011111111年年年年
8888
■■■■楽天楽天楽天楽天グループグループグループグループのののの国際展開国際展開国際展開国際展開
国際展開
9999
For BigData: Hadoop
10101010
BigDataへの取組み
• 70,000,000+ 会員会員会員会員
• 85,000,000+ 商品情報商品情報商品情報商品情報
• 80,000,000+ 購買情報購買情報購買情報購買情報
• 68,000,000+ レビューレビューレビューレビュー、、、、口口口口コミコミコミコミ
• 3,000,000+ 1ヶヶヶヶ月月月月あたりのあたりのあたりのあたりの宿泊情報宿泊情報宿泊情報宿泊情報
• 30,000+ 市場出店店舗市場出店店舗市場出店店舗市場出店店舗
• 60,000+ 登録登録登録登録ホテルホテルホテルホテル
• 銀行銀行銀行銀行、、、、クレジットカードクレジットカードクレジットカードクレジットカード情報情報情報情報….• 1日日日日あたりあたりあたりあたり数百数百数百数百ギガバイトギガバイトギガバイトギガバイト以上以上以上以上ののののTransaction
DataややややAccess Log• etc etc etc
上記上記上記上記はははは国内国内国内国内のみののみののみののみのデータデータデータデータ量量量量!!!!
■■■■楽天楽天楽天楽天にあるにあるにあるにあるBig DataBig DataBig DataBig Data
11111111
Big Data Problem in Rakuten
� データは指数関数的に増加
– 2年で2倍
– 会員は1ヶ月で20万増える
� レコード10億ごえDBなんてのも
M
o
n
th
-
Y
e
a
r
J
u
n
-
9
7
D
e
c
-
9
7
J
u
n
-
9
8
D
e
c
-
9
8
J
u
n
-
9
9
D
e
c
-
9
9
J
u
n
-
0
0
J
a
n
-
0
0
J
u
n
-
0
1
D
e
c
-
0
1
J
u
n
-
0
2
D
e
c
-
0
2
J
u
n
-
0
3
D
e
c
-
0
3
J
u
n
-
0
4
D
e
c
-
0
4
J
u
n
-
0
5
D
e
c
-
0
5
J
u
n
-
0
6
D
e
c
-
0
6
J
u
n
-
0
7
D
e
c
-
0
7
J
u
n
-
0
8
D
e
c
-
0
8
J
u
n
-
0
9
D
e
c
-
0
9
J
u
n
-
1
0
D
e
c
-
1
0
Total size
2 years
x 2
分析・利活用
は一苦労
12121212
• レコメンドエンジン
(楽天市場)
• 商品ランキング
(楽天市場)
• ジャンルランキング
(楽天市場)
• ログ分析 for
パーソナライズ
• レコメンドエンジン
(楽天市場)
• MD情報,注文情報分析
(楽天市場)
• お勧め検索機能強化
(楽天市場)
• 次世代サーチ
(楽天市場)
• ログデータ格納と分析
(楽天トラベル)
■■■■楽天楽天楽天楽天でのでのでのでのHadoopHadoopHadoopHadoop導入状況導入状況導入状況導入状況
Hadoop 活用
13131313
レコメンドレコメンドレコメンドレコメンドでのでのでのでの活用活用活用活用
2009年以来、全商品レコメンドにてHadoop活用
70台規模のクラスタで、商品間の類似度計算や購買データをかけ
あわせた計算を実施
IchibaTOP- Browsing-History × Recommend all item
MyRakuten- Recommend all item
購買データ・数億件
十数億GB
14141414
ログログログログ分析分析分析分析プラットフォームプラットフォームプラットフォームプラットフォーム: Mebius
userServicesServicesServicesServices
ServicesServicesServicesServicesRakuten Service
Mebius
Staff
Ad Hoc Query
Web UI
Rakuten APPs
Various API
Data Cooperate
Load, Transform, Classify
Log Analysis Platformtables
� 様々なサービスのアクセスログ・検索ログを統合的に解析するプラットフォーム
� ユーザーの傾向分析をしたり、レコメンド・サービス改善に活用
15151515
サーチエンジンサーチエンジンサーチエンジンサーチエンジン購買履歴購買履歴購買履歴購買履歴
価格
レビュー
検索ワード 売上高
売上率
売上件数
楽天楽天楽天楽天プロダクトランキングプロダクトランキングプロダクトランキングプロダクトランキング
製品製品製品製品マスタマスタマスタマスタDBDBDBDB
商品件数
製品コード
スペック
製品名
発売日購買時間帯
■■■■処理内容処理内容処理内容処理内容
・ランキングデータ集計
・製品ページ用データ生成
■■■■データデータデータデータ量量量量
・1日/1億レコード
・1日/300GB
■■■■M/RM/RM/RM/R 処理時間処理時間処理時間処理時間
・1時間半
■■■■ノードノードノードノード数数数数
・70台
16161616
検索検索検索検索でのでのでのでの関連語提示関連語提示関連語提示関連語提示やややや辞書構築辞書構築辞書構築辞書構築でのでのでのでの活用活用活用活用
NGS HiveShared Hadoop
Cluster dictionary batch Server
NGS common platform for hive
suggest batch server
DictionaryIndex
Suggest Index
update search index
update search index
sync analyzed data
検索エンジン
� クラスターから検索解析用のHiveにつなげ
� 関連語の提示や辞書構築等での活用
月 250GBのデータを解析
17171717
楽天楽天楽天楽天トラベルトラベルトラベルトラベルでのでのでのでの活用活用活用活用
・・・・・
・・・・・
Rakuten Hadoop Cluster
DWH
Access Logs
AccessLogを
Hadoopクラスターへ
取り込む
Hiveでデータのサマリー
を作成しDWHへ
1111
2222
ビジネス施策やランキング、
レコメンドへの応用
18181818
• レコメンドエンジン
(楽天市場)
• 商品ランキング
(楽天市場)
• ジャンルランキング
(楽天市場)
• ログ分析 for
パーソナライズ
• レコメンドエンジン
(楽天市場)
• MD情報,注文情報分析
(楽天市場)
• お勧め検索機能強化
(楽天市場)
• 次世代サーチ
(楽天市場)
• ログデータ格納と分析
(楽天トラベル)
■■■■楽天楽天楽天楽天でのでのでのでのHadoopHadoopHadoopHadoop導入状況導入状況導入状況導入状況
Hadoop 活用
19191919
For BigData: Rakuten Super DB
20202020
カード情報
アンケート
購入履歴
会員属性
スーパーポイント
ログイン
RakutenRakutenRakutenRakuten
Super DBSuper DBSuper DBSuper DB
デモグラフィックデモグラフィックデモグラフィックデモグラフィック
((((基本属性基本属性基本属性基本属性))))
ビヘイビアビヘイビアビヘイビアビヘイビア
((((行動行動行動行動))))
ジオグラフィックジオグラフィックジオグラフィックジオグラフィック
((((地理情報地理情報地理情報地理情報))))
サイコグラフィックサイコグラフィックサイコグラフィックサイコグラフィック
((((心理的属性心理的属性心理的属性心理的属性))))
外部データ
(Mosaic 等)
ファイルDB
加工・集計・分析
・パーソナライズ
・リコメンデーション
・行動ターゲティング広告
・営業支援
データデータデータデータ提供提供提供提供
アプリケーションアプリケーションアプリケーションアプリケーション
全体像
集約
楽天クーポン
・・・・
利用
21212121
楽天
スーパーDB
自社レコメンデーション
エンジン開発
++++
レコメンデーションレコメンデーションレコメンデーションレコメンデーション////パーソナライゼーションパーソナライゼーションパーソナライゼーションパーソナライゼーションされたされたされたされたコンテンツコンテンツコンテンツコンテンツ
のののの提供提供提供提供によりによりによりにより、、、、購買転換率購買転換率購買転換率購買転換率UPUPUPUP
レコメンデーションレコメンデーションレコメンデーションレコメンデーション技術技術技術技術のののの自社開発自社開発自社開発自社開発
大量なデータをいかすレコメンドの自社開発
22222222
【【【【レコメンドレコメンドレコメンドレコメンド・・・・エンジンエンジンエンジンエンジン】】】】
23232323
【【【【レコメンドレコメンドレコメンドレコメンド・・・・エンジンエンジンエンジンエンジン】】】】 楽天楽天楽天楽天グループグループグループグループへへへへ横展開横展開横展開横展開
楽天楽天楽天楽天ブックスブックスブックスブックス 楽天楽天楽天楽天ダウンロードダウンロードダウンロードダウンロード
楽天市場楽天市場楽天市場楽天市場 楽天楽天楽天楽天レンタルレンタルレンタルレンタル
24242424
レコメンデーションプラットフォームレコメンデーションプラットフォームレコメンデーションプラットフォームレコメンデーションプラットフォーム
TOHO
商品商品商品商品・・・・サービスサービスサービスサービスDBDBDBDB
顧客属性顧客属性顧客属性顧客属性DBDBDBDB
購買履歴購買履歴購買履歴購買履歴DBDBDBDB
閲覧履歴閲覧履歴閲覧履歴閲覧履歴DBDBDBDB
レコメンデーションレコメンデーションレコメンデーションレコメンデーション
プラットフォームプラットフォームプラットフォームプラットフォーム
【【【【各種各種各種各種レコメンドロジックレコメンドロジックレコメンドロジックレコメンドロジック】】】】
協調フィルタリング
リターゲティング
バスケット
グループ相関
コンテンツベース
スーパースーパースーパースーパーDB
TOHO サービスサービスサービスサービス特性毎特性毎特性毎特性毎ににににレコメンドロジックレコメンドロジックレコメンドロジックレコメンドロジックををををカスタマイズカスタマイズカスタマイズカスタマイズ可能可能可能可能なななな、、、、
楽天経済圏楽天経済圏楽天経済圏楽天経済圏ののののレコメンデーションプラットフォームレコメンデーションプラットフォームレコメンデーションプラットフォームレコメンデーションプラットフォーム
各各各各サービスサービスサービスサービスでのでのでのでの
レコメンドレコメンドレコメンドレコメンド展開展開展開展開
各各各各サービスサービスサービスサービス
サービスサービスサービスサービス独自独自独自独自DBDBDBDB
25252525
RakutenRakutenRakutenRakuten
Super DBSuper DBSuper DBSuper DB
■■■■メールメールメールメール配信配信配信配信エンジンシステムエンジンシステムエンジンシステムエンジンシステム連携連携連携連携
メール配信の最適化
特定特定特定特定ジャンルジャンルジャンルジャンル購買者購買者購買者購買者・・・・見込者見込者見込者見込者へのへのへのへのアプローチアプローチアプローチアプローチ
特定特定特定特定クラスタクラスタクラスタクラスタ会員会員会員会員へのへのへのへのアプローチアプローチアプローチアプローチ
特定特定特定特定サービスサービスサービスサービス利用者利用者利用者利用者へのへのへのへのアプローチアプローチアプローチアプローチ
SPDBの集約/分析データをメール配信システムに自動連携
効果:
メール配信システムからSPDBの属性をセグメント指定をすることで、
精度の高いパーソナライズの実現→効果的なメールプロモーションが可能となる。
セグメントセグメントセグメントセグメント指定指定指定指定、、、、配信管理配信管理配信管理配信管理
26262626
スーパーDBの利用方法・効果
0.0%
0.1%
0.2%
0.3%
0.4%
0.5%
0.6%
0.7%
08/08/08
08/08/09
08/08/10
08/08/11
08/08/12
08/08/13
08/08/14
08/08/15
08/08/16
08/08/17
08/08/18
08/08/19
08/08/20
GORAリテンション
コントロールグループ
効果例:
ゴルフ予約サービスGORAの既存顧客の
リテンションを目的とし、GORAを過去数ヶ
月以内に利用したことがあるが、直近利
用のないユーザにバナーを露出したところ、
クリッククリッククリッククリック率率率率でででで数倍数倍数倍数倍のののの効果効果効果効果!!!!
大幅大幅大幅大幅アップアップアップアップ
ク
リ
ッ
ク
ク
リ
ッ
ク
ク
リ
ッ
ク
ク
リ
ッ
ク
率率率率
■■■■パーソナライズパーソナライズパーソナライズパーソナライズ((((バナーバナーバナーバナー))))
顧客をセグメント化し、適切なバナーを出し分け
27272727
スーパーDBの利用方法・効果
■■■■BIBIBIBIツールツールツールツールのののの提供提供提供提供とととと利用促進利用促進利用促進利用促進
SPDBの集約/分析データをBIツールで利用可能とすることで分析者を拡大
→BICCへの取り組みへ
28282828
スーパーDBを利用したパーソナライゼーション等によりクロスユースが増加
■■■■クロスユースクロスユースクロスユースクロスユースのののの進展進展進展進展
スーパーDBの利用方法・効果
7.8%Up
29292929
For the future
30303030
■■■■SPDBSPDBSPDBSPDBとのとのとのとの連携連携連携連携についてについてについてについて
SuperDB ☓ Hadoop Infrastructure
Member
RakutenRakutenRakutenRakuten
Super DBSuper DBSuper DBSuper DB
Purchase Card Point Service
31313131
データの研究目的での提供
■■■■アカデミックアカデミックアカデミックアカデミックへのへのへのへの貢献貢献貢献貢献
楽天の様々なデータを大学、公的研究機関に公開
•楽天市場の全商品データ(約5000万商品)、レビューデータ(約1660万レビュー)
•楽天トラベルの施設データ(11,468施設)、レビューデータ(35万レビュー、34万評価)
•楽天GORAの施設データ(1,669施設)、レビューデータ(32万レビュー)
<商品データ> <宿泊評価> <ゴルフ場データ>
楽天技術研究所-楽天データ公開
http://rit.rakuten.co.jp/rdr/index.html
<レビュー> 2011年追加!
32323232
Thank You!
If you like big data:www.rakuten.co.jp /recruit
for job info!