repeat buyer prediction for e commerce, kdd2016

9
Repeat Buyer Prediction for E-Commerce Liu et al. KDD2016 2016/10/01 KDD2016 勉勉勉 勉勉 勉勉

Upload: motoya-wakiyama

Post on 16-Apr-2017

651 views

Category:

Data & Analytics


1 download

TRANSCRIPT

Page 1: Repeat buyer prediction for e commerce, KDD2016

Repeat Buyer Predictionfor E-Commerce

Liu et al. KDD2016

2016/10/01   KDD2016 勉強会脇山 宗也

Page 2: Repeat buyer prediction for e commerce, KDD2016

概要• IJCAI2015 でアリババが開催したコンペで構築した予測モデルの説明• 筆者らはコンペの Stage1 で優勝

• 論文内では、どういった特徴量が予測精度向上に効果があるのかに着目• 資料に記載の図・表は Liu,2016,Repeat Buyer Prediction for

E-Commerce,KDD2016 からの引用です

Page 3: Repeat buyer prediction for e commerce, KDD2016

予測タスク• 過去の行動ログから、セール (Double 11) で購入を行ったユーザが 6 ヶ月以内に再購入を行うかどうかを予測• コンペの主催者はリピーターになる可能性があるユーザにプロモーションを打つようにしてコストを抑えたい

Double11 から 6 ヶ月以内の再購入の有無が予測対象

Liu,2016,Repeat Buyer Prediction for E-Commerce,KDD2016

Page 4: Repeat buyer prediction for e commerce, KDD2016

特徴量の種類• 特徴量の元データとする属性

• ユーザ• ブランド• カテゴリ• 店舗• アイテム属性• ユーザ x ブランド• ユーザ x カテゴリ• 店舗 x ブランド• 店舗 x カテゴリ• ユーザ x 店舗

• 属性の集計方法• Count/ratio• Aggregation

• 最大値、平均など• Recent activity• Complex feature

• トレンドや PCA 、 LDA などを含む。その他の扱いに近い• Age/gender related

• 上記の集計を年代別や性別に分けて行う。上記 4 つとの組み合わせになる交互作用

左側にある属性を、右側にある集計方法で処理して特徴量を作成する(合計 1364 属性)。例えば、ユーザが店舗でクリックしたユニークアイテム数や、店舗で購入が発生した日数の平均などが作成される

Page 5: Repeat buyer prediction for e commerce, KDD2016

特徴量の評価• XGBoost を利用して特徴量が精度にどの程度影響しているのかを評価• Factorization Machine 、 Ligistic Regression 、 Random

Forest 、 GBM 、 XBGooxt で比較して、モデル単体だと XBGoost が最も精度が高かった• 他の予測モデルで特徴量を評価しても、特徴量の評価順はほぼ一緒だったと述べられている

Page 6: Repeat buyer prediction for e commerce, KDD2016

特徴量グループ毎の評価• AUC は対象の特徴量グループのみでモデル構築した場合の

AUC

• Leave-out AUC は、対象の特徴量を除いてモデル構築した場合の AUC• 他の特徴量で代替が難しい?

Liu,2016,Repeat Buyer Prediction for E-Commerce,KDD2016

Page 7: Repeat buyer prediction for e commerce, KDD2016

特徴量グループ毎の評価• 店舗属性やブランド属性をそのまま利用した特徴量は、除外した方が全特徴量を利用した方が AUC が高い• セール (double 11) 当日や、直近 1 週間の行動、 LDA で作成した特徴量は除外すると

AUC の下がり幅が大きいので、他の属性では代替が難しいと思われるLiu,2016,Repeat Buyer Prediction for E-Commerce,KDD2016

Page 8: Repeat buyer prediction for e commerce, KDD2016

個別の特徴量の重要度• XGBoost の特徴量の重要度を用いて算出。 1364 変数に順位を付ける• 重要度 Top20 は、以下の 3 つが 2/3 を占める

• User aggregation(7 features)• ユーザが購入を行った日数の標準偏差(性別と店舗の組み合わせ毎に集計)• 購入日数の平均(性別・店舗・ブランドの組み合わせ毎に集計)etc. ( 購入ログを集約したものが多い )

• Repeat buyer(3 features)• 再購入が行われた日数の比率 ( 店舗とブランドの組み合わせ毎に集計 )• 特定の年代の再購入の比率        etc.

• Product diversity(3 features)• ユーザがクリックしたユニークアイテム数• ユーザが購入したユニークアイテム数   etc.

• 除外すると AUC の低下が大きかった LDA は XGBoost 上だと上位に来ない

Page 9: Repeat buyer prediction for e commerce, KDD2016

所感• モデルに投入する特徴量として、属性の値をそのまま投入するのではなく、交互作用や性年代、 Recency に着目して集計することでモデルの精度が上がることが分かる

• EC で販売されているものはジャンルが幅広いため、こうしたセグメントを区切って作成した特徴量が有用だと思われる(このブランドは女性は好きとか)• 上記の様な集計値以外にも LDA を使って特徴量を作ることで特徴量を底上げできる

• 他の属性で代替できないようなので、ある程度特徴量を作った後で追加しても精度向上が見込める• ただし、自分で LDA で特徴量を作って試してみても精度が上がらなかったのでチューニングは必須。他の特徴量を作った後に追加を試みるのが良さそう