ai lab paper friday 20161028

25
Collaborative Evolution for User Profiling in Recommender Systems AI Lab 馬馬 paper friday 2016. 10. 28

Upload: jun-baba

Post on 15-Apr-2017

49 views

Category:

Science


0 download

TRANSCRIPT

Page 1: AI Lab Paper Friday 20161028

Collaborative Evolutionfor User Profiling

in Recommender Systems

AI Lab 馬場paper friday 2016. 10. 28

Page 2: AI Lab Paper Friday 20161028

論文紹介

・刻一刻と変化するユーザの興味を加味したい

・MF x VAR の組み合わせが新規性

Page 3: AI Lab Paper Friday 20161028

Introduction

Page 4: AI Lab Paper Friday 20161028

ユーザの興味は刻一刻と変わっていく

① 「携帯探してたけど買ったからもう興味ないわ」 というユーザの興味が失われる系の変化

② 「新しく子供ができたから幼児について勉強したい」 という新しい興味が湧いてくる系の変化

③ 「寒くなってきたから厚手のコートがほしい」 という時間・季節に沿って変わる系の変化

⇒ 変化するユーザの興味を捉えたレコメンドがしたい

Page 5: AI Lab Paper Friday 20161028

既存のレコメンド手法

Training Data Test Data

「 Training 期間の興味度合いが、 Test 期間でも一定に続く」という前提

興味度合い

Page 6: AI Lab Paper Friday 20161028

提案手法の課題感

Training Data Test Data

Training 期間の中でも、興味度合いは時間推移に沿って変わっていく

その変化を捉えて、 Test 期間を予測できるようにするべきでは?

興味度合い

Page 7: AI Lab Paper Friday 20161028

提案手法のアイデア

Matrix Factorization

Vector Auto Regressive Model

Page 8: AI Lab Paper Friday 20161028

Preliminary

Page 9: AI Lab Paper Friday 20161028

Probabilistic Matrix Factorizatin (PMF)

Rating Matrix の計算に正規分布を導入したもの

“Probabilistic Matrix Factorization”, R. Salakhutdinov and A. Mnih, NIPS2008

Page 10: AI Lab Paper Friday 20161028

Probabilistic Matrix Factorizatin (PMF)

Rating Matrix の計算に正規分布を導入したもの

User x Item 行列(m x n)

User x Interest 行列 ( k x m ) Item x Interest 行列

( k x n )

indicator function

use i が item j を見たか否か

“Probabilistic Matrix Factorization”, R. Salakhutdinov and A. Mnih, NIPS2008

user i の Interest ベクト ル ( k x 1 )

item j の Interest ベクト ル( k x 1 )

Page 11: AI Lab Paper Friday 20161028

Vector Auto Regressive (VAR)

係数行列 と分散共分散行列 を推定する

⇒ 最小二乗法により求める

時刻 t のユーザ興味ベクトルを推定するために VAR を適用する

時刻 t のユーザ興味ベクトル( k x 1 )

時刻 t - 1 のユーザベクトルが与える 影響を表す係数行列 ( k × k )

Page 12: AI Lab Paper Friday 20161028

Least Square Estimation with Φ

係数行列 と分散共分散行列 を推定する

※ vec(·), which transforms a matrix into a vectors by stacking the columns.

Page 13: AI Lab Paper Friday 20161028

Least Square Estimation with Φ

係数行列 を推定する

分散共分散行列 を推定する

“Estimation of parameters and eigenmodes of multivariate autoregressive models”, A. Neumaier and T. Schneider, 2001

Page 14: AI Lab Paper Friday 20161028

Bootstrap Step と Collaborative Evolution Step

Page 15: AI Lab Paper Friday 20161028

Bootstrap Step

VAR に入れる最初のユーザ興味ベクトルのリストを作る必要があるので、

1. T0 までで PMF を行い、ユーザ興味ベクトルのリスト を得る

2. Item 特徴ベクトルは時刻で大きく変動しないはずなので、 を利用する

ゆえに、 Bootstrap Step では以下の関数を最大化するように学習する

Page 16: AI Lab Paper Friday 20161028

Collaborative Evolution Step

T0 以降からは以下の式を最適化する

ただし、

Page 17: AI Lab Paper Friday 20161028

Collaborative Evolution Step

問題変形をすると( log-posterior ⇔ の最大化 二乗誤差和の最小化)

Update のルール

Page 18: AI Lab Paper Friday 20161028

Item Recommendation in Future time

最終的に、時刻 T+λ のユーザ i に対するアイテム j の推定値は以下で算出する

推定された時刻 T+λ の ユーザ興味ベクトル( k x 1 )

推定された時刻 0 の アイテム特徴ベクトル( k x 1 )

Page 19: AI Lab Paper Friday 20161028
Page 20: AI Lab Paper Friday 20161028

Experiments

Page 21: AI Lab Paper Friday 20161028

Dataset

Chinese e-commerce website: “www.51buy.com”

2013年 4 月 ~ 2013年 9月までの、ユーザの閲覧ログ ← 予測しているのは閲覧

ここにデータもスライドもあるよ! http://zhongqi.me/ ← ない。

EvaluationRMSE で比較しています

Page 22: AI Lab Paper Friday 20161028

比較手法

PMF [Salakhutdinov and Mnih, 2008]

・MF 手法の欠損値の予測に効果的

・今回は色んな学習期間のものを用意( 15d, 30d, 60d)

BPMF (Baysian PMF) [Salakhutdinov and Mnih, 2008]

完全にベイズ的に PMF を扱う。

PMF よりも計算量が高いが、多くの場合で PMF より精度が高い

timeSVD++ [Koren, 2009]

時系列要素を入れた SVD。

通常の SVD よりも計算量が高いが、多くの場合で精度が高い

Page 23: AI Lab Paper Friday 20161028

① 他手法との比較結果

・提案手法( CE )が他手法よりも安定して低い RMSE を実現している

・週末は過去行動によらない閲覧行動が起きやすく、どの手法も精度が下がる

Page 24: AI Lab Paper Friday 20161028

T のサイズ比較結果

・ T を大きくすればするほど精度が上がっていく

・が、 30 → 50 は計算コストが上がる割に、下がり幅が少ないので 30 日が最適

Page 25: AI Lab Paper Friday 20161028

まとめ・感想

・MFと VARを組み合わせることで、変化するユーザの興 味 を捉えたレコメンデーション手法を提案した

・ Shop の実購買データを使って実験し、 比較手法の中で最も RMSE が低いことを確認した

・直感的に理解しやすい課題を、 直感的に理解しやすい手法で解決していて良い

・いくつかパラメータがあるのでそれらの最適値が気になる

・計算時間について 1 ミリも記述がないのが不安