scalable coordinate descent approaches to parallel matrix factorization for recommender systems

発表資料Takuya Makino

Saturday, March 23, 13

紹介する論文

• Scalable Coordinate Descent Approached to Parallel Matrix Factorization for Recommender Systems (ICDM 2012)

• Hsiang-Fu, Cho-Jui Hsieh, Si Si, and Inderjit Dhillon

• Best Paperです

Motivation

• 行列分解 (Matrix factorization)は、行列の要素に欠損値がある場合、推薦システムにおいて良いテクニック

• web-scaleのデータを処理するための、並列・分散化が容易で、かつ効率的な行列分解の計算方法が必要

The matrix factorization problem

The matrix factorization problem観測の出来るユーザiの商品jに対する評価

k次元の素性空間におけるユーザiの素性と商品jの素性の内積（rank-k (k < m, k < n) 行列分解）

観測の出来るユーザiの商品jに対する評価

L2正則化

k次元の素性空間におけるユーザiの素性と商品jの素性の内積（rank-k (k < m, k < n) 行列分解）

||・||_{F}は、フロベニウスノルムといい、行列の全要素の二乗の総和

観測の出来るユーザiの商品jに対する評価

つまり• (推定に役に立たない素性の重みは0になるようにしつつ、)未観測な要素も含め、Aを近似行列WH^Tで推定できるように誤差を最小化W, Hを求める

• 制約なしの凸計画問題なのでStochastic

Gradient Descent (SGD)などの数値解法でW, Hを求める

• (1)が凸計画問題である証明はパス (See T村本)Saturday, March 23, 13

Coordinate Descent

• ある一つ(以上)の変数を更新する際に、他のすべての変数を定数とみなす手法

• 変数を一つとみたときの目的関数は？

• どういう順番で変数を更新する？

Coordinate Descent

• ある一つ(以上)の変数を更新する際に、他のすべての変数を定数とみなす手法

• 変数を一つとみたときの目的関数は？

• どういう順番で変数を更新する？実はここをうまく考えると計算量を削減できる！

変数を一つとみたときの目的関数は？

(4)はw_{it}をzとした時の目的関数

変数を一つとみたときの目的関数は？

(4)はw_{it}をzとした時の目的関数

(1)を、内積の中のw_{it}が関係している項をzに置き換えただけ

式(4)を解くと

式(4)を解くとk�

withjt

素直にz*を計算するとO(|Ω_i|k)

f ’(z)=0とおくと得られます

residual matrix Rk�

withjtを毎回計算したくないのでRを保持

パラメータの更新k�

withjt はここで保持されている

h_{jt}も同様にして更新可能

O(|Ω_i|k)から O(|Ω_i|)に

更新の効率化

• residual matrix Rを保持することで計算時間が O(|Ω|k)から O(|Ω|)に

• ここは提案手法ではないです

どういう順番で変数を更新する？

• Item/User-wise Update

• Feature-wise Update

( ) ( )1i or j

m or n

1i or j

m or n

Item/User-wise Update

Feature-wise Update観点を変えて、Aをk個の行列の積の総和と考える

t番目の素性によるm×n行列m×1行列と1×n行列の積はm×n行列

提案手法では、これを求めることを考えますSaturday, March 23, 13

u, vを求めるsubproblem

とすると(15)は

と変形できるSaturday, March 23, 13

Feature-wiseの何がおいしいのかR̂ij = Rij + wtihtj

wit = wti hjt = htj なので注目しているtに関する項は下線部で相殺して消去される

つまり、u_iとv_jの更新のたびにR^を計算し直す必要がなくなる

= Aij �k�

t�=1

wit�hjt� + wtihtj

Feature-wise Update

( )一度のsubploblemについて、Rの計算量はT CCD

iterations中の変数の計算量に比べてO(1/T)倍

Feature-wise Update

( )一度のsubploblemについて、Rの計算量はT CCD

iterations中の変数の計算量に比べてO(1/T)倍

O(1 + 11 + 1

) = O(2T

T + 1) 倍速くなる

T回CCDをおこなうと、1回だけCCDをおこなった時より

p個の小さなベクトルに分けて

p個の小さなベクトルに分けて並列で更新

(16)はu_iは他のuと独立Saturday, March 23, 13

関連研究• Alternating Least Square (ALS)

Hを固定してWを求める、Wを固定してHを求める、を繰り返す

並列化は容易だけど計算量が多い

• Stochastic Gradient Descent (SGD)

計算量は少ないが並列化が難しい

収束が学習率に依存、性能が変数の更新の順序に依存

Conclusions

欠損があるAにおいて、CCD++ (Feature

wise-Update)は計算量が既存手法に比べて少なく、かつマルチコア環境、分散環境においてともに並列化が容易

scalable coordinate descent approaches to parallel matrix factorization for recommender systems

Documents

social recommender - consigli in rete

recommender systems - humberto corona

recommender systems bener

stochastic gradient descent (sgd)

amnesia the dark descent

descent it a

holonomic gradient descent

factorization properties of congruence monoids

a hybrid recommender - diva portal1092321/fulltext01.pdf ·...

entscheidungshilfe: recommender system

factorization introduction

music recommender systems

ssd - single seed descent

september 3, 2005 heraeus summer school 1 lecture 2...

recommender systems - uni-due.de€¦ · x. quellen anja...

how to build recommender system

long descent

recommender system

factorization of multivariate polynomials

chapter 9 kinship and descent. chapter outline why study...