王守崑 - 豆瓣在推荐领域的实践和思考

Post on 04-Jul-2015

30.392 Views

Category:

Technology

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

豆瓣在推荐领域的

实践与思考

胖子@豆瓣

2009.12.19

豆瓣的推荐引擎--豆瓣猜

豆瓣猜的产品形态

• 喜欢XX的也喜欢

• 豆瓣猜你会喜欢

• 今日推荐

• 围绕推荐设计的产品

什么样的产品适合推荐?

• 具有媒体性的产品(Media Product)

– 口味(taste)很重要

– 单位成本不重要

– 有瀑布效应 (information cascade)

– 多样性

媒体类产品的数据特征

用户数 条目数 稀疏性 多样性 时效性 反馈 推荐效果

图书 3,000,000 3,000,000 < 0.5% 高 低 慢 B

电影 5,000,000 100,000 1% ~5% 低 中 中 C

唱片 1,500,000 400,000 < 1% 低 低 中 C

小组 5,000,000 200,000 %1 中 中 中 B

人 5,000,000 5,000,000 < 0.5% 高 低 慢 D

文章 500,000 10,000,000 < 0.1% 高 高 快 C

单曲 5,000,000 1,000,000 5% ~ 10% 低 低 快 A

广告 30,000,000 50,000 1% 低 高 中 D

用户数

条目数

广

时效性

稀疏性

广

时效性

多样

广

反馈

多样

广

什么样的产品适合推荐?

• 条目增长相对稳定

• 能够获得快速反馈

• 稀疏性、多样性和时效性的平衡

豆瓣的成长

通过算法分析应对高成长性

推荐系统的可扩展性

• User-Item矩阵 ,平均每行的非零元素

个数是L个,考虑 的计算复杂性

– 假设A的非零元均匀分布,求S的非零元素个数

– S中任一元素非零的概率为,

TAAS

nnA

n

n

L))(1(1

2

• 则S的非零元素个数

))1(1()))(1(1(2

2

222

n

Lnn

n

Ln

n

2nL

• 考虑A中的元素非均匀分布的情况

n

iLp

1 n

p

p

n

i

1let

according to Cauchy-Schwarz Inequality

n

n

ipp

1

22)1()1(

so2

nLS

推荐系统的可扩展性

• 降低存储空间

• 近似算法/分块

• 并行/分布式计算

推荐系统面临的挑战

• 产品形态

– 推荐是一项技术还是一种产品/功能?

– 推荐能否有独立的产品形态?

用户收藏

推荐质

冷启动

兴趣过多

评价指标

• Hit-rate / RMSE

• 点击率

• 如何形成闭环?

黑盒推荐的问题

• 倾向于给出平庸的推荐

• 放大噪声

• 有信息,无结构

• 缺乏对用户的持续关注

下一代推荐系统

Prediction Forecasting Recommendation

Prediction

• 明确的优化指标

• 静态模型/系统

• 由数据形成信息

Forecasting

• 闭环的系统

• 动态模型

• 由信息形成知识

Recommendation

• 以用户为中心,建立用户行为模型

• 有记忆的,进化的系统

• 由知识形成系统结构

下一代推荐系统

• 技术准备

– 云计算

– Open ID

– Semantic Web

– …

个性化技术

推荐Anti-

Spammer信息过滤 广告

机器学习 用户模型

协同过滤 矩阵分解 分类器 聚类…

个性化推荐与非个性化推荐

• 人人都需要过滤器?

Tier I

Tier II

Tier III

如何发现信息

• 排序 (Ranking)

• 关联 (Correlation)

• 聚类/分类 (Clustering/Classification)

• 过滤 (Filtering)

一些有用的方法

Correlation

EM

Boosting

Eigen Vector Bayes

Meta-Heuristics

Algorithms should facilitate rather than replace social

processes.

Q & A

Thanks

top related