豆瓣在推荐领域的实践和思考

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

豆瓣在推荐领域的实践与思考胖子@豆瓣2009.12.19豆瓣的推荐引擎--豆瓣猜豆瓣猜的产品形态•喜欢XX的也喜欢•豆瓣猜你会喜欢•今日推荐•围绕推荐设计的产品什么样的产品适合推荐?•具有媒体性的产品(MediaProduct)–口味(taste)很重要–单位成本不重要–有瀑布效应(informationcascade)–多样性媒体类产品的数据特征用户数条目数稀疏性多样性时效性反馈推荐效果图书3,000,0003,000,0000.5%高低慢B电影5,000,000100,0001%~5%低中中C唱片1,500,000400,0001%低低中C小组5,000,000200,000%1中中中B人5,000,0005,000,0000.5%高低慢D文章500,00010,000,0000.1%高高快C单曲5,000,0001,000,0005%~10%低低快A广告30,000,00050,0001%低高中D用户数条目数人图书电影唱片小组文章广告单曲时效性稀疏性人图书电影唱片小组文章广告单曲时效性多样性人图书电影唱片小组文章广告单曲反馈多样性人图书电影唱片小组文章广告单曲什么样的产品适合推荐?•条目增长相对稳定•能够获得快速反馈•稀疏性、多样性和时效性的平衡豆瓣的成长通过算法分析应对高成长性推荐系统的可扩展性•User-Item矩阵,平均每行的非零元素个数是L个,考虑的计算复杂性–假设A的非零元均匀分布,求S的非零元素个数–S中任一元素非零的概率为,TAASnnAnnL))(1(12•则S的非零元素个数))1(1()))(1(1(22222nLnnnLnn2nL•考虑A中的元素非均匀分布的情况niLp1nppni1letaccordingtoCauchy-SchwarzInequalitynnipp122)1()1(so2nLS推荐系统的可扩展性•降低存储空间•近似算法/分块•并行/分布式计算推荐系统面临的挑战•产品形态–推荐是一项技术还是一种产品/功能?–推荐能否有独立的产品形态?用户收藏推荐质量冷启动兴趣过多评价指标•Hit-rate/RMSE•点击率•如何形成闭环?黑盒推荐的问题•倾向于给出平庸的推荐•放大噪声•有信息,无结构•缺乏对用户的持续关注下一代推荐系统PredictionForecastingRecommendationPrediction•明确的优化指标•静态模型/系统•由数据形成信息Forecasting•闭环的系统•动态模型•由信息形成知识Recommendation•以用户为中心,建立用户行为模型•有记忆的,进化的系统•由知识形成系统结构下一代推荐系统•技术准备–云计算–OpenID–SemanticWeb–…个性化技术推荐Anti-Spammer信息过滤广告机器学习用户模型协同过滤矩阵分解分类器聚类…个性化推荐与非个性化推荐•人人都需要过滤器?TierITierIITierIII如何发现信息•排序(Ranking)•关联(Correlation)•聚类/分类(Clustering/Classification)•过滤(Filtering)一些有用的方法CorrelationEMBoostingEigenVectorBayesMeta-HeuristicsAlgorithmsshouldfacilitateratherthanreplacesocialprocesses.Q&AThanks

1 / 32
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功