技术沙龙30期推荐引擎实践策略篇_赵岷

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

百度推荐引擎实践系列(⼀一):策略篇赵岷百度–推荐与个性化部2012.10.20为何推荐?百度推荐与个性化实践推荐系统设计要素推荐系统设计之策略篇⺫⽬目录搜索VS.推荐:互为补充3信息爆炸信息过载知识匮乏时间有限⽅方法1⽤用户主动搜索⽅方法2系统主动推荐⽤用户知道⾃自⼰己想要什么&&知道如何描述⾃自⼰己的需求⽤用户有需求&&不知道怎样描述⾃自⼰己的需求or不知道去哪寻找/懒得找推荐与个性化非个性化  推荐非推荐的  个性化个性化推荐ACBe.g.,  用户个人中心ü ⺫⽬目标:协助⽤用户⾼高效便捷地寻找/发现信息ü 管理&组织、搜索&引导、浏览&发现e.g.,  关联商品推荐e.g.,  基于个人消费  历史的推荐ü 产品可兼顾三者,搜索与推荐功能有机结合为什么个性化推荐越来越热?ü 提升⽤用户体验和满意度,增强⽤用户粘性– 消费需求的变化:• 单⼀一/从众à多样/个性/品位– 信息的极⼤大丰富• 需要有效的信息过滤⼯工具ü ⽤用户数据的积累已经可以⽀支撑个性化应⽤用– 能够在线获得⼤大量⽤用户⾏行为、偏好数据– SNS的流⾏行,⽤用户逐渐养成分享和接受推送的习惯5个性化推荐:“钱”景ü 个性化营销– 电⼦子商务公司ü 个性化⼲⼴广告– 以⾯面向个⼈人⽤用户的⼲⼴广告为主要盈利模式的互联⺴⽹网公司6但是……ü —除了⼲⼴广告/商品推荐之外,推荐还能带来什么显著收益?ü —推荐是锦上添花,还是雪中送炭?独⽴立推荐产品能成功吗?ü —会出现像搜索引擎⼀一样成功的推荐引擎吗?或者,推荐引擎将与搜索引擎合⼆二为⼀一?ü 以上,期待⼤大家的实践J为何推荐?百度推荐与个性化实践推荐系统设计要素推荐系统设计之策略篇⺫⽬目录例:个性化上⺴⽹网⼊入⼝口--百度新⾸首⻚页9例:知道问题推荐10例:贴吧帖⼦子推荐图⽚片、视频11例:⾳音乐推荐12百度推荐实践⼩小结ü 全类型– 资讯– 多媒体– LBS、APPü 全⽅方位– 个⼈人上⺴⽹网⼊入⼝口、各垂直领域、PC+⽆无线13推荐引擎技术Overview产品策略推荐算法基础数据推荐资源  内容模型  推荐子系统评估    在线  服务    流式  计算    算法  平台    数据  仓库  产品线⽇日志⺴⽹网⻚页库UGC数据……架构uid/cookie/⽆无线/…⽂文本内容模型:资讯/视频/图⽚片ontology:作品类⽤用户兴趣模型⽤用户⾏行为模型用户模型关联触发CTR预估协同过滤……内容关联视频类推荐资讯类推荐……贴吧知道新⾸首⻚页…推荐效果评估产品分析分析框架/⼯工具video新闻资源库用户数据资讯/视频/图⽚片/⾳音乐/…为何推荐?百度推荐与个性化实践推荐系统设计要素推荐系统设计之策略篇⺫⽬目录推荐的核⼼心任务ü Task1:通过⼈人的⾏行为/偏好/兴趣、事物的特性等建⽴立事物间和⼈人之间的关联– ⾏行为:浏览购买、地理位置、SocialNetwork、……– ⼝口味:吃喝玩乐、⾐衣⾷食住⾏行、……ü Task2:把关联的⼈人或物推荐给⼈人– 书籍、电影、⾳音乐、⽂文章、⺴⽹网站……– 商品、⼲⼴广告……– ⼈人、团体、活动……设计要素ü 需求分析和⽤用户调研ü 功能设计ü 界⾯面设计ü 架构设计ü 算法设计ü 系统评测17123456~~    不同推荐系统各部分重要程度不同~~需求分析和⽤用户调研-为谁?推荐什么?何时?何地?ü 为谁(例):– 新⽤用户:兴趣未知,着重多样性、新热– ⽼老⽤用户:兴趣已知,着重个性化ü 推荐什么(例):– 价格⼀一致,⽤用户经常购买的类别• 书、电影、⾳音乐、⽂文章à以⽤用户对内容主题的兴趣为主– 价格不⼀一致,⽤用户经常购买的类别• 服饰、⽇日⽤用百货à视觉、品牌、价格、内容ü 何时(例):– EmailVS.⼿手机短信VS.APP推送– 短期、⻓长期、周期(节假⽇日、季节、……)ü 何地(例):– 商家、优惠券推送1功能设计–具体实现哪些功能?ü 产品分类(例)– ⽂文本:新闻、博客、⼩小说、论⽂文、……– 图⽚片:⻛风景、商品、旅游、……– ⾳音频:歌曲、歌⼿手、专辑、……– 视频:电影、电视剧、综艺节⺫⽬目、短视频、……– 其他:app、位置服务、……– SNS:⼈人、群组、……– 混合类别~~ü 数据(例):⽂文本或其他内容+metadata+⽤用户⾏行为+SNSü 功能(例)– 1)itemàitemlist:e.g.,关联商品、关联视频、关联app、关联⺴⽹网站– 2)itemsetàitemsetlist:e.g.,关联列表、关联专辑– 3)useràitemlist、itemsetlist:e.g.,您可能喜欢的XXX– 4)useràuserlist、usersetlist:e.g.,您可能感兴趣的XXX(⼈人、群组)考虑因素:--⽤用户是否需要?--系统收益?--数据是否⽀支持?--……2ü 如何将推荐结果呈现给⽤用户?ü 如何收集⽤用户信息和反馈数据?ü ⺫⽬目的:– 提⾼高⽤用户满意度,达到推荐⺫⽬目的– 更多更好地收集⾼高质量的⽤用户反馈– 准确评测推荐算法效果203界⾯面设计ü ⼤大规模存储ü 分布式计算ü ⽤用户量、访问频次、峰值ü 实时响应的要求:– 毫秒级、秒级、⼩小时级?ü 硬件资源的最⼤大利⽤用214架构设计ü 优化准则:– 准确性、多样性、新颖性、覆盖率、时效性、……ü 数据预处理ü 离线算法ü 在线算法ü 功能实现策略ü 推荐解释– 对消费代价⼤大的(时间、⾦金钱)item尤其重要225算法设计系统评测ü 上线前:基于⼈人⼯工标注评测集ü 上线后:– 基于⽤用户点击数据• 将⽤用户显⽰示/隐式反馈转化为评测集– 基于A/B测试• 点击率、后续步⻓长、转化率、……• 整体收益VS.各模块内部收益– 产品指标– ⽤用户指标:⾼高收益⽤用户、低收益⽤用户• 每个产品特性导致不同的评估指标• 如何评估⽤用户需求满⾜足度?6为何推荐?百度推荐与个性化实践推荐系统设计要素推荐系统设计之策略篇⺫⽬目录功能分析、数据分析、算法设计推荐系统设计之策略篇25⽤用户群体、推荐功能ü ⽤用户数:万à⼗十万à百万à千万à亿ü ⽤用户群体:低端/⾼高端、⼤大众/⼩小众、职业、年龄……ü 推荐功能:– 推荐内容:资讯、视频、图⽚片、……– 个性化?⾮非个性化?– Session?Cookie?⽤用户?– Top-N?列表浏览?– 实时反馈的更新:点击、收藏、喜欢、删除、换⼀一批– ⽤用户模型的更新:实时、⼩小时级、天级、周级?26例:功能分析ü 例1:知道问题推荐– ⽤用户:知道产品相对资深⽤用户,各领域都有– 推荐功能:• 推荐内容:知道待回答问题• 是否个性化:针对特定⽤用户的个性化推荐,和⽤用户历史⾏行为偏好相关• 展现形态:个⼈人中⼼心列表浏览&特定场景推送• 实时反馈:点击查看、回答• 时效性需求:固定周期更新or根据⽤用户⾏行为实时调整ü 例2:贴吧帖⼦子推图⽚片、视频– ⽤用户:浏览该帖⼦子的⽤用户,可能是贴吧忠实⽤用户或搜索带来的⾮非贴吧⽤用户– 推荐功能:• 推荐内容:帖⼦子相关的图⽚片或视频• 是否个性化:⾮非个性化的关联推荐,每个⽤用户看到的都⼀一样• 展现形态:关联列表(⽂文字标题+多媒体内容)• 实时反馈:点击查看• 时效性需求:固定周期更新(旧帖)or实时关联计算(新帖)27功能分析、数据分析、算法设计推荐系统设计之策略篇28数据类型ü Item– 内容:⽂文本、图⽚片、⾳音频、视频– Ontology、tagü ⽤用户– profileü ⽤用户-item⾏行为数据– 点击、收藏、删除、观看、评分历史ü 关键:各类数据是否充⾜足?可⽤用性如何?29例:item基础数据的重要性界面1:界面2:界面3:ü Explicitfeedback– 评分、收藏、推荐/分享、购买、评论ü Implicitfeedback– 点击浏览、下载、停留观看时间ü 理想:⼤大量准确的Explicit反馈ü 折中:⽤用Implicit反馈补充ü 问题:Explicit与Implicit数据的整合例:⽤用户-item⾏行为数据ü 推荐算法设计与评估的基础– 数据充⾜足,简单算法性能可以很好– 数据缺失,任何算法也不可能有好的性能ü 要求:不仅要吸引⽤用户提供反馈,⽽而且要吸引⽤用户提供准确反馈– 给⽤用户充⾜足便利的反馈机会– 促使⽤用户提供准确反馈/反馈鉴别机制• 购买⾏行为:主动搜索购买VS.促销购买• 浏览⾏行为:排⾏行榜的强引导作⽤用32⽤用户-item⾏行为数据的价值功能分析、数据分析、算法设计推荐系统之策略设计33例:简单的个性化推荐流程图实时用户模型实时内容模型触发召回推荐排序展现策略:相关、新热、多样、……用户实时反馈内容更新离线用户模型离线内容模型离线关联通知提醒用户建模算法内容建模算法*离线关联算法在线算法算法选择:基于数据和功能ü 数据– 内容:⽂文本、图⽚片、⾳音频、视频、……– Metadata:Ontology/类别信息、tag、……– ⽤用户⾏行为⽇日志:点击、评分、……– SNS:好友关系、群组关系、……ü 同⼀一个算法可实现不同功能;同⼀一个功能可⽤用不同算法实现ü ⽤用户建模、内容建模:将⽤用户、内容⽤用特征向量描述– 属性、term、topic、……ü 离线关联算法:计算⽤用户-⽤用户/⽤用户-item/item-item关联并排序– 关联/相似度计算• 基于内容的:专家标注、ontology、tag、⽂文本/⾳音频/图像/视频、……• 基于⽤用户⾏行为的:统计⽅方法、关联规则、相似度经验公式• 混合算法– 机器学习• 协同过滤:knn、基于模型的、……• 各种经典算法:分类、回归、聚类、图算法、……35例:关联计算–基于内容的(专家标注)36jinni.com:  Movie  Genomeü 和其他领域紧密结合– 新闻、博客、…–⾃自然语⾔言处理– ⾳音乐–⾳音频处理;图像–图像处理;视频–视频处理ü 精度取决于相关领域的研究进展ü 专家标注:限于item数量少且有相对客观标准的领域– 电影VS.书籍– ⾃自动专家发现?ü 可与Metadata结合:– ontology(量少准确):商品分类• 分类排⾏行榜:很⼟土很有效的推荐列表– tag(量⼤大不准确)37基于内容的关联计算:解决冷启动的好办法例:关联计算–基于⽤用户⾏行为统计的38关键在于用户是否需要此功能  不在于算法简单或复杂关联计算–基于⽤用户⾏行为的(关联规则)ü 基本假设– 过去经常被⼀一起频繁消费的商品,今后也会被⼀一起消费ü 算法:– 根据事先确定的⽀支持度、置信度、提升度等,计算关联商品ü 成熟的商业应⽤用– 电信套餐定制、超市捆绑销售ü 特点:– 适合Session/Transaction数据– 难以对⻓长尾商品作有效预测– ⽤用户的消费差异性被忽略,不是很适合个性化推荐40— 将用户用item向量表示,或将item用用户向量表示— 向量上的取值可以是用户对item的评分或其他行为取值— 常用的相似度计算公式(也可用于内容关联计算)关联计算–基于⽤用户⾏行为的(相似度公式)关联计算–混合算法ü 关联融合– 数据融合à关联算法– 不同关联算法à结果融合ü 关联结果应⽤用– 直接⽤用于相关推荐– 个性化推荐:⽤用户对特定item的偏好à关联扩展机器学习算法–协同过滤ü 优点:不依赖domain42协同过滤基本假设过去行为偏好相似的用户,今后行为偏好也相似基本思路基于近邻的为每个用户/商品计算相似用户/商品,再利用相似用户/商品的历史进行预测:基于部分user-item关系相似度计算à  k近邻à  偏好预测基于模型的用隐变量刻画用户和商品间的关系:部分user-item关系à  用隐变量刻画user-

1 / 52
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功