分享人:陈开江什么“停不下来”?以前,我们在PC上如何耕耘?提取核心词相似排序检索推荐展示48小时内的高质量原创微博保证多样性微博正文相关推荐初始IDF+Entropy提取核心词获取推荐候选预估ctr推荐展示48小时内的高质量原创微博历史优质微博内容库百万级特征10亿级样本并行训练特征管理模型评估AB-test统一样式,吸引用户保证多样性词关联扩展Word2vec改造微博正文相关推荐演化后TextRank+IDF+Entropy+ctr0.00%0.10%0.20%0.30%0.40%0.50%0.60%0.70%0.80%上线前上线一周后测试组对照组演化后的效果同样的技术架构,复用到客户端之后?0.00%0.50%1.00%1.50%2.00%2.50%123456789101112客户端PC端PC和移动推荐的对比(微博正文)微博推荐客户端实例哪些不同?找不同拜拜,PC。考拉FM——个性化移动网络电台这是个什么生物?产品介绍优化目标和约束提高用户与节目的互动提高用户在平台上的活跃度发现用户新兴趣,指导内容生产推送用户最感兴趣的节目优化目标可用的数据考拉FM中的用户行为顶、踩、跳过(一期节目)订阅(一档节目)收藏(一期节目)点播(一期节目)分享(一期节目)移动设备上的传感数据其他实践一:招待新客人新用户新节目冷启动热门榜不要过度依赖热门榜登录微博抓取微博信息用户分类兴趣分类相似用户第三方数据CUR预估𝑝(𝑢𝑝|𝑢𝑠𝑒𝑟,𝑖𝑡𝑒𝑚,𝑐𝑜𝑛𝑡𝑒𝑥𝑡)CUR预估顶?还是不顶?这是个二分类问题——莎士比亚LogisticRegression:11+exp(−𝑤𝑡)CUR预估Userfeature:标签,性别,地域,分类,……Itemfeature:标签,类别,内容关键词,主持人,风格,所播音乐的歌手,音乐节奏……Contextfeature:时间,状态(静止,移动),GPS数据,本地天气,周边路况,动态特征CUR预估——特征CUR预估——样本显然,正样本是“顶”过的数据。那么,负样本就是“踩”过的数据吗?踩过的数据太少,需要从踩+无表达数据中随机抽取。CUR预估——样本00.10.20.30.40.50.60.70.80.91:0.51:0.61:0.71:0.81:0.91:1.01:1.11:1.21:1.31:1.41:1.5AUC正负比例1、特征值需要归一化或者离散成binary特征;LR模型训练备忘2、特征组合值得一试;3、样本质量很重要。4、样本保证时间顺序:有利于淘汰或衰减旧样本,方便用新样本测试、更新模型专家标注傅里叶变换节目类型、主持人、标签等音频分析节目稿件内容关键词新节目实践二:不忘老客人协同过滤(S1)CUR预估(S2)热门榜(S3)w1*s1+w2*s2+w3*s3伺候老用户改造1:针对节目档和期分别构造协同矩阵分片协同过滤改造2:针对各种用户反馈分别构造协同矩阵改造3:针对用户收听百分比构造评分矩阵加权融合协同过滤的快速实验GraphChi单机神器图计算GraphLab家族协同过滤的快速实验百万用户,万级节目,近亿级边的二部图Graphchi做矩阵分解只需要3~4min小公司的救星——值得颁锦旗多模型融合2jj1ˆ(yy)MjRMSEMw1*s1+w2*s2+w3*s3如何科学地确定权重?用三项模型预测结果,最小二乘法拟合用户收听时长百分比00.10.20.30.40.50.60.70.812345678910111213141516加入微博登录信息多模型融合收听百分比实践三:随叫随到的服务即时推荐相似节目推荐相关节目推荐即时推荐内容分类(形式分类(节目调性(节目风格(主持人姓名主持人个数主持人性别主持人声音类型标签/关键词……向量空间模型余弦相似度向量元素权重量化,借鉴IDF值:𝐻𝐹𝑖=𝑙𝑜𝑔𝑇𝐶𝑖公式中𝐹𝑖表示特征(维度)i,𝐶𝑖是特征i在覆盖的节目数,T是总节目数。相似节目节目稿件内容节目排重节目排重背景:同一新闻,不同节目在播报数据:短文本需求:对高度重合的主题快速聚类节目排重后缀树聚类(suffixtreecluster)在线增量构造后缀树:Ukkonen算法秒级快速聚类:排重,寻找同主题节目内容相似计算倒排索引离线计算内容向量长度离线计算用户顶过的节目之间相似度WAND算法:剪枝5ms–节目的协同效应–顶过这个节目的用户还顶过哪些节目顶过的用户用户1:权重1用户2:权重2……用户X:权重X节目A顶过的用户用户1:权重1用户2:权重2……用户Y:权重Y节目B相关节目推荐𝑊𝑈𝑖,𝐼𝑗=RateUi,Ij∗DistributionUi∗IDF(Ij)3相关节目推荐——量化Rate(Ui,Ij)=𝑪𝒖𝑰𝒖𝐃𝐢𝐬𝐭𝐫𝐢𝐛𝐮𝐭𝐢𝐨𝐧𝑼𝒊=𝒍𝒐𝒈𝑵+𝒑𝒌𝒍𝒐𝒈𝒑𝒌𝑵𝒌=𝟏𝒍𝒐𝒈𝑵𝐈𝐃𝐅𝐈𝐣=𝟏−𝐞−𝐓𝐂𝐣𝟏+𝐞−𝐓𝐂𝐣051015202505101520平均用户每天收听时长(min)平均用户收听时长加入微博信息,解决冷启动多模型融合即时推荐实践四:论清洗的重要性数据质量的重要性网络环境复杂不稳定;程序本身的bug;用户移动设备的错误。数据初期严重不一致、不完整;数据逻辑错误;数据违背常识逐!出!山!门!00.10.20.30.40.50.60.70.80.912345678910CUR预估模型实验记录AUC数据质量的重要性去掉不一致的,错误的数据特征组合实践五:客人要打包带走用户脱离视野无法及时推送最新节目,获取用户最及时反馈;服务端无法为用户离线节目构建与环境变化契合的编排;用户脱离视野为用户时刻提供贴心服务固然重要,但一定不能让用户设备耗电太快,设备太慢。————爱因斯坦目前的我们到此,总结一下总结UI/UE:40%data:30%knowledge:20%algorithm:10%推荐系统处方:熬制方法:不停发现问题,解决问题Ontheway…沙龙组委会同学:淘宝的百寿,天猫的德福致谢对本ppt有帮助的微博推荐团队同学:@袁树仑@zhaopeiv@小11@fengyoung@wb王传鹏【按年龄排序】考拉FM个性化推荐团队全体同学谢谢大家!现在可以掏出你们早已准备好的问题或臭鸡蛋了。