@InfoQinfoqchina个性化的天猫张奇(得福)天猫推荐算法团队2014·04·20个人&团队介绍张奇中国科学技术大学,本科(2005),博士(2010),方向:信息检索2010年-2012年,阿里云搜索与广告团队2012年-现在,天猫推荐算法团队(10个人、15@7月)目录天猫推荐业务介绍/推荐系统架构历程双11个性化会场案例阿里巴巴大数据竞赛/天猫推荐算法大赛我们的工作PCM成交:22%成交:6%去年同期:15%去年同期:0%我们的工作-OnPC我们的工作-OnMobile超过60+的推荐实例,每日点击用户近1千万UV我们面对的业务RecSystem1.0业务前端开发数据开发业务特点TmallRecSystem1.0业务业务业务业务前端开发前端开发前端开发前端开发数据开发数据开发数据开发数据开发业务特点业务特点业务特点业务开发业务推荐数据层笨重、逻辑层很薄、很难做到实时无法持续优化TmallRecSystem1.5数据层:数据层与业务脱离,尽量通用逻辑层:召回与排序分离用户意图:独立的用户意图挖掘模块TmallRecSystem1.5用户实时意图计算推荐实体索引召回Ranker(CTR预估)装配(参数化)在线实验框架离线实验框架业务1业务3业务2业务4前端匹配层Hadoop/ODPS集群MPI集群Spark集群TmallRecSystem1.5推荐业务持续增长,成交占比提升47%在线存储的使用量比去年同期下降32%开发时间成本是原来的1/5总体的一些工作方向1.OnlineLearning2.集成图像技术3.选品目录天猫推荐业务介绍/推荐系统架构历程双11个性化会场案例阿里巴巴大数据竞赛/天猫推荐算法大赛2013-11-1100:01:00582.301020304050607080902012年2013年最近两年推荐引导成交的金额趋势图(单位:亿)双11当天点击推荐产品的用户数:36m推荐产品双11总体贡献-成交双11当天,推荐引导的成交约占天猫总体的30%双11当天推荐引导的成交金额:82.3亿具体案例无线双11个性化会场具体案例:无线用户的特点PC天猫客户端无线用户逛的更多PC天猫客户端UV转化率较小双11-无线个性化会场为什么要个性化:女装分会场200多个品牌,在手机上要展示近100排。点击衰减情况:0.00%2.00%4.00%6.00%8.00%191725334149576573818997105113121129137145153161169177185193201流量衰减情况双11-无线个性化会场𝑝𝑟𝑜𝑏_𝑏𝑢𝑦(𝑏𝑟𝑎𝑛𝑑𝑗|𝑢𝑠𝑒𝑟𝑖,𝑐𝑜𝑛𝑡𝑒𝑥𝑡)会场个性化算法-综述基准桶个性化桶AB偏好的品牌可能喜欢的新品牌userx融合、排序userx千人一面千人千面我们尝试把它转化为一个点击率预估问题f1f2…fnif-click……0Useri-Brandj10…21………TrainingStagePredictionStagef1f2…fnClick_probUseri-Brandx11…0?双11-无线个性化会场-CTR预估FeatureEngineering行为序列:1天7天90天时间维度:类型维度:购买点击收藏加入购物车b1b2FeatureSpace:b3f1f2…fnClick_probUseri-Brandx11…0?ExploretheUnknown偏好品牌集合foruserx6b1b3b5bbibisimItemBaseCF算法:主品牌相似品牌1b3b5b6bb11;b12;b13;…;b1hb21;b22;b23;…;b2kb61;b62;b63;…;b6k相似品牌新品牌foruserx……Models:LearningToRankPoint-WisePair-WiseLRRandomForestGBDTRank-SVM无线双11案例效果女装会场,成交金额提升27%男装会场,成交金额提升15%双11购物狂欢节是一个促销的节日:9.4亿,52亿,132亿,250亿是一个工程的奇迹:Detail访问次数16亿次/当天,峰值吞吐率:6.9万次/秒今年,开放的算法嘉年华:开放双11的产品与算法目录天猫推荐业务介绍/推荐系统架构历程双11个性化会场案例阿里巴巴大数据竞赛/天猫推荐算法大赛阿里巴巴大数据竞赛天猫推荐算法大挑战大赛名丼办时间队伍数奖金数数据Netflix推荐大赛2006-200920001百万美金48万User;1.7万Movie;1亿RatingKDDCUP2012腾讯资劣20126588000美金2百万微博用户;6千Items;3亿曝光Baidu电影推荐大赛2013100多支1万人民币1.4万电影评分数据品友互劢2013300多支100万人民币天猫推荐算法竞赛:7200支队伍,10,000多同学,4000多支提交结果大赛题目品牌是联接商家与消费者的纽带开放数据天猫用户在2011年4月-8月的品牌行为数据:对品牌的点击、购买、收藏、加入购物车等。预测数据同样这些用户在2011年9月购买的品牌根据消费者的行为,计算他们对天猫品牌的偏好程度赛题抽象阿里巴巴大数据竞赛-内部赛天猫推荐算法大挑战内部赛:120多支队伍,超过300多名内部工程师参与阿里巴巴大数据竞赛-赛程安排赛季一(淘汰赛)赛季二(大数据离线赛)赛季三(共创双11)时间区间:3月18日-4月20日时间区间:4月25日-7月30日评奖时间:8月20日(一等奖20万,二等奖5万,三等奖2万)数据规模:可下载数据,小规模,包含800多个用户、10多万条记录奖项:无奖项,从近7000支队伍中,海选最优的500支进入下一轮数据规模:1千多万的用户、5.7亿条记录时间区间:9月01日-11月11日大奖100万人民币第一赛季参赛情况区域4.2报名数中国大陆5645港澳台161海外美国48英国7加拿大6德国5新加坡4法国4日本3比利时2荷兰2芬兰2爱尔兰1澳大利亚1韩国1瑞士1小计87截止到4月20日:7280支清华大学香港科技大学中国科学技术大学中科院大学北邮、西交等学校做了十多次算法沙龙比赛进展今天,TOP500队伍正式开始第二赛季访问5.7亿用户购物行为记录@飞天致谢微博:2014阿里大数据竞赛技术交流邮箱:john.zhangq@tmall.comQ&A特别感谢合作伙伴特别感谢媒体伙伴(部分)