服务于个性化营销的推荐系统实现与应用项目背景商务活动的电子化大数据时代(BigData)个性化商业推荐系统在电子商务的应用推荐系统利用特殊的信息过滤技术,将不同的物品或内容推荐给可能对它们感兴趣的用户。推荐系统的应用现状Amazon35%销售额来自推荐寻求先进算法Netflix放出百万大奖淘宝销售额90%以上仍来自搜索与类目等传统手段京东,淘宝上的应用仍是基于关联规则的非个性化推荐国内少量个性化推荐的实现多是基于协同过滤算法(豆瓣猜)VS国外国内Amazon35%销售额来自推荐国外寻求先进算法Netflix放出百万大奖Amazon35%销售额来自推荐国外VS寻求先进算法Netflix放出百万大奖Amazon35%销售额来自推荐国外淘宝销售额90%以上仍来自搜索与类目等传统手段VS寻求先进算法Netflix放出百万大奖Amazon35%销售额来自推荐国外国内淘宝销售额90%以上仍来自搜索与类目等传统手段VS寻求先进算法Netflix放出百万大奖Amazon35%销售额来自推荐国外京东,淘宝上的应用仍是基于关联规则的非个性化推荐国内淘宝销售额90%以上仍来自搜索与类目等传统手段VS寻求先进算法Netflix放出百万大奖Amazon35%销售额来自推荐国外国内少量个性化推荐的实现多是基于协同过滤算法(豆瓣猜)京东,淘宝上的应用仍是基于关联规则的非个性化推荐国内推荐给淘宝带来的销售额却低于10%VS寻求先进算法Netflix放出百万大奖Amazon35%销售额来自推荐国外个性化营销的技术体系技术体系的优势:Python语言的灵活性与C语言的运算高效性相结合;基于SQL+Python语言的数据分析与高精度的算法相结合。算法体系:核心算法+常规算法核心算法:基于网络的物质扩散方法(MD):基于用户-商品二部分网络上的物质扩散过程。扩展方法:多步扩散非均匀扩散法热传导-物质扩散混合算法初始资源加权法全局排序(GRM):用户没有选择过的最热门的商品;基于商品的协同过滤算法(OCF):基于商品之间的关联性。常规算法算法体系的优势核心算法的优势算法新。原型算法相关文章最新发表在2010年PNAS(美国科学院院刊)上,在学术界是独树一帜,企业界还是首次应用;精度高,解决了数据稀疏性问题。标准数据集(movielens,netflix)上精度比一般协同过滤算法高14%;在数据稀疏性高的数据集上(淘宝书类目下),精确度比协同过滤高900%;代码易实现,占用资源少,执行效率高。抛弃了协同过滤计算关联矩阵这一耗时和占用内存的步骤,易在大规模数据集上实现。多种的算法结合,针对不同特点的数据集,弥补算法间的不足。成功案例一:在手机阅读平台的应用个性化营销体系的数据分析功能手机阅读时间的分析手机平台匹配性分析手机阅读种类分析手机行为量的统计分析手机营销参数分析手机阅读用户年龄分析数据分析举例:阅读时间的分析分析结论:周末效应明显,星期日总是局部高峰;营销建议:建议在周末进行短信推送等相关营销。数据分析举例:平台匹配性分析分析结论:对于部分低端手机,由于平台不匹配,因此要成为活跃的阅读用户可能性非常小;过于高端可能会有更丰富的娱乐选择而放弃手机阅读;营销建议:手机阅读营销活动建议区分手机平台,中端智能手机用户是比较好的潜在用户。数据分析举例:手机阅读用户年龄分析分析结论:20~40这个年龄阶段是主力群体,占据了70%用户份额;18~22是大学期间,份额不小;另外则是刚毕业进入职场的群体。数据分析起到的作用与企业谈判前期,通过数据分析给出有价值的营销建议取得合作方的信任个性化推送展开后,通过数据挖掘找出潜在的用户群体,选择最佳时间点进行推送,以便得到更佳的推送效果个性化短信推送的实施方案用户选取了总pv量大于10间的共49892个用户,并分为了两组;useid为奇数的有24828个,为实验组,对此组用户进行个性化推荐;useid为偶数的有25064个,为对照组,移动公司方选取一本热门书对所有用户推荐(这次的书名为《北海恋人》)。然后比较这两组的推荐效果;每人只做一次推荐,一次只推荐一本书。个性化短信推送的实施效果推荐当日的激发pv量以及随后9天的激发pv量比较(红色代表实验组黄色代表对照组)个性化推荐效果总结个性化推荐比移动公司推荐11天激发的pv总量提高了35倍;pv次日保持率比企业方推荐提高了8倍;当日激发用户数比企业方推荐提高了9倍。说明:以上效果对比是抵消了通过数据分析在时间,用户选择方面优化后的提升,因此实际提升应该是更大。成功案例二:基于淘宝的个性化推荐系统实践淘宝数据具有高度稀疏性女装包括的用户:2863380,商品:305003;平均每个用户购买:1.7425个商品;平均每个商品被购买:16.36次;数据稀疏性达百万分之六;书包括的用户:1046493,商品:77967;平均每个用户购买:2.068个商品;平均每个商品被购买:2.776次;数据稀疏性达百万分之二点六。全局排序(蓝色)、协同过滤(黄色)、热传导(紫色)与物质扩散(红色)等四种算法的比较结果图示。淘宝推荐实验的理论效果对于书的推荐算法的精度与协同过滤相比提高了9倍;而对于女装的推荐算法的精度提高了6倍。说明:我们的核心算法不仅解决了淘宝数据的稀疏性难题,而且其精确度远远优于淘宝现有算法。感谢各位的倾听!