协作型过滤算法及其在推荐系统的应用AmazonInspiredbyyourshoppingtrendsInspiredbyyourbrowsinghistoryCustomerswithsimilarsearchespurchasedViewedthisalsoviewedBoughtthisalsoboughtUltimatelybuyafterviewedthisCustomerswhoboughtitemsinyourcartalsoboughtProductswithsimilartagsToday’srecommendationsforyouNewforyou无处不在,百花齐放,不断改进推荐系统Hunchlocal(LB)•Searchresults•Like•Dislike•UniqueV.Spopular•QuestionbasedStumbleUpon•Pro•Ilikeit•Con•Notforme•Blockwebsite•Spam/duplicate什么是协同过滤也可叫做“协作型过滤”基于假设:为用户找到他感兴趣的内容的方法是,首先找到与他兴趣相似的用户,然后将这些用户感兴趣的内容推荐给此用户协同过滤基于用户(User-based)1.随着用户数量的不断增多,在大数量级的用户范围内进行“最近邻搜索”会成为整个算法的瓶颈基于物品(Item-based)1.能够引起用户兴趣的项,必定与其之前评分高的项相似2.它们之间的相似性要稳定很多,因此可以离线完成工作量最大的相似性计算步骤,从而大大降低了在线计算量算法步骤收集可以代表用户兴趣的信息最近邻搜索,计算相关度生成推荐结果寻找相似用户方法1:欧几里得距离方法2:皮尔逊相似度欧几里得距离ABP134P224P335P422P544皮尔逊相关度ABCDEFP1343514P22445321.收集用户信息fav={‘p1’:{‘A’:3,‘B’:4,‘C’:3,‘D’:5,‘E’:1,’F’:4},'p2':{'A':2,'B':4,'C':4,'D':5,'E':3,’F’:2},'p3':{'A':3,'B':5,'C':4,'D':5,'E':2,’F’:5},'p4':{'A':2,'B':2,'C':3,'D':4,'E':3,’F’:1},'p5':{'A':4,'B':4,'C':4,'D':5,'E':0,’F’:0}}依次获得p5与p1、p2、p3、p4之间的相关度2.寻找相似用户(欧几里得)依次获得p5与p1、p2、p3、p4之间的相关度2.寻找相似用户(皮尔逊)2.寻找相似用户找到前n个最接近的邻居获得与p5在兴趣方面最相似的三个用户1.使用默认的sim_pearson(皮尔逊相关度)2.使用默认的sim_distance(欧几里得距离)3.推荐物品获得对每一件物品的预测分数这个是实例图,计算过程如下:左侧第一列是人名,第二列是与Toby的相似度,第三、五、七列分别是对三部电影的评分,第四、六、八列分别是评分和相似度的乘积,权重用第二列的相似度来表示3.推荐物品3.推荐物品3.2获得对每一个物品的预测评分1.使用sim_distance(欧几里得距离)2.使用sim_pearson(皮尔逊相似度)基于用户过滤还是基于物品过滤数据稀疏问题冷启动问题推荐质量取决于历史数据集Thanks