数据挖掘之推荐算法

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

数据挖掘之推荐算法李新卫10150513232020/2/1812020/2/182一.推荐系统研究背景随着互联网的发展,人们处于信息爆炸的时代截止2011年底,全球blog数量达到1.81亿腾讯QQ的活跃账户数量达到3个亿,同时在线数量达到3000万中国网站总数达230万面对现阶段的海量数据信息,对信息的筛选和过滤成为衡量一个系统性能的指标,这时就需要一个用户体验良好的系统——将用户最感兴趣的信息展现在用户面前,推荐系统应运而生……2020/2/183应运而生推荐系统用户购买或浏览的相关记录推荐推荐系统是根据用户的兴趣特点和购买行为,向用户推荐其感兴趣的信息和商品。比如今天你想下载一部电影看,但当你打开某个下载网站时面对海量的下载资源可能手足无措,这时推荐系统会根据你的观影记录,为你推荐相关电影2020/2/184豆瓣《黑客帝国》的推荐亚马逊《机器学习》的推荐应用:帮助电子商务网站为顾客购物提供个性化的决策支持和信息服务2020/2/185二.推荐算法逻辑斯谛回归(Logisticregression)是当前业界比较常用的学习方法,用于估计某事件的可能性。如某用户购买购商品的可能性、广告被某用户点击的可能性等A.Logisticregressionzzfexp112020/2/1861.线性回归对已知公式的未知参数进行估计假设公式为𝑦=𝜔∙𝑥+𝑏,未知参数为𝜔和b,考虑训练样本集𝑥𝑖,𝑦𝑖,i=1,2,…𝑁,回归就是根据训练样本集对𝜔和b进行估计,找到其最佳值使得在训练集中误差最小2.逻辑斯谛回归模型对数几率pppit1log2020/2/187bxbxxYPexp1exp1bxxYPexp110那么xxYPxYP111log判定 推荐:不推荐?0x2020/2/188B.协同过滤(collaborativeFiltering)a)基于用户的协同过滤算法是推荐系统中最古老的算法,又称为KNN算法。可以毫不夸张地说,这个算法的产生标志着推荐系统的诞生。步骤:找到与目标用户A最相邻的K个邻居,构成集合将这个集合中用户喜欢的,且目标用户A没有听说过的物品进行推荐2020/2/189b)基于物品的协同过滤算法,使用目标用户评价过的项目集来预测用户可能感兴趣的的其他项目。比如给喜欢《射雕英雄传》的用户推荐《天龙八部》,因为它们都是武侠剧,且作者都是金庸2020/2/1810计算两个向量的距离,距离是相似度的反映,距离越近表示两者之间的相似度越大。在推荐系统中,基于用户—项目矩阵,我们将一个用户对所有物品的偏好作为向量来计算用户的相似度,或者将所有用户对某个物品的偏好作为一个向量来计算物品之间的相似度mnmminiinnrrrrrrrrrrrrR21212222111211相似度的计算2020/2/1811𝑟𝑖𝑗表示用户i对项目j偏好程度,也即评分皮尔逊相关系数一般用于计算两个变量之间联系的紧密程度,取值区间为−1,1,𝑆𝑥,𝑆𝑦表示x,y的样本标准差相似度cos广泛应用于计算相似文档的相似度欧几里德距离2,iiyxyxd相似度yxdyxsim,11,2020/2/1812C.Apriori算法之关联规则通过查看哪些商品经常在一起购买来帮助商店了解用户的购买行为,这种从数据海洋中抽取的知识可以用于商品定价、市场促销、存货管理之环节,这是一种在大规模数据集中寻找有趣关系的任务2020/2/1813据报道,美国中西部的一家连锁店发现,男人们会在周四购买尿布和啤酒。频繁项集经常在一块出现的物品集合关联规则暗示两种物品之间可能存在很强的关系支持度(support)数据集中包含该项的记录所占的比例置信度(confidence)一条规则尿布→啤酒支持度({尿布,啤酒})/支持度({尿布})H的可信度定义support(P|H)/support(P)P2020/2/1814𝑆𝐴=1𝑆𝐵=0.75𝑆𝐶=0.5𝑆𝐷=0.25𝑆𝐸=0.5𝑆𝐹=0.5B-A=1A-E=0.5设定minconfidence大于min推荐小于min推荐2020/2/1815•其他推荐算法随机森林支持向量机神经网络FP-growth算法……推荐算法2020/2/1816三.总结简单地介绍了几种基本的数据挖掘之推荐算法的思想数据挖掘应用广泛,数据挖掘应用主要集中在电信(客户分析),零售(销售预测),农业(行业数据预测),网络日志(网页定制),银行(客户欺诈),电力(客户呼叫),生物(基因),天体(星体分类),化工,医药等方面。2020/2/1817

1 / 17
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功