推荐系统-01

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

推荐系统讲师黄志洪DATAGURU专业数据分析社区推荐系统第1课推荐系统讲师黄志洪DATAGURU专业数据分析社区从广告说起传统广告:纸介质媒体,电视,广播,户外广告,车身广告等等总体成本很高受众人群偏小,单位成本很高无法有效测量广告效果推荐系统讲师黄志洪DATAGURU专业数据分析社区旗帜广告推荐系统讲师黄志洪DATAGURU专业数据分析社区EDM滋扰用户成为互联网公害,多国政府立法禁止运营商采取越来越严厉而有效的过滤政策,很难送达用户内心反感,即使收到也置之不理推荐系统讲师黄志洪DATAGURU专业数据分析社区手机短信群发推荐系统讲师黄志洪DATAGURU专业数据分析社区精准:未来广告趋势只要做到精准,“广告”就不再是“广告”精准定位受众可以量化地准确评测效果搜索引擎关键字推广利用社交网络推荐系统推荐系统讲师黄志洪DATAGURU专业数据分析社区推荐系统的核心思想是集体智慧集体智慧在Web2.0时代被发挥到了极致集体智慧的典型场景之一:维基百科集体智慧的典型场景之二:GooglePageRank集体智慧的典型场景之三:亚马逊的推荐系统推荐系统讲师黄志洪DATAGURU专业数据分析社区电子商务是推荐系统的先行者电子商务网站是个性化推荐系统重要地应用的领域之一,亚马逊就是个性化推荐系统的积极应用者和推广者,亚马逊的推荐系统深入到网站的各类商品,为亚马逊带来了至少30%的销售额。不光是电商类,推荐系统无处不在。QQ,人人网的好友推荐;新浪微博的你可能感兴趣的人;优酷,土豆的电影推荐;豆瓣的图书推荐;大从点评的餐饮推荐;世纪佳缘的相亲推荐;天际网的职业推荐等。推荐引擎的鼻祖思想源泉:=1070751亚马逊最早提出基于物品的协同过滤推荐算法:=3720718推荐系统讲师黄志洪DATAGURU专业数据分析社区当当网上的推荐推荐系统讲师黄志洪DATAGURU专业数据分析社区汽车之家上的推荐推荐系统讲师黄志洪DATAGURU专业数据分析社区Dataguru的推荐推荐系统讲师黄志洪DATAGURU专业数据分析社区计算广告学传统:纸媒体广告,电视广告,电台广告,户外广告,电梯广告,车身广告,短信广告互联网:旗帜广告,EDM,弹窗精准广告(精准投放,精准测量效果)日益成为主流,滥发的广告方式将被抛弃诞生一门新的研究学科《计算广告学》斯坦福课程:广告策划+传播学+数据分析+IT及互联网技术刘鹏的《计算广告学》课程推荐系统讲师黄志洪DATAGURU专业数据分析社区计算广告学推荐系统讲师黄志洪DATAGURU专业数据分析社区推荐系统所涉及的知识电子商务业务知识网站架构和运营机器学习算法,数学建模大数据计算平台推荐系统讲师黄志洪DATAGURU专业数据分析社区推荐系统核心困难符合业务场景的高精度推荐算法大数据处理实时性推荐系统讲师黄志洪DATAGURU专业数据分析社区推荐系统参考书推荐系统讲师黄志洪DATAGURU专业数据分析社区算法参考书推荐系统讲师黄志洪DATAGURU专业数据分析社区Mahout参考书推荐系统讲师黄志洪DATAGURU专业数据分析社区Mahout参考书推荐系统讲师黄志洪DATAGURU专业数据分析社区图数据库参考书推荐系统讲师黄志洪DATAGURU专业数据分析社区课程项目炼数成金的课程推荐系统推荐系统讲师黄志洪DATAGURU专业数据分析社区推荐系统可能涉及的常见算法聚类关联模式挖掘大规模矩阵计算文本挖掘复杂网络和图论算法推荐系统讲师黄志洪DATAGURU专业数据分析社区推荐系统实现可能涉及的IT技术关系型数据库和SQLHadoop和Map-Reduce编程Spark,Storm等基于内存的快速计算平台Mahout,MLLIB等机器学习算法库Neo4J等图数据库或其它NoSQL类数据库其它实现工具推荐系统讲师黄志洪DATAGURU专业数据分析社区Hadoop的思想推荐系统讲师黄志洪DATAGURU专业数据分析社区Hadoop的架构推荐系统讲师黄志洪DATAGURU专业数据分析社区Hadoop子项目家族推荐系统讲师黄志洪DATAGURU专业数据分析社区MahoutMahout的中文含义:象夫推荐系统讲师黄志洪DATAGURU专业数据分析社区Mahout起源2008年成为Lucene的子项目,Lucene作为搜索引擎项目,存在很多文本数据分析和挖掘的需求(例如文本重复判断,文本自动分类等等),导致Lucene项目中部分开发者转向机器学习领域研究算法,最终这些机器学习算法形成最初的Mahout吸收开源协同过滤算法项目Taste2010年成为Apache顶级项目推荐系统讲师黄志洪DATAGURU专业数据分析社区常见算法的Map-Reduce化推荐系统讲师黄志洪DATAGURU专业数据分析社区常见算法的Map-Reduce化推荐系统讲师黄志洪DATAGURU专业数据分析社区Mahout的特点Mahout的主要目的是实现可伸缩的机器学习算法(就是算法的M-R化),但也不一定要求基于Hadoop平台,核心库中某些非分布式的算法也具有很好的性能目标是帮助开发人员快速建立具有机器智能的应用程序,目前比较成熟和活跃的主要包括1频繁模式挖掘2聚类算法3分类器4推荐系统5频繁子项挖掘推荐系统讲师黄志洪DATAGURU专业数据分析社区发展中的MahoutMahout目前支持和研究中的算法列表推荐系统讲师黄志洪DATAGURU专业数据分析社区Mahout的重大变化推荐系统讲师黄志洪DATAGURU专业数据分析社区关于Spark推荐系统讲师黄志洪DATAGURU专业数据分析社区Spark生态圈推荐系统讲师黄志洪DATAGURU专业数据分析社区MLLIB推荐系统讲师黄志洪DATAGURU专业数据分析社区GraphX推荐系统讲师黄志洪DATAGURU专业数据分析社区图观点下的数据:社交网络推荐系统讲师黄志洪DATAGURU专业数据分析社区传统数据库处理社交网络数据的困难一个简单的场景例子(《GraphDatabases》第28页),注意问题的微妙差别Bob认为谁是他的朋友?(引发索引查询)谁认为Bob是TA的朋友?(引发全表扫描)推荐系统讲师黄志洪DATAGURU专业数据分析社区关系型数据库进行连接操作和外键维护带来性能瓶颈要查出一个顾客买了什么商品要进行多表连接,对于反向问题“某商品被哪些顾客买了?”查询复杂推荐系统讲师黄志洪DATAGURU专业数据分析社区关系模型处理社交网络数据的困难推荐系统讲师黄志洪DATAGURU专业数据分析社区图数据库的需求能以明显直观的方式存放图数据,而不是扭曲变化为别的替代方式能简单地进行图操作,例如寻路,遍历等推荐系统讲师黄志洪DATAGURU专业数据分析社区图数据库的基本思想图(Graph)由节点(node,顶点)和关系(relationship,边)组成图在节点上记录数据(节点的属性,property)节点由关系组织成图,关系也具有属性寻路(Traversal,另一意思是遍历)在图上定位由节点组成的路径索引(index)将属性映射到节点或关系图数据库管理系统管理图及其上的索引Neo4J是当前主流的图数据库产品推荐系统讲师黄志洪DATAGURU专业数据分析社区图数据库的基本思想推荐系统讲师黄志洪DATAGURU专业数据分析社区Neo4J推荐系统讲师黄志洪DATAGURU专业数据分析社区Neo4J由NeoTechnology开发的开源图数据库,该公司从2000年起就开始研发图数据库,目前neo4j已经成为领先的图数据库产品,思科,惠普,德意志电信等跨国企业均成为客户特点:直观的图模型存储完全支持ACID事务基于磁盘的持久存储支持海量数据,比如数十亿节点/关系/属性级别的数据高可用的分布式集群高度优化,迅速的图查询(Cypher图查询语言)可以嵌入(只需几个小jar文件),支持RESTAPI推荐系统讲师黄志洪DATAGURU专业数据分析社区Neo4j与关系型数据库图数据操作性能对比推荐系统讲师黄志洪DATAGURU专业数据分析社区低成本获取高端知识技术成就梦想炼数成金edu.dataguru.cnDATAGURU专业数据分析网站FAQ时间49

1 / 49
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功