大数据平台及在推荐广告方面的应用何为大数据大数据平台架构数据存储实时离线FTPHDFSMRSqoopFumeNG数据采集数据处理存储层建模KafkaZookeeperStorm/SparkstreamingHbaseMysqlRedis数据可视化GangliaSparkNagiosOzzie监控管理调度特征工程机器学习算法库Mahout/MLlib应用搜索BI推荐广告分类/回归聚类主题预测LogServer商品库用户库用户行为非结构化结构化降维优化PUSHHIVESparksql离线实时从Hadoop1.0到Yarn单点资源管理和调度分离资源划分:slot到container从Hadoop到SparkInputIter.1Iter.2HadoopSpark大数据生态圈onestacktorulethemallStorm流计算Impalad(Ad-hocquery/迭代)Hive/MR(批处理)Hadoopcrawler搜索引擎HBaseMQ1、writeLog2、write商品pic(insert/update/delete)3、indexLog4、finish(可靠)数据平台数据源Sdk(插件/App/b5m)爬虫LogserverMR/SparkYARN调度离线计算实时计算用户行为数据数据平台应用FlumeNGStormsparksteaming推荐广告mysql商品、订单应用平台监控平台应用-爬虫数据处理平台爬虫数据处理平台StormSparkStreaming推荐系统典故啤酒与尿布老板、首页、性保健品推荐举例—商品详情推荐举例—购物车结算推荐举例—首页/支付完成页推荐的价值流量用户粘性CTRGMV减少购物路径用户体验多样性新颖性流量投放给目标用户精准转化率CVRROI平台商家用户推荐(广告、搜索)的架构候选集待推荐商品索引过离线检索(相关性)过实体实体特征实时model训练过离线实时排序、过滤过推荐列表算法简介候选集店铺信誉更新时间人气价格评价退货率scoreTCL手机0.20.540.20.7联想手机0.320.61.20.5…..相关性协同过滤关联推荐分类兴趣聚类排序预估点击率pCTR逻辑回归GBDT推荐系统的架构特征-内容用户-特征离线Jacarrd/cosine/CF/contentBase/FPGrowth/LDA/LR/DT算法库场景在线触点PC无线意图(聚焦、发散)+画像融合过滤排序用户行为(反馈)推荐效果验证A/BTestingF1RMSEAUC数据存储中心HadoopHiveHbaseMysqlredis任务调度中心索引构建内容质量评分model训练ruleUser(f1,f2,f3,…)内容候选用户行为应用库(类别、标签)语义分析关联计算配置管理监控候选排序相似度协同相关性用户画像体系基本维度性别、年龄、地域、终端、网络、渠道、兴趣、标签维度商业维度品类、品牌、、、新老用户、频次、购买频次、ARPU、购买时间语义挖掘行为标注引擎网络爬虫引擎知识库自我学习结构化电商数据开放智能推荐广告经分预测用户画像非结构化短期浏览、购买、搜索、、、长期数据合作广告广告联盟搜索推广广告主业务平台营销推广定向投放检索统计监控分析计费CPC数据存储同步相关性排序pCtr*Bid兴趣标签、同类相似关键词效果回收精准总结数据、算法、产品