大数据在B2C电子商务中的经典应用-傅强45

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

故事从大几百号人开始……卖光铺满全北京市所有的足球场《大数据时代》=人头费网站页面搜索分类广告/联盟SEO/SEM网站流量分析spiderBI推荐CRM供应链管理仓储/物流反作弊【搜索】搜索提示-C++实现精巧的大数据解决方案方法:空间换时间穷举:一个前缀词对应所有搜索词,大数据--(d/da/das/dash/dashu/dashuj/dashuju)大学--(d/da/dax/daxu/daxue)大事记--(d/da/das/dash/dashi/dashij/dashiji)d--(大数据/大学/大事记)das--(大数据/大事记)……词典倒排d0da1das2dash3dashu4dashuj5dashuju6dax7daxu8daxue9dashi10dashij11dashiji12……巨大!!!优化方案1:逐行读入hash表多线程载入优化方案2:单线程载入静态hash表【搜索】搜索提示-C++实现精巧的大数据解决方案方法:空间换时间穷举:一个前缀词对应所有搜索词,大数据--(d/da/das/dash/dashu/dashuj/dashuju)大学--(d/da/dax/daxu/daxue)大事记--(d/da/das/dash/dashi/dashij/dashiji)d--(大数据/大学/大事记)das--(大数据/大事记)……词典倒排trie树缓存【搜索】《深入搜索引擎》《这就是搜索引擎-核心技术详解》原理:【推荐】用大数据能力找到商品之间的关系【推荐】用大数据能力找到商品之间的关系【推荐】用大数据能力找到商品之间的关系【推荐】用大数据能力找到商品之间的关系【推荐】用大数据能力找到商品之间的关系【推荐】用大数据能力找到商品之间的关系【推荐】用大数据能力找到商品之间的关系协同过滤•user-based•item-basedSVD【推荐】用大数据能力找到商品之间的关系协同过滤•user-based•item-basedSVD【推荐】用大数据能力找到商品之间的关系协同过滤•user-based•item-basedSVD奇异值分解SingularValueDecomposition【推荐】用大数据能力找到商品之间的关系=0.8|0.5|0.70.7|0.7|0.10.3|0.7|0.40.1|0.9|0.10.4|0.5|0.90.8|0.9|0.10.1|0.1|0.90.1|0.8|0.7×0.7|0.2|….0.7|0.8|…0.1|0.5|…×?商业|NOSQL|分析存储应用算法•协同过滤:user-based、item-based•tag、文本•矩阵分解:SVDLDASLA•准确性•多样性•覆盖率•新颖性•单纯数据更新:让最新的群体行为告诉我们最近正在发生什么•到考虑用户行为中正反馈:群体行为用脚投票•到考虑用户行为正负两种反馈个性化推荐CTR作为学习目标【收藏夹】响应快,写入量较大需要支持较为简单的SQL功能:过滤、排序、汇总有一定事务性数据结构化强10wPV-100wPV-Mysql100w-1000wPV–Mysql集群1000w+PV–定制化nosql:如OceanBase【供应链管理】商业价值–电商核心竞争力之一【供应链管理】核心能力:商品销量预测????????????【地址识别】北京航空航天大学北航北京市海淀区学院路37号供应链系统…LBS…用户体验物流配送身份:老师?教工?学生!识别:学校营销【网站流量分析】【网站流量分析】【营销-CRM】核心2件事:•用户数据•用户对哪些商品感兴趣/商品卖给哪些用户Redis:存储的数据结构简单高效。典型应用场景:用户session信息mongodb:用嵌套的存储,表示较为复杂的数据之间的关系。典型应用场景:用户profile,如喜欢的分类,树形结构,嵌套关系hbase:与hadoop完美结合。典型应用场景:持久化&数据分析mysql:与其他以SQL为主的业务系统紧密相关。典型应用场景:生产系统【营销-CRM】01.06.04.00.00.00胎教01.06.06.00.00.00孕期01.06.08.00.00.00孕产妇健康01.06.10.00.00.00孕期饮食指导58.29.01.03.00.00妈妈营养品58.29.06.02.00.00孕产妇奶粉58.29.08.19.00.00孕妈咪洗护58.29.10.14.00.00胎心监护58.76.10.00.00.00当当孕装58.76.12.00.00.00孕妇装/孕产妇用品58.81.01.10.01.00孕媽咪內外著93.05.03.00.00.00孕妇摄影98.01.17.35.00.00孕产妇健康98.01.17.39.00.00孕产百科98.01.18.04.00.00孕产妇懂自己的数据懂领域知识算法Apriori孕期#胎教#产后管理孕期#胎教#孕产妇健康孕前准备#孕期#胎教胎教#孕期#产后管理DHA#鱼油类#钙铁锌基于tag懂用户心理算法持续优化GeneralizedSequentialPatternMiningwithItemIntervalsPrefixSpan【营销-广告/联盟】【营销-广告/联盟】【BI】展现:Cognos/BO展现:pentaho分析:R/RHadoop/Mahout分析:SPSS/SAS即席查询:mysql/mysql集群/oceanbase即席查询:oracle/GreenPlum/TeraData/SAPHANA数据能力:hadoop/HIVE/Storm/CloudreraImpala/phoenix/MapRAmoeba:proxyTDDL:中间件Mysql-cluster不同数据规模,不同技术解决方案【开源不是免费的午餐】×100=200W×10+=50W100W/每年【研发是个挺奢侈的事】30人=1000W/每年【互联网加速技术创新与应用的脚步】•Storm在2012年的迅速普及•业内技术论坛的水平【大数据工具的趋势,我的看法】•应用与底层两极分化•使用门槛越来越低•工具的分工越发精细【大数据工具的趋势,我的看法】•决定美味不是厨具,最终还是厨艺•决定价值不是开源工具,最终还是学习能力

1 / 45
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功