房如华2011.09.10SACC2011SACC2011关于我房如华,酷讯旅游网BI部门联系方式@房如华bluetentbluetent@gmail.com北京酷讯科技有限公司2SACC2011SACC2011酷讯旅游网的BI团队老公司的新部门两个使命:产品运营工作的“推进器”让网站变得更“聪明”北京酷讯科技有限公司3SACC2011SACC2011小调查有多少公司在使用自行开发的统计系统?有多少公司已经开展了数据挖掘算法方面的实践?北京酷讯科技有限公司4SACC2011SACC2011用户行为分析是道哲学题:“你是谁?”“你从哪里来?”“你要到哪里去?”北京酷讯科技有限公司5SACC2011SACC2011“你是谁?”如何识别一个用户?按惯例,我们使用浏览器的cookie区分不同的用户推荐使用Guid算法进行生成用户的唯一ID如何识别一次访问?生成访问的唯一ID,并使用cookie记录在cookie中记录会话的最后更新时间,超过N(如30)分钟则认为会话结束北京酷讯科技有限公司6SACC2011SACC2011“你从哪里来?”(1)用户的流量来源有多种划分免费流量,付费流量不同的来路网站直接打开网址SEO/SEM社会化网站付费广告北京酷讯科技有限公司7SACC2011SACC2011“你从哪里来?”(2)为什么要关注流量来源?流量质量差异(以搜索引擎和自有流量为例进行对比)跳出率平均访问深度北京酷讯科技有限公司8SACC2011SACC2011“你要到哪里去?”(1)网站的终极目标:促使用户形成转化效果北京酷讯科技有限公司9电子商务支付订单社会化媒体一篇原创文章搜索引擎跳转至来源网站SACC2011SACC2011“你要到哪里去?”(2)在转化的过程中,用户会留下各种痕迹北京酷讯科技有限公司10页面访问路径页面点击行为页面结构化数据SACC2011SACC2011现在我们回到主题基于用户行为的数据分析与挖掘的目标根据用户的访问路径、页面点击、访问内容等信息,发现共性,找促使网站产生更好转化效果的方法。北京酷讯科技有限公司11SACC2011SACC2011工作流程采集清洗统计分析挖掘北京酷讯科技有限公司12SACC2011SACC2011数据采集(1)采集哪些数据?网页浏览行为(Pageview)转化效果用户在页面上的点击行为页面元数据北京酷讯科技有限公司13SACC2011SACC2011数据采集(2)如何采集?(以酷讯旅游网为例)北京酷讯科技有限公司14•javascript异步采集,get参数携带字段值。网页浏览行为•将结构化数据树状存储。页面元数据•向DOM节点挂载onclick事件。点击行为•通过统计中间页强制重定向。转化效果SACC2011SACC2011数据采集(3)定义数据的格式以方便数据清洗和分析为第一要务根据数据规模、维护难度选择不同的方案选择数据的存储方式\t\n分割的文本关系型数据库Hadoop选择合适的数据流向拉从上游系统向数据分析引擎单向推送数据保证数据分析引擎与上游系统是互相独立的北京酷讯科技有限公司15SACC2011SACC2011数据采集(4)常见问题测量误差因统计代码异步加载导致某些请求未被统计到数据收集错误中文字段的乱码数据收集遗漏字符串太长,超过了字段限制而被截断我们会在数据清洗环节进行解决!北京酷讯科技有限公司16SACC2011SACC2011与上游数据商的关系很重要例:向数据表增加lastupdatetime字段CREATETABLE`logs`(...,`last_update_time`TIMESTAMPDEFAULTCURRENT_TIMESTAMPONUPDATECURRENT_TIMESTAMP,...)(蓝色为更新的数据)说服上游数据商调整数据结构,能够形成双赢。北京酷讯科技有限公司17field1field2...fieldnlastupdatetimeaaa111xxx2011-01-0112:34:56bbb222yyy2011-01-0112:34:57ccc333zzz2011-01-0112:34:58field1field2...fieldnlastupdatetimeaaa111xxx2011-01-0112:34:56bbb222yyy2011-01-0112:34:57ccc333zzz2011-01-0112:34:58上游数据商的数据库商业智能数据库SACC2011SACC2011数据清洗(1)什么是数据清洗?ETL=Extract,Transform,Load(提取,转换,加载)为什么要数据清洗?脏例:性别字段非男非女,IP字段包含字母复杂“北京海淀酒店”=“北京市海淀区酒店”?不完整字段太长被截断,导致内容失去意义高达75%的数据分析初始工作时间会花在这里。18北京酷讯科技有限公司SACC2011SACC2011数据清洗(2)常见的数据清洗工作示例19北京酷讯科技有限公司工作内容示例场景解决方案过滤网站记录用户一些行为数据,通常使用cookie进行记录,如果用户禁用了cookie或清除过cookie,就会造成统计到的数据不完整。丢弃消重同一个用户,在一段很短的时间内,多次点击同一个按钮或者刷新同一个页面,如果不进行处理,则将会影响对数据分析阶段的数据准确性,给数据分析带来错误的结果。设定阈值,超过阈值的记录进行丢弃格式化用户搜索关键词存在乱码或者过长尝试判断编码格式,并进行转换预处理日志中会记录用户访问的IP地址,但是没有记录用户所在地,这样无法通过数据分析确定用户的所属信息,不利于城市以后的推广信息的推送。通过内部的IP2City功能,将日志中的IP地址处理成城市,并对城市建立省市区的父子关系。便于从多个角度进行数据分析。SACC2011SACC2011数据统计(1)基于用户行为的数据,要统计哪些?(以酷讯旅游网为例)北京酷讯科技有限公司20流量来源免费流量•直接访问•SEO•社会化媒体•EDM付费流量•SEM•各种市场推广用户行为页面点击行为访问路径•转化率•跳出率转化效果CPA(Leads)数量及收入展示广告收入电话预订量SACC2011SACC2011数据统计(2)常用第三方流量统计系统为什么我们还要做自己的数据统计呢?各种个性化的需求例:无法支持任意维度的统计例:频道间的内部交叉流量无法识别北京酷讯科技有限公司21SACC2011SACC2011数据统计(3)酷讯旅游网内部统计系统(labrador)简介北京酷讯科技有限公司22SACC2011SACC2011数据统计(4)重要特性支持流量的实时查看,最慢为小时级支持频道间交叉流量的统计对数据安全的考虑浏览器安全证书:不可仿冒,不可抵赖详细的审计日志北京酷讯科技有限公司23SACC2011SACC2011数据分析例一:利用SQLServerAnalysisServices的OLAP(联机分析处理)解决方案,分析SEM投放的投入产出比工作流程建立事实表和维度表创建多维数据集进行ETL操作北京酷讯科技有限公司24SACC2011SACC2011事实表和维度表(1)北京酷讯科技有限公司25SACC2011SACC2011事实表和维度表(2)事实表VisitsLeads维度表ChannelPageType首次到达某频道的页面类型CurrentDate当前时间EntryDate此次访问所在Visits开始时间(该visits的第一次访问时间)GlobalPageType首次到达酷讯的页面类型LeadDomain跳往下游网站的主域名Keyword搜索关键词26北京酷讯科技有限公司SACC2011SACC2011创建多维数据集的过程北京酷讯科技有限公司271.在数据库层新建事实表和维度表2.建立度量信息3.建立维度4.将度量值与维度相关联SACC2011SACC2011ETL流程图北京酷讯科技有限公司28清除上次执行时产生的临时文件E-抽取T-转换L-加载SACC2011SACC2011处理结果北京酷讯科技有限公司29SACC2011SACC2011数据分析例二:分析不同城市用户邮件营销的开信、点击效果工作流程数据准备进行ETL操作北京酷讯科技有限公司30SACC2011SACC2011工作列表数据准备行政区划数据库IP至城市对应关系的数据库ETL抽取:将开信日志和点击日志导入数据库转换:将开信日志表和点击日志表中的IP转换成城市加载:将转换后的城市和对应的email插入email和城市对应关系表中北京酷讯科技有限公司31SACC2011SACC2011邮件营销的分析结果32北京酷讯科技有限公司SACC2011SACC2011数据挖掘四种任务聚类分析预测建模关联分析异常检测北京酷讯科技有限公司33SACC2011SACC2011聚类分析(1)发现紧密相关的观测值组群,使得同组的相似性越大,不同组的差别越大,以达到较好的聚类效果根据聚类得到的不同观测值组,做出决策树,为业务部门提供决策支持北京酷讯科技有限公司34SACC2011SACC2011聚类分析(2)一个决策树的例子结论:发放电子代金券的人均利润为60%*(20%*20+80%*(-1))+40%(10%*30+90%*(-2))=2.4元,值得一做。北京酷讯科技有限公司35发放电子代金券20%产生购物行为,人均利润20元老用户60%新用户40%80%未产生购物行为,人均利润-1元10%产生购物行为,人均利润30元90%未产生购物行为,人均利润-2元SACC2011SACC2011预测建模以自变量函数的方式为目标建立模型分类:预测离散的目标变量例:在过去5年内,早上10点比下午4点的流量均高出20%,可以预测未来一段时间也是这个比例。回归:预测连续的目标变量一元线性回归多元线性回归非线性回归北京酷讯科技有限公司36SACC2011SACC2011关联分析用户在预定机票的同时预定了什么?北京酷讯科技有限公司37SACC2011SACC2011异常检测识别其特征显著不同于其他数据的观测值(异常点,离群点)北京酷讯科技有限公司3810.00%15.00%20.00%25.00%30.00%35.00%40.00%8月1日8月2日8月3日8月4日北京上海广州1.广州当地举办了什么活动?2.广州有无新的特价产品上线?转化率SACC2011SACC2011回顾需要明确用户行为的衡量指标体系用户行为统计不同来源的流量质量差异明显采集与清洗数据存储的格式要利于查询需要处理好与上游数据商的关系将足够的资源投入数据清洗工作分析与挖掘数据分析的两个例子:SEM投入产出比、邮件营销效果数据挖掘的四类工作北京酷讯科技有限公司39SACC2011SACC2011Q&A北京酷讯科技有限公司40SACC2011SACC2011