BI商业智能和数据仓库交流商业智能BusinessIntelligence数据仓库概念ETL维度模型数据仓库的设计开源BI套件:Pentaho+MySQL部署微软BI:语义模型SemanticModel吴源林wyl2000@gmail.com18602195030•企业只有恰当的利用数据才能更好的实现增长–统计,报表–分析,挖掘–客户挽留,交叉/提升销售–客户体验,商业定位商业模式和BI系统商业模式画板元素:•关键资源•关键伙伴•关键行为•客户关系•客户细分•价值主张•渠道•成本结构•收入流BI基础架构•数据整合•信息仓库•客户情报•运营情报•点击流情报•BI应用–把信息提交给商业用户的工具•BI门户站–通过网站形式,让关键商业信息能在单点获取TheBusinessModelCanvas策略地图(平衡计分卡)财务客户内部流程F1实现xx%的可持续净利润增长F2最大化利用呼叫中心收入来源F3提高线上收入来源的增长C1理解并提供恰当的订餐资讯C2提供便利的订餐服务C3从订餐到用餐结束,书信、快速和正确C3参与感,品牌认可和归属获取新客户学习和成长L1提供恰当充分的信息和工具来完成工作L2理解公司策略和从事的工作及目标I1细分市场和精准定位目标客户群I2有效开发产品和获取渠道I3跟目标客户群有效沟通价值主张和品牌I4在恰当的时机销售恰当的服务维系和增长高潜力客户I5识别高潜力客户关系I6展示价值主张I7提供卓越服务来取悦和维系客户提高生产力和品质I8关注关键指标I9扩展内部和外部合作伙伴关系I10最大化商业流程的效率和品质I11持续提供价值主张,保持成本呼叫中心度量指标:(示例)服务•可得性(Availability,当他们想要联系我们时,我们是否出现在那里?)–运营小时和天数–线路阻塞/繁忙信号–自助服务选项的可得性和满足客户需求的能力•回复速度(多快?)–服务水平(X%在Y秒内)–平均回复时间–排队等候的最长延迟–放弃的呼叫数–回复被客户响应的时长•质量(多好?)–监控值(从内部角度)–客户调查(从外部角度)–“首问负责”或,第一联系人解决问题(Firstcallresolution,oneanddone)学习和创新–倾听客户声音的主动性(我们是否真正在倾听客户?)–给其他部门提供的信息的价值–呼叫中心员工的职业成长效率•工作人员效用(Staffutilization,人力是否跟工作负荷匹配?)–客服代表使用率(occupancy)–收缩度(Shrinkage)–排班效率(Scheduleefficiency)–自助服务效用(Self-serviceutilization)–员工保有率•联系人处理(要花多长时间?)–平均处理时间(Averagehandletime)–呼叫后的工作–等待时间–转接率(Transferrates)–系统速度和可得性(Systemspeedandavailability)收入和成本(Revenue&Costs)–客户负面口碑的影响–转化率(是否达成销售)–提升销售和交叉销售率(我们是否带来额外收入?)–客户保有率–损失机会的影响–每联系人的成本–每分钟呼叫的销售额Salespersignedonminute客户关心服务;高层管理者关心效率和收入;客服代表关系他们的工作强度,职业通道和排班表。RACE线上营销分析和基准比较框架目标设定覆盖Reach行为Actions转化Conversions吸引Engagement使命/愿景目标,KPIs,网站分析和商品销售分析品牌推广和流量SEO/SEM/PPC/自然广告联盟/合作营销展示广告邮件营销:新客户获取社会媒体营销网站可用性首页设计有效性搜索和浏览有效性产品类目和详细页有效性购物车和结算流程有效性内容营销邮件列表和促销邮件事件激发邮件营销商品访问流量和转化率商品销售分析交易分析对客户理解和分析(基础)1.线上:人口统计特征,访问/购买模式2.线下客户体验,满意度,推荐度社会媒体营销分析策略:如何达成目标交叉/提升销售分析客户生命周期管理绩效数据面板指标覆盖行为转化吸引跟踪指标•唯一访客•新访客•访问数•商业机会数量•销售额•邮件列表质量•报名响应质量•交叉/提升交易质量绩效驱动因素•跟竞争对手相比较的份额•搜索份额•品牌/直接/间接访问比例•弹出率和访问时长•宏观转化和微观转化有效性•销售转化率•报名转化率•邮件列表加入率•活跃客户数%•活跃用户数(论坛/社会媒体)•重复转化率以客户为中心的指标•每点击/销售成本•品牌知晓度•每商业机会成本•客户体验•满意度/推荐度•每销售成本•客户满意度•生命周期价值•客户忠诚度指标•每客户购买的唯一产品数商业价值KPIs•目标客户群份额•每次访问的目标价值•在线产品浏览和销售•每次访问的平均收入•纯在线销售额•回头客户的销售增长和总额•1000份邮件带来的收入更丰富的指标体系请参考附件:Metrics.xls数据仓库–技术部分介绍数据仓库•企业管理和决策中的全面数据集合–面向主题的、集成的、与时间相关的–重点:准确、安全、可靠的从数据库中取出数据,经加工转化成有规律的信息,供内部相关人员分析使用数据仓库关键词•维度表•事实表•汇总表•缓存数据库•生产数据库•OLAP,联机分析•数据市集•星型数据库,雪片型数据库OLTPvsOLAP•OLTP联机事务处理大量的小事务处理(查询和更新)例如更新账户信息把产品加入购物车查询只接触少量的数据(一条或几条数据)更新操作频繁并发操作是性能的最大挑战•OLAP联机分析处理很大的事务处理,复杂的检索例如按月汇总每个部门的总销售额找到某个时期最畅销的产品找出库存少于xx的产品查询需接触大量的数据(一条活几条数据)更新操作不频繁一次检索会消耗大量资源OLTP•大部分联机事务处理数据库–关系型数据库,实体模型–3NF,第三范式•OLTP–在线事务处理–支持网站或者应用的数据库–适合:•大量用户,小的数据切片•如,用户#1002在2011/07/1214:35pm在网站上预定了#6551餐厅–不适合:•少量用户,大的数据切片•加总,汇总,计数OLAP/维度模型•报表式数据库–关系和维度模型–维度=报表应用–存在冗余/重复•OLAP–适合:•少量用户,大量数据•汇总,切片和切块•如,过去三个月内,有多少比例的用户曾经预定过静安区的粤菜系餐厅维度模型:星型数据库事实:•度量的指标(如,销售、成本)•通常是数字型数据•通常记录最小颗粒的事件(原子层数据)维度:•对度量指标的界定(如,产品、时间、部门)•非正规化Denominilazed•具有层级性(如年-季-月-周-日)餐厅属性表雪花型举例:•呼叫中心的事实/维度表设计(示例)建模过程:•基于商业流程•最小颗粒度的考虑•识别维度•识别事实Fact_Call_Center日期key时间key排班key时长key呼叫等待时长(秒)客服完成通话时长(秒)订单_Count(0,1)客户用膳_Count(0,1)客户key商户key……客户呼叫预定成功用餐事实指标:•可累加的(订单数,消费金额)•半可累加的(唯一客户数)•不可累加的(如利润率,通常不放在事实表中)Fact_Call_Center日期key时间key排班key时长key呼叫等待时长(秒)客服完成通话时长(秒)订单_Count(0,1)客户用膳_Count(0,1)客户key商户key……Dim_日期日期key20110711年2011季度Q3月07星期12日星期天是否一周第一天Yes是否月末最后一天No……分析报表数据立方体CRM数据仓库最小设计需求•客户盈利性分析•产品/商户盈利性分析•市场盈利性分析•营销活动分析•渠道分析•客户维系/流失分析•客户价值/行为评分•产品/商户亲密度分析•客户细分•趋势分析•客户服务分析•交叉/提升销售分析•网站分析•客户行为维度RF吸引度|购买分析(客户价值分析)评分:Recency最近行为低1=24个月2=19-24个月3=13-18个月4=7-12个月5=0-6个月高Frequency频数低1=1次购买/访问2=2次购买/访问3=3次购买/访问4=4次购买/访问5=5次购买/访问高Monetary购买金额低1-5高通过数据和研究补充,掌握客户档案(人口统计特征值等),进行客户群细分,分析客户生命周期,进行一定程度的精准营销购物蓝分析:商品之间的关联性购买过A商品的客户,还可能会购买?商品Support支持度:1000名客户购物,236位购买了Item6和Item9/Item3,则支持度为23.6%Confidence可信度:1000名客户,236位购买了Item6,其中163位又购买了Item9/Item3,则推论购买Item6-Item9,Item3的可能性是69%运用:交叉陈列,捆绑促销,找出核心产品数据仓库搭建维度模型-ETL–CDC-SCD数据仓库的典型架构ETL教程和案例::•存储最原子层的数据–通过存储尽可能细节的数据,以确保能钻取到需要的数据层–也可以通过汇总事实表来提高查询性能•一致化的维度–可以对跨商业流程进行关联分析,譬如客户登记-预约-验收的流程化分析–从分散的系统合并这些数据,可能是一件痛苦的事情(但值得去做)代理键值(surrogatekey):•总是使用人为生成的主键值–可以:•保证模型不受数据源系统变化的影响•从多个数据源进行数据整合•增加数据源系统中不存在的行•跟踪数据源系统的历史变化缓慢变化的维度SCD•这是维度设计时的一个关键考虑要点!•维度值发生变化时,也许有或没有商业意义•三种类型–TypeI覆盖旧的数值。因为不关心数据变化–TypeII增加一条新的维度行,原有的事实依然只跟旧的维度值相关。对历史变化关注。–TypeIII增加新的字段来存储新的值。日期维度|雪花处理•日期是一个基本的商业概念,几乎所有的数据仓库都有日期维度。•雪花处理(snowflaking),对维度表进行关联检索,对数据表进行再规范化,增加模型的复杂性,降低检索性能多对多关系•大多数关系是1对多。•真实商业环境往往很复杂。•解决:在维度表和事实表之间建立桥接表。销售事实订单ID销售小组ID销售小组成员A(组长)成员B成员C员工成员A成员B成员C层级|事实表类型•层级–层级对维度内的信息进行加总和组合。–如,日期年-季-月-周-日–通常把层级关系反规范化到维度表内•事实表的类型–交易型:跟踪每一次交易–阶段快照:特定时段内的累积值,如库存。–累积快照:随时间而进行更新。累积快照•累积快照事实表,是完全覆盖一个事务或产品的生命周期的时间快照。通常具有多个日期字段,用来记录整个生命周期中的关键时间点。•例:–预定–出现–消费金额–人数–金额–运费记录第一次产生时,客户是否出现、和消费金额是不能确定的,通常用一个未知的代理键值来表示。等核实后,对数据仓库中的这条记录进行更新操作,把相关事实记录补上。建立维度模型的步骤•1.需求!需求!!–商业用户驱动的过程•不要问他们想要什么样的数字!–他们会要求所有数据,然后自己去分析–他们想要的跟需要的,通常会不一样•请他们用自然语言列出需求,譬如–我想知道,不同产品类型和客户类型的占总销售额的比例–重复购买客户和首次购买客户所带来的销售收入比例–什么样的客户(地理、收入、性别等)给公司带来了80%的利润,跟带来80%收入的客户群相比是怎样的?•请他们提供日常工作中内部使用的电子表格模板Step2•找出模式Step3•制作交叉表格和报表原型Step4•定义模型–从商业用户获得反馈,进一步定义事实表的度量指标(销售、例如、成本等)–获取其他属性•产品短名-产品完整名•地区缩写-标准地区代码–找出层级关系•商业用户的需求•