大数据,您如何选择?假如你是一个商品零售公司的老板。你的公司很先进,已经实现了业务信息化,每一笔销售单据都保存在数据库中,日积月累,已经保存了十余年的销售数据,上亿条销售记录。这时如果我问你:“反正三年前的数据留着也白白占地方,耗费存储成本,索性把它们全删掉吧,这样不用买硬盘就能容纳新数据,如何?”你会从容的接受我这个建议吗?我们的直觉告诉我们:这些数据有用!但这仅仅是一种直觉,到底该怎样把这些占据大量存储空间的数据的价值挖掘出来,让这些数据从成本的消耗者变成利润的促进者?BI闪亮登场•没错,选择BI来实现.•BI(BusinessIntelligence)是一种运用了数据仓库、在线分析和数据挖掘等技术来处理和分析数据的崭新技术,目的是为企业决策者提供决策支持。•BI应用的两大类别是信息类应用DW(数据仓库)和知识类应用KDD(数据挖掘)。•BI是种技术,或者说是解决方案.而不是某种工具。BI应用行业行业分布•银行、通信、证券、保险、能源、烟草•工厂、矿场、医疗卫生•零售、快消品•电子商务、电子政务使用特点目前大部分用户主要集中在信息类应用,即数据查询+报表展示+OLAP分析的合理,其主要目的即减轻手工报表制作的压力,提高工作效率.少量用户(金融,通信,能源)集中在数据挖掘.BI国内应用难点•BI工具在中国遇到的难题:*复杂表样:中国的表样设计思想与西方不同,西方报表倾向于仅用一张报表说明一个问题,而中国的报表倾向于将尽可能多的问题集中在一张报表中,这种思路直接导致了中国报表的复杂格式和诡异风格,同时导致在国外大受欢迎的水晶报表水土不服。*大数据量:中国是世界上人口最多的国家。以中国移动公司为例,仅我国一个省的用户数量,就相当于欧洲一个中等国家的人口,是真正的海量数据!国外数据库、数据仓库和BI应用软件,都在中国经受着大数据量承载能力的考验。*数据回写:中国是世界上对BI系统要求最奇特的国家。本来BI系统是以忠实再现源数据为原则,但这个原则在中国遇到了难题,许多领导都提出了数据修改需求。笔者曾经经历,挨骂颇多。BI应用分类信息类BI应用(数据仓库)知识类BI应用(数据挖掘)报表&图表&地图&中国式报表数据挖掘—探察数据规律自助样式报表数据挖掘—数据建模&预测多维联机分析(OLAP)BI实现过程后端(ETL)前端(报表开发)源数据分析与探索Portal建设ODS建设模型与报表开发DW(数据仓库)OLAP分析(CUBE建设)DM(数据集市)DM(数据挖掘)BI实现过程=前端+后端=源数据+ODS+DW+DM+OLAP+Report+DMBI实施开发常用工具实施过程工具源数据分析与探索SQL脚本ETLInformatica(PWC),DataStage,DTS/SSIS,Kettle,Beeload,ODI数据同步(源-ODS)Informatica(PWX),GoldenGateODS&DW&DM(关系型)MSSQL,Oracle,DB2其他(MYSQL,Teradata)数据质量管理Informatica(IDQ)报表开发工具SAPBO,COGNOS,水晶报表/易表,OBIEE,Brio,QlikView,SASSmartbi,POWER-BI,FinereportSpagoBI,OpenIOLAP开发工具Cognos(Powerplay)、Hyperion(Essbase)、微软(AnalysisService)以及MicroStrategy报表开发组件FusionCharts,JFreeChart,MsChartPortal开发语言(平台)JAVA,.NET,PHP…数据挖掘工具SAS,SPSSClementine,MATLAB…BI架构图-1-无ODSBI架构图-2元数据组成(Metadata)业务系统到数据仓库数据仓库数据展现工具ETLTargetDatabaseFront-EndToolETL人事销售库存财务RDBMSODS/StagingAreaRDBMS数据仓库数据集市企业经营分析客户关系管理业务流程分析财务分析Metadata外部系统StatisticsClusteringNeuralNetsArtificialIntelligence业务股东管理OLAP支持源系统类型常见源系统数据类型关系型数据库ACCESS、SQLSERVER、ORACLE、DB2TERADATA、GREENPLUM、MYSQL平面文件(Flatfile)EXCEL、TXTXML、HTML其他数据COBOLFILESAPORACLEEBS相关概念:1.OLTP,OLAP2.透明网关(异构源与目标的ETL)3.元数据(业务元数据,技术元数据)ODS•ODS(OperationalDataStore)•特征:ODS只是存放当前或接近当前的数据•1)在业务系统和数据仓库之间形成一个隔离层;减轻ETL对源系统压力,相当于缓冲区.•2)转移一部分业务系统明细查询的功能•3)外部数据/文件的临时存放•4)出报表,例如客户保单今天如果到期则发送预警报表.DW-数据仓库•DW,即数据仓库(DataWarehouse)•特征:面向主题的、集成的、相对稳定的、反映历史变化的数据集合.•实际上.DW是多个表的集合,由多个维表与事实表组成.1.维度:事物的某个方面,如时间、区域、供应商2.度量/指标:需要分析的量,如销量、库存、价格、积分3.粒度:数据表中数据细化的程度,如到月、周、天等4.事实表、维度表5.代理键、退化维6.缓慢维度变化13维度:是一个与业务相关的观察角度依赖于数据的有效性和表达业务成效的关键性能指标能够回答类似下列问题:业务的每个方面可构造成一个维度,例如:时间维度由年、季度、月、周和天构成。所有的维度在一起提供了业务的多维视图。这个多维视图的数据被存为一个立方体。一个维度是管理员从数据仓库提取的有效信息,并在同一个前题下以层的方式构造形成。例如:地区维度下有地域、国家、办事处、销售员4层。WhoWhatWhereWhen什么是维度?•企业收集和存储的将用于评价业务状况的数值性数据•例如:–销售额–成本–利润–库存量–交易数•在企业活动中通常是通过如销售额、费用、业务指标、库存量和定额一类的关键性能指标------度量来监测业务的成效。•不同的度量能够反映出不同的业务性质。例如:假设针对企业的关键成功因素是客户的满意度。那么,对于产品制造商来说,可能要通过及时运输货物来衡量它;而客户服务部门可能要用电话支持回应时间来衡量它。Howmuch什么是度量?1.度量在日常业务中相当于指标,如KPI指标2.指标分为基础指标和计算指标,如销量同金额3.计算指标请注意afterrollup与beforrollupDM-数据集市•DM,即数据集市(DataMart)是企业级数据仓库的一个子集,它主要面向部门级业务,并且只面向某个特定的主题.•不同行业数据集市的规模不同,如移动行业数据集市比很多企业的数据仓库规模还要大.数据集市特征面向部门/机构,如财务部,人力资源部,市场部星型结构或雪花结构汇总数据(粒度较低)DM数据结构-星型星型架构:是一种非正规化的结构,多维数据集的每一个维度都直接与事实表相连接,不存在渐变维度,所以数据有一定的冗余,但效率较高.优点:查询效率较高DM数据结构-雪花雪花模型•雪花模型是对星型模型的扩展。它对星型模型的维表进一步层次化,原有的各维表可能被扩展为小的事实表,形成一些局部的层次区域,这些被分解的表都连接到主维度表而不是事实表。•优点:通过最大限度地减少数据存储量以及联合较小的维表来改善查询性能。OLAP•OLAP(On-LineAnalyticalProcessing)•OLAP是使分析人员、管理人员或执行人员能够从多角度对信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。•OLAP的基本多维分析操作有钻取(rollup和drilldown)、切片(slice)和切块(dice)、以及旋转(pivot)、drillacross、drillthrough等。•OLAP有多种实现方法,根据存储数据的方式不同可以分为ROLAP、MOLAP、HOLAP。•常用OLAP工具:有HyperionEssbase,MicrosoftSQLServerOLAPServices,CognosTS,MicroStrategyOLAP应用图示•使用向下钻取(DrillDown)、切片和旋转(SliceandDice)以及改变显示方式来探察数据大区省份城市向下钻取产品区域切片和旋转ChangeDisplays改变显示相关概念:1.切块,切片,旋转,上钻,下钻2.CUBE3.层级数据挖掘•数据挖掘(DataMining,DM)又称数据库中的知识发现(KnowledgeDiscoverinDatabase,KDD)数据挖掘是一种决策支持过程,它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,高度自动化地分析企业的数据,做出归纳性的推理,从中挖掘出潜在的模式,帮助决策者调整市场策略,减少风险,做出正确的决策。数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘技术•①分类。分类是找出数据库中一组数据对象的共同特点并按照分类模式将其划分为不同的类,如一个汽车零售商将客户按照对汽车的喜好划分成不同的类,这样营销人员就可以将新型汽车的广告手册直接邮寄到有这种喜好的客户手中,从而大大增加了商业机会。•②回归。回归分析方法反映的是事务数据库中属性值在时间上的特征,产生一个将数据项映射到一个实值预测变量的函数,等。它可以应用到市场营销的各个方面,如客户寻求、保持和预防客户流失活动、产品生命周期分析、销售趋势预测及有针对性的促销活动等。•③聚类。聚类分析是把一组数据按照相似性和差异性分为几个类别。它可以应用到客户群体的分类、客户背景分析、客户购买趋势预测、市场的细分等发现变量或属性间的依赖关系,其主要研究问题包括数据序列的趋势特征、数据序列的预测以及数据间的相关关系。•④关联规则。关联规则是描述数据库中数据项之间所存在的关系的规则,即根据一个事务中某些项的出现可导出另一些项在同一事务中也出现,即隐藏在数据间的关联或相互关系。在客户关系管理中,通过对企业的客户数据库里的大量数据进行挖掘,可以从大量的记录中发现有趣的关联关系,找出影响市场营销效果的关键因素,为产品定位、定价与定制客户群,客户寻求、细分与保持,市场营销与推销,营销风险评估和诈骗预测等决策支持提供参考依据。•⑦Web页挖掘。随着Internet的迅速发展及Web的全球普及,使得Web上的信息量无比丰富,通过对Web的挖掘,可以利用Web的海量数据进行分析,收集政治、经济、政策、科技、金融、各种市场、竞争对手、供求信息、客户等有关的信息,集中精力分析和处理那些对企业有重大或潜在重大影响的外部环境信息和内部经营信息.案例-相关/回归分析•广告支付和销售量的相关性分析线性方程:销售量(因)=6.584+1.071*广告费用(自)二次曲线方程:销售量=3.903+2.854*广告费用—0.245*广告费用²算法与案例•二次曲线拟合今后某一年汽车价格•马尔可夫链预测股票或期货价格•决策树在银行风险预警中的应用BI项目如何实施--不含数据挖掘8.测试2.项目立项3.需求分析4.数据分析-质量检测5.概要设计-系统架构6.详细设计7.开发/实施1.售前-项目调研9.试运行/验收10.售后-维护概念模型逻辑模型物理模型BI项目实施示意图我想看到的报表是什么样的用户需求DW设计报表规范ETL设计测试/试运行ETL开发/前端开发需求/建模&架构BI项目工作量百分比10%50%30%10%总体工作量百分比需求分析ETL报表开发测试35%65%开发工作量百分比ETL报表开发项目资源配备--乙方项目管理项目经理(项目总监&项目经理)项目助理需求调研(分析)需求分析师/业务