商业智能内训

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

商业智能介绍内训资料江苏富深协通数码技术有限公司2007年04月23日目录商业智能概念与原理富深研发中心BI组阶段性成果商业智能产生的背景随着信息技术的普及,各级政府和企业建立了大量的业务信息系统,这些业务系统存储了大量的、有价值的数据,如部门预算、指标、工资及单位资料等。尽管如此,高层领导和管理人员在面对动态的、不确定的外部环境和内部环境时,却不知道从何处去得到决策所需要的信息,有时即使知道,由于效率太低的问题也不能进行所需要的数据分析。为了改变这种“数据泛滥,知识贫乏”的局面,商业智能便应运而生。商业智能的概念商业智能也称作BI(BusinessIntelligence),是企业利用现代信息技术收集、管理和分析结构化和非结构化的商务数据和信息,创造和积累商务知识和见解,完善各种商务流程,改善商务决策水平,采取有效的商务行动,提升各方面商务绩效,增强综合竞争力的智慧和能力,是将企业中现有的数据转化为知识,帮助企业做出明智的业务经营决策的工具。商务智能是运用了数据仓库、联机分析处理和数据挖掘技术来处理和分析数据的技术,它允许用户查询和分析数据库或数据仓库,进而得出影响商业活动的关键因素,最终帮助用户做出更好、更合理的决策。商业智能的信息层次商业智能商业价值驱动决策支持分析型报告操作型报告商业智能体系结构数据源数据仓库数据集市?数据采集及整合数据的映射规则、模型。。。(元数据管理)商业智能项目流程管理及系统性能管理和监控?数据展现及决策部门预算预算执行工资统发外部收入分析支出分析指标分析多维分析仪表盘数据挖掘终端用户终端用户数据仓库的概念数据仓库之父WilliamH.Inmon在《BuildingtheDataWarehouse》中,将数据仓库定义为“一个面向主题的、集成的随时间变化的非易失性数据的集合,用于支持管理层的决策过程”。数据仓库的特性面向主题典型的主题领域:收入分析;支出分析;指标分析集成的数据抽取、清理、转换、装载非易失的数据仓库的数据通常是一起载入和访问的,但并不进行一般意义上的数据更新随时间的变化性数据仓库中的时间期限要远远长于操作型系统中的时间期限(5~10年);数据仓库中的数据是一系列某一时刻生成的复杂快照;数据仓库的键码结构总是包含某时间元素。数据仓库的几个重要概念主题从信息管理的角度看,主题就是在一个较高的管理层次上对信息系统中的数据按照某一具体的管理对象进行综合、归类所形成的分析对象。从数据组织的角度看,主题就是一些数据集合,这些数据集合对分析对象进行了比较完整的、一致的数据描述,这种描述不仅涉及数据自身,还涉及数据之间的联系。数据仓库的几个重要概念某个“客户”在特定“时间”、特定“地点”购买了一个“产品”,发生了购买活动。这是一个基本的业务事件。事实是从市场捕捉到的事件的一个度量,它是客户在特定时间和地点与产品发生作用时的瞬时值。这个事件的参考实体“客户”、“时间“、“地点”和“产品”,称之为维。数据仓库中的事实定义为维的交叉点。维和事实数据仓库的几个重要概念粒度所谓粒度是指数据仓库中数据单元的详细程度和级别。数据越详细,粒度越小级别就越低;数据综合度越高,粒度越大级别就越高。粒度越小,细节程度越高程度越低,回答查询的种类就越多。销售地区西南华中华东四川云南河南湖北江苏上海维的层次级别成员数据集成的背景统一性问题:业务信息系统建设相对分散,缺乏统一规划和统一的数据平台。共享性问题。各业务流程之间缺乏顺畅的系统衔接,数据共享困难,数据的利用率比较低,形成信息孤岛。管理水平问题:领导需要从整体上对业务数据进行查询和分析,以便作出科学决策,现有的系统难以满足要求。安全性问题:各业务系统安全措施差次不齐,随着应用需求的不断扩大,有待于建立规范的安全系统。数据集成数据集成一般称为ETL(Extract,Transformation,Loading,抽取、转换、加载),就是对原有的,分散的,陈旧的数据进行批量的提取、转换、加载,使它们成为对OLAP(联机分析系统)和数据挖掘等决策分析有用的数据。ETL工具既可以满足用户对种类繁多的异构数据源进行整合的需求,又可以通过增量方式进行数据的后期更新。数据抽取支持跨平台:支持UNIX、Windows98/NT/2000/2003、Linux等操作系统。集成异构的数据源:支持Oracle、Sybase、SqlServer、DB2等业界主流数据库软件平台;支持文件数据源,支持JDBC、ODBC、OLE-DB接口,XML接口,消息队列以及WebSevice应用接口等。数据抽取过程的调度:抽取过程的备份与恢复;支持时间触发方式;支持事件触发方式;支持命令行执行方式等。数据转换选择过滤:从源系统中选择整个记录或者部分记录。分离/合并:对源系统中记录中的数据进行分离操作或者对很多源系统中选择的部分数据进行合并操作。排序:对源系统中的数据按某几个字段进行排序操作。转化:对字段的转化包括对源系统进行标准化和使字段对用户来说是可用和可理解的。汇总:数据仓库中需要保存很多汇总数据。这需要将最低粒度数据进行汇总。计算值:根据某个公式进行若干字段的计算。数据加载数据装载完成将转换好的数据存储到数据仓库的任务。数据装载类型主要有3种方式:最初装载、增量装载和完全刷新。数据仓库建模的目的数据仓库的数据模型中不包含操作型的数据,数据仓库的数据模型只包含用户所感兴趣的分析数据、描述数据和细节数据。数据仓库的数据模型扩充了关键字结构,增加了时间属性作为关键字的一部分。数据仓库的数据模型中还增加了一些由基本数据所导出的衍生数据,这些导出的衍生数据主要用于对企业的管理决策进行分析。数据仓库建模的步骤维表建模:每一张维表对应现实世界中的观察事件的一个角度,如时间、地区、预算科目等事实表建模:每一个事实表通常包含了处理所关心的一系列的度量值数据仓库建模:维表和事实表按相互关系组织成数据仓库模型,常见的有星型模型和雪花模型聚合表设计:性能考虑星型模型核心是事实表,围绕事实表的是维度表。通过事实表将各种不同的维度表连接起来,各个维度表都连接到中央事实表。星型模型事实表维度表维度表维度表维度表维度表雪花模型是对星型模型的扩展,每一个维度都可以向外连接到多个详细类别表。雪花模型对星型模型的维度表进一步标准化,对星型模型中的维度表进行了规范化处理。事实表维度表维度表维度表维度表维度表详细类别表详细类别表雪化模型星型模型示例VendordataVendordataVendordatavendor_id供应商cust_id客户order_id发货OrderdataOrderdataorder_id订单CustdataCustdataCustdataMoneydataOrderdataOrderdataOrderdata产品ProductdataProductdataProductdataProductidVendoridMoneydatacustidMoneydataorderidMoneydataproductid联机分析处理(OLAP)的概念联机分析处理OLAP(On-LineAnalyticalProcessing)是一类与联机事务处理OLTP(On-LineTransactionProcessing)有明显区分的软件技术,它使分析人员、管理人员或执行人员能够从多角度对信息进行快速、一致、交互地存取,从而获得对数据的更深入了解。OLAP的目标是满足决策支持或者满足在多维环境下特定的查询和报表需求,它的技术核心是维这个概念。OLAP的特征1.快速性系统能在数秒内对用户的多数分析要求做出反应2.可分析性用户无需编程就可以定义新的专门计算,将其作为分析的一部分,并以用户所希望的方式给出报告3.多维性提供对数据分析的多维视图和分析4.信息性能及时获得信息,并且管理大容量信息地区产品北京上海化妆品江苏玩具浙江服装电器1234时间(月)(上海,4月,电器,10000)OLAP可认为是在多维数据集进行分析操作的工具集合。基本的多维分析操作有钻取(上卷和下钻)、切片、切块、及旋转等。销售多维数据集OLAP与多维分析切片地区产品北京上海化妆品江苏玩具浙江服装电器1234时间(月)对多维数据集的某一个维或多个维选定成员,称为切片(slice)。切片的维数取决于原来多维数据集的维数。下图为在产品维选定“电器”后的切片。服装切片切块地区时间(月)北京上海4江苏3浙江21化妆品玩具电器服装产品对多维数据集的某一个维或多个维选定成员集合,称为切块(dice)。切块的维数取决于原来多维数据集的维数。下图为在时间维选定{“1月”,“2月”,“3月”}集合的切块。服装切片服装切片上卷地区产品华北化妆品华东玩具服装电器1234时间(月)上卷是指沿某一个维的层次向上爬升,例如地区维成员{“北京”,“上海”,“江苏”,“浙江”}向上爬升为{“华北”,“华东”},使销售数据按地区维进行聚集,或称为汇总。下钻地区产品苏州无锡化妆品常州玩具镇江服装电器1234时间(月)下钻是上卷的逆向操作,沿某一个维的层次向下细化,例如地区维成员{“江苏”}细化为{“苏州”,“无锡”,“常州”,“镇江”},使销售数据按地区维向下寻找细节数据的过程。旋转用户常常希望改变多维数据集显示的维方向,称为多维数据集的旋转(rotate)操作。如原来横坐标为时间维,纵坐标为地区维。通过旋转可以使横坐标为地区维,纵坐标为时间维。2002年2003年1季度2季度3季度4季度1季度2季度3季度4季度北京市123564566134562355上海市13410398871021399782天津市6773599673696294旋转北京市上海市天津市2002年1季度123134672季度56103733季度4598594季度6687962003年1季度134102732季度56139693季度2397624季度558294OLAP与数据仓库的关系OLAP独立于数据存储的具体形式,是以数据仓库(DW)或数据库为基础,其最终数据来源是底层的OLTP数据库系统,但主要数据源是数据仓库。OLAP对数据的任何分析请求要在一个稳定一致的时间内,给子响应,所以在分析操作前,先将所需数据从OLTP数据库中收集、挑选、转换、合并与汇总,而管理人员需要的也是从更高层次、全局的角度理解数据,故数据仓库是最好的选择。OLAP的数据组织方式存储组织方式主要有MOLAP、ROLAP和HOLAP三种。MOLAP(MultidimensionalOLAP):MOLAP利用一个专有的多维数据库来存储OLAP分析所需的数据,数据以多维方式存储,并以多维视图方式显示。ROLAP(RelationalOLAP):ROLAP利用一个关系数据据库来存储OLAP分析所需的数据。HOLAP(HOLAP,HybridOLAP):HOLAP用关系表存储事实表和维表,利用专有的多维数据库来存储聚集表。数据挖掘的概念从商业角度看,数据挖掘是一种崭新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转化、分析和模式化处理,从中提取辅助商业决策的关键知识。从技术角度看,数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际数据中,提取隐含在其中的、人们所不知道的、但又是潜在有用的信息和知识的过程。数据挖掘与传统数据分析比较传统数据分析工具数据挖掘工具工具特点回顾型的、验证型的预测型的、发现型的分析重点已经发生了什么预测未来的情况、解释发生的原因分析目的从最近的销售文件中列出最大客户锁定未来的可能客户,以减少未来的销售成本数据集大小数据维、维中属性数、维中数据均是少量的数据维、维中属性数、维中数据均是庞大的启动方式企业管理人员、系统分析员、管理顾问启动与控制数据与系统启动,少量的人员指导技术状况成熟统计分析工具已成熟,其他工具正在发展中数据挖掘与数据仓库的关系大多数数据挖掘工具需要在集成的、一致的、经过清理的数据上进行挖掘。数据挖掘所需要

1 / 43
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功