BI基础知识BI各概念关系商业智能数据仓库OLAP技术DSS产品数据挖掘商业智能工具主题各种概念之间的关系DataWarehouseArtificialIntelligenceDataMartOLAPDecisionSupportSystemDataMiningOperationDatabaseBusinessIntelligentSystemDatabaseSystemBI各概念关系商业智能数据仓库OLAP技术DSS产品数据挖掘商业智能工具主题BI是将数据转换成信息的过程,然后通过发现将信息转化为知识。-GartnerGroupBI是将数据转换成知识并将知识应用到商业行为上的一个过程。-DataWarehouseInstitute商业智能领域:DSS、OLAP、数据仓库、ETL、数据集市、数据挖掘、商业建模...为提高企业运营性能而采用的一系列方法、技术和软件的总和商业智能BusinessIntelligenceBI各概念关系商业智能数据仓库OLAP技术DSS产品数据挖掘商业智能工具主题企业数据仓库EDW企业数据仓库定义:详细交易及相关业务数据的集合包含必要的内部与外部信息来自于多个数据源/业务操作系统保存一定的时间周期按照企业内业务规则所决定的模型来存储企业数据仓库作用:基于数据/信息来回答相关的业务问题和提供决策支持,并确保:一致、集成的数据存储任意的数据粒度在整个企业的业务范围保持企业内一致的信息视图企业内一致的信息视图(SingleVersionoftheTruth)>集成的企业信息(Integratedcorporateinformation)>不针对特定应用(Applicationneutral)>无冗余(Nonredundant)>用于报表和决策支持(Reportinganddecisionmaking)最详细的数据和信息(DetailedData)任何时候,针对任意数据,提出任意业务问题(Askanyquestion,anydata,anytime)数据仓库的特点面向主题:操作型数据库的数据组织面向事物处理任务,各个业务系统之间各自分离,而数据仓库中的数据是按照一定的主题域进行组织的。例如:当事人、协议、机构、财务、事件、产品等主题。集成的:数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。相对稳定的:数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。反映历史变化:数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点(如开始应用数据仓库的时点)到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。数据仓库领域的两位大师BillInmon数据仓库之父,数据仓库概念的创始人理论:CorporateInformationFactory(CIF)主要著作:《数据仓库》、《企业信息工厂》http://inmoncif.com主要著作:《数据仓库工具箱-维度建模的完全指南》、《数据仓库生命周期工具箱-设计、开发和部署数据仓库的专家方法》http://www.kimballgroup.comRalphKimball数据仓库方面的知名学者理论:MutildimensionalArchitecture(MD)企业信息工厂数据仓库总线企业总线总线架构矩阵数据架构形态各数据架构比较InmonvsKimballInmonKimballOverallapproachTop-downBottom-upComplexityofthemethodQuitecomplexFairlysimpleDataOrientationDataderivedProcessorientedPrimaryaudienceITaudienceEnduserTool3NFDimensionalModelingArchitecturalstructureEnterprisewide,DatawarehousefeedsdepartmentdatabasesDatamartmodelasinglebusinessprocessEnterpriseconsistencyachievedthroughbusBI各概念关系商业智能数据仓库OLAP技术DSS产品数据挖掘商业智能工具主题OLTP与OLAP针对特定问题的联机数据访问和数据分析技术满足对数据进行多角度、快速、一致、交互、深入观察使用预定义的多维数据视图对数据进行分析处理,支持对数据的切片、切块、钻取。多维数据库是一种以多维数据存储形式来组织数据的数据管理系统,在使用时需要将数据从关系数据库中转载到多维数据库中方可访问。也称为面向交易的处理系统,其基本特征是顾客的原始数据可以立即传送到计算中心进行处理,并在很短的时间内给出处理结果。这样做的最大优点是可以即时地处理输入的数据,及时地回答。也称为实时系统(RealtimeSystem)。衡量联机事务处理系统的一个重要性能指标是系统性能,具体体现为实时响应时间(ResponseTime),即用户在终端上送入数据之后,到计算机对这个请求给出答复所需要的时间。OLTP数据库旨在使事务应用程序仅写入所需的数据,以便尽快处理单个事务。On-LineAnalyticalProcessingOn-LineTransactionProcessingOLTP与OLAPOLTPOLAP用户操作人员,低层管理人员决策人员,高级管理人员功能日常操作处理分析决策DB设计面向应用面向主题数据当前的,最新的细节的,二维的历史的,聚集的,多维的集成的,统一的存取读/写数十条记录读上百万条记录工作单位简单的事务复杂的查询用户数上千个上百个DB大小100MB-GB100GB-TBROLAP表示基于关系数据库的OLAP实现(RelationalOLAP)MOLAP表示基于多维数据组织的OLAP实现(MultidimensionalOLAP)ROLAPMOLAP沿用现有关系数据库技术专用技术响应速度相对molap要慢性能好,响应速度快数据转载计算速度快数据转载速度慢存储空间耗费小,维数没有限制需要进行预计算,可能导致数据爆炸,维数有限,无法支持维的动态变化借助rdbms对数据存储,无文件大小限制受操作系统平台文件大小限制,难以达到tb级可以通过sql语句实现详细数据和概要数据的存储缺乏数据模型和数据访问的标准不支持预计算的读写操作无法完成维之间的运算无法完成多行计算支持高性能的决策支持计算复杂的跨维计算多用户读写操作行级计算ROLAPvsMOLAPBI各概念关系商业智能数据仓库OLAP技术DSS产品数据挖掘商业智能工具主题DSS产品产品名称产品内容方法论数据仓库项目组织步骤、人员角色、建设放方案等一系列方法的集合,指导方针数据仓库数据模型的建模方法;统一的概念模型、逻辑模型;数据库中对应的组织(物理化)技术组件与功能ETL功能组件;前端门户组件、模版;元数据管理;用户与组织;权限组织;应用分析集合面向业务的分析;面向问题的专题;固定报表;即席查询分析;KPI;分析、互动流程数据组织过程与个性应用实现数据的加载、清洗、组织规划的过程;用户本地的需求整理与实现;与开发者的经验、技能相关BI各概念关系商业智能数据仓库OLAP技术DSS产品数据挖掘商业智能工具主题数据挖掘改变未来世界的十大新兴技术机器与人脑的接口塑胶晶体管数据挖掘(DataMining)数字权利管理生物测定学(Biometrics)语言识别处理微光学技术(Microphotonics)解开程序代码(UntanglingCode)机器人设计微应用流体学(Microfluidics)资料来源:《TechnologyReview》(麻省理工学院2002年1月出刊)什么是数据挖掘?定义:从海量的数据库中选择、探索、识别出有效的、新颖的、具有潜在效用的乃至最终可理解的模式以获取商业利益的非平凡的过程-Fayyad,Piatetsky-Shapiro特征:处理海量的数据;揭示企业运作中的内在规律;为企业运作提供直接决策分析,并为企业带来巨大经济效益。DataInformationKnowledgeWisdomData+contextInformation+rulesKnowledge+experience数据挖掘涉及领域神经计算数据库知识发现数据挖掘统计学模式识别机器学习人工智能数据挖掘基本概念模型(Model)vs模式(Pattern)数据挖掘的根本目的就是把样本数据中隐含的结构泛化(Generalize)到总体(Population)上去模型:对数据集的一种全局性的整体特征的描述或概括,适用于数据空间中的所有点,例如聚类分析模式:对数据集的一种局部性的有限特征的描述或概括,适用于数据空间的一个子集,例如关联分析算法(Algorithm):一个定义完备(well-defined)的过程,它以数据作为输入并产生模型或模式形式的输出描述型挖掘(Descriptive)vs预测型挖掘(Predictive)描述型挖掘:对数据进行概括,以方便的形式呈现数据的重要特征预测型挖掘:根据观察到的对象特征值来预测它的其他特征值描述型挖掘可以是目的,也可以是手段几类基本的挖掘算法关联规则(模式、描述型)发现数据集中的频繁模式例如:buy(x,”diapers”)buy(x,”beers”)[0.5%,60%]分类与预测(模型、预测型)发现能够区分或预测目标变量(唯一的)的规则或者函数分类的目标变量一般是范畴型的,而预测则是数量型的,并不必然带有任何时间延续型的暗示例如:股票市值的预测,病人病情的判断聚类(模型、描述型)对数据分组以形成新类,类标记是未知的例如:市场细分孤立点探测(OutlierDetection)(模式、预测型)分析异常或噪声数据的行为模式例如:欺诈检测BI各概念关系商业智能数据仓库OLAP技术DSS产品数据挖掘商业智能工具主题工具分类建模工具:Powerdesigner、ErwinETL工具:用于数据的集成和处理Datastage、Infomatic、Automation数据质量工具:一般集成在ETL工具中分析工具:报表工具:BO、COGNOS、OBIEE、MicroStrategyOLAP工具:COGNOS、BO、OBIEE(Hyperion)BI分析门户:一般集成在分析工具中数据挖掘工具:SASEnterpriseMiner、SPSSClementine元数据管理工具:metacenter、CA、Infomatic