数据仓库与数据挖掘综述.

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

数据仓库与数据挖掘综述概念、体系结构、趋势、应用报告人:朱建秋2001年6月7日提纲数据仓库概念数据仓库体系结构及组件数据仓库设计数据仓库技术(与数据库技术的区别)数据仓库性能数据仓库应用数据挖掘应用概述数据挖掘技术与趋势数据挖掘应用平台(科委申请项目)数据仓库概念基本概念对数据仓库的一些误解基本概念—数据仓库Datawarehouseisasubjectoriented,integrated,non-volatileandtimevariantcollectionofdatainsupportofmanagement’sdecision——[Inmon,1996].Datawarehouseisasetofmethods,techniques,andtoolsthatmaybeleveragedtogethertoproduceavehiclethatdeliversdatatoend-usersonanintegratedplatform——[Ladley,1997].Datawarehouseisaprocessofcrating,maintaining,andusingadecision-supportinfrastructure——[Appleton,1995][Haley,1997][Gardner1998].基本概念—数据仓库特征[Inmon,1996]面向主题一个主题领域的表来源于多个操作型应用(如:客户主题,来源于:定单处理;应收帐目;应付帐目;…)典型的主题领域:客户;产品;交易;帐目主题领域以一组相关的表来具体实现相关的表通过公共的键码联系起来(如:顾客标识号CustomerID)每个键码都有时间元素(从日期到日期;每月累积;单独日期…)主题内数据可以存储在不同介质上(综合级,细节级,多粒度)集成数据提取、净化、转换、装载稳定性批处理增加,仓库已经存在的数据不会改变随时间而变化(时间维)管理决策支持基本概念—DataMart,ODSDataMart数据集市--小型的,面向部门或工作组级数据仓库。OperationDataStore操作数据存储—ODS是能支持企业日常的全局应用的数据集合,是不同于DB的一种新的数据环境,是DW扩展后得到的一个混合形式。四个基本特点:面向主题的(Subject-Oriented)、集成的、可变的、当前或接近当前的。基本概念—ETL,元数据,粒度,分割ETLETL(Extract/Transformation/Load)—数据装载、转换、抽取工具。MicrosoftDTS;IBMVisualWarehouseetc.元数据关于数据的数据,用于构造、维持、管理、和使用数据仓库,在数据仓库中尤为重要。粒度数据仓库的数据单位中保存数据的细化或综合程度的级别。细化程度越高,粒度越小。分割数据分散到各自的物理单元中去,它们能独立地处理。对数据仓库的一些误解数据仓库与OLAP星型数据模型多维分析数据仓库不是一个虚拟的概念数据仓库与范式理论需要非范式化处理提纲数据仓库概念数据仓库体系结构及组件数据仓库设计数据仓库技术(与数据库技术的区别)数据仓库性能数据仓库应用数据挖掘应用概述数据挖掘技术与趋势数据挖掘应用平台(科委申请项目)数据仓库体系结构及组件体系结构ETL工具元数据库(Repository)及元数据管理数据访问和分析工具体系结构[Pieter,1998]SourceDatabasesDataExtraction,Transformation,loadWarehouseAdmin.ToolsExtract,TransformandLoadDataModelingToolCentralMetadataArchitectedDataMartsDataAccessandAnalysisEnd-UserDWToolsCentralDataWarehouseCentralDataWarehouseMid-TierMid-TierDataMartDataMartLocalMetadataLocalMetadataLocalMetadataMetadataExchangeMDBDataCleansingToolRelationalAppl.PackageLegacyExternalRDBMSRDBMS带ODS的体系结构SourceDatabasesHub-DataExtraction,Transformation,loadWarehouseAdmin.ToolsExtract,TransformandLoadDataModelingToolCentralMetadataArchitectedDataMartsDataAccessandAnalysisCentralDataWare-houseandODSCentralDataWarehouseMid-TierRDBMSDataMartMid-TierRDBMSDataMartLocalMetadataLocalMetadataLocalMetadataMetadataExchangeODSOLTPToolsDataCleansingToolRelationalAppl.PackageLegacyExternalMDBEnd-UserDWTools现实环境—异质性[DouglasHackney,2001]CustomMarketingDataWarehousePackagedOracleFinancialDataWarehousePackagedI2SupplyChainNon-ArchitectedDataMartSubsetDataMartsOracleFinancialsi2SupplyChainSiebelCRM3rdPartye-Commerce联合型数据仓库/数据集市体系结构RealTimeODSFederatedFinancialDataWarehouseSubsetDataMartsCommonStagingAreaOracleFinancialsi2SupplyChainSiebelCRM3rdPartyFederatedPackagedI2SupplyChainDataMartsAnalyticalApplicationse-CommerceRealTimeDataMiningandAnalyticsRealTimeSegmentation,Classification,Qualification,Offerings,etc.FederatedMarketingDataWarehouseETLtools&DWtemplatesDataprofiling&reengineeringtoolsDemand-drivendataacquisition&analysisMetadataInterchangeFederateddatawarehouseanddatamartsystemsDecisionenginemodels,rulesandmetricsOLAP&dataminingtools,AnalysistemplatesAnalyticapplicationdevelopmenttools&componentsAnalyticapplicationsFront-andback-officeOLTPe-BusinesssystemsExternalinformationprovidersCRMAnalytics&ReportingSupplyChainAnalytics&ReportingEKP-EnterpriseKnowledgeManagementPortalEPMAnalytics&ReportingBusinessinformation&recommendationsInformeddecisions&actionsFinancialAnalytics&ReportingHRAnalytics&Reporting闭环的联合型BI体系结构数据仓库的焦点问题-数据的获得、存储和使用RelationalPackageLegacyExternalsourceDataCleanToolDataStagingEnterpriseDataWarehouseDatamartDatamartRDBMSROLAPRDBMSEnd-UserToolEnd-UserToolMDBEnd-UserToolEnd-UserTool数据仓库和集市的加载能力至关重要数据仓库和集市的查询输出能力至关重要ETL工具去掉操作型数据库中的不需要的数据统一转换数据的名称和定义计算汇总数据和派生数据估计遗失数据的缺省值调节源数据的定义变化ETL工具体系结构元数据库及元数据管理元数据分类:技术元数据;商业元数据;数据仓库操作型信息。-[AlexBersonetc,1999]技术元数据包括为数据仓库设计人员和管理员使用的数据仓库数据信息,用于执行数据仓库开发和管理任务。包括:数据源信息转换描述(从操作数据库到数据仓库的映射方法,以及转换数据的算法)目标数据的仓库对象和数据结构定义数据清洗和数据增加的规则数据映射操作访问权限,备份历史,存档历史,信息传输历史,数据获取历史,数据访问,等等元数据库及元数据管理商业元数据给用户易于理解的信息,包括:主题区和信息对象类型,包括查询、报表、图像、音频、视频等Internet主页支持数据仓库的其它信息,例如对于信息传输系统包括预约信息、调度信息、传送目标的详细描述、商业查询对象,等数据仓库操作型信息例如,数据历史(快照,版本),拥有权,抽取的审计轨迹,数据用法元数据库及元数据管理元数据库(metadatarepository)和工具—[MartinStardt,2000]数据访问和分析工具报表OLAP数据挖掘提纲数据仓库概念数据仓库体系结构及组件数据仓库设计数据仓库技术(与数据库技术的区别)数据仓库性能数据仓库应用数据挖掘应用概述数据挖掘技术与趋势数据挖掘应用平台(科委申请项目)数据仓库设计自上而下(Top-Down)自底而上(BottomUp)混合的方法数据仓库建模Top-downApproachBuildEnterprisedatawarehouseCommoncentraldatamodelDatare-engineeringperformedonceMinimizeredundancyandinconsistencyDetailedandhistorydata;globaldatadiscoveryBuilddatamartsfromtheEnterpriseDataWarehouse(EDW)SubsetofEDWrelevanttodepartmentMostlysummarizeddataDirectdependencyonEDWdataavailabilityLocalDataMartExternalDataLocalDataMartOperationalDataEnterpriseWarehouse自底而上设计方法创建部门的数据集市范围局限于一个主题区域快速的ROI--局部的商业需求得到满足本部门自治--设计上具有灵活性对其他部门数据集市是一个好的指导容易复制到其他部门需要为每个部门做数据重建有一定级别的冗余和不一致性一个切实可行的方法扩大到企业数据仓库创建EDB作为一个长期的目标局部数据集市外部数据操作型数据(全部)操作型数据(局部)操作型数据(局部)局部数据集市企业数据仓库EDB数据仓库建模—星型模式ExampleofStarSchemaDateMonthYearDateCustIdCustNameCustCityCustCountryCustSalesFactT

1 / 81
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功