阮闯博士多媒体通信事业部广东省邮电科学技术研究院电信企业参与竞争的利器----数据仓库和数据挖掘电信企业参与竞争的利器----数据仓库和数据挖掘2提要•市场竞争--竞争技术•数据仓库的基本认识•数据仓库设计•数据挖掘•数据融合•动力系统•研究•我们的实践电信企业参与竞争的利器----数据仓库和数据挖掘3市场竞争--竞争技术•随着电信市场的开放,竞争将越来越激烈•利润的降低使得必须从粗放的经营转变到集约的经营•经营决策需要尽可能多的定量的依据•经营决策需要尽可能快的速度•所有这些需要技术上的支持----数据仓库和数据挖掘电信企业参与竞争的利器----数据仓库和数据挖掘4数据仓库的基本认识电信企业参与竞争的利器----数据仓库和数据挖掘5统一认识:什么是数据仓库技术(DataWarehousing)?是一个处理过程,而不仅仅代表一组产品是一个从大量的企业数据中发现有价信息的过程是充分利用现有资源,而不是摒弃重构是提供系统及数据的多种访问形式电信企业参与竞争的利器----数据仓库和数据挖掘6统一认识:什么是数据仓库(DataWarehouse)?数据仓库是在企业管理和决策中面向主题的,集成的,与时间相关的和不可修改的数据集合BillInmon电信企业参与竞争的利器----数据仓库和数据挖掘7统一认识:数据仓库体系结构图高度综合级轻度综合级当前细节级早期细节级备注:""""图5-1数据仓库体系结构图数据仓库数据仓库工具层多维分析工具数据挖掘工具可视化工具最终用户:表示关系型数据:表示多维数据电信企业参与竞争的利器----数据仓库和数据挖掘8统一认识:数据仓库应用体系结构数据集成数据转换数据发布WarehouseProcessManagement数据存取Metadata数据集成:集成不同业务系统中的数据数据转换:全部数据被转换成统一的数据格式数据发布:数据被存储在靠近用户的地方数据存取:满足数据分析等应用需求Metadata:元数据.即数据仓库的数据字典.WarehouseProcessManagement保证数据仓库的正确实施电信企业参与竞争的利器----数据仓库和数据挖掘9统一认识:建设数据仓库的十二步1.定义项目范围,制定项目开发计划2.确定在企业决策中至关重要的数据3.用数据语言描述企业需求4.建立并修正企业的逻辑数据模型5.建立数据仓库数据模型6.定义数据集市数据模型7.定义可操作的数据源(OLTP数据)8.详细设计9.设计数据仓库的物理数据库10.准备高层次的应用结构设计11.定义各种技术规范12.准备项目实施计划电信企业参与竞争的利器----数据仓库和数据挖掘10统一认识:数据仓库建设取得成功的关键因素从项目建设的角度出发:有一个坚实的数据仓库数据模型有一个专职的数据仓库分析小组有一个经过深思熟虑的执行计划各方紧密配合资金保证好的自动化工具,支持设计过程和元数据管理最终用户好用各种工具齐全,易得正确的期望值有专家支持从用户的角度出发:•数据准确•数据易于管理•数据可以随时刷新•数据容易访问•数据表现通俗易懂•有利于正确的企业决策电信企业参与竞争的利器----数据仓库和数据挖掘11数据量估算一般情况下,–数据空间=数据量估算*2–索引空间=数据空间*0.5–估算数据量时要考虑:•现有数据日,月,季和年的增长率.•数据仓库中保留多长时间的历史数据:–数据仓库中一般保留几年数据.–操作型系统中一般只保留当前数据注意:–数据仓库系统和OLTP系统不同,它需要更大的临时空间,用于排序操作和数据求和汇总–数据仓库系统也需要较大的缓存空间,用于驻留经常被访问的数据.电信企业参与竞争的利器----数据仓库和数据挖掘12模型选择:Inmon的数据分布式体系结构数据源系统ODS:操作型数据存储集中式数据仓库数据集市OLTP系统时实数据实时/准时实数据数据以批方式修改数据日期:1秒-2天历史数据数据以批方式修改数据日期:1天-5年历史和汇总数据数据以批方式修改数据日期:1天-10年数据源系统也可以直接给数据仓库和数据集市提供数据电信企业参与竞争的利器----数据仓库和数据挖掘13模型选择:集中式数据仓库模型OLTP数据源系统集中式数据仓库最终用户数据被不断地从数据源系统累积到数据仓库中数据格式和数据的取舍规则与OLTP系统独立数据仓库中存放的是企业的数据,可以跨业务领域OLTP系统与数据仓库系统彼此独立,OLTP的性能不受影响电信企业参与竞争的利器----数据仓库和数据挖掘14模型选择:集中分布式数据仓库模型OLTP数据源系统集中式数据仓库按地域发布的数据集市地域性最终用户数据更靠近最终用户电信企业参与竞争的利器----数据仓库和数据挖掘15模型选择:分布式累积型数据仓库模型按地域发布的数据集市各地区的OLTP数据源系统集中式数据仓库集中定义数据的集成与转换规则数据传递从下往上此模型适用于敺植际綌企业电信企业参与竞争的利器----数据仓库和数据挖掘16硬件与软件选择:硬件选择数据库服务器的选择取决于数据库的大小和查询的复杂度05GB50GB500GB5TBComplexLanServersSimpleComplexSMPMachineSimpleComplexSMPClustersSimpleComplexMPPClustersSimpleSmallMediumtoLargeVeryLargeSourceDatamationMarch1995电信企业参与竞争的利器----数据仓库和数据挖掘17硬件与软件选择:硬件选择(续)网络服务器:•SingleCPUPentium-basedservers–Upto10GBDatabases•SingleprocessorUNIXplatforms–10to40GBDatabases•适用于高度汇总(HighlySummaried)型数据仓库•适用于做网关(Gateway)SMP数据库服务器:•2to64CPUs(通常4to8)•共享内存/硬盘•大容量内存•适用于中型和大型数据库SMP供应商:Digital,HP,Pyramid,Sequent,Sun,Cray,IBM电信企业参与竞争的利器----数据仓库和数据挖掘18设计阶段:数据仓库数据的多级模型OlderatomicdataCurrentatomicdataLightlysummarizedHighlysummarizedMETADATA85-90%ofanalysis10%ofanalysis电信企业参与竞争的利器----数据仓库和数据挖掘19设计阶段:数据仓库数据建模的一般方法1.获取最终用户的业务需求2.定义业务规则3.建立主题(SA)数据视图4.建立企业逻辑数据模型5.定义操作型的数据源6.建立数据仓库数据模型7.必要的话,把数据仓库模型分割成几个子模型,分别建设,以满足不同用户和不同工具的需要.注意:数据仓库建设的每一步都要严格质量检查,每一步的实施可能要经过多次反复.电信企业参与竞争的利器----数据仓库和数据挖掘20设计阶段:数据建模的基本概念模型-对主题的抽象表示.数据模型-对一定范围的数据的定义,特征和关系的表示.主题视图-高层主题及其关系的表示.逻辑数据模型-从最终用户的角度出发,对企业中的信息的数学描述.这里并不考虑数据的功能和物理属性.数据仓库数据模型-是反映在决策支持分析活动中对数据的使用的数据模型实体(Entity)-代表人,物,地点和事件.实体在数据模型中是唯一的.关系(Relationship)-两个实体之间的企业规则.元素(Element)-表现实体的低级属性.也称为属性(Attribute)键(Key)-唯一识别一个实体的元素.属性(Attribute)-实体中的非键元素.递归(Recursion)-与自身相关的实体关系.电信企业参与竞争的利器----数据仓库和数据挖掘21设计阶段:主题视图模型,逻辑数据模型与数据仓库数据模型之间的关系主题视图逻辑数据模型操作型数据模型数据仓库数据模型物理模型数据集市数据模型电信企业参与竞争的利器----数据仓库和数据挖掘22设计阶段:什么是主题?主题代表企业中数据的自然归类范畴.主题也称为高层实体.主题视图包含:数据被归类成为广义的,功能上独立的,没有重叠的主题.表现数据之间的主要关系.表现模型之间的数据共性.•主题视图中的主题数目一般不超过12个•可以先构造局部主题视图,然后合并成全局主题视图.电信企业参与竞争的利器----数据仓库和数据挖掘23设计阶段:局部主题视图CustomerOrderProductOrderPartProductCustomerOrderEmployeesPartSupplierUserView1UserView2UserView3UserView4电信企业参与竞争的利器----数据仓库和数据挖掘24设计阶段:全局主题视图CustomerOrderEmployeesPartProductSupplier电信企业参与竞争的利器----数据仓库和数据挖掘25设计阶段:建立逻辑数据模型的基本方法基于主题视图,把主题视图中的数据定义转入到逻辑数据模型中.删除重复数据项识别某些数据共性,比如:数据类型,...识别主题间的关系分解多对多的关系用范式理论检验逻辑数据模型由用户审核逻辑数据模型命名规则审核电信企业参与竞争的利器----数据仓库和数据挖掘26设计阶段:主题视图与逻辑数据模型ProductOrderHigh-level主题视图Mid-level逻辑数据模型CustomerIDCustomerNameCreditRatingCustomerIDCustomerAddressTypeAddressLine1AddressCityAddressStateAddressZip-codeOrderCustomerIDSICCodeNo.EmployeesCommercialCustomerIDNo.KidsIncomeLevelResidentialCustomerCustomerSelectedSubjectArea电信企业参与竞争的利器----数据仓库和数据挖掘27设计阶段:逻辑数据模型与数据仓库数据模型的区别逻辑数据模型数据仓库数据模型范式化非范式化详细数据详细和汇总数据企业运作角度企业决策和战略角度可能含有时间键必须含有时间属性没有派生数据含有派生的战略数据无数据数组有数据数组以企业规则为中心以数据的使用和稳定性为中心电信企业参与竞争的利器----数据仓库和数据挖掘28设计阶段:数据粒度分析数据粒度(DataGranularity)-代表数据的细节化程度.粒度越大,数据的汇总程度越高.事务级数据的粒度最小,它是汇总型数据的数据源.数据仓库中数据的粒度取决于数据仓库的类型.数据仓库中数据的粒度可以和操作型系统的数据粒度一样,也可以不一样.当粒度发生改变时,数据仓库数据模型要反映出这种变化.如果仅仅存储汇总型数据,那么数据的细节型分析就无法做到电信企业参与竞争的利器----数据仓库和数据挖掘29设计阶段:数据粒度分析在数据仓库中,多层(Multi-tier)体系结构表达的是数据的汇总程度.LightlysummarizedHighlySummarizedCurrentAtomicData•每一层并不一定彼此独立•并非每个数据仓库项目都含有多层汇总.电信企业参与竞争的利器----数据仓库和数据挖掘30设计阶段:数据汇总模型简单累加:如,求和每天各种商品的销售额滚动型累计:如,求和每周各种商品的销售额清单型汇总:类似于做台账连续汇总:形如多级汇总纵向汇总:按特定的问题进行汇总,以获取最佳的性能.电信企业参与竞争的利器----数据仓库和数据挖掘31设计阶段:数据稳定性分析数据仓库中数据的最好组织原则是:变化慢的数据存放在一张表中.变化快的数据存放在另一张表中.关键是要根据数据的稳定性,对数据元数进行分离下列数据应该按其稳定性来组织:数据的修改时间完全不同.最终用户习惯于频繁地修改数据.下列