·数据仓库(DataWarehouse)是一个面向主题的(SubjectOriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(TimeVariant)的数据集合,用于支持管理决策。·数据仓库的特点–面向主题–集成–相对稳定–反映历史变化数据仓库是一个面向主题的、集成的、不可更新的、随时间不断变化的数据集合,它用于支持企业或组织的决策分析处理。数据仓库,DataWarehouse,可简写为DW。数据仓库之父BillInmon在1991年出版的“BuildingtheDataWarehouse”一书中所提出的定义被广泛接受——数据仓库(DataWarehouse)是一个面向主题的(SubjectOriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(TimeVariant)的数据集合,用于支持管理决策(DecisionMakingSupport)。◆面向主题:操作型数据库的数据组织面向事务处理任务,各个业务系统之间各自分离,而数据仓库中的数据是按照一定的主题域进行组织的。◆集成的:数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。◆相对稳定的:数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。◆反映历史变化:数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点(如开始应用数据仓库的时点)到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。从功能结构化分,数据仓库系统至少应该包含数据获取(DataAcquisition)、数据存储(DataStorage)、数据访问(DataAccess)三个关键部分。发展阶段:数据仓库的架构1.数据源:他是数据仓库的基础,位于数据仓库构架的最底层,是数据仓库的数据源泉。包括各个业务处理子系统的信息。2.ETL:是数据仓库的核心。数据仓库如何高效管理数据是区别与面向操作数据库的主要标准。完成按照主题管理数据,聚合数据存放于多维数据库中。3.数据存储与管理:是整个数据仓库系统的核心4.OLAP服务器:对分析需要的数据进行有效集成,按多维模型予以组织,以便进行多角度、多层次的分析,并发现趋势5.前端展现:主要包括各种报表、查询、OLAP分析、数据挖掘等。·OLAP分析OLAP定义·OLAP(联机分析处理)是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业维特性的信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。(OLAP委员会的定义)·OLAP的目标是满足决策支持或多维环境特定的查询和报表需求,它的技术核心是“维”这个概念,因此OLAP也可以说是多维数据分析工具的集合。OLAP特性·快速性:用户对OLAP的快速反应能力有很高的要求。系统应能在5秒内对用户的大部分分析要求做出反应。·可分析性:OLAP系统应能处理与应用有关的任何逻辑分析和统计分析。·多维性:多维性是OLAP的关键属性。系统必须提供对数据的多维视图和分析,包括对层次维和多重层次维的完全支持。·信息性:不论数据量有多大,也不管数据存储在何处,OLAP系统应能及时获得信息,并且管理大容量信息。OLAP分析·切片和切块(SliceandDice)–在多维数据结构中,按二维进行切片,按三维进行切块,可得到所需要的数据。如在“城市、产品、时间”三维立方体中进行切块和切片,可得到各城市、各产品的销售情况。·钻取(Drill)–钻取包含向下钻取(Drill-down)和向上钻取(Drill-up)/上卷(Roll-up)操作,钻取的深度与维所划分的层次相对应。·旋转(Rotate)/转轴(Pivot)–通过旋转可以得到不同视角的数据。·数据仓库的工具数据源:ORACLE,MSSQL,DB2,文本文件等ETL:POWERCENTER,OWB,DB2DWM,TeradataBuilder,C,Shell,Perl,DATASTAGE,INFORMATICA,SAGENT等数据存储与管理:ORACLE,IBMUDB,SYBASEIQ等vOLAP服务器:IBMOLAPServer,ORACLEExpressserver等前端展现:–报表、查询、OLAP分析:BO,MSTR,BRIO,Cognos,–数据挖掘:IBMIM,SASEM,SPSSCLEMENTINE数据挖掘服务与常用算法·数据挖掘服务与常用算法数据仓库技术的应用·数据仓库技术在移动通信领域的应用1决策支持系统的应用背景随着市场竞争的日益激烈,数据仓库的应用也越来越广泛。采用数据仓库的企业有两个前提条件,一是企业存在大量数据,二是企业处在竞争的环境中。要想在当今社会激烈的竞争环境下迅速、长足的发展,建立起一套自己的数字神经系统是必要的,即通过各路神经对外界环境变化的迅速感知传输至大脑中枢,然后将经中枢处理得出的应对及预防措施及时反馈给各路神经。所以必须搭建起企业当前和今后发展的综合软件应用平台,优化工作流程,提高企业整体工作效率,及时掌握影响企业运作的关键指标与决策依据、突发事件、重大事件及关系紧密的行业、专业、市场信息,做到信息掌握及时,管理高效顺畅。针对信息化的应用,移动通信行业信息化进程得到巨大发展和广泛应用,运营网络系统、综合业务系统、计费系统、办公自动化等系统的相继使用,为计算机应用系统的运行积累了大量的历史数据。但在很多情况下,这些海量数据在原有的作业系统中是无法提炼并升华为有用的信息并提供给业务分析人员与管理决策者的。一方面,联机作业系统因为需要保留足够的详细数据以备查询而变得笨重不堪,系统资源的投资跟不上业务扩展的需求;另一方面,管理者和决策者只能根据固定的、定时的报表系统获得有限的经营与业务信息,无法适应激烈的市场竞争。随着我国政府对电信行业经营的进一步放开和政策约束的调整以及客户对电信服务质量要求的提高、盗打、欺诈因素的增加等等,移动通信的经营面临更加复杂的局面,营运成本大幅度增加。因此,如何在激烈的市场竞争条件下,在满足客户需求和优质服务的前提下充分利用现有设备降低成本、提高效益,就成为决策者们共同关心的课题。依照国外电信市场的发展经验和历程,市场竞争中电信公司的成功经营之道是:(1)以高质量的服务留住现有客户;(2)提高通话量和设备利用率,用比竞争者更低的成本争取新客户,扩大市场份额;(3)放弃无利润和信用差的客户,降低经营风险和成本。对于一个相对成熟的移动通信运营商来说,各运营与支撑系统所积累的海量历史数据无疑是一笔宝贵的财富,而数据仓库系统正是充分利用这些宝贵资源从而达到上述三重目标的一种最为有效的方法与手段。广东省移动通信公司和珠海创我科技发展有限公司联合开发的MASA移动通信企业决策支持系统即符合以上三重目标。2MASA的功能简介1998年,广东省移动通信有限责任公司及其珠海分公司和珠海创我科技发展有限公司就提出了利用计费系统的帐单、清单历史数据和交换系统原始详细呼叫记录(CallDataRecord)以及客户资料、缴费情况等业务系统数据和其它与系统需求有关的外部数据源等,采用数据仓库技术进行市场和用户行为分析(MASA)。经过探索与开发,实现了基于数据仓库/知识库与预测模型/WEB技术的移动企业决策支持系统-MASA。2.1MASA系统的应用目标从MASA所要达到的应用目标的角度来看,MASA的应用可以让运营者实现:(1)对投资与收益的认识包括收益的主要来源、发展趋势、各种运营项目对总收益的比重、过去的决策和政策对收益的影响、主被叫收益分析、各期工程实施后收益的变化、需投资的地区及设备、投资的利用率、回报率等。(2)对客户的认识包括客户群体的构成、客户消费层次、贡献最大的客户、忠诚度较高的客户、信誉较好或差的客户、客户的地理分布、客户的消费习惯、潜在的消费需求等。(3)对市场的认识包括市场的占有率、市场需求、产品周期及其发展趋势、营业网点的的选择与风险、客户群体与市场的关系、消费需求与四大市场因素(地理因素、人文因素、心理因素、行为因素)之间的关系等。(4)对网络的认识包括贡献最大的小区、话务最忙的小区、投诉最多的小区、覆盖较差的地区、盗打最频繁的地区等。(5)对竞争对手的认识包括竞争对手的用户数、行为、对手的决策等。2.2系统功能概述MASA不同于基于OLTP(联机事务处理)的移动通信等其它计算机应用系统,MASA的数据来源是OLTP系统及其它相关的外部数据源,通过对这些数据源的抽取、净化、整合而形成具有海量历史数据的数据仓库,MASA所实现的所有功能都基于对这些历史数据的分析与挖掘。通过分析与挖掘,实现面向不同层次客户(决策层、管理层、业务运行层)的各种分析与支持功能,而这种分析与支持功能是传统的OLTP所难于提供甚至是根本无法实现的。MASA面向决策支持的功能:(1)优惠策略的预演与仿真(2)过去决策和政策的综合影响(3)经营成本和收益的分析(4)计划管理与投资分析(5)竞争对手分析MASA面向管理层的功能:(1)客户消费行为分析(2)新业务的可行性分析(3)反欺骗与欠费行为分析(4)高额话费分析(5)热点小区话务、投资、效益分析(6)深层次的移动运营动态报表(7)另外,利用元数据的思想,使MASA用户可以依据自己不同的要求得到各种深层次的报表。MASA面向业务运行层的功能:(1)基于网络运营状况分析结果的业务支持(2)基于客户投诉状况分析结果的业务支持(3)基于大客户分析结果的业务支持(4)基于黑名单分析结果的业务支持(5)基于欠费与话费分析结果的业务支持3MASA的技术特点3.1MASA是基于数据仓库OLAP(联机分析处理)的系统,它所提供的是基于海量历史数据的分析而实现的面向如ITU-TM(国际电信联盟-电信管理网络)标准所描述的决策支持层、管理层、和业务运行层三个层次的功能。这也是MASA与移动通信其它计算机应用系统的主要区别。3.2各地移动通信运营公司在组织构架、业务划分与其侧重点、所运行的OLTP系统所依赖RDBMS和所需要的数据源的类型与格式等可能是不尽相同的,MASA通用化设计兼容多种数据格式。3.3基于三层应用体系结构,客户端(表现层)全部通过浏览器访问系统,即所谓的瘦客户端,客户端的安装、配置都相当简单甚至不需要。系统通过对最基本的功能模块与用户角色建立授权表的形式和直接拖放的方式,实现用户可以依据自己的需要在系统内核的基础上扩展新的功能。3.4系统通过使用GIS地理表现与具有地理维属性的分析结果数据建立多维映射关系的技术,使分析结果的表现更为直观、丰富和实用。3.5系统通过基于KDD的知识库的应用和基于统计分析/模式识别/神经网络的预测模型的应用,提供强有力的辅助决策支持功能。4MASA的应用前景数据仓库技术是当今IT领域方兴未艾的技术之一,MASA的推出使其应用者由原来通过定期的、固定的报表进行定性的分析而上升到通过实时的、动态的各种形式的图表进行定量的分析,从而真正建立自己的数字神经系统,敏感地发现市场的微小变化并迅速地做出反应,为移动运营商在激烈的市场竞争中立于不败之地提供了强有力的工具。现在,MASA系统正考虑引入与开发更为强大的前端表现、数据挖掘、人工智能、决策模型等方法与功能,使MASA不断推出更新、更好的版本,并在成为移动通信深入发展强有力的助动力的同时向更宽、更广的领域发展。数据挖掘算法分析: