第1章商务智能基本概念信息技术的不断推广应用,将企业带入了一个信息爆炸的时代。每日、每时、每刻都有潮水般的信息出现在管理者的面前,等待管理者去处理、去使用。与此同时,企业的管理者在管理中面对来自不同部门的、相互矛盾的信息无法对所要解决的决策问题提出正确的解决方案。为此,需要一种新的信息处理技术能够使决策者们获取及时准确的信息,以理解商务活动并做出智能化的、更有效的决策,即能从海量的数据中提取有用的信息并转化为商务知识,从而告别“拍脑袋”决策方式。通过本章学习,可以了解:商务智能的发展及体系结构;数据仓库的总体结构框架;数据仓库的功能结构;数据仓库的环境支持结构;数据挖掘的基本原理;数据挖掘的应用范围和应用过程。1.1商务智能的基本概念1.1.1商务智能的定义1989年美国加特纳公司的分析师HowardDresner首次提出“商务智能”美国IBM公司的定义Microsoft认为商务智能IDC国际数据公司BusinessObjects公司认为商务智能Teradata公司认为商务智能的目的美国MicroStrategy公司的定义1.1商务智能的基本概念商务智能是数据仓库、联机分析处理和数据挖掘等相关技术走向商业应用后形成的一种应用技术。该技术收集、汇总了与商务活动有关的各种数据,将其集成到数据仓库中。采用联机分析技术对商务活动进行实时的监控、分析,便于及时采取有效的商务决策,提升商务活动的绩效。应用数据挖掘技术对描述商务活动的数据进行挖掘,以获取有效的商务信息,从中提取商务知识,为企业商业发展寻找新的机遇。1.1商务智能的基本概念1.1.2商务智能的发展与应用1.商务智能的发展从20世纪60年代计算机用于管理信息处理开始,经过40多年的发展,信息处理技术的发展经历了电子数据处理系统(EDPS,ElectronicDataProcessingSystem)、管理信息系统(MIS,ManagementInformationSystem)和决策支持系统(DSS,DecisionSupportingSystem)等阶段。1.1商务智能的基本概念2.商务智能的作用作用主要体现在理解、改善、衡量和创造四个方面。3.商务智能的作用域战略管理、营销管理、市场管理、客户关系管理和风险管理等。1.1商务智能的基本概念1.1.3商务智能的体系结构商务智能体系架构主要有比尔•恩门的信息工厂,扎克曼的企业体系结构,美国数据仓库研究院的商务智能体系结构以及加特纳公司的商务智能体系结构等。这些体系结构中均包含了商务分析、OLAP、数据挖掘和数据仓库四大部分(图1.1)。1.1商务智能的基本概念图1.1商务智能体系结构商务分析:绩效管理、客户管理、供应链管理OLAP、数据挖掘数据仓库1.2数据仓库的发展与展望1.2.1从传统数据库到数据仓库1.决策处理的系统响应问题2.决策数据需求的问题3.决策数据操作的问题4.数据仓库与传统数据库的对比1.2数据仓库的发展与展望表1-1数据仓库与数据库对比表对比内容数据库数据仓库数据内容当前值历史的、存档的、归纳的、计算的数据数据目标面向业务操作程序、重复处理面向主题域、管理决策分析应用数据特性动态变化、按字段更新静态、不能直接更新、只定时添加数据结构高度结构化、复杂、适合操作计算简单、适合分析使用频率高中到低数据访问量每个事务只访问少量记录有的事务可能要访问大量记录对响应时间的要求以秒为单位计量以秒、分钟、甚至小时为计量单位1.2数据仓库的发展与展望1.2.2数据仓库的定义与基本特性WilliamH.Inmon在1993年所写的论著《BuildingtheDataWarehouse》则首先系统性地阐述了关于数据仓库的思想、理论,为数据仓库的发展奠定了历史基石。在文中,将数据仓库定义为:“一个面向主题的、集成的、随时间变化的、非易失性数据的集合,用于支持管理层的决策过程”。1.2数据仓库的发展与展望1.面向主题性面向主题性表示了数据仓库中数据组织的基本原则,数据仓库中的所有数据都是围绕着某一主题组织的。确定主题以后,需要确定主题应该包含的数据。不同的主题之间可能会出现相互重叠的信息。主题在数据仓库中可以用多维数据库方式进行存储。主题的划分中,必须保证每一个主题的独立性。1.2数据仓库的发展与展望2.数据集成性根据决策分析的要求,将分散于各处的源数据进行抽取、筛选、清理、综合等工作,最终集成到数据仓库中。3.数据的时变性数据应该随着时间的推移而发生变化。不断地生成主题的新快照4.数据的非易失性数据不进行更新处理1.2数据仓库的发展与展望5.数据的集合性按照主题,以多维数据库方式进行存储的多维模式、以关系数据库方式进行存储的关系模式或以两者相结合的方式进行存储的混合模式6.支持决策作用1.2数据仓库的发展与展望1.2.3数据仓库的发展1.基于关系对象数据库的数据仓库2.网络的影响3.操作型动态数据仓库4.Web应用中的多智体技术1.3数据仓库的体系结构1.3.1数据仓库的概念结构数据源、数据准备区、数据仓库数据库、数据集市/知识挖掘库以及各种管理工具和应用工具(图1.2)。1.3数据仓库的体系结构数据源业务系统外部数据源数据准备区数据仓库数据库应用工具管理工具数据集市/知识挖掘库应用工具数据集市/知识挖掘库图1.2数据仓库的概念结构1.3数据仓库的体系结构1.3.2虚拟数据仓库结构不需要从业务系统中抽取数据到新的数据存储位置——数据仓库中用户数据仓库查询管理服务器业务系统数据库1.3数据仓库的体系结构1.3.3数据集市结构用户数据仓库查询管理服务器业务系统数据库主题1主题21.3数据仓库的体系结构1.3.4单一数据仓库结构用户数据仓库查询管理服务器业务系统数据库数据仓库数据集市1数据集市21.3数据仓库的体系结构1.3.5分布式数据仓库结构站点A站点B站点C站点D局部数据仓库全局数据仓库局部数据仓库局部数据仓库局部数据仓库总部1.4数据仓库的参照结构数据仓库的基本功能包含:数据抽取,数据筛选、清理,清理后的数据加载,设立数据集市,完成数据仓库的查询、决策分析和知识的挖掘等操作。数据仓库的管理层分成数据管理与元数据管理两部分,主要负责对数据仓库中的数据抽取、清理、加载、更新等操作进行管理。数据仓库环境支持层包含数据传输和数据仓库基础两部分。数据仓库基本功能层数据仓库管理层数据仓库环境支持层1.4数据仓库的参照结构1.4.1数据仓库基本功能层1.数据仓库的数据源业务数据、历史数据、办公数据、Web数据、外部数据以及数据源元数据数据源数据准备区数据仓库结构数据集市/知识挖掘库存取与使用1.4数据仓库的参照结构2.数据准备区功能结构数据准备区标准化元数据抽取与创建过滤与匹配净化标明时间戳的数据源确认数据质量1.4数据仓库的参照结构3.数据仓库功能结构数据重整数据仓库创建元数据管理集成与分解建模元数据浏览与导航概括与聚集概括预算与推导聚集元数据创建翻译与格式化调整与确认转换与映像建立结构化查询创建词汇表1.4数据仓库的参照结构4.数据集市/知识挖掘库结构求精与重整数据集市/知识挖掘库创建元数据管理过滤与匹配建立模型元数据浏览与导航集成与分割概括概括与聚集聚集元数据的抽取与创建预测与推导调整与确认标明时间维的数据源建立结构化查询创建词汇表1.4数据仓库的参照结构5.数据仓库的数据存取与使用结构数据仓库存取与检索数据仓库分析与报告元数据管理数据仓库直接存取报表工具元数据管理与报表数据集市存取分析工具数据集市重整分析建模工具元数据抽取与创建转换为多维结构数据挖掘工具创建局部存储图形工具1.4数据仓库的参照结构1.4.2数据仓库的管理层1.数据仓库的数据管理层数据抽取与新数据需求与查询管理数据加载、存储、刷新和更新系统安全性与用户授权管理系统数据归档、恢复及净化系统1.4数据仓库的参照结构2.数据仓库的元数据管理层数据仓库、数据集市和词汇表管理元数据抽取、创建、存储和更新管理预定义的查询、报表和索引管理刷新与复制管理登录、归档、恢复与净化管理1.4数据仓库的参照结构1.4.3数据仓库的环境支持层1)数据仓库的数据传输层数据传输和传输网络客户/服务器代理和中间件复制系统安全和保障系统1.4数据仓库的参照结构2)数据仓库的基础层系统管理工作流程管理存储系统处理系统1.5数据挖掘技术概述1.5.1数据挖掘的发展发展原因主要有:超大规模数据库的出现、先进的计算机技术、经营管理的实际需要和数据的精深计算能力1.5数据挖掘技术概述1.5.2数据挖掘的定义1.数据挖掘的技术定义数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际数据中,提取隐含在其中的、人们所不知道的、但又是潜在有用的信息和知识的过程。2.数据挖掘的商业定义一种崭新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转化、分析和模式化处理,从中提取辅助商业决策的关键知识1.5数据挖掘技术概述传统数据分析工具(DSS/EIS)数据挖掘工具工具特点回顾型的、验证型的预测型的、发现型的分析重点已经发生了什么预测未来的情况、解释发生的原因分析目的从最近的销售文件中列出最大客户锁定未来的可能客户,以减少未来的销售成本数据集大小数据维、维中属性数、维中数据均是少量的数据维、维中属性数、维中数据均是庞大的启动方式企业管理人员、系统分析员、管理顾问启动与控制数据与系统启动,少量的人员指导技术状况成熟统计分析工具已成熟,其他工具正在发展中1.6数据挖掘技术与工具1.6.1常用数据挖掘技术1.传统分析类线性分析和非线性分析、回归分析、逻辑回归分析、单变量分析、多变量分析、时间序列分析、最近邻算法和聚类分析等技术。2.知识发现类人工神经网络、决策树、遗传算法、粗糙集、规则发现、关联顺序等。3.数据挖掘技术的发展文本数据挖掘、Web数据挖掘、可视化系统、空间数据挖掘和分布式数据挖掘技术等。1.6数据挖掘技术与工具1.6.2常用数据挖掘工具1.按使用方式分类的数据挖掘工具决策方案生成工具、商业分析工具和研究分析工具三大类。2.按数据挖掘技术分类的数据挖掘工具基于神经网络的工具、基于规则和决策树的工具、基于模糊逻辑的工具和综合性数据挖掘工具等。3.按应用范围分类的数据挖掘工具专用型数据挖掘工具和通用型数据挖掘工具。1.6数据挖掘技术与工具1.6.3数据挖掘工具的评价标准1.模式种类的数量2.解决复杂问题的能力3.操作性能4.数据获取能力5.挖掘结果的输出6.噪声数据的处理及挖掘工具的鲁棒性1.6数据挖掘技术与工具1.6.4常用数据挖掘工具选择从工具的实用性和技术性方面进行考察1.7数据挖掘的应用1.7.1数据挖掘与数据仓库大多数数据挖掘工具需要在集成的、一致的、经过清理的数据上进行挖掘。在数据仓库的构造过程中已经围绕数据仓库组建了包括:数据存取、数据集成、数据合并、异种数据库的转换、ODBC/OLEDB的连接、Web访问和服务工具以及报表与OLAP分析工具等全面的数据处理和数据分析基础设施。数据仓库中的OLAP完全可以为数据挖掘提供有关的数据操作支持数据挖掘与数据仓库的应用已经紧密地捆绑在一起1.7数据挖掘的应用1.7.2数据挖掘过程数据挖掘过程一般需要经历:确定挖掘对象、准备数据、建立模型、数据挖掘、结果分析与知识应用这样几个阶段。1.7数据挖掘的应用确定挖掘对象|准备数据|模型建立|数据挖掘|结果分析|知识应用应用方案知识商业模式预处理数据目标数据集成数据源数据业务对象业务分析人员|数据管理人员|数据分析人员|业务分析人员1.7数据挖掘的应用1.7.3数据挖掘的用户业务分析人员、数据分析人员和数据管理人员。