数据仓库与数据挖掘技术

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

第一章商务智能基本概念一.数据仓库的发展与展望作为商务智能三大核心技术之一的数据仓库发源于处理日常业务的数据库。传统数据库在日常的业务处理中获得了巨大的成功,但是对管理人员的决策分析要求却无法满足。因为,管理人员常常希望能够通过对组织中的大量数据进行分析,了解业务的发展趋势。而传统数据库只保留了当前的业务处理信息,缺乏决策分析所需要的大量历史信息。为满足管理人员的决策分析需要,在数据库的基础上就产生了适应决策分析的数据环境-----数据仓库(DW,DataWarehouse)。1.数据仓库----一种能够将日常业务处理中所收集到的各种数据转变为具有商业价值信息的技术2.而传统数据库系统无法承担起这一责任。因为传统数据库的处理方式与决策分析中的数据需求不相称,导致传统数据库无法支持决策分析活动。这些不相称性主要表现在决策处理中的系统响应问题、决策数据需求的问题和决策数据的操作问题系统响应问题在传统的事务处理系统中,用户对系统和数据库的要求是数据存取频率要高、操作时间要快。用户的业务处理操作请求往往在很短的时间内就能完成,这就使系统在多用户的情况下,也可以保持较高的系统响应时间。但在决策分析处理中,用户对系统和数据的要求发生了很大的变化。有的决策问题处理请求,可能会导致系统长达数小时的运行。有的决策分析问题的解决,则需要遍历数据库中大部分数据。这些操作必然要消耗大量的系统资源,这是实时处理业务的事务联机处理系统所无法忍受的。据测数据需求的问题在进行决策分析时,需要全面、正确的集成数据,这些集成数据不仅包含企业内部各部门的又关上护具,而且还包含企业外部的、甚至竞争对手的相关数据。但是在传统数据库中,只存储了本部门的事务处理数据,而没有与决策问题有关的集成数据,更没有企业外部数据。(数据的集成操做是有数据仓库处理,不是由决策分析程序处理)。在决策数据的继承中还需要解决数据混乱问题。例如,同一实体的属性在不同的应用系统中,可能有不同的数据类型、不同的字段名称。这样在使用这些数据进行决策之前,必须对这些数据进行分析,确认其真实含义。在决策分析中,系统常常需要从数据库中抽取数据、查找有用的数据,然后将这些数据导入其他文件或数据库中,供用户使用。这些被抽取出来的数据,有可能被其他用户再次抽取。由于这种不加限制数据的连续抽取,使企业的数据控件构成了一个错综复杂的数据“蜘蛛网”,即形成了自然演化体系结构。在这个数据“蜘蛛”网中,有可能两个节点上的数据来自于同一个原始数据库。但是由于数据抽取的时间、抽取方法、抽取级别等方面的差异,可能使这两个节点的数据不一致。这样,在对同一个问题的决策分析中,由于数据的出发基准不同,而可能导致截然相反的结果。也就是说,由于决策分析过程中所形成的自然演化体系,造成了数据可信度的降低,必然导致数据u转化为信息的不可行与不可信,使企业无法将大量宝贵的信息资源转化为企业的核心竞争力。数据的集成还涉及外部数据与非结构化数据的应用问题。决策分析中经常要用到系统外数据,如行业的统计报告,管理咨询公司的市场调查分析数据。这些数据必须经过格式、类型的转换,曾能被决策系统应用。在决策分析系统中要求数据能够进行定期的、及时的更新,数据的更新期可能是一天,也可能是一周,而传统数据库缺乏数据动态更新的能力。为完成事务处理的需要,传统数据库中的数据一般只保留当前的数据。但是对于决策分析而言,历史上的、长期的数据却具有重要的意义。利用历史数据可对未来的发展进行正确的预测,但是传统数据库却无法长期保留大量的历史数据。在决策分析过程中,决策人员往往需要的并不是非常详细的数据,而是一些经过汇总、概要的数据。但在传统数据库中为支持日常的事务处理需要,只保留一些非常详细的数据,这对决策分析十分不利。策数据的操作问题在对数据的操作方式上,决策分析人员则往往希望以专业用户的身份,而不是参数用户的身份对数据进行操作。他们希望能够用各种工具对数据进行多种形式的操作,希望数据操作的结果能以商务智能的方式表达出来。而传统的业务处理系统智能以标准的固定报表方式为用户提供信息,使用户很难理解信息的内涵,无法用于管理决策。由于系统响应、决策数据需求和决策数据操作等问题的影响,使企业无法使用现有的事务处理系统去解决决策分析的需要。因此,决策分析需要一个能够不受传统事务处理的约束,能够高效处理决策分析数据的环境,由此而产色和难过了可以满足这一要求的数据存储和数据组织技术-------数据仓库。数据仓库与数据库的对比表对比内容数据库数据仓库数据内容当前值历史的、存档的、归纳的、计算的数据数据目标面向业务操作程序、重复处理面向主题域、管理决策分析的应用数据特性动态变化、按字段更新静态、不能直接更新、只定时添加数据结构高度结构化、复杂、适合操作计算简单、适合分析使用频率高中到低数据访问量每个事务只访问少量记录有的事务可能要访问大量记录对响应时间的要求以秒为单位计量以秒、分钟、甚至小时为计量单位二.数据仓库的定义与基本特性数据仓库具有这样一些重要的特性:面向主题性、数据的集成性、数据的时变性、数据的非易失性、数据的集合性和支持决策作用。1.面向主题性面向主题性表示了数据仓库中数据组织的基本原则,数据仓库中的所有数据都是围绕着某一主题组织展开的。从信息管理的角度看,主题就是在一个较高的管理层次上对信息系统中的数据按照某一具体的管理对象进行综合、归类所形成的分析对象。从数据组织的角度看,主题就是一些数据集合,这些数据集合对分析对象做了比较完整的、一致的描述,这种描述不仅涉及数据自身,并且还涉及数据之间的联系。2.数据集成性数据仓库的集成性就是指根据决策分析的要求,将分散于各处的元数据进行抽取、筛选、清理、综合等工作,最终集成到数据仓库中。首先要从源数据库中挑选出数据仓库所需要的数据;然后将这些来自不同数据库中的数据按照某一标准进行统一,即将不同数据源中数据的单位、字长与内容按照数据仓库的要求统一起来,消除元数据中字段的同名异义、异名同义现象,这些工作统称为数据的清理;在将元数据加载进数据仓库后,即元数据装入数据仓库后,还需要将数据仓库中的数据进行某种程度的综合,经根据决策分析的需要对这些数据进行概括、聚集处理。3.数据的时变性数据仓库必须能够不断捕捉主题的变化数据,将那些变化的数据追加到数据仓库中去,也就是说在数据仓库中不断生成主题的新快照,以满足决策分析的需要。数据仓库数据的时变性,不仅反映在数据的追加方面,而且还反映在数据的删除上。尽管数据仓库中的数据可以长期保留,但是在数据仓库中的数据存储期限还是有限的,一般保留5-10年,在超过期限以后,也需要删除。数据仓库中数据的时变性还表现在概括数据的变化上。数据仓库中的概括数据是与时间有关的,概括数据需要按照时间进行综合,按照时间进行抽取。因此,在数据仓库中的概括数据必须随着时间的变化而重新进行概括处理。4.数据的非易失性数据仓库中的数据不进行更新处理,而是一旦数据进入数据仓库以后,就会保持一个相当长的时间。数据在追加以后,一般不再修改。数据的非易失性,可以支持不同的用户在不同的时间查询、分析相同的问题时,获得同一结果。避免了以往决策分析中面对同一问题,因为数据的变化而导致结论不同的尴尬。5.数据的集合性目前数据仓库所采用的数据集合方式主要是以多为数据库方式进行存储的多维模式、以关系数据库方式进行存储的关系模式或以两者相结合的方式进行存储的混合模式。6.支持决策作用数据仓库组织的根本目的在于对决策的支持。高层的企业决策者、中层的管理者和基层的业务处理这等不同层次的管理人员均可以利用数据仓库进行决策分析,提高管理决策的质量。企业各级管理人员可以利用数据仓库进行各种管理决策的分析,利用自己所特有的、敏锐的商业洞察力和业务知识从貌似平淡的数据中敏锐地发现众多的上级。数据仓库为管理者利用数据进行管理决策分析提供了极大的便利。三.数据仓库的体系结构数据仓库体系结构建立在其概念结构基础之上,并根据商务智能的不同应用情况可以选择虚拟数据仓库结构、数据集市结构、单一数据仓库结构和分布式数据仓库结构。1.数据仓库的概念结构数据仓库应该包含:数据源、数据准备区、数据仓库数据库、数据集市/知识挖掘库及各种管理工具和应用工具。数据仓库建立以后,首先要从数据源中抽取所需要的数据到数据准备区,在数据准备区中经过数据的净化处理,再加载到数据仓库数据库中,最后在根据用户的需求将数据发布到数据集市/知识挖掘库中。当用户使用数据仓库时,可以通过OLAP等数据仓库的应用工具向数据集市/知识挖掘库或数据仓库进行决策查询分析或知识挖掘。如图2.数据集市结构数据集市结构或称为主题结构的数据仓库是按照主题进行构思所形成的数据仓库,它没有一个独立的数据仓库。系统的数据不存储在统一数据仓库中,每个主题有自己的物理存储区。但是不同的主题数据仓库在设计时采用了统一企业数据模型,这就保证了不同主题数据仓库可以cia用相同的字段结构、编码和关键字,可以保证不同主题数据仓库的联合查询。四.数据仓库的参照结构数据仓库的参照结构由不同的层次组成,这些层次包含了数据仓库的基本功能层、数据仓库的管理层和数据仓库的环境支持层。数据仓库的基本功能层包含:数据抽取,数据筛选、清理,清理后的数据加载,设立数据及时,完成数据仓库的查询、决策分析和知识的挖掘等操作。数据仓库的管理层分成数据管理与元数据管理两部分,主要负责对数据仓库中的数据抽取、清理、加载、更新等操作进行管理。1.数据仓库基本功能层包含数据源、数据准备区数据仓库功能结构、数据集市\知识挖掘库以及数据仓库的数据存取与使用功能部分,如图数据源数据准备区数据仓库数据集市/知识挖掘库数据仓库的数据存取与使用A.数据仓库的数据源包含业务数据、历史数据、办公数据、Web数据、外部数据及数据源元数据,如图业务数据历史数据办公数据Web数据外部数据数据源元数据a.业务数据是指从组织目前正在运行的业务处理系统那里收集到,并保存在业务处理系统数据库中的数据。b.历史数据是指组织在长期的信息处理过程中所积累下来的数据,这些数据一般进行了脱机处理,以磁带或其他脱机存储设施保存,对业务系统的当前运行不起作用。这些数据一般要根据仓库模型和用户的决策分析需求来确定是否加载进数据仓库c.办公数据主要是指组织内部的办公系统数据,这些数据分电子数据和非电子数据两业务系统外部数据源数据准备区数据仓库数据库数据集市/数据挖掘库数据集市/数据挖掘库应用工具应用工具管理工具用户用户种。非电子数据主要指那些文件、通知、会议纪要等公文。办公数据源的数据结构十分复杂,这就给数据仓库的数据抽取、加载增加了很大的难度。有时甚至需要人工处理以后,才能加载到数据仓库。办公数据在数据仓库中常常用于支持对跨部门的决策分析。对于办公数据中非电子数据的抽取和加载首先要利用扫描仪将书面文档转变为电子图像,然后利用可是文字识别软件(OCR)将图像文件转换为文本文件,最后还要创建能够描述和组织文档内部信息的元数据。经过这些处理以后,非电子数据才能加载到数据仓库。d.Web数据是企业通过internet所获得的数据,则和谐数据可以通过企业的电子商务系统获取,也可以通过网络调查获取。Web数据大多是HTML格式,需要将其转换成数据仓库的统一格式后才能家再进数据仓库。e.外部数据是指那些不为企业所操作、所拥有、所控制的数据。这些数据有的是电子形式的,如证券市场的证券数据,或市场咨询部门的研究报告。有的是以电子形式的,如报刊、政府公告等。f.数据源元数据属于元数据管理层范围,在数据仓库哦那广州的所有数据都需要通过元数据管理层来进行管理、控制。源数据的元数据描述了关于源数据的一些说明,包含了源数据的来源,源数据的名称、源数据的定义、源数据的创建时间等对源数据进行管理所需要的信息。源数据的来源说明源数据是从哪一个系统、哪一个历史数据、哪一个办公数据、哪一个Web页上、哪一个外部系统抽取来的。源数据的名称,用以说明源数据现在和过去的名称。源数据的定义,用以说明源数据在数据仓库中的作用、用途及数据类型,长度等基本属性

1 / 25
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功