基于OLAM的可视化数据挖掘系统结构研究

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

基于OLAM的可视化数据挖掘系统结构研究刘绪崇雷卫军邓苏2003-11-1010:55:02一、引言一旦选定任务后,挖掘过程就自动地完成,不需要用户过多的参与,是一种“暗箱”操作,因而其挖掘出的结果是否正确得不到保证。对于非专业人员来说挖掘出的结果信息复杂难以理解;随着数据量的递增和数据信息的复杂化和多元化,传统的数据挖掘系统至少有两大弊病:如果将挖掘出的中间结果或最终结果以人们容易理解的图形、图表等直观的表现方式来表示,即用可视化的数据挖掘技术可以解决第一种情况,能大大地加深用户对挖掘结果的理解。对于第二种情况,如果让用户参与到数据挖掘过程中,通过设置参数来控制挖掘进度和质量,能够加深用户对复杂数据信息的理解,从而保证数据结果的正确性。OLAP(在线分析处理)和DM(数据挖掘)都是建立在数据仓库上的分析工具,在具体的应用中各有侧重:OLAP分析虽然可给用户提供在不同角度、不同抽象级别的视图,但是由于事先对用户需求的了解可能不十分全面深入,视图中缺乏所应包含的维度,从不同的视图得到的结果可能并不相同,容易产生错误引导,因此用户需要做大量的工作才能得出正确的结果,但是仍然可能遗漏数据间重要的模式和联系,因此很难发现数据中隐含的深层次的信息;而DM能够发现隐藏在数据间的有用的信息,但在选定挖掘算法和任务后,就自动执行。因而,OLAP和DM这两种工具本身就具有互补性,这为它们的结合OLAM((On-LineAnalyticalMining)提供可能,只有这样,在决策分析中它们才能发挥更好的作用。针对上述两种情况,提出了基于OLAM的可视化数据挖掘系统,它结合了可视化、数据挖掘和OLAM技术。在该系统中,OLAP与DM做到了真正地有机结合,用户参与到整个挖掘过程中,彻底改变以前“黑箱”挖掘的局面。二、系统的总体要求一个基于OLAM的可视化挖掘系统应是一个集数据探究和浏览于一身,且共享数据展现部件的系统,真正地做到OLAP与DM的有机结合,从而提高了数据挖掘的质量。它与一般的数据挖掘系统不同,利用OLAM模型沿着多个维进行挖掘,并以智能的方式与用户进行交互,可以在多维数据库的不同部位和不同的抽象级别交互地执行挖掘,最终以直观的形式输出结果。主要有以下优点:○联机选择数据挖掘功能。对用户来说,常常不知道挖掘什么样的知识,但通过该系统中的数据挖掘引擎,用户可以灵活选择所需的数据功能,并动态交换数据挖掘任务。○交互式探索性的数据分析。用户常希望灵活地遍历数据库,选择任一部分的相关数据,在不同的抽象级别上分析,并以不同的形式表示出来。○增加可视化工具包。通常,数据挖掘系统挖掘出的知识,比较复杂,不直观且难以理解。对用户来说,却总是希望以直观的、容易理解的图形方式表示挖掘出的知识。○可以在任何粒度上都进行挖掘。由于OLAP操作能对数据立方体进行切片、切块、钻取等操作,而OLAM是建立在OLAP和多维数据库基础之上,因而能方便地对用户想要的任何一部分数据或不同抽象级别的数据进行挖掘。三、系统原型结构充分地考虑基于OLAM可视化数据挖掘系统的联机性、交互性和可视化展现,并结合普通数据挖掘系统的具体实现,基于OLAM可视化数据挖掘系统的模型结构如图1所示。图1基于OLAM可视化数据挖掘系统的模型结构在图1中,数据库或数据仓库是数据挖掘的数据源,存放着各种各样的数据,既有历史数据,也有实时数据,这些数据复杂难以理解,可能存在大量的冗余。为了便于以后各步骤易于操作,需要对数据仓库中的数据进行清洗、集成和筛选,构成数据立方体,元数据主要用于指导对数据立方体的存取和查询。从图1可知,该数据挖掘系统主要由数据挖掘部件、数据转换部件、过滤部件和展现部件组成,下面将分别讨论。3.1数据挖掘部件数据挖掘部件主要由OLAP引擎、OLAM引擎和用户图形接口三部分组成,完成对数据立方体的分析挖掘过程,并将挖掘出的信息输出到挖掘结果文件中保存,作为可视化展现的数据源。(1)OLAP引擎:是数据挖掘部件中一个重要的部件,其主要任务是计算用户的OLAP指令、对数据立方体中的数据进行快速分析处理和及时通过用户接口将分析出的信息返回给用户。它具有快速响应性、可分析性、多维性和信息性等特点。OLAP除了具有钻取、切片、旋转等操作以外,还有创建数据立方体的能力。(2)OLAM引擎:OLAM引擎是建立在OLAP技术基础之上的,是在OLAP技术中加入了数据挖掘过程。借助于OLAP对数据立方体进行切片、切块和钻取操作,OLAM可以直接访问存储在底层数据库里的数据,能对任何它想要的数据进行挖掘。OLAM引擎在数据立方体上执行的分析挖掘与OLAP引擎执行的在线分析处理的方式是相同的,但它可以执行多项数据挖掘任务,如概念描述、关联挖掘、分类、预测、聚类和时间序列分析等,通常是由多个集成的数据挖掘模型组成的,比OLAP要复杂得多,要求有比OLAP更强大的数据立方体构建和存取工具。(3)用户接口:是用户与OLAM引擎和OLAP引擎之间相互通讯的接口,主要完成向OLAM引擎和OLAP引擎发送指令、选择挖掘算法,以及接收从OLAM引擎和OLAP引擎返回的挖掘信息,然后负责将其送到挖掘结果文件中保存。通过用户接口,用户可指定相应的参数,选择挖掘算法,以加快挖掘过程。在数据挖掘部件中,允许多个OLAM引擎和OLAP引擎同时存在,允许多个不同的数据挖掘任务同时进行。因而用户在算法列表中选择算法时,可以同时选择多个挖掘任务,分别交给不同的OLAM和OLAP引擎去完成,这样大大地提高数据挖掘的效率。3.2数据转换部件数据库或数据仓库中的数据经过数据挖掘部件得到的结果信息往往结构还是比较复杂,对用户来说,同样也是难以理解的。数据转换部件主要负责将这些数据转换成易于理解的直观的基本图形。从挖掘结果文件到图形文件,一般需要进行预处理和数据转换操作。(1)数据转换预处理由于挖掘结果文件中的数据可能还比较多且复杂,为了减少数据转换的工作量,需要进行一些预处理工作。预处理方法比较多,如数据压缩、数据离散、聚类分析、标准化处理和概化处理等方法,依据不同的数据类型和不同的需要,可以选择不同的预处理方法。(2)数据转换挖掘结果数据经过数据转换预处理后,就可通过数据转换方法将其变换成图形数据。数据转换方法放在数据转换函数库中,用户可以根据具体的需要选择数据转换方法。当然在该系统中允许用户向转换函数库添加、删除转换函数,这样就可以不断的丰富和更新转换函数库。对不同类型的数据,应使用不同的转换方法,即使是同一类型的数据,在不同的应用中,使用的转换方法也可能不同。映射是最常用的数据转换方法,是指将挖掘结果数据的属性分别与X坐标、Y坐标、Z坐标、颜色、亮度、模式等图形数据属性对应起来,从而达到将挖掘结果数据转换成图形数据的目的。需要注意的是,可视化挖掘结果数据的方式不是单一的,因而使用的数据转换方法也是多种多样的。例1,在一个二维平面坐标系中,X轴表示时间,Y轴表示时间的Sin函数或Cos函数,一个很简单的映射如下:例2,对于股票数据而言,假设已选定时间、股票价格、股票名称、涨跌标识作为图形数据的属性,现将其转换为图形属性,时间→X轴(对时间要先进行数据离散化预处理)股票价格→Y轴(必要时要先进行标准化处理)股票名称→Z轴(可先进行概化处理)涨跌标识→颜色(可用颜色表示趋势,绿色表示涨,红色表示跌,黄色表示不变)通常,数据转换中与数字有关的数据属性转换都是用数学表达式作为转换函数,而对于颜色的转换可用面向像素的技术去解决。(3)图形数据图形数据是挖掘结果数据经数据转换方法而得到的,可以看作挖掘结果文件中数据的图形表示,它的属性有X坐标、Y坐标、颜色、模式、大小、方向以及图的形状等。图形数据的简单属性如图2所示。图2图形数据的基本属性实际上,图形数据并不是固定的,可以根据需要动态地改变。图形数据的大小可以随屏幕的尺寸而改变,图形的颜色可任意选取,其填充模式也是多种多样,用户可以从中选择。在显示图形时,图形的方向可以向上,也可以向下,可以向左,也可以向右;其形状就更是千变万化,可以是矩形、三角形、饼图、圆柱、圆锥、线、点等等。3.3过滤部件经过数据转换后得到的图形数据量可能还比较大,不便于在屏幕窗口中显示,还必须经过一个过滤过程,以便在视图区域中显示用户感兴趣数据及其属性。在过滤部件中,可视化过滤器是关键部件,它定义一个基于图形数据的查询,可选择图形数据的属性和指定图形数据的某一部分或一个查询范围。当执行可视化过滤器后,将需要展现的图形数据送到视图区域中。可视化过滤器的结构如图3所示。图3可视过滤器结构示意由图3可知,可视化过滤器主要由过滤规则、范围处理器和属性处理器三部分组成,其中过滤规则中主要存放的是对图形数据过滤时应遵守的规则,这些规则允许用户添加、修改和删除。图形数据通过过滤规则后,就到达过滤器的核心部件:范围处理器和属性处理器,其中范围处理器主要负责对输入的属性值范围进行处理,而属性处理器主要负责对鼠标、键盘的所选择的图形数据属性进行处理。当然属性处理器和范围处理器可以交互地进行过滤。如果用户对过滤效果满意,就可将过滤过的数据送到视图区,否则需要重新进行过滤过程。在整个挖掘系统中,数据过滤是必不可少的,能够确定图形文件中哪些数据最能代表数据的特征,哪些是用户最所需的,精炼了数据挖掘的结果。3.4展现部件展现过程是该数据挖掘系统的最后一个过程,是指从视图区中选择图形元素显示到屏幕窗口上,允许用户在展现方法库中选取相应的展现方法,这样,通过数据挖掘系统挖掘出的信息就能最终在屏幕窗口中以直观的方式展现给用户。展现方法库中主要存放的是一些展现方法,如二维笛卡尔坐标系、三维笛卡尔坐标系、二维墙面坐标系、三维墙面坐标系和一些特殊效果处理,如光照、雾化、融合、纹理等,还有可视化工具,如图表、曲线、决策树、规则图、boxplot图、直方图、饼图、高低区域图等等。在整个系统中,展现部分主要负责给用户传递数据挖掘的结果信息,对于非专业用户来说,是否理解这些信息,关键还是在于此。因此,展现部件在整个系统中充当一个很重要角色。四、结束语本文中讨论的基于OLAM的可视化数据挖掘系统是相对于传统的数据挖掘系统提出来的,是数据挖掘技术的具体应用。在该系统中强调了联机性、高性能、与用户的交互性以及系统的灵活性等特点。总之,该系统适用范围比较广,挖掘精度较高,能用于证券、银行、电信、保险等领域的数据挖掘,甚至还可以用于多媒体数据和文本数据的挖掘。

1 / 6
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功