第九章电子政务中的数据挖掘•电子政务作为基于一种网络,符合internet标准,而面向政府机关、企业以及社会公众的信息服务和信息处理系统,信息的获取、利用和开发是必须解决的问题。•这种现状无法适应电子政务对高质量的网络信息的需求,网络信息中的数据挖掘技术应运而生。第一节数据仓库•一、数据仓库的概念和产生背景•从计算机应用初期的电子数据处理到今天的执行信息系统、决策支持系统、电子政务,都始终伴随着对数据仓库的探求。•政府的高层管理者还需要使用数据进行各种复杂分析,以支持决策。•数据仓库是支持管理决策过程的、面向主题的、集成的、与时间有关的持久的数据集合。二、数据仓库的基本特性与体系结构•1、数据仓库具有以下几个基本特性:•1)数据仓库是面向主题的•2)数据仓库是集成数据的•3)数据仓库在一定时间周期内保持稳定性•4)数据仓库比较强调时间序列性•2、作为一个系统,数据仓库至少应包括3个基本的功能部分:•1)数据获取•2)数据存储与管理•3)信息访问•3、对数据仓库的基本体系结构进行细分,一个数据仓库一般由7个主要组成部分:•1)数据源•2)数据抽取、转换和装载工具•3)数据建摸工具•4)核心仓库•5)数据仓库的目标数据库•6)前端数据访问和分析工具•7)数据仓库管理工具三、数据仓库数据模型的设计•数据仓库是从传统的数据文件中经过处理后得到的,使用过程中,必须将数据仓库与传统的数据库中的数据相分离,为了获得数据仓库中的数据,必须进行数据仓库的设计。•一般来说,对于数据仓库中数据模型设计,采取面向主题的自顶向下的设计方法,或者说使用的是面向对象的设计方法。•数据仓库设计与传统的设计方法一样,要经过概念模型设计、逻辑模型设计和物理模型设计三个阶段。对于面向主题的数据仓库设计来说,分别对应于信息包图的设计、星型图模型设计和物理数据模型设计。•1、概念模型设计—信息包图•概念模型设计也就是通常所说的需求分析。在需求分析阶段确定操作数据、数据源以及一些附加数据•利用自上而下的设计方法设计一个立方体的步骤为:•1)确定模型中需要抓住的电子政务运行过程•2)确定需要捕获的植•3)确定数据的粒度•信息包图拥有三个重要对象:指标、纬度和类别•利用信息包图设计概念模型需要三大内容:•1)确定指标•2)确定纬度•3)确定类别•2、逻辑模型设计——星型图模型•在传统的数据逻辑模型设计中,根据需求分析阶段获得的数据流程图,利用实体联系方法将概念模型转换为实体联系模型。•星型图拥有三个逻辑实体:纬度、指标和类别。•位于星型图中心的实体是指标实体•对应于信息包图中的指标对象,是用户最关心的基本实体和查询活动的中心,为拥护的商务活动提供数据•位于星型图星角上的实体是纬度实体,它对应于信息包图中的纬度对象,其作用是限制用户的查询结果。•另外一个实体是详细类别实体,它对应于信息包图中的类别对象。•3、物理模型设计——星型图转换为数据模型第二节数据挖掘技术•一、概述•数据挖掘就是从大型数据仓库或数据仓库的数据中提取人们感兴趣的知识,这些知识是隐含的、事先未知的潜在的有用的信息。•1、数据挖掘的主要任务•1)总结规则挖掘•2)关联规则挖掘•3)分类规则挖掘•4)聚类规则挖掘•2、数据挖掘过程•数据挖掘一般由三个主要的阶段组成:数据准备、挖掘操作、结果表达和解释。•数据准备阶段包括数据整合、数据筛选和预处理三个阶段。•3、实际数据挖掘操作的要点•1)首先决定如何产生假设•2)选择合适的工具•3)挖掘知识的操作•4)证实发现的知识•5)结果表述和解释•4、数据挖掘过程中采用的挖掘技术•1)统计分析方法•2)决策树分析方法•3)遗传算法•4)人工神经网络•5)Rough集•6)最邻近技术•7)归纳规则•8)可视化技术二、数据挖掘技术•1、关联规则的数据挖掘•2、转移规则的数据挖掘•3、分类方法的数据挖掘•三、数据挖掘的功能•1、自动预测趋势和行为•2、关联分析•3、聚类•4、概念描述•5、变差检测•四、数据挖掘工具•1、基于人工神经网络的工具•2、基于规则和决策树的工具•3、基于模糊逻辑的工具•4、综合多种方法的工具第三节网络数据挖掘•一、网络数据挖掘与传统的数据挖掘•一般来说Internet的数据挖掘和传统的数据挖掘相比,有以下特点:•1、数据源是无序的、非结构化的•2、数据源之间可能存在冗余、不一致甚至矛盾•3、数据源具有很强的动态性•4、数据具有多样性•5、用户目标的模糊性•二、网络数据挖掘的固定流程•关于网络数据挖掘技术,可以把网络数据挖掘分为4个步骤:•1、确定业务对象•2、数据准备•网络数据挖掘的数据来自两个方面:一方面是客户的背景信息,主要来源于客户登记表;另外一部分数据主要来自于浏览者的点击流,人们主要用这部分数据考察客户的行为表现•3、网络数据挖掘•4、结果分析•三、网络数据挖掘形式•根据不同的网络数据挖掘对象,人们将网络数据挖掘内容分为:•网络内容挖掘、网络结构挖掘以及网络用法挖掘•四、网络数据挖掘专业人员•由于网络数据的若干工作需要人工来完成,并且数据挖掘过程是分布实现的,因此不同步骤的工作具有不同专长的人员操作。大体可以将他们分为三类•1、业务分析人员•2、数据分析人员•3、数据管理人员•4、数据分析人员第四节电子政务的数据挖掘•一、数据挖掘在电子政务的应用•第一是政府的电子贸易在服务器以及浏览器端日志记录的数据中隐藏着模式信息•第二、网站设计通过对网站内容的数据挖掘,主要是针对文本内容的数据挖掘•第三、搜索引擎网络数据挖掘是目前网络信息检索发展的一个关键•二、实施数据挖掘应考虑的问题