浙江大学控制科学与工程学系硕士学位论文电信数据挖掘的数据质量评估技术研究姓名:王晓华申请学位级别:硕士专业:控制理论与控制工程指导教师:褚健;苏宏业20100101电信数据挖掘的数据质量评估技术研究作者:王晓华学位授予单位:浙江大学控制科学与工程学系相似文献(6条)1.学位论文曾记基于因子分析的数据质量评估2009近年来,我国金融业、保险业、电信行业纷纷投入大量的精力、财力着手进行数据仓库项目的建设,它使人们从一个全新的角度认识到信息系统的重要性,也使人们发现了历史数据的价值。从此数据不仅仅用于检索,还可以用来分析整个企业(或组织)的运行状态以及未来的发展趋势,为决策和管理提供支持。但同时也发现一致、清晰、准确且可访问性、可用性较好的数据是数据仓库系统的基础。如何在数据仓库体系结构基础上进行集成和扩充,形成与数据仓库自身体系相适应的数据质量检测控制体系成为急需解决的问题。作为集团成员之一的湖北电信,决定以Teradada数据仓库平台为基础,并辅以TeradataWarehouseMiner数据挖掘解决方案,建立一套省级经营分析和决策支持系统,通过集中、稳定地整合全省1,800多万用户的数据信息,基于Teradata构建起以客户为核心的统一企业数据视图,以逐步实现由外延式发展向内涵式发展的转变。br 本研究分析了目前的主要数据质量评估方法,指出了相对于业务系统而言,数据仓库环境下的数据质量评估的不同特点,即数据仓库中数据质量的时变特征、数据仓库中数据质量的放大效应及数据仓库中数据质量的用户角色特征,提出了基于因子分析数据质量评估模型。使用数据仓库中出现的数据质量问题作为初始变量,使用因子分析的方法抽象出数据质量评估指标,以及这些评估指标对数据质量的贡献率。将数据质量评估指标与数据仓库中的角色对应,利用因子分析的结果,更好地指导各种角色抓住主要矛盾,规范操作流程,从而保证数据仓库的数据质量。建立了数据质量监测和评估系统(DQCAS),以帮助数据仓库各角色监测和发现数据质量问题,提升企业级数据仓库的数据质量。2.学位论文宇然数据挖掘技术研究以及在档案计算机管理系统中的应用2002数据挖掘是指从数据中发现隐含在其中知识的一种实践过程,作为一种技术它已应用在很多领域,而在档案信息管理领域中它还很陌生.档案是人们在各种实践活动中形成的信息记录.在中国档案界十余年的自动化管理中目前已形成大量的数据,这些数据由于不能被充分利用,造成了大量人力、物力、资源的浪费.针对这种情况,迫切需要利用数据挖掘技术将档案与利用者之间、档案与各种实践活动之间以及档案之间的关系揭示出来,从而在更深层次上发挥这些档案数据的信息作用.该文评述了档案自动化管理现状和数据挖掘技术的发展状况,从数据清洗方法、数据挖掘算法、数据仓库的建立等方面论述了如何将数据挖掘技术与档案工作相结合的具体思路,并提出了一个数据挖掘系统的设计思想.文章首先,针对档案数据的现状,提出了应对档案数据进行预处理工作,包括数据质量评估、数据清理、数据变换和归约等过程;其次,在具体实现数据挖掘过程中,该文结合档案数据的特点探讨了概念描述、关联规则、分类等三种常见挖掘形式的实现方法,提出了具体的实现算法和程序设计框图,并论述了各种算法在档案工作中的应用范围及前景;第三,在上述基础上,又论述数据仓库在档案数据挖掘中的重要性并提出了实现一个档案数据仓库的方法;最后,从处理数据的多样性、算法的多样性、挖掘结果的多样性、数据预处理可视化、挖掘对象描述的可视化、挖掘过程可视化、结果显示可视化、用户需求的描述及问题定义等几方面讨论了实现一个档案数据挖掘系统的几个重点问题.全文以探讨如何将数据挖掘技术引入到具体的档案工作实践中为核心.3.学位论文何晓峰电力系统数据仓库构建及数据挖掘方法的研究2007当前,我国的电力行业信息化建设正在大力推进,并以共享与开发利用信息资源为重点。数据仓库是信息管理和分析型应用的有效平台,可以更有效地为分析决策支持系统服务,提高其系统的分析效率并增强处理复杂查询能力。数据挖掘技术是从大量数据中提取及挖掘隐藏、潜在和有用的知识和信息的方法,为决策分析提供知识和规律。数据仓库与数据挖掘技术的应用是目前实现电力企业各类信息资源共享与综合利用开发的重要途径。为此,本文针对电力系统数据仓库构建及数据挖掘方法进行了科学性地探索,主要研究工作及成果如下:1.在分析电力系统数据仓库需求、结构及特点的基础上,提出了一种增强型的电力系统数据仓库平台体系结构,该平台主要由信息一体化节点、实时数据处理中心、主动数据仓库和系统管理工具等组成,实现了从三个方面对数据仓库的增强:以自开发的通用ETL工具作为信息一体化节点,增强了数据抽取和转换能力;建立实时数据处理中心实现实时数据的缓冲与交换,增强了数据仓库的实时性能;采用基于事件触发的主动数据仓库技术增强了对突发事件捕获的能力,使电力系统数据仓库不仅支持长时间的战略决策,还支持短时间的战术决策,满足决策人员的不同需要。该数据仓库平台的性能在已投入海丰实际电网运行的自开发SCIiT2008电网调度自动化系统中得到了测试。增强型数据仓库平台有效地提高了信息资源的实时共享能力以及信息特征的挖掘与综合利用开发能力,实现了更好地支持分析决策系统。2.分析介绍了电力系统数据仓库设计步骤及主题确定。提出了一种通用的基于CIM的电力系统数据仓库维度建模方法,以及设计评估的5个基本标准,并以故障分析为实例介绍了模型及评估过程。提出了电力系统数据仓库变粒度存储策略,实现了在时间维上对数据集的滚动压缩,防止了数据随时间推移呈线性增长。电力负荷预测多维数据模型建立的实验表明:该策略节省了存储空间,提高了分析查询的响应速度。3.分析介绍了对电力系统数据仓库安全的基本概念及安全控制模型。基于系统安全工程能力成熟度模型(SSE-CMM),提出了电力系统数据仓库安全评估的模糊综合评估模型及方法,其权重系统的确定采用了层次分析法(AHP),并以算例进行了演算。分析了数据仓库质量的定义及数据错误的来源,提出了数据仓库数据质量评价指标体系。同样基于模糊综合评估方法,提出了实现电力系统数据仓库数据质量评估的模型和方法,也用算例进行了演算。4.提出了增强型分类数据挖掘方法--基于Adaboost方法的支持向量机分类算法。该方法引入了Adaboost,将弱分类器支持向量机提升为强分类性能的增强型支持向量机,大大提高了分类效果以及增强了分类的智能性和容错性。电网故障诊断的应用仿真研究表明:模型的分类能力大大提高,并具有很强的泛化能力。5.基于独立成份分析(ICA)与支持向量回归(SVR)提出了数据挖掘与预测整合方法。该方法利用了独立成份分析具有从未知来源的混合信号中分离出原始信号的能力,以挖掘隐藏在预测变量内的干扰;使用了支持向量回归构建预测模型;并采用了粒子群优化算法(PSO)对模型参数进行优化。在负荷预测中的应用研究表明:该方法的预测精度和速度优于直接使用SVR的预测方法。6.提出了一种粒子群优化算法(PSO)与模糊C均值算法(FCM)有机结合的粒子群优化模糊聚类算法。该算法用PSO优化过程代替FCM中基于梯度下降的迭代过程,充分利用PSO具有全局寻优、快速收敛的特点,使算法具有很强的全局搜索能力,有效地避免了FCM易陷入局部极小的缺陷;同时也降低了FCM对初始值的敏感度。还通过核方法,将低维特征空间的样本通过核函数映射到高维特征空间,增强了特征的优化,使特征在高维空间更易聚类。电力系统负荷样本聚类的应用仿真研究表明:与单纯FCM法相比,该算法聚类更准确,效果更佳。4.学位论文韩建民微数据发布中隐私保护匿名技术研究2008微数据是指与个人、公司、社团等个体相关的数据,这些数据对趋势分析、疾病研究、市场分析等都具有重要的意义。因此,很多组织都在收集或发布大量的微数据。但是,微数据的发布会对数据中个体的隐私构成一定的威胁。因此,如何保护微数据发布中的个体隐私,已成为数据库和信息安全领域亟待解决的问题。在以数据挖掘为目的的微数据发布中,匿名技术已成为保护个体隐私的重要手段,其核心思想是:首先删除微数据中的显式标识符,使攻击者无法通过微数据本身识别出敏感信息所属的具体个体。然后,依据一定的约束,将微数据基于准标识符划分为若干个等价类,并将每个等价类中各元组在准标识符上的值都变换为相同的值,使攻击者无法通过与外表链接重新标识出敏感信息所属的具体个体,从而达到保护个体隐私的目的。基于匿名技术的隐私保护是以一定的信息损失为代价的。因此,匿名技术的研究目标就是:在保护个体隐私的同时,如何最小化信息损失,即最大程度地保留匿名数据的可用性,使数据分析者从匿名数据中挖掘的知识与从原始数据中挖掘的知识一致。κ—匿名模型和敏感属性多样性模型是实现基于匿名技术的隐私保护的主要方法。近年来,该方面的研究已成为数据挖掘和信息安全领域一个活跃的研究方向。本文研究微数据发布中隐私保护的匿名技术,主要内容包括:泛化/隐匿技术,微聚集技术,泛化与微聚集的混合技术,面向数值型敏感属性的多样性模型,敏感值个性化保护模型等,主要的研究成果如下:(1)提出一个基于泛化的高效κ—匿名化算法—c—modes—KACA算法,提高了KACA算法在κ—匿名化分类型大数据集的效率。该算法结合c—modes算法的高效性和KACA算法的高数据可用性,首先利用c—modes算法高效地将大数据集划分为若干个大类,再利用KACA算法将大于2κ-1的类划分成大小在[κ,2κ-1]之间的类。实验表明,c—modes—KACA算法相对于KACA算法在信息损失量差别不大的情况下,大大提高了处理效率。(2)提出多变量免疫克隆选择微聚集算法(ICSMA)和面向微聚集技术的匿名数据质量评估模型(EM4ADOM)。ICSMA可以在全局解空间中搜索全局最优解。EM4ADOM可以更科学地评估匿名数据的质量。实验表明,相对于MDAV算法,ICSMA所产生的匿名数据信息损失少、泄露风险低。EM4ADOM模型则可以从多角度评估微聚集算法所产生的匿名数据的质量。(3)提出一种面向混合型数据的混合κ—匿名技术。该技术的基本思想是:对于混合型数据,我们采用欧氏距离来度量数值型属性部分的距离,采用层次距离来度量分类型属性部分的距离,并将这两种距离相结合来度量混合型数据的整体距离。然后,将数值型数据的均值向量与分类型数据的最近公共泛化结合作为类质心,并使用该类质心替代对应类中所有元组在准标识符上的值,以实现κ-匿名。实验表明,混合κ-匿名技术能有效地解决混合型数据的κ-匿名化问题。(4)提出面向数值型敏感属性的分级多样性模型,并基于该模型,设计了3个算法:l-Incognito,l-V-MDAV和l-MDAV。l-V-MDAV算法和l-MDAV算法分别是V-MDAV算法和MDAV算法的改进。实验表明,相对于敏感属性未分级的l-Incognito算法,敏感属性分级的l-Incognito算法能够生成多样度更高的匿名表,因此,可以更好地抵制同质性攻击和背景知识攻击。相对于V-MDAV算法和MDAV算法,l-V-MDAV算法和l-MDAV算法能以近似的时间代价和信息损失获得安全性更高的匿名数据。(5)提出完全(α,κ)-匿名模型,实现了面向敏感属性值的个性化隐私保护,并基于聚类思想,提出一个(α,κ)-聚类算法。实验表明,完全(α,κ)-匿名模型可以有效地实现敏感属性值的个性化保护。5.期刊论文肖兵.李云川医院信息系统的数据质量管理-重庆医学2008,37(21)目的对基于医院信息系统提供的各类业务数据进行梳理,以期在数据产生的各个环节强化数据的质量控制,以保障数据二次利用时结论准确无误.方法结合本院具体情况,在提高思想认识、规范录入时效性和统计口径、规范字典建立的完整性和准确性、数据质量评估等方面进行探索.结果初步建立全员抓数据质量的思想意识和数据质量管理体系.结论医院管理人员和各职能部门对此项工作高度重视,多部门、各类技术人员协作配合是保障数据质量的关键.6.学位论文杨田流程工业过程数据的多