浅谈大数据时代下数据质量的重要性及提高数据质量的方法

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

数据即未来——浅谈大数据时代下数据质量的重要性及提高数据质量的方法学院:专业:姓名:学号:指导老师:联系方式:数据即未来——浅谈大数据时代下数据质量的重要性及提高数据质量的方法摘要:数据是联系现实世界和虚拟模型重要的桥梁,也是我们探索和预测世界的重要指标。几十年以来,人们都在强调数据质量中正确性的重要性,但是当我们身处大数据时代,数据由仓库变成了海洋,数据质量的含义发生了什么变化?相对应的提高数据质量的方法或手段又有了哪些改变?本文首先解释了传统数据质量的定义,然后给出了大数据时代下数据质量的新定义。同时简要的介绍了传统数据质量提高手段和大数据时代下新的数据质量的提高手段。1.数据质量的定义数据质量在不同的时期有着不同的定义。在几十年前,数据质量就是意味着数据的准确性。确切的说是数据的一致性、正确性、完整性和最小性这4个指标在信息系统中得到的满足程度[1]。国内学者陈远等认为[2]数据质量可以用正确性、准确性、不矛盾性、一致性、完整性和集成性来描述。但是随着信息系统的发展,数据的来源越来越多样化,数据体量越来越大,数据涵盖的面也越来越广,对于数据质量的定义也从狭义走向了广义。准确性不再是衡量数据质量的唯一标准,当数据量增大,数据格式多样,数据适合使用的程度成为了数据质量中更加关键的因素[3]。虽然众多的学者对于数据质量的定义不同,但是在大体上都涵盖了以上的指标。笔者认为在大数据时代下,衡量数据质量的指标中,数据的可读性应该放在首位。在大数据时代背景下,我们不缺少分析大数据的方法,也不缺少分布式计算的硬件,准确性对于大数据而言,单个或少部分不准确的数据在庞大的数据量面前的影响也微乎其微。现今的目标更多追求的是数据分析的效率,所以数据质量中数据的可读性便成为了影响数据质量极其重要的一环。对于格式化和非格式化数据,其不仅仅在存储空间占用大小上,相差甚远,更多消耗的是对于非格式化数据的读取、分析的时间。数据的可读性差,不仅仅造成数据分析时间长,更重要的是在当今庞大的信息系统下,难以满足各个子系统海量数据交互的需求。所以在当今大数据时代的背景下,我们在注重传统的数据质量的指标的同时,更加应该注意数据的可读性。2.数据质量的重要性对于传统的数据质量的定义,如准确性、完整性等,人们认识世界都是通过建立虚拟模型,如定理、公式、法则等,通过采集现实世界数据输入至虚拟模型中,进行预测,之后再与现实世界采集数据对比,不断改进模型,从而达到预测及认识世界的目的。如图1-1所示,在这个过程中,数据是连接现实世界和虚拟世界的桥梁,如果数据质量出现问题,无法真实的反映现实世界的状况,那么建立起来的虚拟模型就会出现较大的偏差,从而预测出有偏差甚至完全相反的结果,这便是在计算机和数学中广为人知的“垃圾进,垃圾出(garbagein,garbageout)”。如果是一个企业对于未来市场的判断,那么这种后果将是及其严重的,传统数据质量的重要性不言而喻。虚拟模型现实世界数据预测图1-1但是在大数据时代下,数据量得到了爆炸式的增长,数据的准确性由于量变而轻易实现,人们更加关心数据分析的效率及数据在各个子系统中周转的速度,数据的可读性便成为了数据质量指标中至关重要的一环。无论是在过去还是现在以及未来,可以预见的是无论数据质量的衡量指标改变了多少,数据质量永远是人们锲而不舍追求的目标。3.提高数据质量的手段3.1传统手段针对传统数据质量的定义,在不同的信息系统中提高数据质量所采取的方法是特定的,但是在大体上提高数据质量的手段主要在数据获取、数据清洗等阶段。在数据获取阶段,所针对的目标主要是为了提高数据的一致性、完整性及正确性,所采取的手段主要针对硬件设备,如:采取更加先进的传感器、传感器布置更加全面、提高传感器数量等。此阶段对于数据质量的提高主要体现在收集的数据量的增加上,这么做的原因是防止因数据量过少而产生的偶然结果对数据分析产生不利的影响。在数据清洗阶段,所针对的目标主要是为了提高数据的最小性和正确性。由于在数据获取阶段,为了保证数据完整性而过多地收集数据,使得数据量增加,影响数据分析效率,所以在数据清洗阶段,提高数据质量的方法主要是针对数据分析所需要的相应的指标,去除无关指标及空值、残缺值等。同时可以利用专家知识或相应的公式、经验、法则等,制定特定的识别模块(如工程APP)[4],达到自动化去除数据中的错值,进一步提高数据质量,减少对数据分析的不利影响。3.2现代手段与传统手段不同,当今的时代对于数据质量的定义发生了变化,所以提高数据质量的方法也发生了变化。在数据获取上,不仅仅增加了数据获取的数量和粒度,更多的是增加了数据获取的维度,如从时域上获取数据的同时也从空域上获取数据,不仅仅有雷达获取的数据,也有卫星获取的数据。在数据清洗上,更加注重数据的最小性,针对特定的分析目的给予特定的数据序列,针对数据质量,此时更加注重其可读性。在大数据时代背景下的数据预处理阶段,提高数据质量主要手段为针对非结构化数据的结构化模型表示与多源多尺度数据的融合。3.2.1非结构化数据的结构化模型表示目前,在非结构化数据的结构化模型表示方面有一些相关研究,主要侧重于文本数据的结构化处理方面,对图像、视频等其他非结构化数据的处理仍有不足;在数据科学与网络科学的结合方面,目前已经有了一些理论研究,虽然还未有实际的应用,但是基础理论已经较为成熟。国内在数据集成方面的研究主要侧重于公共模型构建、元数据模型、语义Web技术等方面,如早期东南大学俞本权研制基于CORBA的Versatile[5],通过OIM数据集成公共模型,和OIQL查询语言,对分布式异构数据源进行集成,实现不同的数据源数据的“即插即用”;复旦大学陈彤兵等人提出了基于元数据模型和数据源能力的,针对分布式自治数据源的联合查询方法[6]。南京航空航天大学王艳敏提出基于本体和WebService的数据集成[7],充分利用了本体和WebService的优点,在一定程度上解决了异构数据集成的问题,然而国内学者在数据源类型的通用性和本体映射的局部性方面还有所不足,需要进一步的提高。3.2.2多元多尺度数据融合在现今庞大的信息系统中,不同数据来源的数据类型、结构、粒度等各不相同,虽然通过数据集成,可以提供给不同的设计评估应用中,但是,由于各种应用场景对于数据的要求也各有不同,如时间粒度、空间粒度以及时间效率等,必须从实际需求、数据内容和特征出发,综合考虑分析精度和分析效率等多种因素,进行数据融合,才能使数据得到充分利用。针对数据量大,数据结构复杂的多源多尺度的数据进行集成,需要考虑应用中的各种需求、数据现状和算法实现的可能性及效率等问题。融合一词最早出现在美国军事C3I(Command、Control、CommunicationandIntelligence)系统中,随着应用系统的复杂化和智能化以及传感技术的发展,收集的数据的种类、数量、尺度等有了质的飞跃,对于数据融合提出了越来越高的要求。近年来,国外对于数据融合的研究已经深入到多个领域,如智能识别、自动探测等诸多领域应用,且将现代算法应用到数据融合中。美国DARPA在2012年开始支持在军事方面的大数据集成、融合和可视化技术研究。国内在数据融合方面的研究主要在针对多源、多传感器的有线或无线网络,采取的数据融合算法由之前的传统算法,如加权平均法、经典推理法等过渡到神经网络、遗传算法等现代算法中。4.总结随着网络技术的发展,现实世界中各个系统连接越来越紧密,信息系统越来越大,交互的数据不仅在量上有了飞跃,同时对数据处理速度也提出了更高的要求。传统的数据质量的定义在海量数据面前不再适用,一致性、完整性、准确性等指标在数据质量衡量中权重都下降了,因为在海量数据面前这些指标都可以被很简单地完成。人们不再局促在单个指标中,而是用系统的眼光去看待问题,需要的不是单个指标的好坏,而是整个系统的快速交互。如果把整个系统看做一个人,那么数据就是人体里流动的血液。传统提高数据质量的方法相当于提高血液的质量,但是当血液的流量急剧增大,不需要很好的质量也可以提供远远超过我们需要的能量的时候,我们需要做的是增大血管,就是增加数据的可读性,让海量的数据可以在各个系统中流转,从而整体提高系统性能,也提高了我们对于未来的预测的准确性。参考文献[1]AebiDaniel,PerrochonLouis,TowardsImprovingDataQuality.[M],1993:273-281.[2]陈远,罗琳,沈祥兴.信息系统中的数据质量问题研究[J].中国图书馆学报,2004,30(1):48-50.[3]HuangK.T.,LeeY.W.,WangR.Y.QualityInformationandKnowledgeManagement[J].Proceedingsofthe,1999,22(2):99-136.[4]郝佳,杨海成,阎艳等.面向产品设计任务的可配置知识组件技术[J].计算机集成制造系统,2012,18(4):705-712.[5]俞本权.一个基于CORBA的异构多数据集成系统Versatile及其关系数据库包装器的研究与实现[D]:东南大学,1997.[6]陈彤兵,胡金化,汪保友等.分布式自治数据源的联合查询[J].计算机研究与发展,2004,41(4):601-607.[7]王艳敏,谢强,丁秋林.基于本体和WebServices的数据交换平台[J].计算机技术与发展,2010,20(5):112-116.

1 / 7
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功