探究海量数据存储数据压缩和数据检索

qingyu2zj
0 ℃
2020-03-06

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

探究海量数据存储数据压缩和数据检索摘要：海量数据为数据密集型典型应用中的挖掘和分析任务奠定了基础，已有的海量数据的存储技术为通过分析海量数据而获得更为全面、客观的知识提供了保证。已有的海量数据处理平台、系统和技术，为相应的数据分析任务提供了数据访问的基础，并可有效克服由于数据规模和异构性而引起的访问瓶颈。本文将云计算环境下海量数据存储机制体系进行阐述，并针对数据压缩和数据检索优化算法进行分析。关键词：海量数据；存储；数据压缩；数据检索AnalysisonDataCompressionandDataretrievalintheMassDataStorageAbstract:Hugeamountsofdatafordatamining，andtypicalapplicationofintensivewipesanalysistasklaidasolidfoundation，theexistinghugeamountsofdatastoragetechnologyforthroughtheanalysisofmassdataandgainamorecomprehensive，objectiveknowledgeprovidestheguarantee.Existinghugeamountsofdataprocessingplatform，systemandtechnology，forthecorrespondingdataanalysistaskprovidesthebasisofthedataaccess，andcaneffectivelyovercomeduetoscaleandisomerismdataaccessbottleneck.Thisarticlewillcloudcomputingenvironmentelaboratesthemechanismofmassdatastoragesystem，andanalyzingoptimizationalgorithmfordatacompressionanddataretrieval.Keywords:Hugeamountsofdata;Storage;Datacompression;Dataretrieval1引言随着网络信息技术的高速发展，由于信息数据量的大规模增加与信息数据价值的不断提高，信息数据的存储和安全这两个方面的问题得到了很高的重视。云存储是从云计算概念上扩展出的一个新的网络存储技术，通过集群应用、网络技术或分布式系统等功能，将网络中大量各种不同类型的存储设备通过应用软件集合起来协同工作，对外共同提供低成本、大存储的使用需求和资源处理的一个系统[1]。随着云存储的迅速发展和普及，当前市场网络上提供的存储空间已经无法满足数据爆炸式增长带来的存储和备份需求。信息存储的发展正在面临着诸多问题带来的压力和挑战。2云计算环境下海量数据存储机制体系2.1海量数据存储机制体系构架①处理异构和复杂数据。海量数据中可能包含不同类型属性的异构数据或更复杂的数据对象，例如，含有半结构化文本和超链接的Web页面集，具有序列和三维结构的DNA数据，包含地球表面不同位置上的时间序列测量值（温度、气压等）的气象数据等。这些数据类型多样、规模大，而且内在联系（包括时间和空间的自相关性、图的连通性、半结构化文本中元素之间的父子关系等）对于分析任务也至关重要，是海量数据分析技术需要解决的关键问题之一[2]。②克服高维性带来的复杂度。海量数据往往是具有数以百计或数以千计属性的数据集，例如，在生物信息学领域，微阵列技术的进步已经产生了涉及数于特征的基因表达数据；具有时间或空间分量的数据集也趋向于具有很高的维度（即特征数），如考虑包含不同地区的温度测量的数据集，如果在一个相当长的时间周期内重复地测量温度，则维度也相应增长[3]。因此，海量数据分析技术不但要能较好地处理上述高维数据，还要克服随着数据维度的增加而迅速增加的计算复杂性。③保证可伸缩性。针对PB甚至是ZB数量级的数据集，分析算法不但需要以有效的方式来访问数据，还要满足数据分析中搜索和优化等策略在响应时间、吞吐量上的可伸缩性要求。因此，需要考虑内存或非内存算法、抽样技术或分布式并行算法等，从而保证可伸缩性。2.2特征分析和冗余信息过滤预处理当然在考虑节约存储空间和存储效率方面的同时，在云存储模型中，数据自身的保密性在网络通信环境下也是需要得到足够的重视。由于数据中可能包含一些用户的与个人相关的隐私信息，不希望将此类重要的数据以明文的方式直接上传到云存储服务器。无论是在通信数据传输过程当中，还是保存在云存储的数据，都可能会遭到攻击者的窃取或者服务商的泄漏和修改造成用户的损失。因此用户将数据上传到云存储服务器之前，加密是有必要的[4]。云存储为了节约自己的存储消耗采用重复数据删除技术来实现对相同的数据资料不重复存储，原理是利用相同数据之间存在的相似性作为标记作为识别再存储。用户为了确保上传到云存储的数据的安全性，首选的方案是对需要上传存储的数据进行加密，对数据进行加密的效果在于可以使得加密后的密文尽可能的接近理论上的随机数值，以此达到不被攻击者破解篡改的效果。云存储中所有的加密数据都是系统中不同身份的用户生成上传的，在实际情况中每个用户都会使用各自构建的密钥对数据加密再上传到云存储服务器，各个用户之间无法保障构建出的密钥是一致的，也就是说即使内容相同的明文数据在云储存中转换成了内容不同的密文数据，这样的情况使得数据经过加密后无法再根据相同数据之间的相似性进而实施重复数据删除技术。然而云存储服务提供者仅单方面牺牲掉云储存中数据的安全性来保证重复数据删除的实施，使得存储空间的利用率得到提高，对于所在一个稳定长久存储系统中的用户而言也是难以接受的。也就是说，安全和重复数据删除这两者在很大程度上是彼此冲突的[5]。3海量数据数据压缩的实现3.1海里数据压缩的必要性有研究表明，尽管数据量一直在成倍的增加，在现有的海量数据存储系统中，存在着大量重复的存盘、备份以及各式的冗余数据。排除用户无意间将一份文件上传多次的操作之外，造成这种数据冗余的状况可能是因为用户出于对数据的安全性和可靠性这两个方面考虑而进行的用户操作，也可能是因为不同文件存在着相似的情况，例如都含有部分同样重复的内容。由于上述原因所产生的冗余数据占用了储服务器大量的存储空间，这便导致存储空间的利用效率大幅度的下降。3.2海量数据压缩的实现方式3.2.1重复数据的压缩为了提升海量数据压缩工作的质量与水平，节约数据存数空间，在保证数据存储安全的情况下，可以对海量数据中的重复数据进行鉴别与删除。重复数据删除技术的中心思想是不要将内容相同资料进行重复存储。例如全球网络存储工业协会（StorageNetworkingIndustryAssociation，SNIA）的报告即指出，使用了重复数据删除的存储设备将可以省下70~95%的存储空间，而这也就直接代表着省下了70~95%的存储资源消耗，实现了海量数据的有效压缩[6]。虽然重复数据的删除工作看似简单，但是其对于数据运行算法等方面有着较为严格的要求。因此重复数据删除技术在应用的过程中，需要对冗余数据、相同数据进行对比操作处理，通过算法筛选，只存储其中的一份或者只存储相近数据之间的不同部分。对数据进行分块操作再去重复相比存储整个文件使得数据的大小得到了降低，从而节约了存储空间以及减少上传数据时的带宽消耗，有助于服务提供商减少资源的开销量。同时随着客户端和云存储之间数据传递量的减少，系统中的计算节点和存储节点之间网络传递数据的吞吐量也随之得到提升，提高了整个系统的运作效率。再者存储服务器避免了对副本数据的大量存储，也就增加了云存储系统规模的可扩展性。3.2海量数据压缩算法实现过程在进行海量数据压缩算法设计的过程中，需要从数据使用的角度出发，实现存储工作的简洁化，降低数据压缩工作的难度。从数据信息用户的角度来看，从数据上传于与下载使用的层面出发，进行压缩算法的实现。上传文件用户：用户在上传文件存储到数据服务器之前，可以根据文件内容对文件进行标签化设置，检查上传的文件是否在服务器中存在副本。如果检查出有同样的文件，取消文件上传，以此避免重复数据的出现，在一定程度上推动了数据压缩的顺利进行。为了较少存储消耗，储服务提供者需要通过重复数据删除技术来消除冗余数据的存储数据，仅保留独特的数据，实现了数据的有效压缩。为了更好地说明压缩算法在海量数据存储过程中的实现，我们将以云存储为例进行必要的说明，云存储机制在设计的过程中，为了实现对数据的有效压缩，其进行了秘密参数（secret-parameter）的MLE方案的设计，在这一体系中参数生成算法输出一个系统范围的秘密参数sk和一个公共参数P。这个秘密参数提供给所有合法用户，用于生成借助文件信息得到的密钥，如K-K（P，sk，M）。在多用户辅助的MLE方案中，这个秘密参数由于系统从事先分类的在线用户，选取其中一部分用户合力生成、保管并且传递下去。上传文件的客户端与系统选定的在线用户完成交互获取借助文件信息得到的密钥[7]。方案中MLE算法结合了RSA-OPRF[G，H]=（Kg，EvC，EvS，Vf，Ev）和CTR[AES]。其中参数的生成执行Kg去获取（N，（N，d）），然后输出值N作为公共参数，（N，d）作为秘密参数。根据一个信息M，一个密钥K是由与系统选定的在线用户之间在交互过程中使用EvC和EvS算法来生成，如K-Ev（（N，d），M）=G（H（M）dmodN）。加密和解密工作与使用CTR[AES]的收敛加密算法是一样。MLE算法整体示意图如图1所示。HSignGSEMxyKCsx图1MLE算法示意图数据压缩算法的实现一方面能够在很大程度上实现数据存数的简洁化，降低服务器自身的工作压力，另一方面也能够实现数据信息的高效获取与应用，满足了用户对于不同信息的使用获取需求，进而为后续数据检索工作的开展创造了有利条件。4海量数据检索的实现数据检索（dataretrieval）是一个较为复杂的过程，需要通过一系列技术操作，根据用户的信息查询与获取需求，在一定计算机软件算法的支持下，对相关信息数据进行筛选、分析与评价等操作，最终将所需要的信息进行完整呈现，满足数据检索人员对于信息数据获取的实际要求。4.1检索环境的全面分析随着网络信息技术的高速发展，由于信息数据量的大规模增加与信息数据价值的不断提高，使得数据检索工作的重要性日益突出。现阶段市场上的数据存储系统中都存在大量的冗余数据，并且由于相关条件的制约，使得冗余数据的压缩处理进程较为缓慢，为了提升数据的获取速度，就需要工作人员对于数据检索方式进行调整与优化。在这一过程中，需要组织相关工作人员对数据检索的环节进行全面分析，进一步明晰检索工作开展过程中，可能遇到的难题，并采取合理的防范措施，提升检索方案的科学性与有效性[8]。4.2检索方式与方法的选择在对海量数据进行检索的过程中，为了保证检索方式的有效性，可以相关技术人员根据数据检索查询的实际要求，对检索方式与方法进行科学选择。例如根据检索问题的需求，可以将其划分为简单检索以及综合检索两大类别，分别利用某一种或者多种标准对数据信息进行检索操作。对于文献资料的检索，在进行检索方式确定的过程中，需要根据文献资料组织结构的特殊性，采取不同检索方式与方法，对于顺序结构的文件资料，可以使用顺序检索查询、分块检索查询等方式，对相关文件进行快速检索，满足了检索工作的实际需要。结论由上述推断可知，海量数据存储中保证数据的安全性和完整性的基础上，降低大量数据的传输、存储以及管理的开销已经成为数据存储中的一个非常重要问题。因此本文在已有安全性保障体系构建的同时，将加密算法引入到海量数据的存储过程中，以加密算法为突破口引入了数据存储过程中，实现数据存储的安全性与有效性。同时为了降低海量数据存储所带来的服务器压力，以数据压缩算法为突破口，在保证数据完整性的前提下，为检索方式的构建创造了良好的条件，满足了用户信息数据快速检索的客观需求，实