基于保序加密的隐私保护挖掘算法

ddinsert
2 ℃
2020-05-07

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

基于保序加密的隐私保护挖掘算法作者：俞笛，徐向阳，解庆春，刘寅，YuDi，XuXiangyang，XieQingchun，LiuYin作者单位：湖南大学计算机与通信学院,长沙,410082刊名：计算机研究与发展英文刊名：JOURNALOFCOMPUTERRESEARCHANDDEVELOPMENT年，卷(期)：2009，46(z1)被引用次数：0次参考文献(7条)1.KantarciogluMPrivacy-preservingdistributedminingofassociationrulesonhorizontallypartitioneddata2004(9)2.VaidyaJ.CliftonCPrivacy-preservingk-meansclusteringoververticallypartitioneddata20033.ZhanJ.MatwinSAcryptobasedapproachtoprivacypresse-vingcollaborativedatamining20064.PaillierPPublic-keycryptosystemsbasedoncompositedegreeresiduosityclasses19995.AgrawalR.KiernanJOrderpreservingencryptionfornumericdata20046.ChungSunS.OzsoyogluGAnti-tamperdatabases:Processingaggregatequeriesoverencrypteddatabases20067.DuW.AtallahMPrivacy-preservingcooperativestatisticalanalysis2001相似文献(10条)1.学位论文郭宇红频繁模式挖掘中的隐私保护方法研究2008频繁模式挖掘是许多数据挖掘问题的核心任务，并有广泛的应用。人们对数据隐私和信息安全的关注，往往限制和阻碍正常的挖掘任务。如何在基于隐私和安全考虑的环境中，很好地实施频繁模式的挖掘任务和各种应用，是频繁模式挖掘和信息安全领域结合后的一个研究热点。频繁模式挖掘中的隐私保护就是要研究解决此热点问题，它一方面要能保护好数据隐私，防止敏感知识泄露；另一方面要尽可能得到真实正确的挖掘结果。本文紧紧围绕频繁模式挖掘中的隐私保护方法展开研究，主要研究内容和创新性成果如下：(1)提出三类新的多参数随机化模型，给出随机化模型的分类框架。其中，“个体多参随机化模型”(PN)针对不同个体需要不同保护的多样化隐私保护需求，可为不同个体设置不同的随机化参数；“复合多参随机化模型”(P2×m、P2×N、Pm×N、P2×m×N)组合基本的多参随机化模型，使随机化参数控制的范围更细致；“分组多参随机化模型”(Pm/g、PN/g、P2×m/g、P2×N/g、Pm/g×N/g、P2×m/g×N/g)对不同数据单元进行分组，使随机化参数对于数据粒度的控制更灵活。新提出的这三类模型，弥补了已有随机化模型在隐私保护差异性上的不足，增强了随机化过程参数设置的灵活性。同时，本文依据随机化过程是否根据取值、属性和个体的不同作了区分，给出了随机化模型分类框架，依此框架形成的分类层次构成了随机化模型的整体视图。(2)提出基于个体分组多参随机化模型的个性化隐私保护频繁模式挖掘方法GP-PPFM(GroupingPersonalizedPrivacyPreservingFrequentpatternMining)。该方法能实现对个体隐私数据的分组保护，并确保频繁项集挖掘结果的准确性。准确性的获得依靠支持度重构技术，本文设计三种支持个体分组多参随机化模型的支持度重构方法，以及相对应的隐私保护频繁模式挖掘算法。同时，本文在理论上给出了三种支持度重构方法的隐私保护度公式、1-项集支持度重构偏差公式；并结合实验数据，详细分析了支持度重构误差与项集长度的关系、与支持度阈值的关系，对支持度重构与不重构的误差作对比。结果表明，在整体隐私保护度相同情况下，面向个性化分组多参数随机化的rec2方法的支持度重构结果准确性，高于已有的单参数随机化mask方法，更为重要的是，GP-PPFM方法能满足个体的多样化隐私保护需求。(3)提出基于样例学习和项集同步随机化的隐私保护频繁模式挖掘方法LS-PPFM(LearningandSynchronizedPrivacyPreservingFrequentpatternMining)。该方法旨在充分利用不需要隐私保护的个体数据，以提高挖掘结果的准确性。LS-PPFM首先对不需要隐私保护的个体数据进行学习，得到样例数据中蕴涵的强关联项，然后在对数据随机化时，将强关联项绑定为一个项作同步随机化变换，以保持项与项之间的潜在关联性。实验结果表明，相对于项独立随机化，通过选取样例数据中支持度高的项集项作为强关联同步项，LS-PPFM能在牺牲一定程度的隐私保护性情况下，显著提高频繁模式挖掘结果准确性。(4)提出基于FP树的反向频繁项集挖掘方法FP-IFIM(FP-tree-basedInverseFrequentItemsetMining)。该方法利用FP树实现从频繁项集到事务数据集的转换；通过将频繁项和非频繁项分开处理，减小线性约束问题的规模和目标解搜索空间；通过采用分治策略将目标约束分解为若干子约束迭代求解，减小计算开销。分析和实验结果表明FP-IFIM能大大加快问题求解过程，且与现有方法仅能输出一个目标数据集比，能输出较多的满足约束的目标数据集。同时，本文对数据集、FP树、频繁项集之间的映射关系进行了探索。该方法适用于当支持数阈值较高而从原始数据集产生的频繁项较少的情况，其主要意义在于，它能帮助数据拥有者在不泄露真实数据情况下，生成多个具有真实数据集特征的共享数据集供公众使用。(5)研究频繁模式挖掘中的敏感知识隐藏技术。综合分析比较已有关联规则隐藏技术，提出基于数据重构的关联规则隐藏框架DR-ARH(DataReconstructionbasedAssociationRuleHiding)。该框架通过在知识层面的清洗来隐藏敏感规则，旨在对发布数据集中的敏感关联规则进行隐藏时，为用户提供对于规则更直观、有效的控制。2.期刊论文方爱乡日本信息化发展过程中的安全与隐私保护问题-财经问题研究2002(12)在世界各国信息化迅速发展的过程中，信息安全与隐私保护问题越来越受到关注和重视。很多国家纷纷建立安全评估机构，并使安全评估走向标准化，隐私保护逐渐走向法制化。日本也在信息安全方面对电脑犯罪、电脑病毒、安全评估、非法联网等采取了对策；在隐私保护方面出台了《关于保护私人信息基本法纲要方案》、《地方公共团体保护私人信息条例》等。3.学位论文黄伟伟数据挖掘中隐私保护问题的研究2006数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。随着信息技术的高速发展，人们积累的数据量急剧增长，如何从海量的数据中提取有用的知识成为当务之急。数据挖掘就是为顺应这种需要应运而生发展起来的数据处理技术，是知识发现的关键步骤。用户可以采用数据挖掘技术从海量数据中挖掘出有意义的信息和知识，随着数据挖掘技术在军事、政府、金融等重要部门的广泛应用，它们所带来的对隐私和信息安全所构成的威胁越来越受到人们的高度重视。在通过数据挖掘应用向用户提供有意义的信息和规则的同时，如何保护挖掘所使用到的数据集中的私密信息以及隐藏那些具有更高敏感性的挖掘结果，正逐渐成为信息安全和数据挖掘中的隐私保护的研究热点，也是数据挖掘技术在实际应用中亟待解决的问题之一。本文介绍了目前数据挖掘中隐私保护问题的研究现状，对目前常用的数据挖掘隐私保护方法进行了分析和研究。主要工作有以下几个方面：(1)研究了数据挖掘中隐私保护的基本问题及主要解决方法。(2)介绍了数据扰动方法的主要思想及其相关的数据重构算法。(3)对关联规则挖掘中的隐私保护方法进行了研究，分析了规则隐藏算法的不足，并提出了一种优化的规则隐藏算法—OSA算法。与原算法相比，OSA算法减少了被丢失的以及新生规则的数量。(4)对聚类挖掘中的隐私保护方法进行了研究，并给出了一种基于几何数据变换的聚类挖掘隐私保护方法。该方法采用了图形学中有关几何图形的几何变换方法来实现数据扰动，适合于在聚类挖掘中实现隐私保护。(5)基于数据散列函数的特点，提出了一种基于折叠方法设计的数据散列函数转换方法。与其它的数据扰动方法相比，该方法可以在不产生噪声数据的情况下实现隐私保护，并可以获得与原数据集相同的挖掘结果。4.学位论文韩建民微数据发布中隐私保护匿名技术研究2008微数据是指与个人、公司、社团等个体相关的数据，这些数据对趋势分析、疾病研究、市场分析等都具有重要的意义。因此，很多组织都在收集或发布大量的微数据。但是，微数据的发布会对数据中个体的隐私构成一定的威胁。因此，如何保护微数据发布中的个体隐私，已成为数据库和信息安全领域亟待解决的问题。在以数据挖掘为目的的微数据发布中，匿名技术已成为保护个体隐私的重要手段，其核心思想是：首先删除微数据中的显式标识符，使攻击者无法通过微数据本身识别出敏感信息所属的具体个体。然后，依据一定的约束，将微数据基于准标识符划分为若干个等价类，并将每个等价类中各元组在准标识符上的值都变换为相同的值，使攻击者无法通过与外表链接重新标识出敏感信息所属的具体个体，从而达到保护个体隐私的目的。基于匿名技术的隐私保护是以一定的信息损失为代价的。因此，匿名技术的研究目标就是：在保护个体隐私的同时，如何最小化信息损失，即最大程度地保留匿名数据的可用性，使数据分析者从匿名数据中挖掘的知识与从原始数据中挖掘的知识一致。κ—匿名模型和敏感属性多样性模型是实现基于匿名技术的隐私保护的主要方法。近年来，该方面的研究已成为数据挖掘和信息安全领域一个活跃的研究方向。本文研究微数据发布中隐私保护的匿名技术，主要内容包括：泛化/隐匿技术，微聚集技术，泛化与微聚集的混合技术，面向数值型敏感属性的多样性模型，敏感值个性化保护模型等，主要的研究成果如下：(1)提出一个基于泛化的高效κ—匿名化算法—c—modes—KACA算法，提高了KACA算法在κ—匿名化分类型大数据集的效率。该算法结合c—modes算法的高效性和KACA算法的高数据可用性，首先利用c—modes算法高效地将大数据集划分为若干个大类，再利用KACA算法将大于2κ-1的类划分成大小在[κ，2κ-1]之间的类。实验表明，c—modes—KACA算法相对于KACA算法在信息损失量差别不大的情况下，大大提高了处理效率。(2)提出多变量免疫克隆选择微聚集算法(ICSMA)和面向微聚集技术的匿名数据质量评估模型(EM4ADOM)。ICSMA可以在全局解空间中搜索全局最优解。EM4ADOM可以更科学地评估匿名数据的质量。实验表明，相对于MDAV算法，ICSMA所产生的匿名数据信息损失少、泄露风险低。EM4ADOM模型则可以从多角度评估微聚集算法所产生的匿名数据的质量。(3)提出一种面向混合型数据的混合κ—匿名技术。该技术的基本思想是：对于混合型数据，我们采用欧氏距离来度量数值型属性部分的距离，采用层次距离来度量分类型属性部分的距离，并将这两种距离相结合来度量混合型数据的整体距离。然后，将数值型数据的均值向量与分类型数据的最近公共泛化结合作为类质心，并使用该类质心替代对应类中所有元组在准标识符上的值，以实现κ-匿名。实验表明，混合κ-匿名技术能有效地解决混合型数据的κ-匿名化问题。(4)提出面向数值型敏感属性的分级多样性模型，并基于该模型，设计了3个算法：l-Incognito，l-V-MDAV和l-MDAV。l-V-MDAV算法和l-MDAV算法分别是V-MDAV算法和MDAV算法的改进。实验表明，相对于敏感属性未分级的l-Incognito算法，敏感属性分级的l-Incognito算法能够生成多样度更高的匿名表