中国民航大学硕士学位论文基于隐私保护的关联规则挖掘研究姓名:崔建国申请学位级别:硕士专业:计算机应用技术指导教师:沈中林20080520基于隐私保护的关联规则挖掘研究作者:崔建国学位授予单位:中国民航大学相似文献(10条)1.学位论文接凤华关联规则及数据的隐私保护算法研究2006数据挖掘目前是数据库研究、开发和应用最活跃的分支之一。不论科学研究还是商业应用,数据挖掘都开始取得了可喜的成果。但与此同时,数据挖掘也面临着许多问题的挑战。其中,数据挖掘的个人隐私与信息安全问题尤其得到关注。误用、滥用数据挖掘可能导致用户数据特别是敏感信息的泄漏,越来越多的人们对此表示担忧,甚至拒绝提供真实的数据。如何在不暴露用户隐私的前提下进行数据挖掘,一直是人们感兴趣的课题。问题的解决对实现新型安全、公平的数据挖掘有着重要的意义。本文在对传统关联规则挖掘技术研究的基础上,给出了保护隐私的新方法。根据保护对象的不同,本文内容大体分为关联规则的隐私保护算法及数据的隐私保护算法研究。算法在保护隐私的同时,尽量保证规则挖掘的精度。基于StanleyR.MOliveira等提出的框架,针对IGA算法分组复杂的缺点,提出了基于倒排文件分组的IF-IGA算法;针对MinFIA算法、MaxFIA算法等算法每个敏感规则只删除特定的牺牲项的缺点,提出了平衡牺牲敏感规则各项目的VBA算法,力求在关联规则隐私保护和降低对原有数据集影响之间取得一个平衡。针对现有的一些隐私保护关联规则挖掘算法的不足,提出了一种新的保护原数据集隐私的关联规则挖掘算法,它在保证准确度的同时能够有效地保护原数据集,同时可结合现有的关联规则挖掘算法,使实际操作更有效率。本文还使用人工数据集产生器,提供相应的具体实例的运行验证,证明研究工作中所提出算法的有效性和安全性。2.期刊论文李时.张成虎.LIShi.ZHANGCheng-hu隐私保护关联规则在可疑金融交易识别中的应用-兰州大学学报(社会科学版)2007,35(2)有效利用多方数据进行分析,将隐私保护关联规则应用于可疑金融交易识别中,提出了一种新的算法来满足目前用于异构的分布式数据库的隐私保护.该算法能提高反洗钱工作效率,为金融机构反洗钱工作提供一种行之有效的方法.3.学位论文仲波基于关联规则的隐私保护算法研究2007数据挖掘是从大量数据中提取或“挖掘”知识。大多数传统的关联规则挖掘是由一个用户在本地的一个单一的数据库上进行操作。随着计算机网络的不断发展,产生规则的数据往往来自于网络中不同的用户,分布式关联规则挖掘也逐步得到研究。现有的分布式关联规则挖掘需要有一个算法执行中心来收集所有的原始数据,然后执行相应的挖掘算法。有时候用户关心隐私,不愿意提供相应数据或者只提供虚假数据,从而影响了产生规则的有效性。因此,进行数据挖掘同时保护用户的隐私信息不被泄露逐步成为数据挖掘实际应用的发展方向之一。本文在综述了国内外关联规则挖掘研究成果的基础上,讨论了基于关联规则的隐私保护典型算法;并主要关注随机响应技术与关联规则的结合,给出随机响应技术中影响隐藏性的变换概率目与挖掘算法准确性之间的关系式;计算表明,从10000个以上事务的数据集中,选取样本的数据量超过数据集10%产生的关系式,其相对误差,即用该关系式算出变换概率目代入基于随机响应技术的挖掘算法产生的误差与希望达到的误差相比,不超过6%;并用大量计算验证在数据集规模不同的情况下,关系式准确率能达到应用的要求,表明该挖掘算法能适用于实际问题的需要。本文还提出了将随机响应技术应用于保护隐私的多维关联规则挖掘中,设计了在伪装的数据集上进行挖掘的算法,分析了算法的安全性与复杂度,并通过实验表明,该算法在伪装后的数据集上挖掘出来的规则与原规则相比,相对误差不超过5%。4.期刊论文黄高琴.HUANGGao-qin基于隐私保护的分布式关联规则数据挖掘-微计算机信息2009,25(9)为了提高对隐私数据的保护程度和挖掘结果的准确性,提出一种有效的隐私保护分布式关联规则挖掘算法.理论分析表明本文提出的隐私保护关联规则挖掘方法具有很好的隐私性和高效性.5.学位论文张长星隐私保护数据挖掘算法的研究2009近年来,数据挖掘在商业决策、科学探索以及医学研究等诸多领域得到了广泛应用。然而,数据挖掘技术在给我们带来巨大利益的同时,也会不可避免的产生隐私泄露问题。尤其随着人们对隐私权关注度的不断提高,数据挖掘在实现过程中遇到了层层阻碍。隐私保护数据挖掘技术正是在此背景下产生的,它能够在保证敏感数据以及敏感规则安全的前提下,挖掘出比较准确的结果,有效的解决了数据挖掘与隐私保护之间的矛盾。br 本文首先总结归纳现阶段隐私保护数据挖掘算法的研究现状,然后针对目前应用最广泛的关联规则隐私保护数据挖掘进行了相关研究:br 首先分析了数据集中分布的挖掘算法MASK(MiningAssociationswithSecrecyKonstraints),该算法通过数据干扰和分布重构实现了隐私保护的关联规则挖掘,但是基于扭曲数据库重构项集原始支持度呈现指数复杂度,严重影响了算法的运行效率。针对这一不足,基于集合原理提出了一种改进的优化算法,消除了指数复杂度。最后通过实验证明了改进算法与原MASK算法相比具有更好的性能。br 分布式数据挖掘是一个动态的过程。具体来说有两个方面:(1)一些新的机构的加入;(2)原有数据库随着时间的推移,将会增加大量新的记录,同时部分原有记录可能已经被更新,甚至已经被删除。这样原有的关联规则便会过时,已经不能准确反映当前数据库所隐含的一些规则或模式,因此需要进行更新。实现更新最基本的方法是重新挖掘关联规则,但是这种做法代价高昂。br 针对分布式环境下关联规则的增量更新问题,提出了一个新的算法PPIUDAR,该算法通过利用原有的关联规则,高效的实现了关联规则的增量更新。由于算法中应用了相关的安全多方计算技术,充分保证了各个站点的隐私。最后,通过实验分析,证明该算法切实可行。6.学位论文葛伟平隐私保护的数据挖掘2005本文首先结合数据分布方式、数据修改方式、数据挖掘算法、数据或规则保护和隐私保护技术五个角度,对当前流行的隐私保护数据挖掘方法作了一个深入浅出的分析和介绍。接着提出了一种新颖的隐私保护分类挖掘的算法。算法的第一部分着重于如何通过变换数据来保护隐私:首先提出了“单属性转移概率矩阵”的概念;接下来提出了“多个分裂属性联合转移概率矩阵”来表达多个分裂属性的联合变换概率,同时也介绍了计算其值的方法和计算其逆矩阵的简便方法(即等于“单属性转移概率矩阵”逆的联合);然后描述了通过“单属性转移概率矩阵”来变换原始数据的数据变换方法。算法的第二部分着重于如何从变换后的数据中恢复联合属性值的支持计数来产生判定树:首先推导了一个公式来从变换后的数据中恢复联合属性值的支持计数;接下来推导了另外一个公式,以便根据联合属性值的支持计数来计算Gain,进而选择最佳分裂属性和分裂点;最后给出了基于隐私保护的判定树产生算法-PPCART。另外本文也介绍了隐私保护程度的量化表示方法,以及给出了一个网上调研的例子来说明本算法的应用。然后又提出了一种新颖的全局关联规则隐私保护挖掘算法:先分别运用“项集转移概率矩阵”对各个分布站点的数据进行变换;然后提出了一种方法来恢复项集的全局支持计数,以便找出全局频繁项,进而找出全局关联规则。本文最后是对工作的总结及未来工作的展望,将在转移概率矩阵的取值、隐私保护程度度量标准的标准化、适合多种数据集、加密部分数据、OLAP领域的隐私保护分析和最终形成一个整体的隐私保护数据分析和挖掘模型上作深入的研究。7.期刊论文沈中林.崔建国隐私保护下关联规则挖掘方法-中国民航大学学报2007,25(z1)从输入隐私保护和输出隐私保护2个角度介绍了隐私保护关联规则挖掘的有效方法.输入隐私保护采用数据扭曲的策略,输出隐私保护采用修改敏感事务值的策略.使用这2种策略的挖掘方法在取得很好隐私性同时,挖掘到的关联规则准确率也很好.8.学位论文陈芸隐私保护关联规则挖掘2006数据挖掘研究如何从大量数据中发现潜在模式及趋势,在科学研究、医学研究及商业等领域,正得到越来越广泛的应用,具有很大的发展潜力。由于数据挖掘是发现数据中不容易发现的模式和规律,如果利用不当,可能对隐私和信息安全构成威胁。因此,如何在保证隐私的情况下挖掘出有用的信息是近年来数据挖掘领域研究的热点之一。本文首先结合数据分布方式、隐私保护目标和隐私保护技术和隐私保护的对象等多个角度,对当前流行的隐私保护关联规则挖掘方法进行了深入浅出的分析和介绍。其次,论文主要针对隐私保护关联规则挖掘提出相关的两个算法:(1)从隐私保护对象为原始数据集的角度出发,总结Rizvid提出的的MASK算法优缺点的基础上,提出了一个基于多参数随机扰动的布尔规则挖掘算法DMASK。该算法同MASK算法相比,能够按照用户对隐私关注不同设置不同的扰动参数,从而降低了隐私泄露的可能性。通过合理的参数设置同时满足挖掘结果的准确度和隐私保护度。另外,我们利用集合原理对算法实行优化,并且严格控制数据集密度的变化,消除了由于扰动引起的额外计算,从而大大提高程序运行效率。我们分别在人工数据集(IBMSyntheticDataset)和实际数据集(BMS-WebView-1)运行该算法,实验结果表明DMASK算法在运行时间上比Aprior减慢少于5倍,同时能够保证隐私保护度在70%以上,挖掘结果的准确度在90%以上。(2)从隐私保护对象为敏感模式的角度出发,针对Oliverira提出的SWA算法中容易因推导而产生隐私泄露的不足,提出了一个新颖算法RWA。首先根据敏感模式和非敏感模式之间的关系建立扰动矩阵,设置矩阵中合适的值,并将原事务数据集与扰动矩阵相乘,生成一个能够阻止向前推导攻击扰动数据集。另外,我们使用不同的扰动参数来避免敏感规则被恢复以及降低非敏感规则被隐藏的机率,更能避免入侵者向前推导所引起的隐私泄露。最后我们利用实验方法,通过与SWA算法在敏感模式的隐藏、非敏感规则的丢失以及运行时间等多个性能指标上进行比较,结果表明我们所提出的算法相对于SWA具有良好的性能同时具有更安全的保护.9.期刊论文张瑞.郑诚.陈娟娟.ZHANGRui.ZHENGCheng.CHENJuan-juan一种简单的基于隐私保护的关联规则挖掘方法-计算机工程与应用2008,44(28)为了提高对隐私数据的保护程度和挖掘结果的准确性,提出一种有效的隐私保护关联规则挖掘方法.针对关联规则挖掘中需预先给出最小支持度和最小置信度这一条件,提出了一种简单的事务数据库中事务的处理方法,即隐藏那些包含敏感项目的关联规则的方法,对相关事务作处理.达到隐藏包含敏感项目的关联规则的目的.理论分析和实验结果均表明,基于事务处理的隐私保护关联规则挖掘方法具有很好的隐私性、简单性和适用性.10.学位论文蒋栋栋隐私保护分布式关联规则挖掘2007数据挖掘是数据库研究、开发和应用最活跃的分支之一,它通过对大型数据库进行清理、集成以及选择变换等处理,获得其中隐藏的潜在有用的规则,但随之产生的就是隐私和信息安全问题,如果利用不当,将会给部门、个人隐私带来严重的威胁,如何在保持隐私的情况下仍然能够挖掘出有用的规则是近年来数据挖掘领域研究的重要内容。作为数据挖掘隐私保护研究的一个重要组成,分布式关联规则中的隐私保护算法研究一直是一个具有挑战性的课题,它在金融、市场营销等方面具有十分重要的应用价值。本文在分析国内外隐私保护方法研究成果的基础上,对其进行了深入的研究。根据保护对象的不同,本文内容分为实现原始数据保护的分布式关联规则挖掘算法及规则保护的分布式关联规则挖掘算法研究,相关算法在保护隐私的同时,尽量保证规则挖掘的精度。(1)在数据水平分布条件下,针对现有的隐私保护分布式关联规则挖掘算法需要多次扫描数据库的缺点,提出一种只需要两次扫描数据库的基于分布式FP-树的隐私保护挖掘算法,可以有效地降低通信量,还能在保证准确度的同时有效地保护原始数据。(