研究生论文开题报告--基于隐私保护的多源数据挖掘高效算法研究

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

研究生学位论文开题报告题目名称:基于隐私保护的多源数据挖掘高效算法研究姓名:学号:专业名称:研究方向:攻读学位:学院:导师姓名:导师职称:填表时间年月日1填表说明1.开题报告是研究生培养的重要环节,研究生需在认真完成。2.完成时间:硕士研究生的开题报告应于第三学期末前完成3.打印要求:此表用A4纸双面打印。4.此表与中期考核审核表、成绩单、实践报告、学术活动列表等材料一起交于学院,参加中期考核2一、课题来源,国内外研究现状、水平及发展趋势,选题的研究意义、目的,参考文献(一)课题来源1、问题的提出数据挖掘,顾名思义即是从大型数据库中提取人们感兴趣的知识,这些知识是隐含的、事先未知的、潜在的、有用信息,提取的知识表示为概念、规则、规律、模式等形式[1]。数据挖掘要处理的问题,就是在庞大的数据库中寻找有价值的隐藏事件,加以分析,并将这些有意义的信息归纳成结构模式,提供给有关部门决策时参考。目前已经提出的常用方法有关联规则、决策树、聚类、神经网络等方法。然而,在对数据进行挖掘的时候,都不可避免的会出现敏感信息泄露的问题,随着数据挖掘技术的日益发展,数据隐私和信息安全逐渐引起人们的关注。为了保护数据的隐私,人们不愿提供正确的信息给服务商,以免个人信息泄露造成不必要的麻烦,但是数据挖掘结果准确的重要前提是提供的数据正确。由于数据挖掘主要任务是对汇总数据的模式开发,这使得构造一个不需要访问精确的单个信息而获得准确的模式的挖掘技术成为可能。目前,基于隐私保护的数据挖掘技术已经成为一个新颖热门的研究领域,国内外已有很多成熟的研究算法和技术。通过众多文献比对我们发现,目前已有的这些基于隐私保护的数据挖掘算法和技术大多是针对单源数据库进行挖掘和保护,而在实际应用中,有很多情况必须面对多个数据源。例如,许多大型企业、跨国公司都拥有过个子公司,每个子公司都有自己相应的数据库。这就迫切需要数据库挖掘系统具有针对多数据源进行挖掘和保护的能力。已有的国内外文献中,针对多源数据进行挖掘的模型和算法已经出现,但是基于隐私保护技术的多源数据挖掘研究却很少提及。这可能是由于多源数据挖掘本身的技术局限性,导致在对多个数据源进行挖掘时,泄露敏感信息都成为了不可避免的操作。因此,本文在对当前已有的多源序列模式挖掘技术研究的基础上,分析结合并行和隐私保护技术的特点,提出新的基于隐私保护的多源数据挖掘高效算法,使得在多源环境下既可以高效率高准确度的挖掘出高投票率模式(全局模式),又可以隐藏敏感序列模式,达到较好的隐私保护效果。(二)国内外研究现状、水平及发展趋势1、隐私保护技术的研究进展关于数据的隐私保护问题,首次是由AdamN等学者在《Security-controlmethodsforstatisticaldatabases:Acomparisonstudy》[2]一文中提出,文章中提出了一种用扰动的方式来解决数据的隐私保护。所谓“扰动”就是发布数据集失真,数据获得者无法通过其他途径构建出原始数据集,但是这个失真的数据集又仍然保持数据获得者所希望保留的某种特性。基于数据失真的技术还有随机扰动、阻塞和凝聚等。目前常用的隐私保护技术大多都是以统计模型和概率模型为主理论,应用在较低层次的数据隐私保护。在分布式环境中,CliftonC等提出使用SMC(SecureMulti-partyComputation)安全多方计算加密技术保证数据的通信安全[3],这种基于加密的隐私保护技术可适用于科学计算、分布式安全查询、几何计算、分布式数据挖掘等应用。当前,关于SMC的研究主要集中在减低计算开销、以SMC为工具解决问题以及优化分布式计算协议。在国内,关于隐私保护技术的研究主要集中在基于数据失真或数据加密技术方面的研究,如基于隐私保护分类挖掘算法、关联规则挖掘、分布式数据的隐私保护协同过滤推荐、网格访问控制等。(国内研究现状)对数据进行隐私保护,主要可分为在数据发布过程中和在数据挖掘过程中进行。目前已有的针对数据发布的隐私保护技术已经有很多,本文主要讨论数据挖掘中的隐私保护技术。2、隐私保护数据挖掘的研究进展3数据挖掘中的隐私保护主要考虑两个方面的问题,一个是敏感的原始数据,一个是从数据库中提取出来的敏感知识。这两种信息都应当在挖掘的时候进行删除,因为可能导致隐私泄露问题。因此,隐私保护数据挖掘的主要目的就是用某种技术改进已有的数据挖掘算法来修改原始数据,使得敏感的数据和知识不被泄露。目前,针对隐私保护数据挖掘的研究,国外已经有很多方法。文献[4]采用数据扰乱技术,从训练数据中重构一个决策树分类器从而解决数据挖掘中隐私保护问题。文献[5]提出了一种基于随机化的方法——随机响应技术,利用这种源于统计学研究中隐私保护的方法,来实现在不泄露隐私数据的情况下进行一定精度的建模,文中主要探讨了与ID3决策树算法结合进行分类的方法。文献[6]讨论了一个利用不确定性符号进行数据阻塞并应用于关联规则挖掘的具体例子,这种情况下支持度和置信度分别用支持度区间和置信度区间代替。文献[7]提出一个利用添加噪声数据对待挖掘数据库进行有效分类的框架,满足了对数据集中敏感信息方差和协方差的有效保护。对于如何很好的平衡隐藏限制模式和揭露非限制模式,文献[8]中提出了一个基于隐私保护的频繁项集数据挖掘框架,对原始数据库进行了一定程度的安全清洗。文献[9]针对交易型数据库,提出一个新的仅需要一遍扫描数据库的算法对原始数据库数据进行处理,使得既能达到保护隐私数据,又能挖掘出准确的关联规则,保留关联规则挖掘的益处。由于在关联规则挖掘中,很容易从非敏感信息和原始未分类数据中推测出敏感信息,因此文献[10]提出了一个新的算法来平衡关联规则挖掘中的隐私保护和知识发现。该算法对原始数据库进行两次扫描,不用考虑数据库大小和限制性关联规则数目。针对分布式数据环境进行挖掘和隐私保护的研究是当前国内主要热门研究领域之一。文献[11]中,从基于随机扰动、基于安全多方计算以及基于限制查询三个层次分类别讨论了现有的针对分布式隐私保护数据挖掘方法,对比各自优缺点,总结未来发展方向。文献[12]中,总结了在分布式数据库特有环境下,如何解决数据安全性计算效率问题。文献[13]中,结合随机数生成器和RSA公钥加密技术,提出了PPD-ARBSM算法。该算法引入数据挖掘服务器和密码管理服务器,保证了敏感数据的安全性。文献[14]中,针对分布式数据共享及计算中的隐私保护问题,提出了一种适用于大规模分布式环境的隐私保护计算模型(PPCMLS),该模型的核心为隐私安全模块,将计算划分为本地计算和全局计算。通过综合运用同态加密、安全点积协议、数据随机扰乱算法等多种安全技术,在实现了多个节点在一个互不信任的分布式环境下合作计算的同时,任何节点无法获取其他节点的隐私信息及敏感中间计算结果。总体而言,这些研究还都处于起步阶段,具有广阔的发展空间。文献[15]中提出一种分布式匿名数据扰乱方法APM,该算法是匿名数据交换机制下的数据挖掘隐私保护方法,在高密度共谋攻击的半诚实环境中有较好的鲁棒性,与SMC相比具有显著的效率优势和较高的灵活性和通用性,能应用于关联规则挖掘和聚类等多种场合。然而现有的隐私保护研究大都是在关联规则方面,很少有针对序列模式方面。序列模式挖掘包含时间因素,即每一个模式的元素之间存在先后顺序关系,因此序列模式挖掘增加了时间顺序的因素,在某些情况下的应用能挖掘出关联规则所无法挖掘的模式,提供更有效的挖掘结果。本文提出的就是在多数据源环境下针对序列模式的数据挖掘算法,并尽可能的达到隐私保护效果。目前国内外研究中,针对序列模式的挖掘算法和模型已有一些。文献[16]在假设参与方都是半诚实基础上,强调了在一个类似二维站点的模式中隐私保护频繁模式挖掘出现的问题,提出一种基于半参与和不涉及加密的序列模式挖掘新方法。针对已有的序列模式挖掘方法都是在数据库数据不发生任何改变的基础上进行的。文献[17]中基于数据可随时更新的数据库动态变化,提出一种新的改进的序列树PS-tree,以解决改进的序列模式挖掘中出现的问题。文献[18]利用密码学中同态加密和数字信封技术来达到在多方参与中不共享隐私数据的协同序列模式挖掘。文献[19]以PrefixSpan算法为基础,结合分布式计算的特点,研究并提4出了一种分布式序列模式挖掘算法DSPM(DistributedSequentialPatternMining),并针对分布式环境下信息传递耗费大、任务可并行执行等特点,对DSPM算法进行了进一步的改进。研究并提出了一种分布式序列模式挖掘的隐私保护算法CLSD(CurrentLeastSequencesDelete),该方法通过删除原始序列来降低敏感序列的支持数达到隐藏敏感信息的目的。基于隐私保护的序列模式挖掘算法研究目前还比较少,文献[20]中首次提出了三个敏感序列隐藏算法一MSA、MSRA和SDRF。这三种算法借鉴了关联规则隐藏的思想,通过删除原始序列降低支持数的方式实现了敏感序列的隐藏。但MSA和MSRA算法在选择被删除序列时没有做任何优化,SDRF对候选删除序列只进行了基本的筛选,仍存在删除原始序列过多的问题,而且算法引入的预期最低支持度可能会导致敏感序列隐藏失败情况的出现。已有的这三种敏感序列隐藏算法均采用了预期最低支持度来保证敏感序列的隐藏,它们在删除过程执行之前就确定好了被删除的原始序列,不能够动态反映出已删除序列对未删除序列的影响,没有考虑先删除序列对后删除序列的影响,会删除掉一些不必要删除的序列。因此针对这一特点,文献[21]提出一种有效的敏感序列隐藏算法CLSDA(currentleastsequencesdeletealgorithm),该算法对候选序列加权,在删除序列的过程中随时更新权值,使用贪心算法获得局部最优解,尽可能减少对原始数据库的改动。文献[22]提出一种基于隐私保护的序列模式挖掘算法PP-SPM。算法以修改原始数据库中的敏感数据来降低受限序列模式的支持度为原则,首先构建SPAM序列树,根据一定的启发式规则,从中获得敏感序列,再进一步在原始数据库中找到敏感数据,对其做布尔操作,实现数据库的清洗。文献[23]中提出一个基于数据清洗的敏感序列模式隐藏算法,该算法通过计算事务组影响权值,选取对非敏感序列模式影响最小的事务组进行清洗,从而在确保隐藏敏感序列模式的同时,尽量减少对非敏感模式集的影响。从以上两个大的数据挖掘发展现状分析,可以看到大多是针对单一数据源提出的各类算法和技术,然而随着互联网信息的高度共享和实际应用的需求,多源数据挖掘已经逐渐成为数据挖掘领域新的进展方向,针对此领域的研究,将更好的应用于金融安全等各个行业和组织。3、多源数据挖掘的研究进展目前对于多数据源数据挖掘问题的研究,国内外文献中涉及的都比较少。对于多源数据挖掘,为了有效从多数据库挖掘全局序列,必须首先挖掘每个本地DB的信息,在本地层次上总结整合。一般情况下,多源数据挖掘可分三步进行:1)对多数据源进行分类;2)挖掘每个数据库的知识;3)把同类数据库挖掘到的知识进行合成。由于多源数据挖掘中必须面临众多不同大小的数据集,文献[24]提出一个可供选择的多源数据挖掘技术,仅选择支持度大于给定阈值的若干相关性大的数据库进行挖掘搜索。该方法主要针对多源数据挖掘步骤中第一步分类进行,有效的缩短了搜索代价。随后,文献[25]中又提出一种根据用户查询从多源数据库中搜索用户感兴趣知识的方法,这一过程仅在被选择数据库中进行挖掘检索信息。以上所采用的方法和技术构成了目前已有的针对多源数据环境进行挖掘的主要模式,我们将其称为传统的多源数据挖掘技术。总结可知,其挖掘过程可分为三步进行:1)通过数据选择从众多数据库中选择其中有相关性的若干数据库;2)利用数据合成技术将这些选中数据库合为一个单一数据集;3)对这个巨大的单一数据集采用单源数据挖掘算法,得到最终的模式集。文献[26]介绍了一种将INLEN系统扩展到多源数据环境下进行知识发现的方式。现有的并行挖掘技术有些也可以用来解决多源数据挖掘问题[27-31

1 / 14
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功