软件学报ISSN1000-9825,CODENRUXUEWE-mail:jos@iscas.ac.cnJournalofSoftware,2014,25(4):693−712[doi:10.13328/j.cnki.jos.004551]©中国科学院软件研究所版权所有.Tel/Fax:+86-10-62562563位置大数据隐私保护研究综述∗王璐,孟小峰(中国人民大学信息学院,北京100872)通讯作者:王璐,E-mail:luwang@ruc.edu.cn摘要:大数据时代移动通信和传感设备等位置感知技术的发展形成了位置大数据,为人们的生活、商业运作方法以及科学研究带来了巨大收益.由于位置大数据用途多样,内容交叉冗余,经典的基于“知情与同意”以及匿名的隐私保护方法不能全面地保护用户隐私.位置大数据的隐私保护技术度量用户的位置隐私,在信息论意义上保护用户的敏感信息.介绍了位置大数据的概念以及位置大数据的隐私威胁,总结了针对位置大数据隐私的统一的基于度量的攻击模型,对目前位置大数据隐私保护领域已有的研究成果进行了归纳.根据位置隐私的保护程度,可以把现有方法总结为基于启发式隐私度量、概率推测和隐私信息检索的位置大数据隐私保护技术.对各类位置隐私保护技术的基本原理、特点进行了阐述,并重点介绍了当前该领域的前沿问题:基于隐私信息检索的位置隐私保护技术.在对已有技术深入分析对比的基础上,指出了未来在位置大数据与非位置大数据相结合、用户背景知识不确定等情况下保护用户位置隐私的发展方向.关键词:大数据;位置大数据;位置隐私保护技术中图法分类号:TP311文献标识码:A中文引用格式:王璐,孟小峰.位置大数据隐私保护研究综述.软件学报,2014,25(4):693−712.英文引用格式:WangL,MengXF.Locationprivacypreservationinbigdataera:Asurvey.RuanJianXueBao/JournalofSoftware,2014,25(4):693−712(inChinese).:ASurveyWANGLu,MENGXiao-Feng(SchoolofInformation,RenminUniversityofChina,Beijing100872,China)Correspondingauthor:WANGLu,E-mail:luwang@ruc.edu.cnAbstract:Developmentofmobilecommunicationandsensingtechnologiesformslocationbasedbigdata,bringingrevolutiontohuman’sliving,businesspatternandscientificresearch.Diversityofusagepatternsandredundancyamongvarioussourcesoflocationbasedbigdatamakeitimpossibleforclassicallocationpreservationmethodstoprotectprivacysystemically.Privacypreservationforlocationbasedbigdatameasuresuser’slocationprivacyinallpossibleaspectsandthereforeprotectsuser’sprivacyininformationtheorysemantic.Startingwithanintroductiontotheconceptoflocationbasedbigdata,itsassociatedprivacythreatsandauniversalmeasurement-basedattackmodel,thispapersurveysthestateoftheartofprivacypreservationtechniquesforlocationbasedbigdata.Basedondifferentprivacyprotectingstrength,variousbigprivacypreservationtechniquescanbecategorizedintoheuristicprivacymeasurement,probabilitydeductionandprivateinformationretrievalbasedtechnologies.Theprinciples,mechanismsandcharacteristicsofvarioustechniquesaredescribedindetail,withspecialemphasisonaproceedingresearchtopic:Privateinformationretrievalbasedtechnology.Followingacomprehensiveanalysisandcomparisonofexistingtechniques,privacyprotectingforlocationbasedbigdata∗基金项目:国家自然科学基金(61379050,91224008);国家高技术研究发展计划(863)(2013AA013204);高等学校博士学科点专项科研基金(20130004130001)收稿时间:2013-08-13;定稿时间:2013-12-05;jos在线出版时间:2014-01-13CNKI网络优先出版:2014-01-1314:11,软件学报Vol.25,No.4,April2014undersituationslikecombinationoflocationinformationandnonlocationinformationandattacker’sarbitrarybackgroundknowledgeishighlightedasfutureresearchdirections.Keywords:bigdata;locationbasedbigdata;locationprivacy-preserving大数据时代,移动通信和传感设备等位置感知技术的发展将人和事物的地理位置数据化.移动对象中的传感芯片以直接或间接的方式收集移动对象的位置数据:一方面,内置在手机、车载导航等移动设备中的GPS,WiFi等定位设备可以直接获得移动对象任意时刻准确的位置信息,并经过各种途径发布这些采集的位置信息,比如,移动社交网络的一些新型应用可以发布任意时刻用户所处的位置信息[1];另一方面,近期得到广泛应用的可穿戴设备等传感设备采集到的加速度、光学影像等数据经过处理后也可以准确地确定使用者的位置信息[2−4].传感器自动采集位置信息的速度和规模远远超过现有系统的处理能力.根据统计,每个移动物体平均15s提交一次当前位置,这样,全球上亿手机、车载导航设备等移动对象每秒钟提交的位置信息超过1亿条[5].未来,移动传感设备的进步和通信技术的提升会更频繁地产生位置信息.大数据时代,这样的产生速度和数据规模为人们的生活、企业的运作以及科学研究带来巨大的变革[6].我们称这类由于包含位置信息且具有规模大、产生速度快、蕴含价值高等满足被普遍认可的大数据的特点[7]的数据为位置大数据.位置大数据在人们的生产与生活中有诸多运用:•一方面,从个人生活层面上说,通过推测一个人居住的地点和每天常去的地方,可以为他提供便捷的服务.例如:文献[8,9]利用人们大量的历史活动轨迹数据,为每个人的出行和旅游给出路线推荐;文献[10]根据当前的交通流量情况,为用户推荐可以乘坐的公共交通;总部位于亚特兰大的AirSage公司每天通过处理来自上百万手机用户的150亿条位置信息,为超过100个美国的城市提供实时交通信息[11].当前,这些基于位置大数据的新型服务逐渐形成了一个正在迅速增长的市场.一份来自PyramidResearch的调查报告显示,2010年,诸如导航或移动社交网络等基于位置的服务已具有28亿美元的市场.到2015年,这一数字将达到103亿美元[12];•更重要的是,位置大数据改变了商业运作方式并为科学研究提供了新的方法.例如,传统的车险业通过考虑一个群体的平均风险确定车险定价,当保险公司通过获得的车辆出行时间、常见行驶地点和实际行驶过程等位置大数据后,转变为对每个用户个性化的分析定价,改变了车险业的运作方式[13].与此同时,联合包裹运输公司(unitedparcelserviceincorporation)收集自己旗下运输车辆的行驶信息,为它们提供最佳行车路线以减少燃油、故障成本,在商业模式上取得了巨大成功.仅2011年,UPS公司旗下的车辆就节省了4828万公里的路程、1136万升的燃料和3万吨二氧化碳的排放,同时减少了容易出事故的路线[14].此外,无线数据科技公司(Jana)使用来自100多个国家的、超过200个无线运营商提供的、覆盖了拉丁美洲、非洲、欧洲的大约35亿人口的手机数据,试图回答疾病如何传播以及城市如何繁荣这样重大的科学问题[15].位置大数据在带给人们巨大收益的同时,也带来了泄露个人信息的危害.这是因为位置大数据既直接包含用户的隐私信息,又隐含了用户的个性习惯、健康状况、社会地位等其他敏感信息.位置大数据的不当使用,会给用户各方面的隐私带来严重威胁.已有的一些案例说明了隐私泄露的危害,例如:某知名移动应用由于不注意保护位置大数据,导致根据三角测量方法可以推断出用户的家庭住址等敏感位置,已引发多起犯罪案件[16].同时,某著名移动设备厂商在未获得用户允许的情况下大量收集用户的位置数据[17,18],攻击者可以通过这些位置数据推测用户的身体状况等个人敏感信息[19−21].而在为用户提供了合适的位置隐私保护后,更多的人愿意将自己的移动数据提交给智能交通、智能城市等分析系统,进而为人们的日常生活提供更多的便利.经典的位置隐私保护技术经过较长时间的发展,从最早将位置数据视为一般数据使用“知情与同意”[22]等访问控制方法发展到针对单个位置数据的匿名化隐私保护方法,再进一步完善到对轨迹数据的匿名化隐私保护方法.但是,“知情与同意”以及匿名化等经典的位置隐私保护方法在大数据时代不能有效地保护用户隐私:(1)大数据尚未想到的用途无法提前告诉用户,企业也无法承担发现位置大数据的创新性用途后通知每王璐等:位置大数据隐私保护研究综述695个用户并请求用户同意再进行使用的成本.因此,“知情与同意”等保护方法要么限制了对位置大数据价值的挖掘,要么无法保护个人隐私;(2)由于位置大数据来源众多,这些数据之间可以相互补充,最近的研究对精心匿名的位置数据进行了成功的反匿名化[23].大数据时代,经典位置隐私保护方法不能解决的主要问题是:攻击者可以从多种途径获得各个角度关于用户的位置数据或非位置数据,这些数据可以直接或者间接地重构出用户希望保护的位置隐私.比如:(1)单纯针对位置数据.用户在服务A中保护起来的数据可能在服务B中被泄露,如果攻击者同时获得服务A和服务B中的数据,就可以重构出用户的准确数据;(2)考虑位置与非位置数据相结合的情况.位置数据与非位置数据由于是同一用户产生,因此,用户的某些个性就成为了位置数据与非位置数据之间的联系.攻击者根据这些个性可以区分不同用户的位置数据,进而对用户的身份等敏感信息进行推测.位置大数据隐