大数据下的隐私保护陈克非kfchen@sjtu.edu.cn2014.11.121西安、贵阳行网上订机票引出的事2无处不在的大数据网络应用,移动终端,穿戴设备,。。。个人数据可以随处采集3例:Google预测流感趋势2009.2.19,Nature上刊登了一篇关于Google预测flutrends的文章。流行病学家发现,Facebook、Twitter这类社交网站和谷歌等网络搜索引擎,对于流感传播情况的了解,比世界卫生组织(WHO)或美国疾病控制与防御中心(CDC)等官方机构的报告来得还快。通过Twitter上的数据,可提前八天预报。4大数据时代的安全技术发展助推应用产生了大量数据新的技术使大数据很容易被任何人采集利用个人隐私受到空前的威胁5典型的安全事件系统类事件2010.9,发现Google员工利用职权查看了多个用户的隐私数据2011.3,Google邮箱再爆大规模用户数据泄漏,涉及15万用户2011.4,Amazon的EC2云计算服务被黑客租用,对SonyPlayStation网站进行了攻击,造成了大规模用户数据的泄露2012.8,苹果公司的iCloud云服务受到黑客攻击,黑客暴力破解用户密码后,删除了部分用户资料,而云平台并未备份用户数据导致了用户数据的丢失,并致使用户Gmail和Twitter账号被盗2014.8,美版“艳照门”iCloud数据外泄2014.10,摩根800万客户资料泄露斯诺登事件貌似有信誉的商家如政府不靠谱,用户的安全需要自己把握人肉搜索事件对隐私造成巨大威胁且防不胜防6隐私是什么?隐私一般是指仅与特定人的利益或者人身发生联系且权利人不愿为他人所知晓的私人信息、私人事务和私人领域。隐私泄露的关键是某些数据、信息与个人发生关联,而作为个体的人则通过特定的个人标识信息信被准确锁定个人辨识信息PII(PersonalIdentifiableInformation):用户的姓名、手机号、身份证号、电子邮箱、住址、图片等;个人相关信息:属于准标识符(Quasi-identifier),如年龄、性别、种族、职业、公司、遮挡的图片等,并不与任何PII直接联系在一起;个人属性信息:是把个人准标识符进一步泛化的模糊信息,如青年人(或20-30岁)、南方人、白领、照片剪影等等。注:1)准标识符信息虽然不能直接指向具体的人,但是把这些条件组合在一起,还是很有机会匹配到确定的个体,从而有隐私风险。2)用进一步泛化的模糊用户属性解决“Quasi-identifier”的问题,也就是把能够辨识出个体的信息“虚化”,确保符合属性的个体有足够多的数量,从而无法准确与个体关联,这就所谓的k-anonymity概念。显性隐私隐性隐私7需要保护的隐私在网络环境,部分隐私就关呼个人数据的权利问题。所谓个人数据,是指用来关联个人基本情况的一组数据资料①个人登录的身份、健康状况。在申请上网开户、免费邮箱以及申请服务商提供的其他服务时,服务商往往要求用户相关信息,服务商有义务和责任保守个人秘密,未经授权不得泄露。②个人的信用和财产状况,包括信用卡、电子消费卡、上网卡、上网帐号和密码、交易帐号和密码等。个人在上网、网上消费、交易时,登录和使用的各种信用卡、帐号均属个人隐私,不得泄露。③邮箱电址,不少用户不愿将之公开。掌握、搜集用户的邮箱并将之公开或提供给他人,侵犯了用户的隐私权。④网络活动踪迹。个人在网上的活动踪迹,如IP地址、浏览踪迹、活动内容,均属个人的隐私。⑤个人的图片和音像。通过图像识别技术,搜索引擎可以准确定位到人,并找到与之关联的其他资料⑥其他。从部分已知信息挖掘关联出一系列个人其他资料(喜好习惯、生活规律等)。8例:网上晒照片造成隐私泄露某明星在上晒出居室照片被定位通过分析照片GoogleEarth微博等各种信息人肉搜索事件9例:k-匿名技术通过属性泛化实现模糊信息10例:k-匿名技术的效用k-匿名技术的核心,使符合相关属性的个体数目巨大,无法找到唯一解,至少增加求解的难度。大数据时代的现状存在“取之不尽,用之不竭”的关联数据、关联方程搜索引擎和各种数据挖掘、数据分析、数据关联技术云计算为代表的新型计算资源可以为大众提供廉价服务有效保护隐私?很难!11保护隐私该做什么用户自我保护意识慎用云存储:上传重要、敏感数据尤其小心不要随意注册:很多网站要求填写个人信息小心玩社交网:朋友圈内的资料难保不被泄露尽量不提供个人辨识信息,如网购送货到指定地点服务提供商要担当有义务保护用户数据不得滥用用户资料12加强隐私保护研究研发隐私保护技术割断用户数据与用户辨识信息的联系,尽量不直接使用个人辨识信息。例如产生随机数R替代个人辨识信息PII(类似于TSMIIMSI);对数据进行必要的分割和拆分,尽可能去除不同数据项的关联性,去除数据内容与个人辨识信息的联系;建立混合云框架,结合私有云和公有云形成兼顾云计算优点有可以对敏感数据重点保护的有效机制;……。13隐私感知的混合云分割存取技术1.合理利用公有云和私有云资源,在两者之间合理分配计算任务,既充分利用公有云的资源、又有效保护用户隐私并保留数据的效用;2.两类隐私信息区分处理:数据记录本身包含的隐私信息,以及数据记录之间关联关系蕴含的隐私;3.分割中,相对独立的数据分配给独立的云平台计算,减少云间通讯。公有云n私有云公有云1......敏感数据非敏感数据1非敏感数据n混合云架构设计针对隐私云数据的分割存取需求,建立一个基于混合云的大规模数据存取框架,该框架由一个私有云和多个公有云组成,以充分发挥公有云丰富且廉价的计算资源的优势。14隐私感知的混合云分割存取技术需要一个隐私感知的数据分割机制,分离数据中的敏感信息,并去除不同数据项之间关联关系,将分割后的数据计算任务分配给不同的公有云和私有云。分割处理:一方面能防止隐私信息泄露,另一方面仍支持数据挖掘算法。种族生日性别邮编疾病Black09/20/65M02141ShortofbreathBlack02/14/65M02141ChestpainBlack10/23/65F02138HypertensionBlack08/24/65F02138HypertensionBlack11/07/64F02138ObesityBlack12/01/64F02138ChestpainWhite10/23/64M02138ChestpainWhite03/15/65F02139HypertensionWhite08/13/64M02139ObesityWhite05/05/64M02139ShortofbreathWhite02/13/67M02138ChestpainWhite03/21/67M02138Chestpain云1云215针对加密云数据的信息检索需求,需要一套具备隐私保护、支持复杂搜索条件的加密云数据检索技术,既允许用户高效灵活地查询加密云数据,又能保护用户搜索条件的隐私。用户云数据中心文件密文KP-ABE.Enc()索引表索引表密文上传令牌搜索条件用户KP-ABE.GenToken()KP-ABE.Enc()复杂搜索条件的加密云数据搜索技术1.利用密码手段,包括同态加密、KP-ABE密码方案--保证数据内容不外泄、扩散--搜索条件的隐私保护2.为了搜索速度,将通常的检索列表扩展为新的组合索引表16可验证的加密云数据外包计算技术针对加密云数据的计算处理需求,研究加密云数据的外包计算技术,既允许云提供商在不知道用户数据的情况下仍能为用户计算处理数据,保护了用户的数据隐私性,又能让用户验证外包计算结果的正确性。外包数据外包服务器(不可信)外包计算(资源有限)计算请求结果,标签数据,标签外包计算合成标签1.建立云数据外包密文计算系统的形式化安全模型2.需要加密数据的可验证外包计算的安全方案17加密云数据的高效共享分发针对云数据的共享需求,研究加密云数据共享分发技术,既允许用户高效地与其他用户共享加密云数据,又可以保护用户共享条件的隐私性云数据中心用户A用户B转换钥rk利用转换钥rk将指定加密数据转换为针对用户B的密文CB=CPRE.EncPKB(m)云服务提供商或第三方图一.利用条件代理转换加密(CPRE)解决数据共享问题1.设计高效安全的条件代理重加密来实现数据共享2.为满足隐私性,要求条件代理重加密方案的条件具有匿名性3.为提高效率性,要求方案具有固定的密文长度(即密文长度与共享条件表达式中条件个数无关)18云数据隐私保护系统私有云公有云(1)隐私感知混合云存取非敏感数据敏感数据(2)功能加密(3)密文索引索引表密文密文数据敏感数据数据共享用户数据计算用户数据搜索用户(2)密文计算(3)密文搜索(4)密文共享/分发密文数据索引表密文用户可以通过隐私感知的混合云存取技术对数据作分离,将数据分别存到公有云和私有云中通过支持复杂搜索条件的加密云数据检索技术,用户可以对相关数据进行高效灵活检索利用可验证的加密云数据外包计算技术,用户可以借助云服务提供商对加密后数据进行计算处理,并验证计算结果的正确性利用云数据的高效共享分发技术,能服务于不同的应用系统,满足应用对于共享服务的需求19大数据下隐私保护任重道远建立云数据隐私保护系统架构,应用尽可能多的密码和匿名服务技术,可以在一定程度上缓解用户数据泄露和安全风险现有的技术可保护显示隐私数据而对于蕴含的隐私数据保护未必有效对隐私的最大威胁大量零散的数据是否蕴含有隐私是否可能对所有数据都实施保护不相干的数据间挖掘出关联关系问题有解吗?20谢谢!21