大数据安全防护鲍旭华大数据防护威胁与挑战大数据防护体系与技术大数据防护实践与案例01/02/03/案例一:美国OPM信息泄漏•2015年7月,美国人事管理办公室(OPM)遭到黑客攻击,个人信息泄漏高达2570万条。–政府的前雇员和现任员工420万条信息泄漏,包括非公开雇员信息;•OPM主管凯瑟琳•阿楚丽塔宣布辞职。案例:雅虎5亿信息被盗信息内容:用户名、邮箱地址、电话号码、生日及哈希密码(大部分用bcrypt加密)相关背景:Verizon今年7月同意以48.3亿美元现金收购雅虎的网络资产,结束了雅虎旷日持久的寻求出售流程。纽约时报透漏,Verizon可能要求降价10亿美元。严重程度:最近就发起了一个检测项目:主要是要了解有多少第三方在使用雅虎的企业邮件服务。结果大约有57.2万域名使用雅虎的企业邮箱,绝大部分是美国公司。案例:山东徐玉玉电信诈骗案案件时间:2016年9月18日威胁对象:山东临沂女孩儿徐玉玉攻击目的:被骗走9900元学费,两天后心脏骤停离世威胁来源:内部工作人员倒卖数据,导致个人隐私泄露原因:大数据版图的分化原因:巨大的利益诱惑名称:《大数据:抓住机遇、保存价值》白皮书时间:2014年5月发布者:美国总统行政办公室现状:“在合法使用的传感器的海洋中,限制信息采集是一个巨大的挑战,几乎是不可能的。”“数据一旦被采集,就很难保持提供者的匿名性和隐私性。结论:“告知与同意框架已经被大数据所带来的正面效益打败了,大数据所带来的是新的、并非显而易见但十分强大的使用价值。”原因:复杂的生态体系大数据防护威胁与挑战大数据防护体系与技术大数据防护实践与案例01/02/03/大数据安全体系(狭义)大数据安全大数据安全体系(狭义)应用存储传输采集大数据生命周期安全挑战:数据采集器的伪造和假冒挑战:数据传输劫持挑战:保密性和可用性威胁挑战:隐私泄露大数据安全体系(狭义)响应检测防护预警大数据信息系统安全挑战:软件快速开发导致漏洞频现挑战:软件碎片化导致防护困难挑战:大数据系统组成的复杂性导致隐患挑战:大数据生态的角色复杂导致的取证和溯源难题大数据安全体系(广义)系统数据参与者入侵者信息隐私信任机制数据安全系统防护防止入侵者使用非法途径,获取非授权数据。防止入侵者使用非法途径,获取系统控制权限,或损害系统的正常运行。在参与者使用系统提供的合法途径获取授权数据的前提下,防止其结合外部知识,分析得到隐私信息。提供安全机制,使得参与者可以控制自己的信息,以什么形式被其他参与者获取。系统数据参与者入侵者信息隐私信任机制数据安全系统防护大数据安全体系——系统安全大数据安全VS安全大数据能够对抗核武器威慑的只有核武器。只有安全大数据能够对抗大数据威胁。VS系统数据参与者入侵者信息隐私信任机制数据安全系统防护大数据安全体系——信任机制数据提供者数据消费者大数据基础设施大数据应用提供者大数据行业监管者合规要求内容监管数据溯源CSBA同态加密加密搜索数据日志管理1978年,R.Rivest、L.Adleman和M.Dertouzos提出了“全同态加密”的概念2009年,CraigGentry提出了首个全同态加密方案“密码学的圣杯”步骤1:用户云端存储大量加密数据;步骤2:在云端对加密数据进行计算处理,将计算结果返回给用户;需求3:用户在本地解密,得到真实结果。场景1:步骤1:大量用户分别将加密数据传输到云端;步骤2:在云端对加密数据进行计算处理,将计算结果传递给接受者;需求3:接受者在本地解密,得到真实结果。场景2:2013年5月IBM推出的同态加密开源软件库;主要为同态加密的研究人员使用;提供简单运算功能,例如加法,乘法,移位运算等操作。HELib:由L.Ducas和D.Micciancio在2014年提出的方案提供全同态加密功能;符合GNU许可分发的开源软件支持对称加密算法对单bit数据的加解密FHEW:://github.com/lducas/FHEW效率:5-10分钟/1000明文值0.5秒/明文bit2010年启动DARPA推进的研究项目;目标是同态加密的实用化方法;有著名智库RAND公司进行战略性评估。美国Proceed项目2015年启动目的是具备与美国相当的竞争力以智能电网、犯罪侦查、公共卫星为三大目标应用场景开发软件和硬件工具库欧盟HEAT项目国内主要研究团队:中科院软件所可信计算和信息保障实验室中国电子科技集团30所保密通讯重点实验室清华大学王小云团队西安电子科技大学计算机网络与信息安全教育部重点实验室CASB——CloudAccessSecurityBroker系统数据参与者入侵者信息隐私信任机制数据安全系统防护Pseudonymisation:假名化Randomization:随机化Noiseaddition:加噪Permutation:置换Differentialprivacy:差分隐私Generalization:泛化Aggregation:聚类K-anonymity:K匿名算法L-diversity:L多样算法T-closeness:T接近算法Anonymisation:匿名化Encryption:加密Hashfunction:散列Tokenization:标记化链接攻击:通过对多张公开表的关联分析,确认匿名者的身份标识。属性攻击:通过对多张公开表的关联分析,确认目标的特定详细属性。概率攻击:通过关注目标个体在发布的数据集中,从而改变目标敏感信息的概率信念。链接攻击实例医疗公开数据选举公开数据大数据安全技术——K匿名模型姓名性别年龄身高疾病王强男25175乙肝慕庆男33170乙肝苏凤女28158肺炎曹坤男30165艾滋病张芳女58153高血压徐伟男49160糖尿病性别年龄身高疾病男25~35170~175乙肝男25~35170~175乙肝*25~30155~165肺炎*25~30155~165艾滋病*45~60150~160高血压*45~60150~160糖尿病目的:切断准标识符与敏感属性之间的一对一关系,来保护隐私信息免受链接攻击方法:抑制和泛化系统数据参与者入侵者信息隐私信任机制数据安全系统防护产生传输存储处理共享使用销毁数据源验证大规模传输加密非关系数据库加密存储隐私保护集群大数据交易平台安全数据防泄漏(DLP)数据销毁应用实例:数据指纹防泄密检测0x1678A0x461BD0x6678A0x4D1810xB678A指纹算法生成指纹文字提取存储指纹结果并建立索引指纹库100100011011101000100001000110010000101100000xB67510xB61C10x37CB20x5BD410x190C10xB67510xB61C10x37CB20x5BD410x190C1指纹算法生成指纹指纹比较10010001101110100010000100010xB61C10x37CB20x5BD41文字提取外送內容(邮件,Web,FTP,打印,等等)数据库or文档指纹指纹实时比较应用实例:机器学习文档分类分类文字提取外送內容(邮件,Web,FTP,打印,等等)财务报表学习人事任免投资规划举报材料分类器…分类器机器学习文件分类分类结果大数据防护威胁与挑战大数据防护体系与技术大数据防护实践与案例01/02/03/应用实例:数据源可信验证终端操作系统用户态终端操作系统内核态自保护驱动可信数据区可信进程1可信进程2可信模块1可信模块2可信网络通信模块普通进程1普通进程2普通数据区通过自保护驱动和数字签名建立本地信任域,数据从一开始就在这个可信域当中,可防止本地被篡改。可信网络传输模块本身也在这个可信域当中,信任被传递到网络传输上。通过高级的驱动手段,保证搜集到的数据是可信的应用实例:云基础设施安全虚拟化资源池控制应用HIPSvWAFvFWSDNcontrollerThinProvisionvCPUvSwitch物理设施安全控制平台云安全管理平台HPEclusterWeb漏扫病毒查杀webshell账户安全全模块审计防病毒网络防护Hypervisor防护主机加固数据库资产可视化APPAS管理平台适配资源池对接挑战:宿主机安全应对:漏洞挖据和安全攻防挑战:虚拟机逃逸应对:大数据安全审计应用实例:大数据系统源码安全监测具有自主知识产权的国产源代码安全产品。支持Windows、Linux、Android等多种操作系统平台上软件源代码的安全检测。支持C/C++/C#/ASPX/JAVA/JSP/PHP/Python等主流编程语言。应用实例:大数据安全审计管理网络采集网络互联网大数据系统大数据行为审计业务网络IP,DNS,flow,query…网关网关网关威胁情报知识库THANKSb.360.cn