大数据系统安全技术大数据系统安全技术中科曙光2014-052014-05目录大数据系统安全概述1223大数据系统访问安全43大数据系统内容安全4大数据系统存储安全5555大数据系统运维安全66大数据安全技术应用大数据无处不在信息系统架构演变大数据系统安全重要性大数据系统安重要性数据爆发式增长,信大数据给信息安全提安全威胁大大提高,息成为战略资产•大数据市场年增迅速,出了新的挑战•数据泄密影响重大:攻击者背景更加复杂•安全威胁的目标性、隐近5年平均增速50%以上•大数据技术影响到国家Saleforce,Googlegtalk,CSDN,天涯等相继被曝用户数据泄漏蔽性、破坏性都大大增加,攻击者的动机、目的、方法变得更加复杂大数据技术影响到国家治理、企业决策和人民生活相被曝用户数据泄漏•制约大数据业务的融合和应用发展的、方法变得更加复杂•针对云计算和大数据应用的攻击成为新的攻击方向方向大数据系统安全技术体系保证访问控制的安全保证系统管理和运维安全保证访问控制的安全•访问权限认证•流量和访问质量控制•用户访问行为监控保证系统管理和运维安全•安全策略管理•系统安全审计•用户和权限管理•用户访问行为监控•访问敏感信息告警、阻断和追踪访问运维•用户和权限管理•配置基线检查•漏洞和补丁管理访问安全运维安全内容存储内容安全存储安全保证数据内容的安全•大数据去隐私化技术:数保证数据存储的安全•存储介质加密访问技术据加密,限制发布,数据失真•多维度审计技术:用户、数据对象字段敏感内存储介质加密访问技术•文件加密存储技术•分布式存储分片加密和解密技术数据对象、字段、敏感内容等审计密技术•数据备份和容灾大数据安全处理平台系统架构业务A业务支撑层业务B业务C…安全运维管理层业务D安全策略管理策略策略应用接口层安全访问认证模块安全审计策略管理策略部署应用接口层数据访问接口(类SQL,JDBC库,ETL工具)数据访问接口(类SQL,JDBC库,ETL工具)访问安全审计管理事件管理关联分析数据处理层安全大数据处理引擎去隐私化加载模块策略化数据抽取大数据多维度审计大数据访问监控访问安全配置基线检查身份认证弱口令检查Hadoop*接口数据库接口全文检索接口数据处理层配置基线检查合规检查变更管理基线监控批量加载服务分析查询服务数据迁移转换服务数据定义服务p接数据库接文检索接系统监控漏洞扫描状态监控资源监控安全访问认证模块HDFS/Hbase/Hive/DBHDFS/Hbase/Hive/DBHDFS/Hbase/Hive/DBHDFS/Hbase/Hive/DB数据存储层版本补丁管理版本检测补丁分发升级管理大数据系统安全关键技术z各类型数据存储和处理技术z大数据系统统一策略管理z各类型数据存储和处理技术z配置基线检查和监控技术z策略化抽取和集成技术z大数据并行去隐私化技术z策略化抽取和集成技术z多维度大数据审计技术访问行为追踪技术z访问监控和报警技术z访问行为追踪技术目录大数据系统安全概述1223大数据系统访问安全43大数据系统内容安全4大数据系统存储安全5555大数据系统运维安全66大数据安全技术应用大数据系统访问安全大数据系统访问安数据访问权限数据访问权限问权限控制问权限控制访问安全访问安全数据访问流量控制数据访问流量控制敏感信息访问控制敏感信息访问控制安全安全控制控制控制控制数据访问传输数据访问传输问传输控制问传输控制数据访问权限控制数据访问权限控制z分权分域¾针对不同的数据对象、用户、角色分配访问权限¾面向系统管理员,各类数据分析人员,审计人员等z数据网关¾聚合数据访问,支持内外网分离,多网络负载均衡¾数据访问方式,清洗、转换、加载、查询、挖掘等数据网关大数权加载数据网关数据节点数据节点数据数据数据节点数据据安全访问接口用户限控制层查询挖掘数据节点数据节点数据节点口层…… …数据访问流量控制数据访问流量控制z流量控制技术(基于DPI的协议识别技术)z流量控制技术(基于DPI的协议识别技术)¾基于TCP窗口整形的流控技术¾基于队列的流控技术¾基于队列的流控技术¾基于干扰的流控技术z防止互联网广播风暴或者病毒/木马造成网络瘫痪z防止互联网广播风暴,或者病毒/木马造成网络瘫痪AA’’BCB’C’流量控制流控制数据访问传输控制软件加密传输软件加密传输数据访问传输控制•传输之间进行数据加密,如:S/MIME加密邮件传输软件加密传输软件加密传输安全网络协议安全网络协议•建立安全信息通道,SSL,安全套接字层等•基于口令的安全认证系统安全认证系统安全认证•基于口令的安全认证•基于密钥的安全认证敏感信息访问控制敏感信息访问控制z访问敏感信息监控和告警访问敏信和警¾访问内容和访问行为的监控¾访问权限频率敏感字段敏感操作异常操作等可进行告警¾访问权限、频率、敏感字段、敏感操作、异常操作等可进行告警z针对异常访问的操作限制¾防止非法访问和非法操作等¾告警访问、限制访问、阻断访问策略配置监控告警限制阻断访问追踪策略配置•配置访问策略•策略下发生效•监控访问行为•访问异常检测限制阻断•限制访问频率•阻断用户访问访问追踪•用户访问追溯•访问统计分析目录大数据系统安全概述1223大数据系统访问安全43大数据系统内容安全4大数据系统存储安全5555大数据系统运维安全66大数据安全技术应用大数据系统内容安全大数据系统内容安大数据系统包含大量的大数据系统包含大量的大数据内容保护在数据大数据内容保护在数据大数据系统提供对内容大数据系统提供对内容大数据系统包含大量的敏感信息,须加强对数据内容的保护大数据系统包含大量的敏感信息,须加强对数据内容的保护大数据内容保护在数据读写时,对内容进行相应的处理大数据内容保护在数据读写时,对内容进行相应的处理大数据系统提供对内容保护的算法优化大数据系统提供对内容保护的算法优化据内容的保护据内容的保护即使获得数据即使获得数据应的处理应的处理组件的部署方式组件的部署方式即使获得数据,也不能造成安全威胁即使获得数据,也不能造成安全威胁组件的部署方式,读取和写入时进行处理组件的部署方式,读取和写入时进行处理提供新计算模型提供新计算模型对数据内容进行对数据内容进行提供新计算模型下的算法优化技术提供新计算模型下的算法优化技术防止内部人员对数据的泄露防止内部人员对数据的泄露对数据内容进行审计、监控、告警阻断和追踪对数据内容进行审计、监控、告警阻断和追踪警、阻断和追踪警、阻断和追踪大数据去隐私化大数据去隐私化基于失真的隐私保护技术•随机化:随机扰动,随机化应答•阻塞、凝聚、交换等技术•支持度和置信度支持度和置信度基于加密的隐私保护技术基于加密的隐私保护技术•安全多方计算:SMC问题,分布式计算协议•分布式匿名化:k-TTP模型分布式关联规则挖掘和分布式聚类•分布式关联规则挖掘和分布式聚类基于限制发布的隐私保护技术基于限制发布的隐私保护技术•两种基本操作:抑制、泛化•K-匿名、l-diversity、t-近邻匿名、y、近邻大数据多维度审计大数据多维度审计访问频率统计字段属性和约束访问频率统计用户访问轨迹用户行为趋势字段属性和约束访问和操作权限访问记录和监控象敏感敏感访问对象审计敏感字段敏感内容访问行为对象属性和约束访问和操作权限敏感记录访问敏感信息过滤访问和操作权限访问阻断和告警敏感信息过滤敏感信息统计大数据内容保护优化算法大数据内容保护优化算法窃密或排序合并数据分片窃密或攻击Map排序合并split数据Reduce排序合并splitsplit算法实现匿名化数据数据分片MapHDFS文件split算法实现Reduce排序合并split算法实现数据分片Map算法实现算法实现目录大数据系统安全概述1223大数据系统访问安全43大数据系统内容安全4大数据系统存储安全5555大数据系统运维安全66大数据安全技术应用大数据系统存储安全大数据系统存储安存储认证数据加密存储认证第三方认证系统对用户和权限进行设置和认证数据加密数据条、对象、文件等不同粒度的加密和解密技术存储安全认证解密技术备份容灾副本和分片数据多副本级副本摆数据导入导出,备份恢复,容灾方案等数据多副本级副本摆放和访问策略,数据分片和冗余存储数据分布式加密数据分布式加密分布式加分布式加分布式加密技术分布式加密技术加密层次加密层次加密要素加密要素加密层次加密层次加密要素加密要素文件系统层加密文件系统层加密应用软件对数据加密应用软件对数据加密中间件加密中间件加密加密粒度加密粒度密钥管理密钥管理数据分布式存储D0D1Node1Node1D0D0Node2Node2D1D1Node3Node3P0P0Node4Node4D2D2Node5Node5D3D3D2D3D4D4D4D5D5D6D6P1P1D7D7D5N+M:B,N代表数据块量,M代表容忍故障的磁盘数量,B代表容忍故障节点的数量。例如本例D6D78+2:1,表示集群可以丢失2块磁盘或1个节点而不至于数据丢失。在这种配置下,空间利用率可达到80%。D7数据备份容灾数据备份容灾数据备份数据快数据快数据恢复数据导入数据导入数据容灾数据同步数据同步数据快照数据快照完全备份完全备份数据导入数据导入数据迁移数据迁移数据同步数据同步致性检查致性检查完全备份完全备份增量备份增量备份数据迁移数据迁移批量导入批量导入一致性检查一致性检查远程镜像远程镜像增量备份增量备份条件导出条件导出批量导入批量导入索引维护索引维护远程镜像远程镜像异地容灾异地容灾条件导出条件导出副本和压缩副本和压缩索引维护索引维护异地容灾异地容灾故障切换故障切换存储认证存储认z大数据系统依靠外围可靠的认证系统。z使用对称钥匙操作比SSL的公共密钥快z使用对称钥匙操作,比SSL的公共密钥快。z操作简单,如废除一个用户只需要从KDC数据库中删除即可。目录大数据系统安全概述1223大数据系统访问安全43大数据系统内容安全4大数据系统存储安全5555大数据系统运维安全66大数据安全技术应用大数据系统运维安全大数据系统运维安身份身份认证配置系统配置基线系统监控运维安全安全补丁管理漏洞扫描管理安全扫描审计身份认证用户拥有手机,邮箱USBkey,IC卡证书用户拥有的东西IC卡,证书,动态口令,…用户名/密码密码提示问题,密码提示问题,验证码,…用户身份认证技术用户的身体特征用户知道的信息认证技术体特征的信息指纹识别掌纹识别多因素结掌纹识别人脸识别语音识别虹膜识别动态口令+静态密码,USB合认证虹膜识别Key+静态密码,…配置基线配置基线z快速检索系统安全配置的自动解决方案快速检索系统安全配置的自动解决方案z确保关键的可执行文件,配置文件的内容权限属性等不被恶意修改容、权限、属性等不被恶意修改z配置基线的完整性/合法性检查、变更管理和监控配置完整性检验•可执行文件•系统配置文件配置变更管理•配置文件基线•配置基线变更基线合规性检查•系统基线构建•内容权限检查配置基线监控•自身安全脆弱性•定时检测和告警•系统配置文件•配置基线变更•内容权限检查•定时检测和告警版本和补丁管理版本和补丁管理软件版本软件版本子系统软件版本号子系统软件版本号Patch版本号Patch版本号版本和补丁检测版本和补丁检测软件版本软件版本Patch版本号Patch版本号厂家包版本号厂家包版本号软件补丁软件补丁分类:接口、修正性、问题补丁分类:接口、修正性、问题补丁功能版本检测补丁分发升级功能版本检测补丁分发升级功能:版本检测、补丁分发、升级功能:版本检测、补丁分发、升级安全审计安审计安全审计网络安全审计数据库安全审计业务运维安全审计日志审计审计全审计安全审计漏洞扫描漏洞扫描漏洞分类漏洞分类•应用软件漏洞:等•操作系统漏洞:windows中RPCNETBOIS漏洞等操作系统漏洞:windows中RPC,NETBOIS漏洞等扫描方法扫描方法扫描方法扫描方法•特征匹配:基于规则的模式特征匹配插件技术插件进行检测包括错简单络•插件技术:调用插件进行检测,包括错误配置、简单口令、网络协议漏洞等系统监控系统监控集中存储数据汇