____________________________大数据脱敏项目建设方案____________________________2016年5月大数据脱敏项目建设方案第1页共18页目录第1章概述..................................................................................................21.1.大数据现状说明................................................................................21.2.大数据安全现状分析.........................................................................2第2章建设目的...........................................................................................3第3章项目范围...........................................................................................3第4章建设原则...........................................................................................3第5章大数据安全建设方案.........................................................................45.1.大数据脱敏方案................................................................................45.1.1.大数据脱敏设计架构...................................................................45.1.2.大数据脱敏工作原理...................................................................55.1.3.大数据敏感数据发现...................................................................75.1.4.大数据脱敏技术方案...................................................................95.2.大数据安全系统配置部署................................................................155.2.1.系统部署架构...........................................................................155.2.2.硬件设备清单...........................................................................155.2.3.软件清单...................................................................................165.2.4.兼容性设计...............................................................................165.2.5.可靠性设计...............................................................................16第6章附录................................................................................................176.1.大数据安全调研表...........................................................................17大数据脱敏项目建设方案第2页共18页第1章概述1.1.大数据现状说明随着大数据规模性、多样性、高速性、真实性特征的逐步显现,以及数据资产逐渐成为现代商业社会的核心竞争力,大数据对行业用户的重要性也日益突出。世界经济论坛报告认为,“大数据为新财富,价值堪比石油”,大数据之父维克托则预测,数据列入企业资产负债表只是时间问题。同时,大数据将推动国民经济各行业各领域的创新应用,电子政务、电子商务都将发生变化,信息资源的战略重要性空前鼎盛,大数据将成为经济社会管理决策的基本平台。另外,大数据也将引领商业模式的重要创新,传统商业模式将开展大数据的挖掘,信息服务商将利用大数据开展个性化服务,移动互联网将开辟新型商务模式。大数据所能带来的巨大商业价值,被认为将引领一场足以与20世纪计算机革命匹敌的巨大变革。大数据正在对每个领域造成影响,在商业、经济和其他领域中,决策行为将日益基于数据分析,而不再是凭借经验和直觉。大数据正在成为政府和企业竞争的新焦点。各大企业正纷纷投向大数据促生的新蓝海。Oracle、IBM、MicroSoft和SAP共投入超过15亿美元成立各自的软件智能数据管理和分析专业公司。在大数据时代,商业生态环境在不经意间发生了巨大变化:无处不在的智能终端、随时在线的网络传输、互动频繁的社交网络,让以往只是网页浏览者的网民的面孔从模糊变得清晰,企业也有机会进行大规模的精准化的消费者行为研究。大数据将成为未来竞争的制高点。1.2.大数据安全现状分析基于Hadoop生态系统的大数据平台随着企业的不断采用及开源组织的持续的优化、增强,已逐渐成为大数据平台建设的标准产品。然而Hadoop最初的设计并未考虑其安全性,这些平台专注于发展数据处理能力,忽视了其他能力的发展,但Hadoop生态系统作为一个分布式系统,承载了丰富的应用,集中了海量的数据,如何管理和保护这些数据充满了挑战,当前市场上,大数据平台在数大数据脱敏项目建设方案第3页共18页据本身的安全管控方面普遍存在严重缺失和较大的漏洞。从企业内部来说,大数据平台的安全管控能力缺失,使得平台在数据存储、处理以及使用等各环节造成数据泄露的风险较大,安全风险面广,且缺乏有效的处理机制;另一方面,企业敏感数据的所有权和使用权缺乏明确界定和管理,可能造成用户隐私信息的泄露和企业内部数据的泄露,直接造成企业声誉和经济的双重损失。从外部来看,数据即价值,大数据平台中复杂、敏感、全面的数据无疑会吸引更多的潜在攻击者。同时,数据的大量汇集,使得黑客成功攻击一次就能获得更多数据,极大降低了黑客的进攻成本。因此,大数据将有可能成为网络攻击的显著目标。大数据平台安全能力的严重缺失和风险的普遍存在,导致大数据平台本身是脆弱的,对企业数据安全造成了极大的风险,对企业来说是难以忽视的风险点。第2章建设目的通过本项目实施,可以实现如下目标:1、针对大数据敏感数据信息,设计并落实敏感数据安全解决方案,实现敏感数据的模糊化,确保敏感数据信息安全可靠;2、通过大数据平台安全方案的建设,填补XXXX大数据平台数据安全防护方面的空缺,有效降低大数据安全管控方面的风险。第3章项目范围大数据平台范围:本项目范围适用于基于开源Hadoop架构的大数据平台环境,包括Mapreduce、HDFS、Hive、HBse等大数据组件。第4章建设原则大数据安全方案设计建设应遵循实用性、前瞻性、兼容性原则,其中:适用性原则:必须适用XXXX实际大数据环境,能够与大数据平台顺利结合,发挥安全管控效用;大数据脱敏项目建设方案第4页共18页前瞻性原则:平台架构设计具有良好的前瞻性和扩展性,充分考虑未来大数据新技术的发展;兼容性原则:大数据安全平台应兼容基于Hadoop的各版本的要求,包括发布版和开源版本。安全性原则:系统采取全面的安全保护措施,采用严格的访问控制机制、系统冗余机制、数据保密机制等,保证安全平台的安全性。第5章大数据安全建设方案5.1.大数据脱敏方案5.1.1.大数据脱敏设计架构大数据平台脱敏及模糊化模块主要包括两大功能:敏感数据发现和敏感数据脱敏。架构设计如下图所示:通过设置敏感数据发现策略,平台自动识别敏感数据,发现敏感数据后产生报警,保障数据在产生阶段安全。敏感数据发现功能包括如下内容:敏感信息规则库建立关系型数据检测敏感内容描述检测敏感数据脱敏:针对Hadoop平台Hive、Hbase大数据存储组件结合用户权限提供动态数据脱敏功能,保障敏感数据访问安全,同时基于大数据安全分析大数据脱敏项目建设方案第5页共18页技术,发现敏感数据访问的异常行为,并提供敏感数据视图,实现全局化数据管理和对各种类别敏感数据脱敏的精细化管理。数据脱敏及模糊化功能模块是在数据库层面对数据进行屏蔽、加密、隐藏、审计或封锁访问途径的方式。该模块作为一个网关形式部署,所有需要进行敏感数据动态脱敏的应用系统需通过该产品实现对数据库的访问。数据脱敏:当应用程序请求通过敏感数据脱敏模块时,对其进行实时筛选,并依据用户角色、职责和其他定义规则对敏感数据进行脱敏处理。脱敏的方式包括如下几种形式:数据替换-以虚构数据代替真值;截断、加密、隐藏或使之无效-以“无效”或*****代替真值;随机化-以随机数据代替真值;偏移-通过随机移位改变数字数据;访问预警:在大数据应用正常访问行为模型自学习基础上,进行应用异常行为分析、发现及告警功能强化应用安全管控,保证数据安全。5.1.2.大数据脱敏工作原理通过认证授权服务进行认证登录后,使用JDBC方式对大数据平台数据仓库进行操作,根据控制、规则策略、防火墙网络阻断等技术手段,达到模糊化要求,再分配给业务、运维人员使用。大数据脱敏项目建设方案第6页共18页用户接口层:用户接口主要有三个:CLI,Client和WebUI。其中最常用的是CLI,Cli启动的时候,会同时启动一个Hive副本。Client是Hive的客户端,用户连接至HiveServer。在启动Client模式的时候,需要指出HiveServer所在节点,并且在该节点启动HiveServer。WUI是通过浏览器访问Hive。本方案采用Client客户端Beeline的方式对Hive进行操作。数据脱敏平台:客户端通过数据脱敏平台登录Hive后,对Hive进行操作。通过脱敏策略配置,使用户可访问数据进行脱敏,通过数据异常行为分析、发现,进行数据访问告警,保护敏感数据安全,并在WEB前端进行视图展示。数据存储:Hive将元数据存储在数据库中,连接到这些数据库(mysql,derby)的模式分为三种:单用户模式、多用户模式、远程服务器模式。元数据包括Database、表名、表的列及类型、存储空间、分区、表数据所在的目录等。Driver:完成HQL的查询语句的词法分析、语法分析、编译、优化及查询计划的生成。生成的查询计划存储在HDFS中,并由MapReduce调用执行。大数据脱敏项目建设方案第7页共18页Hadoop环境:Hive的数据存储在HDFS中,针对大部分的HQL查询请求,Hive内部自动转换为MapReduce任务执行。5.1.3.大数据敏感数据发现5.1.3.1.建立大数据敏感数据规则防止敏感信息泄漏威胁的首要步骤是定义企业敏感信息,通过建立敏感信息样本库,定义企业的敏感信息的具体特征。敏感信息库内置企业各类敏感信息的识别规则,包括但不限于:身份证号码手机号码生日信用卡号码