数据中心业务连续性保障技术的探讨来源:本站原创作者:文‖北京邮电大学信息安全中心副教授、灾备技术国家工程实验室副点击次数:3次时间:2014-11-21近年来,金融系统的信息安全事件依旧频频发生,数据的集中存储、管理、运维所面临的风险问题依旧严峻。在大数据时代下,保障金融业务系统的高效、稳定、持续运维,对数据中心的安全运营和管理提出了更高的要求。数据中心业务连续性面临的挑战1.传统的基于简单备份冗余的容灾体系结构不适应当前复杂的网络计算环境。金融业数据中心承载着大量的大型机、小型机、服务器、存储设备、应用系统和数据,数据和业务及应用系统的集中化,导致了传统的备份冗余的容灾体系结构已不适应日趋复杂的网络计算环境,数据大集中的模式使数据系统的脆弱性在不断地增加,IT系统连续性面临的压力越来越大。2.目前建立的灾难备份系统滞后于云计算等技术的发展趋势。随着云技术的应用,数据大集中是企业信息化发展的必然趋势,但是与这个趋势相应的灾备建设相对滞后。目前的灾难备份系统,广泛存在着监控分析、故障诊断、自动化程度不高、应对突发事件和抗风险的能力薄弱、灾备技术储备不足、关键技术由国外厂商垄断等的现状。另外,数据存储服务必须是可伸缩的,但对外部来讲并不是透明的,因此很难清晰定义安全边界和保护设备,为具体保护措施的实施增加了一定难度,而且也使得传统的安全域划分无效,这些都增加了数据中心的安全风险。3.数据大集中给信息系统带来的技术挑战。在结构化和非结构化数据爆炸式增长下,数据存储的结构差别大、异构性强。用户对于信息系统提供的服务要求也越来越高,很多关键业务的可用性要求达到99.99%。然而,当前可利用的灾备技术在大量结构化和非结构化数据面前,存在着难以恢复、恢复复杂、恢复时间长、恢复效率低等诸多技术挑战。譬如,数据存储的安全性防护机制不完善,如何实现数据之间的逻辑卷管理、存储虚拟化管理和多链路冗余管理,保证数据的安全性和可用性等,将是巨大的难题,而且还会带来后期容量和性能扩展难等一系列问题。采取预防措施,避免风险1.加强灾备中心的标准化建设。目前国际上虽然已经推出了一些灾备技术标准,但是无论在数量和质量上,还远远无法满足灾备市场的需要。国际上灾备研究虽然较早,但是近年来存储技术的发展和网络技术的不断涌现,使得灾备实用化标准还很欠缺。我国信息化系统具有行业分布广、信息化层次参差不齐、信息量巨大的特点,这决定了新建立一个统一的标准来规范所有的信息化系统变得不现实。目前,灾备中心相关标准比较缺乏,因此,建立一个集合通用标准集和专用标准集的灾备标准体系,成为当务之急。灾备相关标准的建设,不仅包括技术类、系统类、安全类、产品类标准,还应包括运维、服务管理、测试验证等系列标准,标准体系的建设可以简化灾备中心系统管理,降低运营成本。2.构建灾备中心设备成熟度评价体系,提升全生命周期过程中的运维服务能力。建设灾备产品成熟度评估体系和指标体系,可借鉴第三方测评机构对设备、生产及测试环境进行成熟度评估,同时加强标准的建设工作,努力提升全生命周期过程中的业务系统服务能力。在运维管理层面,可以从事前、事中和事后对数据中心的运维进行评估。事前:进行深度模拟验证,减少软、硬件升级和部署风险。建立一套与生产环境软、硬件设备尽量相似的测评验证平台,仿真与本企业业务容量相当的交易请求,对新版本软件和硬件进行验证测试,减少软、硬件升级或增加新设备时的风险。事中:关注运维度量,提前预防系统事故。部署统一的运维度量平台,实现对数据中心计算、存储、网络以及风、火、水、电等设备的全监控和度量,并引入大数据分析技术,实时分析并预测数据中心的故障点,降低对数据中心运维人员的经验依赖,减少因为人员疏忽所造成的安全事故。事后:标准化运维,减少人为事故。当IT系统发生故障后,标准化的业务恢复机制是至关重要的。从风险等级评估、恢复策略决策和恢复执行都需要遵循预定的标准流程,按照规划逐步实施,才能在最短的时间内恢复IT系统。3.根据业务系统的重要程度构建动态的、多维度的分级防护策略,加强业务安全保障管理。目前,云计算环境下数据安全和隐私面临的风险(如安全域的模糊性、数据安全性、服务的隐私性和可审计性等),需要采取更多的安全保障措施。然而,不同等级的业务系统重要程度也不尽相同,根据业务系统的重要程度,可构建动态的、多维度的分级防护策略,加强业务系统的安全保障措施。通过评测灾备中心IT系统安全级别,构建整体安全解决方案,以提高灾备服务的安全性,同时加快灾备中心数据存储技术从集中式向分布式和虚拟化方向发展,以保障应用服务的业务连续性。另外,可考虑在数据级灾备的基础上构建应用级灾备系统,快速适应和应对新型容灾技术对网络计算环境的变化,同时考虑拥有专项的应急演练和灾难恢复预案的变更、维护,真正反映信息系统和数据中心的灾难恢复能力。4.提高IT系统可用性,保障数据中心系统连续性。从灾备技术发展角度看,新型灾备技术将会向大数据大集中背景下保障业务连续性的方向发展,未来的灾备系统不仅是专用系统,而且将会向提供综合服务的系统发展,过去面向科学计算的容错技术,已经不能适应现在面向事物、面向业务的容灾计算。为了保证新形势下的数据中心业务连续性,构建新型的容灾体系结构,要求保证数据完整可用、系统快速重建、应用快速部署、自动化程度高等基本要求。需要考虑在广域网带宽资源有限情况下优化数据迁移技术、虚拟机迁移;通过构建数据资源调度和分配模型,根据用户需求自动调节灾备服务资源,动态、弹性地反映业务灾备需求,提高IT系统的可用性和服务能力。从灾备服务角度看,要求灾备中心能为用户提供持续不间断的服务,核心在于高可用的服务管理。从业务应用服务角度看,在实际业务应用系统中,除了数据容灾外,还包括业务容灾,将受保护的应用系统的状态迁移和复制备份,灾难发生时切换到灾备中心,来保证应用程序运行和业务连续性。另外,评测提供灾备服务的IT系统是否具有高可用性;构建风险分析模型,在数据中心保证效率和资源利用率的同时,合理地配置资源,对不同区域用户的请求分配到不同的数据中心去,以实现风险均摊,保障IT系统的高可用性。5.改变管理模式和要求,加强业务连续性服务管理。云灾备环境下,从原来强调业务系统灾难恢复,向业务连续性管理方式转变,包括管理目标、范围、手段、效果等,都应遵循业务连续性管理方法。要求从技术人员、业务人员、储备资源、服务资源等角度,来保证管理要求的转变;管理目标,也要从信息系统接管转变到业务系统接管;管理范围,从灾难恢复、突发事件应急转变到以保障业务连续性为主;进行灾难恢复演练,真正做到业务接管的真切换、真演练,做到快速接管、降低损失,降低声誉风险。最后,在灾备中心产品选型上,不盲从依赖已有产品,可积极利用第三方测试平台进行仿真测试,减少软/硬件系统的潜在风险;在运营上,可借鉴优秀企业的运营经验,逐渐提升自身IT运维能力并实现容灾演练标准化;在技术选择上,要加速引进分布式云数据中心技术,通过云计算的分布式计算技术降低大/小型机的集中式风险。