安全运营中心(SOC)发展现状与应用探讨随着电信企业信息化建设步伐的加快,如何有效化解安全风险,有效应对各种突发性安全事件已成为不容忽视的问题。与普通企业相比,电信运营商的信息安全系统不仅部署地域分散,规模庞大,而且与业务系统耦合性较高;如何将现有安全系统纳入统一的管理平台,实现安全形势全局分析和动态监控已成为各级信息系统维护部门面临的主要问题。SOC(SecurityOperationCenter)安全运营中心应运而生,是目前流行的电信级安全解决方案。SOC的出现对应数据的集中管理趋势,通过集中收集、过滤、关联分析安全事件,提供安全趋势报告,及时作出反应,实现对风险的有效控制。目前主要安全厂商陆续推出了SOC解决方案,中国移动、中国电信也相继拿出若干省市开展SOC建设试点工作。由于国内没有成熟的运维经验,SOC发展过程遇到一些问题,导致人们对SOC产生不少认识误区,直接影响了SOC的大规模推广。本文全面分析了SOC的定位、主要功能、技术难点以及发展趋势,并探讨了SOC存在的主要问题,希望帮助人们全面理解SOC,更好地推动这一新生事务的发展。1.SOC概述信息系统发展的一个显着特点是:资源平台化、数据集中化。信息安全保障系统作为信息系统的重要组成部分,其发展也必须符合信息系统发展趋势。安全运行中心是描述“对安全事件(SecurityIncident)提供检测和响应服务的所有平台”通用术语。SOC的核心是检测和响应功能,通俗一点讲,就是基于获取的海量安全事件,分析整个系统的安全状态和安全趋势,对危害严重的安全事件及时做出反应。1.1.SOC的安全子系统组成依据信息系统生命周期理论,与信息的产生、传输、存储、分析、处理五个环节相对应,SOC系统包括下列功能模块:※事件发生器(E)模块事件发生器负责生成安全事件,可分为基于数据的事件发生器和基于状态的事件发生器。前者指传感器,如网络入侵检测系统、主机检测系统、防火墙等,主要产生由操作系统、应用、网络操作引发的事件;后者指轮询器(Poller),产生响应外部激励(如Ping、SNMP命令)的事件,外部激励主要用来检查服务状态、数据完整性。这类事件的典型例子是网管系统中轮询工作站向管理工作站发送的告警信息。※收集模块(C)收集模块负责从不同传感器收集信息并转换为标准格式,从而形成统一信息方便后续处理。※存储模块(D)和其他模块相比,存储模块标准化程度很高,可以简单理解为数据库,惟一特殊的是需要进行相关性处理,识别来自同一源或不同源的重复事件。※分析模块(A+K)该模块负责分析存储在数据库中的事件,为响应模块提供响应的充分依据(告警信息)。分析过程又离不开知识库(K模块)的支持,知识库存储入侵路径、系统安全模型、安全策略等知识。分析模块是SOC系统最复杂的部分,包括相关性分析、结构化分析、入侵路径分析、行为分析。※响应模块(R)响应模块功能负责对安全事件做出及时有效响应,涵盖反击正在发生安全事件的所有响应(Reaction)和报告工具。由于牵扯到人的因素,响应行为具有相当的主观性,很多时候需要根据长期积累的基于经验的最佳实践或建议。但其重要性不能低估。响应模块不仅需要对外提供自动化的控制台接口、事件快速响应接口、实时监控接口、统计分析接口;还需向用户提供永久性风险评估报告、中长期安全行为报告、系统状态报告。1.2.SOCvsNOC目前电信运营商都已建立网管中心(NOC)。根据ITU提出的FCAPS模型,网管系统的主要功能是故障管理(Fault)、配置管理(Configuration)、计费管理(Accounting)、性能管理(Performance)、安全管理(Security)。表面上NOC有安全管理功能,似乎SOC与NOC功能重叠;实际上由于二者定位不同,功能、作用差别很大。概括起来,网管中心与安全运营中心主要区别如下:※NOC的安全管理功能侧重访问控制,强调控制对计算机网络中信息的访问,保护系统、服务、数据免受非法入侵、破坏;SOC注重对安全攻击的检测和响应。※NOC的安全功能着眼于“事前预防”,即先采取措施预防非法攻击;而SOC的安全功能属于“事后处理”,换句话说,出现安全事件怎样阻断攻击,怎么反击。※网管中心强调对网络的全面管理,在五大功能中安全管理只占很少一部分;而SOC完全面向安全管理,安全功能更专业、全面。※SOC在收集安全事件时,有时采用轮询方式,利用某些网管系统的监控功能。长期以来,人们在NOC的建设、管理、维护方面积累了丰富的经验,SOC的建设和运行可以合理借鉴这些经验。例如,在组织架构和管理模式方面SOC可以参照NOC的做法;但在工作流程设计上SOC最好采用与NOC平行的模式。出于简化管理考虑,国外也有将SOC和NOC放在一起的成功案例。2.SOC涉及的关键技术在安全事件的一体化处理流程中,SOC采用一系列新技术,在有效提高应用系统安全性的同时,尽量减轻安全事件相关操作对业务系统性能的影响。SOC建设中涉及的关键技术有负载均衡技术、模式分析技术、结构化分析技术、快速响应技术。2.1.负载均衡在SOC的设计和建设过程,必须优先考虑性能因素。虽然原始信息越多、越详细,越有助于SOC分析和检测正在发生的攻击企图,但采集、处理过多的信息对SOC处理能力提出挑战,严重影响性能。一方面,每个传感器每秒钟可能产生成百上千条消息,全部类型各异的传感器实时上报消息对SOC收集模块的处理能力提出很高要求。另一方面,收集模块也轮询获取系统状态,过于频繁的轮询会占用被管理系统宝贵的CPU资源,直接影响其业务的运行。与保证服务器端服务类似,提高SOC的伸缩性、可用性可以采用:※负载均衡技术,如高可用性(HA)、集群(Cluster)、双机热备。※源过滤技术,传感器预先过滤掉不重要的信息,减轻SOC的处理压力。2.2.模式分析(相关性)安全事件分析处理的好坏直接关系着SOC系统的后续处理,分析模块综合分析来自不同设备、数量庞大的事件序列,通过模式匹配找出安全事件之间的内在联系(相关性),最终产生高度合成的准确分析结果。模式分析的基本内容包括:1)识别重复信息,对于收到的多条重复信息进行筛选或过滤,以减轻存储负担。2)序列模式匹配,判别一系列消息是否由同一入侵企图触发。3)事件模式匹配,通过基于时间的上下文分析,识别缓慢分布式入侵过程。4)安全策略匹配,基于行为匹配识别符合安全策略规则的某些事件,如管理员登陆、认证。5)系统威胁分析,判断目标系统是否受已检测到攻击企图的威胁,并分析此类攻击对系统安全的整体影响。2.3.脆弱性分析脆弱性(Vulnerability)是指系统存在的安全漏洞或不安全的行为,这些信息可能损害整体安全级别,也可能被“黑客”加以利用发动入侵攻击。作为知识库的一个组件,弱点数据库存储三类脆弱性:※结构化脆弱性这种脆弱性通常指软件的内部缺陷,例如缓冲区溢出Bug、字符串格式化缺陷等。※功能化脆弱性通常指与配置、操作行为、用户等运行环境有关的弱点,这种脆弱性的一个显着特点是只要一个所需条件不具备,它就在系统中以“非激活”状态存在。显然定义、格式化、整理这类脆弱性,需要操作系统、网络、应用各方面专家的参与。※拓扑相关脆弱性这类脆弱性主要基于网络(如监听、IP欺骗),还包含可能的入侵路径的脆弱性。拓扑相关脆弱性导入弱点数据库一般需要拓扑建模的支持。2.4.4.快速响应快速响应是SOC根本目标,所有模块均服务于该功能。紧急响应的内容根据环境不同而有所差异,从监控事件的进一步发展到攻击的追踪。当大规模攻击爆发时,及时隔离攻击源是防止攻击影响扩大化的有效措施。当SOC检测到服务器被入侵、页面遭到非法篡改,快速响应则意味着尽快恢复服务器的正常运行,把事件的负面影响降到最小。在攻击发生之前,必须确定响应流程;该流程需要经过提前演练并备案。为了保证快速、有效的响应,应急响应流程至少应包括特定级别的事件升级制度(Escalation)。在事件升级制度中,根据攻击的严重程度,采取不同的响应流程,由不同级别人员处理。以三级处理模式为例,现场值守人员处理已知类型攻击,第二级安全专业小组处理不明类型攻击,第三级实验室研究小组(如CERT)对复杂攻击进行重放、原理分析并找出适当的解决办法。3.SOC的发展趋势3.1.1.认识误区由于SOC出现时间不长,无论是用户还是安全厂商都缺乏足够的建设、维护经验,目前对SOC存在下列认识误区:1)对SOC的作用认识不足,片面夸大或贬低SOC。计算机网络技术的迅猛发展给电信运营商带来了沉重的安全压力,SOC的诞生为信息安全问题解决提供一缕曙光,于是人们认为SOC可以解决一切安全问题。另一方面,目前已经运行的SOC由于缺乏必要的支撑,管理体制没有理顺;效果不尽如人意,对SOC的怀疑声又不断。对SOC作用的片面认识很大程度上由于安全厂商宣传误导,导致人们对SOC期望过高;因为SOC是一种蓬勃发展的新生事物,出现问题也在所难免,需要在发展中不断完善。2)将SOC仅仅理解为软件系统,忽略其平台特性。与以往单一的安全系统相比,SOC最大的优势是为统一安全管理提供了完整平台,提高了对于安全威胁的精确检测能力和一体化响应能力。要使SOC真正发挥作用,后期的维护、二次开发工作必不可少,其重要性甚至不亚于前期建设工作。后期维护工作一方面是整合资源,将所有安全子系统尽可能纳入SOC管理范围;另一方面要加强子系统建设,根据业务需要开发相应接口。3)技术层面考虑多,管理层面考虑少。根据信息风险管理最佳实践-BS7799/ISO7799,信息安全工作是“七分技术,三分管理”。SOC也不例外,它的建设不仅仅是技术问题,与管理制度也密切相关。SOC一般适用于信息系统规模庞大、应用复杂的情况,在这种环境下,管理工作显得尤其重要。如果无法与现有安全管理制度、流程有机衔接,SOC建设很可能流于形式,无法发挥预期效果。电信运营商在建设安全运营中心的同时,必须理顺安全管理体系,制定详细、可操作的规章流程,抓好组织体系、人员培训等方面建设。3.2.急需解决的问题不可否认,新兴的SOC技术有待完善。总结起来,SOC的发展需要重点解决以下问题:1)标准化问题标准是制约SOC发展的最大障碍,虽然主要安全厂商都推出了SOC解决方案,但大都采用私有技术、基于特定操作系统(平台)或特定型号安全产品(防火墙、入侵检测系统、路由器),SOC之间无法互通。SOC标准化涉及采集数据的格式、传输协议、安全知识库信息存储、输出告警的格式(响应)等。目前一些国际组织已开始这方面标准的制定工作,例如IETF入侵检测工作组开始制定消息格式与传输协议标准。2)自动化响应目前对于发现的入侵企图,通常做法是人工干预、手工清除;这样虽然能够保证效果,但效率无法保证,尤其是面临拒绝服务攻击(DOS/DDOS)。对入侵或攻击行为进行自动化响应引起人们浓厚兴趣,一些企业也在开发一些自动工具;例如某些入侵检测系统检测到攻击后自动阻塞来自攻击源的所有数据,有些工具将黑客攻击重定向到一个可观测的受控环境,记录攻击行为,甚至尝试反击。鉴于安全问题的复杂性,一般情况下慎用自动工具,这类工具更适宜处理大量并发攻击,同时应加强使用审计。3)与业务系统的无缝集成SOC需要提供外部接口,更好地与特定行业用户现有业务系统衔接起来。对于电信业而言,目前广泛使用了工单(EMOS)、业务运营支撑系统(BOSS)、资源管理系统等。只有与用户业务/支撑系统有机结合在一起,才能充分发挥SOC作为中央监控中心的价值所在,帮助企业构建可控、一体化安全管理体系,保障业务持续、稳定发展。4.如何建设一个安全监控中心(SOC)?虽然信息安全管理问题主要是个从上而下的问题,不能指望通过某一种工具来解决,但良好的安全技术基础架构能有效的推动和保障信息安全管理。随着国内行业IT应用度和信息安全管理水平的不断提高,企业对于安全管理的配套设施如安全监控中心(SOC)的要求也将有大幅度需求,这将会是一个较明显的发展趋势。推行SOC的另外一个明显的好处是考虑到在国内企业目前的信息化程度