系统运营中的风险管理李改成lgc@ss.pku.edu.cn主要内容•资源配置和优化•系统切换•日常运行–管理例程、日常操作•备份和恢复–数据备份、数据恢复、安全恢复–灾难恢复•灾难恢复层次恢复指标成本-效益分析•安全事件管理–流程•安全事件管理工具–审计、安全警报、审计日志–事件分析•关联–安全事件报告–风险实时控制•基于范例的推理TPC•TPC(TransactionProcessingPerformanceCouncil,事务处理性能委员会)制定商务应用基准程序(Benchmark)的标准规范、性能和价格度量,并管理测试结果的发布。TPC-C是在线事务处理(OLTP)的基准程序。–在使用时,考察基准程序是否符合企业真实的业务流程和运作模式。当同样的主机用在不同的系统中时,tpC值可能有相当大的变化。•选择主机–主机系统应该具备与业务规模和特点相适应的处理能力。•主机系统的处理要求应与每笔业务所消耗的主机CPU处理能力和系统要求达到的单位时间内的交易笔数相关。•由于某种特殊情况的出现,可能导致突发性的业务尖峰,为了避免由于业务出现的突发尖峰导致系统崩溃,我们需要对资源的占用作出相应的控制。冗余•为实现运行过程中的安全恢复,需要建立一个可靠并经过验证的系统基础结构,系统的每一级部件都一定要有冗余。–对于关键的IT应用来讲,管理层应有规律地评估不间断电源电池和发电机的需求。对主机房电源要有完整的双回路备份机制,不间断电源(UPS),保证关键的IT应用不受电源失效或波动的影响。–主机、网络设备、前置机等关键易损件是否有备份.硬件如多CPU和硬盘镜像并行服务器、廉价磁盘冗余阵列(RAIDs)。–通过通信端口备份,可提高网络响应速度,实现网络容错和恢复。–操作系统、中间件、数据库系统和应用系统应能提供安全恢复机制,例如,数据库的日志和锁定。–应用备用系统一般来说,可实现的服务级别要低。例如,当电子终端不可用时,使用手工压卡机进行信用卡交易。这是应用级冗余的例子。•不同层次使用不同的机制,用于不同的目的。–冗余磁盘不能防止恶意程序员删除账户文件–备份不能阻止它插入越来越多的错误,更不能保护数据的机密性。系统选择标准•系统配置的考量标准–一是性能和容量方面的要求,对资源性能、应用规模和工作量需求方面的数据进行收集、分析和报告,–相关的硬件和软件的性能/价格比变化。跟踪所有IT资源的分配成本,包括但不限于此:•硬件、外围设、线路、应用开发和支持、行政管理的开销、•外部卖主的服务成本、维护•系统选择–分析不同的成本分类的性能和关于成本效益的外部基准,以便允许与行业预期或可选择的服务来源进行比较。–同时注意不应过于依赖于同一个供应商。•关键系统如芯片、操作系统、主要应用软件的国产化问题。•十五期间,中科院计算所将在通用CPU设计上取得重大突破,表明Linux操作系统在银行应用也是可行的。目前关键的问题是组织力量开发与IBM公司软件相当的大型应用软件。提高主机的利用效率•IT虚拟化技术可达到多操作系统平台上的集成虚拟化:–在核心的自动化规则比如可用性、安全、优化和预先配置之间进行协调,根据应用的优先级自动分配资源,确保需求达到峰值时的应用服务水平。•在年终结算的业务高峰期,只需一个简单命令,就可以把其他设备聚合成一台超大设备,集中所有资源,全面应对峰值业务。而在平时,则可把闲置资源用于人事系统、办公系统等。–能够将用户的资源利用率从平均20%提升到50%,并减少30%-40%的管理时间。–更重要的是,即使某个部分出现故障,适应性IT系统也能自动调用资源,接管相应计算,避免因故障而宕机,实现不间断稳定的业务运行。网络配置•网络负担是影响系统成败的一个重要因素。•线路–检查可供客户使用的容量,采取必要的措施保证接入线路的通畅,并采用适当的备份和负载均衡技术,保证客户服务的可用性。•网络设备–所有关键网络设备如交换机、路由器等均采用双机冗余热备份措施–采用优先级队列、数据压缩等技术灵活有效地利用带宽。•密码加速设备–解决对CPU资源过量需求的安全协议所造成的性能问题。日常管理例程•人员管理和沟通–在聘用前进行详细的考察,确定有无犯罪记录,确保雇员、合同工和第三方用户理解其自身责任,适合角色定位,减少偷窃、欺诈或误用设施带来的风险。–确保所有雇员、合同工和第三方用户都意识到信息安全威胁、利害关系、责任和义务。–加强对从业人员,特别是一线员工的业务培训,促使员工熟练掌握各业务环节的操作规范,减少或避免出现操作失误。–明确解聘责任,要求返还资产,去除访问权限,确保雇员、合同工和第三方用户按照既定方式离职或变更职位。日常管理例程–另一个问题是当风险具有政治上的敏感性时,直接了当地表明针对内部员工的安全控制会刺激他们的作为主人翁的尊严,可能需要一些遮掩的方法。经常,内部控制措施需要以降低错误和保护员工的面目被引入。•例如,银行经理乐意使用双重保险锁,因为这会降低他们的家人被绑架勒索的危险,同样,大额交易的双重签名会减轻他们的责任压力。但是,并不是在任何情况下都能达到这样的共识。•通过操作员要循环轮班,采取渡假和休假并维护资格。操作人员更换期间,通过规定活动、状态更新和有关当前责任报告的正式移交,建立一个处理连续性的程序。另外,应存在一个程序,来确认、调查、审批与标准工作时间安排的背离。日常操作•操作规程–处理信息系统运行以完成业务目标的政策和程序,包括系统启停、动态调整、定期数据清理、启动、关机、工作负载计划安排等。–操作规程最初的时间安排以及这些时间安排的变更,应被适当地授权。–通过归档、定期地测试以及根据需要进行调整,IT管理层应确保操作人员对启动程序和其它操作任务足够的熟悉和自信。–管理模式和管理措施应随着业务的变化和客观环境的需要进行调整、补充和完善。•针对不同安全岗位的操作管理–对重要设施设备的接触、检查、维修和应急处理,应有明确的权限界定、责任划分和操作流程。–网点合法性管理、网络隔离、网络运行监控管理、网络信道安全管理、网络设备设施安全管理等内容–操作系统安全管理主要包括系统管理员级别划分、访问权限控制管理、日常维护安全管理、故障诊断及处理、审计跟踪等几方面内容日常操作–数据库访问控制管理、数据备份管理、数据使用授权管理、数据存储时限管理、数据密级管理等–操作安全管理是主要包括操作权限管理、操作规范管理、操作责任管理、操作监督管理和误操作恢复管理等内容•管理和维护失效和例外–跟踪记录系统维护方面的问题,以便标识需要额外关注的地方,内容包括对正常管理及维护程序的例外情况的描述,其中包括该例外情况出现的原因和持续的时间。–对系统运行过程中出现的故障,能从系统软件、应用软件等不同层次提供故障码。特别是应用系统应该提供故障点、诊断信息以及故障库等。–每个安全应用必须涉及建立适当的安全参数,实现这些参数,监视和分析运行结果并调整这些参数。数据备份•数据类型从数据用途角度一般可将数据分为系统数据、基础数据、应用数据、临时数据;根据数据存贮与管理方式又可分为数据库数据、非数据库数据。–(1)系统数据(SYSTEMDATA)•系统数据主要是指操作系统、数据库系统和应用系统执行程序。系统数据在系统安装后基本上不再变动,只有在操作系统、数据库系统版本升级或应用程序调整时才发生变化。系统数据一般都有标准的安装介质(软盘、磁带、光盘)。–(2)基础数据(INFRASTRUCTUREDATA)•基础数据主要是指保证应用系统正常运行所使用的系统目录、用户目录、系统配置文件、网络配置文件、应用配置文件、存取权限控制等。基础数据随应用系统运行环境的变化而变化,一般作为系统档案进行保存。–(3)应用数据(APPLICATIONDATA)•应用数据主要是指应用系统的所有业务数据,对数据的安全性、准确性、完整性要求很高而且变化频繁数据类型–(4)临时数据(TEMPORARYDATA)•主要是指操作系统、数据库产生的系统日志和应用程序在执行过程中产生的各种用于打印、传输的临时文件,随系统运行和业务的发生而变化。临时数据对业务数据的完整性影响不大,增大后需要定期进行清理。–(5)数据库数据(DATABASEDATA)•是指通过数据库管理系统(DBMS)来进行存取和管理的数据。–(6)非数据库数据(NON-DATABASEDATA)•是指通过文件管理系统等非数据库管理系统来进行存取和管理的数据。–(7)孤立数据(ORPHANDATA)•是指从最后一次应用数据备份后到事件发生、系统运行停止前未备份的数据。这部分数据通常需要通过人工等方法重新录入到系统中。一般情况下,孤立数据越多,系统恢复的时间就越长,业务的停顿时间也就越长。孤立数据的多少与数据备份的周期有很大关系。–(8)遗失数据(LOSTDATA)•是指无法恢复或弥补的数据。数据类型特点快率临时数据应用数据频新更与基础数据化变据系统数据数慢小(数据量)大数据量增长速度、数据变化频率关系示意图数据备份策略•根据采取的数据备份技术和数据备份方式可以将数据备份策略分为以下几类:–(1)定期备份•指按一定的时间间隔(一般为一天)将系统某一时刻的数据备份到磁带等介质上。•对不同的数据类型应根据其易变性采取不同的备份周期。–(2)定期备份+关键数据备份•除对数据作定期备份之外,还更新数据的日志或流水等关键数据及时地备份下来传送到安全的地方,关键数据备份的时间间隔比定期备份要短,也可以是实时备份。•数据库管理系统一般支持此种策略,可以用归档/备份工具作定期备份(如informix的0级备份),同时采用日志备份工具对日志作及时备份(如informix的逻辑日志连续备份)。数据备份策略•此方式孤立数据较定期备份方式要少得多。但是,数据恢复的时间仍然较长。有时仍需要依靠纸质凭证或其他介质来恢复孤立数据。–(3)关键数据备份连续恢复•在备份系统中,装有运行系统的数据影像拷贝,关键数据及时地抽取后,立即在备份系统上更新数据库。•由于备份中心已将数据恢复到最近的状态,数据组织形式与运行系统相同,因而恢复时间将缩短很多。–在此策略中,投资较大,需要数据备份的主机或后备运行主机,如果采用数据通信方式传送关键数据,还有一定的通信费用支出。–此外,在此策略中,孤立数据与定期备份+关键数据备份策略一样多。数据备份策略–(4)实时备份异步更新•数据更新操作的日志在被记录进运行系统日志的同时,通过数据通信线路传送到灾难备份系统,并立即对备份系统的数据影像拷贝进行更新。•由于数据更新操作被及时追加到灾难备份系统,因而,孤立数据很少,另外备份数据的组织形式与运行系统相同,所以恢复时间很短,主要是追补孤立数据和网络切换的时间。•支持此策略的技术一般有远程磁盘镜像异步方式、远程数据库复制异步方式和网络数据镜像异步方式,如IBMES/9000XRC,IBMAS/400MIMIX,EMCSRDF异步方式,INFORMIXHDR异步方式,UNISYSRDB异步方式等。数据备份策略–(5)实时备份同步更新•数据更新操作同时在运行系统和备份系统进行,运行系统的数据更新操作首先通过高速数据通信线路传送到备份系统,写入备份系统的磁盘,运行系统在收到备份系统完成数据更新操作的确认之后,写入本地磁盘。•由于数据更新操作同步写入备份系统,因而,孤立数据极少,基本无需追补。由于备份系统处于热备份状态,因此灾难发生后的恢复时间极短,主要是网络切换的时间。•此策略的投资和运行费用最高,由于需要高速数据通信线路,在目前通信技术条件下,只能限于同城范围,且通信费用很高。另外,此方式下,数据备份对运行系统的性能可能会有一定的影响。•支持此策略的技术一般有远程磁盘镜像同步方式、远程数据库复制同步方式和网络数据镜像同步方式,如IBMES/9000PPRC,IBMRS/6000HAGEO,EMCSRDF同步方式,INFORMIXHDR同步方式等。数据恢复•数据恢复一般按系统数据基础数据应用数据的顺序进行。•应用数据恢复–1.已备份的应用数据的恢复:根据所采取的数据备份策略制定相应的数据恢复方法。–2.