-1-广东金融科学技术进步奖励申报书一、项目基本情况项目名称中文中国工商银行广东省分行开放平台高可用项目英文HighAvailabilityProjectofICBCGuangdongbranch主要完成人主要完成单位中国工商银行股份有限公司广东省分行信息科技部任务来源A国家级攻关、B其它国家计划、C总行(公司、局)、√D一级分行、E其它单位委托、F中外合作、G自选、H非职务、I其它。-2-计划名称和编号研制起止时间2012年4月-2013年1月成果用于生产时间2013年1月成果进度A阶段性成果√B最终成果C可否转让基层申报单位中国工商银行股份有限公司广东省分行信息科技部组织鉴定单位和时间申报部门中国工商银行股份有限公司广东省分行信息科技部申报日期2013年11月25日申报等级二级审定或推荐等级建议密级A绝密B机密√C秘密批准密级A绝密B机密C秘密保密编号可否公布可-3-市级成果登记号省(部)级成果登记号国家级成果登记号图书资料分类号社会/经济目标A陆地海洋大气、B民用宇航、C农林牧渔、D工业、E能源、F交通通信、G教育、H卫生医药、√I社会经济发展、J生态环保、K知识全面发展、L其它民用目标、M国防奖励类别A新成果、√B推广、C采用新技术、D消化吸收、E标准、F计量、G情报、H软科学、I其它应用行业A农林牧渔水、B工业、C地址、勘探、D建筑业、E交通、邮电、通讯业、F商业、饮食、供销、仓储、G房地产、公共服务、H卫生、体育、社会福利、I文教、广播电视、J科研技术服务、√K金融、保险、L党政机关团体、M国防专用、N公安、安全、O其它行业本项目主题词高可用,负载均衡,数据保护。-4-内容摘要:(600-800汉字)(大家改)由于现代社会对于金融业务连续性的要求日益提高,尤其是直接面对银行客户的业务服务,业务中断带来的直接经济损失和社会声誉损失日益增大,因此,提升信息系统的可用性能获得巨大的效益。随着IT技术的迅速发展,PC服务器和各种Unix服务器性能也飞速提高,使得这些服务器能够承载以前只有高端设备才能完成的计算任务,与此同时,这些服务器的性价比较好,使得能够采用各种高可用技术以提高其性能和可靠性。广东省分行从2012年实施开放平台高可用项目,根据应用系统的重要性分为5个级别,针对26套系统采用统一的技术要求进行了项目实施,目前应用系统关联较为复杂,方案以服务器为节点采用各种技术提升可用性,主要实施内容包含单台网卡聚合、光纤卡冗余,对应用服务器实施负载均衡和多点接入,对oracle数据库进行数据保护,这些技术综合起来都是以消除单点风险来提升可用性的。26套系统中,直接面向客户的柜面交易、自助设备等系统属于高级别应用,还在同城机房实施多点接入,实现了单点机房故障时的业务连续性功能。2012年下半年逐步完成各应用系统实施以来,未发生过因部件故障而影响业务的情况,为信息系统的连续性提供了强力的保障。-5--6-二、当前国(省)内外同类先进技术概况黄俊对于银行系统来说,业务连续性要高于很多行业,上网查。未有系统性地进行相关项目建设。我也去上网查,。-7--8-三、申报项目的详细情况及申报理由1、项目的主要技术内容A.采用的技术原理(罗绵川)1、应用服务器负载均衡2、网卡聚合3、数据库数据保护4、自动切换脚本B.关键技术及创新点(邓忠京)高可用模型的建立:据不完全统计,造成非计划宕机的原因主要有硬件问题(40%)、软件问题(30%)、人为因素(20%)、环境因素(10%),因此,高可用模型的建立充分的考虑了上述因素。该模型主要涉及主机、数据、存储、网络等多部份内容,高可用模型为项目规划设计提供了整体框架,可以通过某个环节的可用性指标对整体可用率的影响程度进行分析,反之,将整体可用率也可分解为各关键环节的可用率指标(例如应用可用率、系统可用率),对各环节的高可用规划设计提出具体建设要求,这种从局部到全局,再从全局分解到局部的双向可逆模型,为我行高可用建设提供了整体框架及具体实施依据。高可用模型建立的关键因素(keyfactor)包括:应用级别、灾备等级、设备冗余、数据冗余、网络冗余、RTO目标及操作风险控制等,具体说明如下:应用级别分为A/B/C/D四类,其中A/B类为7*24小时不中断业务,对RTO及冗余度-9-要求最高。灾备等级分为1-5级,数字越大级别越高,例如综合前置类应用灾备等级为5,表示既需要在本地中心机房部署主备机,又同时在灾备机房也部署该类应用。设备冗余主要分为负载均衡、主备模式、HA自动切换,其中主备模式又细分为热备、冷备或N+1冷备。数据冗余包括是否接入SAN存储,采用何种数据冗余方式(例如RAID1、RAID5),如果是数据库,还需要指定是否实施Oracledataguard、OracleRAC等数据保护技术。网络冗余主要包括是否实施多网卡聚合技术,以及光纤连接方式,例如双服务器、双交换机和双通信通路,实现交叉互联。RTO目标及操作风险控制,主要说明该套应用可以容忍的最大RTO,例如综合前置为30min,操作风险控制手段主要为是否投产我行自研发的主备切换脚本。以中间业务平台应用为例,建立了高可用模型树,见图表二。高可用项目全过程的风险控制:采用ITSM(IT服务管理)对高可用项目进行全过程的风险控制,从被动审计变主动的风控体系建设,控制过程贯穿包括从立项、开发、测试到最后实施及验收阶段。对高可用架构实施的每个过程进行风险识别、风险评估,并定义了KPI(关键绩效指标,详见图表一)对项目进行风险控制,以确保项目建设与总行规划、全行经营战略目标保持高度一致。通过实施ITSM,将高可用架构规划过程、IT资源、经营策略及目标联系起来,形成一个三维体系结构。IT资源主要包括项目人力、应用系统、技术、设备、数据等在内的相关资源;高可用架构规划过程则是在企业经营策略及目标的指导下,对系统从立项、开发、测试到最后实施及验收阶段确定的多个处理过程,每个处理过程包括更加详细的控制目标、项目是否符合企业要求的评估。高可用项目风险定量评估模型的建立:(1)应用系统类型,包括应用等级、系统RTO。以中间业务平台为例,中间业务为B类应用,对外服务RTO为30分钟。(2)重大风险识别重大风险包括:系统或数据库服务异常、关键进程宕、网络故障、外部环境原因、操作失误等,总体上可概括为系统风险、技术风险、操作风险等。(3)高可用结构对可用率影响的风险评估以中间业务为例,设备冗余包括3台应用服务器(F5负载均衡)、1台数据库服务器、-10-1台数据库standby备机;网络冗余包括所有服务器均实施了双网卡聚合技术,双光纤卡4通道技术;数据冗余包括实施了数据库物理standby技术;操作风险控制手段包括实施主备切换半自动化脚本,减少人工操作带来的失误率。应用可用率计算为:n:表示某个应用发生的告警事件的数量Ptime:表示报警的持续时间,单位:秒Weighti:某一种告警事件对整个应用的影响度;关键进程宕对应用影响度为100%Mi:表示应用节点的台数,例如中间平台系统有5台,则Mi=5Stime:表示某应用对外服务的时间,单位:秒;以一周为例,Stime=60*60*24*7=604800秒由上可见,采用上述高可用架构的情况下,当数据库服务器主机宕机的应用可用率影响是最大的,而应用服务器由于做了负载均衡,应用服务器关键进程宕对高可用服务的整体影响为0。而由于采用了oraclestandby的数据保护结构,当数据库服务出现异常情况下,高可用架构仍能保证RTO不超过最大容忍度。相反,如果不采用应用服务器负载均衡方式,甚至应用服务器和数据库服务器部署在同一台机器,那么关键进程宕对应用影响度将达100%,风险大大增加。图表一说明了项目全过程控制中的各个KPI数据。(4)风险重复计算及补偿性控制由于中间业务平台数据库保护实施了oraclestandby技术,在发生数据库服务异常情况下将对业务连续性产生影响,虽然采用oraclestandby技术能确保数据库服务及时切换至备机,但新的系统风险、操作风险也随切换过程伴随而来,因此,有必要实施风险的补偿性控制,例如,建立ITSM流程控制,对应急方案、变更方案进行流程化审核;实施主备切换半自动化脚本,减少人工操作带来的失误率,控制操作风险。研发高可用架构半自动化切换脚本,有效降低人为操作风险,减少RTO:由于高可用架构应用主备间切换涉及关联关系复杂,主备可能是Oracledataguard结构、冷备N+1结构,人为操作上的“失误”可能带来极其严重的后果和不可估计的经济损失,基于此,我行自行研发了高可用架构半自动化切换脚本。该脚本减少了主备切换时人为干预的操作,自动进行应用进程启停、存储切换、网络服务接管,有效降低了人为操作风险,并大-11-大缩短了RTO,明显提升了我行高可用架构可用率指标。C.必要的图表图表一:高可用项目ITIL目标KPI过程目标KPI项计算依据实际KPI计算结果符合服务级别协议(SLAs)的交易响应时间交易超时率11100%miimiiXYM:表示交易种类个数,例如综合前置共分为POS、ATM、自助终端三类X:表示某种交易超时数Y:表示某种交易的交易量最小化交易故障应用可用率n:表示某个置应用发生的告警事件的数量Ptime:表示报警的持续时间,单位:秒Weighti:某一种告警事件对整个应用的影响度;关键进程宕对应用影响度为100%Mi:表示某一种应用节点的台数,例如综合前置系统有2台,则Mi=2只要Ptime为0,应用可用率即为100%。-12-Stime:表示某应用对外服务的时间,单位:秒;以一周为例,Stime=60*60*24*7=604800秒最小化停机时间系统可用率m:表示应用节点类型的数量;我行综合前置节点数为2Ptime:表示报警的持续时间,单位:秒Ni:表示某一种应用节点的台数;我行综合前置节点数为2Stime:表示某应用对外服务的时间,单位:秒;以一周为例,Stime=60*60*24*7=604800秒只要Ptime为0,系统可用率即为100%。最小的RTO主备切换时间RTO是反映业务恢复及时性指标,表示业务从中断到恢复正常所需要时间。图表二:高可用模型树以综合前置应用的高可用模型为例,-13-2、项目与国(省)内外已有同类先进技术全面对比情况项目水平:A国际首创、B国际先进、C接近国际先进、D国内首创、E国内先进、F省内首创、G省内先进综合评述:(邓忠京)广东工行高可用架构项目建设包括-14-3、项目应用和推广情况新增单产%应推广应用已推广应用推广程度%面积单位面积单位广东省广东省100%未达到推广应用面积和程度的原因A无接产单位、B缺乏资金、C技术不配套、D其它()内容概述:曾-15-4、项目的经济效益和社会效益(曾晓阳)经济效益情况表科研投资3000千元(主要是服务器投入、F5)国家拨款总行(公司、局)外国资金单位自筹√个人自筹生产投资其他合计应用后经济效益每年3000千元(每年停机时间减少,平均每套系统6小时)时间项目应用至鉴定累计应用至鉴定年时间应用至申报奖励时累计应用至申报奖励时年平均科研收入新增产值-16-新增利税创收外汇增收(节支)总额经济效益总计社会效益情况:√A科技、B教育、C管理决策、D自然资源保护、E环保、F安全生产、改善劳动条件、G医疗卫生、H国防、I公共安全、K其它详细描述:-17-四、本项目曾获奖励情况何年何月曾获何种奖励奖励等级奖金数额受奖部门无备注:-18-五、评述意见1、初审意见基层申报单位意见同意申报。公章:年月日申报部门初审意见同意申报。公章:年月日-19-2、复审意见广东金融科技奖励基金评审委员会复审意见公章:年月日-20-六、附件目录附件一:科技技术成果鉴定证书附件二:已获经济效益证明附件三:用户使用或社会效益证明附件四:主要完成单位情况附件五:主要完成人情况附件六:科学技术总结报告附件七:研制报告附件八:测试报告-21-附件一:科技技术成果鉴定证书-22-附件二:已获经济效益证明应用单位情况应用单位名称中国工商银