某人寿保险IT系统基础架构容灾经验分享

死星
2 ℃
2020-04-03

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

xx人寿IT系统基础架构容灾经验分享XX人寿保险股份有限公司系1996年8月22日经中国人民银行总行批准成立的全国性、股份制人寿保险公司。截至2012年，XX人寿总资产超4100亿元，净资产近210亿元，在全国设立了北京、上海、湖北、山东、广东等35家分公司，各级机构超4200家，构建起完整的服务网络为客户提供及时和周到的服务，累计为2776万个人客户和25万机构客户提供过服务，累计理赔客户927万人次，累计理赔金额99亿元。XX人寿旗下拥有XX资产管理有限责任公司、XX养老保险股份有限公司和XX之家投资有限公司。XX资产是国内资本市场大型机构投资者之一，受托资产管理总规模超4600亿元，综合投资收益率居于行业前列。2012年，XX人寿和XX资产分别通过“保监会不动产投资能力和投资计划产品创新能力备案”，成为《保险资金投资不动产暂行办法》实施以来，行业内第一批取得不动产直接投资、不动产金融产品设立与发行双重资格的保险集团化公司。未来，XX人寿将坚持专业化经营，深耕寿险产业链，为广大客户提供“从摇篮到天堂”持续一生的全方位金融保险服务，致力于让保险更便捷、更实惠，让XX人寿成为人们生活的一部分。客户简介1.客户急需解决的问题与需求2.什么是容灾3.容灾方案的选择4.容灾技术5.数据远程容灾软件6.容灾演练客户需求ECM系统作为XX人寿重要的在线业务支撑系统，为一线业务人员提供在线的电子文档、电子保单等服务。主数据中心：金融街数据中心，运行所有重要系统的核心机房，满足所有重要系统的数据备份、恢复需求。ECM系统是金融街数据中心中最重要的系统之一。在2008年部署了EMC与HDS存储，作为高速存储负责OLTP事件型ORALCE数据库核心并且同时存放海量影像文件。为ECM系统提供了一个高性高效率能的存储池。由于现在地址灾难和各种火灾停电等因素造成只有一个数据中心的XX人寿数据安全性相对较低，而随着国家法律法规对于金融保险行业的要求，在同城建设数据容灾中心成了重中之重的任务。规划本地容灾中心：亦庄容灾数据中心，满足ECM系统的本地数据级容灾需求，通过40MBIT带宽传递容灾数据（每天的新增数据），实现了数据级容灾。同时由于本套系统为客户的核心业务数据库存放的系统，所以在保障数据安全性的前提下对存储系统的性能有很高的要求，不能因为部署容灾中心增加了容灾传输的性能压力后就影响当前的客户数据正常访问。客户现状金融街数据中心主业务存储主机群集主机群集主机群集主业务存储性能情况什么是容灾•容灾备份系统就是防止意外情况而采取的一种解决方案，其目的只有一个，那就是保证数据安全。•根据DISASTERRECOVERYJOUNAL的调查表明，在受到灾难袭击的5个公司中，将有2个公司无法从灾难中重新开始工作。而那些即使是重新开张的公司中，也将有至少1个将在两年后关张•建设容灾系统的目的就是保护所有的业务数据，保证业务的连续性什么是业务连续性•业务持续性（CONTINUOUSBUSINESS）=保证业务的稳定•保证企业可以面对计划的和意外的事件发生的时候继续维持运作•受到对下面两个方面的理解的驱动•业务影响：考虑如何避免对商业的影响•业务流程与风险：考虑计划和意外事件发生时的情况•数据的可用性保护只是操作灵活性的一部分，最终的解决方案将会围绕着其它方面（例如人员、流程和架构等）(恢复策略)Backup策略Replication策略GeoClusterSynchronousReplicationAsynchronousReplicationDBlog性价比WhataboutApplicationavailabilityandbusinessaccessavailabilityApplicationDataBusinessAccessCMCC运营方式技术难度业务恢复速度维护人员要求资源复用主备中心相对简单慢相对简单相对不高较低双中心相对复杂快相对复杂相对较高较高两种方式同城容灾远距离容灾灾难抵御种类较少较多对用户服务的连续性较差较好网络组织难度较容易难度较大技术复杂度较容易难度较大容灾中心技术支持较好较差人员组织较容易难度较大项目管理协调难度低高工程投资较低较高运营成本较低较高建设周期较短较长两种方式同级设备容灾主机处理能力与生产中心相等存储设备与生产中心配置相等容灾中心系统可靠性与生产中心设置级别相当，如主机集群等投资高，与生产中心平台投资接近降级设备容灾主机处理能力低于生产中心存储设备配置低于生产中心容灾中心系统可靠性低于生产中心设置级别，如不考虑主机集群等投资低于同级规模CMCC设备配置策略存储级数据库级(Oracle)IPStor第三方软件(VVR)LVM(VxVM)数据复制策略Recovery-timeObjective(RTO)―多长时间内关键应用必须恢复–我能承受多长时间宕机?Recovery-pointObjective(RPO)―哪一个时间点之前的数据必须被恢复–我能容忍多少数据丢失?被选定的切实可行的灾难恢复方案必须基于成本和恢复时间的平衡―如果我花费多一点，我的恢复过程会快多少?―如果我花费少一点，我的恢复过程会慢多少?预定的恢复目标决定相关解决方案•需要对中心机房所有的主机系统都有进行改造，改为使用VERITASVOLUMEMANAGER。而这种方式需要把IBM主机上的VG信息都铲掉，即所有的数据库都要首先备份到磁带库上，然后把IBM主机的卷管理软件改为VERITASVOLUMEMANAGER，然后重建VG，再把数据从磁带库上恢复出来。•系统风险极大！在实施阶段很容易造成现有系统的不稳定、数据丢失•项目实施周期长，并且需要每个业务主系统都要多次停机，社会影响较大•VERITASVVR通过主机实现，对主机系统和应用系统影响较大•性能不可预测、难于优化、需要在每台主机上都进行配置和优化•如果采用VERITASVVR解决方案，需要对生产中心的8台IBM主机、将近20个分区、容灾中心将要购买的所有主机和分区都要进行改造，工作量可想而知！•如果进行软件升级，则所有的主机则都要重新调整，不但工作量大，而且风险高！•如果采用VERITASVVR解决方案，将来的新建系统都要进行相同的工作，工作量很大•VERITASVVR是按照CPU个数计算LICENSE，成本不菲•而采用IBM硬件容灾方案，是与主机无关的；如果采用IBM存储解决方案，那么只对2台存储进行操作。将来微码升级、系统配置也只针对2台存储。软件解决方案HDS虚拟化方案IBM方案方案复杂度复杂简单实施复杂度复杂简单实施风险在生产端要把EMCDMX3000虚拟化，需要把主机映射关系重做小是否适合大型数据库不适合，目前来看虚拟化方案仅适用于文件系统应用适合对整体系统性能影响对EMCDMX3000的每一次访问都要通过USP机头，对系统性能影响可想而知无影响软件维保成本每年需要维保成本，标准配置无现场服务；如需现场服务，需额外购买软件维保随存储硬件设备提供，不增加额外成本；IBM提供现场服务容灾成功案例较少很多对集成商的工作影响大小硬件解决方案SynchronousRemoteReplication同步复制实时镜像，数据同步系统快速恢复，最少数据丢失理论极限值100km，距离越长，时延越大高带宽需求（I/O峰值计算）对生产端I/O响应时间冲击备份端存储处理能力要求足够好―否则会连累生产端，导致宕机―Cache、DestagingSynchronous1-Writetoprimary2-Writetosecondary3-Writecompleteonsecondary4-I/OCompletion1生产主机可以无需备份主机342100公里P-VOLS-VOL同步数据复制的理想条件网络带宽―光纤1000Mb/s―ATM622Mb/s距离―10公里，最长不超过30公里TheRollingDisaster...(IBM,4/8/94)“Exceptinatotaldisaster,(explosion,earthquake)youshouldNEVERexpectyourentiresystemtofailatthesamemoment.Failureswillbeintermittentandgradual,andthedisasterwillactuallyoccurovermanyseconds,evenminutesThisistheRollingDisaster”.除了地震，爆炸等完全毁灭性灾难外，你根本不可能碰到系统同时瘫痪的情况。故障总是间断的，渐渐的累积起来的，整个灾难的过程会持续数秒钟，甚至几分钟，这就是我们所谓的RollingDisaster。同步方式的挑战:RollingDisasterRollingDisaster数据保持I/O的一致性数据结构可能被破坏，数据不可用第一波故障灾难结束－计算终止Corruptioncanoccur保证数据一致性和完整性―Timestamp―writesequencing―Consistencygroup最小的响应时间冲击低带宽（平均I/O计算）很少的数据丢失没有0数据丢失Asynchronous1生产中心容灾中心PrimaryHost3421-Writetoprimary2-I/OCompletion3-Writetosecondary4-Writecompleteonsecondary任何距离S-VOLP-VOLMainframeVSE,VM,OS390IBMAIXSunSolarisHP-UX,TRU-64andVMSWin2K/WinNTAsynchronousRemoteReplication异步复制容灾方式的采用同步容灾的理想条件―距离30公里―两地有光纤连接或者622Mb/sATM异步容灾没有距离限制在实际银行、电信的应用中，同步容灾对联机事务处理类的业务会增加响应时间，对批处理业务处理速度也有很大的影响技术的选择是性能，投资和RPO等指标的平衡应用级容灾，需要针对容灾对应用做出相应的调整cache5nanoseconds/m–speedoflightinFiber2microseconds/switchupto1ms–writeintocachememoryupto30ms–writetoback-enddisk时延考虑Σ=~1ms1,000IOPSforlocalwritetocachesynchronousconsiderationscachecachewriteIOcomplete5ηs/m2μs/switch1mscachewrite+0.3mscachereadremotelinklatency1mscachewriteΣ=~2.3ms435IOPS@0km100kmFCdirect~1ms(ROT)DWDM~250ηs/devFCIPEurope~19msFCIPtransatlantic~81msFCIPNorthAmerica~44msFCIPSing.-US~210msΣ=~3.3ms303IOPS@100kmΣ=~83ms12IOPS@IPLondon-NY数据远程复制软件移动BOSS/BAS系统容灾(原有系统)CRM计费结算营业帐务经营分析DB2OLAP数据挖掘…SAN经营分析系统SANSANDWDM钦洲北路机房金桥机房关于容灾链路的问题目前情况看，容灾链路主要有以下方式–将长波口放置在大交换机上（湖南、上海移动）–将长波口放置在小交换机上大、小交换机不互联（辽宁移动、江苏移动）大、小交换机互联（ISL）容灾链路到底需要多少对光纤需要采集现有生产系统的数据对现有生产系统进行先期优化非常重要如果没有裸光纤，那么可以通过SANRouter，把FC转换为IP，但只能走异步容灾方式容灾链路的容量具体情况、具体分析–EMC有ETWizard工具协助进行容灾规划–需要收集数据、统计