基于主机平台的两地三中心灾备解决方案的实例分析供稿人:王军方案简介基于主机平台的两地三中心灾备解决方案(Metro/z/OSGlobalMirror),顾名思义是指,在同城距离内的两个中心间采用PPRC(MetroMirror)实现数据镜像,同时在生产中心与远程异地第三中心间采用XRC(z/OSGlobalMirror)实现异地灾备。这一方案兼具高可用性和灾难备份的能力。这一方案针对主机平台,相对于MGM(Metro/GlobalMirror)解决方案,具有软硬件紧密结合、两地间距离无理论上限、支持不同磁盘系统供应商的产品等特点。本文将以两套配置方案为主,通过对比不同场景的测试数据,分析Metro/z/OSGlobalMirror方案中磁盘系统响应时间和磁盘IO的状况,特别是考察在特定场景下,XRC和PPRC协同工作时对磁盘IO性能的影响;并分享在Metro/z/OSGlobalMirror方案设计、规划和实施中的一些经验。配置实例以下三套配置方案的区别主要在于磁盘系统的类型不同,带来的差异主要是IO响应时间上的差异。其中配置三仅用作为观察XRC状况的对比,并不作为建议配置。1)硬件环境主机系统两台z990主机:2084-B16,共约10000MIPS。两台9037Timer。两个sysplex:PLEXP1有四个成员系统和两个CouplingFacility,用于生产系统和PPRC控制系统。PLEXT有两个成员系统和两个CouplingFacility,用于SDM系统。磁盘系统两台ESS800:一台有1TB存储空间,8个CU,每个CU有27个3390-3和6个3390-9的卷,有16GBCache和1GBNVS。一台有1TB存储空间,5个CU,每个CU有48个3390-3和10个3390-9的卷,有16GBCache和1GBNVS。微码:2.4.04.0045两台DS8000:一台有1TB存储空间,8个CU(跨6个Rack),每个CU有27个3390-3和6个3390-9的卷,用于生产系统;有64GBCache和2GBNVS。一台有约1TB存储空间,8个CU(跨4个Rack),每个CU有27个3390-3和5个3390-9的卷,有64GBCache和2GBNVS。微码:5.1.00.02842)软件环境生产系统和PPRC控制系统:z/OSV1.5;DB2forz/OSV7.1;CICSTSforz/OSV2.3;NetViewforz/OSV5.1;SAforz/OSV2.2;GDPS/PPRCV3.2。SDM系统:z/OSV1.6;NetViewforz/OSV5.1;SAforz/OSV2.3;GDPS/XRCV3.3;XRCPerformanceMonitorV1.1。3)配置一拓扑图4)配置二拓扑图*注:配置三中的远程异地磁盘系统优于生产系统的磁盘系统,该配置仅作为观察XRC的对比参考。工具说明1)压力模拟工具DB2Reorg批量DB2的表空间数据集分布在16个3390-3的卷上,DB2activelog数据集分布在8个3390-9的卷上;每次执行作业对4个表空间同时进行Reorg;每个表都根据不同的键值进行2次Reorg;每个表空间包含5M个记录,因此总记录数是20M;平均记录长度是512字节,其中最后一个字段为可变长字符VARCHAR类型。对于批量作业主要考量处理时间(BatchDuration)和IO响应时间(IOResponseTime)。DASTTool一个驱动I/O的批量工具,用于辅助模拟IO压力;调用汇编来对磁盘进行底层的I/O操作;将该工具参数设置为“一读加一写”模式执行两遍,对跨8个CU的16个3390-3卷进行I/O操作,每次I/O操作的时间间隔是2毫秒。CICSAccessVSAM模拟CICS访问VSAM文件的联机交易;总共80个作业运行在同一Sysplex中的两个成员系统上,每个成员系统有两个AOR和两个TOR;每个作业模拟十万个顺序交易,总共模拟八百万个交易;每个交易对VSAM文件有3个I/O操作,两次读和一次写;总共持续约100分钟,每秒交易量达1000笔/秒。对于该应用主要考量每秒交易处理量(TransactionRate)和交易响应时间(TransactionResponseTime)。2)数据收集工具RMF和RMFMagic每分钟采样SMF类型70-79和42的数据,抽取每5分钟的均值生成RMF报告。RMFMagic是数据分析工具,属于IntelliMagic公司的版权软件产品;根据RMF数据产生相应的DSS,Cache,StorageGroup和Device的统计数据并可以导入到Excel表或HTML中。XRCPerformanceMonitorXPM监控XRC的活动情况,以确定XRC的瓶颈/问题;通过ISPF屏幕监控SDM内部操作的情况,其历史数据可以被下载到本地PC导入Excel,然后加以分析;并且通过XPMEXCT和XRCHKVOL观察发生超过Delay阀值的情况和发生Pacing卷的情况。JOBlog记录批量作业的耗时。DS8000性能数据收集工具PDCU(PerformanceDataCollectionUtility)收集DS8000的性能数据并产生Excel的报告以便加以分析。ESSExpert是一个用于收集ESS800性能数据的版权软件,对存储的性能进行监控和管理。3)测试内容基准设定在XRCOnly的场景下每秒大约2500个写IO同时对四个表空间进行DB2Reorg批量处理。在XRCOnly的场景下每秒大约5000个写IO同时对四个表空间进行DB2Reorg批量处理;并且运行DAST工具对16个3390-3卷上的数据集以“一读加一写”的模式执行两遍,每个IO操作间停顿两毫秒。CICS访问VSAM文件的应用用于观察在随机IO操作时系统的表现。场景设定基于两套配置、三类Workload、四个测试场景,总共有24个测试场景。两套配置三类WorkloadCICS模拟在线交易workload,每秒WIO达3000;DB2Reorg批量作业,对4个表空间进行操作,每秒WIO达2500;DAST以“一读加一写”的模式和DB2Reorg作业同时运行,每秒WIO达5000。四个测试场景BASE:没有远程拷贝服务XRCOnly:只有XRC关系PPRCOnly:只有PPRC关系XRC+PPRC:同时有XRC和PPRC关系数据分析1)观察指标对于DB2Reorg批量作业主要考量处理时间(BatchDuration)和IO响应时间(IOResponseTime)。对于CICS应用主要考量每秒交易处理量(TransactionRate)和交易响应时间(TransactionResponseTime)。关注点是,在XRC与PPRC共存时影响性能的关键因素。场景中暂不考虑DS8300比之于ESS800的性能提高带来的对XRC带宽增大的需求。在本次测试中未模拟网络环境。2)数据分析以下对不同配置下、四种磁盘镜像关系时、运用三类压力测试工具的24个场景的测试数据,做比较和分析。从系统RMF报告中收集到以下数据。CICSAccessVSAM对于CICS模拟交易程序,两套配置下增加了PPRC后都有类似的影响,但由于其该模拟程序本身的随机性,不做量化的比较。DB2Reorg比较配置一中XRCOnly和XRC+PPRC场景发现,Batch完成时间增长19%,同时生产系统的WIO下降13%;PPRC延缓了主磁盘的IO操作,同时也部分减轻了XRC的负荷。比较配置二中XRCOnly和XRC+PPRC场景发现,Batch完成时间增长3%,同时生产系统的WIO增长了70%。DB2Reorg+DAST表明:在已有XRC的情况下,增加PPRC,对于指标影响不大,这一点与已有资料的观点一致;除了CICS模拟程序本身的随机性因素外,配置二的性能指标整体优于配置一。这与测试前的预期相一致。磁盘系统收集的数据CICSAccessVSAMDB2ReorgDB2Reorg+DAST表明:观察到不同压力环境下的FWBypass(NVSfull)值,该值一旦超过3-10%,将造成磁盘的响应时间ResponseTime恶化。从以下的图表中可以发现A磁盘(Primary)的该值整体低于1%,而C磁盘(XRCSecondary)的该值整体高于3%。其影响从磁盘响应时间的数据上可以得到验证。SDM系统收集的XPM数据比较两套配置下,从SDM系统上观察到的平均滞后时间(AverageDelay)和平均遗留时间(AverageExposure)可以发现,除了在配置一中仅有XRC关系时DB2+DAST压力过载引起XRC系统性能恶化外,其它数据中配置二比之配置一要差。表明:在已存在XRC的基础上建立PPRC关系后,SDM的写操作压力有所减弱,有PPRC的情况下XRC的压力过高的情况会有所改善;从平均遗留时间远低于平均滞后时间这点可以看出,配置的整体瓶颈在于XRC从磁盘的更新操作,这与NVS的数值也可以相互印证;从XRC的角度来考察,配置二PPRC关系中磁盘系统性能都优于XRC的从磁盘,整体的均衡性反而不如配置一。经验小结对比不同配置的测试数据,PPRC在Primary磁盘使用DS8000的情况下,Secondary磁盘使用DS8000与ESS800的时候,整个磁盘系统的性能差异明显。通过在不同压力下,对比配置一和配置二中PPRC的工作情况,观察到:对于DB和DB2与DAST组合两类压力,观察IO平均响应时间和批量作业完成时间,在配置二时的数值明显优于配置一。表明:作为PPRC同步拷贝关系中从磁盘的性能,对生产系统的性能会有显著影响。通过在不同压力下,对比配置一、配置二和配置三中仅有XRC关系时的工作情况,观察到:对于DB和DB2与DAST组合两类压力,观察批量作业完成时间,在配置三时的数值优于配置一和配置二。也就是说,XRC从磁盘配置是DS8000的情况要优于XRC从磁盘是两台ESS800或者是一台ESS800的情况。表明:作为XRC从磁盘的性能,在XRC极其繁忙时,对生产系统的性能会有影响。通过在配置一中对比XRC日志数据集跨8个CU分布和跨16个CU分布的情况,观察到:对于DB2和DB2与DAST组合两类压力,观察平均IO响应时间和批量作业完成时间,可以看到跨16个CU分布时的响应时间短于前者。表明:XRC日志数据集配置的建议,应尽可能将日志数据集分散到多个CU上;同时,虽然XRC是异步拷贝的解决方案,但无论采用DeviceBlocking还是WritePacing策略,一旦XRC极其繁忙,可能会对生产系统的表现有影响。对于CICS这类压力,观察交易响应时间,可以看到跨16个CU分布时的响应时间明显短于前者;对于CICS压力,观察每秒交易量,可以看到跨16个CU分布时的每秒交易量明显多于前者。表明:这也验证了XRC日志数据集配置的建议,应尽可能将日志数据集分散到多个CU上。通过在配置一中对比XRC采用DeviceBlocking策略、WritePacing策略同时日志数据集跨8个CU分布和WritePacing策略同时日志数据集跨16个CU分布的情况,观察到:对于DB2这类压力,观察批量完成时间,当XRC从磁盘性能较差时,可以看到DeviceBlocking策略对生产系统的影响最大,次之是WritePacing策略同时日志数据集跨8个CU分布的情况,相比起来最好的是WritePacing策略同时日志数据集跨16个CU分布的情况;表明:XRC日志数据集配置的建议,应尽可能将日志数据集分散到多个CU上;XRC新版本3.3中的WritePacing策略比之于DeviceBlocking,在XRC充分繁忙时,对生产系统的影响明显减小了。通过在配置三中对比XRC采用Copy工作方式和Migration工作方式的情况