ContinuousAvailabilityOperationalSimplicityFinancialAdvantageTheSmarterApproachtoUptime™TheStratus®ftServer®WSeriesFamilyV090402容错概念按时间划分的故障的分类•永久性故障permanent•永远持续下去直至修复为止•间歇性故障intermittent•短暂的,但却是断续的,既有其偶然性,又有其不定期的重复性•偶然性故障transient•暂时的,且可能是非重复性的间歇性故障和偶然性故障•占所有现场失效的90%•消除其影响是容错技术研究的重点课题容错技术发展60‘70‘80‘90‘2000‘专有容错系统软件容错系统硬件容错系统单机双机Cluster集群Stratus的容错产品线ftServerW-SeriesWindows-basedsolutionftServerT-Series/L-SeriesTelco/EnterpriseLinuxSolutionftServerV-SeriesVOSUNIXsolutionContinuumVOSUNIX&HPUNIXsolutionStratus的服务领域所有持续可用性属于必须的地方任何停机时间都是不能容忍的场合委曲求全的“容错”方案——ClusterHA方案,HighAvailability但这并不是真正意义上的容错!!!或者,我们就使用容错计算机在整个设计过程中无时不刻不为可靠性考虑的产品硬件级的容错提供实测高达99.9997%的可靠性使用标准的intelXEONCPU运行标准的MicrosoftWindows2000AdvancedServer/Windows2008EnterpriseEdition不会出现软件切换不会因为硬件故障导致应用失败在线更换部件……CA方案,ContinuousAvailability服务器可用性级别的概念InternationalDateCorp.(IDC)AL0-1ConventionalServersAL2-3BusinessCriticalAL4MissionCriticalAL4---关系到整个企业甚至公众的关键应用AL2-3---关系到企业和政府的日常运行AL0-1---关系到计算机的应用和普及服务器可用性级别的定义可用性级别系统保护性能部件损坏对客户的影响AL4(连续可用)系统内部100%的部件和功能冗余系统对用户充分透明;业务不会中断;交易数据不会丢失;不影响系统性能AL3(高可用,无单点故障)自动故障恢复,将用户的工作和交易切换到备用系统;多系统连接磁盘柜系统始终保持在线;故障发生后需重新启动目前的交易和重新计算;可能引起系统性能的下降AL2(高可用)允许多系统访问共享磁盘,备份系统将替代原系统继续工作系统暂时中断,但可以迅速重新登录;需要利用日志文件重新开始计算,系统性能受到影响AL1(RAID数据保护)硬盘作镜像或RAID,保留系统日志文件以便判读出错和恢复运算中的交易突然宕机,业务停顿;数据完整性得到部分保证AL0独立服务器除部分服务器有冗余电源,风扇外,其他部件没有冗余保护突然宕机,业务停顿,不能保证数据的完整性不同技术的可靠性对比方案可靠性99.999%99.99%99.9%99%容错服务器独立服务器使用外部磁阵的独立服务器简易的集群系统消除单点故障的集群系统大型主机开始考虑总成本(TCO)吧!人员费用服务器硬件客户端硬件软件通信方面其它典型IT环境的构建与运行费用分析一个IT环境5年总费用的典型例子“Thesmallestelementofthecostofrunningserversisactualserverpurchaseprice.”JayBretzmannDirectorofIBM’sxSeriesMarketingStratusTechnologies•1980--硬件级容错计算机系统厂商Stratus成立•1981--首先推出基于硬件的容错计算机系统•1988--建立世界上第一个提供24小时服务的远程服务网•1990—推出世界上第一个容错的UNIX操作系统-FTX•1991--推出RISC结构的XA/R系列容错计算机系统•1995--推出RISC结构的Continuum系列容错计算机系统•1997--推出容错的HP-UX操作系统•2001--推出世界上第一台Windows2000硬件容错服务器ftServerStratusTechnologiesftServer®的研发基于行业标准的容错体系结构硬件容错机制对标准操作系统的进一步增强为可靠性、可用性最高要求而组建的客户服务在过去的28个月中研发申请了42项专利技术TheSmarterApproachtoUptimeTMINVESTCORPIntelOtherMidOceanPartners雄厚的资金20多年的容错研究经验MidOceanPartnersStratus的合作伙伴在操作系统可靠特性上密切合作内存重新同步强化驱动程序支持核心业务应用程序的模式ftServer®服务器被布署在Redmond测试实验室中长期良好的合作计划可以提前使用最新芯片进行整合测试ftServer®服务器被布署在intel实验室中ftServer®服务器被布署在EMC认证实验室中EMCCLARiiON®的代理关系合作支持模式ContinuousProcessing®ContinuousProcessing®Systems硬件冗错SecondGenerationftServer®FamilyPassiveBackplaneStratusSSPASICPCIDuplexExpansionI/O6600SeriesTMR6600StratusSNPASICCPUN-waySMPChipsetMemoryStratusSSPASICPCIDuplexCoreI/ODMR6600StratusSNPASICCPUN-waySMPChipsetMemoryStratusSNPASICCPUN-waySMPChipsetMemoryLockstepCPUs锁步技术(LockstepTechnology)6600参与相同计算的冗余部件保证了系统远离停机PassiveBackplaneSSPSSPSNPSNPI/OI/O正常工作的容错机CPUCPU1+1=?1+1=?MEMMEM22DiskDisk所有运算在不同板上同时进行I/O板CPU/MEM板当CPU板出问题时…PassiveBackplaneSSPSNPI/OI/OCPUCPU1+1=?1+1=?MEMXDiskDiskSNPSSP2MEM2任何一块CPU板上的任何部件损坏,都不会影响系统的正常运行。正在进行的运算和操作会象没发生问题一样继续下去。I/O板CPU/MEM板如果I/O板再出问题呢?PassiveBackplaneSSPSNPI/OI/OCPU1+1=?DiskDiskSSP2MEM2X任何一块I/O板上的任何部件损坏,也不会影响系统的正常运行。正在进行的运算和操作同样象没发生问题一样继续下去。I/O板CPU/MEM板Cluster会如何呢?I/OCPU1+1=?MEM2I/OCPU1+1=?MEM2Disk0100010110100010101010111010111010010110001100011101X1+2=3CPU、内存和等待I/O的所有数据丢失,数据库、应用、文件系统都没有被安全关闭需要时间等待备机检测到故障发生需要时间和运气进行磁盘组切换、需要时间和运气进行文件系统检查需要时间重新启动应用程序,需要重新进行一些运算以回到断点需要时间和运气重新启动数据库并进行数据库修复工作最重要的是:切换并不一定总是成功!!!系统A系统BHA与CA的区别HACA交易丢失选择新平台业务延滞故障出现故障恢复容错服务器的可靠性数学基础容错技术的可靠性数学模型------连续可靠性容错设计架桥式结构CPUI/OCPUI/O集群技术的可靠性数学模型------提高可靠性避错设计平行式结构CPUI/OCPUI/O当我们有彻底避免灾难的方案时为什么还要选择灾难恢复方案呢灾难恢复Clusters,Mainframes灾难预防ftServer“Whychooseaserverdesignedtorecoverfromafailure,ratherthanaserverdesignednottofail?”VernonTurner,IDCContinuousProcessing®ContinuousProcessing®Systems瞬时硬件故障通过软件屏蔽掉强化的驱动程序可预防软件故障软件的问题被可靠地捕捉、分析和纠正内存和硬盘中的数据均被可靠地保护高度地集成;错误防真测试故障预防FailsafeSoftware软件可靠性预防、诊断并解决软件问题容错操作透明的I/O切换完善的热插拔支持系统保护错误诊断和隔离PCI总线保护驱动模式在线诊断主动式维护接口兼容Microsoft®WMI驱动模式强化驱动PreventOutagesftServer®Failsafe软件结构PCIDriversFailoverDriversStratus®HotplugDriverNTOSKERNELVirtualizedLegacyDeviceSupportStratus®HALExtensionsHALContinuousProcessing®$100,000可用性保证计划名称PerfectPerformanceAssuredAvailability事件意外的机器硬件、系统软件或操作系统故障意外的机器硬件、系统软件或操作系统故障补偿Stratus支付$100,000现金Stratus从服务费中作出适当补偿产品ftServer6600TMR任何在AssuredAvailabilityPlusserviceagreement内的ftServerftServer®集群技术可靠性指标99.999+%(不受任何其它因素的影响,实际统计结果为99.9997%)99.9%~99.99%(具体水平依赖于实施水平、应用类型、数据规模、切换原因等许多不确定因素)系统体系结构通过系统内部冗余部件配合先进的锁步技术防止故障,不依赖于其它软件。结构简单直观。使用两套或两套以上的计算机、磁盘阵列甚至光纤交换机等通过复杂的拓朴结构再配合以Cluster软件来实现故障恢复。结构复杂。硬件故障是否会导致应用中断不会会硬件故障是否会带来数据丢失不会CPU中、内存中、等待I/O的数据均有可能丢失典型切换时间和应用中断时间冗余部件锁步工作,无切换,应用不受任何影响几分钟~几十分钟不等(具体水平依赖于实施水平、应用类型、数据规模、切换原因等许多不确定因素)。切换期间应用对外无法响应,且切换完成后有可能导致性能下降是否需要做负载均衡不需要不是必需,但不做就浪费一台机器的计算资源操作系统映像数量单份。只需要一个许可证双份或多份。每一份操作系统都需要一个许可证与集群技术的对比——1ftServer®集群技术数据库与应用软件许可证数量单份。只需要一个许可证双份或多份。具体看应用软件的要求应用程序有无移植要求无需要编写应用程序的切换脚本,并应该做严格测试以确保在不同负载下均能正常工作。此外推荐对应用程序作修改以确保可以正确运行在双机或多机环境中。对数据一致性有无影响无依赖于实施的好坏各部件是否支持在线更换支持通常仅电源、风扇、磁盘支持。维护难易程度易,无需专门培训需要培训和演练以熟悉Cluster软件服务技术ActiveService®体系,自动、主动隔离故障并进行报警,省去最终用户自己去监测系统不一定具备此项功能硬件维护是否需要停机不需要大多需要与集群技术的对比——2具竞争力的价格最低的用户总支出投资保护简单的操作高空间利用率的模块化设计体积小、密度模块化高度可管理性经济效益持续的可用性f