2009.01.22Teradata高可用性解决方案TeradataConfidential21/23/2020背景•传统上,高可用性侧重于对企业级的实时业务系统的保障•随着国内银行发展方式由粗放式往集约式的转变,分析类应用对于银行的经营和决策支持越来越重要,已经成为银行IT系统中不可或缺的重要组成部分•数据仓库在CCB经过近4年的发展,已经逐步稳定,并将逐步为一些重要的业务系统提供数据支持,因此,对于数据仓库高可用性也产生了更高的要求TeradataConfidential31/23/2020如何平衡系统可用性的投入和系统不可用带来的业务收入的损失每年系统不可用的小时数0缩短系统恢复时间的成本由于系统不可用导致的业务收入的损失$高可用性的价值—保护数据仓库投资价值业务收入的损失大于高可用性投入上节省的成本高可用性的投入过多系统目标所有的风险都是对业务而言高可用性可以保证数据仓库的业务价值,减少系统故障导致的业务损失应该由业务的需求来决定业务可持续性(系统高可用性)的目标从而决定在高可用性上的投入TeradataConfidential41/23/2020Teradata高可用性总体解决方案TeradataConfidential51/23/2020Teradata高可用性总体解决方案TeradataConfidential61/23/2020Teradata提供的缺省方案•缺省的高可用性方案是Teradata的数据仓库体系架构所决定的一种与生倶来的特征,也是Teradata硬件、软件集成后所产生的一种高附加值的效能。•右图所示是Teradata数据仓库的典型架构,主要提供了三种系统高可用性方案:硬件冗余技术RAID保护技术Clique技术TeradataConfidential71/23/2020Teradata提供的缺省方案(续)•硬件冗余技术BYNEY网络保护电源保护磁盘阵列保护节点保护•RAID保护技术支持RAID1和RAID5两种方式银行业通常选择RAID1方式•Clique技术Teradata数据仓库架构中的基本概念,是由一组节点与磁盘阵列通过光纤线连接在一起形成了一个Clique组。在一个Clique组里,所有的节点共享一组磁盘阵列。在每个Clique中某台节点产生故障时,同一个Clique中的其它节点会接管故障节点上的所有的AMP,保证数据仓库业务的不间断(会有一定的性能损失)。TeradataConfidential81/23/2020Teradata高可用性总体解决方案TeradataConfidential91/23/2020HSNHSNHSNSystemPerformanceNodeNodeNodeNodeNodeNodeHSN实现高可用性的价值Teradata提供的可选方案—热备节点技术没有HSN系统宕机50%67%有HSN100%100%100%•HotStandbyNodes(HSN)=高可用性和性能的持续性一个节点失败后,HSN立即接管了这个节点的软件和硬件避免了数据库性能的大幅下降,减少了因故障节点修复后重返clique需要的数据库重启对于关键业务系统非常有效5500Node5500Node5500Node5500NodeDualBYNETInterconnectsStorageHSN一个node故障后TeradataConfidential101/23/2020Teradata提供的可选方案—数据备份恢复与归档•数据保护的工业标准•成本最低的恢复手段•提供以下情况下的数据保护硬件失败自然灾害应用失败或错误数据损害或丢失人为错误•对长期数据归档,满足客户管理和使用的要求•作为灾难备份和恢复的主要解决方案Teradata支持三种最好的软件解决方案业内最好的硬件提供商最好的服务为客户量身定制特定服务TeradataConfidential111/23/2020Teradata提供的可选方案—FALLBACK技术•为了加强系统的安全性和高可用性,Teradata还提供了一个FallBack的选项,它也是人工定义的。定义一个表时,可以定义该表使用FALLBACK选项或者NOFALLBACK选项。•FallBack的原理很简单,就是在磁盘的另一个位置再保存一份相同的记录,这样,当原始数据所在存储单元发生故障时,可以使用其备份,并且不会中断原来的交易处理过程。当然,这是以额份的存储空间作为代价的。TeradataConfidential121/23/2020Teradata高可用性总体解决方案TeradataConfidential131/23/2020Teradata提供的最佳方案—DualActiveSystems•Teradata双活动系统(DualActiveSystem)是为了满足用户提出的业务连续性和高可用性而提供的一种完整的系统解决方案,它包括了Teradata的产品(包括硬件、软件)和专业服务。•双活动Teradata系统一般情况下使用在有关键应用、要求系统不间断运行,并能有效的防止有计划性的停机或非计划性停产造成的影响的场合中。另外,一般情况下,双活动系统中的两个系统分别放置于距离比较远两个地方,可以有效的防止由于自然灾害因素对系统造成的影响。TeradataConfidential141/23/2020DualActiveSystems的系统架构TeradataSystemATeradataSystemBTeradataQueryDirectorTeradataQueryDirectorReplicationDualLoadDataSynchronizationQueryRoutingMonitoringAdministrationOperationalControlMonitoring&ControlUsers/ApplicationsUsers/ApplicationsUsers/ApplicationsTeradataConfidential151/23/2020DualActiveSystems的关键要素•Teradata系统:两套由Teradata硬件、软件组成的完整的数据仓库系统。•任务的分配(TQD):在两套系统都正常运行的情况下,它可以在两套系统之间分配任务,或是指定特定的任务到特定的系统中。当其中一套系统意外中断时,它可以自动将切换所有的任务到另外一套系统中。•数据同步(DataSynchonizaiton):这是双活动系统的最基本的功能,要求两套系统保留相同的数据。•系统管理:包括对双活动系统的监控、管理和应用的控制等功能,保证双系统的正常运作。16TeradataConfidential/RestrictedDualActiveSystems的价值•消除单点故障•消除非计划停机的影响•消除系统维护的规划停机时间的影响•保持同一版本的数据•对用户与应用透明•让用户感觉到是保障响应时间的前提下的连续的性能体验•充分利用现有投资,在成本有效性基础上的负载均衡的解决方案•合理利用现有系统作为备份系统是完成关键业务的数据仓库环境•为关键应用提供有保护的数据仓库环境价值TeradataConfidential171/23/2020双系统的三种实现方式方式一第二套系统既可以单纯作为灾备系统,也可以兼用作开发和测试系统当需要时,系统可以被恢复,用来接管生产系统的工作方式二两个系统保持相同的数据结构和并定期做数据同步一个对前端应用Active,另一个Standby当需要时,经过较短的恢复时间,Standby的系统可以接管工作方式三两个Active的系统保持相同的数据结构和并持续地做数据同步两套系统具有部分或完全的重复数据,两套系统均可用,可以实现工作任务的均衡负载初级阶段高级阶段Active/PassiveABABABProduction/DRADRADRActive/ActiveABABABTeradataConfidential181/23/2020三种实现方式的比较Active/ActiveActive/PassiveProduction/DRABABAB•可保证系统不停机,包括计划内和非计划。•完全满足支撑运营的关键业务•两套系统同时对外提供访问,能够实现负载均衡。•系统停机的恢复时间为分钟级到小时级•基本满足支持运营的关键业务。•专用的备用系统,如果需要,可以做到随时切换。•系统恢复时间为小时级到天级•部分满足支持运营的关键业务•非专用的备用系统,切换需要有一定的准备时间。适用于比较关键的业务适用于整个的企业级DW系统TeradataConfidential191/23/2020工作的混合度数据的详细程度DW的发展阶段持续更新对响应速度敏感的查询变得重要操作化正在发生什么?事件触发型的分析占据主要地位动态化使其发生!主要是批量处理和少量的随机报告随机分析增长分析为什么会发生?报告发生了什么?分析型模型增加预测会发生什么?批量处理随机查询决策分析查询持续更新和小查询事件触发•DW系统与业务流程的整合程度更紧密•查询的复杂度增长•工作负载的复合度增长•数据规模增长•对历史的追溯深度增长•用户数量增长•期望值增长DW系统发展越成熟,对高可用性的要求就越高TeradataConfidential201/23/2020我们的建议•客户在选择高可靠性解决方案时,应当考虑以下几个因素:了解自身EDW系统目前所处的发展阶段分析自身的业务需求,目前系统中是否包含支持运营的关键业务评估系统停机对用户和业务的影响在高可用性方面的财务预算和人力投入•结合业务发展规划,制订符合自身情况的高可用性实施路线图即使无法一步到位,也要有明确的发展目标和步骤尽早开始实施,以降低可能带来的业务风险•通过DualActiveWorkshop的形式,针对具体需求,进行进一步的深入交流TeradataConfidential211/23/2020Q&A