数据中心建设与智能化运维管理阜外医院赵韡2014.52数据中心基础架构3数据中心的演变史旧式数据中心(2000之前构建)•2.5-5kW/机架,闲置的空间容量•PUE1.9–2.4,非常有限的气流密封•面向大型机建设更为现代的数据中心(2000—2005)•4–8kW/机架•PUE1.6–2.0,热通道/冷通道分区•更加高效的UPS/制冷系统•基于不同Tier等级的复杂设计•较为严格的工作环境参数创新型数据中心(2006—现在)•更高的密度,功率超过7kW•先进的气流密封•节能/绿色设计•高能效设备•复杂的设计•降低的工作环境参数要求4数据中心生命周期规划阶段设计阶段建设阶段测试验证迁移阶段运维选址分析周边环境评估建设计划设计任务书电气专业防雷CFD气流模型图纸绘制技术规格书验证计划和操作顺序文档控制相关部门批准项目摘要施工图送审记录设备清单变更单竣工检查单竣工记录验收报告设计产权质量检查功能测试计划综合测试计划问题清单验证报告设计变更设计澄清运维手册供应商清单备件列表迁移系统图控制网络图迁移计划操作顺序手册制作应急计划保修管理制作标准操作流程培训培训记录及授权维护记录冲击演练(黑盒测试)更新系统操作顺序系统变更控制5标准介绍•GB50174-2008•TIA(TelecommunicationsIndustryAssociation)•TheUptimeInstitute•AmericanSocietyofHeating,Refrigeration,andAir-ConditioningEngineers(ASHRAE)TechnicalCommittee9.9(TC9.9)•TheGreenGrid6数据中心基础设施概述等级划分GB50174-2008CBAANSI/TIA-942-2005TIER1TIER2TIER3TIER4建筑类型合用合用独立建筑独立建筑主要路由单路单路两路,一路处于备用两路,均处于使用状态构件冗余NN+1N+12(N+1)或S+S年宕机时间28.8小时22.0小时1.6小时0.8小时机房可用性99.67%99.75%99.98%99.99%供电系统UPSUPS+GenUPS+GenUPS+Gen7数据中心基础设施概述等级划分与投资的关系UptimeInstitute及TIA-942Tier分级无冗余设备配电制冷系统单路由部分冗余设备配电制冷系统单路由设备冗余、配电制冷系统多路由,满足同时维护。多路由一路备用。设备冗余、配电制冷系统多路由,满足容错。多路由均处于使用状态。冗余要求满足基本需求部分构件冗余可同时维护容错型系统投资可用性年宕机时间(可用性)28.8小时(99.671%)22小时(99.741%)1.6小时(99.982%)0.4小时(99.995%)Tier1Tier2Tier3Tier48数据中心设计、构建、试运行能力从建筑实体数据中心到MDC大规模MDC部署微模块化建筑实体数据中心集装箱化非标尺寸MDC9能效–热通道遏制解决方案10能效–冷通道遏制解决方案11能效–隔离帘12供电系统数据中心供电系统示意图-Tier2RedundantComponentsUtilityBusCriticalLoadBusTypically:•RedundantUPSmodules•RedundantGenerators•SingleBusEquipment13供电系统数据中心供电系统示意图-Tier3RedundantComponentsRedundantComponentUPScanbereplacedbySTS14供电系统数据中心供电系统示意图-Tier4RedundantComponents15消防系统气体灭火系统Ff20016数据中心硬件平台17传统数据中心的IT资源配置模式--“烟囱式”结构机房设施数据网络和存储网络服务器1服务器2服务器3服务器n应用1应用2应用3应用n部门A部门B部门Z18传统“烟囱式“式数据中心的缺陷性能/Performance空间/RoomSpace功耗/Power&Watt安全/Security管理/Management部署/Deployment19•专有的,基于主机的架构•单一供应商的解决方案•专用的技术和技术要求•有限制的连线/网络,扩展性较差•‘静态’的生产部署,扩展性敏捷性较差•竖井状的技术应用(操作系统/架构)•专用的服务器,或应用•多平台操作系统,多架构的数据中心环境•通过IT整合或Linux技术,对成本和复杂性进行优化和改进•模块化重新部署硬件(刀片技术)•自动化的任务管理•重新配置和扩展(不需要重新布线)•提供IT共享服务(例如:共享的测试/开发环境)•资源的动态分配传统数据中心孤岛的应用系统当前数据中心竖井状的IT基础设施NGDC下一代数据中心共享IT基础设施应用系统服务器/存储应用1应用2应用3服务器服务器服务器共享存储资源应用1应用2应用3共享存储资源共享服务器资源新一代数据中心设计特点•规范标准、安全可靠、资源共享、流程优化、技术先进。•高可靠、可用性:全冗余、无单点故障。•灵活性:池化IT基础设施资源,资源可根据需要动态部署、分配和调整。•高效性:资源整合和共享,提高系统资源利用率,建设绿色数据中心;集成化的管理。•专有的,基于主机的架构。•单一供应商的解决方案。•专用的技术和技术要求。•有限制的连接/网络,扩展性较差。•‘静态’的生产部署,扩展性敏捷性较差。•竖井状的技术应用(操作系统/架构)•专用的服务器或应用•多平台操作系统,多架构的数据中心环境•通过IT整合或Linux技术,对成本和复杂性进行优化和改进传统数据中心常规数据中心新一代数据中心20数据中心系统介绍——资源池21为了满足业务对系统连续性不间断运行的要求,针对数据中心核心基础资源系统进行了高可靠、高可用设计:两套独立的服务器资源、存储资源、网络资源形成两个互为备份的冗余站点。即使在灾难场景出现时(服务器、网络、存储损坏),仅会造成各业务系统的服务级别降低,不会造成业务中断。站点之间进行容灾设计,底层数据实时进行同步,可以保证在灾难事故发生时,站点之间的服务器资源快速切换,从而恢复生产能力。服务器资源池内的物理刀片间的相互备份及虚拟机实现动态迁移应用系统的关键服务器分别部署在不同的站点中,确保服务器的高可用性。关键应用系统采用存储虚拟化技术将数据存储在两个独立的存储体上,确保存储的高可用性。数据中心高可靠、高可用设计22整合提高硬件使用率虚拟化之前虚拟化之后虚拟化使得低利用率的服务器负载整合到一台服务器,安全可靠地达到很高的硬件利用率23快速统一部署服务器整合前整合后•3-10天的硬件采购•20-40小时,为一台服务器安装操作系统和应用程序•硬件上架安装•安装操作系统及补丁•配置安全策略,域和用户权限•配置网络(IP,DNS)•配置存储(DAS,SAN,NAS)•安装必要的系统管理代理,备份代理和其它的必要的系统软件•安装配置应用软件•测试应用•安排宕机时间,数据迁移•15-30分钟,用模板和自动部署向导或拷贝虚拟机,启动即可•把虚拟机拷贝然后重新启动[工具已经安装][应用已经安装,配置]部署挑战:•依赖硬件可用性•易发生人为错误•标准化困难•审核困难•需要数天,甚至数周24降低服务器投资成本将不同应用负载虚拟化使得用户可以大大减少服务器的数量典型的平均整合比率在8:1到15:1应用服务器台数成本A系统2¥60000B系统1¥20000C系统1¥20000D系统1¥20000E系统1¥20000其它40¥800000总计46¥940,000应用服务器台数成本A系统7¥350,000B系统C系统D系统E系统其它总计5¥350,000整合前整合后硬件投资减少62%25降低服务器服务器电源开销应用服务器台数功耗A系统21.2kW/hB系统10.5kW/hC系统10.5kW/hD系统10.5kW/hE系统10.5kW/h其它4020kW/h一年总计4623.2kW应用服务器台数成本A系统74.2kW/hB系统C系统D系统E系统其它总计54.2kW整合前整合后电力消耗是按照服务器平稳运行状态下进行计算的。但是还有其它节省:变压设备、不间断电源(UPS)、电源线、风扇、空调、加湿器、照明等等。电量消耗减少82%26•数据库高可用的实现27数据库高可用方案采用五级措施实现数据高安全性和系统高可用性–设备双路复用–内部备份–Dataguard数据同步–外部备份–灾难备份28设备双路复用主机房硬件全部采用双路复用交换机、防火墙使用冗余配置所有链接线缆利用端口聚合进行多路复用29内部备份服务器集群使用两台DELLR820配置为OracleRAC集群,在正常工作时两台服务器实现负载均衡,当其中任意一台的硬件、操作系统、Oracle软件发生故障时,系统负载会自动转移到另一台服务器,这一转移过程对于客户端是透明的,正在使用的用户将不会察觉服务器的这一动作。30内部备份存储链路使用两台光纤交换机实现多链路复用,在提高数据交换效率的同时,提高数据链路可靠性。31内部备份ASM技术通过Oracle的ASM技术,集群同时使用两台HUS150阵列作为数据存储,Oracle可同时向两台阵列读写,并保持数据一致性,当其中任意一台阵列出现故障,不会影响整个系统的运行32内部备份使用RMAN在存储阵列内部进行数据文件备份,当由于软件故障造成数据文件损坏时,可在存储内部进行数据库修复,修复时间小于10分钟,在修复过程中不需要停机,与损坏数据文件无关的应用可继续使用33Dataguard数据同步通过Dataguard实现数据到备用服务器的实时同步,避免主机房发生严重事故时,造成数据损失。当主机房无法工作时,DataGuard服务器可切换工作状态,对外提供数据库服务,切换时间可控制在小于20分钟。34外部备份通过SymanticBackup进行数据备份,每日全备份,每三小时进行增量备份。35灾难备份通过SymanticBackup多目标备份机制,将备份数据传输至30KM外的灾备机房。36智能化运维管理37ITIL-ITInfrastructureLibrary信息技术基础构架库20世纪80年代中期,英国政府计算机和电信局CCTA(后并入英国政府商务部OCG)2001,BS150002005,ISO20000成为IT服务管理工业标准是IT服务管理流程的最佳实践ITIL概述38APCD时间刻度成熟度戴明循环Demingcycle业务和IT的整合Plan,Do,Check,Act(Projectplan,Project,Audit,Newactions)增强连续的质量控制和增强有效的质量改进39智能化运维的工作流程服务器网络数据库存储应用中间件异常告警通知自动生成事件单事件管理快速响应、解决突发故障及请求,在最短时间内恢复业务IP呼叫中心电话受理,自动识别来电用户身份服务台座席创建事件单自助服务台用户WEB登录,提报服务或故障请求生成事件单技术人员受理并尝试解决分派查询知识解决,通知用户获得满意度反馈升级问题管理根源分析,找出根本原因,避免故障再次发生知识库服务级别管理跟踪事件处理时效,达成与客户的服务约定申请变更变更管理控制变更可能产生的风险问题小组分析并根源解决解决方案入知识库申请变更变更评审委员会评估、制定变更计划受理指派技术人员变更实施及发布CMDB资产配置管理员更新配置信息通知配置管理资产配置全生命周期管理更新发现同步客户与IT主管计划任务管理周期性任务提醒、执行、监督项目管理开发及重大实施项目周期管理长周期变更任务KPI与报表管理报表输出,关键绩效指标分析达成服务级别协议大屏幕项目经理技术人员执行计划任务机房IT基础架构监控系统机房监控系统40数据中心基础设施运维对象•门禁控制•感染、探测设备•监控录像•气体灭火设施•精密空调•漏水检测•新风机•UPS•配件设备•高压变压器•发电机•PDU供电设施环境设施安全与消防综合布线、IT运行环境、环境监