Industryspecificcoverimage数据中心运维管理王锐甲骨文大中国区资深技术咨询顾问议程•数据中心运维管理面临的问题与挑战•数据中心运维管理探讨–数据中心运维管理的能力框架及建设演进–业务驱动IT管理–完整的平台管理–全生命周期管理•总结2IT越来越复杂,带来的典型IT运营问题架构复杂整体性能难保证整体可用性难保证运维管理复杂•复杂,多厂商•难扩展•需要多领域专家•消除I/O瓶颈很复杂•多厂商集成方案成本高、耗时•异构的数据库、Java层、消息层和Web层很难整体调优•尤其在通常虚拟环境中,整体性能不高、不可预测••异构环境可用性管理复杂•在通常的虚拟环境中,应用可用性更难管理•不同厂商产品的可用性可以大大影响整体可用性•异构环境增加运维复杂度,职责不好界定•问题诊断、解决过程复杂•不同厂商产品的升级、补丁过程复杂4“稳定”和“安全”是IT运营的基本目标日常监控服务响应工作调度数据备份系统变更执行事故报告灾备操作机房管理访问授权健康检查应用系统开发测试生产灾备中间件数据库服务器与存储问题管理变更管理事件管理配置管理版本管理可用性管理容量管理网络运维人员在多个环境里进行手工配置和操作,难以避免人为操作风险变更影响分析通常凭经验,也难以充分测试,怎样控制和验证?怎样确定问题的根源?可以从业务影响发现问题吗?怎样避免问题的再次发生?真的了解运行状态吗?预警和主动监控能做到什么程度?健康检查是否有效?如何快速定位和恢复故障?应急演练是否有效?备份的数据真的可用吗?怎样判断架构的高可用性?当前的性能容量能否支撑下阶段业务发展?基础架构和运维的驱动•性能提升–资源利用率提升•弹性扩展–弹性/可靠性/性价比•快速应用部署–压缩环境准备和应用安装部署时间–提高工作效率•节能减排–机房空间效率–电力供应–平均CPU/存储利用率•追求更低的TCO和高ROI–降低软件、硬件、服务成本–简化运维工作,降低维护成本数据中心不能成为问题中心•集中管控–监控预警,实现主动管理–故障诊断和性能优化–可视化管理,面向服务质量•风险控制–降低操作风险–系统安全提升56来自业务的挑战CIO办公室对最终用户体验缺乏可见性业务要求IT可靠和透明业务经理要求以业务的语言来描述IT服务水平客户对服务中断和性能问题毫无耐心IT性能指标与业务毫不相干不能有效控制服务中断和性能下降•缺乏通用语言•基础关注点•不一致“像业务一样经营IT”是CIO共同目标,目的是保障服务质量,提高IT对业务的贡献。IT运营IT服务管理最佳实践的新要求7ITILv3帮助用户从业务角度完成整体设计、实施和持续优化IT服务管理,并通过IT服务管理将企业的业务需求和IT管理实现量化对接ISO20000:2011供应商和客户之间的实质关系将影响服务管理过程如何实施业务战略指导落地,业务需求量化考核问题与挑战的总结思考8来自业务的挑战•灵活的支持业务发展;•对业务量持续以及爆发性增长的需求;•对于最终用户体验具备可见性;•业务需求和IT管理实现量化对接运维的驱动•具有面对服务需求峰值而不需要额外投入的能力;•可提供7×24小时高水平服务等级的能力;•需要具有丰富经验的资源;•80%的企业软件费用花费在安装与维护;•服务器对管理员的比例还维持在20-30:1的水平;•部署新的应用时间太长。IT基础架构与基础设施的驱动•数据中心空间优化与地点的选择;•不断增长的数据中心基础架构的复杂度;•服务器的利用率介于10%~15%;•数据中心往往需要耗费上千万的资金去建设,而且不能在现有设施上去扩展。日常监控服务响应工作调度数据备份系统变更执行事故报告灾备操作机房管理访问授权健康检查应用系统开发测试生产灾备中间件数据库服务器与存储问题管理变更管理事件管理配置管理版本管理可用性管理容量管理网络保障稳定和安全•业务连续性和高可用性建设;•潜在问题的分析和规避;•主动的客户体验监控;•问题快速定位和解决。IT的变革与创新•IT基础架构集中与标准化;•虚拟化、网格计算;•自动化与持续可用;•云计算/绿色IT。议程•数据中心运维管理面临的问题与挑战•数据中心运维管理探讨–数据中心运维管理的能力框架及建设演进–业务驱动IT管理–完整的平台管理–全生命周期管理•总结9通过架构整合和简化、提升运营管理能力来解决面临的IT运营问题与挑战10构建完整平台管理,完善运营基础管理能力,同时帮助用户从业务角度优化IT服务管理,将企业的业务需求和IT管理实现量化对接提升运营管理能力架构整合和简化软硬件资源池、横向整合和纵向整合结合的一体化整合方式、和云计算等架构优化手段驱动了运营水平的提高OracleIT运营能力框架模型11ITILv3.0COBITUSMBOKISO20000TOGAFOracleUnifiedMethodSAS70TypeIandII运营规划运营设计运营管理服务规划服务识别用户体验财务目标服务水平管理组合设计、SLA实施、SLA趋势分析服务台事件管理、知识管理、SLA报告配置与变更管理配置规划、配置执行、变更管理、跟踪与报告性能与可用性管理基线、测量、分析、解决架构规划平台架构可用性架构性能架构发布管理规划、协调、确认利用率管理基线、虚拟化/集群、压缩安全管理政策、审计与报告、访问和识别管理服务开通与补丁管理政策、初始化资源、补丁升级信息全生命周期管理规划、灾难恢复、归档业务IT提升IT运营能力:技术成熟度模型12有感知的标准化程度低架构与运维无法共享只对关键资产使用状况有了解6周部署普遍的单点故障基本的监控技术现代化阶段1认可的关键的硬件/软件标准化对于75%资产的使用状况了解25%已经整合2周部署N+1设计基本的管理集中与整合阶段2主动的硬件/软件标准化共享的架构与运维75%整合、部分虚拟化100%了解资产使用状况数天内部署关键系统可靠性设计运维管理工具集虚拟化阶段3集成的架构75%虚拟化运维资产数小时分配资源持续的可用性IT服务工具服务型的自动化阶段4业务合作伙伴高扩展、弹性的架构新技术使用90%虚拟化整体的架构与运维动态资源分配灾难下的持续可用性业务服务工具云计算阶段5我们在哪里?提升IT运营能力:人员成熟度模型13有感知的人员按技术分类离散的个人主义较低的客户信心非正式的审查个人型阶段1认可的分级支持角色按流程定义正式的职业发展规划培训员工KPI组织型阶段2主动的以流程为中心与HR的流程相结合能力中心预防模式趋势分析以流程为中心阶段3服务为中心新的角色信任的服务供应商技能管理以服务质量为目标参照行业最佳实践服务型的以服务为中心阶段4业务合作伙伴成为业务部门虚拟团队注重业务高效的外包技能业务与IT轮岗创建行业最佳实践以业务为中心阶段5我们在哪里?提升IT运营能力:流程成熟度模型14有感知的救火队模式工具定义流程备件备份以工具作为标准没有流程文档工具使用阶段1认可的事件管理变更与问题管理标准化灾备管理项目管理较少的流程集成运维流程阶段2主动的分析趋势阀值设置应用可用性监控自动化大部分ITIL流程已成熟服务交付流程阶段3IT作为服务供应商服务分类与定价保证的SLA服务可用性监控集成的流程容量管理服务型的服务与客户管理阶段4业务合作伙伴IT作为战略业务伙伴IT与业务KPI关联提升业务流程协作实时架构业务变革以业务为中心阶段5我们在哪里?我们在哪里?数据中心运维管理的能力建设演进完善运营管理基础能力•主动端到端监控•快速定位问题•集中配置管理•有效控制变更和发布•自动化生命周期管理•有效的应急和安全措施实现业务驱动•用户体验•业务监控•业务指标云管理•全生命周期管理15用户体验管理业务服务管理业务交易管理网络门户产品目录订单管理...其它业务服务客户与业务用户业务驱动IT管理完整的平台管理全生命周期云管理业务驱动IT管理–以业务视角管理IT资源–创建应用感知云,能够理解和适应实际业务需求完整的平台管理–应用、中间件、数据库、硬件–一体机(Exalogic,Exadata)全生命周期云管理–建立敏捷的IT管理以适应不断变化的业务需求–使用同一软件进行统一的云服务全生命周期管理应用中间件数据库OS,VM,Servers存储,网络Oracle支持服务云服务Apps,PaaS,DBaaS,IaaS..数据中心运维管理解决方案16议程•数据中心运维管理面临的问题与挑战•数据中心运维管理探讨–数据中心运维管理的能力框架及建设演进–业务驱动IT管理–完整的平台管理–全生命周期管理•总结17业务驱动型应用管理与能力框架的映射运营规划运营设计运营服务规划服务水平管理服务台配置与变更管理性能与可用性管理架构规划发布管理利用率管理安全管理供应与补丁管理信息全生命周期管理虚拟机服务器存储网络与基础设施用户体验管理业务服务管理业务交易管理网络门户产品目录订单管理...其它业务服务客户与业务用户业务驱动型应用管理完整的云平台管理全生命周期云管理应用中间件数据库OS,VM,Servers存储,网络Oracle支持服务云服务Apps,PaaS,DBaaS,IaaS..真实用户体验管理业务交易管理JVM和DB诊断用户满意度怎么样?他的录入快速吗?下单情况怎么样?下单为什么卡住?为什么慢?怎么老超时?根本原因是什么?是核心的问题还是ECIF问题?19业务驱动的端到端应用管理用户体验管理实时监测用户的“真实的”活动,优化业务响应率和转化率ExecutivedashboardBusinessReportingTransactionPerformanceSLA管理与行政驾驶舱实时错误报告与分析KPI实时监控与报警定制业务服务实时监控实时交易漏斗监控整体页面浏览性能-绿色=满意-橙色=容忍-蓝色=失望用户满意度实时趋势分析实时用户体验跟踪用户出错页面重放实时系统性能分析•持续监控关键事务,通过一系列的事务/操作序列来定义”业务交易”•典型“业务交易”问题–业务上定义的逻辑错误,比如”信用额度不足”,“库存少于10件”,“审批周期超时”,“定单金额超过预定义金额”–失控流程(Stalledprocesses),不正常跳转,非正常中断的交易流程等–失控结果,定义范围以外的结果–技术层面的问题,比如延时–和EM其他模块互动,告警并解决问题RejectedOrderAlertWebLogicServiceBusApplianceDBMSWebPartnerandCloud业务交易管理22ServiceLevelObjective(SLO)ForPlatinumcustomers:•Ave.Responsetimeperhour6sec•Warningthreshold=4sec-Action:alerts1利用率跟踪和分类–譬如:白金卡,金卡,银卡等23服务水平协议面向目标的性能监控5为白金客户提供稳定的响应时间在白金客户违规错误发生之前自动告警4Gold面向客户可定制业务驱动的服务质量(QoS)交付议程•数据中心运维管理面临的问题与挑战•数据中心运维管理探讨–数据中心运维管理的能力框架及建设演进–业务驱动IT管理–完整的平台管理–全生命周期管理•总结23完整平台管理与能力框架的映射运营规划运营设计运营服务规划服务水平管理服务台配置与变更管理性能与可用性管理架构规划发布管理利用率管理安全管理供应与补丁管理信息全生命周期管理虚拟机服务器存储网络与基础设施用户体验管理业务服务管理业务交易管理网络门户产品目录订单管理...其它业务服务客户与业务用户业务驱动型应用管理完整的云平台管理全生命周期云管理应用中间件数据库OS,VM,Servers存储,网络Oracle支持服务云服务Apps,PaaS,DBaaS,IaaS..•服务器与存储告警•服务器故障管理•物理层与虚拟基础设施层的依赖关系分析•完整的、深度数据库监控•数据库自服务管理(ADDM,AWR,ASH)•自动化SQL优化•