©2015VMwareInc.Allrightsreserved.决胜云时代,提升云运维能力AppOSHWAppOSAppOSHWAppHypervisor虚拟化环境传统IT环境VMMVMMe.g.小型机+X86e.g.X86+vSphere,Hyper-V传统ITVS云环境:当前各企业对云环境的运维管理还处于空白或非常初级的阶段,这与虚拟化环境在企业IT中所提供的价值和体现的重要性严重不符,IT部门迫切需要成熟的专业管理工具来更有效的管理虚拟化或云环境。•BMC•IBM•CA•HP•HPinsightmanager•IBMsystemdirector•DellOpenmanage•没有或非常基础缺乏自动化管理能力云环境的管理面临的挑战3资源动态变化,状态难以跟踪,难以持续监控•系统动态变迁,负载在不同环境不一样。如VM从A机飘移到B机,B物理机的硬件配置及在运行VM数量与A不同,导致VM在B机负载表现不同。•资源动态变化,用户动态扩展或收缩资源配置的情况下,VM内部对资源的占用比例都会变化。ParisianHotelEfficientManagement配置变化更快,统计分析难,数据不准确•云环境虚拟机的产生和释放频度远高于物理环境,平均来看生命周期更短,变化更频繁,因此对其配置状态的跟踪更复杂,整个系统范围内的资产信息更难掌握,传统的统计办法不及时也不准确。容量性能评估难,难以有效分配资源•不同于物理机,云环境中多台系统共享资源,不同的业务系统对资源的需求周期不同,传统的系统级CPU,MEM的占用已失去指导意义,并不能完全代表系统资源是否存在瓶颈。•同样的道理难以判断服务器资源是否得到了充分利用,是否有必要优化,虚拟机密度是否恰当。ParisianHotelEfficientManagement系统状态更复杂,难以准确评估状态•虚拟机环境涉及系统硬件,操作系统,网络以及存储,系统环境更加复杂,传统的设备边界不再那么清晰,承载的VM对资源既共享又竞争,所以系统处于不断的动态调整中。•单一类型的监控指标很难判断系统的健康状态,必须收集该物理机上运行的多台虚机机状态进行综合分析。•指标专业性强,理解其含义需要专业知识。ParisianHotel管理缺乏标准和规范•虚拟化层在整个系统构建中占的位置越来越重要,但与OS相比系统级的加固和检查机制相对薄弱,成熟度及普及度都不高,存在系统缺陷,安全漏洞,管理不规范等薄弱环节,容易成为新的木桶短板。针对传统环境的管理方法和工具在高度动态,系统高度融合(计算,存储,网络)的云环境下存在严重不足。•云化环境的快速发展导致现有环境规模快速增长,并且环境的变化也更加频繁,针对这种规模大,又高度动态的环境,自动化工具的需求变的更加迫切。用户痛点4•虚拟化环境缺乏有效的监控措施,管理被动,问题无法及时发现,出现无法有效分析。•安全管理上基本无针对虚拟化环境的管理规范,手段及工具,安全短板问题较明显。•资产配置信息缺乏深入及时准确的统计分析,基本靠手工,信息与实际环境偏差较大。•由于Cloud环境的资源共享和动态配置特性,云环境下的资源管理变得更加复杂难控,资源的惊人浪费和局部资源的紧张情况同时存在存在,如何判断充分利用这些资源,配置合理的虚拟机比例是新环境下的新管理要求。•缺乏相关分析报表和面板视图,对于云环境较大规模的环境缺乏全局管理能力。•缺乏自动化工具,对大规模高度动态环境缺乏足够的响应和控制管理能力。云环境运维管理的目标及能力需求5目标基本思路需要的能力功能需求健康:提高系统可用性1.降低故障率,提高故障平均间隔时间MTTB;2.尽可能缩短故障处理时间,减少MTTR。1.安全加固-清理系统隐患,系统加固,确保系统符合安全、规范等最佳实践方面的要求;2.故障生命周期管理(故障发现,故障分析,故障解决);1.适用于虚拟化环境加固策略和自动化手段;2.完善的虚拟化环境的监控指标体系,专业分析和处理能力,弥补传统工具能力不足(具有部分故障发现能力,缺乏故障分析和处理能力)。风险:降低管理及系统风险1.定期检查,确保系统各方面符合管理和法规标准,消除风险隐患。2.借助故障报表分析是否存在系统问题,不断优化系统。3.加强对虚拟化资产的管控,及时掌握资产分布和使用情况。1.合规审计-确保系统符合业内标准管理规范如PCI,ISO以及企业内部管理规范要求;2.运行分析,系统优化-专业报表,专家面板,专家建议;3.配置管理;4.工作负载是否合理。1.适用于虚拟化环境管理的规范要求和自动化处理手段;2.针对虚拟化环境的专业数据分析能力;3.虚拟化环境的配置数据采集能力,手工统计不现实;4.持续的性能监测及负载分析能力。效率:提高效率,降低成本1.提高资源利用率,减少无效资源损耗,合理配置,合理规划资源需求;2.自动化管理,减少单位人工管理成本。3.资源使用情况的统计和成本计量。1.容量管理-容量规划,容量优化(容量规划和优化在高度共享和动态变化的环境中尤其重要);2.自动化管理-监控自动化,操作自动化;3.成本管理能力.1.针对虚拟化环境的性能长期跟踪,分析以及预测能力;2.评估虚拟机资源的应用效率;3.运维工具不专业,需要专业领域的能力。4.动态的根据虚拟化环境资源使用的变化更新成本计算。6VMware解决方案-vRealizeOperationvRealizeOperation管理套件统一的操作员控制台(支持单点登录)性能基本服务容量应用可见性报表日志清单工作流扩展:•APIs,SDKs•3rdPartyAdapters•ContentPacks成本配置合规CloudPhysicalVirtualvSphereHyper-VXenServerLinuxWindowsCloudProvidersvCloudHybridService管理层决策层维护人员故障发现容量规划技术管理提高可用性降低风险和成本容量优化故障分析合规审计安全加固VMware解决方案交付功能及相应产品组件配置管理故障解决专业报表专家面板成本管理运行分析故障管理面向故障,面向系统面向问题,面向风险管理项功能产品组件故障管理故障发现,故障分析,故障解决vCops容量管理容量优化,容量规划vCops风险管理安全加固,合规审计vCM资产管理配置管理,成本管理vCM,ITBM运行管理专业报表,专家面板vCops容量管理风险管理资产管理管理层决策层维护人员故障发现容量规划技术管理提高可用性降低风险和成本容量优化故障分析合规审计配置管理虚拟化环境运维现状安全加固故障解决专业报表专家面板具备初级的故障发现能力?成本管理运行分析借助云平台有部分配置管理能力综合故障报表,缺乏性能,合规,容量,安全,资产等报表。故障管理功能项描述故障发现1.指标数量少,覆盖不全;2.以监控传统指标为主,缺乏虚拟化环境的特定指标项目。配置管理借助云平台的管控或自开发实现了部分配置管理能力,但在颗粒度(对象和属性)以及准确性完整性上相对不足,如云平台部分部署环节或变更环节仍由手工完成。专业报表缺乏虚拟化相关的资产,合规,安全,性能机容量报表。能力有限无此功能面向故障,面向系统面向问题,面向风险分析現在的运维瓶颈预估未來的容量与趋势寻找最优配置虚拟机有CPU不足情形发生管理特色:分析运维瓶颈,做好容量规划,环境最佳化9闲置的虚拟机10容量预测在仪表板上显示趋势曲线(如下图剩余容量和剩余时间)管理特色:预估目前容量使用剩余时间(依照过去使用记录)自动分析与预估所选对象容量可使用剩余时间预估剩余时间趋势依使用趋势预估剩余时间分析CPU/Memory/Storage剩余时间使用情形11可回收资源1314CoreCoreCoreCoreCoreESXServer(2C4核)vCPUvCPUvCPUvCPUvCPUvCPUvCPUvCPUvCPUvCPUvCPUvCPUvCPUvCPUvCPUvCPUVM1VM2VM1VM250%时间片100%时间片50%时间片100%时间片资源高配并不见得能够保证高性能15vRops将现有负载划分成三类:•过量使用的Host和Clusters–高容量风险•未充分使用的Host和Clusters–浪费可用空间•最优工作负载资源调配分析UnderutilizedZONEOptimalZONEOverutilizedZONE负载平衡计划WorkloadBalancePlandrivesbestfit•建议为达到最优目标选择的最适合的迁移目标;•负载平衡计划自动选择需要迁移的对象•在CDC内以Cluster为边界分配负载•不会和DRSAffinityRules冲突。TechnicalOverview在CDC内智能平衡负载的分布负载平衡计划负载平衡计划策略智能策略1.以避免容量瓶颈为目标进行分布•最大化可用容量为未来的项目需求.•避免容量风险.2.以尽可能节省硬件资源为目标•在保证性能的前提下,尽可能使用较少的服务器硬件资源。•提高服务器密度,节省硬件资源投资。3.前两种策略之间TechnicalOverview智能平衡NoConsolidationMaximumConsolidationUnbalancedMaximumBalanceESXiHostVMWorkloadBalanceThreshold231最优化分布资源调配完成CONFIDENTIAL20安全合规检查21确保“MAC地址更改”策略设置为“拒绝”如果虚拟机操作系统更改MAC地址,则该操作系统可随时发送带有模拟源MAC地址的帧。这样,操作系统便可通过模拟经接收网络授权的网络适配器对网络中的设备进行恶意攻击。这可防止虚拟机更改其有效MAC地址。需要使用该功能的应用程序将受此影响。此类应用程序的示例包括MicrosoftClustering,此应用程序要求系统有效地共享MAC地址。这还将影响第2层网桥的运行状况。此外,需要使用特定MAC地址管理许可的应用程序也将受此影响。应对这些应用程序连接到的dvPortgroup进行例外处理。设置用于限制ESXiShell服务和SSH服务运行持续时间的超时如果在主机上启用了ESXiShell服务或SSH服务,这些服务将无限期运行。要避免这些服务持续运行,请设置ESXiShellTimeOut。ESXiShellTimeOut定义了一个时间段,ESXiShell服务和SSH服务将在此时间段后自动终止。资产及配置(vCM)2223参数报表资源报表虚拟机信息管理特色:智慧型告警与建议修复方法-快速解決问题目前发现的问题主动分析发生问题的原因有什么建议的事項可以解決问题点?有什么自動化的动作我可以用來修正问题?2425内容套件:集成了VMware和其他厂家(如NetApp)的特定日志分析工具。帮助我们的运维人员快速了解虚拟化环境的整体运行状况。比如目前集群环境中HA状态不正常的虚拟机所占比率以及某一集群中是否发生了SCSI错误等,可以帮助运维人员了解到哪些资源应引起注意,以此防止更严重问题的发生。自定义分析图表:针对任意关键字进行分析,列出对运维工作有价值的信息.比如某一节点出现报错,可通过日志搜集分析得出还有哪些机器也报过类似错误,并列举出报错机器的数量及排名,及时预防并解决环境中的潜在风险。日志分析(loginsight)26专家报表CONFIDENTIAL27主机容量报表存储性能报表虚拟机容量报表28自定义专家面板29功能功能项vRealizeoperation故障管理-提前发现,缩短处理时间。故障发现vRealize具有业内最全面的vSphere环境监控覆盖能力1.指标分析:结构化数据覆盖,监控指标的广度和深度覆盖,横向上能够覆盖云环境的各类对象,纵向上针对每类指标具有较深入的监控指标。总计超过500多种监控指标,全面涵盖vsphere环境的各类对象,包括world,vc,resourcepool,datastore,datacenter,cluster,host,VM等各类对象.2.日志分析:非结构化数据覆盖,运行日志收集分析,可深入收集分析云环境系统运行