虚拟化平台网络延迟故障分析报告虚拟化平台网络延迟故障分析报告二零一五年六月文档资料信息文档名称:虚拟化平台网络延迟故障分析报告文档版本号:V1.0准备者:准备日期:2015年6月8日审定者:审定日期:版本历史版本号:版本日期:修订者:描述:文件名:V1.02015年6月8日编写X详细细虚拟化平台网络延迟故障分析报告第1页,共8页目录第一章摘要.........................................................................................................................................2第二章故障分析.................................................................................................................................22.1相关设备清单...............................................................................................................................22.2现象描述.......................................................................................................................................22.3原因分析.......................................................................................................................................2第三章故障处理.................................................................................................................................63.1处理步骤.......................................................................................................................................6第四章下阶段工作及建议.................................................................................................................7虚拟化平台网络延迟故障分析报告第2页,共8页第一章摘要针对在2015年6月广东省消防虚拟化平台网络延迟、cpu异常暴增不进行分析、排查,并对目前的运行状况,提出相应的解决方案。第二章故障分析2.1相关设备清单设备名VMware类型广东省消防虚拟化平台5.5Update22.2现象描述2015年6月,虚拟机出现大量频繁的网络延迟,物理机cpu在到达60%左右就会出现虚拟机无法正常工作,重启虚拟机释放cpu恢复正常。2.3原因分析(排查网络层面问题之后)2.3.1查看各虚拟机的负载情况1、选中虚拟机的安全配置文件,点击属性虚拟化平台网络延迟故障分析报告第3页,共8页2、打开ESXishell、SSH服务(处理结束后建议关闭ESXishell、SSH服务)3、用PuttY工具ssh登录物理机4、然后敲入命令虚拟化平台网络延迟故障分析报告第4页,共8页esxtop然后按c然后V分析:查看各虚拟机的%RDY(cpu等待时间)然后观察各个VM后面的数值,如果经常在5~10,就比较危险,超过10就需要重新优化了。根据结果记录下%RDY超过10的虚拟机GID。2.3.2查看对应虚拟机实际cpu使用情况1命令esxtop2按e,系统会提示输入ID输入VM的ID,3看以vcpu结尾的进程,虚拟化平台网络延迟故障分析报告第5页,共8页2.3.3分析结果分析:虚拟机分配了16个vcpu,而实际使用到的cpu指引2个,其他均出于空闲状态。观察了其他虚拟机,情况也是这样。根据wmware调用cpu原理,虚拟机在计算时每次会向物理机申请cpu的单位就是vcpu配置的个数,只有物理机上cpu空闲数满足vcpu数目的时候,虚拟机才能正常调度,否则会等待物理机cpu。而现网上的每台虚拟机配置的vcpu个数都比较多,造成虚拟机等待物理机的cpu花销增大,这种资源调度上的负担对vmware有很大的负面影响,所以在某些时候虚拟机上的vcpu配置过多,反而会是vm性能降低。虚拟化平台网络延迟故障分析报告第6页,共8页第三章故障处理3.1处理步骤3.1.1根据虚拟机的实际情况调整vcpu个数3.2处理结果3.2.1各虚拟机的%RDY迅速下降虚拟化平台网络延迟故障分析报告第7页,共8页3.2.2各物理机的cpu使用率也迅速下降3.2.3网络频繁延迟得到解决第四章下阶段工作及建议目前把绝大部分的虚拟机vcpu做了减少调整,建议在运行过程经常观察性能使虚拟化平台网络延迟故障分析报告第8页,共8页用情况来增加、减少虚拟机的vcpu个数虚拟化平台网络延迟故障分析报告第9页,共8页