云时代下的游戏平台运维

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

云时代下的游戏平台运维网易游戏在云端•触云两年•多个云服务商以及自建私有云都有涉及•在全球各地大约构建了30+游戏•对云处于又爱又恨的阶段大型云商海量服务器资源可供调用全球资源随意调度,总有一款适合你多计算、存储、网络分离,资源按需快速调整。可以合理选择实例,资源利用率上升好业务部署时间大幅缩短在我们设置好的情况下,只需一天就能完成整套业务的部署快不需要机房维护人员,无硬件维护持有成本省为什么使用云?云可以解放运维的生产力?运维可能需要做的工作•机房硬件、网络维护•基础软件运行环境维护(包括软硬件调优)•应用软件集群部署与维护•业务资源与性能规划软硬件调优•网卡SMPIRQAffinity调优(TPS差距5倍)•时钟调整HPET–TSC(CPU性能差距30%以上)•电源策略调整Performance(CPU性能差距50%)•针对硬件类型选择合适的kernel与驱动网络带宽与PPS•ec2networkperformance受诸多因素影响,是否跨az、是否跨vpc、是否跨region等。•这里整理了下同个AZ下我们测试的结果:实例类型标称带宽测试带宽测试ppsM4.largeModerate447Mb/s5wC4.largeModerate620Mb/s5wC4.xlargeHigh1.24G/s7.5wC4.2xlargeHigh2.48G/s20w网络带宽与PPS•为了获取上面表格的最高性能,你还需要做:•启用Linux上的增强联网(SR-IOV)•内核升级到4.4.34以上(解决CPU0%so]使用率100%)默认时钟源•因为某些未知原因,我们发现在日本的AWS启动的高配实例默认时钟源是HPET•导致服务端性能表现非常低下•强制设置为TSC后解决Kernel与实例兼容性•C4.8xlarge、M4.10xlarge等HasWell架构下的实例如果使用3.x的kernel在压⼒力力负载⼤大时会导致系统Crash,需要升级到4.7kernel。•虚拟网卡在3.xkernel下pps性能无法打满故障解决时间变长•很多参数并不透明•需要应用自己测试•不知道是业务的问题还是厂商的问题•有时定位到故障也需要等厂商上线修复性能瓶颈并没有消失,只是躲起来了。需要运维人员自己找出来优化~全球资源一体化云实例被攻击接入外部清洗第三方监控多云混合使用•把全球公有云看成一个资源池使用,给我们提供了非常大的灵活性•但是不同云从名称、技术细节上的差异也为我们带来了巨大的工作量•资源集庞大后的计费、调度、统计,包括商务洽谈等都会给使用者提出挑战云可以解放运维的生产力?总结•云的趋势不可抗拒•云在降低了我们某些工作量的同时,也给我们带了了很多新的工作量•运维的工作价值依然重要,不会被云替代THANKS

1 / 20
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功