自我介绍•黎毅敏•十多年一线运维经验•长期关注高可用性、高可靠性、可扩展性架构和方案•2013年4月加入唯品会,负责网站系统运维•微博:@Yimin_Li分享主题•基础架构优化案例•运维流程优化案例•运维自动化现状•关于DEV和OPS•图片系统优化案例•大数据对运维的帮助背景•公司业务发展快•技术团队年轻•网络基础架构薄弱优化前面临的挑战•交换机之间的流量经常跑满•无法接入更多的服务器和机柜•内网经常丢包•交换机之间网线经常降速•运维人员经常踩坑•非常多的单点故障点•对流量要求高的新业务无法上线网络架构缺点•千兆骨干•无冗余•无扩展性•内外网结构,两套网络,成本高•对运维不友好•安全性差服务器10.100.10.*10.100.11.*重新设计•3个月•2位网络工程师网络结构特点•高性能(10G骨干,核心交换机Tb级转发能力)•冗余性•可扩展性•无生成树•模块化•合理收敛比•内外网融合,运维友好•安全性加强服务器10.100.*.*Bonding迁移项目•全部4个数据中心•大数据平台•数据中心迁移•持续半年•人力投入巨大新架构效果•消除了网络单点故障点•应用性能提高•服务器带宽及可靠性提高•可快速扩展•网络整体容量提高10倍+流程优化•基于ITIL•监控中心负责•体系化•变更管理•事件管理•问题管理变更管理•减少变更对生产系统的影响•减少故障定位和发现的时间•有助于跨团队和大团队的沟通•确保对生产环境的变更都经过审查和审批•避免过度审批•蝴蝶效应事件管理•监控中心负责•多个监控系统(Zabbix,Telescope)•统一告警平台•标准化故障处理流程•电话会议问题管理•监控中心驱动•重大故障•反复发生的故障•定位原因•解决方案运维自动化进展情况•还处于初级阶段•服务器安装Cobbler•配置管理采用Puppet框架•在QA、大数据、DBA、移动运维团队已经用Puppet实现服务器快速部署和系统配置标准化•对还没有接入配置管理系统的服务器从流程上要求把配置和运维操作进行了规范化和标准化所以•对外互相补位•对内各自发挥所长(运维提需求,开发设计和实现)图片系统优化前情况•1亿+图片(不包含移动图片)•35T存储空间(3份拷贝)•优化前高峰时间平均响应时间几十秒•(优化前架构)LVS-Nginx(Cache)-MooseFS•CDN厂商无法完全预热移动终端的所有URL图片系统优化手段•LVS-Haproxy-Nginx(Cache)-MooseFS•HaproxyURI哈希负载均衡•MFSmasterserver扩内存•MFSchunkserver扩容并采用全裸盘•双重预热机制•试水Flashcache•优化后降到几十ms到几百ms之间图片系统改造方向•对象存储•SWIFT或自行开发?日志平台•Telescope/Logview•具体架构参见Qcon上海2013姚仁捷-唯品会日志平台建设•监控中心和运维最依赖的监控工具之一•各个系统的4XX,5XX及访问量,平均响应时间•迅速发现生产系统的隐蔽问题•变更和代码发布后的校验手段之一基于响应时间的优化•优化前后响应时间改变情况•响应时间和系统容量密切相关•大促前的优化方向•大促期间的监控手段大数据对运维的一些其他帮助•CDN服务质量监控•移动图片各分辨率访问比例统计(预热)大数据对运维的一些其他帮助•CDN服务质量监控•移动图片各分辨率访问比例统计(预热)总结•设计良好的基础架构可以有效提高网站容量、可靠性和可维护性水平•运维流程可以有效提高网站可用性和提供团队效率•运维和开发是互补、相互扶持的关系•图片系统的优化经验•大数据对提高运维水平有很大帮助招聘中。。。•高级/资深基础运维工程师•高级/资深应用运维工程师•高级/资深运维工具开发•基础架构软件开发工程师•运维架构师•高级/资深网络工程师•基础运维经理/高级运维经理•地点:广州或上海(zhaopin@vipshop.com)!