GOPS全球运维大会2019·深圳站GOPS全球运维大会2019·深圳站智能故障预测与应用健康管理实践苗宏涛Qunar运维总监GOPS全球运维大会2019·深圳站目录OPS的目标&工作1Qunar运维演进2Qunar的实践4故障预测与健康管理(PHM)简介&方法论3前景与问题5GOPS全球运维大会2019·深圳站OPS的目标减少应用的故障产生快速修复故障GOPS全球运维大会2019·深圳站OPS的职责可用度=MTBF/(MTBF+MTTR)MTBF:平均无故障工作时间。在规定的工作环境条件下开始工作到出现第一个故障的时间的平均值。MTTR:平均修复时间。是指可修复产品的平均修复时间,就是从出现故障到修复中间的这段时间。围绕这个公式展开的GOPS全球运维大会2019·深圳站如何应对故障已发生的故障精确定位有效隔离快速解决GOPS全球运维大会2019·深圳站如何应对故障未发生的故障容量预测故障预测健康管理GOPS全球运维大会2019·深圳站目录OPS的目标&工作1Qunar运维演进2Qunar的实践4故障预测与健康管理(PHM)简介&方法论3前景与问题5GOPS全球运维大会2019·深圳站Qunar运维演进人工/半自动运维自动化Portaln业务方提工单/邮件,人工审核l效率低,无法有效审计nOPS人工处理l操作无法标准化、脚本/工具无法收敛、知识无法沉淀n通知业务方、业务方Checkl不及时,阻塞OPS并发执行任务,沟通成本极高nCMDB(OPSDB)n监控平台(Watcher)n独立领域自动化工具/平台n审批工作流nIM(Qtalk)n资源、CI/CD、监控、日志、基础服务集中管理n统一入口、统一认证/授权n应用全局唯一标识(appcode)n基础运维数据同步共享n应用全寿命周期管理GOPS全球运维大会2019·深圳站手段和策略故障事后处理ü故障reviewü整改措施&追踪ü故障知识库故障实时发现ü事件关联ü根因分析ü快速定位/止损故障预测GOPS全球运维大会2019·深圳站目录OPS的目标&工作1Qunar运维演进2Qunar的实践4故障预测与健康管理(PHM)简介&方法论3前景与问题5GOPS全球运维大会2019·深圳站PHM历史沿革故障预测与健康管理(PrognosticandHealthManagement,PHM)NASA提出VHM飞行健康监控进化为ISHM综合系统监控管理JSF项目的启动大大推动了PHM的发展GOPS全球运维大会2019·深圳站PHM应用领域GOPS全球运维大会2019·深圳站PHM应用于互联网领域的探索目标一致理论完备技术满足大数据实施流处理,机器学习人工智能普及化避免失效,提高应用可靠性理论界成熟的理论支撑,工业界充分的实践验证GOPS全球运维大会2019·深圳站PHM方法论–流程GOPS全球运维大会2019·深圳站PHM方法论–模型①基于故障状态信息②基于异常现象信息③基于使用环境信息④基于损伤标尺信息GOPS全球运维大会2019·深圳站PHM方法论–要求010302及时性要求预留足够的维修保障时间经济性要求预测成本故障损失可评价验证结果有效性必须可量化验证GOPS全球运维大会2019·深圳站目录OPS的目标&工作1Qunar运维演进2Qunar的实践4故障预测与健康管理(PHM)简介&方法论3前景与问题5GOPS全球运维大会2019·深圳站故障预测流程1指标采集2数据预处理3故障诊断6用户反馈5健康状态通知4故障预测GOPS全球运维大会2019·深圳站预测指标的选择基础监控指标业务监控指标点击请替换文字内容基础报警业务报警中间件日志系统日志业务日志点击请替换文字内容应用关联关系运维事件完整、客观真实、有效GOPS全球运维大会2019·深圳站故障预测2103预测模型指标趋势预测时序异常检测事件关联分析04故障知识库故障场景匹配运维经验01策略&阈值静态阈值设置动态阈值设置指标检测策略02历史数据比对短期环比长期环比同比同比振幅GOPS全球运维大会2019·深圳站故障反馈自上而下的建立规范和制度。提高全员对可靠性的认识。通过技术手段建立多种方便的反馈渠道。对反馈分类,对有效需求进行处理,甄别无效需求的内涵。对有效反馈快速处理,有效的将处理结果呈现出来机制健全渠道畅通响应及时反应迅速GOPS全球运维大会2019·深圳站健康看板GOPS全球运维大会2019·深圳站健康档案GOPS全球运维大会2019·深圳站运维事件时间轴GOPS全球运维大会2019·深圳站关联拓扑图GOPS全球运维大会2019·深圳站基石之appcode应用唯一标识1.全局唯一2.无层级关系3.统一标识各种资源4.全生命周期跟踪关联运维事件1.记录运维操作2.触发运维事件3.关联appcode关联监控指标1.业务指标关联2.基础指标关联关联报警所有报警必须关联到appcode。明确报警由何处发出,被何人接收。GOPS全球运维大会2019·深圳站基石之分级•业务分类•订单类业务•核心业务服务•基础服务•应用分级•业务重要性(P1-4)•报警分级•Warning•Critical•Unknown•运维事件分级•对应用健康的影响(L1-4)GOPS全球运维大会2019·深圳站基石之报警有效性要求:报警作为预测的重要指标必须准确和独立现实:①滥设报警:不知道应该设置什么报警于是什么都报②无效报警多:什么都报=什么都没报③报警规则不更新:业务发展+技术迭代后没有及时更新报警规则④报警接收人不清楚报警来源:人员交替没有做好报警交接工作⑤对报警-Bug之间的关系理解模糊:监控&报警并不能替代QA与责任心⑥观念错误:一键傻瓜式的报警设置是不存在的解决:①关联Appcode:明确报警来源,明确报警接收人,明确报警管理者②监控长时间没有结束的报警:调整报警设置or人员培训③提供各种报警设置方法:单指标、多指标聚合、同比/环比、函数、组合④教育&培训GOPS全球运维大会2019·深圳站基石之故障记录•故障Review原则和制度•确定参加人员•有时限要求•故障级别、责任部门最终确认•找到根本原因•形成改进计划•故障存档•故障统计分析•故障演练和培训•建立故障管理制度和流程•发现故障•申报故障•通报故障•故障跟踪•故障总结•跟进故障改进•故障上报标准化•标准上报表单•接受上报故障自动化–故障机器人•故障级别和升级•根据故障特征和损失程度对故障划分级别•根据级别规定解决时限和动员范围•超过时限仍未解决或损失扩大进行故障升级GOPS全球运维大会2019·深圳站目录OPS的目标&工作1Qunar运维演进2Qunar的实践4故障预测与健康管理(PHM)简介&方法论3前景与问题5GOPS全球运维大会2019·深圳站PHM在互联网行业的问题业务变化快1.商业形态变化快2.技术更新快3.人员流动快缺少理论支撑1.重实践轻理论2.不能形成总结3.不能持续改进4.方向选择随意缺少交流1.不知道2.不愿意3.没渠道4.没有契合点5.形成成果困难技术治理1.高层缺乏规划2.中层缺乏决断力3.基层缺乏数据分析能力GOPS全球运维大会2019·深圳站与工业界的关系和互动•与工业界理论相结合,形成适合互联网业务形态的方法论•大胆应用于实践•试错,提炼出有效理论•结合技术发展,持续改进方法•昀终反哺工业界GOPS全球运维大会2019·深圳站Thanks高效运维社区开放运维联盟荣誉出品GOPS全球运维大会2019·深圳站想第一时间看到高效运维社区的新动态吗?