织云Metis时间序列异常检测全方位解析腾讯社交网络运营部——Metis智能运维团队•传统时序监控的问题与新思路•检测算法原理与应用•特征工程与打标工程•样本库建设与管理•Metis概述(智能运维应用实践)业务规模•轻微的异常就会影响到大量的外网用户在线2.8亿月活8.05亿SNG服务器20w+社交类指标240w+传统监控与新思路形态各异准确率低维护成本高•随着业务发展,传统监控呈现出的一些问题传统监控与新思路算法和机器学习的新思路是否可应用?•传统时序监控的问题与新思路•检测算法原理与应用•特征工程与打标工程•样本库建设与管理•Metis概述(智能运维应用实践)常见的机器学习算法回归基于实例正则化贝叶斯聚类基于核关联规则决策树深度学习从大量输入中总结出准确预测的规律(模型)𝑦=𝑓𝑥=𝑎𝑥+𝑑𝑦=𝑓𝑥=𝑎𝑥2+𝑏𝑥+𝑑𝑦=𝑓𝑥1,𝑥2,𝑥3=𝑎𝑥1+𝑏𝑥2+𝑐𝑥3+𝑑ℎ𝑤,𝑏𝑥=𝑎1(3)=𝑓(𝑊112𝑎12+𝑊12(2)𝑎22+𝑊13(2)𝑎32+𝑏1(2)𝑎1(2)=𝑓(𝑊111𝑥1+𝑊12(1)𝑥2+𝑊13(1)𝑥3+𝑏1(1)𝑎2(2)=𝑓(𝑊211𝑥1+𝑊22(1)𝑥2+𝑊23(1)𝑥3+𝑏2(1)𝑎3(2)=𝑓(𝑊311𝑥1+𝑊32(1)𝑥2+𝑊33(1)𝑥3+𝑏3(1)x,x1,x2,x3是我们的输入y是期望的输出a,b,c,d(W,b)是我们要求解的参数f是转换函数(公式、函数、算法、模型…)也就是我们要找的“规律”数值型预测0/1型预测概率型预测等技术路线演进•基于正态分布的假设•基于弱平稳性的假设•基于趋势性,周期性时间序列的统计算法•正负样本不均衡•正负样本不全面•负样本稀少,难以获取分类问题(只用有监督算法)•使用统计判别和无监督算法过滤掉大量正样本•人工标注正负样本•有监督算法提升精准度解决方案(无监督+有监督)技术框架离线模块数据存储统计算法&无监督算法输出疑似异常样本库(人工标注)特征工程(离线计算)有监督算法(离线计算)数据提取统计算法&无监督算法输出疑似异常加载有监督模型特征工程(实时计算)有监督算法(输出异常)在线模块ABTest模块人工审核Atest(实验模型A)Btest(实验模型B)第一层:统计判别算法数据提取•以当前时刻为标准•七天前后三小时+昨天前后三小时+今天前三小时Grubbs•3sigma原理控制图•移动平均算法•指数移动平均算法√×3sigma算法与控制图算法的优缺点第一层:无监督算法√×无监督学习算法的优缺点数据提取•以当前时刻为标准•七天前后三小时+昨天前后三小时+今天前三小时孤立森林•可以从多维特征中寻找异常点SVM•使用超平面的思想来进行异常/正常的区分RNN•使用神经网络的误差来进行异常判断第一层:无监督算法IsolationForest•属于无监督算法•集成学习的思想•适用于连续数据的异常检测•通过多颗iTree形成森林来判断是否异常第一层:无监督算法OneClassSVM•属于无监督算法•使用了超平面的思想•适用于连续数据的异常检测•适用于对样本进行一定比例的筛选•寻找高维平面区分正常点与异常点第一层:无监督算法ReplicatorNeuralNetwork•属于无监督算法•需要构造必要的特征•使用了神经网络的思想•适用于连续数据的异常检测•寻找神经网络的误差来区分正常点与异常点第二层:有监督算法有监督算法•LinearRegression/LogisticRegression•DecisionTree/NaïveBayes•RandomForest/GBDT/xgboost√有监督算法能解决的问题√•传统时序监控的问题与新思路•检测算法原理与应用•特征工程与打标工程•样本库建设与管理•Metis概述(智能运维应用实践)特征工程特征是数据中抽取出来的对结果预测有用的信息。特征工程包含了特征提取、特征构建、特征选择等模块样本初始特征分布情况特征监控样本分析全流程特征分析参数分析误差分析特征有效性分析离散化离群点分布共线性缺省值去均值归一化特征有效性分析特征选择特征组合与转换模型调优更新模型因子化相关性缺省值因子化连续特征离散特征标准化特征工程统计特征•最大值,最小值,值域•最小值位置、最大值位置•均值,中位数•平方和,重复值•方差,偏度,峰度•同比,环比,周期性•自相关系数,变异系数拟合特征•移动平均算法•带权重的移动平均算法•指数移动平均算法•二次指数移动平均算法•三次指数移动平均算法•奇异值分解算法•自回归算法•深度学习算法分类特征•熵特征•值分布特征•小波分析特征特征工程统计特征•最大值,最小值,值域•最小值位置、最大值位置•均值,中位数•平方和,重复值•方差,偏度,峰度•同比,环比,周期性•自相关系数,变异系数特征工程拟合特征•移动平均算法•带权重的移动平均算法•指数移动平均算法•二次指数移动平均算法•三次指数移动平均算法•奇异值分解算法•自回归算法•深度学习算法特征工程分类特征•熵特征•值分布特征•小波分析特征聚类Kmeans分类器打标工程1.输出异常视图到前端页面2.人工确认是否真的异常,假异常则校正3.后台根据人工校正的结果,存下校正后的所有结果:正常记为1,异常记为0•传统时序监控的问题与新思路•检测算法原理与应用•特征工程与打标工程•样本库建设与管理•Metis概述(智能运维应用实践)样本库管理与建设样本库管理样本是核心价值样本的丰富程度制约检测效果格式、长度、标签(分类、正负)、时间戳、标志、来源样本查看:权限、类别、业务维度等样本查找:字段检索、相似度检索、时间片检索样本分类:标记、算法分类等训练、提取、伪装、构造、分类、样本的积累贯穿机器学习的始终功能集合北向串联通用规范价值积累样本库管理与建设功能应用样本库存储正负来源窗口类别A类别B类别CCRUD提取分类查找添加伪装构造训练模型离线打标特征分析算法调参样本库管理Action层:触发功能与样本数据的交互DAO层:封装与数据进行联络的任务,无业务逻辑显著提升应用效率和数据规范Service层:功能模块的逻辑应用实现数据层:根据样本量选择存储;三级分类Metis时间序列异常检测业务效果目前效果90%+80%+用少量模型覆盖所有曲线,统计判别+无监督+有监督准确率计算方法:人工抽查,查看告警出来的时间序列和时间点是否准确辅助工具:打标工程召回率计算方法:人工从业务中选择一批异常的时间序列和相应的时间点,然后让这批序列通过现有模型,看看是否被召回辅助工具:样本库管理•传统时序监控的问题与新思路•检测算法原理与应用•特征工程与打标工程•样本库建设与管理•Metis概述(智能运维应用实践)渐进式的AIOps能力算法学件场景数据决策分层明细织云Metis腾讯织云AIOps应用实践时间序列异常检测集群智能负载均衡容量分析与预测多维根因分析生死指标监控……学件N学件学件学件学件学件组合学件学件学件学件学件组合学件学件学件学件学件组合自动扩缩容决策直播多维根因分析更多运维场景学件库串联应用案例容量分析与预测平衡木灰度上线变更体检时间序列异常检测生死指标监控DLP平衡木资源权限pkg配置文件脚本流程引擎监控自动扩容缩容绿色表示运维场景蓝色表示自动化工具黑色表示智能化学件