自动化运维平台让万台服务器共舞-百度付晔

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

百度运维部技术委员会主席曾负责多产品线运维技术与管理工作负责百度运维平台的设计与实现纲要运维面临的挑战自劢化运维技术自劢化监控突发的流量变化复杂环境的关联影响快速迭代的开发模式运维效率-运维质量-成本自劢化运维技术–技术框架容量管理关联关系自劢部署分布式集群传统集群运维标准监控管理安全控制灾难管理机器管理任务管理流程自劢化监控-监控技术框架报警与联动数据处理数据采集(主动)Client公共插件自定义脚本服务状态探测(被动)服务状态程序状态用户访问质量阈值判别复杂计算智能分析报警策略第三方信息公司内相关系统API联劢处理问题管理报警跟踪监控评估自劢化监控–从一个异常开始自劢化监控-如何有效的进行监控自劢化监控–以守为攻哪里出现了问题?能否避免?自劢化监控-如何有效的进行监控域名监控流量监控访问质量监控语义监控基础监控端口监控结构体监控模块监控日志监控自定义监控实现方法:对业务的全流量进行镜像,通过分析数据包的方法,得到连接建立时间、数据传输时间等信息,再结合IP得出各地域访问时间各地域访问速度监控各地域访问流量监控机房带宽使用监控各地DNS速度……自劢化监控-如何有效的进行监控自劢化监控-如何有效的进行监控Apache、UI、MySQL都正常吗?structres_define{int32_tversion;int32_tlog_id=value(66666);charprovider[16];int32_tparam1;int32_tparam2;int32_tlen;};structreq_define{int32_tversion=value(1);int32_tlog_id=value(66666);charprovider[16]=value(monitor);int32_tparam1=value(0);int32_tparam2=value(0);int32_tlen=value(48);int32_tcmd=value(204);int32_top_uid=value(0);int32_top_uip=value(0);int32_tspaceid=value(0);charother1[24]=value(asdf);};自劢化监控-如何有效的进行监控自劢化监控-如何有效的进行监控程序自身占用的资源量是否合理?程序的性能表现如何?程序的分支功能如何?CPU资源占用内存占用文件句柄使用情况网络句柄使用情况各种状态的进程数自劢化监控-如何有效的进行监控数据加载情况模块处理能力平均耗时队列长度线程池使用率模块间通讯状态平均连接时间读、写错误数模块运行时间……UNIXDomainSocket避免新开Socket对端口资源占用和管理问题不需要经过网络协议栈,不需要打包拆包,提高通讯时效性文本文件多样性的数据获取方式易于线上的实时数据查看和分析自劢化监控-如何有效的进行监控自劢化监控–智能分析关联关系查询模块关联探测服务器关联探测网络关联探测三个异常报警周期内,异常次数达到用户设定报警阈值的2倍自劢化监控–故障自劢处理流量切换预案服务器重启磁盘数据清理执行各种定义好的命令服务器维度策略维度多维度计算同策略两次连续报警时间间隔+1最大等待时间61s监控策略A监控策略B监控策略C监控策略D服务器A报警1服务器B报警2报警5服务器C报警3报警4报警6服务器D报警7服务器E报警8如何有效的进行监控智能分析故障自劢处理关注我们:t.baidu-tech.com资料下载和详细介绍:infoq.com/cn/zones/baidu-salonInfoQ策划·组织·实施关注我们:weibo.com/infoqchina“畅想•交流•争鸣•聚会”是百度技术沙龙的宗旨。百度技术沙龙是由百度与InfoQ中文站定期组织的线下技术交流活动。目的是让中高端技术人员有一个相对自由的思想交流和交友沟通的的平台。主要分讲师分享和OpenSpace两个关键环节,每期只关注一个焦点话题。讲师分享和现场Q&A让大家了解百度和其他知名网站技术支持的先进实践经验,OpenSpace环节是百度技术沙龙主题的升华和展开,提供一个自由交流的平台。针对当期主题,参与者人人都可以发起话题,展开讨论。

1 / 24
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功