大规模Hadoop集群运维经验谈

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

阿⾥里Hadoop集群运维介绍柯旻(大舞)  阿里巴巴技术保障部门-­‐云计算运维Alibaba  confiden.al 阿⾥里hadoop集群发展现状 监控报警 ⾃自动化运维 数据化运维 ⼤大规模集群下遇到的运维问题和新挑战大纲2Alibaba  confiden.al集群容量与负载  3集群容量• –约~  5000台服务器• –CPU  core  ~50000核• –内存~260TB    • –磁盘~120000块• –存储容量~110PB    集群负载(每天)• Job  200,000+    • 扫描数据量~10PB    • 扫描文件数~4亿• 存储利用率~75-­‐80%    • –CPU利用率~70%  峰值85%    Alibaba  confiden.al服务器数量增长4200  700  1000  2000  3000  5000  10000  0  2000  4000  6000  8000  10000  12000  2009.4  2010.3  2010.7  2012.1  2012.1  2013.7  2014?  服务器数量  Alibaba  confiden.al5集群服务模式    云梯Hadoop集群HDFSMapReduce生产开发测试预发全天可用9~23点9~23点9~23点• 生产\开发\测试\预发共享一个集群• 重点生产业务0~9点运行• 非生产限制在9~23点可用Alibaba  confiden.al6集群核心业务平台架构Oracle备库MySQL备库日志系统云梯服务集群数据平台搜索支付宝B2BGateway  Servers数据魔方量子统计口碑DBSync爬虫数据  Map  Reduce  Jobs  Streaming  Jobs  Hive  Jobs广告BI淘数据推荐系统搜索排行…TimeTunnelDataX数据流向天网调度系统数据用户部门对外数据产品资料来源:《淘宝云梯分布式计算平台整体架构》-张清(淘宝)Alibaba  confiden.al• 监控Hadoop关键进程,磁盘运行状况等短信、旺旺、邮件报警等• 监控集群整体运行状态和Hadoop运行参数数据• Job的Counter数限制• 创建HDFS文件数目的监控• 本地文件系统数据读写量监控• 异常作业监控• Endtoend监控• 云梯医生监控各类用户态数据监控报警7Alibaba  confiden.al云梯医生8• 展示一些应用组件基本信息(setup、map、reduce、cleanup,split、map、copy、sort、reduce、outputHDFS读写数据量、本地读写数据量、使用slots、调度等待时间、task失败的比例、task失败原因分类、task失败的机器)• 针对用户提供体检服务 • 支持定制服务和实时体检Alibaba  confiden.al1. 服务器上线前自动化检查  2. 硬盘异常自动化处理  3. 集群用户一站式portal  4. 日常各类自动化运行报表            ……………….  自动化运维9Alibaba  confiden.al硬件上线前监测(fw版本,bios配置,驱动版本以及性能情况)  服务器上线前自动化检查10Alibaba  confiden.al硬盘异常自动处理  1. 廉价、大容量的硬盘  2. 磁盘繁忙度和利用率很高3. 硬盘故障率远高于其他硬件  硬盘异常自动化处理11Alibaba  confiden.al集群用户一站式Portal▽用户服务申请用户申请用户组申请Gateway▽组管理员服务申请审批申请Slots申请存储▽集群管理员服务申请审批管理用户管理用户组进度查询查询用户查询用户组查询Gateway用户手册管理GatewayQueue管理Slots管理• 集群用户一站式完成各类申请• 组管理员负责申请计算\存储资源• 集群管理员通过web控制调整集群配置Alibaba  confiden.al日常各类自动化运行报表  13Alibaba  confiden.al• 自动化后是不是就够了?  • 1000台,1万台我们还有经验可以借鉴,10万台,50万台,100万台后我们借鉴什么?  • 拍脑袋的决定不一定靠谱了,随着规模的扩大也许一拍下去会跟公司造成巨大损失                数据化运维14数据才是唯一真实可靠的!Alibaba  confiden.al磁盘15• • • • • 140Alibaba  confiden.al服务器16Alibaba  confiden.al冷数据17Alibaba  confiden.al集群数据18• 集群全局指标• 存储\计算利用率趋势• 用户\组资源使用趋势分析• Slots*Sec• HDFS/Localr/w• 机器\机器组视图• 业务作业对比(前一天\前一周)• 数据量增长趋势• 不同优先级作业资源消耗• Master节点关键指标• JobTracker心跳频率\时间• NameNodeRPC各项性能指标Alibaba  confiden.al用户数据19Alibaba  confiden.al1. 服务器硬件配置情况一直在发生变化  2. 大批机器上线某些机器性能不一致  3. Kernel  bug  4. 用户数,分组,业务急剧膨胀  5. 突发状况变多,集群突然变慢了?某个组新上线大规模作业?  6. 大压力情况下出现边界效应,小概率事件触发成为常态  7. 目前规模单机房已经无法满足我们需求,跨机房集群该如何运维?  8. 成本,成本,如何控制成本              …………..    集群数量快速膨胀遇到的运维压力20Alibaba  confiden.al欢迎加入阿里巴巴技术保障部门-­‐云计算运维  h[p://job.alibaba.com/zhaopin/job_detail.htm?refNo=JI002985                        我们还在路上,一起改变世界!!!  加入我们21Alibaba  confiden.al                                Q&A  22

1 / 22
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功