阿⾥里Hadoop集群运维介绍柯旻(大舞) 阿里巴巴技术保障部门-‐云计算运维Alibaba confiden.al 阿⾥里hadoop集群发展现状 监控报警 ⾃自动化运维 数据化运维 ⼤大规模集群下遇到的运维问题和新挑战大纲2Alibaba confiden.al集群容量与负载 3集群容量• –约~ 5000台服务器• –CPU core ~50000核• –内存~260TB • –磁盘~120000块• –存储容量~110PB 集群负载(每天)• Job 200,000+ • 扫描数据量~10PB • 扫描文件数~4亿• 存储利用率~75-‐80% • –CPU利用率~70% 峰值85% Alibaba confiden.al服务器数量增长4200 700 1000 2000 3000 5000 10000 0 2000 4000 6000 8000 10000 12000 2009.4 2010.3 2010.7 2012.1 2012.1 2013.7 2014? 服务器数量 Alibaba confiden.al5集群服务模式 云梯Hadoop集群HDFSMapReduce生产开发测试预发全天可用9~23点9~23点9~23点• 生产\开发\测试\预发共享一个集群• 重点生产业务0~9点运行• 非生产限制在9~23点可用Alibaba confiden.al6集群核心业务平台架构Oracle备库MySQL备库日志系统云梯服务集群数据平台搜索支付宝B2BGateway Servers数据魔方量子统计口碑DBSync爬虫数据 Map Reduce Jobs Streaming Jobs Hive Jobs广告BI淘数据推荐系统搜索排行…TimeTunnelDataX数据流向天网调度系统数据用户部门对外数据产品资料来源:《淘宝云梯分布式计算平台整体架构》-张清(淘宝)Alibaba confiden.al• 监控Hadoop关键进程,磁盘运行状况等短信、旺旺、邮件报警等• 监控集群整体运行状态和Hadoop运行参数数据• Job的Counter数限制• 创建HDFS文件数目的监控• 本地文件系统数据读写量监控• 异常作业监控• Endtoend监控• 云梯医生监控各类用户态数据监控报警7Alibaba confiden.al云梯医生8• 展示一些应用组件基本信息(setup、map、reduce、cleanup,split、map、copy、sort、reduce、outputHDFS读写数据量、本地读写数据量、使用slots、调度等待时间、task失败的比例、task失败原因分类、task失败的机器)• 针对用户提供体检服务 • 支持定制服务和实时体检Alibaba confiden.al1. 服务器上线前自动化检查 2. 硬盘异常自动化处理 3. 集群用户一站式portal 4. 日常各类自动化运行报表 ………………. 自动化运维9Alibaba confiden.al硬件上线前监测(fw版本,bios配置,驱动版本以及性能情况) 服务器上线前自动化检查10Alibaba confiden.al硬盘异常自动处理 1. 廉价、大容量的硬盘 2. 磁盘繁忙度和利用率很高3. 硬盘故障率远高于其他硬件 硬盘异常自动化处理11Alibaba confiden.al集群用户一站式Portal▽用户服务申请用户申请用户组申请Gateway▽组管理员服务申请审批申请Slots申请存储▽集群管理员服务申请审批管理用户管理用户组进度查询查询用户查询用户组查询Gateway用户手册管理GatewayQueue管理Slots管理• 集群用户一站式完成各类申请• 组管理员负责申请计算\存储资源• 集群管理员通过web控制调整集群配置Alibaba confiden.al日常各类自动化运行报表 13Alibaba confiden.al• 自动化后是不是就够了? • 1000台,1万台我们还有经验可以借鉴,10万台,50万台,100万台后我们借鉴什么? • 拍脑袋的决定不一定靠谱了,随着规模的扩大也许一拍下去会跟公司造成巨大损失 数据化运维14数据才是唯一真实可靠的!Alibaba confiden.al磁盘15• • • • • 140Alibaba confiden.al服务器16Alibaba confiden.al冷数据17Alibaba confiden.al集群数据18• 集群全局指标• 存储\计算利用率趋势• 用户\组资源使用趋势分析• Slots*Sec• HDFS/Localr/w• 机器\机器组视图• 业务作业对比(前一天\前一周)• 数据量增长趋势• 不同优先级作业资源消耗• Master节点关键指标• JobTracker心跳频率\时间• NameNodeRPC各项性能指标Alibaba confiden.al用户数据19Alibaba confiden.al1. 服务器硬件配置情况一直在发生变化 2. 大批机器上线某些机器性能不一致 3. Kernel bug 4. 用户数,分组,业务急剧膨胀 5. 突发状况变多,集群突然变慢了?某个组新上线大规模作业? 6. 大压力情况下出现边界效应,小概率事件触发成为常态 7. 目前规模单机房已经无法满足我们需求,跨机房集群该如何运维? 8. 成本,成本,如何控制成本 ………….. 集群数量快速膨胀遇到的运维压力20Alibaba confiden.al欢迎加入阿里巴巴技术保障部门-‐云计算运维 h[p://job.alibaba.com/zhaopin/job_detail.htm?refNo=JI002985 我们还在路上,一起改变世界!!! 加入我们21Alibaba confiden.al Q&A 22