中国Lustre用户峰会2011报告--2面向数据密集型应用的lustre文件系统

4099
2 ℃
2020-03-03

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

高能所的数据密集型科学计算Lustre在高能所的部署经验问题和需求北京正负电子对撞机上的北京谱仪（BESIII）实验羊八井宇宙线实验大型强子对撞机LHC上的ATLAS,CMS实验大亚湾中微子实验重建模拟实验采集原始数据重建数据分析实验结果磁带磁盘盘DocumentManagementWebContentManagement7000多个CPU内核约5PB的磁带存储登录，监控，调度等服务近2PBLustre磁盘存储数据密集型，高吞吐率(highthroughput)计算◦大文件，写一次，读多次◦读带宽:[0.5,6]MB/s◦写带宽:0.1MB/s◦没有热点文件◦大块读写，跳读01000000200000030000004000000500000060000007000000800000090000000K-4K4K-8K8K-16K16K-32K32K-64K64K-128K128K-256K256K-512K512K-1024K1M-2M2M-4M4M-8M8M-16M16M-32MExtentSizereadcalls020000000400000006000000080000000100000000120000000writecallsReadWrite01020304050[-104,-105][-51,-52][-43,-44][-40,-41][-25,-26][-4,-5][-2,-3][-0,-1][1,2][3,4][5,6][40,41][47,48][56,57][93,94]offset(MB)%readwrite2008.8开始在生产系统部署Lustre，1.6.52010.1升级到1.8.1.12011.7升级到1.8.530个OSS,300多个OST近2PB的存储空间，1亿个文件，理论聚合带宽24GB/s版本数量网络连接存储连接服务器2.6.18-194.17.1.el5_lustre.1.8.5,64位30万兆以太网4Gb（双口）直连盘阵客户端1.8.532位和64位800千兆以太网ComputingClusterSATADiskArrayRAID6（Main）10GbEthernetMDSOSS1OSSNSATADiskArrayRAID6（extended）OSTMDT(SAS+RAID10)OST单个OSS连接4个盘阵,8个OSTs◦每个盘阵大约服务50个读写进程◦读性能,225MB/s/diskarray◦乘以服务器数量，系统的理论聚合带宽24GB/s20%ReadthroughputofsingleOSSIOwaitonsingleOSS900MB/s60%文件分布模式◦磁盘池，区分不同的应用◦Stripe=1，针对高吞吐率计算fsck◦每年检修一次◦错误数据，删除，从备份中恢复用户管理◦crontab脚本，同步用户数据库基于目录的quota◦脚本，每天检查一次Lustre底层信息监控◦/proc主机信息监控◦ganglia◦iostat服务器日志汇总，过滤◦syslog-ng磁盘水位报警:lfsdf服务器连接报警:lctlping客户端可用性报警:写文件到多个OST32位服务器OSS频繁死机◦改成64位操作系统双网卡登录节点频繁死机◦对lnet模块网卡绑定timeout值太小，造成客户端不稳定◦lctlset_paramtimeoutMDS的可靠性◦LVM快照+定期备份◦计划实施DRBDLustre客户端内存使用控制◦lctlset_parammax_cache_mb1.8.1.1版本的服务器内存使用控制◦echo0/proc/fs/lustre/obdfileter/OSTXXX/read_ahead_cache_enable服务器死机故障分析◦crashdump+kernel-lustre-debuginfo1.8.1.1,客户端死机后，服务器的CPU出现softstuck，直到死机的客户端重启后，才能恢复正常。◦升级至1.8.5以后故障不再重现个别客户端ptlrpc-recov进程占用CPU100%，无法杀掉，无法正常重启◦升级至1.8.5以后故障不再重现1.8.5版本存在的bug◦导致服务器在读写频繁时会自动重启HPG6服务器无法产生crashdump输出◦可能与1.8.5版本中的cciss硬件驱动有关◦G7服务器上没有32位客户端节点频繁死机◦du,ls–lr等操作会消耗大量的客户端Normalmemory◦临时措施，禁用du操作◦等待客户端完全升级至64位文件副本OST自动均衡元数据服务器的可扩展性方便统一的监控界面高效的数据备份策略Discussion