高能所的数据密集型科学计算Lustre在高能所的部署经验问题和需求北京正负电子对撞机上的北京谱仪(BESIII)实验羊八井宇宙线实验大型强子对撞机LHC上的ATLAS,CMS实验大亚湾中微子实验重建模拟实验采集原始数据重建数据分析实验结果磁带磁盘盘DocumentManagementWebContentManagement7000多个CPU内核约5PB的磁带存储登录,监控,调度等服务近2PBLustre磁盘存储数据密集型,高吞吐率(highthroughput)计算◦大文件,写一次,读多次◦读带宽:[0.5,6]MB/s◦写带宽:0.1MB/s◦没有热点文件◦大块读写,跳读01000000200000030000004000000500000060000007000000800000090000000K-4K4K-8K8K-16K16K-32K32K-64K64K-128K128K-256K256K-512K512K-1024K1M-2M2M-4M4M-8M8M-16M16M-32MExtentSizereadcalls020000000400000006000000080000000100000000120000000writecallsReadWrite01020304050[-104,-105][-51,-52][-43,-44][-40,-41][-25,-26][-4,-5][-2,-3][-0,-1][1,2][3,4][5,6][40,41][47,48][56,57][93,94]offset(MB)%readwrite2008.8开始在生产系统部署Lustre,1.6.52010.1升级到1.8.1.12011.7升级到1.8.530个OSS,300多个OST近2PB的存储空间,1亿个文件,理论聚合带宽24GB/s版本数量网络连接存储连接服务器2.6.18-194.17.1.el5_lustre.1.8.5,64位30万兆以太网4Gb(双口)直连盘阵客户端1.8.532位和64位800千兆以太网ComputingClusterSATADiskArrayRAID6(Main)10GbEthernetMDSOSS1OSSNSATADiskArrayRAID6(extended)OSTMDT(SAS+RAID10)OST单个OSS连接4个盘阵,8个OSTs◦每个盘阵大约服务50个读写进程◦读性能,225MB/s/diskarray◦乘以服务器数量,系统的理论聚合带宽24GB/s20%ReadthroughputofsingleOSSIOwaitonsingleOSS900MB/s60%文件分布模式◦磁盘池,区分不同的应用◦Stripe=1,针对高吞吐率计算fsck◦每年检修一次◦错误数据,删除,从备份中恢复用户管理◦crontab脚本,同步用户数据库基于目录的quota◦脚本,每天检查一次Lustre底层信息监控◦/proc主机信息监控◦ganglia◦iostat服务器日志汇总,过滤◦syslog-ng磁盘水位报警:lfsdf服务器连接报警:lctlping客户端可用性报警:写文件到多个OST32位服务器OSS频繁死机◦改成64位操作系统双网卡登录节点频繁死机◦对lnet模块网卡绑定timeout值太小,造成客户端不稳定◦lctlset_paramtimeoutMDS的可靠性◦LVM快照+定期备份◦计划实施DRBDLustre客户端内存使用控制◦lctlset_parammax_cache_mb1.8.1.1版本的服务器内存使用控制◦echo0/proc/fs/lustre/obdfileter/OSTXXX/read_ahead_cache_enable服务器死机故障分析◦crashdump+kernel-lustre-debuginfo1.8.1.1,客户端死机后,服务器的CPU出现softstuck,直到死机的客户端重启后,才能恢复正常。◦升级至1.8.5以后故障不再重现个别客户端ptlrpc-recov进程占用CPU100%,无法杀掉,无法正常重启◦升级至1.8.5以后故障不再重现1.8.5版本存在的bug◦导致服务器在读写频繁时会自动重启HPG6服务器无法产生crashdump输出◦可能与1.8.5版本中的cciss硬件驱动有关◦G7服务器上没有32位客户端节点频繁死机◦du,ls–lr等操作会消耗大量的客户端Normalmemory◦临时措施,禁用du操作◦等待客户端完全升级至64位文件副本OST自动均衡元数据服务器的可扩展性方便统一的监控界面高效的数据备份策略Discussion