网格计算与PC-FARM的使用王永刚May19,2003主要内容•什么是网格计算•PC-FARM的结构•PC-FARM的使用方法一.网格计算(GridComputing)•基本概念(HistoricalConsideration)高性能计算(High-PerformanceComputing)大规模科学问题,象天气预报、地形分析和生物制药等存储和处理海量数据,象数据挖掘、图象处理和基因测序高能物理的事例重建和模拟高吞吐计算(High-throughputComputing)SMP(SymmetricMulti-Processor)集群(Cluster)系统与SMP比较高性能集群网格计算继续集群与SMP的性能比较返回网格计算的特点•网格计算是一种高性能计算网格研究来源于美国联邦政府过去十年来资助的高性能计算科研项目。从1992年美国总统克林顿提出“信息高速公路”计划,开始了下一代互联网(NGI)研究计划。•异质网络•分布式(地理上)•21世纪的主流计算技术Globus网格与中国•网格技术被称为网络技术发展的第三次浪潮。网络技术的前两次浪潮(互联网和万维网),中国都没有参与世界上核心技术的创新工作。我国的计算机产业,在总体上落后于西方国家,一个重要原因是“文化大革命”使我们错过了参与发明网络的前两个浪潮。•从1969年至今,互联网发展至今已经34年了,出现了3180个技术标准文档(RFC)。我国科技界仅参与了一个技术标准文档的制定。那就是1996年3月(互联网第一个标准发明27年后,TCP/IP协议发明22年后)胡道元教授牵头制定的中文字符编码标准(RFC1922)。•从1989年至今,万维网(Web)发展至今也近14年了,出现了46个技术标准,我国科技界参与制定的技术标准一个也没有。•根据Internet和Web发展的历史,网格的重要技术标准将在2004-2005出现。这个技术将主导2004-2020年的信息技术领域发展趋势。•网格是中国计算机技术发展的一个契机。国内的网格项目•VegaGridProject(ICT)•ScientificDataGrid(AC)•ChineseUniversityGrid(ME)ShandongUniversity,1/12•HEPDataGrid(IHEP)国外的网格项目•美国政府从十年前就开始投资了,累计用于网格技术的基础研究经费已近五亿美元。•美国军方更为积极。美国国防部已在规划实施一个宏大的网格计划,叫作“全球信息网格”(GlobalInformationGrid),预计在2020年完成。作为这个计划的一部分,美国海军和海军陆战队已先期启动一个160亿美元的八年项目,包括系统的研制、建设、维护和升级。•英国政府已决定投资1亿英镑于网格项目。国外的网格项目(续)•国家计算机科学联盟NPACI(NSF)•国家技术网格NTG(NSF)•分布式万亿次级计算设施DTF(NSF)•IPG-InformationPowerGrid(NASA)•ASCIGrid(DOE)•DataGrid(EU)二.PC-FARM的结构PC-FARM的结构(续)•RAID盘,1TB,7/8的容量,安全(两个备用盘)•文件服务器与其他主机以千兆位端口连接,高吞吐量•UPS电源,5000VA,网络监控•Linux支持的摄像头,实时监控•用户必须通过hgfarm才能到达PC-FARM三.PC-FARM的使用•网格计算至少需要具备三种基本功能l任务管理用户通过该功能向网格提交任务、为任务指定所需资源、删除任务并监测任务的运行状态。l任务调度用户提交的任务由该功能按照任务的类型、所需资源、可用资源等情况安排运行日程和策略。l资源管理确定并监测网格资源状况,收集任务运行时的资源占用数据。•使用SunONEGridEngine5.3就可以实现上述三个功能。•我们的PC-FARM还不是真正的网格计算,只能算作网格计算略低一级的形式——集群计算。GridEngine的使用•条件在hgfarm上有帐号和HOME目录•启动QMON在你所在的机器(比如hepg15)输入以下命令:sshhgfarmqmon1.启动QMON主界面每个按钮的说明(1)转到作业控制窗口每个按钮的说明(2)每个按钮的说明(3)2.提交作业脚本示例•运行广延大气簇射模拟程序corsika•目录/home/wangyg/corsika•可执行文件为qgsjet(不能直接提交)•脚本run01.sh:1#!/bin/bash2cd~/corsika3./qgsjet./inputs0014书写SHELL脚本•不要有后台运行符号(&)•末尾最好有一空白行•扩展的选项1#!/bin/bash2#$-S/bin/bash3#$-cwd~/corsika4#$-Nrun015cd~/corsika6./qgsjet./inputs0017SHELL编程•几种SHELLBASH、CSH、KSH、TCSH指定输出文件3.作业控制•检查作业运行状态•第一种方法:启动JobControl窗口•第二种方法:命令行作业控制窗口显示作业运行状态的命令•登录到hgfarm,运行qstat–f•结果:[wangyg@hgfarmwangyg]$qstat-fqueuenameqtypeused/tot.load_avgarchstates----------------------------------------------------------------------------hgfarm0.qBIP1/20.67glinux710corsika-ruwangygr05/14/200310:44:20MASTER----------------------------------------------------------------------------hgfarm1.qBIP1/20.51glinux760run06.shwangygr05/14/200310:45:36MASTER----------------------------------------------------------------------------hgfarm2.qBIP1/20.53glinux750run05.shwangygr05/14/200310:45:20MASTER----------------------------------------------------------------------------hgfarm3.qBIP1/20.62glinux720run02.shwangygr05/14/200310:44:35MASTER----------------------------------------------------------------------------hgfarm4.qBIP1/20.55glinux740run04.shwangygr05/14/200310:45:05MASTER----------------------------------------------------------------------------hgfarm5.qBIP2/20.61glinux730run03.shwangygr05/14/200310:44:50MASTER780run07.shwangygr05/14/200311:21:07MASTER更多的内容•Grid•SunGridEngine用户和管理员手册•SunGridEngine参考手册(脚本扩展)•SHELL编程我们的网页信息服务-高能物理研究室计算机系统使用指南-高能物理研究室PC-FARM使用指南