2012-12-05邹凌云Ph.D.第三军医大学生物信息学中心E-mail:lyzou@tmmu.edu.cn生物信息中心情况简介生物信息学平台的构建数据库检索系统的使用高性能计算系统的使用生物信息学分析实例Q&A4第三军医大学生物信息学中心简介职能建设并开放生物信息学平台供校内外用户使用提供生物信息学分析服务开展生物信息学教学和研究联系方式第三军医大学基础部生命科学楼7楼710房网站:邮箱:bioinfo_tmmu@126.com电话:771932;023-687719325专家、教授、研究人员专家教授负责人胡福泉易东饶贤才谭银玲许雪青邹凌云教学与研究人员倪青山朱军民伍亚舟62012-12-05BICTMMU生物信息中心情况简介生物信息学平台的构建数据库检索系统的使用高性能计算系统的使用生物信息学分析实例Q&A7Bioinformatics:Whatdoweneed?Whatdoweneed?满足各种生物信息学分析所需的大规模计算能力的平台对分子生物信息数据能够快速获取的平台从互联网快速接入服务器并进行生物信息学分析的平台8WhyHighPerformanceComputing(HPC)?2012-12-05BICTMMU1超大规模的数据处理•基因组测序序列:5×1020量级•蛋白质折叠计算:3×1023量级•药物设计平均筛选10000种化合物以上才能得到一种新药2超大计算规模的算法•分子动力学模拟•分子相互作网络•分子进化分析•蛋白质结构模拟•……3多用户同时的计算需求9我们的已经完成的工作满足各种生物信息学分析的HPC快速获取各种分子生物信息数据随时从网络接入提交计算任务来分析数据1.将多个重要的生物信息数据库本地化安装2.建立了一个高性能计算系统3.将平台接入校园网/互联网10生物信息学平台的架构磁盘存储阵列磁盘存储阵列万兆网络交换机数据库系统高性能服务器刀片式服务器集群(Cluster)存储系统高性能计算系统11生物信息学平台硬件与软件系统HardwareSoftwareOurPlatform浪潮天梭高性能服务器集群(cluster)Linux系统:•RocksCluster5.4•CentOS5.5•RedHatAS412......SystemAreaNetworkLocalAreaNetworkLANMemoryI/OBusMemoryBusSystem1ChipsetSANCPUsLANMemoryI/OBusMemoryBusSystem2ChipsetSANCPUsLANMemoryI/OBusMemoryBusSystem3ChipsetSANCPUsWhatisCluster(集群)?2012-12-05BICTMMU多台计算机通过高速网络连成一个并行计算系统13Whycluster?2012-12-05BICTMMU容易扩展从几十个节点到几万个节点容易并行并行计算的最优选择之一容易维护单个节点的故障不影响整体14Whycluster?2012-12-05BICTMMU普通PCcluster15JaguarRoadrunner天河1号KComputer16WhatisRocksCluster?RocksCluster集成生物信息学软件包一种免费集群操作系统基于CentOSLinux17RocksCluster5.4的主要功能模块2012-12-05RocksRollRocksRoll基本功能模块RedHatLinux内核操作系统组件SUNGridEngine分布式任务管理系统1.Baseroll2.Kernel3.OS4.SGE5.bioBiosoftPackage18我校生物信息学平台拓扑结构图用户用户26个刀片式计算节点OneComputer!OneComputer!19生物信息平台物理分布视图20生物信息学平台计算机群数据库节点双路Intel至强5450处理器2.83GHZ8个核心,32G内存其他节点8核、16G内存存储系统30个1TB硬盘的存储阵列性能指标:208个计算核心2万亿次/秒浮点运算21以RocksCluster为核心的Linux操作环境Rockscluster5.416G内存64位CentOS5.432G内存64位Rockscluster5.416G内存64位bio-linux6.02GRAM32位•管理节点•数据库节点•终端计算机•计算节点平台操作环境22为什么选择Unix/Linux来构建平台?科学研究的通用平台90%以上的科学软件在Unix/Linux下开发多数生物信息学软件只有Unix/Linux版本数量庞大的各种小工具Sed,awk,vi,emacs,diff,cvs,etc…极多的高质量文档免费^_^!23各节点的主机名称及IP地址管理节点主机名称:big.hpc.org;IP地址:202.202.232.201计算节点(26台刀片式服务器)Blade1:compute-0-0~compute-0-9Blade2:compute-1-0~compute-1-9Blade3:compute-2-0~compute-2-5数据库节点:主机名:databaseIP地址:202.202.232.202访问域名:(MessagePassingInterface)MPICH2最基本的MPI,运行简单,应用广泛,效率不高安装路径:/opt/mpich2/gnu/bin/openmpi功能强大、灵活,支持infiniband,效率高安装路径:/opt/openmpi/bin/各计算节点的公共目录/disk1和/disk2,容量均为8T2012-12-0525平台的任务管理系统SGE任务管理系统:自动分配计算资源来运行用户的计算任务SunGridEngine(SGE)LSFOpenPBS本平台安装的是SGE用户在进行生物信息学计算之前,需要编写SGE计算脚本文件,通过提交脚本文件来使用计算资源。2012-12-0526生物信息学平台的使用方式使用方式通过校园网或互联网的任意计算机远程登录使用前来我校基础部生命科学楼7楼本地使用272012-12-05BICTMMU生物信息中心情况简介生物信息学平台的构建数据库检索系统的使用高性能计算系统的使用生物信息学分析实例Q&A28国际生物信息数据库的本地化过程下载元数据构建检索系统发布数据库29已经收录的数据库GenbankUniprotKBPDBEMBLRefseqProsite……MRS检索系统20多个生物医学相关的数据库主要数据库每日更新集成Blast、ClustalW、Jmol等分析工具可将自己的Web-Server程序、数据库发布到互联网30MRS数据库综合检索系统Entrez=TheLifeScienceSearchEngine-----NCBISRS=SequenceRetrievalSystem-----EBIMRS=Maarten’sRetrievalSystem-----BICatTMMUGoogle=Thébestgenericsearchandretrievalsystem2012-12-05fastLinuxx86-64versionfree31生物信息数据库的使用231•登录生物信息中心主页:•从主页进入生物信息数据库•在检索栏内通过输入关键词等方式检索数据•选择所需要的数据库3233生物信息数据库检索系统:一站式检索342012-12-05BICTMMU生物信息中心情况简介生物信息学平台的构建数据库检索系统的使用高性能计算系统的使用生物信息学分析实例Q&A35高性能计算系统的使用Linux基础知识1已安装生物信息学软件2用户使用流程3生物信息学实例分析4361、Linux基础知识什么是Linux?免费的类Unix操作系统,适合PC机、服务器具有Unix的全部功能,稳定,高效,网络性能优异以Linux为基础的不同的发行版(Distribution):Ubuntu:适合初学者Debian:Ubuntu的始祖,适合系统管理员Fedora:适合专业开发者Redhat/CentOS:适合个人或企业级服务器openSUSE:适合个人办公37Linux很难吗?看起来很复杂,不知从何下手–实际上上手很快Linux系统不好用–*nux不是用来当桌面的书太多,每本都很厚–推荐O’Reilly系列38Linux系统的主要组成Linux的内核:内核是系统的核心,是运行程序和管理像磁盘和打印机等硬件设备的核心程序。LinuxSHELL:Shell是系统的用户界面,提供了用户与内核进行交互操作的一种接口。Linux文件系统:Linux文件系统是文件存放在磁盘等存储设备上的组织方法。Linux能支持多种文件系统,如EXT2、EXT3、FAT、VFAT、ISO9660、NFS、SMB等。Linux应用系统:标准的Linux系统都有一整套称为应用程序的程序集,包括文本编辑器、编程语言、办公套件、Internet工具、数据库等。39Linux命令模式下的基本操作命令ls或者ll:列出当前目录下全部文件相当于DOS下的dircd:改变当前目录至指定目录例:[zouly@big~]$cd/disk1/biosoft/mkdir:建立文件夹例:[zouly@big~]$mkdirblast-testcp:拷贝文件命令例:[zouly@big~]$cpenzyme.dat/disk1/data/pwd:查看用户当前所在的路径40Linux命令模式下的基本操作命令cat:查看文件内容[zouly@big~]$cat1OMB.pdbmore:逐屏显示文件内容vi:新建文件或编辑文件例:[zouly@big~]$vi1OMB.pdbmv:移动文件或目录rm:删除文件或目录41Linux下解压缩文件全能的解压缩命令:tar例:tarxvfjblast2.2.21.tar.bz2tarxvfzblast2.2.21.tar.gztarxvfzblast2.2.21.taztarxvfblast2.2.21.tar422、平台上已安装的生物信息学软件软件类型软件名称软件版本安装路径说明序列相似性比较fasta35.4.9/opt/bio*(系统自带)blast2.2.21/disk1/biosoft☺(后安装)mpiblast1.5.0/opt/bio并行blast*多序列比对ClustalW2.0.12/opt/bio*ClustalW-mpi0.15/disk1/biosoft并行ClustalW☺T_coffee8.14/opt/bio*MUSCLE4.0/disk1/biosoft☺43软件类型软件名称软件版本安装路径说明全基因组比较Mauve2.3.1/disk1/biosoft☺GenomeComp1.3/disk1/biosoft☺MUMmer3.22/disk1/biosoft☺基因组注释和分析glimmer3.0.2/opt/bio微生物基因预测*EMBOSS6.1.0/opt/bio综合分析包*ncbi6.1-4/opt/bio综合分析包*分子进化与系统发生分析phylip3.69/opt/bio*mrbayes3.1.2/opt/bio*PAML4.4/disk1/biosoft☺44软件类型软件名称软件版本安装路径说明蛋白质序列和结构分析Hmmer2.3.2