53APPLICATIONe-Science应用e-Science总第6期本文首先回顾了e-Science的产生背景与内涵,分析了信息化技术在现代计算机辅助药物设计中的重要作用与意义。然后介绍本课题组科研工作的主要内容与框架,以PDBbind数据库的构建和开发为案例,阐明本课题组的信息化应用架构,介绍了一些基于PDBbind数据库开发的软件方法以及研究实例。最后对e-Science在计算机辅助药物设计领域的发展方向做了一些思考和展望。摘要:科研信息化;信息化平台;PDBbind数据库;计算机辅助药物设计关键词:ApplicationofthePDBbindDatabaseinComputer-AidedDrugDesignLiuZhihai,ChengTiejun,WangRenxiaoShanghaiInstituteofOrganicChemistry,ChineseAcademyofSciences,Shanghai200032,ChinaInthispaper,wefirstlyreviewthebackgroundandessenceofe-Science,andanalyzeitsimpactoncomputer-aideddrugdesign.Wethenintroducetheon-goingresearchinourgroup,inparticulartheconstructionandimplementationofthePDBbinddatabase,revealthearchitectureofourinformationplatform,andlistsomerepresentativeresearchachievementsincomputer-aideddrugdesignbasedonthePDBbinddatabase.Finally,thefuturedevelopmentofe-Scienceincomputer-aideddrugdesignisprospected.e-Science;Information-basedplatform;PDBbinddatabase;Computer-aidedDrugdesignAbstract:Keywords:PDBbind数据库在计算机辅助药物设计中的应用刘志海程铁军王任小中国科学院上海有机化学研究所,上海20003254e-Science技术APPLICATIONe-Science应用e-Science2009年1.引言众所周知,基于实验或以理论分析为主的传统科学研究方法存在很多不足,如比较封闭、缺乏模拟和仿真的手段、科研周期往往较长或成本很高、对某些研究领域传统方法目前还无能为力等。进入21世纪后,科学研究面临一些新的挑战,科研环境也发生了巨大的变化。首先,科学研究的问题空前复杂化,其研究的对象往往涉及众多科学领域;其次,科研过程中信息和数据的及时获取和处理越来越重要,仿真和大规模的计算逐渐成为科学研究过程中分析、发现和预测的主要手段之一;最后,科研活动中的合作与交流日益频繁和深入。跨单位、跨地域甚至是跨国家、跨学科的合作和交流,使得学科之间的交叉与融合越来越普遍。在这种背景下,e-Science作为一种科学研究新平台和新环境应运而生[1]。e-Science是“在重要的科学领域中的全球性合作,以及使得这种合作成为可能的下一代基础设施”[2]。e-Science在网格(grid)技术基础上直接参与科研工作,它具有三个方面的要素:一是随处可得的计算资源;二是海量的数据存储和处理能力;三是人员交流和无缝协作能力。这些正是当前科研工作向更深层次、更大范围进行拓展所亟需的。在中国,国家自然科学基金重大研究计划《以网络为基础的科学活动环境研究》2003年批准的项目总经费2510万元,2005年批准的项目总经费为1350万元,2009年新批准项目经费已达820万元。在其资助的研究方向中就包括“生物信息学示范应用”和“计算化学网格示范应用”等[3]。毋容置疑,e-Science在这些领域的建设成果将为计算机辅助药物设计方面的研究提供强大支持。2.e-Science与计算机辅助药物设计新药创制是一项耗资巨大且效率低下的工作。根据国际上的统计,每成功研制一种上市新药,平均需要花费约10-15年的时间,耗资超过10亿美元。新药创制的前期工作主要存在两个瓶颈:一是靶标生物大分子的确定及验证;二是具有生物活性的小分子药物的发现和设计。在今天,应用各种理论计算方法和分子图形模拟技术,进行计算机辅助药物设计(Computer-AidedDrugDesign,CADD),已成为国际上十分活跃的科学研究领域。将CADD应用到新药研究的工作流程中,能够有效缩短研发周期、节约研发费用、提高新药筛选的成功率。据统计[4],CADD辅助设计方法平均可为每个药物的研发节约开发成本1.3亿美元,缩短开发周期0.9年。目前已经有由CADD方法参与而获得成功的药物上市。制药行业研发周期长,投资风险大,迫切需要广泛开展合作与交流,获得各方面的支持。图1本课题组科研工作的整体规划55APPLICATIONe-Science应用e-Science总第6期因此,制药行业实际上非常适合大规模地应用信息化技术来辅助药物设计,尤其是在药物研究的初期阶段。它的实现依赖于e-Science在各个相关学科领域的进展和成果,其中首要的问题是要坚持开放性,其中包括开放科学数据、开源软件、免费公众数据库等,这些都是信息学研究的基本要求。本课题组研究内容围绕计算机辅助药物设计中的几个关键问题,致力于药物设计初期阶段的候选化合物设计、筛选、优化与验证工作,其整体研究规划如图1所示。一方面我们以分子模拟、生物信息学和化学信息学为手段,研究有机小分子和生物大分子相互作用的基本理论,发展和完善计算机辅助药物设计的理论方法。另一方面我们针对与重大疾病过程相关的靶标,运用计算机辅助药物设计方法并结合必要的化学和生物实验手段,来寻找和设计有活性的有机小分子化合物。3.基于Web网络的科研信息化平台现代科学研究活动往往需要存储和快速地处理大量的信息和数据,要求信息资源在成员之间便捷地分享和交流,并及时地对外发布所取得的研究成果。因此,基于Web网络的科研信息化平台无疑是我们的最佳选择。本课题组的平台整体架构如图2所示。3.1HPC高性能计算平台计算机辅助药物设计是一门高度交叉的新兴学科,涉及生物化学、合成化学、计算化学和生物信息学等众多领域[5]。其中计算化学是根据物理化学的基本理论以大量的数值运算方式来探讨体系的各种性质。高精度量子化学计算、分子动力学模拟以及统计力学等方法可以用来研究生物大分子结构与功能关系,然而这些应用都是非常耗费计算资源的。在生物信息学方面,随着全球在基因组学和蛋白质组学等领域的研究进展,相关信息出现了爆炸性增长,研究人员经常需要面对海量的生物学数据。大量的核酸、蛋白质序列、基因多态、基因表达谱和蛋白质谱数据的积累图2本课题组基于Web的网络科研服务平台56e-Science技术APPLICATIONe-Science应用e-Science2009年已远远超出了一般实验室的分析计算能力。以上研究内容均要求建立高性能计算平台,使得大规模、快速的数据处理成为可能。目前我们课题组的HPC高性能计算平台的硬件设备资源有联想Deepcomp1800集群(16CPUs)、SGIOrigin300集群(32CPUs)、宝德Powerleader集群(128CPUs)。平台内各模块分工明确、各司其职,同时配备有Gaussian、Sybyl、Discoverystudio、Schrödinger、MOE、GOLD等种类齐全的量化计算和分子模拟软件。研究中如果遇到特别大型的作业,还可以依托上海超级计算中心的强大计算资源,该中心在生命科学、汽车制造、土木工程、计算化学、环境模拟、航空航天等众多领域均可提供专业服务。3.2基于Web网络的科研协作平台在高性能Web服务器的支持下,我们以此为沟通枢纽,将课题组的各项科研活动有机联系起来,构建了一个高效、开放、共享的科研协同工作环境。首先,我们通过用户友好的Web管理系统,对运行于HPC高性能计算平台上的作业进行实时在线地监控,大大降低了Linux集群系统的使用难度。如有需要,我们可与相关单位开展合作,共享计算资源,以提高硬件资源的利用率。第二,我们设计并实现了在线的PDBbind数据库(稍后详细介绍),免费提供给学术机构和企业单位使用。该数据库具有方便的文本查询、结构查询功能以及直观的三维分子结构显示界面,筛选的结果可以PDF、Excel等格式方便地下载。目前该数据库在全球已经有正式注册用户1300余人,遍及高等院校、科研学术机构和知名制药企业。PDBbind数据库中所包含的高质量数据集是药物设计中不可多得的基础性数据。第三,我们通过课题组网站(http://www.sioc-ccbg.ac.cn)对外发布由本课题组自主开发的各种软件,这些软件针对学术机构全部免费。目前已经成功推出的包括有分子结构自动感知与格式转换软件I-interpret[6],化合物脂水分配系数预测软件XLOGP3[7]。这两个软件除提供下载和在线计算服务外,还建设有相关的论坛板块为用户提供技术支持。这种共享、开放的交流形式有助于我们及时从用户处获得更多的反馈意见,从而能够更好地改进我们的程序。第四,我们通过建立课题组成员在线工作日历的方式,使得个人能合理安排工作进度,增强了团队成员之间的互动了解和沟通,大大提高了工作效率。另外通过TB级的高容量磁盘阵列搭建了FTP文件共享服务器,为课题组成员提供大量的专业学习资料、数据备份及文档交流服务。第五,我们自主开发了CMS化合物管理系统,用于统一管理实验室自行合成和商业购买的化合物。系统中记录了每个化合物的理化性质、合成路线(包括实验条件)、生物活性测试数据等详尽信息。该系统提供方便的录入、查询、修改、分权限共享等功能,不仅提高了化合物库管理效率,也减少了科研活动中的大量不必要的重复劳动。该化合物管理系统有望在本研究所范围内进行推广。3.3辅助的高性能桌面工作站通过为每位成员配备一台以上的高性能Linux系统桌面工作站,来随时提交各种中小型的计算任务,以及从事分子模拟等可视化研究。这批工作站在课题组内部通过高速以太网互联,可以实现资源共享,减少计算资源的空闲浪费。4.本课题组基于PDBbind数据库的相关研究工作PDBbind数据库作为本课题组科研信息化平台的重要内容之一,是对外部用户提供的主要开放服务项目。PDBbind数据库是本课题组与美国密西根大学ShaomengWang教授课题组合作发展的项目[8,9],设计目标是为研究各种生物体系中的分子识别过程提供高质量的素材。PDBbind数据库针对美国RCSB的ProteinDataBank(PDB)数据库进行二次开发,系57APPLICATIONe-Science应用e-Science总第6期统地收集了PDB数据库中各种类型复合物的三维结构信息以及亲合性实验数据。其构建过程可简述如下:首先通过程序算法识别出PDB数据库中所有的蛋白质-小分子配体复合物,然后通过程序自动过滤并结合人工复核的方式获得每个复合物所对应的参考文献中的亲合性实验数据,包括解离常数Kd、抑制常数Ki和半数抑制浓度IC50值;根据实际科研课题的具体需求,采用更加严格的区分条件和筛选标准从整个PDBbind数据库中衍生出各种子集。我们为PDBbind数据库配备了专用服务器,并从2007年起以域名http://www.pdbbind.org.cn公开发布,面向国内外学术界和企业用户提供免费服务。用户可以在其Web界面上方便地实现数据检索、结构浏览、批量下载等功能。PDBbind数据库目前拥有来自40余个国家超过1300名的注册用户,网站访问量已经突破30000次,并在持续增长中。本课题组对PDBbind数据库每年定期进行更新以适应PDB