面向生物大分子的三维数据场特征分析与可视化初探∗韩玮1,汪莉2,陈为3+,万华根4,彭群生5,吴韬6,王琦71,2,3,4,5(浙江大学CAD&CG国家重点实验室,310027,杭州)6,7(浙江大学化学系分子设计与分子热力学研究所,310027,杭州)FeatureAnalysisandVisualizationof3DScalarFieldwiththeApplicationstotheMacromolecule*HANWei1,WANGLi2,CHENWei3+,WANHua-Gen4,PENGQun-Sheng5,WUTao6,WANGQi71,2,3,4,5(StateKeyLabofCAD&CG,ZhejiangUniversity,Hangzhou310027,China)6,7(InstituteofMolecularDesign&Thermodynamics,ZhejiangUniversity,Hangzhou310027,China)+Correspondingauthor:Phn:+86-571-88206681-522,Fax:+86-571-88206680,E-mail:chenwei@cad.zju.edu.cn,Received2006-2-25;Accepted2006-2-25Abstract:Thispaperintroducesourprimaryattemptsonthemodeling,analysisandvisualizationofthe3Dmacromolecularscalarfield.Accordingtothequantumchemicaltheory,wetransformoneproteinmolecularstructureintoaregularlysampled3Dscalarfield,inwhicheachnoderecordsthecombinedeffectofdifferentactionsinprotease.Byapplyingthefirstorderandthesecondorderlocaldifferentialoperatorsonindividualnode,wecanfindasetofcriticalpointswhichpotentiallydepicttheactiveregionofproteinmolecule.Wealsocomputeasequenceofmolecularpotentialenergyinthedatafieldandinteractivelyexplorethepotential“tunnel”regionexhibitingbiologicalsense.Inaddition,weexploitthepoint-based,surfaceandvolumerenderingtechniquestofindthemacro-structureinsidethedatafield.Withallthesetechniques,wesuccessfullyfindtheescaperouteofwatermoleculeshiddenintheHIV-1protease,whichisinaccordancewiththeexperimentalresults.Keywords:3Dscalarfield,featureanalysis,visualization,criticalpoint,protein,macromolecule.摘要:本文介绍了我们在面向生物大分子结构和功能分析的三维数据场建模、特征分析与可视化方面的初步尝试。我们从蛋白质分子结构出发,采用量子化学理论计算得到一个规则采样的三维数据场,场的每个格点上记录蛋白酶分子内部各种力的综合作用。在每个格点上实施离散一阶、二阶局部微分计算,从而筛选出一系列数据场内的临界点,这些临界点潜在地揭示了蛋白质分子的功能区域所在。继而,我们计算数据场内各种型值的分子势能面,交互地探寻具有一定生物活性的“通道”区域。此外,我们探索运用多种点、面和体可视化技术,来寻找分子内部的宏观结构。通过上述多种特征分析与可视化手段,我们成功地寻找到HIV-1蛋白酶分子中隐藏的水分子排出通道。关键词:三维数据场;特征分析;可视化;临界点;蛋白质;生物大分子中图法分类号:TP391文献标识码:A∗本文获得国家自然科学基金重点项目(No.60533050)、国家自然科学基金(No.60503056)和国家自然科学基金创新群体基金(No.60021201)的资助+通讯作者韩玮、汪莉等:面向生物大分子的三维数据场特征分析与可视化初探1引言C.B.Anfinsen指出:“理解细胞行为的最佳方式是研究蛋白质分子的结构与功能的关系”[13]。而蛋白质结构除了通过生物实验进行验证外,还可以从序列相似性比较和几何拓扑的角度来进行预测[5,14,18]。这两类方法都建立在对蛋白质分子结构合理建模的基础之上。从二十世纪七十年代开始,研究者们推出了一系列蛋白质分子的几何表示方法,典型的有线框表示、棍状表示、球棍表示、CPK表示、带状表示、卡通表示、管片表示等[12]。本质上,它们是基于实验数据对蛋白质中各原子间作用关系的一种抽象,在图形学中表达为一系列线段和面模型的集合。它们的优势在于能提供用户一种简单直观和交互的方式辅助观察分子的几何和拓扑结构。但是,现有的模型缺乏对分子的运动、分子静电势场的有力刻画。其一是,分子图和线面表示缺乏对力场的表示。力场是一个分布在三维空间中连续的空间量。在分子图表示中,原子之间的距离用连通关系表示,而线面表示中,力的作用是通过球面之间相连的棍状表示。两者仅仅反映了关系的存在,而无法表达力的大小、位置和相对方位。其二,蛋白质分子时刻都处于运动之中,三维空间中的力场是一个变化的量。仅用分子图和线面表示难以表达出动态的整体状态。因而在此基础上进行几何结构分析尚存在难以突破的局限性。一个自然的想法是,可否用一种三维的空间场来表征蛋白质分子的空间功能结构?这样的一种模型应该直接建立在实验数据的基础上,且操作简单,可控性好,能描述分布在空间各点处的分子势能或其他物理化学量。我们将单个蛋白质分子表示为三维空间中一系列规则采样的离散三维格子的集合,每个格子点上记录该格子中心点处的属性数值。三维数据场的建模与分析在科学计算可视化、计算机辅助几何设计、飞行模拟与动画等领域得到了广泛的应用,其在宏观世界的建模与可视化技术日臻成熟,但至今尚很少有相关文献涉及到分子级别的几何处理。在分子设计和蛋白质分子结构预测研究领域,一般的工作集中在分子图和线面模型表示上,已有的体表示研究都不是建立在全局的三维场的表达上,它们或对整个空间计算一个场值[6],或将面模型体素转化为体模型并进行蛋白质分子三维相似性计算[1,2,8,10,11],或对分子的电子断层扫描(CT)图像序列进行特征提取和可视化[4]。从分子学的角度看,以力场能为基础来确定配体与蛋白质之间的相互作用和热力学构象所进行的简单自由能计算在配体结构设计方面是非常有用的工具。因此,建立一套针对蛋白质分子属性的三维数据场表示与分析方法,具有重要的研究价值。在三维数据场的语境下,特征是指数据场数据中蕴涵的某类特殊的信息、用户感兴趣的区域或能区别不同数据之间的标识。以HIV-1蛋白酶(即艾滋病病毒)为例,现已证实,其活性位点位于一条狭长的“通道”底部,具有二重对称性,当与抑制剂结合后,蛋白质的结构,特别是挡板的结构会发生很大的变化[1]。本文以HIV-1蛋白酶分子结构为实验对象,进行了三维数据场计算、基于局部微分算子的特征分析、基于分子势能面的HIV-1蛋白酶“通道”特征区域抽取和体可视化等一系列工作。初步实验表明,我们的方法计算出的特征区域具有重要的生物意义,与已知的生物学结论一致。本文第二部分介绍与三维数据场分析相关的背景工作;第三部分以HIV-1蛋白酶分子为实验对象,详细描述了我们的方法和实验结果;第四部分概括全文,并简述未来方向。2相关工作有关蛋白质分子的表达、建模与分析的文献很多,本节我们简单描述最相关的代表性工作。2.1蛋白质分子的数据采集和几何表达模型蛋白质分子实测方法除了利用X-射线衍射、核磁共振等实验手段以外,也借助于信息、自动化方法对分子结构予以预测,主要分为两类:一类依赖于序列数据,采用统计学方法来分析其结构和功能;另一类直接从实验测定已知的(或预测出的)三维结构出发,着重考虑结构与几何拓扑性质,进而分析其功能。这两类方法均建立在对生物大分子结构合理建模的基础之上。目前,针对蛋白质分子表示的计算机模型有很多。这些模型的建立主要是依赖于由原子方位、排列顺序、连接方式等决定的分子骨架形状、表面几何及拓扑性质。通过对蛋白质三维结构原子空间定位及连接关系、Cα6t链、二级结构、模体(motif)等进行合理抽象,构造一系列线/面模型,可以更直观地表示蛋白质分子的几何与结构。2.2比较分子场分析法(ComparativeMolecularFieldAnalysis,CoMFA)在计算机辅助药物设计中,比较分子场分析法(CoMFA)[6,8]一直是研究的热点,经过十几年的发展,目前已成为最成熟且应用最广泛的三维定量构效方法(3D-QSAR)。其基本原理是:首先在分子周围定义分子场空间并均匀划分,在每个格点上计算分子场特征(一般为静电场和立体场,有时也包含疏水场和氢键),然后采取偏最小二乘法进行回归分析,建立化合物生物活性和分子场特征之间的关系。对于小分子(1nm),CoMFA从分子的拓扑、几何、结构、物理、化学属性出发,寻求结构与功能的关系,取得一定的成功。但是,对于蛋白质等大分子来说,一方面,结构的动态性对功能的意义重大;另一方面,缺乏有效的算法对蛋白质分子(大小一般在1-100nm之间)构建具有明确物理意义的数据。2.3分子拓扑学自P.G.Mezey开展分子势能面拓扑性质的研究以来,微分和拓扑已经成为有效地分析分子体系化学结构以及与反应机理之间关系的工具。这些工具通常考虑某一邻域范围内关键点,并有效地抽取局部特征。例如,定义分子势能面为多维空间上的超曲面,在其上定义一个连续的势能函数U(X),其临界点即指梯度为零的点。由于临界点处蕴涵着某种特征,故须在临界点处对势能函数做二阶微分,计算曲率并分析其类别。基于数据来源的限制,分子势能函数U(X)多以离散形式表示。拓扑分析的方法也存在一定的局限性。例如,它缺乏定量描述,没有具体的感知和度量标准,需要和其它有效的分析方法相结合来描述分子势能面特性。我们以分子拓扑学中临界点理论为知识背景,在一个规则采样的数据场中考虑分子系统综合作用函数,计算并抽取临界点及判断三维空间中各种满秩临界点情况。3我们的工作本节依次给出蛋白质分子的三维数据场计算方法、临界点抽取原理及可视化效果,并抽取蛋白质分子势能等值面,最后给出对蛋白质分子的三维数据场的直接体绘制结果。综合这些分析和可视化手段,我们成功地识别出HIV-1蛋白酶分子中的特征区域。3.1蛋白质分子的三维数据场计算蛋白质分子的三维数据场是分布在三维空间的离散场。具体而言,蛋白质分子中各原子或亚结构的动力学特征可以用其哈密尔顿来表示。将蛋白质分子所处空间均匀剖分为网格,并在网格点上定义离散函数,即可将蛋白质分子的三维数据场哈密尔顿写为:()sfieldijkijkHH=∑∑∑其中,是描述特定空间格点运动行为的哈密尔顿。可由该离散场出发描述体系的特征。ijkH研究以HIV-1蛋白酶(PDBcode:1A30,Louis,J.M.,etal,Biochemistry,2105,1998)为目标原型。由于实验上发现其可以作为抗HIV药物的有效靶点,目前针对该蛋白已有大量的理论和实验研究见诸报道。我们首先采用其X-ray衍射构象为出发点,构造同时含有4691个水分子的体系。然后在310K,1atm条件下采用Charmm力场进行1ns的平衡计