基于图形表示的蛋白质二级结构的比较作者:单位:大连交通大学摘要:蛋白质结构的比较已经成为当前生命科学研究的重要内容。本文给出了蛋白质二级结构的一种新的2-D图形表示,把蛋白质二级结构转化成平面上的点列,根据点列的分布特点得到其拟合曲线,并利用α-螺旋、β-折叠和无规则卷曲结构的频率构造三维向量来描述蛋白质二级结构的属性,对1ayd等12个蛋白质二级结构进行相似性比较,得到了较好的结果。本方法简单快速,为蛋白质二级结构比较提供了新的手段。关键词:蛋白质二级结构;图形表示;特征序列频率;曲线拟合1引言蛋白质是生物体内占有特殊地位的生物大分子,它是生物体的基本构件,也是生命活动的重要物质基础,几乎一切生命现象都要通过蛋白质的结构和功能而体现出来。因此,在分子生物学中,深刻阐明蛋白质的结构和功能,是探索生命奥秘的最基本任务。具有相似结构的两个蛋白质,其氨基酸序列可能相差很大,甚至完全不同。原因在于,趋同进化作用使得两个不同进化源点出发的蛋白质可以折叠得到相似的空间结构。所以,需要在结构上对蛋白质进行比较以发现具有相似结构的蛋白质。蛋白质结构的比较已经成为当前生命科学研究的重要内容。通过比较蛋白质结构,可以发现蛋白质的共性,发现属于同一家族蛋白质的保守结构,发现与蛋白质功能密切相关的结构域。目前为止,蛋白质结构的比较有多种方法:球体法(球壳法)(BALL)、三维网格法(GRID)、球面映射法(SPH)和扇形法(SPH)[1];蛋白质结构的拓扑比较可以较好地解决几何比较方法中由于蛋白质结构内部频繁的原子动态性而引起的问题[2]。Gilbert等采用模式匹配技术从TOPS图获得超二级结构的模式,从而获得结构域信息[3]。在分析点集的空间分布时,Voronoi图起着重要的作用,PouponAnne利用Voronoi图来分析蛋白质结构问题[4,5]。张任给出了一种蛋白质二级结构序列的图形表示[6],该方法追踪每一时刻之前的三种蛋白质二级结构单元的频率,然后将这三个频率按照一定的法则对应到平面上的一个点,再将这些点顺次连接起来,得到一个曲线,命名为S曲线。接着,他们利用S曲线来研究划分蛋白质结构。以上这些方法往往计算比较简单,空间占用大,虽然得到的比较结果不是很精确,但是有助于快速地剔除差异性较大的对象[7]。针对这些问题,本文提出了蛋白质二级结构的一种新的2-D图形表示,把蛋白质二级结构转化成平面上的点列,根据点列的分布特点得到其拟合曲线,并利用α-螺旋、β-折叠和无规则卷曲结构的频率构造三维向量来描述蛋白质二级结构的属性,对1ayd等12个蛋白质二级结构进行相似性比较。2蛋白质二级结构序列的2-D图形表示2.1蛋白质二级结构的特征序列DSSP是一个二级结构标准化定义系统。DSSP根据蛋白数据库(PDB)中的原子坐标定义蛋白质二级结构、几何特征等,它将每一个氨基酸残基的二级结构定义为α-螺旋、β-折叠和无规则卷曲等结构。图1蛋白质1ayd的二级结构图1给出了蛋白数据库(PDB)代码为1ayd的蛋白质二级结构,该蛋白质属于α+β结构类。在这个图中,波浪部分代表α-螺旋,粗箭头部分代表β-折叠,分别用H和E来描述,其余的无规则卷曲部分用C来描述。这样,一个蛋白质二级结构序列由3个抽象字符构成。以蛋白质1ayd为例说明,位置处在84至93这段部分的子序列和子结构如图2所示。图2蛋白质1ayd的二级结构特征序列由DSSP方法得到12个蛋白质的二级结构序列,见表1[7]。表112个蛋白质的二级结构特征序列PDB代码二级结构序列1mbaCCCCHHHHHHHHHHHHHHHHCHHHHHHHHHHHHHHHCHHHHHHCCCCCCCCHHHHHCCCCHHHHHHHHHHHHHHHHHHCCCHHHHHHHHHHHHHHHHHCCCCHHHHHHHHHHHHHHHHCCCCCCCCHHHHHHHHHHHHHHHHHHCCC1rcbCCCCCHHHHHHHHHHHHHHCCCCCCCCEEECHHHCCCCCCHHHHHHHHHHHHHHHHHHHCCCCCCCCCCHHHHHHHHHHHHHHHHHHHHHHHHHCCCCCCCCCCCEEEHHHHHHHHHHHHHHHHHHHHC2hmqaCCCCCCCCCCCHHHCCCCCCCCHHHHHHHHHHHHHHHHCCCHHHHHHHHHHHHHHHHHHHHHHHHCCCCCHHHHHHHHHHHHHHHHCCCCCHHHHHHHHHHHHHHCCHHHCCCC1plcCEEEECCCCCCCCEECCEEEECCCCEEEEEECCCCCCCCEECCCCCCCCCCHHHHCCCCCCCCCCCCCEEEEECCCCEEEEEECHHHCCCCCEEEEEEC4fgfCCEEEECCCCEEEEECCCCCEEEECCCCCHHHCEEEEEEECCEEEEEECCCCEEEEECCCCCEEEECCCCHHHCEEEEECCCCCEEEEECCCCCCCCCCCCCCCCCCHHHCCCCCHHHCEEEEC1noaCCCEEEEECCCCCCCCCEEEEEEECCCCCCEEEEEEEEEEECCEEEECHHHCEEEECCCCCCEEEEEECCCEEEEECCCCCEEEEEECCCCCEEEEEECCCCCCCCCEECCCC1shaCCCCEEECCCHHHHHHHHCCCCCCCCCEEEEECCCCCCCEEEEEEEEECCCEEEEEEEEEEECCCCCEECCCCCEECCHHHHHHHHCCCCCCCCCCCCCCCCC1ubqCEEEEEECCCCEEEEECCCCCCHHHHHHHHHHHHCCCHHHEEEEECCEECCCCCCCHHHCCCCCCEEEEEECCCCC1aydCCCCCCCCCCHHHHHHHHHHHCCCCEEEEEECCCCCCCEEEEEEECCEEEEEEEEECCCCEECCCCCCCCCHHHHHHHHHHCHHHCEECCCEECCCCEECC1wsyaCHHHHHHHHHHCCCCCCEEEEEEECCCCCHHHHHHHHHHHHHCCCCCEEEECCCC2pgdICCCCEEEECCCHHHHHHHHHHHHCCCCEEEECCCCHHHHHHHHCCCCCCCCEECCCHHHHHHHHCCCCCEEEECCCCCHHHHHHHHHHHHHCCCCCEEEECCCCCHHHHHHHHHHHHHCCCEEEEEEEECHHHHHHHCCEEEEEECCCCHHHHHHHHHHHCCCCCCCCCCCCCCCCCCCCCCCCEECCHHH2trxaCCCEEECCCCCHHHHCCCCCCEEEEEEECCCCHHHHHHHHHHHHHHHHCCCCEEEEEEECCCCCCHHHHCCCCCCCEEEEEECCEEEEEEECCCCHHHHHHHHHHHHC2.2蛋白质二级结构的2-D图形表示设21Ggg是蛋白质二级结构序列的特征序列,我们给出一种蛋白质二级结构序列的“正方形”图形表示,首先定义一个映射,将G映射为一个点列,)()()(21ggG。其中:EggCggHgggiiiiiii如果如果如果,2)()0,1(,2)()1,1(,2)()1,0()(111.(1)这种映射方式我们称之为HCE正方形模式。例如,利用(1)式可得到蛋白质1ayd二级结构特征序列的子序列CHHHCEECCC对应的点列:{(0.5000,0.5000),(0.2500,0.7500),(0.1250,0.8750),(0.0625,0.9375),(0.5313,0.9688),(0.7656,0.4844),(0.8828,0.2422),(0.9414,0.6211),(0.9707,0.8105),(0.9854,0.9053)},及平面上的2-D图,如图3所示。图3蛋白质1ayd二级结构特征序列的子序列CHHHCEECCC的2-D图形表示(HCE正方形模式)利用(1)式得到表1中12个蛋白质的二级结构的2-D图形表示,见图4。图412个蛋白质的2-D图形表示(HCE正方形模式)H、C、E的全排列共有6种,所以可得到6种正方形模式,本文主要讨论HCE正方形模式,其它模式类似。从图4中,可以知道H落在图像的第一部分,C落在第二部分,E落在第四部分,这些点不会落在正方形以外,这样可以节省表示空间。32-D图形表示的应用3.1二次曲线拟合根据蛋白质二级结构特征序列的2-D表示,可得到表1中12个蛋白质二级结构特征序列的12个特征点列,利用cbxaxy2对特征点列进行二次曲线拟合,得到了二次曲线的系数,见表2。表212条拟合曲线的系数PDB代码abc1mba1rcb2hmqa1plc4fgf1noa1sha1ubq1ayd1wsya2pgdI2trxa0.1108-0.11951.0024-0.0417-0.09830.99510.1259-0.13571.0029-0.2925-0.08430.97860.0336-0.64241.14700.1781-0.75361.0540-0.91660.54950.9566-0.0969-0.38971.0311-0.66730.23970.9909-0.86890.46870.9663-1.18440.70730.9694-0.66890.33630.98183.2蛋白质特征序列的频率描述蛋白质特征序列中H、C、E出现频率:nfpii(2)其中if为i在蛋白质序列中出现的个数,n为序列的长度,ECHi,,通过(2)式,计算了12个蛋白质二级结构特征序列H、C、E出现频率,见表3。表312个蛋白质二级结构特征序列H、C、E出现频率PDB代码HpCpEp1mba1rcb2hmqa1plc4fgf1noa1sha1ubq1ayd1wsya2pgdI2trxa0.75510.244900.62790.32560.04650.66670.333300.07070.57580.35350.09680.50810.39520.02650.47790.49560.15530.53400.31070.23680.44740.31580.23760.46530.29700.41820.38180.20000.33330.38890.27780.39270.42930.17803.3相似性分析利用特征序列中频率Hp,Cp,Ep及拟合曲线特征cba,,,构造蛋白质二级结构的特征向量),,,,,(HcbapppvEC,这样每一个蛋白质二级结构都对应一个特征向量v。要比较蛋白质二级结构之间的相似性,只要比较其对应的特征向量之间相似性即可。为说明此方法的适应性,以表1中12个蛋白质二级结构为例,利用表2、表3可得到12个蛋白质二级结构对应的特征向量。再通过计算特征向量之间的欧式距离来比较它们的相似性,即222222,jijijiEjEiCjCiHjHijiccbbaappppppvvd.12,3,2,1,ji。距离越小说明蛋白质二级结构相似性越高,否则,相似性不高。表1中12个蛋白质二级结构的相似性见表4。表412个蛋白质二级结构的相似性表1mba1rcb2hmqa1plc4fgf1noa1sha1ubq1ayd1wsya2pgdI2trxa1mba1rcb2hmqa1plc4fgf1noa1sha1ubq1ayd1wsya2pgdI2trxa00.22040.12700.93130.97931.11351.43010.72541.06731.21621.62421.006500.18240.72850.87281.03321.23420.57400.86041.03791.44900.816000.84690.89301.03121.39890.64221.02961.208