密码子偏好性分析陈永红孟如月制密码子是核酸携带信息和蛋白质携带信息间对应的基本原则,是生物体内信息传递的基本环节。在生物的遗传密码中,除色氨酸和甲硫氨酸只有一个密码子外,其余氨基酸都有一个以上的简并密码子。对同一物种,不同蛋白编码密码子在基因中出现的频率不同;就同一种氨基酸而言,编码该氨基酸的不同密码子的比率在不同的蛋白中也有差异,因此生物体基因对简并密码子的选择具有一定的偏爱性。同义密码子(SynonymousCodons):编码同一氨基酸的密码子。在蛋白质编码过程中,某一物种或某一基因通常倾向于使用一种或几种特定的同义密码子,这种现象称为同义密码子的使用偏性(SynonymousCodonUsageBias)研究密码子使用偏性的意义:(一)作为预测真核生物核糖体在细胞内定位的一种手段,通过比较核基因编码的核糖体蛋白和线粒体基因编码的核糖体蛋白上密码子使用模式的差异来预测未知蛋白的基因所在基因组位置。(二)通过密码子使用偏好性的研究,可以判定一些最优密码子,针对这些密码子设计基因工程表达载体可以提高目的基因的表达量。(三)利用密码子使用偏好性和某种功能的关联程度对某些未知功能基因进行预测利用已知的密码子偏好知识对未知表达水平的基因进行判定初步判断该基因的表达水平高或低。(四)利用编码区和非编码区的基因组特征差异进行全基因组扫描,发现新基因。密码子使用偏性的影响因素:(一)基因序列碱基组成的偏好性在不存在自然选择压力的情况下,一定方向的突变压会影响序列本身的碱基组成,而这一效应同时也会反映在同义密码子的第3位上。这样的偏好性仅仅是反映了序列组成的特征,而与蛋白功能或表达水平无关。(二)弱的自然选择效应对于所有密码子家族来讲,即使存在密码子偏好性,由于同义密码子并不改变最终的蛋白产物。所以对于那些频繁被使用的密码子的选择性被认为是很弱的。但是这种弱的选择会体现在基因表达水平上。在高表达的基因中,密码子使用偏好性要强过一般表达的基因。(三)tRNA丰度密码子在蛋白翻译过程中需要和携带对应反密码子的tRNA相互识别作用,才能把游离的氨基酸残基转移到多肽链上因此这些对应的的tRNA丰度就决定了蛋白质合成的资源。密码子使用的偏性与细胞内tRNA的含量呈正相关。(四)基因长度基因长度越长,能够容纳的密码子越多。在没有其他压力的情况下,则同义密码子被选择的概率不会受样本容量限制而出现统计上的误差;相反基因长度越短,可以编码的密码子数量和种类越少,甚至有的密码子根本不会出现。(五)蛋白质的结构功能基因密码子的使用与基因编码的蛋白的结构和功能有关,蛋白质的折叠方式与序列之间存在一定的相关性,蛋白质的三级结构与密码子使用概率有密切的关系。在不同物种中类型相同的基因具有相近的密码子使用模式。对于同一类型的基因由物种引起的同义密码子使用偏性的差异较小。(六)蛋白的疏水性水平以及氨基酸保守性不同的基因编码序列其氨基酸含量有可能不同,一方面,稀有氨基酸由于本身出现几率小,一旦使用某种密码子而其他密码子出现几率更小;另一方,面对于比较保守的氨基酸不容易发生突变则其密码子使用模式固定为序列本身组成。研究方法(一)研究指标同义密码子相对使用度(Relativesynonymouscodonusage,RSCU):它是指对于某一特定的密码子,在编码对应氨基酸的同义密码子间的相对概率,去除了氨基酸组成对密码子使用的影响。该值的计算方法为某一密码子所使用的频率与其在无偏使用时预期频率之间的比值,如果密码子的使用没有偏好性,该密码子的RSCU值等于1,当某一密码子的RSCU值大于1时,代表该密码子为使用相对较多的密码子,反之亦然。其中,n表示这个密码子所代表的氨基酸的同义密码子种类数目(1n6),戈代表第i个密码子的出现次数。RSCU是衡量密码子偏性较直观的一个参数。密码子适应指数(Codonadaptionindex,CAI)该指数以一组具高表达水平的基因为参考,测量某一个基因的密码子偏好情况和这些高表达基因密码子偏好情况的接近程度,如果一个基因完全使用高表达基因中所用的密码子,则其CAI值为1。目前这个指数已被广泛用来预测基因的表达水平。其中RSCUmax、是高表达参照基因中,每一个氨基酸里使用频率最高的密码子的相对同义密码子使用频率,L是基因中密码子的个数高频密码子与最优密码子某一密码子相对同义密码子使用频率单值超过60%或者超过该组同义密码子平均占有频率的1.5倍的密码子即为高频码子。最后采用高表达优越密码子分析方法先,计算每个基因的密码子有效数和相对同义密码子用法,然后再根据各Nc值确定高表达和低表达样本组,计算出这两个样本组中各个密码子各自的值,最后通过卡方检验确定出高表达基因的优越密码子确定最优密码子。最有密码子鉴定原则:1,密码子的可变位点(wobblebase)与细胞内浓度最高的tRNA的反义密码子第一位互补;2,tRNA的反密码子的可变位点为或5一梭甲基尿啼陡时相对于G更偏好结尾为A的密码子;3,反义密码子的可变位点为l(Inosine)时,更偏好结尾为U或C的密码子;4,密码子若第一、二位均为A或U,则第三位更加偏好C。有效密码子数(EffectiveNumberofCodon,Nc)CAI测量的是某个基因所用的密码子与高表达基因所用密码子的接近程度。和CAI不同,Nc测量的是某个基因的密码子偏好程度,如果一个基因平均使用每一个密码子,则其Nc为61,如果一个基因只使用每组同义密码子中的一个,则其Nc为20。理论上讲,一个具有低CAI的基因也可以同时具有低Nc值,换句话说,该基因具有较强的密码子偏好性,只不过其偏向的并不是高表达基因所用的密码子。计算公式:其中p,表示密码子i的使用频率,n是所有密码子的数目GC和GC3sGC测量的是基因中G和C的含量。GC3s则计算密码子第三个碱基中出现G或C的频率。一般认为这两个因素对基因的密码子选择有重要影响。GCcontent不同物种GC含量变化很大识别基因水平转移,判断外源基因GCskew(G-C)/(G+C)%预测细菌或古细菌复制起点由于密码子偏性的研究近年来一直是一个热点,因此研究的指标也出现得很多,如可以衡量特定基因偏性大小的密码子偏爱指CBI(Morton1993)和最优密码子使用频率FOp(LavnerandKotlar2005),弥补了密码子的相对嫡值的加Ew(Suzukietal.2004)等。多种多样的技术和方法促进了密码子偏性的研究,但是也产生了一些的研究结果之间存在了的不一致,特别是有些方法仅仅能运用于局限的物种或某些特定的基因中。因此在使用这些新开发的方法时,必须了解每一种方法背后的假设和推论,才能确保结果的正确性。研究方法基因样本的选择GeneBank(.nih.gov/)中获得,样本选择原则:①样本为全长蛋白质编码基因序列(CodonDNAsequence,CDS);②CDS长度大于300bp;③对于基因家族成员仍包含于分析样本内;④不包括非研究类别基因序列;如何在genebank中查找一基因的序列(1)如果拥有基因accession号即可,在下拉按钮中选中Nucleotide,Search前输入accession号,直接会输出所需的基因序列。(2)如果拥有基因ID号,也可以用ID号来查询,例如我们要查询一个ID号为16151096的基因进行查询如只需要基因序列而不需要详细信息,则需点击TASTA如需进行图文分析,则点击Graphics计算同义密码子相对使用度(Relativesynonymouscodonusage,RSCU)在genebank中取出序列后,用codonw进行在线分析结果如下:利用cusp计算密码子Franction和Frequency。Franction:各个密码子在编码该氨基酸的密码子中所占的比例。Frequency:该密码子在编码总基因密码子中出现的频率。如图分析结果如下:结果如下:同样,可计算出密码子适应指数:Sequence:AY047586.1CAI:0.109用chips计算出有效密码字数:#CHIPScodonusagestatisticsNc=48.082计算同义密码子相对使用频率(relativefrequencyofsynonymouscodon,RFSC)反映的是在样本总数中各个密码子的使用频率,即某一密码子在样本中的实际观察值与该密码子对应的氨基酸在样本中的实际观察值的比值。用软件codonw()来计算。