研究密码子偏好性常用的参数1、相对同义密码子使用度(RelativeSynonymousCodonUsage,RSCU)是指对于某一特定的密码子在编码对应氨基酸的同义密码子间的相对概率,它去除了氨基酸组成对密码子使用的影响。如果密码子的使用没有偏好性,该密码子的RSCU值等于1,当某一密码子的RSCU值大于1时,代表该密码子为使用相对较多的密码子,反之亦然。第i个氨基酸的第j个密码子的相对同义密码子使用度值的计算公式如下:公式中,Xij是编码第i个氨基酸的第j个密码子的出现次数,ni是编码第i个氨基酸的同义密码子的数量(值为1~6)。研究中通常先利用高表达基因的RSCU值建立参考表格。2、密码子适应指数(CodonAdaptationIndex,CAI)可以根据已知高表达基因的序列来估计未知基因密码子使用的偏好性程度。CAI的值在0~1之间,如果越高则表明该基因的密码子使用偏好性越强。CAI值一般用来预测种内基因的表达水平(但目前的研究发现对于单细胞生物比较适用,而在哺乳动物中并不能用来表示基因表达水平),又可以用来预测外源基因的表达水平。wij(Therelativeadaptivenessofacodon):密码子相对适应度上式中RSCUimax、Ximax分别指编码第i个氨基酸的使用频率最高的密码子的RSCU值和X值L是指基因中所使用的密码子数。3、密码子偏好参数(CodonPreferenceParameter,CPP)CPP的变化范围为0~18,越接近18表示密码子被非随机使用的程度越高。它对于基因编码区域总的碱基组成不敏感,适于比较基因间或物种间密码子使用偏性的大小。xij是编码第i个氨基酸的第j个密码子的出现次数,ni是编码第i个氨基酸的同义密码子的数量(值为2~6,ni=1的情况被排除)4、有效密码子数(EffectiveNumberofCodon,ENC)ENC值的范围在20~61之间,越靠近20偏性越强。此值是描述密码子使用偏离随机选择的程度(并不是某个特殊密码子的使用频率与其他密码子的比较),能反映密码子家族中同义密码子非均衡使用的偏好程度。已知高表达基因其密码子偏爱程度也大,从而ENC值较小;低表达基因则含有较多种类的稀有密码子,ENC值也较大,所以,当前普遍通过比较ENC来确定内源基因表达量的相对高低。ENC值越小,对应的内源基因往往表达量也越高。n表示基因中所使用的密码子总数,k为同义密码子数量,pi是第i个密码子的使用频率(ni/n)。ENC值会受到基因氨基酸组成和基因长短的影响。5、最优密码子使用频率(FrequencyofOptimalCodons,FOP)最优密码子是指在某物种高表达基因中使用频率最高的密码子,也有人将一个氨基酸的最优密码子定义为具有最大数量的带有其反密码子tRNA基因的密码子;FOP是种特异性的,而且最优密码子的确定需要一组基因序列以及相应的表达信息。计算公式如下:下标s代表“simple”,ni表示基因g中密码子i的数量;N为基因g中的密码子总数,但是用这一方法计算的FOP值受氨基酸组成的影响;为了克服这一缺点人们改进了计算方法:公式中的syn(i)表示密码子i编码的氨基酸对应的同义密码子数量。上式整理后可得:公式中,可见FOP成为了氨基酸使用频率为加权系数的最优密码子的RSCU值加权平均值。6、密码子偏爱指数(CodonBiasIndex,CBI)反应了一个具体基因中高表达优越密码子的组分情况。对目的宿主自身的基因,该指数和ENC值有很好的相关性,但在实际工作中可以更明确地反映外源基因在目的宿主中可能的表达情况,故而得到广泛应用。计算公式如下:Nopt代表优越密码子在该基因中出现次数之和;Nran代表氨基酸序列不变,所有同义密码子随机出现时优越密码子的出现次数之和;Ntot代表了优越密码子对应的氨基酸在基因中出现的次数之和。7、G+C含量一般认为G+C含量越高,密码子的偏好性就可能就越强!其含量可以通过一些软件进行编程进行求出,比如说使用perl语言。8、GC3S第三位上的各种碱基的含量,在蛋白质的合成过程中同义密码子的使用概率并不相同,而同义密码子的主要差别体现在第三位碱基上。9、Kyte和Doolittle计算每一个氢基酸的疏水指数,然后进行算术平均。(可参考文献:TranslationalselectionshapescodonusageintheGC-richgenomesofChlamydomonasreinhardtii)10、对应分析(correspondenceanalysis,COA)在对基因密码子使用概率分析时,将每一条基因作为一个对象,相对密码子使用度作为变量采用59个同义密码子[去除编码蛋氨酸(M)的密码子AUG和编码色氨酸(W)的密码子UGG以及3个终止密码子的RSCU值对其密码子使用偏性进行分析基因间的距离规定为同义密码子相对使用度的欧拉平方距离。对于基因a与基因b,其密码子使用距离的计算公式为::11、AT偏移(AT-skew)定义为整个基因组DNA序列的(A-T)/(A+T)的比值。通过计算AT偏移可分析整个基因组中A、T的变化趋势。12、高表达优越密码子(High-expressionCodon,HE)参考文献:Expressionpatternand,surprisingly,genelengthshapecodonusageinCaenorhabditis,Drosophila,andArabi-dopsis113、高频密码子(High-frequencyCodon)参考文献:High-frequencycodonanalysisanditsapplicationincodonanalysisoftobacco另外,还有GRAVY值(反映蛋白质的疏水性对密码子使用偏好的影响)、Aromo值(反映芳香族蛋白质对密码子使用偏好的影响)等