基因的测定与预测方法基因预测的背景生物学家开始研究基因结构主要是在实验的基础上进行的:构建cDNA文库、PCR扩增、Northernblot和测序等。随着全基因组测序计划的实现,大量的基因组DNA序列产生,但对基因的注释远落后于基因测序。因此,应用计算机程序从DNA序列中寻找基因(尤其是那些编码蛋白质的基因),成为研究人员考虑的重要问题。一旦获得一个基因组序列,除了将这段序列通过数据库相似性和同源性比较,还可以计算DNA的碱基组成,分析密码子的偏好性,简缩重复序列,寻找DNA的特殊位点或信号,以及鉴定DNA的编码区。用外显子-内含子结构和每个预测基因的位置信息,以及基于数据库搜索的任何功能信息来注释基因组DNA序列。随后可以鉴别最可能的蛋白质编码区。基因预测的同源比较算法和预测模型1同源比较算法:①Smith-Waterman算法:它是将一条序列代替另一条序列所需的“最小代价”(Weight)。②FASTA算法是用来进行DNA/DNA、DNA/蛋白质(将DNA按6个ORFs翻译成氨基酸序列,再与蛋白质比较)和蛋白质/蛋白质的同源比较。2隐马尔可夫模型(HiddenMarkovModel,HMM)它将DNA看成是一个随机过程,根据编码和非编码的DNA序列在核苷酸选用频率上的不同而自动寻找出其内部隐藏的规律。广义隐马尔可夫模型(GeneralizedHiddenMarkovModel,GHMM)是通过对HMM简化和在HMM下建立了相应的子模型,使其具有很大的可扩展性,是第二代基因预测软件的基础。3动态规划法用来将预测的各个可能外显子和内含子拼接成完整的基因,这种算法将各种可能的拼接进行记分,从而得出最可能的基因结构。4神经网络预测方法该法是使用一个训练数集来训练神经网络,使其达到局部极小,然后,神经网络去掉这些最小权重,将最低预测值加到整体预测值上,经过数据修剪后,再次训练神经网络使其达到局部极小,这个过程不断被重复,直至达到规定的误差值,最后给出一个预测结果。除了以上几种外,目前用于基因预测的算法还很多,如基因结构的线性判别式分析和概率模型等。不过大多数算法都是基于已知基因顺序,所以需要深入研究,寻找基因不同的内在规律。但目前最为流行的预测模型是HMM改进后的广义隐马尔科夫模型(GHMM)。GHMM比HMM的模型框架更具有良好的可扩展性。下面介绍几种以HMM和GHMM为模型而发展的计算机识别软件:第一代基因识别软件:GENMARK,GeneID和GRAILⅡ等,它们采用的方法包括神经网络、隐Markov模型等。但是它们通常假定序列中正好包含了一个完整的基因,因而预测的正确率不高。第二代基因识别软件:包括GenScan,HMMGene,FFG,GeneMark.hmm等等,它们一般不需要假设序列中正好包含一个完整的基因,而且其预测正确率也有大幅提高。它们的模型的框架基本上都是采用的广义隐Markov模型,是对GHMM在简化方法和子模型的构建方上存在不同。GeneScanGeneScan是一种广义上的目的基因预测软件,用来分析多个物种的DNA序列,包括人类、其他脊椎动物、无脊椎动物和植物的基因组。它可以从下面网站获得:其参数设置选定一个模式生物(脊椎动物、拟南芥或玉米)并选取一个亚适的截断值(1.0、0.50、0.25、0.10、0.05、0.02、0.01)。HMMGeneHMMGene是专门为脊椎动物和线虫未知DNA序列的基因预测,可以预测整个质粒基因,甚至更长的DNA序列。同时也可以预测剪切位点和起始/终止密码子。如果一段序列的一些特征是已知的,如ESTs,蛋白质或重复元件,那么这些区域就被认定为编码区或者非编码区,甚至于在这一约束下找出最优的基因结构。这个程序是建立在HMM(HiddenMarkovmodel)模型上的,HMM模型是一个基因结构概率模型,能够为一段序列提供多个最优的预测结果。PombePombe专门设计来寻找S.pombe的基因和预测外显子-内含子结构。识别{位点,外显子,内含子}和{假位点,假内含子,假外显子}。同时可以识别起始位点,供体位点和受体位点,而对于外显子和内含子的预测必须要结合线性判别分析。而且还要考虑到其他的因素如少数核苷酸偏好、三联体位点偏好和ORFs的定位。同时把这些分析结果与动态分析程序相结合来预测基因的结构。GeneMarkGeneMark依赖编码与非编码二者的非同源Mark链模型,是建立在已知基因和已确定其功能的基础上,用来预测E.coli.的DNA序列,甚至可以重新训练来预测H.influenz,M.jannaschia和其他的生物.GeneMark-Genesis是用来分析M.jannaschia和H.pylori的软件,是确定可用于训练和能预测到单独使用Genscan或BLASTX所不能检测到的编码区。GeneMark.hmm算法是对DNA序列片段的编码和非编码区域的概率分析,力求更准确地找出明确的基因边界。以S.pombe和拟南芥(A.thaliana)为模式生物。HumGeneHumGene是一个采用广义隐Markov模型(GHMM)的人类基因预测软件,是利用人类基因的结构特点,采用概率模型为基因结构中各个特定区域建立了独立的子模型,能够获得全局统一的评价指数,使得系统整体框架具有一定的扩展性,采用一种新的简化算法,有效地降低了计算的复杂度。FFGFFG是根据N.crassa基因的序列特征统计分析建立起来的,可以直接对N.crassa基因进行预测。1编码区含有较高的GC含量,表现出对C的偏好,对G的偏好其次。2终止子:UAA比UAG和UGA更为常用,3起始密码子ATG及其周围的共有序列:CAMMATGGCT4研究发现N.crassa许多基因至少有一个内含子:52—691,平均为63,中等长度为70。而长度变化范围较宽,在3-5367,平均为509,中等长度为148。55’供体位点:G^GTAAGTnnYCnYY;剪切分支点:WRCTRACMnnnnnnYY;3’受体位点:WACAG^。GSA(GeneStructureAssembly)GSA程序就是由ATT和Genscan综合而成的。GenomeScan是Burge对自己的Genscan的延伸并结合BLASTX或BLASTP的方法而来。该法在信息相似性方面是最可靠的,能预测到单独使用Genscan或BLASTX所不能检测到的编码区。FGENESH+和FGENESH-C是用已存在的FGENESH算法延伸去提高基因预测。(FGENESH是针对蛋白质或cDNA序列的相似性的预测方法。基因预测中遇到的问题1真核生物序列重复序列大量存在;2大多程序都有特定生物物种适用性;3许多程序只能特定适用于基因组DNA数据或者只适用于cDNA的数据;4序列的长度也是一个重要因素。例如,用鸟枪法测序得到的单个序列片段很少能用在序列中搜寻整个基因的老式程序。预测程序存在的局限性1很多算法目前只适用少数物种;2所有的程序(除了GENSCAN)在输入序列中包含有多基因或者部分基因时,所预测的外显子可靠,但所预测的基因结构就不一定可靠;3由于受许多未知因素的影响,预测的精确度能比预期的低得多,尤其是对新发现的基因;4大多算法都明显对测序错误十分敏感;5象交替剪接、重叠基因和启动子结构等这样的基因语法结构仍超出当前程序的处理能力。涉及基因转录起始和终止的信号1启动子原核生物①-10元件:TATAAT;②-35元件:TTGCA;③特定启动子的变异;④+1:G或A;⑤各种相关因子的结合位点真核生物(PolⅡ)①-30:TATAA(60%的具有该序列),有时为CAAT-box或GC-box;②+1:inr区;③+20—50:下游启动子元件dpe(果蝇特有);④各种相关因子的结合位点。2转录终止信号原核生物:茎环结构后跟随一串Un。真核生物:AATAAA+上游或下游元件。真核生物从DNA→成熟的mRNA,其除去内含子有一些特殊模式即:5’-供体位点AG/GT;3’-受体位点YAG/GT;分支点YNYTRAY,在酵母中为TACTAAC;多聚腺苷化位点AATAAA。基因的识别可以分为三个步骤找出序列中的非编码区;找到基因;鉴定找到的基因。要找出DNA序列中的非编码区一般涉及以下几个元素去掉序列中的载体污染:载体,接头和PCR引物,转座子和插入序列,DNA/RNA样品的纯度不高等。常用NCBI的“VecScreen”和EMBL的分析工具“Blast2EVEC”。屏蔽重复序列:在真核生物和原核生物中都广泛存在重复序列,人类基因组中约有30%,而瓜蟾蜍有70%的重复序列。重复元件有:SINE、ALU、MIR、LINE、LTR、MALR、ERVL、小RNA、卫星DNA、简单重复序列和低复杂度序列。应用工具有:RepeatMasker和XBLAST;然后可以用REPEATView和HMM/N-TUPLE开放阅读框(ORF)的识别一个起始密码子和终止密码子之间的序列称为一个ORF。当一个DNA序列被测定以后,还不知道其编码的蛋白质时用此术语。常见起始密码子为ATG,终止密码子为TAA、TAG和TGA。一个双链DNA有6个潜在的ORF,3(+)和3(-)ORF;一个ORF就是一个潜在的蛋白质编码区,要确定DNA的编码区,就必须要检测它有多少个ORF。原核生物中一个编码区就是一个单独的ORF;真核生物基因的编码区被内含子分隔成若干不连续的编码片段。因此,首先要找出编码区内含子和外显子的边界。若用cDNA序列,问题可大大简化。常用工具:NCBI提供的分析工具:ORFFinder。CpG岛(HTF岛)CpG岛是一些富含GC(>50%)的小区域,它可能有几百bp至几千bp,其中CpG通常出现在管家基因或频繁表达的启动子周围,具有抵抗序列甲基化的作用。通常出现在脊椎动物基因的5’端,80%的人类基因转录起始位点前面就有CpG的存在,因而CpG岛是发现基因的重要线索。CpG岛的计算工具很多,常用EMBL提供的工具:CpGPlot/CpGReport/Isochore该工具网址:基因编码区的预测1启动子与转录因子结合位点的识别其应用工具:TRES、神经网络法和DragonPromoterFinder。2其它顺式作用元件的预测其应用工具:Cister:Cis-elementClusterFinder剪切位点预测5’-donorsites↓…CAGGTGAGA……CTATCCTTCTCACAGG…↑3’-acceptorsites可以用HMM、碱基频率、权重矩阵等判别式分析方法和神经网络方法。使用的工具SpliceView和NetGene2结合综合应用基因预测方法的评价当预测完后就要对预测结果的精确度和可靠性进行评估。一般而言,预测的精确度要从以下三个方面评估:编码的核苷酸水平,外显子结构水平和预测的蛋白质水平。用灵敏度Sn(sensitivity)和Sp(specificity)分别表示预测编码的正确性和非编码的正确性:Sn=TP/(TP+FN)或真阳性/实际阳性;Sp=TP(TN+FP)或真阳性/预测阳性。常用度量相关系数(CorrelationCoefficient,CC):[(TP)(TN)-(FP)(FN)]CC=———————————————————————г[(TP+FN)(TN+FP)(TP+FP)(TN+FN)]转录终止信号由于mRNA有一段polyA,DNA序列中有一段特意序列:AATAAA。可以用基于权重矩阵预测方法工具GRAIL来预测。同时又引入Hamming-Clustering网络技术。然后用polyA分析工具Hcpolya分析可能的转录终止位点。基因序列的从头分析GeneBuilder就是一个很好的