第5章基因组序列诠释1)基因注释2)基因功能预测3)基因功能检测4)功能基因组研究基因注释的依据1)基因的组成特点2)密码子偏爱3)同源查询4)实验真核生物基因的一般结构真核生物基因的组成特征1)外显子的组成2)内含子的组成3)碱基的分布规律内含子的组成特点1)内含子具有前体mRNA加工的特征顺序.2)内含子含有高比例的三种读框的终止密码.内含子含有高比例的三种读框的终止密码内含子三种读框中终止密码比率远高于外显子(18%>10%).外显子的组成特点1)CpG岛:脊椎动物2)摇摆密码子的使用频率或密码子偏爱3)5’-和3’-非翻译区(UTR)碱基比率,水稻基因5’的高GC比4)不含或含有较少的终止密码密码子偏爱同源查询(DNA顺序)1CCCCCGGTTGCTGACTTGCCGCGGGAAGGAGGATGAGCAGGCGGTGGAGCCGGACGATCT1802CCCCCGGTTGCTGACTTGCCGCGGGAAGGAGGATGAGCAGGCGGTGGAGCCGGACGATCT1151ACGTGGGGAATCTCCCTGGTGACATCAGGGAGAGGGAGGTGGAGGATCTCTTCTACAAGT2402ACGTGGGGAATCTCCCTGGTGACATCAGGGAGAGGGAGGTGGAGGATCTCTTCTACAAGT175同源查询(氨基酸顺序)从功能的意义看,氨基酸的同源性比DNA更加重要.同源性,一致性和相似性的定义1)同源(homological)基因系指起源于同一祖先但顺序已经发生变异的基因成员,分布在不同物种间的同源基因又称直系基因.同一物种的同源基因则称水平基因,水平基因由重复后趋异产生.2)基因同源性只有“是”和“非”的区别,无所谓百分比.3)一致性(identity)系指同源DNA顺序的同一碱基位置的相同的碱基成员,或者蛋白质的同一氨基酸位置的相同的氨基酸成员,可用百分比表示.4)相似性(similarity)系指同源蛋白质的氨基酸顺序中一致性氨基酸和可取代氨基酸所占的比例.可取代氨基酸系指具有相同性质如极性氨基酸或非极性氨基酸的成员,它们之间的代换不影响蛋白质(或酶)的生物学功能.相似性与一致性249MFN-MAIPFGAGAYAQALNQQQAALMASVAQGG232ILTSLTLPFSAGAYAQALNQQQTTVIS--TSGS注:红色为一致性氨基酸,蓝色为可取代氨基酸,白色为趋异氨基酸.一致性氨基酸百分比为红色氨基酸所占的比例.相似性氨基酸百分比为红色和蓝色氨基酸相加所占的比例.基因注释的方法1.目前基因注释的方法主要依赖于生物信息学方面的分析结论,它们包括以下自动注释内容:1)abinition软件的预测,依据基因结构的特点.2)同源性比较3)基序(motif)或功能域(domain)分析预测基因功能.2.基因功能的分类主要采用ONTOLOGY标准.3.人工注释系指人为检测评价自动注释的结果并根据其它数据进行分析与校正.4.实验注释系根据实验结果进行注释.5.基因功能注释与调控顺序注释仍处于起始阶段.现有基因注释软件的特点1)目前基因注释程序的编写主要依据两种信息内涵:1.signalterms(信号指令),如起始密码,终止密码,终止信号,剪接受体位与供体位顺序,多聚嘧啶顺序,分支点等保守的顺序组成;2.contentterms(内容指令),如密码子使用偏好.对结构紧凑的小基因组上述注释软件效果不错,但对大基因组特别是超长基因的注释有很大困难.在一个长度数十或数百kb的内含子中,存在许多可能误判的信号指令.2)常用的注释软如GenScan主要偏重于内容指令,而FgeneSH则着重于信号指令.由于每种生物都有种属专一性的密码子偏好,也存在某些非保守的信号指令,因此在超长基因注释中常出现正向错误(false-positive,多注释)或负向错误(false-negetive,少注释).引自:NatureReviews/Genetics,4:741-749,2003.基因自动注释软件的问题1)基因注释一般包括如下内容:基因组DNA顺序中确切的转录为mRNA的顺序;外显子和内含子的位置;基因编码的蛋白质顺序.2)在目前即使已有很好研究基础的生物中,最好的计算机基因注释程序对每个外显子注释的准确率也只能达到80%.如果一个基因有5个外显子,整个基因注释的准确率为0.85=33%.3)基因注释的软件通常容易犯误拼和误拆的错误,即将两个基因归在一个,或者反过来.4)容易遗漏很小的外显子,特别是保守性不强的基因.5)容易忽略小基因.6)无法预测mRNA中5’-和3-’非翻译区(UTR),即很难确定转录起点与终点.不同注释软件比较1)目前基因组注释的软件绝大多数都是根据已有基因结构的数据编写的,具有很多的经验成分.2)由于各家采用的注释软件不同,注释结果有很大的差别,如人类基因组测序计划(HGP)注释的基因与Celara公司注释的基因仅2/3一致.不同注释软件之间的效率Performanceofthreepopulargenepredictionprogramson42semiartificialgenomicsequencescontaining178knownhumangenesequences(900exons).Sensitivity(敏感性)ispercentageofexonsthatarepredictedcorrectly.Specificity(专一性)ispercentageofpredictedexonsthatarecorrect.ReproducedwithchangesfromYadaetal.,2002ColdSpringHarborGenomeSequencingandBiologyMeeting,May7-11,2002.FGENESHisbyfarthemostaccurateofthreeprograms.效率与准确率比较------------------------------------------------------------------------------------------programsensitivityspecificitymissedexon(%)wrongexon(%)------------------------------------------------------------------------------------------FGENESH77.165.79.623.2GenScan66.544.912.040.9HMMGene69.536.615.555.5------------------------------------------------------------------------------------------引自:基因的命名规则迄今为止国际上还没有一个普遍公认的适合所有生物种属的基因命名规则.由于历史,习惯以及其它各种原因,基因命名中常常存在许多同名歧义,或者同义歧名的现象.许多基因在生物的不同发育阶段具有不同的功能,这一点也给准确的基因命名造成了实际困难.很多科学家都希望基因的命名标准化,曾经在1997年和1999年举行了两次有关基因命名的研讨会,但因研究领域的不同以及基因命名本身存在的复杂问题,无法达成一个统一的意见。目前不同生物种属的基因命名规则仍由各相关领域的专家讨论分别制定,然后推荐给研究者选择采用.人类基因的命名规则(1)1)人类基因命名委员会(HumanGeneNomenclatureCommittee,HGNC)给基因下的定义是,控制某一表型和某种生物学功能的DNA片段。当一个基因缺少可识别的功能特征时,可以通过一段DNA顺序,转录产物或者同源基因来表述。2)一段DNA顺序或基因组中某一位点是否具备可以指定基因符号的条件,可以参照下述例子执行:1.具有孟得尔单基因性状的遗传特征并有确定表型的位点,如BBS1,Bardet-Biedisyndrome1(Bardet-Biedl综合症1)。2.和一个已知的标记连锁或相关,参于一个复杂性状的形成但未鉴定的基因,如IDDM6,insulin-dependentdiabetesmellitus6(依赖胰岛素的糖尿病mellitus6).3.具有足够的结构、功能和表达的数据证明克隆的DNA片段是一个完整的基因,如COX8,cytochromecoxidasesubunitVIII(细胞色素氧化酶亚基8)。4.某个基因的无功能的拷贝,即假基因,如IL9RP1,interleukin9receptorpseudogene1(细胞间质素9受体假基因1)。人类基因的命名规则(2)5)和已知基因重叠并由反义链编码的基因,如IGF2AS,insulin-likegrowthfactor2,antisense(类胰岛素生长因子2反义基因)。6)可转录但不翻译却具功能的DNA片段,如XIST,X(inactive)-specifictranscript(X染色体专一性失活转录物)。7)细胞学表型推测存在某个或某些与此相关的基因,LOH18CR1,lossofheterozygosity,18,chromosomalregion1(异质杂合性18染色体区域1)。8)由EST簇集判断存在一个可能的基因,如C1orf1,chromosome1openreadingframe1(染色体1开放读框)。9)由GDB(theGenomeDatabase)指定编号的表达顺序片段,如DXYS155E。10)由顺反子产生的可以和其它编码顺序机械分开,不发生重叠,具有独立基因产物的mRNA,如SNURF,SNRPNupstreamreadingframe(SNRPN上游读框)。人类基因的命名规则(2)11)功能未知但有很高顺序相似性的基因,如FAM7A1,familywithsequencesimilarity7,memberA1(具顺序相似性7家族,成员A1)。12)与特征明确的基因具有同源性但由机算机预测的基因,如TCP10L,t-complex10(mouse)-like(类(老鼠)t-复合物10)。13)位于同一条DNA上的某一基因内含子中的转录物可以用分开的但同所在基因有关的符号表示,如COPG2IT1,coatomerproteincomplex,subunitgamma2,intronictranscript1(Coatomer蛋白复合物,亚基2,内含子,转录物1)。Coatomer:外被体,即无网格蛋白小泡的蛋白质复合体.基因注释标准—人类Knowngene:与人类已知cDNA和蛋白质顺序同源的基因.Novelgene:与脊椎动物cDNA或其它物种蛋白质同源的基因.Noveltranscripts:与novel基因相似,但缺少明确的ORF.Putativegene:有同源EST支持,但缺少cDNA或ORF.Predictedgene:数据库中至少有一个外显子支持,但缺少cDNA或明确的ORF.Pseudogene(假基因):与已知蛋白质有50%的同源性,但cDNA残缺,在其它位点存在正常的同源基因的顺序.引自:Nature414:865-871,2001(人类22号染色体注释)水稻注释基因类群的划分标准Homology(同源的):与某一蛋白质氨基酸顺序完全一致或相当一致的基因,有两种水平:一致的命名(samename);可能的(putativeprotein)或类似的(-likeprotein)命名.Unknown(未知的):具有全长cDNA或EST(覆盖几乎整个基因范围)支持但没有任何同源蛋白质记录的基因.hypothetical(假定的):由一个或几个注释软件认可的蛋白质,但缺少cDNA或EST支持的基因.借助全长cDNA和拼接cDNA人工注释全长cDNA是注