生物信息学期末考试重点总结

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

1生物信息学Bioinformatics第一章DNA、RNA和蛋白质序列信息资源生物信息学的概念:专指应用信息技术储存和分析基因组测序所产生的分子序列及其相关数据,也称分子生物信息学。三大核酸序列数据库GenBank(NCBI)美国国家生物技术信息中心,EMBL欧洲分子生物学实验,DDBJ日本DNA序列资料库序列信息通常用FASTA和GenBank两种格式显示第二章双序列比对数据库查询:指对序列、结构以及各种二次数据库中的注释信息进行关键词匹配。数据库搜索:通过特定相似性比对算法,找出核酸或蛋白质序列数据库中与检测序列具有一定程度相似性的序列。区别:数据库搜索专门针对核酸和蛋白质序列数据库而言,其搜索对象不是数据库的注释信息,而是序列信息。检测序列:新测定的,希望通过数据库搜索确定其性质或功能的序列目标序列:通过数据库搜索得到的和检测序列具有一定相似性的序列同源性的意义:具有共同祖先。两个物种中有两个性状满足下列任一条件,就可称为同源性状:(1)它们与这些物种的祖先类群中所发现的某个性状相同(2)(2)它们是具有祖先一后裔的不同性状同源(homology)-具有共同的祖先同源序列:共同祖先趋异进化形成垂直同源(ortholog)种系形成过程中起源于一个共同祖先的不同种系中的DNA或蛋白质序列水平同源(paralog)由序列复制事件产生的相似(similarity)用来描述检测和目标序列之间相同DNA/蛋白质序列占比高低。同源序列一般是相似的,但相似序列不一定是同源的。相似性:大于50%可认为是同源性序列,小于20%无法确定同源性目的:通过数据库搜索,推测该未知序列可能属于哪个基因家族,具有哪些生物学功能。可能找到已知三维结构的同源蛋白质而推测其可能的空间结构。在序列数据库中对查询序列进行同源性比对.整体比对:从全长序列出发(分子系统学)局部比对:序列部分区域相似性(分子结构与功能性研究)数据库搜索的基础是序列的相似性比对,即双序列比对(pairwisealignment)。核酸打分矩阵:等价矩阵表:考虑碱基的同一性,即两个序列之间完全相同的匹配碱基数目(相同打1,不相同打0);BLAST打分矩阵:完全相同得五分,不相同减四分;转换—颠换矩阵:完全匹配得1分,G(鸟嘌呤)--A(腺嘌呤),C(胞嘧啶)—T(胸腺嘧啶)相转换得-1分,不匹配不转换,得-5分。2生物信息学Bioinformatics蛋白质打分矩阵:相似性打分矩阵,基于远距离进化过程中观察到的残基替换率,并用不同的分数值表征不同残基之间的相似性程度。恰当选择相似性分数矩阵,可以提高序列比对的灵敏度。BLAST(BasicLocalAlignmentSearchTool):局部相似性比对搜索程序,基于查找完全匹配的短小序列片段,并将它们延伸得到较长的相似性匹配。思路:先找到检测序列和目标序列之间相似性程度最高的片段作为内核向两端延伸,以找出尽可能长的相似性片段BLAST优点:使用方便、功能齐全,速度快、结果可信,NCBI精心维护、持续开发,配套数据库不断更新,免费服务(NCBI、EBI、TIGR),免费下载,本地安装BLAST的查询序列和数据库的类型程序名查询序列Input数据库类型方法blastp蛋白质1蛋白质蛋白质查询序列搜索蛋白质序列数据库blastn核酸1核酸核酸查询序列搜索核酸序列数据库balstx核酸6蛋白质将核酸序列按6条链翻译成蛋白质序列后搜索蛋白质序列数据库tblastn蛋白质6核酸蛋白质查询序列搜索核酸序列数据库,核酸序列按6条链翻译成蛋白质tblastx核酸36核酸将核酸序列按6条链翻译成蛋白质序列后收缩有核酸序列数据库按6条翻译成的蛋白质序列的数据库序列比对数学模型分两类:整体比对(从全长序列出发,考虑序列的整体相似性)局部比对(考虑序列部分区域的相似性)多序列比对的意义:(1)蛋白质序列,更能从比对中发现保守区域,可以更好地推测未知蛋白质的功能(2)从一个家族中多个相关蛋白的对比中可以发现隐含其中的系统发育的关系,从而更好地理解蛋白质的进化(3)对未知蛋白质的结构进行预测,推测哪些区域构成了蛋白质的活性位点,哪些区域维持了蛋白质的空间构象(4)如果由与这些蛋白质相关的DNA序列,DNA能提供更多的有关进化历程的信息FASTA格式特点:批量处理第一行以“”开头+序列的标识符+序列的描述信息,换行后是序列信息第三章多序列比对多序列比对:把2条以上可能有系统进化关系的序列(相似度不一定很高)进行比对的方法。相同或者相似的氨基酸残基排在同一列上,这些对齐的残基在进化意义上是同源的:来自共同的祖先。并且从结构角度,这些残基也是同源的。3生物信息学Bioinformatics多重比对的近似方法ClustalW法:渐近比对渐进比对:先对所有的序列计算两两比对的分值(产生原始相似值),然后从关系最近的一堆序列开始,逐步加入其他序列。应用最广的多序列比对工具:ClustalW2三个步骤:1)构建双序列比对(成对比对):两两比对得到相似度矩阵或者距离矩阵2)建立向导树:使用相似度矩阵产生向导树3)按向导树累进比对:把最相似的两条序列构成一个比对,按向导树,把下一条序列加入比对直到最后。第四章序列特征分析基因:基因是负载特定生物遗传信息的DNA分子片段,在一定的条件下能够表达这种遗传信息,产生特定的生理功能。严格来说“基因”:产生一条多肽链或功能RNA所必须的全部核苷酸序列。原核生物基因结构操纵子模型结构结构基因的表达受到操纵基因的调控。调节基因能产生作用于操纵基因的阻遏物(一种蛋白质),操纵基因靠近它所控制的结构基因,阻遏物与操纵基因的结合能阻止结构基因的转录。DNA序列特征分析进行序列比对和从序列中找到基因及其表达调控信息。识别与基因相关的特殊序列信号,如启动子、起始密码子,通过信号识别大致确定基因所在的区域;预测基因的编码区域,或预测外显子所在的区域。在此基础上,结合两个方面的结果确定基因的位置和结构。开放阅读框ORF4生物信息学Bioinformatics指从5‘端开始翻译起始密码子(ATG)到终止密码子的编码蛋白质的碱基序列。每个序列都有6个可能的开放阅读框,目的是从6个可能的开放阅读框中找出1个正确的开放阅读框。根据这个开放阅读框翻译得到的氨基酸序列才是真正表达的蛋白质产物。真核生物的开放阅读框真核生物不仅含有编码蛋白的外显子,而且还有内含子,且内含子将开放阅读框分割为若干个小片段。开放阅读框的长度变化范围非常大,因此真核生物的基因预测远比原核生物困难。真核生物中,外显子与内含子之间的连接绝大部分情况下满足GT-AG规律,即内含子为:5'-GT……AG-3'。GENSCAN识别基因开放阅读框根据基因组DNA序列来预测开放阅读框及基因结构信息CpG岛——CPGplot预测分析CpG岛CpG岛是指DNA序列上的一个区域,此区域含有大量相联的胞嘧啶C、鸟嘌呤G、和相连的磷酸酯键p基因组中平均每100Kb出现,其中GC含量大于50%,长度超过200bp。CpG岛位于基因的启动子和第一个外显子区,约有60%~80%的启动子和起始外显子含有CpG岛;搜索CpG岛可以为基因及其启动子预测提供重要线索。转录终止信号——POLYAH(识别3'端剪切和PolyA区域)转录终止信号是在mRNA序列的3'端终止密码子下游位置上的加尾信号。真核细胞mRNA转录后处理的最主要步骤:5`帽子结构的形成→内含子的剪切→3'端的多聚腺苷酸化(polyA)polyA与mRNA稳定性的调节、mRNA的细胞内转运、翻译的起始以及其他的细胞机制和疾病机制有着重要关系。启动子——PromoterScan预测分析启动子区域启动子是基因的一个组成部分,控制转录的起始时间和表达的程度。启动子本身并不控制基因活动,是通过与转录因子的蛋白质结合而控制基因活动的。密码子偏好性——CodonW分析密码子偏好性(同时处理2000条以上序列)密码子使用偏性:指生物体中编码同一种氨基酸的同义密码子的非均匀使用现象。蛋白质序列特征分析——ProtParam蛋白质理化性质分析基本假设:蛋白质的空间结构由蛋白质序列所决定,即可根据蛋白质序列预测蛋白质结构(第二遗传密码),MiRNA:由内源基因编码的长度为22个核苷酸的非编码单链RNA分子,在植物中参与转录后基因表达调控5生物信息学Bioinformatics蛋白质的亲水性或疏水性—ProtScale分析蛋白质的亲水,疏水性氨基酸的亲疏水性是构成蛋白质折叠的主要驱动力,一般通过亲水性分布图反映蛋白质的折叠情况。分析结果中的峰值表示疏水者为正值,亲水者为负蛋白质的跨膜区——TMpred分析蛋白质的跨膜区基于对TMbase数据库的统计分析来预测蛋白质跨膜区和跨膜方向。图形显示结构峰值指可能的跨膜螺旋区信号肽——SignalP分析蛋白质的分泌型前导肽指新合成多肽链中用于指导蛋白质跨膜转移的末端(通常为N末端)的氨基酸序列。信号肽中至少含有一个带正电荷的氨基酸,中部有一个高度疏水区以通过细胞膜。蛋白质的前导肽在线粒体蛋白质的跨膜转运过程中,通过线粒体膜的蛋白质在转运之前大多数以前体形式存在,它由成熟蛋白质和N端的段前导肽组成。蛋白质的卷曲螺旋—COILS分析蛋白质的卷曲螺旋(得分决定查询序列形成卷曲螺旋的概率)蛋白质空间结构中的一种,由2~7个α螺旋相互缠绕而形成超螺旋结构的总称。第五章分子进化分析氨基酸序列进化分析:氨基酸序列更为保守,对年代跨度大的进化分析有帮助;数学模型较DNA远为简单。系统进化树:所有生物都可以追溯到共同的祖先;生物的产生和分化就像树一样生长、分叉;是表明被认为具有共同祖先的各物种相互间进化关系的树形图。•直系同源(orthologs):同源的基因是由于共同的祖先基因进化而产生的。•旁系同源(paralogs):同源的基因是由于基因复制产生的。•分子进化分析中的序列必须是直系同源的,才能真实反映进化过程。系统进化树的种类6生物信息学Bioinformatics物种树:代表一个物种或群体进化历史的系统进化树,两个物种分歧的时间为两个物种发生生殖隔离的时间。基因树:由来自各个物种的一个基因构建的系统进化树(不完全等同于物种树),表示基因分离的时间。系统发育树分析步骤:多序列比对(自动比对手工校正)→选择建树方法以及替代模型→建立进化树→进化树评估方法:最大简约法,距离法,最大似然法第六章表达序列分析*表达序列:基因组表达为RNA的序列表达序列标签EST(只有500碱基):从已建好的cDNA库中随机取出一个克隆,从5′末端或3′末端对插入的cDNA片段进行一轮单向自动测序,所获得约60-500bp的一段cDNA序列。EST数据分析1.非标准化cDNA文库的构建(适用于表达谱研究、测序成本较高)2.标准化cDNA文库的构建(高表达基因降低,低表达基因提高)(检测低丰度表达基因、不能用于表达谱研究)EST数据库EST收录于GenBank,EBI和DDBJ常用EST数据库dbEST,UniGene,GeneIndicesEST数据分析方法:随机提取克隆进行5‘或3‘端测序→序列前处理→聚类和拼接→基因注释及功能分类→后续分析7生物信息学Bioinformatics基因表达系列分析SAGE技术原理简介基因表达序列分析(SAGE)高通量、平行性检测三个基本要点1.9-14bp的短核苷酸序列“标签”(Tag)可以特异确定一个转录本2.串联体分子批量分析mRNA(平行检测)3.各转录本的表达水平可以用特定标签被测得的次数定量大致顺序标签,pcr扩增,连接,测序,检测表达量,统计数标签出现次数,进行比对,实现不同样本多序列分析高通量测序及分析读长通量方法454长低焦磷酸测序无法准确测量同聚物的长度Illumina短高边合成边测序,桥式PCR,可逆终止物可以解决同聚物长度的准确测量8生物信息学BioinformaticsAbisolid短高连接酶法转录本:指一个细胞内基因组DNA转录得到的所有转录产物以及转录物在细胞

1 / 20
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功