钟杨-生物信息学

dual520
2 ℃
2019-12-15

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

各种blast的定义：1）、BLASTP是蛋白序列到蛋白库中的一种查询。库中存在的每条已知序列将逐一地同每条所查序列作一对一的序列比对。2）、BLASTX是核酸序列到蛋白库中的一种查询。先将核酸序列翻译成蛋白序列（一条核酸序列会被翻译成可能的六条蛋白），再对每一条作一对一的蛋白序列比对。3）、BLASTN是核酸序列到核酸库中的一种查询。库中存在的每条已知序列都将同所查序列作一对一地核酸序列比对。4）、TBLASTN是蛋白序列到核酸库中的一种查询。与BLASTX相反，它是将库中的核酸序列翻译成蛋白序列，再同所查序列作蛋白与蛋白的比对。5）、TBLASTX是核酸序列到核酸库中的一种查询。此种查询将库中的核酸序列和所查的核酸序列都翻译成蛋白（每条核酸序列会产生6条可能的蛋白序列），这样每次比对会产生36种比对阵列。双向BLAST:用物种A的基因序列搜索(BLAST)物种B的基因序列，搜到的最高相似的序列反过来再BLAST物种A的基因组(阈值E小于1e一20)。如果两条序列在这两个BLAST中均是最相似的，称为“双向BLAST最高相似蛋白”，则认为是直系同源关系。E.coliK12GeneAE.coliO157GeneBBlast,Evaluecutoff=1e-20A.B为候选直系同源基因双向双向BLAST(BLAST(基因组基因组))获得直系同源序列获得直系同源序列Mega-Blast：可用于搜索近似完全的匹配,可以处理一批核苷酸查询，比标准BLAST查询速度快，NCBI进行基因组BLAST查询时的默认程序。PSI-BLAST：位置特定的迭代BLAST(PositionSpecificIteratedBLAST)，搜索数据库以找出与查询序列同一蛋白质家族的成员，揭示亲缘关系较远的蛋白质间的关系。两个序列间的查询•比较两个序列的相似性，不需要传统BLAST的数据库查询•BLAST2•局部对位排列，获得结构域或序列内重复信息•建议不超过150kbBlast流程Blast---BasicLocalAlignmentSearchTool在浏览器中输入NCBI网址即可进入BLAST的主页，根据目的选用相应的blast类别进行搜索。进入搜索页面后，把查询序列粘贴到“search”编辑框中。在database选择项中，有若干数据库可以选择，BLAST的缺省数据库是nr数据库，如果有特别需要可以选别的数据库。点击BLAST之后，程序就会把序列提交给BLAST服务器，服务器会返回给用户一个requestID，用于搜索BLAST结果。输入ID，点击相应按钮，浏览器就会弹出新的窗口显示BLAST结果。BLAST结果通常包括三个部分：1、序列在数据库中搜索得到的Hits分布图，把用户序列在数据库中能找到的匹配序列从高到底用不同颜色的线条图形表示出来。2、在数据库中检索到的匹配序列的从高到低的排序，BLAST显示所有E值小于设定的E值的匹配序列。这个部分包括三个数据：------第一列：序列的名称------第二列：Score（分值），用户序列和数据库序列中命中序列比对之后的相似性打分，打分越高则序列相似性越高。------第三列：E值，是随机产生一个比所得分值高的对位排列的概率。是衡量分值可靠性的测度，E值越小,所得相似序列的可靠性越高。如果用户有大量的数据，则需要将BLAST程序下载到用户本地的计算机中，进行本地化分析。BLASTBLAST系列程序选择流程系列程序选择流程蛋白质序列？是蛋白质数据库？是blastp否蛋白质数据库？tblastn否否blastn是否tblastxblastx是数据库翻译？查询序列举例：恐龙蛋化石中的18srDNA对从恐龙蛋提取出来的18SrDNA进行BLAST，得出多个分值较高同时E值很小的结果，根据此值做出与恐龙蛋基因的遗传树发现DA18s1类似于真菌DA18s7类似于被子植物DA18s1、DA18s7与鸭、人、鳄鱼和其他动物的序列差异很大鸟类与爬行类是恐龙现存的最近的物种;DA18s1/7都不是真正的恐龙DNA麻黄碱类化合物的起源假说背景介绍：Dopamine能神经元与学习，记忆，运动及药物成瘾有关麻黄碱与人体内肾上腺素受体(AD)及多巴胺转运蛋白（DAT）结合解释：•麻黄碱是麻黄的一种防御物质，其作用之一是抵抗镰孢菌的侵染•麻黄碱对镰孢菌的防御与麻黄碱和镰孢菌中的FG07634蛋白结合有关•FG07634蛋白与人体神经系统中主管奖励机制的一种蛋白----Dopaminetransporter(DAT)具有同源性(由于这种同源性，使麻黄碱类化合物能够干扰人体“奖励系统”的正常运转，从而发生毒品效应)。推测：•推测FG07634蛋白的功能，因同源同功，推测其为“转运蛋白”•推测被FG07634蛋白转运的物质---与Dopamine、Serotonin、Adrenaline、GABA、Proline等神经介质的功能及结构相似---可能与镰孢菌对植物的侵害有关进一步得出：FusaricAcid—可能被FG07634转运的物质•FusaricAcid与Dopamine的相似性FusaricAcid能抑制DopamineI型受体活性(中国抗生素杂志，2001)FusaricAcid能抑制植物Dopamine代谢途径中的TyrosineHydroxylase，人Dopamine代谢途径中的Dopamine-HydroxylaseFusaricFusaricAcidAcid是镰孢菌分泌的一种非特异性的毒素，在对植物侵染过程中与其他毒素有协同作用；同时在镰孢菌的不同生长时期也有不同的生理作用植物Dopamine代谢途径:人类Dopamine代谢途径:TyrosineTyramineDopamineDecarboxylaseTyrosineHydroxylaseNoradrenalineTyrosineL-DopaDopamineTyrosineHydroxylaseDecarboxylase-Hydroxylase基因组分析与进化基因组学1、基因组•一个基因组(genome)是指一种生物体中的整套遗传信息，一般为一个受精卵或一个体细胞的细胞核中所有DNA分子的总和。如植物有核基因组、线粒体基因组和叶绿体基因组。•基因组学研究通常包括:基因组作图,基因组测序,基因组注释,基因功能鉴定等2、功能基因组学(functionalgenomics):•利用结构基因组学研究所得的各种来源的信息，建立与发展各种技术和实验模型来测定基因及基因组非编码序列的生物学功能3、比较基因组学(comparativegenomics):•通过模式生物基因组之间或模式生物基因组与人类基因组之间的比较与鉴别，为研究生物进化和分离人类遗传病的候选基因以及预测新的基因功能提供依据。其中，着重研究生物进化的领域亦称为进化基因组学(evolutionarygenomics)4、基因组与生物信息学：•基因组信息学:存储、获取、处理、分配、分析和注释有关基因组的信息•基因组分析的难度:1)基因组分析的信息量比单基因要高几个数量级2)一些基因组的数据尚不完备,质量也有待提高3)基因组分析的方法学研究还处于起步阶段5、基因组注释定位所有已知基因预测新的基因提供功能注释为基因组提供尽量多的其它信息数据统计及分布6、基因识别•检测在一段DNA序列中是否存在ORF•判明基因结构,包括起止位置,外显子/内含子边界,启动子,polyA区域,非转译区（UTR）等•预测真基因,“假基因”（pseudogene）及可能的剪切位点7、基于序列相似性的基因预测•将基因组序列与EST（表达序列标签)或cDNA等相比较(用Sim4等方法),找出与mRNA相对应的区域•将基因组序列与蛋白质数据库相比较(用BLASTX等方法)，找出可能的编码区•将预测得到的多肽与蛋白质数据库相比较•将基因组序列与同源性相近物种的基因组相比较,找出保守区域8、“从头开始法”基因预测•隐马尔可夫模型（HiddenMarkovModel,HMM）•人工神经网络（NeuralNetwork）•动态规划法•决策树•语言学方法•线性判别法分子进化与进化基因组分析1、核苷酸置换模型•Jukes–Cantor单参数模型•Kimura双参数模型•Equal－input模型•Tamura模型•HKY模型•…...2、分子系统发育分析的主要方法(1).距离矩阵法(DistanceMatrix)(2).最大简约法(MaximumParsimony)(3).最大似然法(MaximumLikelihood)3、基因组进化•基因组排列(genomearrangement):是指基因序列的变化（序列插入，转座等）•基因组含量(genomecontent):基因的获得（序列的趋异、复制、重组、水平转移）和基因丢失4、直系同源体簇(COG)直系同源基因(orthologousgene)是指在不同物种之间同源相似的基因，而并系同源基因(paralogousgene)是指一个物种内的同源基因。一个生物物种的基因组中，两个基因或开放读码在各自全长的60％以上范围内，同一性不少于30％时，称为同源体。研究直系同源基因之间或并系同源基因之间的功能关系，可以为基因组分析提供很大的帮助。例如，比较8个已完成测序的整个基因组所编码的蛋白质序列，可以发现代表不同系统发育关系并反映了不同物种的直系同源体簇(clusteroforthologousgroups,COG)。5、基于基因含量的基因组系统发育分析•计数基因组共享直系同源基因的数量•以共享直系同源基因的数量除以较小基因组的基因数得到一个相似性矩阵•从相似性矩阵构建用于系统发育分析的距离矩阵2004年考题：从GenBank等分子数据库中检索收录号为AF166093的DNA序列,用BLAST等工具对该序列进行同源性搜索,用所获得的序列构建进化树。Flow：1.登录NCBI主页-点击BLAST-点击TBLASTX-在Search文本框中粘贴检测序列-点击BLAST!-点击Format-得到resultofBLAST。2．Mega建树构建进化树的主要步骤是比对，建立取代模型，建立进化树以及进化树评估。(1)首先用ClustalX对上述检测到的序列进行比对.并将开始和末尾处长短不同的序列剪切整齐,得到目标同源序列。(2)采用mega软件，建立系统树。关于用Mega建立系统树的具体步骤，有兴趣的同学可参考年考题：背景知识1：干扰素（Interferon，IFN）是一个具有多种生物学功能的蛋白质家族，具有抗病毒、细胞生长抑制和免疫调节的作用。目前，将IFN分为2个亚型：I和II，其中I型基因分为α、β、ω、κ、δ和τ。对所有哺乳动物研究发现，α干扰素家族成员均没有内含子，而且序列相似性高。人类IFN-α2的序列号是NM_000605。背景知识2：直系同源基因是指在物种形成过程中从祖先物种“继承”的基因，其在结构和功能等方面都具有保守性；并系同源基因是存在于同一个基因组中的同源基因。可以根据并系同源基因起源时间与物种形成时间的关系，进一步划分并系同源基因，其中“inparalog”基因特指那些物种形成之后形成的同源基因。题目：根据上述背景知识，用BLAST工具搜索α-干扰素基因相关序列，并据此构建哺乳动物α-干扰素基因的进化树。此外，根据并系同源基因的概念讨论α-干扰素基因的进化模式。（提示：物种分类可以参考在线BLAST结果中的Taxonomyreport）系统树的建立过程同上。进化模式的讨论：根据所建立的系统进化树，讨论哺乳动物α、β、ω、κ、δ和τ编码基因，通过比较a等亚型建立系统进化树确定其同源关系。补充资料：系统进化树构建及数据分析的简介：年考题现在获得一个基因，试用生物信息学的知识对其功能，结构，来源等方面进行研究。1.结构：用blastx程序在蛋白质序列数据库中找出翻译后的查询序列的