生物信息学期末考试答案

hg11hg11
1 ℃
2019-12-20

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

一、名词Bioinformatics：生物信息学——是一门综合运用生物学、数学、物理学、信息科学以及计算机科学等诸多学科的理论方法，以互联网为媒介、数据库为载体、利用数学和计算机科学对生物学数据进行储存、检索和处理分析，并进一步挖掘和解读生物学数据。Consensussequence：共有序列——决定启动序列的转录活性大小。各种原核启动序列特定区域内（通常在转录起始点上游-10及-35区域）存在共有序列，是在两个或多个同源序列的每一个位置上多数出现的核苷酸或氨基酸组成的序列。Datamining：数据挖掘——数据挖掘一般是指从大量的数据中自动搜索隐藏于其中的有着特殊关系性的信息的过程。数据挖掘通常是利用计算方法分析生物数据，即根据核酸序列预测蛋白质序列、结构、功能的算法等，实现对现有数据库中的数据进行发掘。EST：(ExpressedSequenceTag)表达序列标签——是某个基因cDNA克隆测序所得的部分序列片段，长度大约为200~600bp。Similarity：相似性——是直接的连续的数量关系，是指序列比对过程中用来描述检测序列和目标序列之间相同DNA碱基或氨基酸残基顺序所占比例的高低。Homology：同源性——是两个对象间的肯定或者否定的关系。如两个基因在进化上是否曾具有共同祖先。从足够的相似性能够判定二者之间的同源性。Alignment：比对——从核酸以及氨基酸的层次去分析序列的相同点和不同点，以期能够推测它们的结构、功能以及进化上的联系。或是指为确定两个或多个序列之间的相似性以至于同源性，而将它们按照一定的规律排列。BLOSUM：模块替换矩阵——是指在对蛋白质数据库搜索时，采用不同的相似性分数矩阵进行检索的相似性矩阵。以序列片段为基础，从蛋白质模块数据库BLOCKS中找出一组替换矩阵，用于解决序列的远距离相关。在构建矩阵过程中，通过设置最小相同残基数百分比将序列片段整合在一起，以避免由于同一个残基对被重复计数而引入的任何潜在的偏差。在每一片段中，计算出每个残基位置的平均贡献，使得整个片段可以有效地被看作为单一序列。通过设置不同的百分比，产生了不同矩阵。PAM(PointAcceptedMutation)：突变数据矩阵PAM即可接受点突变——指1个PAM表示100个残基中发生一个残基突变概率的进化距离。在序列比对中，能够反映一个氨基酸发生改变的概率与两个氨基酸随机出现的概率的比值的矩阵。Contig：叠连群——是指一组相互两两头尾拼接的可装配成长片段的DNA序列克隆群，也指彼此间可通过重叠序列而连接成连续的、扩展的、不间断的DNA序列的交叠片段产物。通过比对不同的序列，我们能够发现片段的顺序，并且contigs能被添加、删除、重排列来形成新的序列。Phylogenetictree：系统发生树又称为演化树（evolutionarytree）——是表明被认为具有共同祖先的各物种间演化关系的树，是一种亲缘分支分类方法。在树中，每个节点代表其各分支的最近共同祖先，而节点间的线段长度对应演化距离（如估计的演化时间）。它用来表示系统发生研究的结果，用它描述物种之间的进化关系。InSilicoCloning：电子克隆——是近年来发展起来的一门基于表达序列标签（ESTs）的快速克隆基因的新技术，其利用种子序列从EST及UniGene数据库中搜索相似性序列，进行拼装、检索、分析等，以此获得目标基因的全长cDNA，在此基础上也能够实现基因作图定位。二、问题思考1、生物信息学这门学科是如何发展起来的？答：生物学数据爆炸式增长生物大分子数据库相继建立生物技术与计算机技术并行飞速发展Internet的广泛应用人类基因组计划（HGP）的推动生物信息学的产生是生命科学发展的必然。2、举例说明生物信息学的主要应用？答：a.获取各种生物的全基因组及其他数据;b.新基因发现;c.单核苷酸多态性分析;d.基因组中非编码区域的结构与功能;e.从基因组水平研究生物进化及其他遗传语言的可能;f.全基因组的比较研究;g.基因功能预测;h.遗传疾病的研究以及关键基因鉴定;i.蛋白质组学研究;j.新药设计和定向化酶;k.生物芯片.3、为什么说生物信息学是大规模研究生命科学的利器？答：生物信息学主要是一门研究生物学系统和生物学过程中信息流的综合系统学科，是综合运用生物学、数学、物理学、信息科学以及计算机科学等诸多学科的理论方法，以互联网为媒介、数据库为载体、利用数学和计算机科学对生物学数据进行储存、检索和处理分析，并进一步挖掘和解读生物学数据。目前，其核心是基因组信息学，包括基因组信息的获取、处理、存储、分配和解读。还包括：蛋白质空间结构模拟、预测和药物分子设计；软件开发和方法学研究。未来，生物信息学将进一步揭示生命系统的复杂性、遗传语言、基因表达谱、基因组、蛋白质组、代谢组、细胞信号组、系统生物学等等。因此，生物信息学是大规模研究生命科学的利器。4、生物信息学涉及的生物大分子信息有哪些？答：涉及的有：1）核算序列DNA包括：基因组序列、基因序列、cDNA、EST、碱基修饰、DNA功能模块/位点(如启动子、剪接体、表达调控位点等)。2）蛋白质Protein包括：氨基酸组成、氨基酸序列、理化性质、原子坐标、二级结构、模体、结构域、功能域/位点、3D结构。5、在大分子序列分析中，为何局部比对比全局比对更有意义？答：全局比对（globalalignment）——指全长序列比对，用于相似性很高的序列间的分析。局部比对（localalignment）——指生物分子序列常常是局部具有较高的相似性，呈板块分布。此法用于整体相似性较低的序列分析，灵敏度高。原因：1）全局比对是沿整个长度实现序列之间匹配的最大化，尝试对齐整个序列。而局部比对是对动态规划算法的修改，是给两个序列之间得分最高的地方进行匹配，集中在寻找相似度高的序列的延伸。因此相比而言，在序列分析中将未知序列同已知序列进行相似性比较，局部比对的准确性比全局比对更高。因为要实现整个序列长度的相似性匹配，比起局部匹配分析带来的误差更大；2）另外，与局部序列比对算法相比，全序列比对算法会导致一些局部序列相似性较高而全序列相似性很小，因为全序列的平均效应而将两者的相似性漏检。一般对于2个未知关系的序列，使用局部序列比对工具要比用全序列比对工具好。而对于一个较长的序列和一个较短的序列的比对，也应该使用局部序列比对工具。3）再则全局比对的最高分是最后一个，而局部比对的任何一个地方都可能是最高分，即任何地方都可以是对位起始点，可见局部比对操作更为灵敏。4）应用范围上，全局比对仅适用于相似性很高的序列间分析，而局部比对一般用于相似性较低的序列分析，但是也可以用于高相似性序列分析，这样的分析结果会更加精准。所以局部比对比全局比对更加有意义。6、在大分子序列分析中，为何蛋白质的取代矩阵比核酸的取代矩阵更复杂？答：取代矩阵(substitutionmatrix)的规则是“奖励匹配位点，罚扣不匹配位点”，故又称为计分矩阵（scoringmatrix）。核算序列分析利用碱基取代矩阵，通过相似性比对匹配与否进行打分，便可以分析出其大致的碱基组成，特异位点等。而蛋白质序列利用其氨基酸残基取代矩阵分析，由于蛋白质的序列组成复制，而且蛋白质的功能是通过其三维高级结构来执行的，该结构又不一定处于静态，在行使功能的过程中，一般会发生相应的改变，所以氨基酸残基的进化取代不能简单地表述各种残基在结构和功能上的关系，所以要对蛋白质序列进一步的分析就需要更加复杂的取代矩阵。7、多重比对的用途？BLAST的用途？答：多重比对的用途主要用于：1)系统演化分析，解释物种之间的进化关系；2)基因预测；3)蛋白质结构域的三级结构与二级结构，甚至是个别的氨基酸或核苷酸；4)研究一个家族中的相关蛋白质序列中的保守区域，进而分析蛋白质的结构和功能。BLAST是现在应用最广泛的序列相似性搜索工具，主要用于：1)新DNA序列的发现、定位与分析、结构和功能预测；2)ESTs的分析；3)寻找分析远源关系的蛋白质序列；4)实验设计如PCRPrimer，MutagenesisStudies，构建Profile(--谱)等；5)揭示相似性和同源性，发现系统发育的信息；6)寻找数据库中没有标注的编码区、发现保守区域、特定序列框等重要信息。8、聚类分析的策略？答：聚类分析(clusteranalysis)是一组将研究对象分为相对同质的群组(clusters)的统计分析技术。其策略方法为：先将多个序列两两比对构建距离矩阵，反应序列之间两两关系；然后根据距离矩阵计算产生系统进化指导树，对关系密切的序列进行加权；然后从最紧密的两条序列开始，逐步引入临近的序列并不断重新构建比对，直到所有序列都被加入为止。第一步：点击File→LoadSequences输入序列文件。第二步：点击Alignment设定比对的一些参数。第三步：点击Alignment→DoCompleteAlignment开始序列比对。第四步：点击File→SaveSequenceas...比对完成，选择保存结果文件的格式。9、电子克隆比传统的实验克隆有何优势？为何能实现电子克隆？答：电子克隆利用种子序列从EST及UniGene数据库中搜索相似性序列，进行拼装、检索、分析等，以此获得目标基因的全长cDNA，在此基础上也能够实现基因作图定位。其相比实验克隆所具有的优势有：1)实验进程短、快捷、设备简单；2)成本低、得率高、针对性强等；3)对操作人员技术要求不高；4)另外运用电子克隆的方法延伸得到的cDNA几乎囊括了所有疑似为目的基因的cDNA序列。能实现电子克隆是因为：EST数据库的不断完善，使得电子克隆策略已成为克隆新基因的重要方法。从GenBank的核酸（nr）数据库中检索已测序列生物的目的基因，获得目的基因cDNA序列，以该序列为模板对另一种未测序列生物EST数据库进行BLAST检索，获得与之部分同源的EST群，从中选取一条EST作为种子序列BLAST检索该生物的EST数据库，将检出与种子序列同源性较高或有部分重叠的EST序列拼接组装为重叠群（contig），再以此重叠群序列重复以上BLAST检索过程，反复进行EST重叠群序列的拼接和比对，直至检出所有的重叠EST或重叠群不能继续延伸，最终获得未测序列生物基因的cDNA全序列。10、蛋白质分子结构的层次？相应的分析工具？答：蛋白质一级结构分析：1)ProtParam：蛋白质理化参数检索；2)ProtScale：蛋白质亲疏水性分析；3)coiled-coil卷曲螺旋预测。蛋白质二级结构预测：二级结构指α‐helix，β‐sheet，无规则卷曲(coil)，motif等组件。预测方法：1)神经网络、遗传算法、机器学习等；2)与已知二级模板建立序列谱矩阵(profilematrix)、PSI‐BLASTP；3)与同源蛋白多重比对。模式和序列谱分析：EBI：InterProScan整合出的部分数据库有：Proside蛋白质结构域、家族和功能位点；Pfam蛋白质家族比对；TMHMM跨膜区预测。蛋白质三级结构预测：实验测定方法：X-ray、NMR、Cryo-EM；理论预测方法：同源建模、折叠识别、从头计算。三、综合分析1、DNA序列的鉴定策略答：鉴定三步骤：1)找到序列中的非编码区编码区与非编码区显著不同，重复序列和低复杂序列排除基因的可能性，首先屏蔽掉。屏蔽重复序列的分析程序有：RepeatMasker,XBLAST,CENSOR等。此外，确定待检序列是否真实（载体污染，宿主序列污染，纯度因素等），载体序列污染分析程序有：NCBI/VecScreen；EMBL/Blast2EVEC。2)找基因根据基因特征信号，如保守序列(启动子，CpG岛)、起始和终止密码子、polyA，碱基频率，密码子偏好，EST。原核生物采用可读框ORF检测基因非常有效。CpG岛的预测工具：EMBL-EBIK的在线工具CpGPlot；转录终止信号的预测方式：真核生物基因末端有终止子信号，在mRNA终止密码子下游具有