生物信息学复习资料

23506694
2 ℃
2020-03-25

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

一、名词解释(31个)1.生物信息学:广义：应用信息科学的方法和技术，研究生物体系和生物过程中信息的存贮、信息的内涵和信息的传递，研究和分析生物体细胞、组织、器官的生理、病理、药理过程中的各种生物信息，或者也可以说成是生命科学中的信息科学。狭义：应用信息科学的理论、方法和技术，管理、分析和利用生物分子数据。2.二级数据库：对原始生物分子数据进行整理、分类的结果，是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标而建立的。3.多序列比对：研究的是多个序列的共性。序列的多重比对可用来搜索基因组序列的功能区域，也可用于研究一组蛋白质之间的进化关系。4.系统发育分析：是研究物种进化和系统分类的一种方法，其常用一种类似树状分支的图形来概括各种（类）生物之间的亲缘关系，这种树状分支的图形称为系统发育树。5.直系同源：如果由于进化压力来维持特定模体的话，模体中的组成蛋白应该是进化保守的并且在其他物种中具有直系同源性。指的是不同物种之间的同源性，例如蛋白质的同源性，DNA序列的同源性。（来自百度）6.旁系（并系）同源：是那些在一定物种中的来源于基因复制的蛋白，可能会进化出新的与原来有关的功能。用来描述在同一物种内由于基因复制而分离的同源基因。（来自百度）7.FASTA序列格式：将一个DNA或者蛋白质序列表示为一个带有一些标记的核苷酸或氨基酸字符串。8.开放阅读框（ORF）：是结构基因的正常核苷酸序列，从起始密码子到终止密码子的阅读框可编码完整的多肽链，其间不存在使翻译中断的终止密码子。（来自百度）9.结构域：大分子蛋白质的三级结构常可分割成一个或数个球状或纤维状的区域，折叠得较为紧密，各行其功能，称为结构域。10.空位罚分：序列比对分析时为了反映核酸或氨基酸的插入或缺失等而插入空位并进行罚分，以控制空位插入的合理性。（来自百度）11.表达序列标签：通过从cDNA文库中随机挑选的克隆进行测序所获得的部分cDNA的3’或5’端序列。（来自文献）12.GeneOntology协会：13.HMM隐马尔可夫模型：将核苷酸序列看成一个随机序列，DNA序列的编码部分与非编码部分在核苷酸的选用频率上对应着不同的Markov模型。14.一级数据库：数据库中的数据直接来源于实验获得的原始数据，只经过简单的归类整理和注释15.序列一致性：指同源DNA顺序的同一碱基位置的相同的碱基成员,或者蛋白质的同一氨基酸位置的相同的氨基酸成员,可用百分比表示。16.序列相似性：指同源蛋白质的氨基酸序列中一致性氨基酸和可取代氨基酸所占的比例。17.Blastn：是核酸序列到核酸库中的一种查询。库中存在的每条已知序列都将同所查序列作一对一地核酸序列比对。（来自百度）18.Blastp：是蛋白序列到蛋白库中的一种查询。库中存在的每条已知序列将逐一地同每条所查序列作一对一的序列比对。（来自百度）19.Blastx：是核酸序列到蛋白库中的一种查询。先将核酸序列翻译成蛋白序列（一条核酸序列会被翻译成可能的六条蛋白），再对每一条作一对一的蛋白序列比对。（来自百度）20.Tblastn：是蛋白序列到核酸库中的一种查询。与BLASTX相反，它是将库中的核酸序列翻译成蛋白序列，再同所查序列作蛋白与蛋白的比对。（来自百度）21.Tblastx：是核酸序列到核酸库中的一种查询。此种查询将库中的核酸序列和所查的核酸序列都翻译成蛋白（每条核酸序列会产生6条可能的蛋白序列），这样每次比对会产生36种比对阵列。（来自百度）22.KEGG：京都基因与基因组百科全书，是系统分析基因功能、基因组信息的数据库，它整合了基因组学、生物化学以及系统功能组学的信息，有助于研究者把基因及表达信息作为一个整体网络进行研究。23.ChIP-Seq：就是通过高通量测序对ChIP所得到的序列进行测序，从而进行蛋白和DNA相互作用相关研究。24.分子生物网络：25.蛋白质相互作用（PPI）：是指蛋白质分子之间的相关性，并从生物化学、信号转导和遗传网络的角度研究这种相关性。26.高通量测序：一次性对几百万到十亿条DNA分子进行并行测序，又称为下一代测序技术，其使得可对一个物种的转录组和基因组进行深入、细致、全貌的分析，所以又被称为深度测序。27.比较蛋白质组学：即对模式生物或重要生命过程的蛋白质组学特征进行比较。28.NCBInr：29.GT-AG结构：30.Entrez检索系统：面向生物学家的数据库查询系统，其特点之一是使用十分方便。它把序列、结构、文献、基因组、系统分类等不同类型的数据库有机地结合在一起，通过超文本链接，用户可以从一个数据库直接转入另一个数据库。31.系统生物学：是从系统水平来理解生物学系统，利用一系列的原理与方法学来研究分子行为与系统特性与功能的关系，通过计算生物学来定量阐明和预测生物的功能、表型和行为。二、选择题（30个）1.下面哪种数据库源于mRNA信息（A）：A.dbEST、B.PDB、C.OMIM、D.HTGS2.如果我们试图做蛋白质亚细胞定位分析，应使用（）。A.NDB数据库、B.PDB数据库、C.GenBank数据库、D.SWISS-PROT数据库3.PIR是（）。A.核酸数据库、B.mRNA数据库、C.启动子数据库、D.蛋白质数据库4.以下哪一项不属于启动子研究范围？（）A.CpG岛预测、B.转录起始点预测、C.糖基化修饰、D.甲基化检测5.HTGS的含义是（C）。A.表达序列标签、B.序列标签位点、C.高通量基因组序列、D.人工合成序列6.STS的含义是（）。A.表达序列标签、B.序列标签位点、C.高通量基因组序列、D.人工合成序列7.HGP是（C）。A.在线人类孟德尔遗传数据、B.国家核酸数据库、C.人类基因组计划、D.水稻基因组计划8、下列中属于一级蛋白质结构数据库的是：（）A.EMBL、B.DDBJ、C.PDB、D.SWISS-PROT9．BLAST教案所程序中，哪个方法是不存在的？（）A.BLASTP、B.BLASTN、C.BLASTX、D.BLASTQ10．人类基因组的结构特点不包括：（）A.基因进化、B.基因数目、C.基因重复序列、D.基因组复制11、下列哪个选项不是微阵列实验设计的内容？（）A.贝叶斯网络法、B.对照组的选择、C.重复样本的使用、D.随机化原则12、构建序列进化树的一般步骤不包括.（）A.建立DNA文库、B.建立数据模型、C.建立取代模型、D.建立进化树13、在Genbank数据库中，生物学工作者向其提交数据有两种方式，其中用于提交少量数据的是基于Web方式的（）。A.BankIt、B.Sequin、C.Version、D.Matrix14、序列数据库包括核酸序列数据库和蛋白序列数据库。下列哪个不属于蛋白质序列数据库？（）A.PIR、B.Uniprot、C.SWISS-PROT、D.OMIM15、序列数据库包括核酸序列数据库和蛋白序列数据库。下列哪个不属于核酸列数据库？（）A.Genbank、B.GenPept、C.EMBL、D.DDBJ16、（）是NCBI提供的集成检索工具，通过一次检索可查询NCBI多个子数据库中的相关信息。A.Retrieve、B.SRS、C.Entrez、D.PIR17、Entrez数据库中的剪贴板的容量是（）。A.500条记录、B.1000条记录、C.5000条记录、D.10000条记录18、蛋白质信号肽的预测工具有（）。A.nnpredict、B.PredictProtein、C.SingalD、D.SingalP19、Bioinformatics的含义是（）。A.生物信息学、B.基因组学、C.蛋白质组学、D.表观遗传学20、目前应用于基因芯片表达数据统计分析的主要方法是（）。A.卡方检验、B.相关分析、C.聚类分析、D.正态性分布检验21、NCBI中人类无冗余基因数据库是（）。A.UniGene、B.UniPro、C.UniRef、D.URF22、基本局部比对搜素工具是（）。A.Mega、B.ClustalW、C.BLAST、D.GCG23、根据研究发现，人类基因组中真正编码蛋白质的区域仅占DNA序列的（）。A.1-2%、B.3-5%、C.5-10%、D.10-20%24、被誉为“生物信息学之父”的科学家是（）。A.Dulbecco、B.Sanger、C.吴瑞、D.林华安25、多序列比对工具是（）。A.BLAST、B.ClustalW、C.Mega、D.GCG26、生物芯片分析中使用的聚类分析输出图形主要以下列哪种方式表现？（）A.以彩色小方块阵列表示、B.以蜂窝形状表示、C.以黑白圆点表示、D.以彩色线条表示27、HTGS的含义是（）。A.表达序列标签、B.序列标签位点、C.高通量基因组序列、D.人工合成序列28、accessionnumber的含义是（）。A.登录号、B.算法、C.比对、D.类推29、（）是欧洲分子生物学网EMBLnet的主要检索工具，也是一个开放的数据查询系统。A.Query、B.SRS、C.PDB、D.PIR30、数据挖掘的四个步骤不包括下列哪个.（）A.数据选择、B.数据转换、C.数据记录、D.结果分析三、是非题（16个）1、生物学就是实验科学，所有的研究结论从实验中来，于实验中得到验证。2、比较是科学研究中最常见的方法，在生物信息学研究中，比对是最常用和最经典的研究手段。3、两个蛋白质序列相似性超过30%就是同源蛋白。4、蛋白质序列相似性指一级序列中氨基酸残基相同。5、蛋白质序列相似性指氨基酸残基具有相似特性.侧链基团大小电荷性、疏水性等相同。6、核酸序列相似性指序列中相同碱基所占的比例。7、对一段未知功能DNA片段进行功能预测需对其进行3位翻译。8、对一段未知功能DNA片段进行功能预测需对其进行6位翻译。9、相似性是指一种很直接的数量关系，无需实验验证。10、相似性是指一种很直接的数量关系，也需实验验证。11、不同种属间的同源序列称为直向同源序列。12、不同种属间的同源序列称为共生同源序列。13、所谓局部比对，即分析两个序列是否有局部序列的相似。14、所谓整体比对，即找出两个序列全长的最优比对结果。15、PSI-BLAST是BLAST程序家族中敏感性最高的子程序。16、PHI-BLAST是BLAST程序家族中敏感性最高的子程序。四、问答题（15个）1、生物信息学的发展经历了哪几个阶段2、序列的相似性与同源性有什么区别与联系？3、BLAST套件的blastn、blastp、blastx、tblastn和tblastx子工具的用途什么？4、生物信息学的主要研究领域。5、初级数据库、二级数据库的概念，说出几个数据并说明包含什么数据。6、简述高通量测序的应用范围7、简述系统发生分析步骤8、说出至少一种蛋白质结构数据库和一种可视化工具。9、Entrez集成于哪个数据库平台？主要功能是什么？在应用中可以访问哪些子数据库（请列举5个以上）？10、试述SWISS-PROT中的数据来源11、分子生物网络可以分成哪几类？简单介绍。12、常用的蛋白质互作数据库有哪些？13、试述蛋白质三维结构预测的三类方法14、国际上权威的核酸序列数据库有那些？15、生物分子数据类型有哪些？五、论述题（4个）1、假设你克隆得到了一段未知的DNA序列，从你学习到的生物信息学分析方法和软件，设计一个流程来分析该基因的功能和家族分类。2、BLAST套件的blastn、blastp、blastx、tblastn和tblastx子工具的用途什么？3、谈谈生物信息学在药物设计中的应用4、什么是系统生物学？系统生物学的研究包括哪些环节？