生物信息学课后习题及答案(由10级生技一、二班课代表整理)一、绪论1.你认为,什么是生物信息学?采用信息科学技术,借助数学、生物学的理论、方法,对各种生物信息(包括核酸、蛋白质等)的收集、加工、储存、分析、解释的一门学科。2.你认为生物信息学有什么用?对你的生活、研究有影响吗?(1)主要用于:在基因组分析方面:生物序列相似性比较及其数据库搜索、基因预测、基因组进化和分子进化、蛋白质结构预测等在医药方面:新药物设计、基因芯片疾病快速诊断、流行病学研究:SARS、人类基因组计划、基因组计划:基因芯片。(2)指导研究和实验方案,减少操作性实验的量;验证实验结果;为实验结果提供更多的支持数据等材料。3.人类基因组计划与生物信息学有什么关系?人类基因组计划的实施,促进了测序技术的迅猛发展,从而使实验数据和可利用信息急剧增加,信息的管理和分析成为基因组计划的一项重要的工作。而这些数据信息的管理、分析、解释和使用促使了生物信息学的产生和迅速发展。4简述人类基因组研究计划的历程。通过国际合作,用15年时间(1990-2005)至少投入30亿美元,构建详细的人类基因组遗传图和物理图,确定人类DNA的全部核苷酸序列,定位约10万基因,并对其他生物进行类似研究。1990,人类基因组计划正式启动。1996,完成人类基因组计划的遗传作图,启动模式生物基因组计划。1998完成人类基因组计划的物理作图,开始人类基因组的大规模测序。Celera公司加入,与公共领域竞争启动水稻基因组计划。1999,第五届国际公共领域人类基因组测序会议,加快测序速度。2000,Celera公司宣布完成果蝇基因组测序,国际公共领域宣布完成第一个植物基因组——拟南芥全基因组的测序工作。2001,人类基因组“中国卷”的绘制工作宣告完成。2003,中、美、日、德、法、英等6国科学家宣布人类基因组序列图绘制成功,人类基因组计划的.目标全部实现。2004,人类基因组完成图公布。2.我国自主知识产权的主要基因组测序计划有哪些?水稻(2002),家鸡(2004),家蚕(2007),家猪(2012),大熊猫(2010)二.第一章1、生物信息指哪些?主要有从DNA序列、蛋白质序列、蛋白质结构和功能研究中解读的:遗传信息、进化信息、结构和功能信息。2、基因组测序的基本策略有哪些?逐个克隆法:小片段针对图谱的!!全基因组鸟枪法:大片段-测序-组装3.什么叫contig?Contig:重叠群,基因组测序中将许多序列片段经过比对找到重叠区,从而连接成的长片段。4、生物信息学中最重要的贡献是什么?1970:Needleman和Wunsch提出了著名的序列比对算法,是生物信息学发展中最重要的贡献;5、什么事件大大促进了生物信息学的发展?20世纪90年代后HGP促进生物信息学的迅速发展6、生物信息学研究有什么意义?(1)认识生物本质,了解生物分子信息的组织和结构,破译基因组信息,阐明生物信息之间的关系(2)改变生物学的研究方式(3)改变传统研究方式,引进现代信息学方法(4)在医学上的重要意义为疾病的诊断和治疗提供依据为设计新药提供依据三.第二章1、简述三干六界学说。2.TSS,外显子和内含子的概念。TSS是转录起始位点(TranscriptionStartSite)的英文缩写,是指DNA上一段与RNA聚合酶结合并起始转录的一段DNA序列。真核生物结构基因,由若干个编码区和非编码区互相间隔开但又连续镶嵌而成,去除非编码区再连接后,可翻译出由连续氨基酸组成的完整蛋白质,这些基因称为断裂基因。其中的编码区即为外显子,非编码区即为内含子。3.如何判断起始密码子?内含子?AUG甲硫氨酸(met)内含子(5’-GT……AG-3’)4.蛋白质二级结构有哪些?(1)螺旋(2)b折叠–平行折叠反平行折叠(3)b转角–连接作用”U”型结构(大多Phe,Gly组成)(4)无规卷曲-没有确定规律性的肽链构象,但仍是紧密有序的稳定结构(5)无序结构多肽链中有60%的区段为a螺旋和b折叠5、HGP选择作为研究人类的四大“模式生物“有哪些?酵母、线虫、果蝇、小鼠。6、背诵生物信息数据库中的核苷酸代码?NA或C或G或T(U)V非TSG或CH非GMA或CD非CRA或GB非AWA或T(U)TT(胸腺嘧啶)KG或T(U)GG(鸟嘌呤)YC或T(U)CC(胞嘧啶)UU(尿嘧啶)AA(腺嘌呤)代码核苷酸代码核苷酸NA或C或G或T(U)V非TSG或CH非GMA或CD非CRA或GB非AWA或T(U)TT(胸腺嘧啶)KG或T(U)GG(鸟嘌呤)YC或T(U)CC(胞嘧啶)UU(尿嘧啶)AA(腺嘌呤)代码核苷酸代码核苷酸四.第三章(1)1、下列数据库分别是什么类型的数据库?序列数据库中的核酸数据库(GenBankPIRDDBJSWISS-PROTEMBL)结构数据库(PDB)2、如何查找由RaoY实验室于2005以后发表的,文章主题中与brain有关的文献,写出检索语言。Brain[ti]ANDRaoY[au]AND2005:2013[dp]3、如:我要查找RaoY在Nature或Science上发表的论文,哪一个检索语言是正确的?正确①RaoY[au]AND(Nature[Journal]ORScience[Journal])②RaoY[au]ANDNatureORScience[Journal]③RaoY[au]ANDNature[Journal]ORScience[Journal]④RaoY[au]AND(NatureORScience)[Journal]五.第三章(2)1、简述GenBank数据库中GBFF格式的结构?GenBankflatfile(GBFF)是GenBank数据库的基本信息单位,也是最广泛地用以表示生物序列的格式之一。GBFF可以分成三个部分,头部包含关于整个记录的信息(描述符);第二部分包含了注释这一记录的特性;第三部分是核苷酸序列自身。所有的核苷酸数据库记录(DDBJ/EMBL/GenBank)都在最后一行以//结尾.2、GBFF格式的特性表格式包括哪三个部分?特性表格式包含三个部分:第一,特性关键词(Featurekey);第二,特性位置(Location);第三,限定词(Qualifiers)3、指出下列特殊标识符的格式?①序列辨认号(GI):一串阿拉伯数字②GenBank/EMBL/DDBJ序列接受号:1个字母+5个阿拉伯数字;1个字母+6个阿拉伯数字③RefSeq序列接受号:带“-”mRNA记录(NM*);完整的基因组或染色体(NC*)④PDB序列接受号:1个阿拉伯数字+3个字母4、指出下列GBFF格式中特性表含义?(23.45)..600指明序列特征起始碱基在23和45碱基之间,终止于600号碱基145^177指明145和177碱基之间的某个位点Complement(join(2691..4571,4918..5163))纪录中的特性处于2691至4571碱基以及4918至5163碱基之间的序列相连构成的连续序列的互补链上六.第四章1、这两个序列的cost和score分别是多少?(A)cost2score9(B)cost4score62、在序列比对运算时最终结果是上面哪种运算方式?(A)3、给定一个DNA打分矩阵,假设空位罚分为2,按照以下的打分矩阵,对于下列对齐方案的计分值为多少?ATCGA1-1-1-1T-11-1-1C-1-11-1G-1-1-11GCGACTCGCTTGACT-AGATAGAGACGCT--ACTGTGA***********004、判断题:(1)A序列和B序列的相似性是80%对(2)A序列和B序列的一致性为39.4%对(3)A序列和B序列的同源性是80%错(4)两序列间的相似性越高。它们的同源性就越高错5、名词解释:(1)同源性:两个基因或蛋白质序列具有共同祖先的结论;(2)直系同源:(Orthologous):指不同物种中具有相同功能和共同起源的基因(3)旁系同源(Paralogous):指在同一物种内具有不同功能,但也有共同起源的基因。(4)空位罚分:在一条序列的残基间引入一个空位使得这条序列与第二条序列的相似残基对齐,引入空位的一个数值罚分(分值)称为空位罚分。每个记分矩阵都有默认的空位罚分值(5)空位开放罚分:(Gapopeningpenalty)对起始缺失进行罚分(6)空位延长罚分:(Gapextensionpenalty):当加入一个空位至已存在的空位时的罚分,使得大于一个残基不能对齐或者和空位对齐。(7)PAM:代表可接受点突变,每一百个氨基酸中可接受的点突变。⑻PAM1(1个PAM单位)被定义为每100个残基出现1个被接受的点突变(氨基酸的置换不引起蛋白质功能上的显著变化)(9)PAM250矩阵:这个矩阵是指平均100个残基上固定会发生250次突变。也就是很多残基都发生过一次以上的突变。这种变化数量接近于检测遥远关系的极限。(10)BLOSUM矩阵:BLOSUM矩阵:块替换矩阵,一种氨基酸替换矩阵,以序列片段为基础,它是基于蛋白质模块(Block)数据库而建立起来的,BLOSUM矩阵后面的数字表示构建此矩阵所用的序列的相似程度,如BLOSUM62表示由相似度为62%的序列构建。6、简述PAM矩阵与BLUSUM矩阵的关系(1)两者都在打分系统中使用对数比值;(2)PAM矩阵是基于近相关蛋白家族数据的,并且假设高度相关蛋白的取代概率可以外推到远相关蛋白的概率。BLOSUM矩阵是基于实际观测到的远相关蛋白比对。(3)高值BLOSUM矩阵和低值PAM矩阵最适合于研究高度保守的蛋白;低值BLOSUM矩阵和高值PAM矩阵最适合检测远相关蛋白。(4)一般来说,在局部相似性搜索上,BLOSUM矩阵较PAM要好。对于数据库搜索来说一般选择BLOSUM62矩阵。PAM矩阵可用于寻找蛋白质的进化起源,BLOSUM矩阵用于发现蛋白质的保守域。7.如何选择合适的评分矩阵?一般来说,在局部相似性搜索上,BLOSUM矩阵较PAM要好当比较距离相近的蛋白时,应选择低的PAM或高的BLOSUM矩阵;当比较距离较远的蛋白时,应选择高的PAM或低的BLOSUM矩阵对于数据库搜索来说一般选择BLOSUM62矩阵PAM矩阵可用于寻找蛋白质的进化起源,BLOSUM矩阵用于发现蛋白质的保守域8.掌握下列概念(英文对照):相似性、一致性、同源性、直系同源、旁系同源、空位罚分、空位开放罚分、空位延长罚分、PAM、PAM1、PAM250、9.打分矩阵有哪些?(1)核酸打分矩阵:等价矩阵、BLAST矩阵、转换-颠换矩阵(2)蛋白质打分矩阵:等价矩阵、氨基酸突变代价矩阵(遗传密码矩阵GCM)、疏水矩阵、PAM矩阵、BLOSUM矩阵。1、序列比对分类有哪些?A、双序列比对:两条序列的比对B、多序列比对:三条或以上序列的比对2、简述序列比对两种类型。(1)全局序列比:在全局范围内对两条序列进行比对打分的方法,适合于非常相似且长度近似相等的序列(2)局部序列比对:一种寻找匹配子序列的序列比对方法,适合于一些片段相似而另一些片段相异的序列3、双序列比对方法有哪些?①点阵序列比较(DotMatrixSequenceComparison)②动态规划算法(DynamicProgrammingAlgorithm)③词或K串方法(WordorK-tupleMethods)④贝叶斯统计方法(BayesianStatisticalMethods)4、BasicBLAST有哪些?它们的查询序列类型和数据库类型是怎样的?5、什么是动态规划算法?动态规划算法(DynamicProgrammingAlgorithm)是一种计算方法,它的主要思路是把一个问题分成若干个小问题来解决,在序列比对尤其是双序列比对中非常重要,因为其提供了序列间最优的对位排列。在生物学中应用的两种动态规划算法:Needleman-Wunsch算法(全局比对)和Smith-Waterman算法(局部比对)。6、如何处理BLAST后过少或过多的结果?如何处理过多的结果:限定数据