南京工业大学生物信息学期末考试

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

1生工类1301-3《生物信息学》考试说明时间:第17周周五(6月17日)上午3-4节地点:厚学201题型:(开卷)名词解释5题20分,单项选择题10题20分,综合分析题4题60分。重点:可参考以下课后题2.2何为一级数据库?有哪些一级数据库?一级数据库属于档案数据库,库中的主要内容是来源于实验室操作所得到的原始数据结果;一级数据库:核酸序列数据库GenBank、EMBL、DDBJ及蛋白质数据库PDB(proteindatabank)。2.3二级数据库、三级数据库等是指什么样的数据库?二级数据库是在一级数据库的信息基础上进行了计算加工处理并增加了许多人为的注释而构成的。例如,NCBI的RefSeq数据库,其mRNA序列式综合了GenBank中来源于同一物种相同基因的所有Mrna序列信息的一致性序列;而公共数据库中大多数的蛋白质序列是将核苷酸序列中的编码序列区域进行蛋白质翻译后,通过后续的一些计算分析,主观的人为地为序列加上蛋白质产物名称及功能注释。三级数据库:参考书本P16页2.6请查阅资料,了解序列信息的标准数据存放格式:FASTA、NBRF/PIR、GDE和Raw。书10页到11页2.8GenBank数据库中的GenBank条目包含哪些内容?请结合GenBank中的一条具体的序列信息加以说明。书17页到19页2.12蛋白质序列数据库有哪些?书22页2.13Uniprot数据库分哪几个层次?书22页,分为三个层次。一是UniprotKnowledgebase(UniprotKB)它涵盖大量人工注释的蛋白质信息,包括功能、分类以及数据库的交叉引用等;二是UniprotArchive(Uniparc)力图收集最完整、最全面的蛋白质序列数据,不过数据没有加以注释整理,只给出了相关序列的来源;三是UniprotReferenceClusters(UniRef),是将UniParc中的序列数据依据不同的参数条件去除冗余后得到的结果。2.14UniProtKB/SwissProt和UniProtKB/TrEMBL有何关联?书23页SwissProt提供了最全面和可靠的注释信息,被称为是蛋白质序列数据的“黄金标2准”;TrEMBL是为了在不降低SwissProt高水平注释质量的同时,又能使经由测序和翻译获取的蛋白质序列数据得以尽快地发布,作为SwissProt数据库的补充。3.1序列比对在什么情况下选择核苷酸序列?在什么情况选择蛋白质序列?书51页核苷酸序列:在确认给定DNA序列和DNA数据库中的序列的一致性时。在搜索多态性时。在分析所克隆的cDNA片段的一致性时。蛋白质序列:由于蛋白质序列比DNA所含信息多,所以除以上情况外用蛋白质序列。3.2请比较同源性、相似性和一致性三个概念。书51页到53页同源性:是指从某个共同祖先经趋异进化而形成的不同序列,也就是从一些数据中推断出的两个基因在进化上具有共同祖先的结论,是质的判断。一致性:是指两序列在同一位点核苷酸或氨基酸残基完全相同的序列比例。相似性:两序列间直接的数量关系,如部分相同,相似的百分比或其他一些合适的度量。3.4在进化过程中,两条同源蛋白质序列之间会产生分歧的突变有哪些?书P54替换、插入、删除替换:发生于一个突变导致的一种氨基酸的密码子变成另一种氨基酸的密码子时,在比对结果中显示为同一位置上出现两个不同的氨基酸。插入和删除:发生于残基添加或消除时,比对中由一单点表示(.),加在一条或另一条序列中。插入和删除(即使只有一个字符长度)都被认为是比对中的空位3.13查阅资料了解BLAST比对程序家族的主要程序,如何选择?33.15如何寻找远缘相关的蛋白质?PSI-BLAST是位点特异性迭代BLAST,用来寻找远缘相关的蛋白质序列,对于蛋白质的相似序列的寻找比常规blastp更敏感。PSI-BLAST工具的比对步骤为:(1)用blastp在目标数据库中进行比对搜索;(2)从第一步中获得的结果构建多序列对比,根据多序列比对构建一个位点特异性矩阵PSSM;(3)用第二步获得的PSSM矩阵再一次搜索目标数据库;(4)位点特异性反复比对后用缺失比对的参数检验每个匹配的统计显著性;反复执行2~4步,一般要重复5次,而当新的结果不再出现或者程序明确指出不会再有新的结果出现时,可以停止比对循环。3.16如何利用BLAST来发现新基因?(1)用一个已知序列蛋白质开始TBLAST比对,搜索一个DNA数据库;(2)检查结果:寻找与已知蛋白质,相关蛋白质的DNA序列匹配,非显著序列的匹配;(3)进行BLASTXNR或BLASTPNR比对(4)用你新发现的DNA或蛋白质搜索一个蛋白质数据库来证实是否真的发现一个新的基因或蛋白质。4.3什么是外显子?什么是内含子?外显子:是真核生物基因的一部分,他在剪接后仍会被保存下来,并可在蛋白质生物合成过程中被表达为蛋白质。内含子:是一个基因中非编码DNA片段,他分开相邻的外显子。内含子是阻断基因线性表达的序列。44.6基因预测方法有哪些?书本P107基于表达数据的基因预测、基于机器学习方法的基因预测基于表达数据的基因预测方法主要是利用基因产物(包括cDNA、EST以及蛋白质等)反推基因结构。基于机器学习方法的基因预测主要是通过挖掘基因组序列以及各类证据以及各类证据数据信息中蕴含的基因结构特征,并建立数据模型进行基因结构预测。4.7什么是EST序列?如何利用EST序列预测基因?EST:完整mRNA转录物的片段。把来自不同克隆的EST拼接起来形成完整的cDNA弥补其数量缺少的情况利用PASA程序软件将聚类的转录物片段(全长cDNA和EST)拼接成最大对比片段得到完整地或者部分的基因结构,并获得更多的可变剪切的信息5.3什么是系统发生树?在研究生物进化和系统分类中,常用一种类似树状分支的图形来概括各种(类)生物之间的亲缘关系,这种树状分支的图形称为系统发生树。5.5构建系统发生树有哪两类方法?P131一类是基于距离的方法,也直接称为基于距离法另一类是基于字母特征的方法5.8分子系统发生分析常用的软件有哪些?(1)PHYLIP。(2)PAUP。(3)MEGA。(4)TREE-PUZZLE。(5)MrBayes。(6)PhyML。6.1提供了蛋白质结构的检索和查询服务的数据库主要有哪些?PDB数据库、DSSP数据库、HSSP数据库SCOPCATH6.2简要说明四个层次的蛋白质结构。(一)一级结构蛋白质的一级结构(primarystructure)是指多肽链的氨基酸残基的排列顺序。(二)二级结构蛋白质二级结构(secondarystructure)是指多肽链主链原子借助于氢键沿一维方向排列成具有周期性的结构构象,是多肽链局部的空间结构(构象)主要有α螺旋、β折叠、β转角、无规卷曲等形式(三)超二级结构、结构域超二级结构(supersecondarystructure)是指相邻的二级结构单元组合在一起,彼此相互作用,排列形成规则的、在空间结构上能够辨认的二级结构组合体,同时充当三级结构的构件,基本形式有αα、ββ、βαβ等。5(四)三级结构三级结构(tertiarystructure)是指整条多肽链的三维结构,包括骨架和侧链在内的所有原子的空间排列。(五)四级结构e四级结构(quatrnarystructure)指在亚基和亚基之间通过疏水作用等次级键结合成为有序排列的特定的空间结构。6.4PDB收录了哪些实验类型的结构数据?X射线晶图谱法,核磁共振法,电子显微镜二维晶体三维结构6.6蛋白质结构家族分类数据库主要有哪些?SCOP,CATH,FFSP6.8蛋白质结构分析主要包含哪些方面?组织层次、结构测定及预测,蛋白质折叠6.9如何进行蛋白质结构比对?有那些常用的结构比对工具?首先对两个蛋白质结构定义结构相似部分(或称共同子结构);然后通过多次迭代策略来调整共同子结构,直到找出优化的结构比对,即找到两个蛋白质空间上最大的重叠部分。DALI方法、CE方法、STRUCTURAL方法、SSM方法、TM-align方法6.13同源建模方法预测蛋白质结构的基本步骤有哪些?1、模板的选择2、待测序列与模板序列的比对3、同源模型的建立4、同源模型精修和评估7.2常用的蛋白质序列分析和功能预测方法有哪几类?书171页大致分为四类:1.基于序列或结构的分析方法(sequenceandstructurebasedmethods),又称进化方法,这类方法基于全局或局部序列或者结构上的保守性来预测蛋白质功能。2.基于基因组上下文的方法,又称比较基因组方法,分别基于结构融合事件、系统进化特征谱、保守的基因顺序、表达谱以及共调控等预测蛋白质功能。3.基于相互作用的方法,又称细胞方法,利用蛋白质相互作用数据预测功能4.基于过程的方法,又称代谢方法,利用生物化学路径的结构化网络来匹配蛋白质的非典型反应。7.6基于序列相似性预测蛋白质功能的主要依据是什么?其基本步6骤有哪些?P171大致分为四类:1.基于序列或结构的分析方法(sequenceandstructurebasedmethods),又称进化方法,这类方法基于全局或局部序列或者结构上的保守性来预测蛋白质功能。2.基于基因组上下文的方法,又称比较基因组方法,分别基于结构融合事件、系统进化特征谱、保守的基因顺序、表达谱以及共调控等预测蛋白质功能。3.基于相互作用的方法,又称细胞方法,利用蛋白质相互作用数据预测功能4.基于过程的方法,又称代谢方法,利用生物化学路径的结构化网络来匹配蛋白质的非典型反应。7.7已注释的蛋白质序列数据库主要有哪些?P178已注释的蛋白质序列数据库有很多,如SwissProt、TrEMBL、NRDB(nr)、GenPept、PIR-PSD、PIR-NREE、NRL-3D和EXProt等。10.8什么是单核苷酸多态性(SNP)?指分散于基因组中的单个碱基的差异,包括单个碱基的缺失和插入,但更常见的是单个核苷酸的替换。

1 / 6
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功