生物信息学,一、名词解释:1、生物信息学:生物分子信息的获取、存贮、分析和利用;以数学为基础,应用计算机技术,研究生物学数据的科学。2、相似性(similarity):两个序列(核酸、蛋白质)间的相关性。3、同源性(homology):生物进化过程中源于同一祖先的分支之间的关系。4、同一性(identity):两个序列(核酸、蛋白质)间未发生变异序列的关系。5、序列比对(alignment):为确定两个或多个序列之间的相似性以至于同源性,而将它们按照一定的规律排列。6、生物数据库检索(databasequery,数据库查询):对序列、结构以及各种二次数据库中的注释信息进行关键词匹配查找。7、生物数据库搜索(databasesearch):通过特定序列相似性比对算法,找出核酸或蛋白质序列数据库中与待检序列具有一定程度相似性的序列。二、简答题:1、分子生物学的三大核心数据库是什么?它们各有何特点?GenBank核酸序列数据库;SWISS-PROT蛋白质序列数据库;PDB生物大分子结构数据库;2、简述生物信息学的发生和发展。20世纪50年代,生物信息学开始孕育;20世纪60年代,生物分子信息在概念上将计算生物学和计算机科学联系起来;20世纪70年代,生物信息学的真正开端;20世纪70年代到80年代初期,出现了一系列著名的序列比较方法和生物信息分析方;20世纪80年代以后,出现一批生物信息服务机构和生物信息数据库;20世纪90年代后,HGP促进生物信息学的迅速发展。3、生物信息学的主要方法和技术是什么?数学统计方法;动态规划方法;机器学习与模式识别技术;数据库技术及数据挖掘;人工神经网络技术;专家系统;分子模型化技术;量子力学和分子力学计算;生物分子的计算机模拟;因特网(Internet)技术4、常见的DNA测序方法有哪些?各有何技术特点和优缺点?Maxam-GilbertDNA化学降解法:优点:可测完全未知序列及CG富含区;缺点:操作繁琐;Sanger双脱氧链终止法:优点:简便,可测较长片段;缺点:需已知部分序列或加接头;焦磷酸测序:优点:廉价、高通量;缺点:一次测序片段短。5、分子生物学数据库有哪些类型?各有何特点?基因组数据库:基因组测序核酸序列数据库:核酸序列测定一次数据库:蛋白质序列数据库:蛋白质序列测定。生物大分子(蛋白质)三维结构数据库:X-衍射和核磁共振特点:数量少,容量大,更新快二次数据库:上述四类数据库和文献资料为基础构建特点:数量多,容量小,更新慢6、简述NCBIEntrez系统的功能。高级检索系统;查找核酸、蛋白、文献、结构、基因组序列、大分子三维结构、突变数据、探针序列、单核苷酸多态性等数据。7、简述NCBIBLAST的功能和种类。序列相似性比对工具;对核酸:普通blastn,对高度相似序列megablast;对蛋白质:普通blastp,对保守域rpsblast;对人工翻译序列:核酸翻译序列对蛋白质序列blastx,蛋白质对翻译序列tblastn,核酸翻译序列对翻译序列tblastx;其它:基因组blast,基因表达序列搜索GEOblast,序列两两比对……三、论述题:1、什么是生物信息学?生物信息学有哪些主要应用领域?生物分子信息的获取、存贮、分析和利用;以数学为基础,应用计算机技术,研究生物学数据的科学。生物分子数据的收集与管理;数据库搜索及序列比较;基因组序列分析;基因表达数据的分析与处理;蛋白质结构预测。2、生物信息学在医药领域有什么应用?辅助诊断(遗传病,HLA分型);研究药物作用机制,辅助新药物开发和制造。3、人类基因组计划中主要使用的那些生物信息学手段?它们对人类基因组计划发挥了哪些重大作用?单一测序结果判读;contig和chromosome拼接;识别基因区及其调控区;寻找基因相互作用的时空关系;4、试述蛋白质二级结构预测的主要策略和方法。策略:目标:判断每一段中心的残基是否处于a螺旋、b折叠、b转角(或其它状态)之一的二级结构态,即三态。a、理论分析法(从头计算法):通过理论计算(分子力学、分子动力学等)进行结构预测。优点:不需要经验数据,由一级结构推测高级结构缺点:天然和未折叠蛋白间能级差很小(kcal/mol);蛋白质可能的构想空间庞大,针对蛋白质折叠的计算量巨大;计算模型中力场参数不准确。b、统计方法:对已知结构的蛋白质进行统计分析,建立序列到结构的映射模型,进而根据映射模型对未知结构的蛋白质直接从氨基酸预测结构。c经验性方法:根据一定序列形成一定结构的倾向进行结构预测。通过对已知结构的蛋白质进行统计分析,发现各种氨基酸形成不同二级结构的倾向,从而形成一系列关于二级结构预测的规律。d结构规律提取方法:从蛋白质结构数据库中提取关于蛋白质结构形成的一般性规律,指导建立未知结构的蛋白质模型。e同源模型化方法:通过同源序列分析或模式匹配,预测蛋白质的空间结构或结构单元。方法:1、Chou-Fasman方法;(基于单个氨基酸残基统计的经验参数方法,由Chou和Fasman在20世纪70年代提出来。通过统计分析,获得每个残基出现于特定二级结构构象的倾向性因子,进而利用这些倾向性因子预测蛋白质的二级结构。)2GOR方法;(是一种基于信息论和贝叶斯统计学的方法GOR将蛋白质序列当作一连串的信息值来处理;GOR方法不仅考虑被预测位置本身氨基酸残基种类的影响,而且考虑相邻残基种类对该位置构象的影响)3、基于氨基酸疏水性的方法;4、最邻近方法;5、人工神经网络方法;6、综合方法:7、利用进化信息预测蛋白质的二级结构。1.生物信息学:1)生物信息学包含了生物信息的获取、处理、分析、和解释等在内的一门交叉学科;2)它综合运用了数学、计算机学和生物学的各种工具来进行研究;3)目的在于阐明大量生物学数据所包含的生物学意义。2.BLAST(BasicLocalAlignmentSearchTool)直译:基本局部排比搜索工具意译:基于局部序列排比的常用数据库搜索工具含义:蛋白质和核酸序列数据库搜索软件系统及相关数据库3.PSI-BLAST:是一种迭代的搜索方法,可以提高BLAST和FASTA的相似序列发现率。4.一致序列:这些序列是指把多序列联配的信息压缩至单条序列,主要的缺点是除了在特定位置最常见的残基之外,它们不能表示任何概率信息。5.HMM隐马尔可夫模型:一种统计模型,它考虑有关匹配、错配和间隔的所有可能的组合来生成一组序列排列。(课件定义)是蛋白质结构域家族序列的一种严格的统计模型,包括序列的匹配,插入和缺失状态,并根据每种状态的概率分布和状态间的相互转换来生成蛋白质序列。6.信息位点:由位点产生的突变数目把其中的一课树与其他树区分开的位点。7.非信息位点:对于最大简约法来说没有意义的点。8.标度树:分支长度与相邻节点对的差异程度成正比的树。9.非标度树:只表示亲缘关系无差异程度信息。10.有根树:单一的节点能指派为共同的祖先,从祖先节点只有唯一的路径历经进化到达其他任何节点。11.无根树:只表明节点间的关系,无进化发生方向的信息,通过引入外群或外部参考物种,可以在无根树中指派根节点。12.注释:指从原始序列数据中获得有用的生物学信息。这主要是指在基因组DNA中寻找基因和其他功能元件(结构注释),并给出这些序列的功能(功能注释)。13.聚类分析:一种通过将相似的数据划分到特定的组中以简化大规模数据集的方法。14.无监督分析法:这种方法没有内建的分类标准,组的数目和类型只决定于所使用的算法和数据本身的分析方法。15.有监督分析法:这种方法引入某些形式的分类系统,从而将表达模式分配到一个或多个预定义的类目中。16.微阵列芯片:将探针有规律地排列固定于载体上,与标记荧光分子的样品进行杂交,通过扫描仪扫描对荧光信号的强度进行检测,从而迅速得出所要的信息。17.虚拟消化:是基于已知蛋白序列和切断酶的特异性的情况下进行的理论酶切(课件定义)。是在已知蛋白质序列和蛋白外切酶之类切断试剂的已知特异性的基础上,由计算机进行的一种理论上的蛋白裂解反应。18.质谱(MS)是一种准确测定真空中离子的分子质量/电荷比(m/z)的方法,从而使分子质量的准确确定成为可能。质谱分析的两个工具19.分子途径是指一组连续起作用以达到共同目标的蛋白质。20.虚拟细胞:一种建模手段,把细胞定义为许多结构,分子,反应和物质流的集合体。21.先导化合物:是指具有一定药理活性的、可通过结构改造来优化其药理特性而可能导致药物发现的特殊化合物。就是利用计算机在含有大量化合物三维结构的数据库中,搜索能与生物大分子靶点匹配的化合物,或者搜索能与结合药效团相符的化合物,又称原型物,简称先导物,是通过各种途径或方法得到的具有生物活性的化学结构22.权重矩阵(序列轮廓):它们表示完全结构域序列,多序列联配中每个位点的氨基酸都有分值,并且特定位置插入或缺失的可能性均有一定的衡量方法(课件定义)。基础上针对特定的应用目标而建立的数据库。23.系统发育学(phylogenetic):确定生物体间进化关系的科学分支。24.系统生物学(systemsbiology):是研究一个生物系统中所有组分成分(基因、mRNA、蛋白质等)的构成以及在特定条件下这些组分间的相互关系,并分析生物系统在一定时间内的动力学过程25.蛋白质组(proteome):是指一个基因组、一种生物或一个细胞/组织的基因组所表达的全套蛋白质。26.ESI电喷雾离子化:一种适合大分子如蛋白质离子化没有明显降解的质谱技术。二.填空题1.常用的三种序列格式:NBRF/PIR,FASTA和GDE2.初级序列数据库:GenBank,EMBL和DDBJ3.蛋白质序列数据库:SWISS-PROT和TrEMBL4.提供蛋白质功能注释信息的数据库:KEGG(京都基因和基因组百科全书)和PIR(蛋白质信息资源)5.目前由NCBI维护的大型文献资源是PubMed6.数据库常用的数据检索工具:Entrez,SRS,DBGET7.常用的序列搜索方法:FASTA和BLAST8.高分值局部联配的BLAST参数是HSPs(高分值片段对),E(期望值)9.多序列联配的常用软件:Clustal10.蛋白质结构域家族的数据库有:Pfam,SMART11.系统发育学的研究方法有:表现型分类法,遗传分类法和进化分类法12.系统发育树的构建方法:距离矩阵法,最大简约法和最大似然法13.常用系统发育分析软件:PHYLIP14.检测系统发育树可靠性的技术:bootstrapping和Jack-knifing15.原核生物和真核生物基因组中的注释所涉及的问题是不同的16.检测原核生物ORF的程序:NCBIORFfinder17.测试基因预测程序正确预测基因的能力的项目是GASP(基因预测评估项目)18.二级结构的三种状态:α螺旋,β折叠和β转角19.用于蛋白质二级结构预测的基本神经网络模型为三层的前馈网络,包括输入层,隐含层和输出层20.通过比较建模预测蛋白质结构的软件有SWISS-PDBVIEWER(SWISS—MODEL网站)21.蛋白质质谱数据搜索工具:SEQUEST22.分子途径最广泛数据库:KEGG23.聚类分析方法,分为有监督学习方法,无监督学习方法24.质谱的两个数据库搜索工具:SEQEST和Lutkefish三.问答题1.FASTA序列格式第一行以“”开头但并没有指明是蛋白质还是核酸序列。后跟代码,接着是注释(在同一行),通常注释要以“|”符号相隔,第一行没有长度限制。值得注意的是FASTA文件允许以小写字母表示氨基酸。文件扩展名为“.fasta”。(NBIR/PIR序列格式第一行以“”开头,后面紧跟两字母编码(P1代表蛋白质序列,N1代表核酸),再接一个分号,分号后紧跟序列标识号。后面是说明行,该行可长可短,没有长度限制。接下来是序列本身,以“*”号终止。文件的扩展名为“.pir”或“.seq”。GDE序列格式与FASTA的格式基本相同,但行首为“%”,文件扩展名为“.gde”。)2.BLAST的五个子程序程序查询序列数