生物信息名词解释1、相似性:描述序列相关性的量,同源蛋白质总在三维结构上有显著的相似性。2、一致性:描述序列相关性的量,两序列同源时,他们的氨基酸或者核苷酸里通常具有显著的一致性。3、生物信息学:20世纪分子生物学与计算机学交叉产生的新学科,用计算机数据库和计算机算法来分析蛋白质、基因和构成生物体的全部脱氧核糖核酸(基因组)。4、蛋白质组学:对高通量蛋白质数据库进行分析的生物信息学工具与方法。能够大范围的为蛋白质制定功能,确定蛋白质在哪个特殊生理条件下会出现,确定蛋白质之间的作用。5、比较基因学:利用生物在进化上的亲缘关系,给予基因组图谱和测序基础上,对已知的基因和基因组结构进行比较,来了解基因的功能、表达家里和物种进化,来比较他们与人类之间的相似与相异,即比较基因组学。6、同源(直系/旁系):两条序列之间有一个共同的祖先,那么他们就是同源的,直系同源序列是不同物种内的同源序列,来自物种形成的共同祖先基因;旁系同源基因是通过类似基因复制的机制产生的同源序列。7、Blast:基本局部比对搜索工具,NCBI用来将一个蛋白质或DNA序列和各种数据库中其他序列进行比对的主要工具,是研究一个蛋白质或基因的最基本方法之一。8、家族(family):一组金华市相关的共享一个或多个结构域/重复域的蛋白为一个家族。9、结构域(模块)/domain(module):蛋白质中能折叠成特定三维结构的一段区域。10、模体(指纹)/motif(fingerprint):蛋白质序列中较短的保守区域,通常指按一定模式排列的氨基酸残基,通常决定一个家族。11、重复:重复区并不但年度折叠成一个球状的结构域,还包括一些短的重复模体序列。12、PBD数据库:蛋白质和其他大分子结构的仓库,复制搜集蛋白质的结构信息,收录大量蛋白质三维结构文件,记录有原始结构数据,包括院子坐标,配基的化学结构和晶体结构的描述,通过评估模型质量和它们与实验数据的吻合程度来证实结构,目前拥有超过20000个结构记录。13、多序列比对:一组可以部分或整体对齐的蛋白质或核酸序列。相同或相似的氨基酸残基排列在同一列上,这些残基在进化上是同源的,对于关系很近的一组序列很容易产生多序列比对。14、生物信息学数据库:是便于生物学数据的高速积累以及各种生物学信息方便获取的数据库。15、TIGR基因索引:是按数十个物种特异性数据库组织起来的一套EST数据。16、微阵列:有一块固定支持物和附着其上以规则的网格形式排列的序列已知的DNA组成。17、同源性预测:一个基因组被测序后,那些有潜在可能是编码蛋白质的序列被找了出来,如果这些序列中有与EC提供的列表中酶同源的序列,我们可以假设它们与同源酶具有相同或相似的功能。18、隐马模型:是序列比对的一个有力工具,它是一个描述每个位点AA残基出现概率的概率模型。填空1、生物信息学发展经历了哪几个时期:萌芽期、形成期、高速发展期、后基因组时代。2、生物信息学领域的三个视角:细胞、单个生物体、生命之树。3、专门BLAST比对的网站有哪些分类及举例:NCBI、ENSEMBL、TIGB。4、BLAST搜索的策略:将搜索限制在一个物种、更改打分矩阵来找很远的同源关系、更改空位罚分。5、从Unigene获取信息的方法:电子RNA印记法、cDNA文库的电子扣除。6、细胞通路数据库有哪些:ECOCYC/METACYE数据库、KEGG数据库、DRAGON数据库。7、基因表达的步骤:转录、RNA加工、mRNA转运、RNA监控。8、基因表达的研究对象:mRNA。9、多重比对数据库资源有:Pfam、SMART、保守结构域数据库、BLOCKS、PRINTSPROSITE、综合的多重比对资源、PopSet、多序列比对编辑:手工与自动。简答题1、序列比对的定义和意义基因和蛋白质的相关性分析是又序列比对来完成的,完成基因组测序后,寻找物种内和物种间蛋白质的相关性对我们理解生命来说越来越重要。2、生物信息学数据库的类型GenBank、DDBJ、EBI,还包括:(1)提供人类基因组和其他基因组注视的数据库;(2)存储特定基因或蛋白质的核酸或蛋白质序列数据库;(3)有一系列数据库记录了共享某种性质的序列和信息;(4)有上百个数据库存储了和人类疾病相关的疾病相关基因突变的序列信息;(5)许多数据库是针对特别的物种而设计;(6)一些数据库记录了特殊类型的核酸或蛋白质或者和这些大分子有关的某种性质的数据;(7)有些数据库存储的核酸或蛋白质序列不是公开的;(8)问下数据库存储了生物学研究的参考信息和文献,部分还提供了全文的链接;(9)结构数据库记录了蛋白质和其他大分子的结构信息3、蛋白质与DNA比对哪个更有意义?蛋白质(1)DNA序列的许多改变不会改变对应的氨基酸;(2)氨基酸的相似理化性质在比对时可以用同一打分系统来描述其相关性,在这方面DNA提供的信息较少;(3)蛋白质序列比对能确定来自各物种的同源序列(10亿年),DNA序列在一般情况下最多回溯到6亿年前;(4)分析一个核苷酸编码序列时很容易将DNA换成蛋白质。4、什么时候需要使用DNA比对?在确认给定DNA序列和DNA数据库中的序列一致性,在搜索多态性时,在分析所克隆的cDNA片段的一致性时,或者在其他许多情况下,核苷酸的比较就显得重要。5、PAMBlosum矩阵及其关系(1)Blosum矩阵是大多数BLAST算法的缺省矩阵,其取代频率对一致性62%的蛋白质系列的权重很大,用于评价一致性62%的蛋白质对检测仅有微弱打分的比对特别有用;(2)PAM与Blosum都在打分系统中使用对数比值;(3)PAM是基于近相关蛋白家族数据的,并假设高度相关蛋白的取代概率,可以外推远相关蛋白的概率;(4)Blosum是基于实际观察到的远相关蛋白比对;(5)高值Blosum和低值PAM适合于研究高度保守的蛋白,低值Blosum和高值PAM适合于检测远相关蛋白。6、Needleman-Wunsch算法的原理能参赛蛋白质和DNA最优化必会,允许引入间隙。该算法结果是最优化的,但没有穷举所有可能的比对。(1)设置一个矩阵,在一个二维矩阵中比较两条序列;(2)给矩阵打分,确定一个最佳比对;(3)确定最佳比对。矩阵赋值完后可以通过一回溯方法确定比对。最佳路径是通过最佳子路径得到的。总目标是沿矩阵对角线找的一条获得最大分值的路径,这条露酒确定最佳比对。7、Smith-waterman两种算法的原理两条蛋白质和DNA序列部分比对的最严格算法,比对的是蛋白质的结构域而不是整条序列。与全局比对相似,两条蛋白质排在一个矩阵中,沿着对角线搜索最佳路径,但中间某点开始比对不存在罚分情况,比对不需要延至序列两端。8、Fasta算法的四个步骤(1)生成一个查询表,包括数据库中最短的氨基酸和核苷酸片段,片段长度有参数KTUP决定,对于一个给定的KTUP值产生10个最高分值的片段;(2)对这10个匹配区域重新打分,允许有保守性替换,打分中使用打分矩阵;(3)属于统一蛋白质的高分值区域连在一起;(4)在高分值序列上执行全局或局部比对,优化查询序列和数据库匹配序列的比对。9、Blast算法步骤(1)选择比对工具:蛋白质用BLASTP,DNA用BLASTN;(2)输入序列或者它们的ACCESSIONNUMBERS;(3)选择参数:打分矩阵,改变间隙产生和延长的罚分,改变奖励和罚分值,期望值,过滤和截断值等等;(4)点击ALIGN,选择了合适的打分矩阵和间隙罚分,只有一个比对返回。10、显著性检验的指标(1)敏感性:搜索算法发现真阳性的能力,为真阳性和假阴性的和;(2)特异性:搜索算法发现不显著相关序列的能力,为真阴性初一真阴性与假阳性的和。11、Blast的应用(意义与作用)①确定特定蛋白质或核酸序列有哪些已知的直系同源或旁系同源序列;②确定哪些蛋白质和基因在特定物种中出现;③确定一个DNA或蛋白质序列的身份;④发现新基因;⑤确定一个特定基因或者蛋白质有哪些已经发现了的变种;⑥研究可能存在多种剪接方式的表达序列标签;⑦寻找对于一个蛋白质的功能和结构起关键作用的氨基酸残基。12、Blast搜索步骤选择一个序列,粘贴到BLAST的输入框中。选择一个BLAST程序。选择一个用于搜索的数据库。为搜索和输出格式选择可选参数。BLAST,后点击FORMAT,得到结果。13、BLAST的算法组成①列表:编辑高于域值的字段(W=3)列表,查询序列得出字段,与查询匹配的字段列表。②扫描:在书库中扫描与编辑列表匹配的记录。③延伸:向两端延伸匹配序列,直到分数下降。14、e值及特点表示期望值,即在一次数据库搜索中随机条件下期望发生的得分等于或优于S的不同比对的数目。提供一个对于BLAST搜索中假阳性结果的估计。E=Kmne-*s。特点:①随着S的增加呈指数下降。②比对一个随机的氨基酸对的期望分数必须是负的。③数据库的大型以及查询序列长度将影响某个特定比对随机发生的可能性。15、原始分与比特分比较原始分数是又所选择的代替矩阵和空位罚分参数计算得到,比特分是又原始分数通过用描述指定的打分系统的统计变量进行归一化处理后得到的,16、e值与P值的关系P值和E值是反映比对显著性的两种不同的方式,,但是BLAST结果只列出E值而不是P值。17、怎样评估结果的显著性E值比对情况①期望值是不是显著;②两个蛋白质是不是具有近似的大小;③两个蛋白质是否有共同的模体或信号序列;④两个蛋白质是不是一个合理的多序列比对的一部分;⑤两个蛋白质是否有一个相似的生物学功能;⑥两个蛋白质是否具有相似的三维结构。18、评价结果过多或过少的处理过多:①在Limitbyentrezquery窗口输入Refseq;②利用生物体的种类对数据库反馈结果做出限制;③利用序列的一部分进行搜索;④调整打分矩阵使其更恰当地体现你的QUERY和数据库匹配项之间的相似度;⑤调整期望值。过少:①去掉ENTREZ限制;②提高期望值;③尝试更高PAM值或更低SLOSUM值的打分矩阵。19、基因组的BLAST分析可以解决哪些问题①运用比对相似的工具快速地搜索基因组DNA序列;②寻找远缘相关的蛋白质;③模式识别BLAST:判断这个电子属于哪个家族;④发现新基因。20、位点特异性显著比较的5个步骤①常规的BLASTP在目标数据库中进行比对搜索;②从结果中构建多序列比对,为每个比对建立一个专门的搜索矩阵;③用得到的定点评分矩阵再一次搜索原来的数据库;④比对后用缺少比对的参数检验每个匹配的统计显著性;⑤重复2到4步,一般重复5次,当新结果不再出现或者程序明确指出不会有新结果出现时,可以停止比对循环。21、PIS-blast错误问题及解决方法出现错误的最主要问题在于不断找到一些无关的假阳性序列,特别是蛋白质含有高度偏好性氨基酸组成的时候这个问题可能更严重。解决方法:①运用一个过滤算法将偏好性氨基酸区域去除掉;②将阈值从默认设置调整为一个较低的值;③能用肉眼来检查每一次PIS-blast循环。22、怎样通过BLAST发现新的基因①用一个已知序列的蛋白质开始TBLAST比对,搜索一个DNA数据库;②检查结果:寻找与已知蛋白质,相关蛋白质的DNA序列匹配,非显著序列的匹配;③进行BLASTXNR或BLASTPNR比对;④用你新发现的DNA或蛋白质搜索一个蛋白质数据库来证实是否真的发现一个新的基因或蛋白质。23、基因表达调控的几种基本方式①组织部位的差别;②不同的发育阶段;③对环境信号的动态响应;④处于疾病状态;⑤基因活性。24、基因表达的研究方法①通过产生表达序列标记构建CDNA文库,并可在UNIGENE中进行电子比较;②基因表达序列分析是另一种可比较转录产物丰度的技术,也可以做电子方式的研究;③复杂的CDNA混合物可以被放射性或荧光标记,并在含有CDNA或对于数千个基因的寡核苷酸的DNA微阵列上杂交。25、用CDNA文库解释基因表达数据的缺陷①选择建立什么文库有研究者决定,所以可能会较多偏向较熟悉的组织,较少偏向不寻常组织;②一个文库被测序的程度影响其对原细胞或组织内容的代表能力;③有一种偏离