中科院生物信息学期末考试复习题资料

dzk2112
3 ℃
2019-11-09

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

中科院生物信息学期末考试复习题陈润生老师部分：1.什么是生物信息学，如何理解其含义？为什么在大规模测序研究中，生物信息学至关重要？答：生物信息学有三个方面的含义：1)生物信息学是一个学科领域，包含着基因组信息的获取、处理、存储、分配、分析和解释的所有方面，是基因组研究不可分割的部分。2)生物信息学是把基因组DNA序列信息分析作为源头，破译隐藏在DNA序列中的遗传语言，特别是非编码区的实质；同时在发现了新基因信息之后进行蛋白质空间结构模拟和预测；其本质是识别基因信号。3)生物信息学的研究目标是揭示“基因组信息结构的复杂性及遗传语言的根本规律”。它是当今自然科学和技术科学领域中“基因组、“信息结构”和“复杂性”这三个重大科学问题的有机结合。生物信息学是把基因组DNA序列信息分析作为源头，找到基因组序列中代表蛋白质和RNA基因的编码区；同时阐明基因组中大量存在的非编码区的信息实质，破译隐藏在DNA序列中的遗传语言规律：在此基础上，归纳、整理与基因组遗传信息释放及其调控相关的转录谱和蛋白谱数据，从而认识代谢、发育、分化、进化的规律。同时在发现了新基因信息之后，其还利用基因组中编码区信息进行蛋白空间结构模拟和蛋白功能预测，并将此类信息与生物体和生命过程中的生理生化信息结合，阐明其分子机制，最终进行蛋白、核酸分子设计、药物设计、个体化医疗保健设计。2.如何利用数据库信息发现新基因，基本原理？答：利用数据库资源发现新基因，根据数据源不同，可分2种不同的查找方式：1)从大规模基因组测序得到的数据出发，经过基因识别发现新基因：（利用统计，神经网络，分维，复杂度，密码学，HMM，多序列比对等方法识别特殊序列，预测新ORF。但因为基因组中编码区少，所以关键是“数据识别”问题。）利用大规模拼接好的基因组，使用不同数据方法，进行标识查找，并将找到的可能的新基因同数据库中已有的基因对比，从而确定是否为新基因。可分为：①基于信号，如剪切位点、序列中的启动子与终止子等。②基于组分，即基因家族、特殊序列间比较，Complexityanalysis，NeuralNetwork2)利用EST数据库发现新基因和新SNPs：（归属于同一基因的EST片断一定有overlapping，通过alignment可组装成一完整的基因，但EST片断太小，不存在数据来源，主要是拼接问题）数据来源于大量的序列小片段，EST较短，故关键在正确拼接。方法有基因组序列比对、拼接、组装法等。经常采用SiClone策略。其主要步骤有：构建数据库；将序列纯化格式标准化；从种子库中取序列和大库序列比对；延长种子序列，至不能再延长；放入contig库①构建若干数据库：总的纯化的EST数据库，种子数据库，载体数据库，杂质、引物数据库，蛋白数据库，cDNA数据库；②用所用种子数据库和杂质、引物数据库及载体数据库比对，去除杂质；③用种子和纯化的EST数据库比对④用经过一次比对得到的长的片段和蛋白数据库、cDNA数据库比较，判断是否为已有序列，再利用该大片段与纯化的EST数据库比对，重复以上步骤，直到序列不能再延伸；⑤判断是否为全长cDNA序列。（利用EST数据库：原理：当测序获得一条EST序列时，它来自哪一个基因的哪个区域是未知的（随机的），所以属于同一个基因的不同EST序列之间常有交叠的区域。根据这种“交叠”现象，就能找出属于同一个基因的所有EST序列，进而将它们拼接成和完整基因相对应的全长cDNA序列。而到目前为止，公共EST数据库(dbEST)中已经收集到约800万条的人的EST序列。估计这些序列已覆盖了人类全部基因的95%以上，平均起来每个基因有10倍以上的覆盖率。）3.用蛋白或核酸序列数据库研究生物演化的主要步骤是什么？当前的困难是什么，如何克服？（核酸或氨基酸序列进行进化研究要进行哪些计算步骤？当前遇到什么问题？怎样解决？）答：计算步骤，构建系统进化树，其主要步骤如下：1)序列相似性比较。就是将待研究序列与DNA或蛋白质序列库进行比较，用于确定该序列的生物属性，也就是找出与此序列相似的已知序列是什么。完成这一工作只需要使用两两序列比较算法。常用的程序包有BLAST、FASTA等；2)序列同源性分析。是将待研究序列加入到一组与之同源，但来自不同物种的序列中进行多序列同时比较，以确定该序列与其它序列间的同源性大小。这是理论分析方法中最关键的一步。完成这一工作必须使用多序列比较算法。常用的程序包有CLUSTAL等；3)构建系统进化树。根据序列同源性分析的结果，重建反映物种间进化关系的进化树。为完成这一工作已发展了多种软件包，如PYLIP、MEGA等；4)稳定性检验。为了检验构建好的进化树的可靠性，需要进行统计可靠性检验，通常构建过程要随机地进行成百上千次，只有以大概率（70％以上）出现的分支点才是可靠的。通用的方法使用Bootstrap算法。【(1.序列相似性比较:就是将待研究序列与DNA或蛋白质序列库进行比较，用于确定该序列的生物属性，也就是找出与此序列相似的已知序列是什么，完成这一工作只需要使用两两序列比较算法。常用的序列包有BBLAST、FASTA等；(2.序列同源性分析：将待研究序列加入到一组与之同源，但来自不同物种的序列中进行多序列同时比较，以确定该序列与其他序列间的同源性大小，这是理论分析方法中最关键的一步，完成这一工作必须使用多序列比较算法，常用的程序包有CLUSTAL等；(3.构建系统进化树：根据序列同源性分析的结果，重建反应物种间进化关系的进化树，为完成这一工作，已发展了多种软件包，如PYLIP、MEGA等(4.稳定性检验：为了检验构建好的进化树的可靠性，需要进行统计可靠性检验，通常构建过程要随机地进行成百上千次，只有以大概率（70%以上）出现的分支点才是可靠的。通用的方法使用Bootstrap算法，相应的软件已包括在构建系统进化树所用的软件包当中。】当前的主要困难：是发现了基因的横向迁移（LGT）现象，即进化程度不同的物种间存在着遗传信息基因的传递，如果拿迁移的基因做进化分析就会出错。克服LGT的方法（可能的解决途径）：1)纵向思路：选择垂直进化而来的序列进行研究，即去除横向迁移的数据库，如COG数据库；2)横向思路：发展基于完整基因组构建进化树，即使用全基因组数据库进行基因组水平上的对比；利用生物体的蛋白质组构建进化树。选取特征对比，不同长度的序列字符串进行对比后，对照其genome进行归一化；ORF对比，将allpredictedORF采用COG的分类规则进行分类，再构建进化树4.什么是SNP？为什么SNP的研究是重要的？SNP研究有哪些优点？举出2~3个SNP相关的网站。答：SNP是指单核苷酸多态性，主要是指在基因组水平上由单个核苷酸的变异所引起的DNA序列多态性，代表了基因组水平上遗传密码的变异，由于这种变异很多以单碱基突变的形式出现，因此称为单核苷酸多态性；它反映了不同个体间、正常与异常个体之间基因组上的差别，现在这个概念有所扩大，不限于一个核苷酸的差异。重要性：因为SNP研究是基因组领域理论成果走向应用的关键步骤，是联系基因型和表现型之间关系的桥梁，是研究人类基因组计划走向应用的重要步骤。优点：（1）SNP在基因组中分布相当广泛，使人们有机会发现与各种疾病相关的基因组突变；（2）不直接导致疾病基因表达的SNP，与某些疾病基因相邻，成为重要标记，有助于发现疾病基因（3）从实验操作来看，通过SNP发现疾病相关基因突变，比通过家系发现更加容易。（4）基础研究中非常重要，如对Y染色体SNP分析有重要成果。SNP的特点：1.位点丰富2.具有代表性3.遗传稳定性4.易于进行自动化，规模化分析，缩短了研究时间SNP研究的意义：通过大批量、高通量的SNP的发现与鉴定，人类SNP—Haplotype遗传图谱的构建，在连锁不平衡基础上的关联分析等，有望为人类致命基因的寻找和疾病的防治提供快速和有效的途径，一系列发现和检测SNP的方法，构建图谱的策略，及连锁不平衡和关联分析等技术，正在动植物研究领域中受到广泛的关注，毫无疑问将在分子和群体遗传、动植物育种和生物进化等研究领域中发挥越来越大的作用。SNP相关的一些网站：1)SNPConsortium'sdatabase()2)NCBISNPdatabase将这些数据进行整理，去掉冗余，使每个SNP都是唯一的。此时的SNP被称为referenceSNP或refSNP。（()3)TheHumanGenicBi-AllelicSequencesDatabase(HGBASE)这一数据库收录了人基因组中所有已知的序列变化，包括：SNPs、序列的插入和缺失(Indels)、简单重复序列等。（）4)TheHumanGeneMutationDatabase（HGMD）()5)TheProteinMutantDatabase(PMD)，蛋白突变数据库。收录了蛋白质特定位点的氨基酸突变信息，以及这些突变对蛋白质结构功能的影响。（）6)TheAlleleFrequencyDatabase(ALFRED)：人类群体等位基因频率数据库，什么是系统生物学？系统生物学对生命科学概念上的发展？系统生物学对生物功能实现的理解有何本质变化？系统生物学的研究思路是什么？答：系统生物学是指在系统的层面上研究生命活动。（研究一个生物系统中所有组成成分的构成，以及特定条件下组分间互作关系。）【系统生物学就是自基因组研究以来，各个层次的所有资料和数据（包括基因组测序数据，功能基因组数据，蛋白质三维结构信息以及相互作用的数据等）的整合，以及这些整合数据为基础建立数学模型，再以这些模型模拟仿真研究生命活动的影响之后生命活动的反应以及变化】包含三个相互衔接的组成（三部曲）：整合数据，即整合所有各个层次（DNA水平，RNA水平，蛋白质水平，蛋白质相互作用水平）的信息数据；系统建模，即用这些信息构建描绘生命活动的数学模型；预测未知，即用这个模型预测生命未来的发展及外界干扰后系统的变异（生命活动及外界因素变化对其产生的影响）。学术概念上的发展主要有：传统生物学是从基因组序列到结构，再到功能，而它从各个层次的相互作用到网络，再到功能。与以往不同的是，系统生物学一开始就考虑元件之间的相互作用，把整个生命活动作为网络，考虑其相互作用。1)研究思路的变化：传统的分子生物学研究步骤一般为：DNA序列→蛋白结构→蛋白功能（一维），而系统生物学是在二维的角度研究生命科学，即：相互作用→网络→功能，是由一组基因产生并相互作用共同实现的。2)看待生命活动本质的变化：因为没有一个生命活动是靠一个基因完成的，生命活动是一组基因相互作用实现的，这种相互作用形成一个网络，既包括每个单元的结构，又包括单元与单元之间的相互作用。因此，系统生物学不仅考虑每个基因的活动，还描述了基因间的相互作用并导致了网络的产生。（系统生物学与传统生物学看待生命活动有着本质的不同：系统生物学认为生命活动是由一组基因及其相互作用来实现其过程的，这种相互作用形成了一个网络，既包括每个单元的结构，又包括单元与单元之间的相互作用，因此在考虑结构的过程中考虑其结构间的相互作用，一组一组地研究。而传统的分子生物学考虑的只有结构，是一个一个地去研究。）其对生物功能实现的理解发生了本质性变化：它不仅考虑单个分子而且考虑其间相互作用，把整个生命活动作为一个相互作用的网络来研究其功能，基因组只是网络中的一部分，只有通过相互作用的网络才能体现功能；通过系统地整合生物过程不同阶段的分散数据，如基因组，转录组，蛋白组，代谢组，可以对复杂的生物过程，如折叠、信号传导途径、代谢途径更好