中科院生物信息学期末考试复习题陈润生老师部分:1.什么是生物信息学,如何理解其含义?为什么在大规模测序研究中,生物信息学至关重要?答:生物信息学有三个方面的含义:1)生物信息学是一个学科领域,包含着基因组信息的获取、处理、存储、分配、分析和解释的所有方面,是基因组研究不可分割的部分。2)生物信息学是把基因组DNA序列信息分析作为源头,破译隐藏在DNA序列中的遗传语言,特别是非编码区的实质;同时在发现了新基因信息之后进行蛋白质空间结构模拟和预测;其本质是识别基因信号。3)生物信息学的研究目标是揭示“基因组信息结构的复杂性及遗传语言的根本规律”。它是当今自然科学和技术科学领域中“基因组、“信息结构”和“复杂性”这三个重大科学问题的有机结合。2.如何利用数据库信息发现新基因,其算法本质是什么?答:利用数据库资源发现新基因,根据数据源不同,可分2种不同的查找方式:1)从大规模基因组测序得到的数据出发,经过基因识别发现新基因:(利用统计,神经网络,分维,复杂度,密码学,HMM,多序列比对等方法识别特殊序列,预测新ORF。但因为基因组中编码区少,所以关键是“数据识别”问题。)利用大规模拼接好的基因组,使用不同数据方法,进行标识查找,并将找到的可能的新基因同数据库中已有的基因对比,从而确定是否为新基因。可分为:①基于信号,如剪切位点、序列中的启动子与终止子等。②基于组分,即基因家族、特殊序列间比较,Complexityanalysis,NeuralNetwork2)利用EST数据库发现新基因和新SNPs:(归属于同一基因的EST片断一定有overlapping,通过alignment可组装成一完整的基因,但EST片断太小,不存在数据来源,主要是拼接问题)数据来源于大量的序列小片段,EST较短,故关键在正确拼接。方法有基因组序列比对、拼接、组装法等。经常采用SiClone策略。其主要步骤有:构建数据库;将序列纯化格式标准化;从种子库中取序列和大库序列比对;延长种子序列,至不能再延长;放入contig库①构建若干数据库:总的纯化的EST数据库,种子数据库,载体数据库,杂质、引物数据库,蛋白数据库,cDNA数据库;②用所用种子数据库和杂质、引物数据库及载体数据库比对,去除杂质;③用种子和纯化的EST数据库比对④用经过一次比对得到的长的片段和蛋白数据库、cDNA数据库比较,判断是否为已有序列,再利用该大片段与纯化的EST数据库比对,重复以上步骤,直到序列不能再延伸;⑤判断是否为全长cDNA序列。(利用EST数据库:原理:当测序获得一条EST序列时,它来自哪一个基因的哪个区域是未知的(随机的),所以属于同一个基因的不同EST序列之间常有交叠的区域。根据这种“交叠”现象,就能找出属于同一个基因的所有EST序列,进而将它们拼接成和完整基因相对应的全长cDNA序列。而到目前为止,公共EST数据库(dbEST)中已经收集到约800万条的人的EST序列。估计这些序列已覆盖了人类全部基因的95%以上,平均起来每个基因有10倍以上的覆盖率。)3.用蛋白或核酸序列数据库研究生物演化的主要步骤是什么?当前的困难是什么,如何克服?答:计算步骤,构建系统进化树,其主要步骤如下:(1.序列相似性比较:就是将待研究序列与DNA或蛋白质序列库进行比较,用于确定该序列的生物属性,也就是找出与此序列相似的已知序列是什么,完成这一工作只需要使用两两序列比较算法。常用的序列包有BBLAST、FASTA等;(2.序列同源性分析:将待研究序列加入到一组与之同源,但来自不同物种的序列中进行多序列同时比较,以确定该序列与其他序列间的同源性大小,这是理论分析方法中最关键的一步,完成这一工作必须使用多序列比较算法,常用的程序包有CLUSTAL等;(3.构建系统进化树:根据序列同源性分析的结果,重建反应物种间进化关系的进化树,为完成这一工作,已发展了多种软件包,如PYLIP、MEGA等(4.稳定性检验:为了检验构建好的进化树的可靠性,需要进行统计可靠性检验,通常构建过程要随机地进行成百上千次,只有以大概率(70%以上)出现的分支点才是可靠的。通用的方法使用Bootstrap算法,相应的软件已包括在构建系统进化树所用的软件包当中。当前的主要困难:是发现了基因的横向迁移(LGT)现象,即进化程度不同的物种间存在着遗传信息基因的传递,如果拿迁移的基因做进化分析就会出错。克服LGT的方法(可能的解决途径):1)纵向思路:选择垂直进化而来的序列进行研究,即去除横向迁移的数据库,如COG数据库;2)横向思路:发展基于完整基因组构建进化树,即使用全基因组数据库进行基因组水平上的对比;4.什么是SNP?为什么SNP的研究是重要的?SNP研究有哪些优点?举出2~3个SNP相关的网站。答:SNP是指单核苷酸多态性,主要是指在基因组水平上由单个核苷酸的变异所引起的DNA序列多态性,代表了基因组水平上遗传密码的变异,由于这种变异很多以单碱基突变的形式出现,因此称为单核苷酸多态性;它反映了不同个体间、正常与异常个体之间基因组上的差别,现在这个概念有所扩大,不限于一个核苷酸的差异。重要性:因为SNP研究是基因组领域理论成果走向应用的关键步骤,是联系基因型和表现型之间关系的桥梁,是研究人类基因组计划走向应用的重要步骤。优点:(1)SNP在基因组中分布相当广泛,使人们有机会发现与各种疾病相关的基因组突变;(2)不直接导致疾病基因表达的SNP,与某些疾病基因相邻,成为重要标记,有助于发现疾病基因(3)从实验操作来看,通过SNP发现疾病相关基因突变,比通过家系发现更加容易。(4)基础研究中非常重要,如对Y染色体SNP分析有重要成果。SNP相关的一些网站:1)SNPConsortium'sdatabase()2)NCBISNPdatabase将这些数据进行整理,去掉冗余,使每个SNP都是唯一的。此时的SNP被称为referenceSNP或refSNP。(()3)TheHumanGenicBi-AllelicSequencesDatabase(HGBASE)这一数据库收录了人基因组中所有已知的序列变化,包括:SNPs、序列的插入和缺失(Indels)、简单重复序列等。()4)TheHumanGeneMutationDatabase(HGMD)()5.什么是系统生物学?系统生物学对生命科学概念上的发展?系统生物学对生物功能实现的理解有何本质变化?系统生物学的研究思路是什么?答:系统生物学是指在系统的层面上研究生命活动,包含三个相互衔接的组成:整合数据,即整合所有各个层次(DNA水平,RNA水平,蛋白质水平,蛋白质相互作用水平)的信息数据;系统建模,即用这些信息构建描绘生命活动的数学模型;预测未知,即用这个模型预测生命未来的发展及外界干扰后系统的变异。学术概念上的发展主要有:传统生物学是从基因组序列到结构,再到功能,而它从各个层次的相互作用到网络,再到功能。与以往不同的是,系统生物学一开始就考虑元件之间的相互作用,把整个生命活动作为网络,考虑其相互作用。看待生命活动本质的变化:因为没有一个生命活动是靠一个基因完成的,生命活动是一组基因相互作用实现的,这种相互作用形成一个网络,既包括每个单元的结构,又包括单元与单元之间的相互作用。因此,系统生物学不仅考虑每个基因的活动,还描述了基因间的相互作用并导致了网络的产生。研究思路的变化:传统的分子生物学研究步骤一般为:DNA序列→蛋白结构→蛋白功能(一维),而系统生物学是在二维的角度研究生命科学,即:相互作用→网络→功能,是由一组基因产生并相互作用共同实现的。系统生物学的研究思路(研究流程):1.针对选定生物系统进行实验设计,了解系统所有组成成分:基因,RNA,蛋白,膜脂等2.通过系统行为动力学分析,总结系统设计和控制规律3.通过总结规律来提出新的实验设计,验证系统模拟的正确性6.(1)什么是非编码序列,非编码RNA,非编码基因?(2)以人的基因组为例回答:在基因组中有多少非编码序列,有多少存在转录本,举2~3个非编码核酸的生物学功能?答:(1)非编码序列是基因组中不编码蛋白质和多肽的序列;(基因组中不归属于基因调控元件,稳定元件之外的,也无明确生物学功能意义的基因序列统称为非编码序列,即不编码蛋白质同时也无明确生物学功能的序列)非编码RNA是指来自基因组的非编码的转录元件,即基因组中非编码序列的转录本;非编码基因指那些具有明确生物学功能的非编码RNA在基因组上非编码序列上的位置,即功能性的非编码RNA对应基因组上的位置称为非编码基因;(2)人类基因组中97~98%的序列是非编码序列,有70%~80%存在转录本,非编码核酸的生物学功能:1)Xist:X-inactivation(X染色体失活)是哺乳动物的一种剂量补偿机制,其中一半拷贝转录被抑制从而失活,抑制转录是通过一个2kb的非编码RNA(XistRNA)实现的,xistRNA装配在失活X染色体的外侧,引起结构改变导致失活;2)SmallRNAandRNAi:RNAi是由RNA(siRNA、microRNA)导致的转录后基因沉默现象,如由双链小RNA引起的干扰和转录后基因沉默现象,在植物病毒抗性和线虫中的转座子沉默;一些小核RNA调控基因转录。(单链易降解,但发现细胞中存在另一种pathway,双链小RNA进入细胞后结合组蛋白形成复合体,该复合体和识别并降解target)3)piRNA(具有大量转录本,功能不详)和Prions(生物复杂度到一定程度后会出现发病情况,可能和非编码RNA有关)等。7.精准医学的重大意义是什么?实现精准医学的重要基础是什么?精准医学的重大意义;精准医学有可能导致医疗体系本质上的转变,把目前的医疗体系由诊断治疗过渡到健康保障,使得健康体系的关口前移,有可能产生新兴产业。健康人可以通过组学等一系列研究,对现在的健康作以评估。在健康检查的基础上,对未来可能导致疾病的部分进行干预,使得能够延缓疾病的发生,或者排除某些疾病的发生,使得健康得以保障。实现精准医学的重要基础:1.必须获取分子水平上的数据信息,并挖掘其内涵,在挖掘组学数据时,一定要使用大数据分析技术,因此是大数据与组学的交汇。组学包括基因组,转录组,蛋白质组,代谢组;大数据包括人群和队列2.建立分子水平上的知识与宏观疾病表型的联系,即基因型和表型的关联,搭建分子水平信息和疾病间的桥梁,在搭建桥梁时,生物信息学,生物网络,系统生物学的知识是其核心知识。3.在此基础上,融合临床检验,影像学等指标,使得医学做得更加精准。【定义:精准医学是以个体化医疗为基础、随着基因组测序技术快速进步以及生物信息与大数据科学的交叉应用而发展起来的新型医学概念与医疗模式。本质上:是通过基因组、蛋白质组等组学技术和医学前沿技术,对于大样本人群与特定疾病类型进行生物标志物的分析与鉴定、验证与应用,从而精确寻找到疾病的原因和治疗的靶点,并对一种疾病不同状态和过程进行精确亚分类,最终实现对于疾病和特定患者进行个性化精准治疗的目的,提高疾病诊治与预防的效益。精准医学是因人因病而异的、更加精确的个体化医疗,其进步之处是将人们对疾病机制的认识与生物大数据和信息科学相交叉,精确进行疾病分类及诊断,为疾病患者提供更具针对性和有效性的防疗措施,最终目的是更好地为患者服务。与个体化医疗相比,精准医疗更重视“病”的深度特征和“药”的高度精准性;是在对人、病、药深度认识基础上,形成的高水平医疗技术。精准医学实现了从诊断治疗到健康保障这一本质性转变。精准医学包括精准诊断和精准治疗,而“迈向精准医学”需要构造的生物医学知识网络是建立在系统生物学的基础之上。实施精准医学计划的战略意义总共有4点:提高疾病诊治水平,惠及民生与国民健康;推动医学科技前沿发展,增强国际竞争力;发展医药