1比较基因组学与分子进化复习题1.比较基因组学及分子进化的产生背景及其应用,请举例说明如何理解其意义?产生背景:随着1990年人类基因组计划(HumanGenomeProject,HGP)的实施并取得巨大成就,同时模式生物(modelorganisms)基因组计划也在进行,并先后完成了几个物种的序列分析,研究重心从开始揭示生命的所有遗传信息转移到从分子整体水平对功能的研究上。在HGP进行中完成一系列模式生物全基因组测定,如大肠杆菌、酵母、线虫、果蝇、小鼠。这些模式生物全基因组测定的完成有重大理论与现实意义。至此基因组的研究进入了后基因组时代(postgenomeera)。它的研究内容可以概括为:比较基因组学、功能基因组学、蛋白质组学、转录物组学、代谢物组学等,是在全基因组水平上研究基因功能和基因之间互相作用及其调控机制的学科。随着公共资源数据体系的大规模建立,面对海量数据,如何从这些数据中获得自己想要的知识,搜集、管理、处理、分析、释读能力的要求迅速提升,比较基因组学和分子进化已经成为生命科学研究的核心和不可分割的学科。应用:比较基因组学能根据对一种生物相关基因的认识来理解、诠释甚至克隆分离另一种生物的基因。远缘基因组间的比较为认识生物学机制的普遍性,寻找研究复杂生理和病理过程所需的实验模型提供了理论依据,而近缘基因组间的比较则为认识基因结构与功能等细节提供了参数。比较基因组学与分子进化拓展了模式生物从测序的意义,不仅可以模式生物基因组研究模式生物本身,更重要的是利用模式生物研究进化上相近的其他物种;推动了物种起源和生物进化研究的发展;同时带来了研究方法的思路的突破,促进了反向遗传学等学科的发展。举例:两种血吸虫完整基因组序列被确定两个国际联合课题组报告了曼氏血吸虫和日本血吸虫的完整基因组序列。它们是引起血吸虫病(也称“裂体血吸虫病”)的三种主要病原体中的两种。血吸虫病是一种“被忽视的”热带疾病,影响76个国家的超过2亿人。对基因组序列的解析不仅能够在遗传学水平上揭示虫体的活动规律,而且还将有利于发现新的药物作用靶位和疫苗抗原,通过对曼氏血吸虫和日本血吸虫的基因转录谱和蛋白质表达谱的研究,已发现了一些血吸虫与宿主相互作用的重要分子。对新的基因组序列所作的分析,为了解这些病原体的分子结构和宿主互动方式以及未来开发该疾病定向干涉疗法的途径提供了线索。这两种血吸虫的基因组是首次被测序的两种扁形虫基因组,所以它们为了解动物演化中的早期事件、尤其是身体模式的确定及组织发育成器官的过程提供了新视角。2.目前国际上主要生物信息数据库资源包括那些?其作用是什么?在NCBI数据库中BLAST的含义是什么,如何评价其结果的可靠性?Blastp、Blastn、blastx、Tblastn和Tblastx分别能够完成那些研究工作,请举例说明?2(1)主要生物信息数据库及其作用:①核算序列数据库:NCBI:国家生物技术信息中心(NationalCenterforBiotechnologyInformation,简称NCBI)是美国国家医学图书馆(NLM)的一部分(该图书馆是美国国家卫生研究所的一部分)。涵盖了几乎目前研究得到的所有蛋白质、核酸序列、基因和蛋白质结构与功能的信息,并提供多种软件工具和检索系统。EMBL:EMBL-EuropeanBioinformaticsInstitute欧洲生物信息研究所。为科学界提供免费生物信息资源、促进基础研究、提供培训和传播行业尖端技术。管理和维护着多个大型生物信息公共数据库,跨基因组学,蛋白质组学,化学信息学,转录组学,系统生物学等,同时创建了多种工具供让研究人员分析和分享信息。DDBJ:DDBJ(DNADataBankofJapan)日本DNA数据库。DDBJ主要向研究者收集DNA序列信息并赋予其数据存取号,信息来源主要是日本的研究机构,亦接受其他国家呈递的序列。与NCBI的GenBank,EBI的EMBL数据库共同组成国际DNA数据库,每日都交换更新数据和信息,并主持两个国际年会-国际DNA数据库咨询会议和国际DNA数据库协作会议,互相交换信息,因此三个库的数据实际上是相同的。②蛋白质序列数据库:UniProt:UniversalProtein是信息最丰富、资源最广的蛋白质数据库。它由整合Swiss-Prot、TrEMBL和PIR-PSD三大数据库的数据而成。他的数据主要来自于基因组测序项目完成后,后续获得的蛋白质序列。它包含了大量来自文献的蛋白质的生物功能的信息。PIR:PIR数据库按照数据的性质和注释层次分四个不同部分,分别为PIR1、PIR2、PIR3和PIR4。PIR1中的序列已经验证,注释最为详尽;PIR2中包含尚未确定的冗余序列;PIR3中的序列尚未加以检验,也未加注释;而PIR4中则包括了其它各种渠道获得的序列,既未验证,也无注释。SwissProt:该数据库由瑞士日内瓦大学于1986年创建,目前由瑞士生物信息学研究所(SwissInstituteofBioinformatics,简称SIB)和欧洲生物信息学研究所EBI共同维护和管理。瑞士生物信息研究所下属的蛋白质分析专家系统(ExpertProteinAnalysisSystem,,简称ExPASy)的Web服务器除了开发和维护SwissProt数据库外,也是国际上蛋白质组和蛋白质分子模型研究的中心,为用户提供大量蛋白质信息资源。TrEMBL:蛋白质序列数据库TrEMBL是从EMBL中的cDNA序列翻译得到的。”。该数据库采用SwissProt数据库格式,包含EMBL数据库中所有编码序列的翻译。TrEMBL数据库分两部分,SP-TrEMBL和REM-TrEMBL。SP-TrEMBL中的条目最终将归并到SwissProt数据库中。而Rem-TrEMBL则包括其它剩余序列,包括免疫球蛋白、T细胞受体、少于8个氨基酸残基的小肽、合成序列、专利序列等。(2)BLAST的含义及如何评价其结果的可靠性:BLAST(BasicLocalAlignmentSearchTool)是NCBI推出的对蛋白质数据库或DNA数据库进行相似性3比较分析的工具。BLAST采用一种局部的算法获得具有相似性的序列,其结果中的得分是一种对相似性的统计说明,得分高的两个序列相似性比较高。BLAST可以对一条或多条序列(可以是任何形式的序列)在一个或多个核酸或蛋白序列库中进行比对。BLAST还能发现具有缺口的能比对上的序列。其结果的可靠性通过比对给出的相似百分比计算得出一个E-value,百分比越高,E-value越低,可靠性就越高。(3)Blastp、Blastn、blastx、Tblastn和Tblastx分别能够完成的研究工作:①Blastp:蛋白质序列类似性对比程序。②Blastn:核酸序列类似性对比程序。③Blastx:将核酸序列按可读框架(ORF)翻译成蛋白质序列,再与蛋白质序列数据库进行对比。④Tblastn:将蛋白质序列与按可读框架翻译的核酸序列数据库进行对比。⑤Tblastx:将核酸序列的可读框架翻译成的蛋白质序列与核酸序列数据库的可读框架翻译成的蛋白质序列进行对比。3.通过什么方法可以推断不同生物、或者同源基因在不同生物中进化关系以及在现代分子生物学发展中所起的作用,请举例说明如何依赖于核酸、蛋白质序列信息构建系统进化树?(1)通过多序列比对进而构建系统进化树的方法可以推断不同生物或者同源基因在不同生物中的进化关系。多序列比对的目标是发现多条序列的共性,用于研究分子结构、功能及进化关系。在生物学研究中,对于一系列同源蛋白质,人们往往希望研究隐含在蛋白质序列中的系统发育的关系,这时只有在多序列比对之后,才能发现与结构或功能相关的保守序列片段,通过构建系统进化树才能更好地理解这些蛋白质的进化。(2)以斑头雁血红蛋白为例。从Swiss-prot中找到斑头雁血红蛋白的蛋白序列,找到与斑头雁血红蛋白α链有90%相似性的蛋白序列,将上述序列用最大简约法进行多序列比对并构建系统发育树(与斑头雁血红蛋白α链有90%相似性的16条蛋白序列的系统发育树)4.基于模式植物的基因组信息,如果研究模式生物的一个基因功能主要有哪些途径?请具体举例说明其中的至少一个途径(主要包括序列获得、功能预测和生物学功能验证)?答:目前基因功能研究方法主要有:4①基因转导技术:将目的基因转导入某一细胞中,通过观察细胞生物学行为的变化来认识基因的功能,是目前应用最多、技术最成熟的基因功能研究方法。由于基因表达受转导效率和是否持续稳定表达两方面因素影响,因此需慎重选择转导系统,常用的基因转导系统分为非病毒性表达系统和病毒性表达系统。②反义技术:根据碱基互补原理,利用人工或生物合成的特异互补的DNA或RNA片段(或其修饰产物)抑制或封闭目的基因的表达。包括反义寡核苷酸技术、反义RNA技术和核酶(Ri2bozyme)技术。③基因剔除和转基因技术:利用基因剔除(Geneknockout)技术或转基因技术获得的模式生物可能是目前研究基因功能最具价值的手段。④人工染色体的转导:转基因技术是蛋白功能分析和基因表达调控的有力手段,但使用小的质粒重组体存在表达水平低、缺乏组织特异性等缺点,而将大的DNA片段克隆入酵母人工染色体(YACs)、细菌人工染色体中可产生较好的表达水平和组织特异性,并可精确地调节同源重组。⑤RNAi:所有有机物都含有限制异常或外源基因表达的保护机制。随着转基因技术的广泛应用,发现转入的基因可被机体当作外源遗传物质。⑥基因表达分析:检测某种基因在不同组织或细胞中的表达差异。如荧光实时定量PCR技术。⑦微阵列分析:大规模快速检测基因差异表达、基因组表达谱、DNA序列多态性、致病基因或疾病相关基因功能的研究。例如T细胞受体基因的转导:T细胞识别抗原的特异性主要由T细胞受体(TCR)决定的,通过转导某些疾病相关抗原反应性T细胞克隆的TCR基因,使人外周血淋巴细胞具有针对其相关抗原的靶向性,在许多疾病治疗方面取得了一定的成效,如TCR基因转导为肿瘤的过继免疫治疗提供了新途径。基因导入后再回输体内,已用于基因治疗。5.如果针对没有测序的非模式生物,你如何研究其一个同源基因的功能,请举例说明?首先找出模式生物种与非模式生物功能相同的基因,由于模式生物的基因都知道就可以利用模式生物基因中的保守序列设计探针从非模式生物中扩增基因片段,然后经过筛库、RACE、测序、功能验证等等一系列步骤就得到了非模式生物基因。例如要研究小麦上某个与拟南芥同源的基因:①先获取你所感兴趣的某个拟南芥的基因序列。②用获取的序列在NCBI上blast小麦的EST(表达序列标签对应着cDNA的一部分)序列。③然后将得到的所有EST序列拼接到一块(这些EST序列有overlap,是可以拼接到一块的,如果NCBI中有关该基因的EST信息不多,可能就拼接不起来或者获取不了全长的cDNA),5以上的步骤是获取小麦中对应的基因(其实直接拼出来的是外显子的序列,可以在其两端设计引物,顺利的话就可以拿到小麦中对应的基因)。④获取基因后就可以进行功能验证(1.EMS诱变(非定向),筛选突变体。2.构建RNAi载体,进行基因沉默分析。3.构建含有该基因的载体,超标达研究。4.利用TILLING、CRISPR/Cassystem等研究基因)。6.如何判断利用基因芯片或蛋白组学方法和技术手段解决你所关注的科学问题,请举例说明?(1)蛋白质组学的主要研究方法有一下几点:1、基于二维电泳-质谱技术的蛋白质组研究2、基于质谱技术的蛋白质组研究,包括液相电泳-质谱技术、液相色谱-质联用技术、Shotgun质谱技术、ICAT技术3、蛋白质芯片蛋白质组分析的基本流程:样品制备---蛋白质分离---蛋白质鉴定,具体步骤大致如下:首先从蛋白质混合物中分离出目的蛋白或者通过消化作用获得肽混合物,再进一步将所得蛋白质与肽混合物分离消化为肽,然后通过MS分析获得相关数据,最后通过数据库检索算法等将其鉴定出来。(2)基因芯片(Genechip)技术:指通过微阵列(Mic