01-2-生物信息学概述下共84页

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

第一章生物信息学前言(下)4.发现单核苷酸多态(SNP)有的人吸烟喝酒却长寿,有人自幼就病痛缠身;同一种治疗肿瘤的药物对一些人非常有效,对另一些人则完全无效。这是为什么?他们基因组中存在的差异。这种差异很多表现为单个碱基上的变异,也就是单核苷酸的多态性(SNP)。SNP研究是人类基因组计划走向应用的重要步骤。因为SNP将提供一个强有力的工具,用于高危群体的发现、疾病相关基因的鉴定、药物的设计和测试以及生物学的基础研究等。5.基因组中非编码蛋白质区域的结构与功能研究在细菌这样的微生物中,非编码蛋白质的区域只占整个基因组序列的10%到20%。在高等生物和人的基因组中非编码序列已占到基因组序列的绝大部分。普遍的认识是:它们与基因在四维时空的的表达调控有关。对人类基因组来说,迄今为止,人们真正掌握规律的只有DNA上的编码蛋白质的区域(基因),这部分序列只占基因组的1.1%。非编码区功能研究Whatisthetotalnumberofhumangenes?28,000±4,000Only1.1%ofthegenomeisspannedbyexons,whereas24%isinintrons,with75%ofthegenomebeingintergenicDNA.Oneofthelargestchallengesisidentifyingtheunknownfunctionsthatalmostcertainlyexistinmuchofthe“junk”DNA.OrganismYearMillionsTotalPredictedNumberofgenesofbasescoveragenumberpermillionbasessequenced(%)ofgenessequencedHumangenomeroughdraft20192,6938431,78012(publicsequence)Humangenomeroughdraft20192,6548339,11415(Celerasequence)Arabidopsisthaliana20001159225,498221Drosophilametanogaster20001166413,601117Caenorhabditiselegans2019979919,099197Saccharomycescerevisiae201912935,800483人类基因组非编码区(“Junk”DNA)的构成至少包含如下类型的DNA成份或由其表达的RNA成分:1.内含子(intron)、2.卫星(Satellite)DNA、3.小卫星(minisatellite)DNA、4.微卫星(Microsatellite)DNA、5.非均一核RNA(简称hnRNA)、6.短散置元(shortinterspersedelements.简称SINE)、7.长散置元(1onginterspersedelements,简称LINE)、8.伪基因(Pseudogenes)、9.顺式调控元件,如启动子、增强子等也属于非编码序列。重复序列在基因组中的比例Human45%Arabidopsis11%C.elegans7%D.melanogaster3%Highereukaryotesarebelievedtocarryalargeburdenof“junkDNA”intheirgenomes.Although98%ofthehumangenomecomprisesnon-protein-codingDNA(1),thetruedensityanddistributionoffunctionalnucleotidesintheseregionsiscurrentlyunknown.WhoshareUltraconservedElements?humanmouseratchickenfishdogConservation48148148132447729467100%95%67%99.20%Conservation481481481100%95%67%99.20%Conservation48148148129467100%95%67%99.20%#ofUltraconservedElements•Theinsertionofarepetitivesequenceintoagenecaninfluenceitstranscription.TheSINEsandotherrepeatscanactastissue-specificenhancersorsilencersoftheadjacentgenes.•SmallRNA,microRNA,andRNAInterference(RNAi)EncyclopediaofDNAElements•“DNA元件百科全书”计划(EncyclopediaofDNAElements,简称ENCODE)发表了一系列重要研究成果,挑战了关于人类基因组的传统理论,即我们的基因组不是由孤立的基因和大量“无用DNA片段”组成的,而是一个复杂的网络系统。•编码基因、调控元件以及非编码RNA基因之间,有着复杂的相互作用,共同控制着人类的生理活动。6.研究生物进化1859,Darwin的物种起源对人类自然科学和自然哲学发展的最重大贡献之一。进化论研究的核心是描述生物进化的历史(系统进化树)和探索进化过程的机制。当前分子进化的研究已是进化论研究的重要手段,并建立了一套依赖于核酸、蛋白质序列信息的理论方法。序列相似性比较。常用的程序包有BLAST、FASTA等;序列同源性分析。完成这一工作必须使用多序列比较算法。常用的程序包有CLUSTALW等构建系统进化树。象PYLIP、MEGA等;稳定性检验。通用的方法使用Bootstrap算法,相应的软件已包括在构建系统进化树所用的软件包当中。一:发现同一种群基于不同分子序列所重构出的进化树可能不同。二:对“垂直进化”和“水平演化”之间关系的讨论正逐渐引起人们的重视。三、基因的“横向迁移现象”。即:基因可以在同时存在的种群间迁移,其结果虽可导致序列差异,但这种差异与进化无关。如:对人类基因组的分析发现,有几十个人的基因只与细菌基因相似,而在果蝇、线虫中都不存在。所以在当前的分子进化研究中必须选择垂直进化的分子作为样本。序列差异和进化关系的争论:分子进化分析中,“相似性”和“同源性”是两个不同的概念。相似性只反映两者类似,并不包含任何与进化相关的暗示。同源性则是与共同祖先相关的相似性。不同的生物分子替代速率不同。纤维蛋白约200万年有一个aa被替代。而组蛋白约3000万年才被替换一个,一些非编码序列一两万年就可能被替换。这些变化速率不同的分子可作为进化研究的分子时标,有人称之为分子钟。但随着序列的增加,不支持分子钟的假设。植物LFY同源基因系统树Phylogenyof23completelysequencedBacteriaandArchaeaspeciesonthebasisof16srRNA.A)Phylogenetictreebuiltbyournewmethod.B)PhylogenetictreebuiltbyClustalwprogram.(MadebyR.S.Chen)Phylogenyof24completelysequencedBacteria,ArchaeaandEukaryaspecies.A)genomictree.(MadebyR.S.Chen)PhylogenyofT.tengcongensisbasedonWholeGenome(MadebyR.S.Chen)AfterPaceNR(2019)Science276:7341.7.完整基因组的比较研究1.生命的起源?生命的进化?2.遗传密码的起源?3.最小独立生活的生物体至少需要多少基因?4.这些基因是如何使生物体活起来的?5.啤酒酵母,它有5932个基因,最小的是生殖道枝原体.它只有470个基因。6.黑猩猩和人的基因组大小相似,都含有约30亿碱基对,基因的数目也类似,且大部同源。但黑猩猩和人差异大,为什么?人类基因组与其它生物基因组比较通过几个完整基因组的比较,统计出维持生命活动所需要的最少基因个数为250个左右。比较鼠和人的基因组就会发现,尽管两者基因组大小和基因数目类似,但基因组的组织却差别很大。例如存在于鼠1号染色体上的基因已分布到人的1、2、5、6、8、13、18号7个染色体上了。在同一界中,某些核糖体蛋白排列顺序的差异能反映出物种间的亲缘关系,亲缘关系越近,基因排列顺序越接近。这样就可以通过比较基因的排列顺序来研究物种间的系统发育关系。人与鼠染色体的差别Thedistributionofmousehomologygenesinthehumanchromosome(DatafromGenBank,CoordinatebyR.S.Chen)Thedistributionofmousehomologygenesinthehumanchromosome(DatafromGenBank,CoordinatebyR.S.Chen)•*************************************************************************•genesinthisNo.chromosomeofdistributionofmousehomologygenes•mouseinhumanchromosome•11、2、5、6、8、13、18•22、7、9、10、11、15、20•31、3、4、8•41、6、8、9•51、4、7、12、13、18、22•62、3、7、10、12•76、10、11、15、16、19•81、4、8、13、16、19•93、6、11、15、19•106、10、12、19、21、22•112、5、7、16、17、22•122、7、14•131、5、6、7、9、15、17•143、8、10、13、14、X•155、8、12、22•163、8、16、21、22•176、16、19、21•185、10、18•199、10、11、X•XX•***********************************************************************8.从功能基因组到系统生物学功能基因组研究:不仅需要了解基因的序列,还要了解基因的功能,也就是要了解在不同的时间、不同的组织中基因的表达谱。研究不同时间、不同组织的基因表达谱的技术有:•在核酸层次上的基因芯片(或称DNA芯片);•在蛋白质层次上的大规模蛋白质分离和序列鉴定技术,也称蛋白质谱技术和蛋白质组研究。•芯片杂交:DNA芯片基质有硅片、玻片和金属片。•蛋白质二维凝胶电泳和测序质谱相结合的技术在蛋白质水平上监测基因表达的功能谱。•酵母双杂交技术研究蛋白质的相互作用。需要解决的关键问题:•表达谱数据挖掘和知识发现就成了该研究成功与否的关键。需要发展新的方法和工具。•对大规模基因功能表达谱的分析也导致了新的方法学问题。基因表达谱的数据和蛋白质谱的数据,既有图象,又是在时空多维水平上展开的数据。•芯片等的设计上也需要从理论到软件的支持。应用分析系统获得的48小时昼夜交替的表达谱信息cDNA微阵列杂交的聚类分析二维电泳图质谱分析•双向电泳原位酶解肽指纹图数据库•质谱Edman降解•N端,C端测序•生物信息学分析•分子生物学实验Proteininteractionnetwork:direct/indirect;static/dynamicFromtheCelltoProteinMachinesByR.S.Chen9.蛋白质结构模拟与药物设计•蛋白质功能取决于蛋白质的空间结构•蛋白质结构决定于蛋白质的序列(这是目前基本共认的假设),蛋白质结构的信息隐含在蛋白质序列之中。9.蛋白质结构模拟与药物设计要找到蛋白质功能的分子基础,必须知道它们的三维结构,与

1 / 84
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功