生物信息学-深圳机遇和挑战0805ppt-PowerPo

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

生物信息学及其在深圳的机遇与挑战刘维湘清华大学深圳研究生院生命学部生物医学工程研究中心Email:victorwxliu@yahoo.com.cnQQ:43860023内容•生物信息学概况–生物信息学简介生物信息学、生物学基础历史、内容、任务、技术和方法(系统生物学)–国内外状况–产学研实例•深圳的机遇与挑战–生物信息学人才培养和培训–个性化医疗–芯片技术产业与服务–生物数据挖掘与服务–产学研合作三大自然科学之谜•宇宙的起源•生命的诞生•思维的奥秘Whatisbioinformatics?from•Bioinformaticsandcomputationalbiologyinvolvetheuseoftechniquesincludingappliedmathematics,informatics,statistics,computerscience,artificialintelligence,chemistry,andbiochemistrytosolvebiologicalproblemsusuallyonthemolecularlevel.Researchincomputationalbiologyoftenoverlapswithsystemsbiology.Majorresearcheffortsinthefieldincludesequencealignment,genefinding,genomeassembly,proteinstructurealignment,proteinstructureprediction,predictionofgeneexpressionandprotein-proteininteractions,andthemodelingofevolution.生物信息学•说文解字:生物+信息+学(bioinformatics)biology+information+theory•广义应用信息科学的方法和技术,研究生物体系和生物过程中信息的存贮、信息的内涵和信息的传递,研究和分析生物体细胞、组织、器官的生理、病理、药理过程中的各种生物信息,或者也可以说成是生命科学中的信息科学。•狭义应用信息科学的理论、方法和技术,管理、分析和利用生物分子数据。Amarriageof…BiologyInformationtechnology生命信息系统生物所处的时空系统物质系统,信息传递与控制,能量相关学科图示广义概念图示狭义概念图示总结:生物信息学–生物信息学(Bioinformatics)是一门新兴的交叉学科,是生命科学领域中的新兴学科,面对人类基因组计划等各种项目所产生的庞大的分子生物学信息,生物信息学的重要性将越来越突出,它将会为生命科学的研究带来革命性的变革。–生物信息学是在生命科学的研究中,以计算机为工具对生物信息进行储存、检索和分析的科学。–生物信息学是当今生命科学和自然科学的重大前沿领域之一,同时也将是21世纪自然科学的核心领域之一,其研究重点主要体现在基因组学(Genomics)和蛋白组学(Proteomics)。生物学基础速递•细胞(分子水平)•个体生命•生命之树生命的分子基础•细胞/分子水平–DNA/RNA–蛋白质–糖–脂类DNA结构和碱基互补原理中心法则中心法则的发展•遗传信息–DNA、RNA核苷酸序列–氨基酸•病毒/肽•表观遗传学生物信息学的历史从人类基因组计划(HGP)说起曼哈顿原子弹计划阿波罗登月计划人类基因组计划60年代初,美国总统Kennedy提出两个科学计划:登月计划攻克肿瘤计划人类遗传信息的复杂性人类基因组计划(HGP,HumanGenomeProject)目标:整体上破解人类遗传信息的奥秘为什么提出HGP?生命活动三要素:物质、能量、信息DNA:遗传物质(遗传信息的载体)双螺旋结构A,C,G,T四种基本字符的复杂文本基因(Gene):具有遗传效应的DNA分子片段DNA、基因、基因组基因组(Genome):包含细胞或生物体全套的遗传信息的全部遗传物质。原核生物(细菌、病毒等)真核生物(真菌、植物、动物等)人类基因组:3.2×109bpHGP的历史回顾1984.12犹他州阿尔塔组织会议,初步研讨测定人类整个基因组DNA序列的意义1985Dulbecco在《Science》撰文“肿瘤研究的转折点:人类基因组的测序”美国能源部(DOE)提出“人类基因组计划”草案1987美国能源部和国家卫生研究院(NIH)联合为“人类基因组计划”下拨启动经费约550万美元1989美国成立“国家人类基因组研究中心”,Watson担任第一任主任1990.10经美国国会批准,人类基因组计划正式启动1995第一个自由生物体流感嗜血菌(H.inf)的全基因组测序完成1996完成人类基因组计划的遗传作图启动模式生物基因组计划H.inf全基因组Saccharomycescerevisiae酿酒酵母Caenorhabditiselegans秀丽线虫1997大肠杆菌(E.coli)全基因组测序完成1998完成人类基因组计划的物理作图开始人类基因组的大规模测序Celera公司加入,与公共领域竞争启动水稻基因组计划1999.7第5届国际公共领域人类基因组测序会议,加快测序速度大肠杆菌及其全基因组水稻基因组计划1999.7第5届国际公共领域人类基因组测序会议,加快测序速度2000Celera公司宣布完成果蝇基因组测序国际公共领域宣布完成第一个植物基因组——拟南芥全基因组的测序工作Drosophilamelanogaster果蝇Arabidopsisthaliana拟南芥2001年2月15日《Nature》封面2001年2月16日《Science》封面2000.6.26公共领域和Celera公司同时宣布完成人类基因组工作草图2001.2.15《Nature》刊文发表国际公共领域结果2001.2.16《Science》刊文发表Celera公司及其合作者结果我国对人类基因组计划的贡献6/1-8/31/99NoCenterRegionSize(Mb)ActualKGenbankKrProjectedKr4/1-11/30/99ProjAccum.Mr.4/99-3/001SangerCentre1,6,9,10,13,20,22,X85013009414200122WIBR(ClonesfromWashU)837296290083WashU2,3,4,7,11,15,18,Y90086555923007.94JGI5,16,1925068746121006.45Baylor1,2,3,X2304622616603.16Riken21,18,11q1601361955202.17IMB8,21,X50180321801.58GenoscopeMostof14851001183001.49U.Wash(Olson)10Beijing3p3012.512.51000.511GTC(Smith)105051500.4512MPIMG17,21,X6.94012400.313GBF21,regof96500.314Stanford(Davis)8231370.2915Keio2,6,8,22,213011751100.2316U.Wash(HoodLAB)14,15267127400.17Total2671Mb4663Kr2950Kr13687Kr32.64MrHGP带来的科学挑战•随着实验数据和可利用信息急剧增加,信息的管理和分析成为HGP的一项重要的工作发现生物学规律解读生物遗传密码认识生命的本质研究基因组数据之间的关系分析现有的基因组数据利用数学模型和计算技术各学科参与、协作:生命科学、数学、物理学、化学、计算机科学、材料科学以及伦理、法律等社会科学……首要科学问题如何找到记载在基因组DNA一维结构上控制生命时间、空间的调控信息的编码方式和调节规律。应用数学、复杂系统理论、信息论、非线性科学……催生生物信息学、计算生物学芯片技术交叉性技术领域:物理学、微电子信息技术、生化技术、信息技术、自动化、材料科学……结构生物学前沿领域之一:生物物理学、生物化学、晶体学、波谱学、光谱学以及X射线晶体衍射技术、核磁共振技术……生物信息学的研究内容1、生物分子数据的收集与管理2、数据库搜索及序列比较3、基因组序列分析4、基因表达数据的分析与处理5、蛋白质结构与功能预测6、基因-蛋白相互作用网络7、整个系统调控网络基因组数据库蛋白质序列数据库蛋白质结构数据库DDBJEMBLGenBankSWISS-PROTPDBPIR生物分子数据的收集与管理数据库搜索及序列比较•搜索同源序列在一定程度上就是通过序列比较寻找相似序列•序列比较的一个基本操作就是比对(Alignment),即将两个序列的各个字符(代表核苷酸或者氨基酸残基)按照对应等同或者置换关系进行对比排列,其结果是两个序列共有的排列顺序,这是序列相似程度的一种定性描述•多重序列比对研究的是多个序列的共性。序列的多重比对可用来搜索基因组序列的功能区域,也可用于研究一组蛋白质之间的进化关系。基因组序列分析•遗传语言分析——天书•基因组结构分析•基因识别•基因功能注释•基因调控信息分析•基因组比较基因表达数据的分析与处理•基因表达数据分析是目前生物信息学研究的热点和重点•目前对基因表达数据的处理主要是进行聚类分析,将表达模式相似的基因聚为一类,在此基础上寻找相关基因,分析基因的功能•所用方法主要有:相关分析方法、模式识别技术中的层次式聚类方法、人工智能中的自组织映射神经网络、主元分析方法等•表达数据缺点:仅反映mRNA丰度,噪声,…蛋白质结构预测•蛋白质的生物功能由蛋白质的结构所决定,蛋白质结构预测成为了解蛋白质功能的重要途径•蛋白质结构预测分为:–二级结构预测–空间结构预测蛋白质折叠二级结构预测•在一定程度上二级结构的预测可以归结为模式识别问题•在二级结构预测方面主要方法有:–立体化学方法–图论方法–统计方法–最邻近决策方法–基于规则的专家系统方法–分子动力学方法–人工神经网络方法•预测准确率超过70%的第一个软件是基于神经网络的PHD系统空间结构预测•在空间结构预测方面,比较成功的理论方法是同源模型法•该方法的依据是:相似序列的蛋白质倾向于折叠成相似的三维空间结构•运用同源模型方法可以完成所有蛋白质10-30%的空间结构预测工作生物信息学当前的主要任务当今生物信息学界的大部分人都把注意力集中在基因组、蛋白质组、蛋白质结构以及与之相结合的药物设计上,随蛋白组学、代谢组学进一步的发展,将在整体水平进行基因组新基因的发现通过计算分析从EST(ExpressedSequenceTags)序列库中拼接出完整的新基因编码区,也就是通俗所说的“电子克隆”;通过计算分析从基因组DNA序列中确定新基因编码区,经过多年的积累,已经形成许多分析方法,如根据编码区具有的独特序列特征、根据编码区与非编码区在碱基组成上的差异、根据高维分布的统计方法、根据神经网络方法、根据分形方法和根据密码学方法等。非蛋白编码区生物学意义的分析非蛋白编码区约占人类基因组的95%,其生物学意义目前尚不是很清楚,但从演化观点来看,其中必然蕴含着重要的生物学功能,由于它们并不编码蛋白,一般认为,它们的生物学功能可能体现在对基因表达的时空调控上。对非蛋白编码区进行生物学意义分析的策略有两种,一种是基于已有的已经为实验证实的所有功能已知的DNA元件的序列特征,预测非蛋白编码区中可能含有的功能已知的DNA元件,从而预测其可能的生物学功能,并通过实验进行验证;另一种则是通过数理理论直接探索非蛋白编码区的新的未知的序列特征,并从理论上预测其可能的信息含义,最后同样通过实验验证。基因组整体功能及其调节网络的系统把握把握生命的本质,仅仅掌握基因组中部分基因的表达调控是远远不够的,因为生命现象是基因组中所有功能单元相互作用共同制造出来的。基因芯

1 / 72
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功