蛋白质组相关生物信息学

bayern666
5 ℃
2018-05-02

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

过去十年中，全世界的分子生物学家们所收集的原始信息不断激增。在不太久之前，这些信息的分析整理工作只有不情愿的研究生去做，因为他们对摆弄试管比敲击键盘更有兴趣，而现在有很多人已全身心地投入了这个领域。生物信息学正处于新兴萌芽中，它可以不严格地定义为分子生物学和计算生物学的交叉，这个领域中已经产生了大量重要的发现，并有希望揭示更多大自然的奥秘。对大多数人而言，生物信息学的吸引力在于它是生物学中崭新和有待开垦的领域；而对其他人，其吸引力蕴藏在简化论者对化学层次上的细节的热爱和系统遗传学家对了解各物种体系之间内在关系的兴趣之中。生物信息学的好处早已作为谈资得以广泛宣扬，它被宣称是能解决一切痼疾的仙丹，或是肢解序列数据的强大工具，或简称之为搞科学一条迷人途径。而实际上，生物信息学是在艰难而有意义工作中的一种新的方法。这一领域中，研究方法大多在不断变化并有待发展和完善，与当年生物化学的黄金年代并无不同，那时人们选择各种能溶解和分析目标分子的手段，不象如今生化实验室中所用技术要成熟和精巧得多。然而，在生物信息学被推向前进的竞赛中，一些人曾企图将其从科学分支降级为购买了合适工具包就完成的功能。而维护了生物信息学在科学领域中地位的正是学术用户群体本身，无论他们是在私立大学里还是在政府赞助的研究中心里。生物信息学中已取得的卓越进展就蕴藏在从收集整理原始数据，到开发更新更强的数据处理方法的工作之中，而且一切均处于信息和技术自由共享的环境里。生物信息学群体的独特之处在于，在商业部门之外，其“团体精神”比生物学中许多竞争性领域要开放得多。由此想法，本书试图能让那些想了解更多序列分析方法的科学家跳进书中，来体验令人着迷的科学旅途。蛋白质组研究中的生物信息学第一节生物信息学简介一、什么是生物信息学生物信息学是随着人类基因组计划而发展起来的。生物信息学是一门新兴的交叉学科。它包含了生物信息的获取、处理、存储、发布、分析和解释等在内的所有方面．它综合运用数学、计算机科学和生物学的各种工具，来阐明和理解大量数据所包含的生物学意义。二、生物信息学的研究内容生物信息学从有以下研究内容。1．序列比对基本问题是比较两个或两个以上符号序列的相似性或不相似性。序列比对是生物信息学的基础，非常重要。2.结构比对比较两个或两个以上蛋白质分子空间结构的相似性或不相似性。3.蛋白质结构预测包括二级和三级结构预测，是最重要的课题之一。4.计算机辅助基因识别基本问题是给定基因组序列后，正确识别基因的范围和在基因组序列中的精确位置。这是最重要的课题之一。5.非编码区分析和DNA语言研究在人类基因组中，编码部分占总序列的3％一5％，其他通常称为“垃圾”DNA，其实一点也不是垃圾，只是我们暂时还不知道其重要的功能。分析非编码区DNA序列需要大胆的想象和崭新的研究思路相方法。DNA序列作为一种遗传语言，不仅体现在编码序列之中，而且隐含在非编码序列之中。6.分子进化和比较基因组学早期的工作主要是利用不同物种中同一种基因序列的异同来研究生物的进化，构建进化树。既可以用DNA序列也可以用其编码的氨基酸序列来做，甚至可通过相关蛋白质的结构比对来研究分子进化。近年来由于较多模式生物基因组测序任务的完成，为从整个基因组的角度来研究分子进化提供了条件。7.序列重叠群装配一般来说，根据现行的测序技术，每次反应只能测比500bp或更多一些碱基对的序列，这就有一个由大量的较短的序列全体构成的重叠群。逐步把它们拼接起来形成序列更长的重叠群，直至得到完整序列的过程称为重叠群装配。8．遗传密码的起源遗传密码为什么是现在这样的？这一直是一个谜。一种最简单的理论认为，密码子与氨基酸之间的关系是生物进化历史上一次偶然的事件而造成的，并被固定在现代生物最后的共同祖先里，一直延续至今。不同于这种“冻结”理论，有人曾分别提出过选择优化、化学和历史等三种学说来解释遗传密码。随着各种生物基因组测序任务的完成，为研究遗传密码的起源和检验上述理论的真伪提供了新的素材。9．基于结构的药物设计人类基因组计划的目的之一在于阐明人的约10万种蛋白质的结构、功能、相互作用以及与各种人类疾病之间的关系，寻求各种治疗和预防方法，包括药物治疗。基于生物大分子结构的药物设计是生物信息学中的极为重要的研究领域。10．生物信息处理并行算法的研究由于生物信息数据的规模极其巨大，因此国内外都开展了生物信息处理算法并行化方向的研究。主要是研究生物信息学中的一些关键的算法，研究其中的可并行性．然后将其固化到硬件芯片中，从而提高整个计算系统的性能。11.其它如基因表达谱分析，代谢网络分析，基因芯片设计和蛋白质组学数据分析．逐渐成为生物信息学中新兴的重要研究领域。2001年9月，国家科学技术部对“生物和现代农业技术领域生物信息技术主题”提出的目标是：实现生物技术与信息技术以及其他学科的结合，实现基因组数据、蛋白质组和结构基因组数据、天然及合成化合物数据的计算机处理、分析和可视化，以及生物实验和生物分子的模拟设计，解析蛋白质三维结构和蛋白质组的时空表达关系等，提高生物信息处理、分析和利利用的水平。三.我国生物信息学研究的目标主要内容是：1．生物信息的获取与开发2．生物信息加工和利用3．结构基因组和蛋白质组学研究4．高通量药物筛选及相关技术5.小分子药物设计和分子设计6.生物芯片7.化学创新药物和新剂型四.蛋白质组研究中生物信息学的任务ProteomicanalysisrequireshighlysophisticatedbioinformatictoolsinnotonlyelectrophoreticandMSseparationbutalsointheassignementofphysicochemicalpropertiesandpredictionofpotentialpost-translationalmodificationsand3DstructuresDatabasesexistfortheproteinmapsofabroadrangeoforganisms,tissues,anddiseasestatesUltimately,giventhedynamicnatureoftheproteome,complexexperimentaldetailsandrelatedresultsneedtobeextrapolatedinthecontextoftherelevantbiochemicalpathwaysordiseaseimplicationsForexample:Howtoclassifyproteinsintofunctionalclasses?Howtocompareoneproteomewithanother?Howtoincludefunctional/activity/pathwayinformationindatabases?Howtoextractfunctionalmotifsfromsequencedata?Howtopredictphenotypefromproteotype?Howtocorrelatechangesinproteinexpressionwithdisease?Howtodistinguishimportantfromunimportantchangesinexpression?Howtocompare,archive,retrievegeldata?Howtorapidly,accuratelyidentifyproteinsfromMSand2Dgeldata?Howtoincludeexpressioninfoindatabases?Howtopredict3Dstructurefrom1Dsequence?Howtodeterminefunctionfromstructure?Howtoclassifyproteinsonbasisofstructure?Howtorecognize3Dmotifsandpatterns?Howtousebioinformaticsdatabasestohelpin3Dstructuredetermination?Howtopredictwhichproteinswillexpresswellorproducestable,foldedmolecules?第二节数据库的构建数据库是生物信息学的主要内容，各种数据库几乎覆盖了生物科学的各个领域。美国洛斯阿拉莫斯国家实验室1979年开通的基因库Genbank，现在由1988年成立的国家生物信息中心(NCBI)管理维护。欧洲分子生物学实验室1982年开始服务的EMBL数据库和随后建立的欧洲生物网(EMBNet)．1994年改由当年建在英国剑桥的欧洲生物信息研究所(EBI)管理。日本1984年着手建立国家级的核较数据库DDBJ，1987年正式服务。目前绝大部分核酸和蛋白质数据由美国、欧洲和日本产生，以上三家共同组成了DDBJ/EMBI／GeneBank国际核酸序列数据库。其他国家如德国、法国、意大利等也纷纷建立自己的数据库，为本国服务。第三节蛋白质组研究中常用的网站及数据库从1994年起每年第一期(NucleicAcidResearch)是分子生物学数据库专刊，由专人综述当前的在线分子生物学数据库资源。一、蛋白质数据库1.SWISS-PROT/TrEMBL网址：(PIR)网址：网址：网址：高度注释(比如蛋白功能描述、结构域结构、转录后修饰、变异等)，冗余程度最低，与其他数据库整合程度最高。TrEMBL是SWISS-PROT的补充，含有所有的EMBL核苷酸的翻译产物，但未整合进SWISS-PROT。ProteinInformationResource(PIR)广泛的、注释的、非冗余的蛋白质序列数据库。蛋白信息资源与慕尼黑蛋白序列信息中及日本国际蛋白质信息数据库合作，产生的公共领域中最广泛的熟练注释的蛋白序列数据库-PIR国际蛋白质序列数据库。NCBInr是一个非冗余的蛋白质数据库，由NCBI搜集，以供其搜索工具BLAST和Entrez所用。dbEST是GenBank的分支，含有从大量的生物中来的一次反应测序得到的cDNA或叫表达序列标签。这是一个核酸数据库，被Mascot从6个相位翻译得到。OWLOWL混合蛋白质数据库(CompositeProteinSequenceDatabase)是一个非冗余的蛋白质序列数据库，由4个公用的一级资源组成：SWISS-PROT、PIR、Genbank和NRL-3D。UniGene美国国家生物技术信息中心(NCBl)提供的公用数据库，该数据库将GenBank中属于同一条基因的所有片段拼接成完整的基因进行收录。二、蛋白质组数据库1.AAindex:（氨基酸索引数据库）网址://gelbank.anl.gov3.Predictome://rebase.neb.com/rebase/rebase.html6.SWISS-2DPAGE://ypl.tugraze.at三.蛋白质序列基序(Motif)数据库1.Blockshttp: