中国科技大学课件系列：《生物信息学》01

mrflying
1 ℃
2016-10-09

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

生物信息学(Bioinformatics)第一章：概论背景人类基因组计划(HumanGenomeProject,HGP)：1990年正式启动，旨在完成人类基因组约30亿个碱基的全序列测定。海量生物数据的迅速膨胀：DNA、RNA和蛋白质序列，蛋白质二级结构和三维结构数据，蛋白质相互作用数据等。对大量生物数据的管理、分析和信息化需求促进了生物信息学的迅速发展。人类基因组计划HGP(HumanGenomeProject)由美国NIH和能源部提出和带头，美、英、德、法、日、中共同参与的国际合作项目。重大国际研究项目：测定人类基因组全部DNA序列，构建人类基因组遗传图谱和物理图谱。1990年：正式启动，30亿美元。2001年：人类基因组草图公开发表。2003年：美国宣布该项目完成。生物信息学定义的历史演变定义一：生物信息学是一门收集、分析遗传数据以及分发给研究机构的新学科（Bioinformaticsisanewsubjectofgeneticdatacollection,analysisanddisseminationtotheresearchcommunity）。(Dr.HwaA.Lim，1987)定义二：生物信息学特指数据库类的工作，包括持久稳固的在一个稳定的地方提供对数据的支持（Bioinformaticsreferstodatabase-likeactivities,involvingpersistentsetsofdatathataremaintainedinaconsistentstateoveressentiallyindefiniteperiodsoftime）。(Dr.HwaA.Lim，1994)定义三：生物信息学是在大分子方面的概念型的生物学，并且使用了信息学的技术，这包括了从应用数学、计算机科学以及统计学等学科衍生而来各种方法，并以此在大尺度上来理解和组织与生物大分子相关的信息。(Luscombe,2001)什么是生物信息学？Bioinformaticsisthefieldofscienceinwhichbiology,computerscience,andinformationtechnologymergeintoasinglediscipline.Theultimategoalofthefieldistoenablethediscoveryofnewbiologicalinsightsaswellastocreateaglobalperspectivefromwhichunifyingprinciplesinbiologycanbediscerned.Biologyinthe21stcenturyisbeingtransformedfromapurelylab-basedsciencetoaninformationscienceaswell.fromNCBI’sscienceprimer什么是生物信息学？生物信息学是一门交叉学科，它包含了生物信息的获取、处理、存储、分发、分析和解释等在内的所有方面，它综合运用数学、计算机科学和生物学的各种工具，来阐明和理解大量数据所包含的生物学意义。(美国人类基因组计划第一个五年总结报告，1995)广义生物信息学观点Biologymaybeviewedasthestudyoftransmissionofinformation:frommothercelltodaughtercell,fromonecellortissuetypetoanother,fromonegenerationtothenext,andfromonespeciestoanother.Thisinformationalviewpointistermedbioinformatics.生物学研究可以被看成是研究信息的传递：从DNA经转录翻译到蛋白质，从细胞质中到细胞核内，从母细胞到子细胞，从一个细胞或一个组织到另一个细胞或另一个组织，从一代到下一代，从一个物种到另一个物种的进化演变。这种信息论的观点即可称为生物信息学。(Bioinformaticchallengesforthenextdecade(s),DavidEisenbergetal.,2006)生物信息学的主要研究内容生物信息的存储与查询；序列比对；基因预测及基因组分析；分子进化与系统发育分析；RNA结构预测；蛋白质结构预测；分子设计与药物设计；生物网络；生物芯片；生物信息学的发展历程1952年，Sanger根据胰岛素蛋白质的测序结果，推断蛋白质是排列完美的分子。-最早的信息论观点。1955年，Sanger与合作者分别对牛、猪和羊的胰岛素蛋白质进行了测序并做了序列上的比较。-最早的序列比对。1962年，鲍林提出分子进化的理论，推测在人中可能存在50,000~100,000个不同的基因/蛋白质。-分子进化理论的奠定。1965年，MargaretDayhoff构建蛋白质序列图谱1970年，Needleman-Wunsch算法：全局优化比对。1981年，Smith-Waterman算法开发：局部优化比对。1990年，快速序列相似性搜索工具BLAST的开发生物信息学发展过程中的里程碑性事件过去20年的发展状况最早的序列分析：胰岛素蛋白质InsulinChainA:8-10位存在着不同（牛，ASV；猪，TSI；羊，AGV）(Brownetal.,1955)。MadebyGeneDoc不同物种的系统发育分析80年代：DNA序列数据库1.1974年，GeorgeI.Bell等人收集DNA序列，构建GenBank数据库。1982~1992开发第一个版本。2.1980年，EMBL数据库成立。3.1984年，日本DDBJ数据库成立。4.核酸序列数据的去冗余：Refseq数据库，对于相同的序列只列一条目录。核酸数据库数据的增长获取序列及检索公共数据库1.NCBI：Entrez的开发，D.Lipman等人。2.提供关键字的搜索的方法。3.“硬搜索”:包含关键字的，完全匹配的结果。4.“软搜索”:与查询内容相关的信息。5.查询内容：基因/蛋白质的名称、标识符，文献、蛋白质结构，等等。序列比对工具的开发1.1970年，GibbsAJ和McIntyreGA，点阵法进行氨基酸和核酸的序列比较：当相同的字母在两条序列中同时出现时，在交叉处置点。2.1970年，Needleman-Wunsch，全局优化的序列比对算法：允许匹配、错配和缺失。动态规划的算法：任务可分割，分成更小的子问题进行解决。3.1981年，Smith-Waterman，局部优化的序列比对算法。4.FASTA&BLAST的开发，启发式优化算法。5.多序列比对：CLustalW/X,POA,MUSCLE.AGCTAGGAGACTAGGC两条DNA序列的点阵法比较Needleman-Wunsch算法GATCTAGATCA全局优化vs.局部优化ACTGTTCCGAA……AGCCTGA……ACTACTG…100kbp……100kbp…ACGCCTGACTGTTCCGAA……AGCCTGA……ACTACTG…100kbp……100kbp…AC---…---GCC---…---TG全局优化ACTGTTCCGAA……A-GCCTGA……ACTACTG…100kbp……100kbp…ACGCCTG局部优化数据库中搜索相似序列通过搜索数据库中相似序列发现基因功能。例如反转录病毒编码的致癌基因v-sis和v-src通过和模式生物已知遗传或生化信息的基因序列进行相似性搜索，预测新基因功能。FASTA和BLASTFASTA:以几个残基长度的’word’为单元进行检索；W.Pearson和D.Lipman开发。BLAST:应用最广泛的序列相似性搜索工具，相比FASTA有更多改进，速度更快。PSI-BLAST：位点特异性迭代BLASTPHI-BLAST：模式发现迭代BLAST基于序列信息研究分子进化1.构建进化树，分析蛋白质的超家族及亚家族分类。2.寻找Ortholog(直系同源物)或者Paralog(旁系同源物)。3.分子进化树的构建方法：邻接法(Neighbor-Joining),最大简约法(MaximumPasimony)，最大似然性法(MaximumLikelihood)，以及贝叶斯类算法(MCMC)。4.构建进化树的第一步：可靠的多序列比对。RNA二级结构的预测1.RNA分子中，如果存在重复且反向互补，则可以形成发卡结构。2.动态规划法：最多配对的碱基对。3.应用：构建RNA分子数据库。RNA的发卡二级结构蛋白质结构预测大量序列已知vs.少量结构解析实验方法测定：X射线晶体学，核磁共振等三级结构主要由一级序列决定。蛋白质折叠的类型相对有限(~1,000)。蛋白质二级结构的预测-三级结构预测基因芯片A.抽提样本RNA，反转录成cDNA，荧光染料标记，标记量与RNA约成正比；B.DNA样品与芯片上探针杂交；C.扫描芯片，测定荧光强度，评估检测样与对照样的基因表达量变化；生物信息学的过去、现在和未来生物信息学：学科交叉生物信息学的相关知识储备1.生物学背景：e.g.,分子生物学、细胞生物学、发育生物学、生物化学，…2.数学知识：概率论与统计学等3.算法及编程能力：JAVA,Perl/Python，PHP+MySQL,…生物信息学的常用算法与方法动态规划算法(Dynamicprogramming)；贝叶斯统计(bayesianstatistic)；人工神经网络(ANNs)；马尔可夫模型和隐马尔科夫模型(HMM)；遗传算法(GeneticAlgorithm)；蒙特卡洛方法(MonteCarlo)；模拟退火算法(SimulatedAnnealing)；支持向量机(SVM);…科研机构及网络资源中心NCBI：美国国立卫生研究院NIH下属国立生物技术信息中心NCBI。EMBnet：欧洲分子生物学网络EMBL-EBI：欧洲分子生物学实验室下属欧洲生物信息学研究所。ExPASy:(ExpertProteinAnalysisSystem)瑞士生物信息研究所SIB下属的蛋白质分析专家系统；科研机构及网络资源中心BioinformaticsLinksDirectory：各种数据库等如PDB(ProteinDataBank)UniProt数据库软件资源：://://国内生物信息中心举例CBIPKU：北京大学生物信息中心BioSino：中国生物信息中国科学院上海生命科学院生物信息中心上海生物信息技术研究中心生物信息学的相关杂志研究生物信息学的一般步骤1.确立研究的生物学体系。例如：生物芯片数据分析；蛋白质三级结构与功能；2.确定研究的问题。已有哪些计算方面的工作？是否需要实验的支持？3.构建生物学/数学模型，例如：ligand结合位点的预测，构建特异性识别位点的结构模式模型。4.计算方法的选择或开发：HMM,SVM,ANN或新