揭开生命奥秘的新兴交叉学科第七章生物信息学内容生物信息学概念生物信息学的内容生物信息学的研究方法和技术生物信息学软件和数据库一、生物信息学的概念(p199)生物信息学是用数理和信息科学的观点、理论和方法,以计算机为工具对生物信息进行收集、加工、储存、传播、检索和分析的科学。研究材料和结果是各种各样的生物学数据人基因组海量信息23对=46条染色体30亿碱基对(basepairs)3~5万个基因基因组学3万种以上蛋白质蛋白质组学基因表达、作用、调控网络已经或即将完成的生物全基因组几百种原核生物酵母菌拟南芥(1-2亿bp)水稻人类(32亿bp)小鼠大鼠猪鸡…..等生物信息学的概念后基因组时代的到来人类首次了解了自身的基因序列,了解了很多远亲生物的基因序列正在面对指数扩增的基因序列和各种数据库面临如何将基因序列资料转变为有用的知识,进而服务于人类,造福人类健康的挑战人类功能基因组学必须多学科协作生物信息学技术生物芯片技术蛋白质组学技术高通量细胞筛选技术等生物信息学是人类功能基因组学研究的必要工具数据信息知识理论实验生物学计算生物学理论生物学生物信息的开发和应用以核酸蛋白质等生物大分子为主要研究对象以信息、数理、计算机科学为主要研究手段以计算机网络为主要研究环境以计算机软件为主要研究工具对序列数据进行存储、管理、注释、加工对各种数据库进行查询、搜索、比较、分析构建各种类型的专用数据库信息系统研究开发面向生物学家的新一代计算机软件生物信息学的概念计算机学、计算机网络医学生物学、分子生物学生物信息学数学、统计学生物信息学和其它学科的关系生物信息学是一门边缘学科,它位于生物、医学、计算机、数学等多个领域的交叉点上生物信息学的概念蛋白质组学和结构基因组学高通量药物筛选药物设计和小分子设计创新药物和新剂型生物芯片计算机辅助药物筛选高通量虚拟筛选方法分子数据库,组合化学化合物库,靶标生物大分子的功能分析...蛋白质-蛋白质相互作用识别,信号传导系统、代谢途径的分子模拟...图像处理、聚类分析、表达谱和调控网络分析...基因组信息…生物信息技术计算机辅助先导化合物设计、药物设计二、生物信息学的内容(p200)1.基因与基因组分析可读框预测和基因标注序列拼接与组装结果上传到数据库碱基读取载体标识与去除测序仪中原始数据的采样与分析大规模基因序列测定生物信息学的内容基因预测DNA序列中编码区的鉴定预测方法的依据:编码统计学:编码区序列同非编码区序列相比,有不同的特点,存在一些非随机的特点GC含量密码子偏倚性(CODONFREQUENCY)第三个碱基组成基因结构/统计学方法比较/同源性生物信息学的内容原核生物基因结构编码区启动子转录起始位点非翻译区转录区起始密码子终止密码子5’3’转录终止位点RBS生物信息学的内容5’启动子转录起始位点非翻译区转录区起始密码子终止密码子3’转录终止位点外显子切除和拼接位点GTAG内含子真核生物基因结构生物信息学的内容HMM?HMM描述了模型中各隐含状态的转换概率基因组序列ATGCGTGCAGTCACCAGCAGTCAGTCGIntronsExon隐含状态用于基因预测的隐马尔可夫模型HiddenMarkovModels,HMMATGCGTGCAGTCACCAGCAGTCAGTCG基因组序列生物信息学的内容特定状态碱基对的概率取决于它前面碱基对的状态向另一种状态的转换概率取决于转换信号的出现(剪切位点)和/或在特定隐藏状态的碱基对平均数量(即内含子或外显子大小).IntronsExonP=0.5P=0.8基因组序列ATGCGTGCAGTCACCAGCAGTCAGTCG用于基因预测的隐马尔可夫模型生物信息学的内容研究主要集中在核苷酸序列的存储、分类、检索和分析等方面新基因的发现非蛋白编码区生物学意义的分析基因组整体功能及其调节网络的系统把握基因组演化与物种演化基因组分析生物信息学的内容蛋白质结构新蛋白的完整、精确和动态的三维结构计算机辅助结构模拟理解蛋白质的氨基酸序列和三维结构之间的关系蛋白质序列及特性分析蛋白质组学2.蛋白质与蛋白质组分析生物信息学的内容相当数量的蛋白质、核酸、多糖的三维结构获得精确测定,基于生物大分子结构知识的药物设计成为热点;根据靶标分子与药物分子相结合的活性部位的几何形状和化学特征,设计出与其相匹配的具有新颖结构的药物分子。3新药设计三、生物信息学的研究方法和技术数学统计方法在分析DNA语言中的语义、分析密码子使用频率、利用马尔可夫模型进行基因识别动态规划(DynamicProgramming)方法一种通用的优化方法:在状态空间中,根据目标函数,通过递推,求出一条从状态起点到状态终点的最优路径(代价最小的路径)。DNA序列或者蛋白质序列的两两对比排列模式识别技术两种方法根据统计特征进行识别根据对象的结构特征进行识别,常用句法识别。DNA序列上功能位点和特征信号的识别数据库技术生物分子信息的存储、管理、查询等功能建立在数据库管理系统之上人工神经网络技术在功能上、结构上模拟大脑神经网络神经网络计算速度快,更具有分析智能应用:神经网络计算在优化和模式识别方面具有非常强的能力基因识别、蛋白质结构预测上神经网络都取得了比其它方法更为准确的结果分子模型化技术利用计算机分析分子结构。通过交互操作平移、旋转和缩放分子的三维结构,从不同的角度观察分子构象和形状分子力学和量子力学计算主要基于半经验势函数的分子力学方法研究生物大分子的构象量子力学在确定势函数的参数和研究局部性质分子动力学模拟研究蛋白质的构象及动力学,是计算机模拟实验的基础遗传学运算规则Optimisers/EvolversDNAcomputingEvolutionaryComputation(MetaphorsfromDNAtoSelection)生物信息学的研究方法和技术“HalfdayontheWeb,savesyouhalfmonthinthelab”专家系统将有关专家的知识和经验以一定的知识表示形式(如产生式规则、语义网络等)存放在计算中以智能的方式帮助提供参考性决策。如用于基因识别Internet技术交流:通过Internet网交流生物分子数据查阅:从Internet网上查生物分子数据,如原始的序列、结构数据,加工处理的数据服务:将所要处理的数据直接送到相应的网络服务器上,服务器接受你的处理请求,并将处理结果返回给你生物信息学的研究方法和技术国外一直非常重视生物信息学的发展,各种专业研究机构和公司如雨后春笋般涌现出来,生物科技公司和制药工业内部的生物信息学部门的数量也与日俱增1979年,美国洛斯阿拉莫斯国家实验室建立起GenBank数据库;1982年,欧洲分子生物学实验室提供核酸序列数据库EMBL的服务;1984年,日本着手建立国家级的核酸序列数据库DDBJ并于1987年开始提供服务四、常用的分子生物学软件和数据库(p210)国内对生物信息学领域也越来越重视1997年3月,北京大学于成立了生物信息学中心;2000年3月,中科院上海生命科学研究院成立其他,北京大学的罗静初和顾孝诚教授在生物信息学网站建设方面、中科院生物物理所的陈润生研究员在EST序列拼接方面以及在基因组演化方面、天津大学的张春霆院士在DNA序列的几何学分析方面等等……软件和数据库基因图谱数据库核酸序列数据库蛋白质序列数据库大分子结构数据库等国际著名的生物信息中心NCBINationalCenterforBiotechnologyInformation(US)EBIEuropeanBioinformaticsInstitute(EU)HGMPHumanGenomeMappingProjectResourceCentre(UK)ExPASyExpertofProteinAnalysisSystem(Switzerland)CMBICentreofMolecularandBiomolecule(TheNetherlands)ANGISNationalGenomeInformationService(Australia)NIGNationalInstituteofGenetics(Japan)BICNationalBioinformaticsCentre(Singapore)1.数据库国内部分生物信息学和生物医学信息服务器北京大学生物信息中心中国生物信息北京大学物理化学研究所北京医科大学生物医学信息中国科学院微生物研究所天津大学生物信息中心中科院计算所智能信息处理重点实验室生物信息学研究组中国科学院基因组信息学中心数据库Genbank包含所有已知的核酸序列和蛋白质序列,以及相关的文献著作和生物学注释。美国国立生物技术信息中心(NCBI)建立和维护EMBL核酸序列数据库由欧洲生物信息学研究所(EBI)维护通过因特网上的序列提取系统(SRS)服务完成查询检索。DDBJ数据库日本国立遗传学研究所维护与Genbank和EMBL核酸库合作交换数据。使用主页上SRS工具进行数据检索和序列分析全球数据已实现同步化Globaldatasynchronization软件和数据库GenBank的增长•图片来自软件和数据库资料来自:年6月发行的第84版EMBL数据库中,总计超过4525万条、491亿碱基数量的数据库软件和数据库PublicfreeAvailableviaInternet三大基因数据库之间的关系NucleotideSequenceDatabase(entry)-2005.6.15完整序列软件和数据库蛋白质信息资源数据库(PIR)主要提供按同源性和分类学组织的综合性、非冗余数据库PIR由美国华盛顿的国家医学研究基金会支持,德国马普学会的慕尼黑蛋白质序列信息中心(MIPS)和日本国际蛋白质序列数据库(JIPID)共同维护。PIR通过提供蛋白质序列数据库、衍生的相关数据库及相应的软件而支持有关分子进化、功能基因组学和计算生物学方面的研究,软件和数据库蛋白质结构数据库(PDB)由美国自然科学基金会、能源部和国立卫生研究院共同投资建立主要由X-射线晶体衍射和核磁共振(NMR)测得的生物大分子三维结构组成用户可直接查询、调用和观察库中所收录的任何大分子三维结构软件和数据库PBD数据的增长软件和数据库2.软件序列对比和数据库搜索软件BLAST,FASTA,BLITZ等生物大分子可视化软件有Rasmol,Mage,Raster3d,Grasp等与蛋白质结构有关的程序有Procheck,WHATIF,DSSP等大型分子生物学软件包如GCG.在基因识别著名软件GRAIL、GeneID、GeneMark等蛋白质二级结构预测程序PHD软件和数据库序列分析软件——DNAMANDNAMAN是美国LynnonBioSoft公司开发的高度集成化的分子生物学应用软件,几乎可完成所有日常核酸和蛋白质序列分析工作,包括多重序列对齐、PCR引物设计、限制性酶切分析、蛋白质序列分析、质粒绘图等。具有