药物生物信息学基础生物化学教研室药学分子生物学第十一章主讲:杨中汉(yangzhh@mail.sysu.edu.cn)生物信息学(bioinformatics)是什么?Bioinformatics:以核酸、蛋白质等生物大分子数据库为主要对象,以数学、计算机科学为主要手段,以计算机硬件、软件和网络为主要工具,对与日俱增的大量DNA、蛋白质的序列及结构进行收集、管理、注释、加工和分析,使之成为具有明确生物意义的生物信息。并通过对生物信息的查询、搜索、比较、分析,从中获取基因编码、基因调控、核酸和蛋白质结构功能及其相互关系等理性知识。主要任务•生物数据库的设计、建立和优化•从数据库中提取有效信息的算法•为用户设计查询信息的界面•开发数据可视化的有效方法•与多种资源和信息库建立有效连接•开发数据分析的新方法•发展预测的算法主要内容(1)基因组生物信息学•Genomesequencing(DNAsequence)•序列的检索和对比、序列模式识别(ORF、promoter、exonandintron,etc)(2)结构生物信息学motif的识别、二级结构的预测、亲疏水性分析(3)功能生物信息学蛋白质结构与功能、细胞反应的数据库(储存各种刺激后细胞基因表达改变的信息,如细胞毒性、靶基因蛋白表达的免疫性测定等)(4)进化生物信息学构建基因或蛋白质的进化树生物信息学的生物医学内涵•指生物信息学中与生物学知识和医学知识形成相关的研究内容生物学知识指生物体内遗传信息传递的自然规律,即遗传信息从贮存到表达、加工及传递的过程,包括生物个体水平的发育、分化、生长、代谢过程和生物整体水平的遗传、变异、进化问题。包括基因组学、蛋白质组学、基因识别、分子结构、序列分析、进化和种系发生、代谢途径、调节网络等诸多方面。医学知识指遗传缺陷、代谢紊乱、疾病发生途径及药物等相关信息。Whatisbioinformatician?•一个人计算机上只会perl/unix,但分析了线虫所有基因的introngain/loss问题,作了人、鼠基因的intron进化树。发现了基因在pathway与physicalcoordinate的联系。我认为这些人可称之为bioinformatician(用生物信息的人)。对在读生物学专业的同学,这也是一条很好的方向,而且并不晚;学数学、计算机的也可以朝这边走,但平时要尽可能积累生物学知识。另外,学bioinformatics要特殊强调实践的重要性。这是成为优秀bioinformatician的必要途径Whatisbioinformatist?•bioinformatist是能大规模调动数据或设计工具、方法的人。这些数据不可能靠一个人来产生,而是许多人实验的结果。•bioinformatist有两个主要目的:一是设计工具方法帮助生物学家(作算法数据库),二是从大规模数据中发现新的规律(自主研究)。•1)用生物信息的人(bioinformatician):把生物信息作为工具。在当代,即使做为纯正的生物学家,也应该掌握数据库查询,学会各种应用软件的使用。作PCR不会设计引物,作microarray不会分析数据,作克隆不懂找酶切点,找同源不会作blast,作进化不会建树,在当代我认为多少有些落伍。他们把生物信息作为自己辅助的工具,但不是bioinformatist。2)生物学家不必成为bioinformatist,但应该成为bioinformatician(用生物信息的人)生物信息数据库分类DatabaseContentsexample1文献数据库文献引用索引MEDLINE(1971)在线期刊2事实数据库核酸序列GenBank(1982),EMBL(1982),DDBJ(1984)(一级数据库)氨基酸序列PIR(1968),PRF(1979),SWISS-PROT(1986)三维分子结构PDB(1971),CSD(1965)3知识库Motif库PROSITE(1988)(二级数据库)分子分类SCOP(1988)生化途径KEGG(1995)一级数据库•来源于实验获得的原始数据,只经过简单的归类整理和注释,如核酸和蛋白质序列数据库、生物大分子三维结构数据库等二级数据库(知识库、专用数据库)•是在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来,是对生物学知识和信息的进一步加工、提取、综合形成的知识库;•具体是对基因组图谱、核酸和蛋白质序列、蛋白质结构以及文献等数据进行分析、整理、归纳、注释,构建具有特殊生物学意义和专门用途的二级数据库。3、以三维结构原子坐标为基础构建4、其他二级数据库种类:1、以核酸序列数据库为基础构建…TransFac转录因子启动子EPD克隆载体Vector密码子CUTG2、以蛋白质序列数据库为基础构建功能位点Prosite结构域Blocks蛋白激酶PKinase同源蛋白Pfam…•介绍一些数据库•实例•介绍一些重要的生物信息学工具举例介绍著名的生物信息数据库(一)核酸序列数据库•GenbankGenbank库包含了所有已知的核酸序列和蛋白质序列,以及与它们相关的文献著作和生物学注释。它是由美国国立生物技术信息中心(NCBI)建立和维护的。NCBI的网址是:。•EMBL由欧洲生物信息学研究所(EBI)维护的核酸序列数据构成,查询检索可以通过通过因特网上的序列提取系统(SRS)服务完成。数据库网址是:。SRS的网址是:。•DDBJ日本DNA数据仓库(DDBJ)也是一个全面的核酸序列数据库,与Genbank和EMBL核酸库合作交换数据。使用其主页上提供的SRS工具进行数据检索和序列分析。DDBJ的网址是:。三大数据库每天进行数据交换共享,共同成立国际核酸序列联合数据库中心(INSDC),网址:://优点:分类齐全序列标签位点数据库(SequenceTaggedSitesDatabase)表达序列标签数据库(ExpressedSequenceTagsDatabase)单核苷酸多态性数据库(SingleNucleotidePolymorphismsDatabase)参考序列数据库(ReferenceSequencesDatabase)LiteratureDatabases:PubMedOMIM(OnlineMendelianInheritanceofMan)GenBank缺点:不会对旧数据进行更新处理递交到GenBank的数据资料参差不齐GenBankScan(基因序列及其注释资料的提取)文献检索(PubMed,OMIM)BLAST序列比对GenBankSearchexample—PEDFgeneanalyse•查找序列•基因组分布分析•保守性分析•特异性分析•序列本身分析查找序列•NCBI的网址是:保守性和特异性分析•利用多序列对比程序,比较不同物种间同一序列的保守性。•比较同一物种间不同分子,确定探针的特异性。•CLUSTALW网址:的使用文献检索(PubMed,OMIM)PubMed••SearchStrategy–LimitsmenuPubMed•SearchStrategy–Preview/IndexformPubMed(((Human[Title/Abstract]ANDspliced[Title/Abstract])AND(alternatively[Title/Abstract]ORvariant[Title/Abstract]))NOTmutant[Title/Abstract])PubMedPubMedPubMedOMIM:关于遗传性疾病的文献综述OMIM:关于遗传性疾病的文献综述OMIM:关于单一基因及其蛋白的文献综述OMIM:关于单一基因及其蛋白的文献综述•基因组数据库是存储生物整个基因组序列的数据库,包括模式生物基因组、染色体、基因突变、遗传疾病、放射杂交、比较基因组、基因调控和表达、基因图谱等。•基因组数据库多是二级数据库,即从一级数据库中选出的有关同一物种的核酸信息。•举例:GDB数据库:人类基因组数据库ACeDB:线虫基因组数据库SGD:啤酒酵母基因组数据库TDB:微生物信息库,也包含人、植物、微生物等的分类信息。(二)基因组与功能基因组数据库(三)蛋白质序列数据库•PIR和PSDPIR国际蛋白质序列数据库(PSD)是国际上最大的公共蛋白