生物信息学概述生物信息学的概念1生物信息学所研究的材料是生物学的数据,进行研究的方法是从各种计算技术衍生而来(Benton,1996).生物信息学的概念2生物信息学是采用计算机技术和信息论方法研究蛋白质及核酸序列等各种生物信息的采集、存储、传递、检索、分析和解读的科学,是现代生命科学与计算机科学、数学、统计学、物理学和化学等学科相互渗透而形成的交叉学科生物信息学的产生背景生物信息学产生和发展的推动因素人类基因组计划(HGP)信息技术的大规模应用生物医药的迅速发展及其经济的需求元素周期表的发现奠定了二十世纪物理、化学研究和发展的基础“基因组序列图”奠定二十一世纪生命科学研究和生物产业发展的基础!“基因组”--生命科学的“元素周期表”人体解剖图奠定了现代医学发展的基础GTA4CardsGC生物信息学发展阶段前基因组时代基因组时代后基因组时代生物信息学的发展趋势发现新基因和新的单核苷酸多态性基因组中非编码蛋白质区域在基因组水平研究生物进化完整基因组的比较研究从功能基因组到系统生物学蛋白质结构模拟与药物设计生物信息学在分子生物技术中的应用双序列比对多序列比对序列分析分子进化表达序列分析基因芯片数据分析基因注释与功能分析蛋白质及蛋白质组分析蛋白结构分析与预测转录调控信息分析生物分子网络单核苷酸多态与人类疾病MicroRNA与复杂疾病计算表观遗传学人类复杂疾病与计算系统生物学生物信息与精准医学精准医学是一种考虑基因、个体差异、生活方式和环境的促进健康和治疗疾病的新方法,是基于患者的基因、生理和病理特征来定制治疗方案,是更精确的个性化医学。精准医学线路图癌症精准化医疗癌症组学数据找到驱动癌症发生的分子作为药物靶点进行阻断肿瘤个体化诊疗的全平台建设病情咨询样本采集基因检测数据解读临床应用生物信息学数据库数据库是生物信息学重要的工作平台核酸研究(NAR)上收录的2000-2009年生物数据库数量增长趋势年度2000200120022003200420052006200720082009数据库数量11528133538654871985896810781230020040060080010001200140020002002200420062008数据库生物信息学数据库特点数据库数量增长迅速数据库内部结构日趋复杂数据库与用户之间构建交互通道数据库提供更新数据和分析工具,专业性更强数据库之间的交叉链接构成信息化网络全球生物学数据库NucleotideSequenceDatabasesRNAsequencedatabasesProteinsequencedatabasesStructureDatabasesGenomicsDatabases(non-vertebrate)MetabolicandSignalingPathwaysHumanandotherVertebrateGenomesHumanGenesandDiseasesMicroarrayDataandotherGeneExpressionDatabasesProteomicsResourcesOtherMolecularBiologyDatabasesOrganelledatabasesPlantdatabasesImmunologicaldatabasesCellbiology如何查找最新的数据库数据库分类数据库分类基因组数据库人类基因组数据库各种模式生物基因组数据库核酸和蛋白质一级结构序列数据库生物大分子三维空间结构数据库由以上三类数据库和文献资料为基础的二次数据库一次数据库一次数据库基因组数据库----来自基因组作图序列数据库----来自序列测定(表达数据……)结构数据库----来自X-衍射和核磁共振结构测定也称基本数据库、初始数据库二次数据库根据生命科学不同研究领域的实际需要,对基因组图谱、核酸和蛋白质序列、蛋白质结构以及文献等数据进行分析、整理、归纳、注释,构建具有特殊生物学意义和专门用途的二次数据库,是数据库开发的有效途径。也称专门数据库、专业数据库、专用数据库、复合数据库特点比较一次数据库的数据量大,更新速度快,用户面广,通常需要高性能的计算机硬件、大容量的磁盘空间和专门的数据库管理系统支撑。二次数据库的容量则要小得多,更新速度也不象一次数据库那样快,也可以不用大型商业数据库软件支撑。基因组数据库基因组数据库是分子生物信息数据库的重要组成部分,主要包括人以及鼠、河豚鱼、拟南芥、水稻、线虫、果蝇、酵母、大肠杆菌等各种模式生物。GDB----人类基因组数据库AceDB----线虫基因组数据库模式生物基因组计划研究中具有代表性的若干种生物,如小鼠、线虫、酿酒酵母、大肠杆菌等。通过模式生物的研究,可以了解相关的其他生物的特征。humanArabidopsis拟南芥ThermotogamaritimaEscherichiacoli大肠杆菌Buchnerasp.APSRickettsiaprowazekiiUreaplasmaurealyticumBacillussubtilisDrosophilamelanogasterThermoplasmaacidophilumPlasmodiumfalciparumHelicobacterpylorimouseCaenorhabitiselegansratBorreliaburgorferiBorreliaburgorferiAquifexaeolicusNeisseriameningitidisZ2491Mycobacteriumtuberculosis模式生物序列数据库核酸序列数据库EMBL(Europemolecularbiologylaboratory)GENBANK(NCBI)DDBJ(DNADataBankofJapan)蛋白质序列数据库PIR(proteininfo.resource)结构数据库蛋白质结构数据库PDB通过X射线晶体衍射和NMR测定的结构数据()蛋白质结构分类数据库SCOP---将蛋白质按传统分类方法分成型、型、/型、+型、多结构域蛋白、膜蛋白和细胞表面蛋白、小蛋白等七大类。CATH---将蛋白质分为主类、主类、-类、低二级结构类(二级结构成分含量很低的蛋白质分子)二次数据库基因组二次数据库蛋白质序列二次数据库蛋白质结构二次数据库二次数据库以核酸数据库为基础构建的二次数据库有基因调控转录因子数据库TransFac,真核生物启动子数据库EPD,克隆载体数据库Vector,密码子使用表数据库CUTG等。以蛋白质序列数据库为基础构建的二次数据库有蛋白质功能位点数据库Prosite,蛋白质功能位点序列片段数据库Prints,同源蛋白家族数据库Pfam,同源蛋白结构域数据库Blocks。二次数据库以具有特殊功能的蛋白为基础构建的有免疫球蛋白数据库Kabat,蛋白激酶数据库PKinase等。以三维结构原子坐标为基础构建的数据库为结构分子生物学研究提供了有效的工具,如蛋白质二级结构构象参数数据库DSSP,已知空间结构的蛋白质家族数据库FSSP,已知空间结构的蛋白质及其同源蛋白数据库HSSP等。蛋白质回环分类数据库则是用于蛋白质结构、功能和分子设计研究的专门数据库。此外,酶、限制性内切酶、辐射杂交、氨基酸特性表、序列分析文献等,也属于二次数据库或专门数据库。综合数据库——国家基因库CNGBTheCancerGenomeAtlas(TCGA,)与癌症的发生和发展相关的分子突变图谱EuropeanGenome-phenomeArchive(EGA,https://ega.crg.eu)多种测序以及分型数据,如基因组关联分析、分子诊断CancerGenomeAnatomyProject(CGAP,)收集了正常组织、前癌组织以及癌细胞的基因表达水平,以期改善癌症的检测、诊断以及病患治疗肿瘤生物信息学数据库数据库专业组织生物数据库已成为生物信息学重要的工作平台由世界上知名的生物信息机构组织维护和开发公共领域生物信息学组织NCBIEBIKEGG,DDBJ数据库TOOL数据库TOOL数据库TOOL国际著名的生物信息中心NCBI----NationalCenterforBiotechnologyInformation(US)EBI----EuropeanBioinformaticsInstitute(EU)HGMP----HumanGenomeMappingProjectResourceCentre(UK)ExPASy----ExpertofProteinAnalysisSystem(Switzerland)CMBI----CentreofMolecularandBiomolecule(TheNetherlands)ExPASy网络资源国内部分生物信息学服务器北京大学生物信息中心中国生物信息华大基因中国科学院微生物研究所天津大学生物信息中心中科院计算所智能信息处理重点实验室生物信息学研究组中国科学院基因组信息学中心上海—中国生物信息中心NCBI----为分子生物学数据库及软件提供国际化的信息资源其中包括人类基因工程,并且为计算生物学的研究以及生物医学信息的传播服务。NCBI已经帮助建立了一些新的数据库,这些数据库可以将已有的分子生物学数据库联合起来,以此来增强它们的功能,并且研发这些数据库之间的联接。NCBI于1992年承担了GenBankDNA序列数据库。计算生物学分部信息工程分部信息资源分部NCBI三个分支机构NCBI科研人员组成•计算机专家•分子生物学专家•数学家•生化专家•医学研究人员•结构生物学家NCBINCBI结构组成图数据库研究开发数据提交Pub-Med数据库查询和相似性搜索分类数据库结构NCBI生物信息学网站的使用以NCBI为例数据库资源概览数据库查询数据提交数据下载数据库使用的学习数据分析研究分支数据库资源概览数据库资源概览数据库查询数据提交数据下载数据库使用的学习数据分析研究分支单一信息查询在某一个数据库中进行一类信息查询(序列、结构、文献等)多信息查询同时在多个数据库中进行信息查询(核酸,蛋白,结构,高通量数据库等)综合信息查询在一个数据库中查询相关的多种信息(GENE、GEO等)数据库查询关键词ACCESSIONGeneSymbolProteinNameAuthorNameJournalTitleE.CNumberOrganism。。。。。。单一信息查询多信息查询以人波形蛋白Vinmentin基因为例NCBI主页查询结果Vinmentin在Gene数据库的记录Vinmentin在核酸数据