生物信息学数据库2015/9/9数据库是指以一定方式储存在一起、能为多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合生物信息数据库分类:①根据数据的来源和数据整理的不同:一级数据库和二级数据库②根据数据库存储的内容不同:核酸序列数据库、基因组数据库、核酸/蛋白质结构数据库等数据库概述一级数据库的数据直接来源于实验原始数据,只经过简单的归类、整理和注释二级数据库是在一级数据库、实验数据和理论分析的基础上,针对不同的研究内容和需要对生物学知识和信息进行综合整理构建的数据库其中核酸序列数据库、基因组数据库等属于一级数据库数据库概述数据库的更新速度不断加快数据量呈指数增长趋势数据库使用频率增长迅速数据库复杂程度不断增加数据库网络化数据库功能面向应用拥有先进的软硬件配置等数据库特征第一节核酸序列数据库一、GenBank数据库GenBank数据库由LosAlamosNationalLab于1982年4月创建,属于一级数据库。包含了目前所有已知的核苷酸序列和蛋白质序列及其相关的文献著作和生物学注释。其数据来源于约10万个物种,其中56%是人类的基因组序列。数据库来源有3种:直接来源于测序工作者提交的序列、INSDC交换和共享数据、美国专利局提供的专利数据。目前世界上的权威期刊在作者发表论文时都要求提供GenBank数据库的序列号GenBank数据库简介GenBank数据库使用以Nucleotide数据库为例,查询IL-1β种系小鼠IL-1β完整mRNA序列检测结果EMBL数据库1980年由德国科隆大学收集整理,是世界上第一个核酸序列数据库,数据主要来源于基因组计划、序列中心、科研工作者提交的序列和专利局提供的专利数据等EMBL数据库的三种数据类型包括EST(表达序列标签)、HTG(高通量序列)和GSS(基因组序列)EMBL重要特征:核苷酸的蛋白质编码区(CDS)二、EMBL数据库查询形式:①TextSearch(文本查询),输入已知基因编号、名字等②SequenceSearch(序列查询),可输入待查询的核苷酸序列或序列编号EMBL数据库的使用获取m-RNA信息,在页面最下端是全序列信息,在页面的上端提供序列不同格式的序列信息,包括TEXT、FASTA、XML日本DNA数据库DDBJ(DNADataBankofJapan),建于1984,主要向研究者收集DNA序列信息并赋予其数据存取号网址:三、DDBJ数据库蛋白质序列不仅可以来自实验测序结果,也可以根据基因组序列预测新基因,预测编码区域,并推测其蛋白质的序列蛋白质数据库UniProt(UniversalProteinResource),网址:第二节蛋白质序列数据库UniProt包括:①UniProtKnowledgebase(UniProt)蛋白质序列、功能、分类、交叉引用等信息存取中心②UniProtNon-redundantReference(UniRef)数据库,该数据库将密切相关的蛋白质序列结合到一个记录中,提高搜索速度③UniProtArchive(UniParc),一个资源库,记录所有蛋白质序列的历史由美国生物医学基金会NBRF在1984年组建,目的是鉴别和解释蛋白质序列信息,研究分子进化、功能基因组学,并进行生物信息学分析。可快速了解蛋白质信息,发掘蛋白质家族中其他成员,并比较蛋白质的序列,获取蛋白质相关信息。数据库中除含有蛋白质序列信息外,还储存有蛋白质名称、分类、来源、功能等信息。与其他重要数据库如GenBank、EMBL、DDBJ、GDB等数据库有链接索引一、PIR数据库PIR蛋白质序列数据库PIR-PSD蛋白质分类数据库iProclass蛋白质参考资料数据库PIR-NREF提供三种类型的检索服务:基于文本的交互式查询,标准的序列相似性搜索,结合序列相似性、注释信息、蛋白质家族信息的高级检索主页:数据库的使用该蛋白质在UniProKB中的信息该蛋白质在PIR数据库中的原始信息1986年由日内瓦大学和欧洲生物信息学研究所(EBI)联合建立,数据来源包括:从核酸数据库经过翻译推导产生,从PIR中挑选合适的数据,研究人员直接提交,科学文献中摘录网址:二、SWISS-PROT数据库是SWISS-PROT数据库的补充,是计算机注释的蛋白质数据库,主要包括含从三大核酸数据库中根据编码序列(CDS)翻译得到的蛋白质序列。三、TrEMBL数据库四、UniProt数据库人类基因组计划被誉为生命科学“Appolo登月计划”,由美国科学家于1985年率先提出,于1990年正式启动,美国、中国、英国、法国、德国、日本科学家共同参与了这一预算达30亿美元的人类基因组计划.基因组数据库的主体模式是生物基因组数据库,其中最重要的是人类基因组数据库ꎬ如GDB、GenBank等第三节基因组数据库由约翰·霍普金斯大学在1990年建立,现由加拿大多伦多儿童医学生物信息及计算机中心负责维护,国际上许多生物信息中心建有镜像方便地观察染色体上不同区域或考察标记间的顺序和距离包括:染色体形态图谱、叠边群图谱、基因连锁图谱、放射杂交图谱、序列特性图谱等一、GDB数据库UCSC由美国加州大学克鲁兹分校的生物信息研究人员建立,收集了高分辨物理图、mRNA和EST比对、基因预测、物种序列同源性比较、多态性等多种生物信息资源。具有界面直观,数据丰富的特点,和将基因组物理图与功能序列位置直接对应的优势,该数据库提供用户基因查找、基因预测、mRNA序列标签、表达序列标签、比较基因组学等多种功能,在研究已知基因表达调控及基因与疾病的关系中提供参考二、UCSC数据库网址:实验中采用生物物理方法、X线晶体衍射方法、磁共振波谱分析等获取了大量蛋白质和核酸的结构,将这些结构借助计算机技术整理和存储形成生物分子结构数据库,每个结构数据库用图像直观的表示蛋白质和核酸结构,通过测量蛋白质模型中每个原子在设定的直角坐标系中的距离记录三维数据,这些数据对研究酶与底物分子的相互作用关系、核酸与蛋白质相互作用关系、药物设计、蛋白质卷曲等提供了重要理论价值第四节结构数据库创建于1971年,是蛋白质空间结构数据和其他大分子结构内容,进行蛋白质二级结构预测、蛋白质进化以及大分子相互作用的研究等网址:一、PDB数据库小鼠IL-6结构是NCBI开发的生物信息数据库集成系统Entrez的一部分,内容包括来自于实验的生物大分子结构数据,与PDB相比,MMDB具有很多附加信息,如分子的生物学功能、产生功能的机制、分子的进化历史,还提供生物大分子三维结构模型显示、结构分析和结构比较工具网址:二、MMDB数据库许多针对特定研究的生物信息学数据库如:放信号通路的数据库磷酸化位点的数据库转录因子信息数据库第五节项数据库1995年日本京都大学生物信息学中心的Kanehisa实验室建立在酶与信号通路方面的研究占领了世界先导地位网址:一、KEGG数据库1980年由ColdSpringHarbor实验室创建提供的数据经过实验验证和人工筛选,保证了数据的有效性,该数据库不但提供转录因子结合位点序列信息,还提供转录因子结合位点的基因组定位信息,数据库引入了基因调控网络的概念,提供可视化的网络调控资源二、TRED数据库网址:=home搜索转录因子-靶基因网站靶基因信息和基因调控网络列表基因调控网络图生物信息学的发展使数据库的种类和数量在不断增加,数据资源更加丰富与完善,功能更为强大,目前生物信息数据库已不只局限于数据的存储与提取,也提供强大的数据分析功能,成为综合性信息学网站研究者根据自己的需要可以选择合适的数据库,为自己的生物学研究提供优质、便捷、快速的服务三、小结