生物分子数据库

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

生物信息学数据库Bioinformaticsdatabase一、概述生物信息学的定义生物信息学是一门交叉科学,它包含了生物信息的获取、处理、存储、分发、分析和解释等在内的所有方面,综合运用数学、计算机科学和生物学的各种工具,来阐明和理解大量数据所包含的生物学意义。(美国人类基因组计划实施五年后的总结报告)二、生物信息学数据库种类《NucleicAcidsResearch》杂志每年的第一期中详细介绍最新版本的各种数据库。在2000年1月1日出版的28卷第一期115种通用和专用数据库。至2008年,生物信息学数据库总数已达1078个。比2007年增加110个。NucleicAcidsResearch杂志NucleicAcidsResearch杂志相关数据库及其主要分类1.核酸序列数据库2.RNA序列数据库3.蛋白质序列数据库4.结构数据库5.基因组数据库6.代谢酶相关产物7.人类和其他脊椎动物基因组8.人类基因和疾病9.其他数据和其他基因表达数据库10.蛋白组资源11.其他分子生物学数据库12.细胞器官数据库13.植物数据库14.免疫学数据库核酸序列数据库内容包括世界上所有已公布的核酸序列及其翻译产物序列报告和相关注释国际核酸序列委员会协作组:GenBank美国基因数据银行Embl欧洲分子生物实验室DDBJ日本核酸数据库整合平台:Entrez综合数据库序列通过正式递交进入数据库未正式发表文献以前,数据库予以保密蛋白质序列数据库SWISS-PROT(瑞士日内瓦大学)蛋白质序列数据库内容包括序列及功能信息、蛋白识别、蛋白质结构预测及其他功能NCBI蛋白质数据库包括所有蛋白质序列,及其翻译产物序列PIR蛋白质序列信息资源库(美、德)蛋白质结构数据库PDBProteinDataBank,美国Brookhaven国家实验室管理生物大分子三维空间结构原子坐标数据库NCBISTRUCTUREMMDB(MolecularModellingDataBase),包含了从PDB获取的实验确定的生物高聚物结构分子模型数据库SCOP(Structuralclassificationofproteins)英国医学研究会(MRC)剑桥分子生物学实验室开发的蛋白质结构分类数据库。包含描述蛋白质域的家族、超家族、折叠、等级等信息。基因组数据库图谱和显示器主要内容:有基因组结构、基因单位、基因组图谱等(遗传图、叠连群图、放射杂交图等)分布:由各国基因组研究中心组建,分布在世界各地的信息中心、研究机构。代表性的有:美国人类基因组数据库GDB美国NCBI基因组数据库Genome英国人类基因图谱数据库HGMPGenomeWeb美国人类基因组资源整合体系人类疾病与基因数据库OMIM孟德尔遗传信息数据库CGAPTheCancerGenomeAnatomyProject肿瘤基因组图谱知识库美国国立癌症研究所为解剖肿瘤细胞分子而建立。生物信息分析工具BLAST序列相似性对比PRIMER引物设计蛋白质结构预测数据库(EMBL)根据已知蛋白质序列,预测同族二级、三维等结构蛋白质功能预测数据库(EMBL)根据已知蛋白质序列,预测蛋白质功能我国生物信息相关网站中国生物信息网北京大学生物信息中心中国科学院(上海文献中心)三、生物信息数据库检索集成检索系统:Entrez系统(整合库)美国生物技术信息中心研制SRS系统(SequenceRetrievalSystem)欧洲分子生物学实验室开发可开放式安装100多个数据库,北京大学安装了78个数据库1.EntrezNCBI综合数据库是1991年由美国生物信息技术中心(NationalCenterforBiotechnologyInformation,NCBI)()Entrez用途检索大分子生物学数据获取GenBank,EMBL等数据库的核酸序列获取Swiss-port,PIR,PRF,PDB等蛋白质序列;从核酸序列翻译到蛋白质的序列获取基因和染色体图谱;蛋白质三维结构数据及大分子模式(MMDB)等其他生物信息数据库检索PubMed书目文献数据Entrez生命科学搜索引擎Entrez跨库检索检索字段限制分子类型选择基因位置限定序列片段限定数据更新日期限定功能栏核酸序列检索序列存取号基因定义数据库标识符代码物种来源参考文献特性专业评论碱基数原序列复制后,可到BLAST中进行相似性对本2.BLAST序列相似性检索BasicLocalAlignmentSearchTool是核酸和蛋白质序列的局部对准相似性检索工具序列相似性检索Blast是为从相同和不同的有机体中,提供对比核酸或蛋白质序列,寻找相似性序列片断的工具。从通过寻找不同基因的相同序列片段,可以推断最新测定的基因功能、预测基因家族的新成员、探索基因的进化关系。在基因组测序的工作中,序列相似性检索可以预测蛋白质代码和翻译产物的功能和定位。选择对比程序基因组对比特殊对比将序列数据库中的复制序列在此粘贴序列对比报告对比资源类似性图谱对比图谱报告数据库标识符基因定义类似性积分E值为匹配期望值。说明可以找到与搜索序列相匹配的其它序列的几率。E值越接近零,越不可能找到其它的匹配序列,其背后的含义就是E值越少,匹配度越好点击可得待检序列与库存序列对排基因表达库链接单基因库基因信息库人类染色体上的抗肿瘤基因序列对排表相关文献链接对排序列不一致处序列对排报告3.NCBIstructure提供为研究蛋白质三维(3D)结构集成的二个数据库:分子模型数据库(MMDB),提供关于各种蛋白质的结构信息;蛋白质域数据库(CDD),提供在proteins(CDs)内保存的功能领域序列和结构对准表达目录。这两个数据库让科学家检索和观看结构,从结构上查找特定蛋白质的相似蛋白质,并且辨认功能位点。Structure检索步骤第一步:在Entrezsturcture检索栏中直接输入的检索词包括:PDB代码,蛋白质名字,作者,或期刊名。第二步:通过Entrez列阵搜寻,得出检索初步结果。也许出现多个指定的蛋白质存在的记录,它们反映了不同的实验性技术情况,并且出现或缺乏各种各样的配合基或金属离子。记录也许包含全长分子的不同片段。另外,还有许多突变体蛋白质结构,用户要注意筛选。检索结果同时包含了PDB记录,包括实验性描述,PDB代码。第三步:显示结构概略页观察次要结构SecondaryStructure按钮对观看3D分子的结构是有用的前奏第四步:观看完整蛋白质结构按钮FullProteinStructures(须下载Cn3D软件)Viewing3DStructures检索MMDB例:查找铁氧化还原蛋白的三维结构蛋白质代码:1doi铁氧化还原蛋白:ferredoxinfe进入NCBISTRUCTURE1doi执行检索输入检索提问Structure记录蛋白质代码蛋白质描述:来自死海古菌的铁氧化还原蛋白StructureSummary蛋白质描述作者生物体分类名称参考文献显示3D结构下载显示软件蛋白质链栏。鼠标放在栏上,显示残基数。点击显示分子各条链、邻族结构。显示序列报告显示存储域蛋白质链栏点击链接鼠标放在链栏上,界面显示残基号死海高盐环境下,生物体蛋白的适应结果,外周结构中有许多亲水键,更容易结合钾离子,中间红色部分为铁离子,他们的结合位点清晰可见。透视图选择旋转放映4.NCBI基因组数据库GENOME美国国家生物技术信息中心NCBI整合。Genome数据库借助EntrezMapViewer(图形显示器软件),让用户观看数据库内带有综合遗传和自然图的各种有机体基因组、全部染色体、序列集成数据。序列显示蛋白质库生物学证据Viewer模型制作同源基因基因命名数据库`5.OMIMOnlineMendelianInheritanceinMan孟德尔遗传数据库由美国JohnsHopkins大学建立。现也属NCBI集成系统中的一个库。它主要报道人类基因和遗传缺陷相关疾病的文字信息、图片和参考文献,被称为人类基因及其相关疾病与遗传特征的百科全书例:查找与疾病相关的基因通过OMIM寻找疾病基因信息,通过染色体定位找到疾病基因。如:查找角化过度症(营养不良性神经病)Keratoderma,palmoplantarOMIM检索Keratodermapalmoplantar染色体位点OMIM检出结果OMIM基因图谱6.引物设计所谓引物是指在聚合反应中作为底物引发聚合产物的短的序列统称为引物。PCR反应中扩增一个已知序列DNA,对其引物须有一定的满足条件,才能有效地扩增模板序列,这些条件有:(1)引物长度为20个碱基;(2)引物序列与被扩增的序列不具有同源性;(3)引物中G+C碱基的含量以40%~60%为宜等。设计满足PCR扩增条件的引物称为最佳引物设计。根据引物设计的条件,进行计算机的程序处理,便可以方便地进行自动引物设计。目前国际上有许多设计最佳引物的软件,有网上Web界面,也有单位发行的软件包,它们的功能各有特色,优点各异。探针和引物设计相关网站PrimerPremier5.0primer3WHITEHEADINSTITUTE输入序列设定参数输出结果引物长度熔点起始序列数引物中碱基+c的比例引物起始处与寡合苷酸任意区域的互补指数引物与寡合苷酸3’端的互补指数引物序列7.蛋白质结构预测蛋白质预测的常用途径1.从氨基酸组成辨识蛋白质2.预测蛋白质的物理性质3.蛋白质二级结构预测4.其他特殊局部结构5.蛋白质的三维结构蛋白质的三维结构7.5.1SWISS-MODEL:7.5.2CPHmodels:蛋白质预测的成功范例色氨酸笼trp-cagenlyiqwlkdggpssgrppps由20个氨基酸构成,是华盛顿大学的JonathanNeidigh制造的人造蛋白。大部分小分子短链结构比较松散,这种蛋白质却像大分子

1 / 75
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功