Uniprot蛋白数据库

coomcorn
1 ℃
2020-03-04

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

Uniprot蛋白数据库之前，世界上最广泛使用的蛋白数据库为瑞士的SWISS-PROT计划建立的数据库，NHGRI的项目主任PeterGood介绍说。但由于编辑详细蛋白结构数据库时间紧迫，再加上资金短缺，SWISS-PROT无法跟上基因组学飞速前进的步伐，Good说。这种形势导致了TrEMBL的产生，这是计算机注释的SWISS-PROT分支数据库，目的是暂时储存日益增多的蛋白质结构信息。另外，美国的蛋白信息资源（ProteinInformationResource，PIR)也独立编辑其自己的数据库。后来，这三个计划的领导人将展开合作，将三大数据库合并为一个。联合起来的力量将“减少重复工作，由此也可以节省不必要的费用。”SWISS-PROT的领导人、英国剑桥欧洲生物信息研究院的RolfApweiler说道。，UniProt将是SWISS-PROT、TrEMBL和PIR三大数据库的最佳整合一个集中化的数据库十分重要，密歇根大学的肿瘤学家SamirHanash对此表示同意。他同时也是人类蛋白组组织（HumanProteomeOrganisation）的主席。然而，Hanash提醒说，UniProt只是一个开始，还需要建立其它的数据库来储存有关蛋白质何时何处在机体中活动的信息，他说。（2002年）这句话不仅代表了Uniport数据库，也是代表了整个生物信息学，科研本就是站在巨人的肩膀上发展的，那么这个肩膀也得与时俱进了！Uniport的前世今生UniProt（全称UniversalProtein），它整合了三个老字号数据库（Swiss-Prot、TrEMBL和PIR-PSD）的数据。是目前信息最丰富、资源最广的免费蛋白质数据库（注意没有之一哦！）。UniProt知识库（UniProtKB）是收集蛋白质功能信息的中心枢纽，具有准确，一致和丰富的注释。除了捕获每个UniProtKB条目强制的核心数据（主要是氨基酸序列，蛋白名称或描述，分类数据和引用信息）外，还会添加尽可能多的注释信息。这包括广泛接受的生物本体论，分类和交叉引用，以及以实验数据和计算数据的证据归属形式的注释质量的明确指示。蛋白质序列从哪里来？由UniProtKB提供的超过95％的蛋白质序列来源于已经提交给公共核酸数据库，EMBL-Bank/GenBank/DDBJ数据库（INSDC）的编码序列（CDS）的翻译。所有这些序列以及作者提交的相关数据都自动整合到UniProtKB/TrEMBL中。除翻译的CDS之外，UniProtKB蛋白质序列可以来自：1、在PDB数据库。2、通过直接蛋白质测序实验获得的序列，通过Edman降解或MS/MS实验并提交给UniProtKB/Swiss-Prot。只有约5％的UniProtKB/Swiss-Prot条目包含通过直接蛋白质测序获得的序列数据（具有关键字的条目列表'Directproteinsequencing'）。3、从文献（igPRF或其他期刊扫描项目）扫描的序列。4、从基因预测，没有提交的序列EMBL-Bank/GenBank登录/DDBJ。5、序列来源于内部基因预测，在非常特殊的情况下。Uniprot主要功能查询蛋白质序列以及其他多种信息查询蛋白质组找相似的蛋白质对比多种蛋白质序列查询蛋白质相关文献网站的网址为，先来看看全景图吧！这个数据库可以大致分为6个主题部分，如上图红框所示1、UniProtKB；2、UniRef；3、UNIParc；4、Proteomics；5、Supportingdata。6、检索区这次我们先游览第一个主题，也是最经典的部分。（其实其他的主题我自己还没有完全搞明白）1、UniProtKB（UniversalProteinKnowledgebase）它是经过专家校验的数据集，又分成两部分（绿框部分，不用担心，这些都是免费的，不是那种滥收费园中园）1.1、Swiss-Prot(经过人工检查、校验的条目)高质量的、人工注释的、非冗余的数据集；主要来自文献中的研究成果和E-value校验过的计算分析结果。截止到昨天Swiss-Prot包含556,196条记录，（2010年8月10日有519,348条记录，7年后增加了3万多条记录，评价每天大约10几条记录，速度还是比较慢的。）1.2、TrEMBL(计算机自动注释的、未经人工校验的条目)该数据主要是利用计算机对大量基因组数据流进行分析注释（人工校验速度暂时无法跟上数据的产生速度）。截止到昨天2017年03月19日TrEMBL包含98,705,220条记录，（2010年8月10日有110,636,205条记录，7年后数据量减少了很多，估计是去掉了很多重复的数据）另外大家会注意到这里的数据是Swiss-Pro数据的100多倍。进入方式多种多样，1、主页默认的入口就是UniProt；2、可以直接点击红框1区域进入；3、也可以通过点击红框6，系统会弹出下拉菜单如图2所示，选择UniProt红框1即可进入。检索区主要是为了让有经验同学快速找到自己感兴趣的蛋白质，可以按照蛋白质的名称、序列，ID号等方式检索。红框1区是对这个主题区域的简要介绍红框2区可以让游客根据自己的喜好来显示蛋白质数据，比如可以只显示经过人工校验的条目；可以只看专属于某个物种的蛋白质；还可以检索物种分类；还有直接快速进入UniRef的通道以及视频化的帮助，演示文件红框3区是主题区，这里列出了所有UniProt数据库的蛋白质条目，因为数据太多(这个数字其实是Swiss-Pro与TrEMBL两部分的总和），每页显示25条（您可以自己选择每页的显示数目10、25、50、100或200），Entry：是UniProt的给每个蛋白质赋予的独一无二的ID号Entryname:是蛋白ID简要名字Proteinnames:蛋白质的名字Genenames:编码这个蛋白的Gene名字Organism：蛋白质的种属来源Length:氨基酸长度首先sp表示，Swiss-Prot数据库是注释精炼的蛋白序列库，它的所有序列都经过了科学家的查阅文献核实(reviewed,manuallyannotated)。P02769是蛋白在uniprot上的ID号，即蛋白的身份证号。ALBU_BOVIN是蛋白在uniprot上的登录名，跟P02769是一个作用。Serumalbumin是蛋白名称，即蛋白的姓名啦。OS表示Organism，也就是物种名称，数据库中的物种名称一般为拉丁名称，牛血清白蛋白Bostaurus当然是牛的拉丁。GN表示genename,即基因名称PE表示ProteinExistence，即蛋白的可靠性，PE=1、2、3、4、5分别对应如下，可以看出数字越小可靠性越高：1.Experimentalevidenceatproteinlevel蛋白质水平实验证据2.Experimentalevidenceattranlevel转录水平实验证据3.Proteininferredfromhomology从同源蛋白质推断4.Proteinpredicted蛋白质预测5.Proteinuncertain蛋白质不确定SV表示SequenceVersion，即序列版本，即蛋白的身份证第二代，第三代……这里需要指出的是，除了sp，有时还会出现TR。红框2区只看专属于某个物种的蛋白质红框3区第一行tBLAST:这个按钮可以让你用感兴趣的蛋白质序列做BLAST分析（就是查一下在UniProt数据库中，还有哪些蛋白质的氨基酸序列与你感兴趣的蛋白质相同或相似），别小瞧这个功能，知道哪些蛋白与目的蛋白序列相似，就有可能知道这个蛋白具有哪些生物系功能，如果恰好还有其他相似蛋白的结构信息，就能帮助你大致知道这个蛋白的空间结构。使用这个功能必须先选中，只能选中一个蛋白质。iAlign:tBLAST是对单个蛋白序列与数据库数据进行比对，iAlign可以让你对多个蛋白质的序列之间进行相似性比对，这种分析可以让你找到这些蛋白之间的结构保守区域，还可以根据蛋白质的相似性，分析这些蛋白之间的亲缘关系，进化的先后顺序等。基本局部比对搜索工具=Download：这个容易理解，您可以下载蛋白的序列数据，可以下载选中的蛋白，也可以下载全部蛋白（做蛋白质组学分析的人经常用，否则没有必要全部下载，不过有时候最好定期下载更新一下，还是很有必要的）下载的格式也多种多样，比如FASTA，Text，Excel，XML，List等，如果数据量大，还可以选择压缩以后下载。bAddtobasket:这个按钮的功能是可以随时将你感兴趣的蛋白质条目加入购物篮以备后期使用，最多可以加400条数据，呵呵，这个不是超市的购物篮，是不收费的。eColumns:这个可以让您定制蛋白数据列信息，就是自己定制显示哪些列信息，这个内容非常多，包括名称和分类学信息，序列信息（氨基酸长度，分子量，SNP等），功能信息（ECnumber,信号通路，活性位点，各种结合位点等），相互作用信息，表达信息，亚细胞定位信息，翻译后修饰，结构，家族及结构域信息，序列信息.........太多了，感兴趣的自己进去看吧！bAddtobasket:这个按钮的功能是可以随时将你感兴趣的蛋白质条目加入购物篮以备后期使用，最多可以加400条数据，呵呵，这个不是超市的购物篮，是不收费的UniProt参考群集（UniRef）提供来自UniProt知识库（包括同种型）和选定的UniParc记录的序列集合集合，以便以多种分辨率获得对序列空间的全面覆盖，同时从视图中隐藏冗余序列（但不包括其描述）。与UniParc不同，序列片段被合并到UniRef中：UniRef100数据库将具有来自任何生物体的11个或更多残基的相同序列和亚片段组合成单个UniRef条目，显示代表性蛋白质的序列，所有合并的登录号条目和链接到相应的UniProtKB和UniParc记录。UniRef90是通过用UniRef100序列对11个或更多残基进行聚类而构建的CD-HIT算法（LiW.和GodzikA.，Bioinformatics，22：1658-1659,2006），使得每个簇由与最长序列（aka）具有至少90％序列同一性和80％种子序列）。同样，UniRef50是通过对UniRef90种子序列进行聚类构建的，这些序列与聚类中最长的序列具有至少50％的序列同一性，并且具有至少80％的重叠性。在2013年之前，没有重叠阈值，所以簇的长度更加不均匀。UniRef90和UniRef50产生的数据库大小分别减少约58％和79％，提供显着更快的序列相似性搜索。种子序列是群集中最长的成员。然而，最长的序列并不总是最丰富的。其他集群成员往往有更多的生物相关信息（名称，功能，交叉引用）UniParc是一个主要的序列库，是一个全面的存储库，它反映了所有蛋白质序列的历史。联合研究中心为所有来自不同来源的新的和经过修改的蛋白质序列提供了所有的信息，以确保完整的覆盖在一个单一的站点。它包括不仅UniProtKB还翻译从EMBL-Bank/DDBJ基因库核苷酸序列数据库,运用数据库的真核基因组,H-Invitational数据库(H-Inv),国际蛋白质指数(IPI),蛋白质数据库(PDB),蛋白质研究基金会(脉冲),NCBI年代的参考序列集合(RefSeq),数据库模式,SGD,TAIR拟南芥和WormBaseTROME和蛋白质序列。为了避免冗余，序列被作为字符串处理，所有序列在整个长度上都是完全相同的，不管源组织是什么。新的和更新的序列每天都被加载，交叉引用源数据库的加入号，并提供一个序列版本，在对底层序列的更改上增加。每个UniParc条目中存储的基本信息是标识符、序列、循环冗余检查号、源数据库(s)和添加和版本号，以及时间戳。UniProt提供了几组被认为由其基因组已被完全测序的有机体表达的蛋白质，被称为“蛋白质组”。在过去，这些集合是基于生物分类学，结合关键词完整蛋白质组，但随着越来越多的同一生物体的基因组正在测序，我们引入了独特的蛋