生物信息学数据库列表美国生物技术信息中心(NCBI)GenBank()欧洲分子生物学实验室(EMBL)EMBL-Bank()日本遗传研究所DDBJ()基因组数据库:NCBI基因组数据库EntrezGenmous(=Genome)人类基因组计划图谱数据库:GDB()酵母基因组数据库:SGD()小鼠基因组信息学数据库:MGI()果蝇基因组数据库:FlyBase()线虫基因组数据库:WormBase()综合基因组数据库:Ensembl()表达序列标记数据库dbEST()序列标记位点数据库dbSTS()蛋白质序列数据库PIR()SWISS-PROT()TrEMBL()蛋白质数据仓库Uniprot()生物大分子结构数据库PDB(proteindatebank)()MMDB(molecularmodelingdatabase)()单碱基多态性数据库dbSNP()蛋白质结构分类数据库SCOP()蛋白质二级结构数据库DSSP()蛋白质同源序列比对数据库HSSP()序列模式数据库PROSITE()蛋白质指纹数据库PRINTS()人类遗传数据库OMIM(=OMIM)基因启动子数据库EPD()转录调控区域数据库TRRD()转录因子数据库TRANSFAC()基因本体数据库GO()生物、医学文献数据库PubMed()目录数据库DBCat()数据库集成ENTREZ()SRS()ExPASy()生物信息分析工具GCG()Wisconsin软件包转基因的主要公司:AgroEvoAmericanCyanamidBASFBayerDowChemicalDuPontFMCMonsantoNovartisRhone-PoulencZeneca1、生物大分子的序列是分子进化的产物,来源于共同祖先的序列倾向于表现相似的序列、结构和生物学功能。2、序列相似性是合理的预测成为可能。通常,对新序列的功能所知甚少,如能在数据库中找到相似序列,而后者的节购与功。。。相似性搜索工具十分重要:BLASTFASTA相似性检索的方式机内容:心序列作为“QUERY”输入,在数据库中通过比较寻找与其相似的序列:1、两两比较:比较两条序列间相似区域和保守位点,寻找分子进化关系2、多重比较:寻找共同的保守区、位点,导出产生共同功能的序列模式3、蛋白与核酸:寻找核酸序列可能的表达框架4、蛋白序列与具三维结构信息的蛋白比较:获得蛋白折叠类型的信息蛋白结构与功能必须列具有更大的保守性,据粗略估计,如果序列年间的相似性超过30%,他们就可能是同源的。序列比较:序列比较包括从两个或多个序列中找出所有显著相似的区域。最主要的问题:对于生物序列来说何为显著相似(偶然相似性和反应真实的进化及功能关系的相似性)。功能被编码与序列之中,即序列提供了句法。编码具有一定的冗余度(redundancy),即序列中一些位点的改变可以保持功能不变,这就使编码具有强劲的语义学。序列对位排列(aligment)是序列分析的基础在序列比较时必须考虑“gaps”的存在,采用通常“gaps”可以大大增加匹配碱基数量。序列比对的数学模型分为两类:整体比对、局部比对局部相似比对往往比整体比对具有更高的灵敏度,其结果更具有生物学意义。算法:Needleman-Wunch算法(globalalignment)寻找序列间的全局相似性,队列涵盖序列的全部内容S,ith-Waterman算法(Localalignment)队列几分:两个序列间对位排列的质量用记分系统计算原则:相同或相关残基记分,不匹配残基和gaps罚分记分/罚分标准:特殊氨基酸出现频率高频率氨基酸在序列中随机排列概率间隔长度及出现频率对位排列的分数是上述记分/罚分的代数和,分数越高越好记分系统-氨基酸置换打分矩阵打分矩阵:给不同氨基酸配对定义的一系列相似性分值。常用的相似性矩阵:突变数据矩阵(MD)PAM250模块替换矩阵BLOSUM62PAM矩阵基于进化的突变模型,通过可接受突变(自然选择)估计序列中的氨基酸置换几率。矩阵中大于0的元素对应的2个残基间发生突变的可能性较大,小于0,可能性较小,等于0,可能性是随机的。BLOSUM矩阵基于个蛋白家族的保守氨基酸模式(区块),根据数据库中所有排列的模式对置换类型进行记分。间隔罚分形式:1、每一个Gap对应一个固定的罚分A,A的大小控制罚分的强度程度。2、罚分Gsp长度成比例BL,较长的Gap有较大的罚分。3、A比较大,B比较小。IDENTITY(匹配率):用匹配残基占队列长度的百分比表示。与比对的长度无关,可提供长度不同序列间的比较。PositiveIDENTITY对核酸序列比对是合理和充分的。而蛋白质序列的比对还需要考虑氨基酸的性质(置换的倾向性)。SIMILARITY/HOMOLOGY任何一组序列均可表现相似性,同原序列必须来源于共同的祖先;相似的序列可能同源,可能不同源。相似性:通常在某位点上有一些氨基酸被另外一些化学物理特性相近的氨基酸所代替,这种突变可称为保守突变。同源性:只有当两个蛋白质在进化关系上具有共同的祖先时,才可称为他们同源的。序列相似性比较:就是将待研究序列与DNA或蛋白质序列库进行比较,用于确定该序列的生物属性,也就是找出与此序列相似的已知序列是什么。常用程序包:BLASTFASTA序列同源性分析:是将待研究序列加入到一组遇之同原,但来自不同物种的序列中进行多序列同时比较,以确定该序列与其它序列间的同源性大小。常用程序包:CLUSTAL数据库检索:是选择两个序列---〉是否蛋白质序列---〉局部对位排列否是否高质量排列--------〉改变参数(记分矩阵、间接罚分)是是排列记分的统计检验〈----检查序列,排除重复序列〈----------排列是否改进记分是否显著---------〉序列不具相似性序列显著相似BLAST(basiclocalalignmentsearchtool):程序名序列查询数据库搜索方法Blastn核酸核酸核酸序列搜索逐一核酸数据库的序列Blastp蛋白质蛋白质蛋白质序列搜索逐一蛋白质数据库中的序列Blastx核酸蛋白质核酸序列6框翻译成蛋白质序列后和蛋白质数据库中的序列逐一搜索Tblastn蛋白质核酸蛋白质序列和核酸数据库重点俄核酸序列6框翻译后的蛋白质序列逐一比对TBlastx核酸核酸核酸序列6框翻译成蛋白质序列,再和核酸数据库中的核酸序列6框翻译成的蛋白质序列逐一比对BLAST网络版:不利于操作大批量的数据,同时也不能自己定义搜索的数据库。基本步骤:1、滤去QUERY中的低重复型区域(对位排列无意义)2、在QUERY中列出固定长度的WORDS(蛋白质序列为3,核酸序列为11,翻译后为3),如1,2,3;2,3,4。。。序列最后3位3、利用WORD在数据库中查询任何3个字母组成的对位排列记分(PQG完全匹配为18,与PEG为15。。。),结果可能数千条。4、选择截断值T(threshold),减少结果数目,结果缩至数十条。5、沿序列的每个方向扩展,只要分值增加就持续进行扩展。如果记分不再增加,从而产生一个扩展序列,称为高几分片断HSPs6、记分显著性的统计学分析:Score:使用打分矩阵对匹配的片断进行打分,这就是对各对氨基酸(碱基)打分求和的结果,一般来说,匹配片断越长、相似性越高则Score值越大。Evalue;在相同长度的情况下,两个氨基酸残基随机排列的序列进行打分,得到上述Score值的概率的大小。E值越小表示随机情况下得到该Score值的可能性越低。重复序列的过滤:重复序列降低了相似性搜索的质量,必须在进行BLAST前从QUERY序列中除去(过滤)。BLAST要点:1、E值十分重要,是判断相似性的重要根据。E值选小更能反映真实的相似性,但选大也有必要,可以找到短的形似区域。2、DESCRIPTION数及ALIGNMENT数不应过小。3、点击列表中的SCORE可以直接跳到对应的ALIGNMENT4、可选最高分值的序列判断QURY的功能。但如果该序列长于QUERY,不能轻易判断是同原物,应对PSI-Blast。叠代数据库搜索(PSI-Blast):BLAST仅能检测全部远缘进化关系中的20%。PSSM:参数设置与BLAST的区别:1、数据库通常选nr(非冗长蛋白序列)2、两个E值,Wxpext为起始Blsat,默认为0,第二个为0.005多重序列比对()序列相似性比较:序列同源性分析:多序列比对在阐明一组相关序列的重要生物学模式方面起着重要的作用。所序列比对的方法:1、手工比对(bioedit\seaview.Genedoc)辅助软件结合实验结果或文献资料残基种类残基特性颜色AspGlu酸性红HisArgLys碱性兰SerThrAsnGln。。。。。2、计算机程序比动化比对最常见的就是clustal所采用的方法。在比对过程中,先对所有的序列进行两两比对并计算他们的相似性分值,然后根据相似性分值将他们分成若干组,并在若干组再进行比对。序列注释(核酸结构和功能的预侧分析)用生物信息学方法,高通量的注释基因组所有编码产物的生物学功能。序列注释原理:注