BLAST与序列相似性搜索上机

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

Bioinformatics,2008-2009,June,TMMUBLAST与数据库相似性搜索微生物学教研室邹凌云上机实验一Bioinformatics,2008-2009,June,TMMU教学内容了解常用生物信息学数据库的数据格式理解BLAST的基本原理与基本功能掌握主要生物信息学数据库的访问和数据检索使用BLAST进行相似序列搜索使用BLASTCLUST进行序列相似度聚类Bioinformatics,2008-2009,June,TMMU1342Outline上机实验注意事项操作一:生物信息学数据库访问与数据检索操作二:使用BLAST搜索相似序列操作三:使用BLASTCLUST进行相似序列聚类Bioinformatics,2008-2009,June,TMMU上机操作注意事项遵守计算机机房的各项规章制度服从授课教员与计算机教研室教员的管理和安排按课程要求和教师的规定上机操作,不得在上机过程中浏览与课程内容无关的网站Bioinformatics,2008-2009,June,TMMU理论课内容回顾双序列比对的基本理论与方法BLAST的基本原理去除低复杂度序列构建邻居单词表(种子)在数据库中搜索种子,并延伸获得HSP计算比对分值和统计显著性(E-Value)使用BLAST查询未知序列,确定序列生物学功能使用BLASTCLUST进行序列相似度聚类Bioinformatics,2008-2009,June,TMMU上机内容安排常用生物信息学数据库的访问和数据检索使用BLAST进行相似序列搜索使用BLASTCLUST进行序列相似度聚类Bioinformatics,2008-2009,June,TMMU上机文档下载ftp下载本次课上机文档:上机文档内容:上机内容与操作指南(Word文档)冗余的外膜蛋白数据集:OMP377.txt(FASTA格式)蛋白质三维分子可视化程序RasWin.exe/RasTop超级编辑器UltraEdit.rarBioinformatics,2008-2009,June,TMMU操作一:生物信息学数据库访问和数据检索Bioinformatics,2008-2009,June,TMMUNCBI与Genbank打开NCBI官方网站:观察页面内容,BLAST在何处?Genbank在何处?Bioinformatics,2008-2009,June,TMMUNCBI与GenbankBioinformatics,2008-2009,June,TMMU进入GenbankBioinformatics,2008-2009,June,TMMU进入EntreZBioinformatics,2008-2009,June,TMMU搜索Genbank中的核酸序列试着搜索人血红蛋白beta亚基基因,输入:HBBHuman限定搜索范围:GenbankBioinformatics,2008-2009,June,TMMU搜索结果页面Bioinformatics,2008-2009,June,TMMUmRNA序列存取号基因定义数据库标识符(GI)信息来源:gb_GenBankemb_EMBLdbj_DDBJsp_SWISS-PROTpdb_ProteinDatabasepir_PIRprf_PRFref_RefSeqBioinformatics,2008-2009,June,TMMUmRNA序列内容物种来源特性参考资料座位号Bioinformatics,2008-2009,June,TMMUGenBank的主要字段及其含义字段含义解释LOCUSIdentifier序列名称、性质描述ACCESSIONAccessionnumber序列接受号DEFINITIONDescription序列定义KEYWORDSKeywords关键词SOURCEOrganism(species)来源种属ORGANISMOrganism(classification)来源分类REFERENCEReferencenumber参文条目AUTHORSReferenceauthors参文作者TITLEReferencetitle参文题目JOURNALReferencelocation参文出处COMMENTSDatabasecross-reference交叉索引MEDLINEMedlinenumberMEDLINE号FEATURESFeaturetableheaderdata序列性质表头数据BASECOUNT碱基数目ORIGIN序列开始标志//Terminationline序列终止标志Bioinformatics,2008-2009,June,TMMUmRNA序列内容蛋白质ID源序列Bioinformatics,2008-2009,June,TMMU蛋白质序列内容Bioinformatics,2008-2009,June,TMMUExPaSy与Uniprot打开ExPaSy网站:观察页面内容,寻找Uniprot和BLAST在何处?搜索栏在何处?Bioinformatics,2008-2009,June,TMMUExPaSyBioinformatics,2008-2009,June,TMMUUniprot搜索结果Bioinformatics,2008-2009,June,TMMUP68871内容蛋白质名称基因名称物种来源Bioinformatics,2008-2009,June,TMMU有3D结构Bioinformatics,2008-2009,June,TMMU蛋白质结构数据库PDB登录蛋白质结构数据库PDB网站:观察页面内容,找到搜索栏,统计信息栏Bioinformatics,2008-2009,June,TMMUProteinDataBankBioinformatics,2008-2009,June,TMMUHBB_Human的结构数据1a00Bioinformatics,2008-2009,June,TMMU使用RasMol观察1a00三维结构下载1a00数据文件到本地磁盘解压缩RasTop或安装RasMol,打开1a00文件,观察其结构Bioinformatics,2008-2009,June,TMMU操作二:使用BLAST搜索相似序列Bioinformatics,2008-2009,June,TMMU任务描述某天,Prof.Gene在小鼠(Musmusculus)中又发现了一个与有丝分裂相关的基因,通过DNA测序,得到部分序列:GATGAGCTGCTTATCCTACAACGAGAAGTCGGACATCTGGTCCTTGGGCTGCCTGCTGTATGAGCTGTGTGCACTAATGCCTCCCTTTACAGCTTTCAACCAAAAAGAGCTAGCTGGGAAAATCAGGGAAGGGAGGTTCAGGCGCATCCCCTACCGCTACTCTGATGGCTTGAATGACCTCATCACTCGGATGCTGAATTTAAAGGACTACCATCGACCTTCAGTGGAAGAAATTCTGGAGAGCCCTTTGATAGCAGACTTGGTTGCAGAAGAGCAAAGGAGAAATCTGGAGAGGAGAGGACGGCGCTCAGGCGAGCCTTCGAAGCTGCCGGACTCCAGCCCTGTGCTGAGCGAGCTCAAGTTGAAGGAAAGGCAACTGCAGGATCGAGAGCAAGCACTCAGAGCTCGGGAGGACATCCTBioinformatics,2008-2009,June,TMMU问题:1.这个基因在小鼠中是哪个基因?基因的标识符是什么?这个基因在基因组上的定位是怎样的?2.这个基因在人中的同源物是哪一个?标识符是什么?3.在人中,这个基因标码的蛋白质是什么?具有什么样的功能?细胞亚定位在何处?这个基因是一个酶吗,什么酶?具有什么样的功能结构域?4.这个基因在酵母中保守吗?如果保守,哪个基因是人中的同源物?5.这个基因在人中的同源物,编码的蛋白质有3级结构的信息吗?如果有,给出在PDB中的标识符。Bioinformatics,2008-2009,June,TMMU思路首先在Genbank中搜索该序列的相似序列,判断其来自于那个基因输入文件的FASTA格式:GeneXGATGAGCTGCTTATCCTACAACGAGAAGTCGGACATCTGGTCCTTGGGCTGCCTGCTGTATGAGCTGTGTGCACTAATGCCTCCCTTTACAGCTTTCAACCAAAAAGAGCTAGCTGGGAAAATCAGGGAAGGGAGGTTCAGGCGCATCCCCTACCGCTACTCTGATGGCTTGAATGACCTCATCACTCGGATGCTGAATTTAAAGGACTACCATCGACCTTCAGTGGAAGAAATTCTGGAGAGCCCTTTGATAGCAGACTTGGTTGCAGAAGAGCAAAGGAGAAATCTGGAGAGGAGAGGACGGCGCTCAGGCGAGCCTTCGAAGCTGCCGGACTCCAGCCCTGTGCTGAGCGAGCTCAAGTTGAAGGAAAGGCAACTGCAGGATCGAGAGCAAGCACTCAGAGCTCGGGAGGACATCCTBioinformatics,2008-2009,June,TMMU在GenBank中进行BLAST搜索Bioinformatics,2008-2009,June,TMMU输入序列、选择数据库、搜索参数Bioinformatics,2008-2009,June,TMMU搜索结果图形化描述框Bioinformatics,2008-2009,June,TMMUGeneInfo染色体信息基因名称Bioinformatics,2008-2009,June,TMMU结论1:这个基因是小鼠的Nek2NIMA基因,基因标识符是:NM_010892.3;该基因定位于小鼠的1号染色体,位置:193399659-193737126Bioinformatics,2008-2009,June,TMMU搜索人中的同源基因思路:考虑到蛋白质序列更加保守,因此以小鼠该基因编码的蛋白质序列来搜索人中的相似序列Bioinformatics,2008-2009,June,TMMU获取该基因的蛋白质序列文件Bioinformatics,2008-2009,June,TMMUNIMA蛋白质序列文件Bioinformatics,2008-2009,June,TMMUBLAST搜索Bioinformatics,2008-2009,June,TMMU搜索结果Bioinformatics,2008-2009,June,TMMU人中的同源蛋白Bioinformatics,2008-2009,June,TMMUConservedDomains:S_TKcBioinformatics,2008-2009,June,TMMU发掘人中该同源蛋白的功能思路:获取人中的同源蛋白NP_002488.1的序列,在Uniprot中通过BLAST搜索该蛋白质序列Bioinformatics,2008-2009,June,TMMU蛋白质序列Bioinformatics,2008-2009,June,TMMUExPaSyBLAST搜索Bioinformatics,2008-2009,June,TMMU搜索结果:P51955Bioinformatics,2008-2009,June,TMMU功能描述Bioinformatics,2008-2009,June,TMMU三级结构信息Bioinformatics,

1 / 68
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功