实验一生物信息数据库及生物信息分析软件应用现代分子生物学大实验实验目的•掌握生物信息学基本概念、原理及方法•应用生物信息学的一些工具进行初步的生物信息分析•运用PrimerPrimier5进行引物设计实验主要内容•分子生物学数据库:掌握数据库的种类、功能,文献查找方法•相似序列的数据库搜索:掌握NCBI中几种基本局部序列比对方法及几种单机软件的使用方法(Blastn;Blastp;Blastx;tBlastn)。•生物信息学单机软件介绍:PrimerPrimier5•欧洲分子生物学实验室•EMBL(EuropeanMolecularBiologyLaboratory)•美国生物技术信息中心•NCBI(NationalCenterforBiotechnologyInformation)•日本遗传研究所•DDBJ(DNADataBankofJapan)国际权威数据库国际权威数据库•蛋白质数据库SWISS-PROTTrEMBL(translationofEMBL)PIR(Promoterinformationresource)PRF(Promoterresearchfoundation)PDBSTR(Re-organizedProteindataBank)Prosite•结构数据库PDB(ProteinDataBank)NDB(NucleicAcidDatabase)DNA-bindProteindatabaseswiss-3DIMAGE•酶和代谢数据库KEGG(KyotoEneyclopedinofgenes&genemes)PKR(ProteinKinaseResource)•文献数据库PubMedOMIMAgricola常用数据库•孟德尔人类遗传(OMIM),三维蛋白质结构的分子模型数据库(MMDB),唯一人类基因序列集合(UniGene),人类基因组基因图谱,分类学浏览器,同国立癌症研究所合作的癌症基因组剖析计划(CGAP)。•Entrez是NCBI的为用户提供整合的访问序列,定位,分类和结构数据的搜索和检索系统。Entrez同时也提供序列和染色体图谱的图形视图。Entrez是一个用以整合NCBI数据库中信息的搜寻和检索工具。这些数据库包括核酸序列,蛋白序列,大分子结构,全基因组,和通过PubMed检索的MEDLINE。Entrez的一个强大和独特的特点是检索相关的序列,结构和参考文献的能力。杂志文献通过PubMed获得,PubMed是一个网络搜索界面,可以提供对在MEDLINE上的九百万杂志引用的访问,包含了链接到参与的出版商网络站点的全文文章。•BLAST是一个NCBI开发的序列相似搜索程序,还可作为鉴别基因和遗传特点的手段。BLAST能够在小于15秒的时间内对整个DNA数据库执行序列搜索。NCBI提供的附加的软件工具有:开放阅读框寻觅器(ORFFinder),电子PCR,和序列提交工具,Sequin和BankIt。所有的NCBI数据库和软件工具可以从来获得。NCBI还有E-mail服务器,提供用文本搜索或序列相似搜索访问数据库一种可选方法。NCBI相关介绍核苷酸数据库•dbESTEST来源于mRNA-基因长度(300-400bp,数据长度足以分析编码的产物)或者全基因(已知)-5’端或3’端的cDNA序列(EST)-300-400bpsingle-passsequence(可能有误,如果要求0.1%的错误率,需要测序8-10次)-GenBank中71%以上的是EST序列。•UniGene来源于同一基因的非重复EST,组成基因序列群(contig)dbSTS(sequencetaggedsites)a.短序列(200-500bp)b.已完成染色体上的定位c.可以与电子PCR相连用•dbGSS(genomesurveysequence)a.基因组短序列b.cosmid、BAC、YAC外源插入片断末端序列c.AluPCR序列•HTG(high-throughputgenomesequence)尚未完成测序的重叠群(2kb)•dbSNP每100-300bp有一个SNP•EPD(EukaryoticPromoterDatabase)启动子数据库文献数据库序列相关检索操作•序列查询–登录号(如X58929)–序列名称(如SCARGC)•核酸同源性搜索–BLAST分析•浏览整个基因组–直观显示各染色体,可以在染色体水平上选择感兴趣的位点,逐层放大浏览染色体浏览染色体浏览染色体•Blastp:氨基酸序列检索蛋白质库将待查询的蛋白质序列及其互补序列一起对蛋白质序列数据库进行查询;(Searchanucleotidedatabaseusinganucleotidequery)•Blastn:核苷酸序列检索核苷酸库将待查询的核酸序列及其互补序列一起对核酸序列数据库进行查询;(Searchanucleotidedatabaseusinganucleotidequery)•Blastx:核苷酸序列氨基酸序列蛋白质库先将待查询的核酸序列按6种可读框架(逐个向前3个碱基和逐个向后3个碱基读码)翻译成蛋白质序列,然后将翻译结果对蛋白质序列数据库进行查询;(Searchproteindatabaseusingatranslatednucleotidequery)•tBlastn先将核酸序列数据库中的核酸序列按6种可读框架翻译成蛋白质序列,然后将待查询的蛋白质序列及其互补序列对其翻译结果进行查询;(Searchtranslatednucleotidedatabaseusingaproteinquery)•tBlastx先将待查询的核酸序列和核酸序列数据库中的核酸序列按6种可读框架翻译成蛋白质序列,然后再将2种翻译结果从蛋白质水平进行查询。(Searchtranslatednucleotidedatabaseusingatranslatednucleotidequery)同源性搜索(BasicLocalAlignmentSearchTool)序列特征注释AnnotationbysequencefeaturesSubcellularLocalizationNoneSignalpeptideNoneobvioustransmembraneregionMotifsDomainsPfamInterProCoiledCoilRegionsSTRUCTURECannotfinddatainPDBPredictedinGTD多序列比对MultiplesequencealignmentanalysisClustalW,viewasJalView引物设计-primerprimer5软件•引物设计的一般步骤–序列查询•单基因序列•多基因序列–引物设计–引物确定引物的设计原则•引物与模板的序列要紧密互补•引物与引物之间避免形成稳定的二聚体或发夹结构•引物不能在模板的非目的位点引发DNA聚合反应(即错配)•引物的长度一般为15-30bp,常用的是18-27bp,但不应大于38,因为过长会导致其延伸温度大于74℃,不适于TaqDNA聚合酶进行反应。•引物所对应模板位置序列的Tm值在72℃左右可使复性条件最佳。Tm值的计算有多种方法,如按公式Tm=4(G+C)+2(A+T),在Oligo软件中使用的是最邻近法(thenearestneighbormethod)。•Tm值:50%的引物和互补序列表现为双链DNA分子时的温度引物的设计原则•引物序列在模板内应当没有相似性较高,尤其是3’端相似性较高的序列,否则容易导致错配。引物3’端出现3个以上的连续碱基,如GGG或CCC,也会使错误引发机率增加。•引物3’端的末位碱基对Taq酶的DNA合成效率有较大的影响。不同的末位碱基在错配位置导致不同的扩增效率,末位碱基为A的错配效率明显高于其他3个碱基,因此应当避免在引物的3’端使用碱基A。引物的设计原则•引物二聚体及发夹结构的能值过高(超过4.5kcal/mol)易导致产生引物二聚体带,并且降低引物有效浓度而使PCR反应不能正常进行。•5’端序列对PCR影响不太大,因此常用来引进修饰位点或标记物。对引物的修饰一般是在5’端增加酶切位点,应根据下一步实验中要插入PCR产物的载体的相应序列而确定。引物的设计原则primerprimer5软件的使用primerprimer5软件的使用primerprimer5软件的使用primerprimer5软件的使用primerprimer5软件的使用primerprimer5软件的使用primerprimer5软件的使用作业•按要求认真撰写报告,包括实验目的、实验原理、实验材料、实验用品及药品、实验步骤、实验结果。•网上查找拟南芥、水稻FER/PIP/MDAR基因序列•基因序列进行比对•设计FER/PIP/MDAR基因引物Thankyouforyourattention!