细菌种特异性的16SrDNA寡核苷酸探针数据库的初步构建

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

细菌种特异性的16SrDNA寡核苷酸探针数据库的初步构建蔡正求首都师范大学生物系,北京100037摘要:核酸二级数据库是生物信息学研究的重要领域,对生命科学的研究和发展起重要作用。目前,国际核酸序列公共数据库中存在大量的细菌16SrDNA序列,本文将利用这些已知细菌的16SrDNA序列,设计细菌种的特异性寡核苷酸探针,将其结果存入数据库,以计算机网络为载体,开发界面友好的通过浏览器实现对数据库查询的系统,查询结果形象直观,为设计细菌的种特异性寡核苷酸探针提供参考和帮助,从而可加速对细菌分类及鉴定的进程。关键词:细菌种特异性16SrDNA寡核苷酸探针二级数据库CONSTRUCTIONDATABASEOFSPECIES-SPECIFICOLIGONUCLEOTIDEPROBESTARGETEDFOR16SrDNAOFBACTERIAAbstract:Secondarydatabasethatplayanimportantroleintheresearchanddevelopmentofbiologyisavitalresearchsubjectinthefieldofbioinformatics.Atpresent,thereareenormous16SrDNAsequencesofbacteriaavailableintheGenbank.Inthispaperthespecies-specificoligonucleotideprobesforvariousbacteriaaccordingto16SrDNAhavebeendesignedandstoredintodatabase.Andanuser-friendlysearchsystembasedoncomputernetworkhasbeenconstructed.Thissecondarydatabasecouldhelpuserstodesignoligonucleotideprobestoclassifyandidentifybacteria.Keyworks:Bacteria,Species-specific,16SrDNA,Oligonucleotideprobe,Secondarydatabase生物信息学是近年来生物学与计算机科学、信息学及应用数学交叉融合而衍生出的新兴边缘学科。随着人类基因组计划等大型国际项目的实施,分子生物信息的研究开发和应用已经成为当前一个前沿领域和研究热点。DNA序列测定技术的完善和应用,使核酸序列数据库迅速增长。国际上著名的三大核酸序列数据库(EMBL,GenBank和DDBJ)的数据量以指数曲线增长,并为其他生物学数据库的建立提供了丰富完善的资源。但这些数据库提供的仅仅是未加工的原始数据,我们称之为一级数据库。这些一级数据库中存在大量的冗余信息,用于解决特殊生物学问题的信息越来越难提取。二级数据库是根据研究任务的需要,通过搜索、查询已知数据库的信息进行加工整理,构建专用的数据库[1]。以一级数据库为基础,将它们按照不同使用者的要求,采用计算机技术,归纳、提炼、整理、加工和构建具有特殊生物学意义和专门用途的二级数据库对于生物学研究意义更大。rDNA分子在生物体中普遍存在,生物细胞rDNA分子的一级结构中既具有保守的片段,又具有变化的碱基序列[2]。保守的片段反应了生物物种间的亲缘关系,而高变片段则能表明物种间的差异,那些保守的或高变的特征性核苷酸序列则是不同分类级别生物(如科、属、种)鉴定的分子基础。因此可根据rDNA序列设计用于某一种、属、科甚至更大类群范围的微生物的检测或鉴定的探针[3]。近几年来,以16SrDNA为靶分子的PCR引物或杂交探针已用于很多细菌的快速鉴定,它已成为细菌系统发育分析及鉴定的最有效和最常用的分子指标[4]。随着计算机网络技术的迅速发展,很多分子生物数据库提供网上查询服务。目前网上分子生物信息数据库的总数已达400多个。有关寡核苷酸探针的专门数据库有两个,分别是MichiganStateUniversity的寡核苷酸探针数据库()和RibosomalDatabaseProject(RDP)数据库()这两个数据库在应用分子生物学领域提供设计和使用寡核苷酸探针的资料和核糖体相关的数据服务,包括在线数据分析,基于rRNA的系统发育树的构建以及排列和注释rRNA序列。但国内外还没有提供细菌种的特异性寡核苷酸探针及其设计的专门数据库。1材料和方法1.1准备数据库系统开发环境采用基于PC/Linux的数据库及程序开发环境,在PC机上安装Linux操作系统及其它一些软件。PC机为方正电脑,其配置为IntelCPU2.0GHz/内存256MB/60GIDE硬盘。操作系统采用RedHatLinux8.0,数据库管理系统使用MySQL,编程语言采用Perl和HTML,Web开发软件为dreamweaver。1.2数据库的构建数据库总体上是基于关系数据库模式构建,共包括细菌名称表(mainprobe)、部分序列排列表(Partial_seq_align)和无种特异性的16SrDNA寡核苷酸探针的细菌名称表(nonprobe)。细菌名称表包含细菌名称(Bacname),细菌的特异性寡核苷酸序列(Probesequences)和编号(ID)。部分序列排列表包含细菌的编号(ID)和其特异性寡核苷酸序列所对应的部分序列排列结果(Partial_seq_align)。无种特异性的16SrDNA寡核苷酸探针的细菌名称表包含细菌的编号(ID)和名称(name)。1.3数据搜集及处理以美国国立生物医学信息中心(NCBI)的Genbank为数据库源,输入关键词“细菌属名16Sr”进行查询[6-7],得到同一个属内所有种的细菌16SrDNA序列,以fasta格式显示查询结果,选择长度在800bp以上的序列以fasta格式保存为文本文件。利用clustalx软件进行多序列对位排列,找到能反应种的特异性序列[8-9],然后使用Bioedit软件对排列后的序列进行编辑。选择符合以下要求的序列[10]:(1)长度在15-50之间,较短探针特异性较差,较长则增加非特异性杂交;(2)碱基成分为G+C含量在40-60mol%之间,超出此范围会增加非特异性杂交;(3)序列内不存在互补区,即不含有大于4个碱基反向互补配对,否则会出现抑制探针杂交的“发夹”状结构;(4)没有单一碱基的连续出现(大于4个,如-GGGGG-)。然后通过blastn和check-probe程序与已知的各种基因序列进行同源性比较和对此特异性序列进行评价,选择特异性较强的序列。使用perl语言编写程序对clustalx和Bioedit软件分析的结果进行处理,生成预定的数据格式(Genbank登录号#细菌名称,DNA序列:,共30个左右这样的数据依次排列),将结果存入数据库。数据格式如下图所示:图1数据库中多序列排列结果数据格式1.4编写程序实现对数据库的查询及管理为更加直观地显示细菌种的特异性寡核苷酸序列,利用perl和CGI(公用网关接口)技术开发一个可通过web对数据库进行查询的系统,动态生成界面友好的查询页面。2结果2.1数据库的特点数据库使用英文作为主要语言,方便与国际上的同类数据库进行接轨以及与国际同类数据库交换、共享数据。数据库具有良好的操作界面。而且,本数据库由于使用服务器端Perl编程技术,对客户端的浏览器没有特殊要求,支持用户使用各种浏览器对数据库进行访问,并且都能较好地显示结果。数据库的具体操作界面见图2到图4。图2数据库主页2.2数据库的功能此数据库为设计细菌种特异性的16SrDNA寡核苷酸探针提供参考和帮助,从而达到加速对细菌进行分类及鉴定的目的。输入细菌名称查询,得到细菌的种特异性16SrDNA寡核苷酸序列以及此序列所对应的设计探针时的多序列排列结果,并且支持两种查询方式:准确查询和模糊查询。图3查询结果页面查询结果说明:BacteriaName:细菌名称;ProbeSequence:该细菌的种特异性寡核苷酸探针;PartialSeqenceAlign:点击它所对应的链接,显示此寡核苷酸探针所对应的部分Clustal排列结果,此结果包含探针序列及其左右两端的部分序列,因此可根据不同的要求对探针序列进行调整;WholeSeqence:点击它所对应的链接,则下载此寡核苷酸探针所对应的全序列,下载的序列可以用Clustalx或Bioedit打开;Blastn:点击它所对应的链接,用Blastn程序对此探针序列在GenBank数据库中进行同源性检索;Check_Probe:点击它所对应的链接,用Check_Probe程序对此探针序列进行特异性评价。图4探针所对应的多序列排列页面多序列排列页面说明:左边GenbankAccessnumber所对应的列代表用Clustal进行多序列对位排列时所用细菌的Genbank登录号,中间的列代表用Clustal进行多序列对位排列时所用细菌的名称。右边的列是用Clustal进行多序列对位排列的结果。3讨论细菌种特异性的16SrDNA寡核苷酸探针数据库是一个简洁的,查询结果形象直观的专用二级数据库,国内外尚未报道这种数据库,其查询结果形象直观,ATGC四种碱基分别用红绿黄蓝四种不同的颜色来表示,特异性序列一目了然(见图4),可以快速进行细菌种的特异性寡核苷酸探针的设计,省去了从网上搜索序列,对序列进行多序列对位排列比较,寻找特异性序列等一系列过程,从而节约了大量时间。数据库中已经有迄今为止能设计种特异性探针的大部分细菌的特异性的16SrDNA寡核苷酸序列(大约200种细菌)。在设计细菌的16SrDNA寡核苷酸探针时,我们只设计了Genbank中一个种含有三条及三条以上16SrDNA,并且长度大于800bp的细菌的种特异性的16SrDNA寡核苷酸探针,太少的序列(少于三条)或者太短的序列在用clustalx进行多序列对位排列比较、寻找特异性序列时没有意义。由于目前绝大部分(90%以上)种的细菌的16SrDNA序列太少,只有一条或两条,以及相当一部分的细菌在Genbank中没有16SrDNA序列,因而无法设计探针,如Paenibacilluschibensis,Paenibacillusdaejeonensis等细菌。但由于每周都有大量新的细菌的16SrDNA提交到Genbank等公共数据库中,所以,在补充了新的数据后对该类细菌就有可能能设计16SrDNA寡核苷酸探针,因此,需要定期从网上下载新的数据,进行分类整理,更新本地数据库。数据库的规模也因此会不断扩大,考虑到本数据库这一特点,使用了功能强大而且免费的MySQL数据库管理系统。另外,根据16SrDNA序列clustal多序列对位排列比较的结果,发现一些细菌不存在明显的特异性序列,如Bacillussimplex,Bacillusmacroides等细菌,因此不能设计这些细菌的种特异性的16SrDNA寡核苷酸探针,需要用其它的方法对这些细菌进行分类鉴定。根据现有数据的统计结果,这样的细菌大约占50%。除了16SrDNA外,细菌的其它DNA序列也可以用来设计种特异性的寡核苷酸探针,考虑到这一点,本数据库以后也将提供其它的细菌种特异性的非16SrDNA寡核苷酸探针,以便和16SrDNA寡核苷酸探针互补,从而能够更准确的对细菌进行分类鉴定。同时,细菌有不同的分类水平,本数据库以后也将收录细菌其它分类水平的特异性寡核苷酸探针,如科特异性寡核苷酸探针,属特异性寡核苷酸探针等,从而使数据库更完善,更有实用价值。4附录本数据库的网址为:。参考文献1王建民,等.水稻矮缩病毒基因组数据库的构建,微生物学报,2001,41(1):43-48.2李阜棣等主编.微生物学.中国农业出版社,2000,115.3沈萍主编.微生物学.高等教育出版

1 / 9
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功