大丽轮枝菌(VerticilliumdahliaeVdLs.17)分泌组预测及分析摘要:【目的】预测并分析大丽轮枝菌基因组范围内的分泌蛋白,为大丽轮枝菌分泌蛋白致病机理的研究奠定基础。【方法】利用已公布的大丽轮枝菌全基因组序列,组合使用生物信息学软件SignalP、TargetP、TMHMM、Big-pi和PROSITE,预测大丽轮枝菌基因组范围内所有分泌蛋白,定义为分泌组。统计分析分泌组中蛋白N-端信号肽特点;应用碳水化合物活性酶类数据库和病原菌-寄主互作蛋白数据库对分泌组蛋白进行注释,预测分泌组中潜在果胶酶、纤维素酶和病原菌寄主互作蛋白;利用真菌激发子的保守结构域,预测分泌组中潜在的激发子蛋白集;应用BLASTP程序比较分析大丽轮枝菌和黑白轮枝菌分泌组,获得大丽轮枝菌相对于黑白轮枝菌特异的分泌蛋白。【结果】大丽轮枝菌分泌组共有922个蛋白。信号肽分析表明,以19个氨基酸为信号肽的蛋白数目最多,非极性氨基酸丙氨酸的出现频率最高,而有带电侧链的氨基酸天冬氨酸和谷氨酸的出现频率最低,信号肽的-3和-1位置上的氨基酸相对保守。大丽轮枝菌分泌组含有158个潜在的碳水化合物活性酶类,其中,包括10个果胶水解酶和14个果胶裂解酶;190个潜在的病原菌-寄主互作蛋白、97个含有RxLx[EDQ]模体的蛋白和52个富含半胱氨酸的小分子量分泌蛋白;58个相对于黑白轮枝菌分泌组特异的蛋白。【结论】本文建立了预测大丽轮枝菌分泌组蛋白的方法。分泌组蛋白信号肽长度具有高度的变异性,氨基酸组成多为脂肪族氨基酸,序列在C-端结构域较为保守。分泌组中包含大量潜在的果胶降解酶、病原菌-寄主互作蛋白、RxLx[EDQ]模体蛋白和富含半胱氨酸的小分子量蛋白等致病相关蛋白。0引言【研究意义】大丽轮枝菌(Verticilliumdahliae)是引起棉花黄萎病的病原菌,在世界范围内造成重大经济损失[1-2]。已有研究表明大丽轮枝菌所分泌的蛋白是造成其生物毒性的主要物质[3-4],因此,深入研究大丽轮枝菌基因组范围内所有分泌蛋白,将为揭示其致病机理,开发黄萎病防治新策略奠定基础。【前人研究进展】随着越来越多真菌基因组全测序的完成,研究人员开始应用生物信息学方法预测真菌基因组范围内的分泌蛋白并分析其特点,探究分泌蛋白在病原菌侵染过程中发挥的作用。陈继圣等[5]应用SignalP、TargetP、TMHMM等软件建立了预测分泌蛋白的方法,得到了稻瘟病菌分泌组的1235个蛋白。Martin等[6]使用碳水化合物活性酶类数据库(carbohydrate-activeenzyme,CAZy)[7]对双色蜡蘑(Laccariabicolor)分泌组进行了比对和注释,将与CAZy数据库有明显比对结果的蛋白被定义为CAZymes,通过CAZymes的种类和数量系统全面地分析了分泌组中潜在的植物细胞壁降解酶类。Gao等[8]使用病原菌与寄主互作蛋白数据库(pathogen-hostinteractiondatabase,PHI)[9]对绿僵菌(Metarhiziumanisopliae)分泌组进行比对和注释,利用病原菌之间存在共同致病机制的特点,从已知的致病相关基因入手,探究其可能的致病机理。于钦亮等[10]利用RxLx[EDQ]模体在真菌激发子蛋白中的保守性,在禾谷镰刀菌(Fusariumgraminearum)分泌组中预测出157个含有该模体的蛋白,提供了该物种潜在的激发子蛋白集。Mueller等[11]预测了玉米黑粉病菌(Ustilagomaydis)分泌组中富含半胱氨酸的小分子量分泌蛋白,推测其中可能包含了疏水性的质外体激发子(apoplasticeffectors)等致病相关蛋白。Ma等[12]选取镰刀菌属(Fusarium)中3个寄主范围不同菌种为研究对象,比较分析了其分泌组的异同,发现各菌种特有的决定寄主范围的激发子类蛋白类群。【本研究切入点】大丽轮枝菌分泌的毒蛋白含量低、成分复杂、难以分离纯化。20世纪50年代至今,科研人员从生理生化和蛋白质组学角度对其进行研究时,还只能得到一些分泌毒蛋白的复合体,尚无单一毒蛋白成功分离的报道[13-14],研究进展较为缓慢。近年来,应用基因组序列和生物信息学手段对真菌分泌蛋白进行研究显示出了强大的优越性。但迄今为止,大丽轮枝菌分泌蛋白的研究尚无此类报道。【拟解决的关键问题】本研究拟建立预测大丽轮枝菌分泌组的方法,并初步分析分泌蛋白与致病性的关联性,寻找潜在的致病相关分泌蛋白,促进大丽轮枝菌致病机理的研究1材料与方法1.1材料大丽轮枝菌(V.dahliae)和黑白轮枝菌(V.albo-atrum)蛋白序列来自真菌基因组数据库(),预测分泌蛋白所使用的生物信息学软件来自生物学序列分析中心(CenterforBiologicalSequenceAnalysis,CBS),所有分析于2011年2月在华大基因研究院完成。1.2大丽轮枝菌全基因组分泌蛋白预测及染色体定位分析分泌蛋白预测流程见图1,所使用软件如方框内文字所示[15-20],参数设置如箭头区文字所示。用同样的方法预测黑白轮枝菌分泌组。根据大丽轮枝菌数据库提供的各蛋白编码基因在基因组中的位置信息,将各分泌组蛋白所对应的基因定位到染色体上。1.3分泌蛋白的信号肽分析利用SignalP的人工神经网络[19]对分泌蛋白信号肽切割位点进行预测。统计分析分泌蛋白的信号肽长度、氨基酸组成和C末端特征1.4分泌组中潜在致病相关蛋白预测1.4.1果胶酶与纤维素酶预测利用在线工具CAZymesAnalysisToolkit()[21]预测分泌组中CAZymes酶类,参数以网站默认值为准。根据网站对CAZymes酶类的分类和注释,推断分泌组中的果胶酶和纤维素酶。1.4.2病原菌寄主互作蛋白的预测应用BLASTP程序和PHI数据库,对大丽轮枝菌分泌组进行比对和注释。BLASTP参数设置为:E值小于10-5,蛋白序列一致性大于30%1.4.3含有RxLx[EDQ]模体蛋白的预测利用该模体氨基酸序列的保守性(第1位氨基酸残基为R,第3位氨基酸残基为L,第5位氨基酸是E、D和Q中任意一个)[22],预测含有该模体的分泌蛋白。使用WEBLOGO[23]对该模体两侧的氨基酸保守性进行分析。1.4.4富含半胱氨酸的小分子量分泌蛋白的预测以蛋白氨基酸长度小于200个氨基酸残基、半胱氨酸在总氨基酸中的比例大于4%作为统计标准。应用Kyte-Doolittle算法[24]绘制其中疏水蛋白的氨基酸亲水-疏水性特征图谱。1.4.5大丽轮枝菌特有分泌蛋白分析以大丽轮枝菌分泌组作为查询序列(query),以黑白轮枝菌分泌组作为查询数据库(database),应用BLASTP程序进行同源蛋白搜索,参数设置为E值小于10-5,蛋白序列一致性大于30%。若大丽轮枝菌分泌组中的某一蛋白在黑白轮枝菌分泌组中没有同源蛋白,则认为该蛋白为大丽轮枝菌分泌组特异分泌蛋白.2结果2.1大丽轮枝菌分泌蛋白预测应用软件TargetP和SignalP对大丽轮枝菌全基因组蛋白N端的信号肽进行预测,得到1583个含有信号肽的蛋白序列;使用软件TMHMM排除所有带有跨膜区的蛋白,剩余950个蛋白序列,同时将TMHMM预测结果为含有一个跨膜区且跨膜区与N端信号肽互相重叠的蛋白序列交由Phobius软件精确区分后,把N端预测为信号肽的78个蛋白重新保留;使用Big-pi软件排除没有细胞膜锚定位点的蛋白,余下942个蛋白;使用PROSITE软件排除内质网驻留蛋白,获得922个蛋白;将预测得到的922个分泌蛋白与Swiss-prot数据库比较,显示均为分泌蛋白或者属于无有效比对的大丽轮枝菌特有分泌蛋白。所有预测的分泌蛋白均未与数据库中胞内蛋白有同源比对结果,说明预测准确性非常高。同样的方法预测得到黑白轮枝菌分泌组的910个蛋白。大丽轮枝菌分泌组蛋白基因在染色体上的分布如图2所示。第1—8染色体上分泌蛋白基因的数目分别为132、139、185、84、108、99、97和78。分泌蛋白基因在染色体上的密度不同,第6染色体分泌蛋白密度最高,平均每Mb染色体上有40个分泌蛋白基因;而第1染色体分泌蛋白密度最低,平均每Mb染色体上有23个分泌蛋白基因。2.2分泌组蛋白的信号肽分析2.2.1信号肽长度大丽轮枝菌分泌蛋白信号肽长度集中在17—20个氨基酸(图3)。其中,长度为19个氨基酸的信号肽数量最多,有149个,占总数的16.1%。信号肽长度的变化可能与分泌蛋白的靶标位点精确识别和蛋白功能多样化相关。2.2.2信号肽的氨基酸组成20种氨基酸的出现频率从高到低依次为ALSVTMGFIPRKQHCNWYED。非极性氨基酸A、L、V、M、G、I和P的出现频率相对较高,其中,丙氨酸最高,为20.6%;而有带电侧链的氨基酸E和D的出现频率最低,分别为0.56%和0.50%(图4)。出现频率在5%以上的氨基酸多属于脂肪族氨基酸,这可能与信号肽穿过质膜有关。2.2.3信号肽C区特性分析20种氨基酸在C结构域的-3位置(相对于信号肽酶切位点,“-”代表左边,“+”代表右边;“-3”即左边第3个位置,下同)、-2位置、-1位置、+l位置、+2位置和+3位置的出现频率如表1所示。-3和-1位置上A的出现频率较高,分别为40%和73.3%。除了A之外,在-3位置上出现较多的氨基酸残基为V(28.3%)和T(9.7%),氨基酸H和E没有使用;在-1位置上,使用较多的氨基酸残基为G(12.1%)和S(5.9%),氨基酸N、D、E、H、K和V没有使用。相比-3和-1位置,在-2、+1、+2和+3位置上氨基酸使用频率的差异不显著,所有的氨基酸残基均被使用,说明-3和-1位置上的氨基酸相对保守,可能是信号肽酶识别的关键位点。2.3大丽轮枝菌分泌组中潜在致病相关分泌蛋白预测2.3.1分泌组中CAZymes酶类分析大丽轮枝菌分泌组中含有158个CAZymes酶类,其染色体分布如图2所示。统计大丽轮枝菌分泌组中参与降解纤维素和果胶的CAZymes酶类数目,并与酵母、玉米黑粉病菌和稻瘟病菌分泌组的相应酶类进行了比较分析(表2)。值得注意的是,相对其它真菌分泌组,大丽轮枝菌分泌组含有大量的果胶降解酶:10个属于GH28家族的果胶水解酶(VDAG_00768、VDAG_01781、VDAG_02879、VDAG_03463、VDAG_04977、VDAG_05992、VDAG_07608、VDAG_08097、VDAG_08098和VDAG_09366)和14个属于PL1家族的果胶裂解酶(VDAG_02709、VDAG_02886、VDAG_02904、VDAG_03656、VDAG_04718、VDAG_05344、VDAG_05402、VDAG_07144、VDAG_07238、VDAG_07566、VDAG_07759、VDAG_08067、VDAG_08154和VDAG_08734)。分泌组中存在大量的果胶酶可能与大丽轮枝菌需要降解棉花细胞壁中的果胶质,从而进入维管束并在其内大量繁殖的生活史特点密切相关。可能是大丽轮枝菌自身在长期进化过程中与寄主发生互作,相互适应的结果。其中,VDAG_08097与VDAG_08098在染色体上并列排布,提示基因复制在大丽轮枝菌果胶酶基因数量的增加中起一定作用。2.3.2病原菌寄主互作蛋白分析分泌组中共有190个潜在的病原菌寄主互作蛋白,其在染色体上的分布如图2所示,该类蛋白的编码基因与CAZyme编码基因在染色体分布图上有很多相互重合的区域,说明CAZyme酶类可能通过降解植物组织,参与大丽轮枝菌与寄主植物的互作。限于篇幅,表3仅列出了部分属于酶类的病原菌寄主互作蛋白信息。此外,单独使用PHI数据库收录的31个激发子对大丽轮枝菌分泌组进行注释,发现分泌组