AquickguideforphredPhrap快速入门本手册主要介绍phred\phrap-基因组的序列装配软件包。Phred是phred\phrap软件包的一部分,主要是用来分析和装配基因组中大片段序列。phred\phrap软件包由华盛顿大学分子生物技术学院的PhilGreen和BrentEwing开发,主要用于学术科研活动。Phred能处理测序仪直接生成的色谱图,并且产生相关的信息。该手册只对Phred作简要的介绍,并不能替代Phred的官方说明文档(http:\\),给实际应用提供一个快速参考。数据来源(sourcedata)最主要的数据来源是测序仪生成的峰图(tracefiles)。峰图在计算机上可以用色谱图(chromatograms)表示:(图1测序仪生成的色谱图,chromatograms)不同的测序仪会给出不同的色谱文件,Phred能够识别三种格式的色谱文件,SCF,ABI和预先处理的ESD格式。Phred参数文件(PhredParameterFile)使用phred首先就得配置化学物质参数文件(PhredParameterFile)。phred\phrap软件包中phredpar.dat文件,就是有关测序仪每个色谱峰所代表的化学物质的参数配置文件。用户可以直接编辑它,需要时也可以加入新的化学物质的描述信息。文件格式如下:(图2Phred参数文件(PhredParameterFile)的格式)其中:Aquickguideforphred1.primerID代表:染色物质的ID号(编号),此ID号应该和色谱中染料的ID号一致(如果您不知道如何确定PrimerID号,不必担心,Phred程序会给出提示的)。2.chemistry代表发生的化学反应,可供选择的选项有“primer,terminator,unknown”。3.dye代表染料的类型,有rhodamine,d-rhodamine,big-dye,energy-transfer,bodipy,unknown等选项供选择。4.machine代表测序仪型号。phred(版本0.020425.c)现在可识别的仪器有:ABI_373_377,ABI_3100,ABI_3700,Beckman_CEQ_2000,LI-COR_4000,andMolDyn_MegaBACE。phredpar.dat文件必须放在所有用户均可访问的目录,并且可以通过PHRED_PARAMETER_FILE环境变量来自定义其存放位置。例如,在Unix系统中:exportPHRED_PARAMETER_FILE=\usr\local\etc\phredpar.dat在Windows系统中:setPHRED_PARAMETER_FILE=\usr\local\etc\phredpar.datPhred输入参数(Phredinputparameters)输入参数表示色谱图文件在计算机里面的路径,有以下两种设置方式:-iddirectory##-id选项表示所有色谱文件的所在目录。-iftextfile##-if选项表示每个色谱文件的绝对路径。Phred输出参数(Phredoutputparameters)输出参数用来设置输出文件的格式。输出参数分为basecalling,quality,SCF,PHD和poly六大类(每类对应一个选项族),其不同组合能够产生几种完全不同的输出格式。Basecalling选项族主要是关于输出的DNA序列,可供选择的选项有如下几种:-stfasta/xbap##-st设定输出文件格式,能被识别的格式有fasta和xbap,默认设置为fasta格式。-s##-s在当前目录下创建序列文件,并且沿用色谱图(chromatogram)文件名,贯于.sep的后缀。-sddirectory##-sd在指定目录下创建序列文件,并且沿用色谱图(chromatogram)文件名,贯于.Aquickguideforphredseq的后缀。-safile##-sa创建单个序列文件,包括所有处理过的色谱图(chromatograms)的结果。Quality选项族主要是DNA序列的测序质量信息输出的相关选项,有如下几种:-qtfasta/xbap/mix##-qt各种输出文件格式的测序质量,fasta选项对应修整过后的FASTA(trimmedFASTA,在“phredprocessingoptions”中设定)格式,xbap选项对应XBAP格式,mix选项对应未修整过后的FASTA(untrimmedFASTA,这也是默认的FASTA格式);在设定选项时请参照“phredprocessingoptions”中的对应选项。-q##-q在当前目录下创建测序质量文件,并且沿用色谱图(chromatogram)文件名,附加“.qual”后缀。-qddirectory##-qd在指定目录下创建测序质量文件,并且沿用色谱图(chromatogram)文件名,附加“.qual”后缀。-qafile##-qa创建单个测序质量文件,包括所有的处理过的色谱图(chromatogram)的结果。-qrfile##-qr创建一个柱状图文件,统计每一个色谱图(chromatogram)中高质量碱基(highqualitybases)的数目。SCF选项族设置Phred产生基于色谱图(chromatogram)SCF格式的文件,这些文件可以用于那些不能识别ABI和ESD格式的程序。有如下几种:-c##-c在当前目录下创建SCF文件,并且沿用色谱图(chromatogram)文件名。-cddirectory##-cd在指定目录下创建SCF文件,并且沿用色谱图(chromatogram)文件名。-cp1/2##-cp编码色谱图(chromatogram)中每个色谱峰值的比特数-cv1/2/3##-cv用SCF1,SCF2或者SCF3格式输出SCF文件。-cs##-cs确保色谱图(chromatogram)中最大的峰度值代表SCF文件中最高值。PHD选项族设置Phred程序基于色谱图(chromatogram)产生PHD格式的文件,这些文件可供人直接阅读,并且含有basecalling和quality(测序质量)的信息。有如下几种:-p##-p在当前目录下创建PHD文件,并且沿用色谱图(chromatogram)文件名,附加.phd..l的后缀。Aquickguideforphred-pddirectory##-pd在指定目录下创建PHD文件,并且沿用色谱图(chromatogram)文件名,附加.phd..l的后缀。poly选项族设置Phred程序产生poly文件(polyfiles)。这些文件包含了色谱图(chromatogram)中的每个峰值,可用于检测多态性碱基(polymorphicbases)。有如下几种:-d##-d在当前目录下创建测序质量文件,并且沿用色谱图(chromatogram)文件名,附加.poly的后缀。-dddirectory##-dd在指定目录下创建测序质量文件,并且沿用色谱图(chromatogram)文件名,附加.poly的后缀。其他不能归为上述几类但与输出相关的选项有:-rawname##-raw当处理单个文件时,以name为标题。-log##-log在当前目录下生成“phred.log”日志文件。-vn##-v设置增加输出的冗余(increaseverbosityofoutputbyn)。-tag##-tag做一些公共的标记(tag)以便于程序解析文档。-h##-h显示一个简要的帮助。-doc##-doc显示phred的全部文档(documentation)。-V##-V显示phred的版本信息。Phred处理选项(Phredprocessingoptions)Phred处理选项是为经验丰富的用户提供的,可以改变phred的处理流程。可供配置的选项如下:-nocall##-nocall不用basecalling算法对色谱图(chromatogram)的峰值进行检测,输出的序列是由色谱图(chromatogram)中的峰值直接转换而来,这会影响到一些碱基修整和输Aquickguideforphred出选项(Thisaffectsthebasetrimmingandoutputoptions)。-nonorm##-nonorm设置phred不对色谱图(chromatogram)中的峰值进行标准化处理(normalization)。如果进行标准化处理,就会用每个核苷酸信号的中值(mediumvalue)来代替峰值(peak)。这个选项不推荐使用,除非basecalling算法由于有很多的峰值噪声而失效。-nosplit##-nosplit设置phred不对色谱图(chromatogram)中已压缩的峰值进行分割处理。默认情况下,phred对相连的G,C峰(mergedCCandGGpeaks)进行识别并分割开来。-nocmpqv##-nocmpqv设置phred不对色谱图(chromatogram)中的峰值进行压缩处理。默认情况下,phred会降低相连的G,C峰(mergedCCandGGpeaks)的测序质量分值,因此如果这个打开该选项会影响输出文件中的测序质量。-ceilqvvalue##-ceilqv为每个碱基设定最高的测序质量值,当碱基的测序质量值超过该值时用该值替代。-beg_predposition##-beg_pred设定开始进行峰值预测的位置。该位置应该落在一个非常好的区域(region)中,在此区域(region)中每个峰值间的间隔都很均一(even)。-exit_nomatch##如果在Phred参数文件(PhredParameterFile)中没发现相对应的primerID则停止执行。-process_nomatch##如果在Phred参数文件(PhredParameterFile)中没发现相对应的primerID则搜索Phred参数文件(PhredParameterFile)中的“_no_matching_string_”条目并用该条目来识别色谱图中的峰,如果还是没有定义则停止执行。以下的选项是针对phred修整(trimming)碱基的设定。这些选项在定位高测序质量区(highqualityregions)非常有用,并且能裁减掉一些低质量的区域。可供选择的选项如下:-trimenzymesequence##-trim查找并定位色谱图(chromatogram)中的高测序质量区(highqualityregions)。如果提供了限制性酶的序列,phred会从该酶切位点的开始位置开始进行修整,推荐将酶切序列置为空(enzymesequence即用空的双引号)。-trim_altenzymesequence##-trim_alt同-trim一样定位高测序质量区(highqualityregions),不过使用的是“最大分值区域”(“MaximumScoreSubsequence”)的算法。推荐使用。“MaximumScoreSubsequence”大体思路是将每个碱基的错误概率(由机器提供)减去一个cutoff(默认的为0.05),所得的结果再相加直到分值最大为止,可见不一定序列越长就分值越高,关键是看每个碱基的测序质量。-trim_cutoffvalue##在用最大分值区域”(“MaximumScoreSubsequence”)的算法时设定一个错误Aquickguideforphred阈值。默认的为0.05。-trim_fasta##修整后的序列和质量分值写入FASTA格式的文件中。-trim_scf##修整后的序列和质量分值写入SCF格式的文件中。-trim_phd##修整后的序列和质量分值写入PHD格式的文件中。-trim_out##修整后