EMBOSS软件包方林2006-03-06EMBOSS的特点●EuropeanMolecularBiologyOpenSourceSuite●软件的分类●软件数量●统一化输入输出●扩展方便●图形接口丰富EMBOSS软件分类●比对●序列编辑●结果显示●酶动力学分析●序列特征分析●核酸分析●蛋白分析●系统发育分析●信息分析●实用工具EMBOSS的输入序列格式●abi,acedb,clustaln,codata,cbid,embl/em,experiment,fasta/pearson,gcg/gcg8,genbank/gb/ddbj,gff,hennig86,ig,jackknifer,jackknifernon,mega,meganon,msf,nbrf,ncbi,nexus/paup,nexusnon/paupnon,pfam/stockholm,phylip/phylipnon,raw,selex,staden,strider,swissprot/swiss/sw,text,treecon,asis●共32种EMBOSS的输出文件格式●acedb,asn1,clustal/aln,codata,debug,embl/em,fasta/pearson,fitch,gcg/gcg8,genbank/gb,gff,hennig86,ig,jackknifer,jackknifernon,mega,meganon,msf,nbrf,ncbi,nexus/paup,nexusnon/paupnon,phylip,phyplipnon,selex,staden,strider,swiss/sw,text/plain/raw,treecon●共30种USA统一序列地址●format::file:entry●dbname:entry●@list几种常用的序列格式●FASTA●EMBL●GenBank●Swissprot●ClustalALNFASTA格式gi|8392890|ref|NM_000477.3|Homosapiensalbumin(ALB),mRNAAGCTTTTCTCTTCTGTCAACCCCACACGCCTTTGGCACAATGAAGTGGGTAACCTTTATTTCCCTTCTTTTTCTCTTTAGCTCGGCTTATTCCAGGGGTGTGTTTCGTCGAGATGCACACAAGAGTGAGGTTGCTCATCGGTTTAAAGATTTGGGAGAAGAAAATTTCAAAGCCTTGGTGTTGATTGCCTTTGCTCAGTATCTTCAGCAGTGTCCATTTGAAGATCATGTAAAATTAGTGAATGAAGTAACTGAATTTGCAAAAACATGTGTTGCTGATGAGTCAGCTGAAAATTGTGACAAATCACTTCATACCCTTTTTGGAGACAAATTATGCACAGTTGCAACTCTTCGTGAAACCTATGGTGAAATGGCTGACTGCTGTGCAAAACAAGAACCTGAGAGAAATGAATGCTTCTTGCAACACAAAGATGACAACCCAAACCTCCCCCGATTGGTGAGACCAGAGGTTGATGTGATGTGCACTGCTTTTCATGACAATGAAGAGACATTTTTGAAAAAATACTTATATGAAATTGCCAGAAGACATCCTTACTTTTATGCCCCGGAACTCCTTTTCTTTGCTAAAAGGTATAAAGCTGCTTTTACAGAATGTTGCCAAGCTGCTGATEMBL格式GenBank格式Swissprot格式ClustALN常用的一些EMBOSS程序●wossname●tfm●seqret●revseq●transeq●getorf●coderet●backtranseq●pepstatswossname-search要找的关键字-outfilef输出结果到所给的文件-groups只输出程序所在的组的名字-alphabetic只输出程序名和简单的描述,而不显示程序所在组的名字-[no]emboss[不]要在EMBOSS主程序库中搜索-[no]embassay[不]要在EMBOSS的附加包中搜索-colon用冒号分隔程序所在的类和父类erestmlRestrictionsiteMaximumLikelihoodmethodfrestbootBootstrappedrestrictionsitesalgorithmfrestdistDistancematrixfromrestrictionsitesorfragmentsfrestmlRestrictionsitemaximumLikelihoodmethodrecoderRemoverestrictionsitesbutmaintainsametranslationremapDisplaysequencewithrestrictionsites,translationetc...tfm●tfm是另一个有用的程序,一般配合wossname使用用,它只能显示给定程序的帮助信息。但它显示的帮助信息较为详细,不像通过-help或-v那样只显示参数信息。●用法:tfm[options]programseqret●使用平率最高的一个程序●序列的格式转换●特征提取●序列的拆分●序列操作等seqret主要参数-feature用序列的特征信息-firstonly只输出第一条序列-sbegin1n从n位置开始截取序列-send1n截取到n位置-sreverse1对核酸序列反向取补-sask1提问截取序列的起始,终止和是否反向取补-snucleotide1只对核酸进行操作-sprotein1只对蛋白进行操作-slower1序列都表示成小写的形式-supper1序列表示成大写的形式-sformat1s输入文件的格式-sdbname1s数据库名-sid1s序列名-ufo1s统一特征名-fformat1s特征的格式-fopenfile1f特征文件名-osformat2s输出文件格式-ossingle2s将序列分割成一条序列一个文件的形式-ofdirectory2f输出文件的目录-auto关掉提示-stdout输出到标准输出-filter从标准输入读,输出到标准输出getorf●用于预测序列的开放阅读框●常用参数-table用于翻译的表密码子表-minsizen最小的ORF-maxsizen最大的ORF-[no]methionine起始密码子是否编码甲硫氨酸-circular序列为环状的-[no]reverse在或不在反链中预测ORF-flankingn追加n长度的侧翼序列revseq●用于对序列进行翻转和取补●常用参数-[no]reverse是否取反-[no]complement是否取补transeq●用于蛋白的翻译●常用的参数-frame翻译那几个相位,对于正链可以为1,2,3,对于反链,为-1,-2,-3-table密码子表,可以为上面的任何一个-regions要翻译的范围,可以表示为:24-45,56-781:45,67=99;765..8881,5,8,10,23,45,57,99数字可以用任何非数字,非字母的符号表示。-trim是否不显示结束密码子,缺省为*表示transeq支持的密码子表0(Standard)1(Standard(withalternativeinitiationcodons))2(VertebrateMitochondrial)3(YeastMitochondrial)4(Mold,Protozoan,CoelenterateMitochondrialandMycoplasma/Spiroplasma)5(InvertebrateMitochondrial)6(CiliateMacronuclearandDasycladacean)9(EchinodermMitochondrial)10(EuplotidNuclear)11(Bacterial)12(AlternativeYeastNuclear)13(AscidianMitochondrial)14(FlatwormMitochondrial)15(BlepharismaMacronuclear)16(ChlorophyceanMitochondrial)21(TrematodeMitochondrial)22(Scenedesmusobliquus)23(ThraustochytriumMitochondrial)coderet●用于提取序列的CDS,mRNA或蛋白序列●常用的参数有:-[no]cds[不]提取CDS序列-[no]mrna[不]提取mRNA序列-[no]translation[不]提取translation序列●将蛋白反向翻译成核酸●常用参数-cfilef密码子频率文件,格式如下#CodonAAFractionFrequencyNumberGCAA0.08810.82828723GCCA0.42352.293138720GCGA0.42852.999140592GCTA0.0627.61520201TGCC0.8547.85320832TGTC0.1461.3443564GACD0.66536.22596097GATD0.33518.25948437GAAE0.29915.64341497GAGE0.70136.75097488TTCF0.82530.67781378TTTF0.1756.52917320GGAG0.0857.08418792GGCG0.70058.228154464GGGG0.1159.55625350...backtranseqpepstats●计算蛋白的分子量●氨基酸数●氨基酸使用频率●电荷●等电点●物理化学性质pepstats常用参数和类似程序●常用参数:-[no]termini是否包含蛋白的N和C端的电荷-aadatas氨基酸分子量信息的文件,缺省下用标准的氨基酸分子量●类似程序有:pepinfo,iep,charge和freak等EMBOSS的用户接口●Jemboss●Emnu●EMBOSS-GUIJembossEMNUEMBOSS-GUI