2020/2/14培训目标使用•如何使用Trinity组装软件?•下载安装、脚本及投递、参数调整等查看•组装结果看什么?•命名意义、转录本总数、GC含量、N50等评估•如何评估组装结果好坏?•比对率、reads利用率、核心蛋白比对率等主要内容2020/2/14组装软件及Trinity的使用结果查看与评估实际操作Trinity组装原理组装的目的•直接目的得到未知参考基因组物种的转录组•最终目的基因功能注释、基因定量分析、差异基因筛选……所以,转录组拼接技术应运而生!2020/2/14转录组拼接软件Mapping-firstapproches方法:首先比对到参考基因组,然后用比对的Reads及paired-ends进行序列拼接。代表软件:Scripture,Cufflinks优点:灵敏度高缺点:对参考基因组的依赖度太高2020/2/14没有合适的参考基因组怎么办?!转录组拼接软件Assembly-firstapproches方法:从头组装软件:Trinity、ABySS、SOAPdenovo等。适用方向:无基因组或基因组片段化严重的物种。优点:不依赖任何的参考基因组。缺点:假阳性问题。2020/2/14组装效果统计2020/2/14Trinity简介•Trinity是一款高效且稳定的以RNA-Seq为基础从头组装转录组的软件。•Trinity包含三个独立的软件模块:a.Inchworm(C++)b.Chrysalis(C++)c.Butterfly(Java)•通过有秩序的对大规模的RNA-seqreads数据进行读取,高效的完成转录组的组装。2020/2/142020/2/14Trinity使用下载安装输入文件输出目录参数设置生成脚本任务投递Trinity使用—下载安装•下载地址:•Linux安装命令:tarzxftrinityrnaseq-2.1.1.tar.gzcdtrinityrnaseq-2.1.1make-fMakefileall2020/2/142020/2/14Trinity使用—输入及输出输入文件:fa或者fq文件创建一个文件存放输出结果的目录:mkdirassembleTrinity使用—参数设置不可任意调整参数描述seqType数据类型(fa或者fq)。JM组装所需内存(eg:10G)。left/--right双端测序的序列文件。single单端测序的序列文件。SS_lib_typeRNA-Seq的链特异性说明(双:RF/FR;单端:R/F)。2020/2/142020/2/14Trinity使用—参数设置“可调”参数描述CPU组装所用的CPU个数。min_contig_length输出的最小组装的contig的长度。jaccard_clip减少UTR区重复的来自不同转录本的tag被错误拼接的概率。normalize_reads对fastq文件进行覆盖度标准化,提高拼接效率。full_cleanup只保留组装结果文件,并以Trinity.fasta命名。group_pairs_distance双端reads比对的最大长度(超过该长度认为没有比对上)min_kmer_cov最小k-mer覆盖值。2020/2/14Trinity使用—任务及运行生成组装任务脚本:vitrinity.sh任务运行:shtrinity.sh2020/2/14查看组装结果lessTrinity.fa查看组装结果•c145_g1_i1len=823path=[53:0-822]2020/2/14TagDescriptioncChrysalis中的component的contig编号g相当于Butterfly中'gene'的contigi可变剪切len转录本的长度(bp)path代表最终转录本序列的简略图的每条序列的顶点位置列表2020/2/14组装Contig数量长度中值N50N90GC含量3w-20w之间N50≥700查看组装结果查看组装结果长度分布统计:2020/2/14DistributionTrinityUnigene[3200:3400)871423[3400:3600)795422[3600:3800)725336[3800:4000)690313[4000:--)831438602020/2/14N50:序列按照长度从大到小排列,依次累加,当其累计长度刚刚超过全部序列总长度50%时,最后一个序列的长度。BasicStatTrinityUnigeneN5024951475N90302263Min201201Max3542035420Count166635132523Mean961.8203439733.0451922查看组装结果2020/2/14查看组装结果GC含量分布:查看关键点:①散点呈现向一条轴线聚集的状态。②仅有一个涡。2020/2/14组装评估评估指标比对率核心蛋白比率注释比率准确性核心蛋白:真核生物中存在一些高度保守区域所编码的蛋白。数量:2748与近缘物种的CDS序列比对上的比率。框移错误导致的缺口以及过早终止的比例。2020/2/14组装评估判断标准:①无外源物种污染。②比对率大于80%。组装评估2020/2/14核心蛋白比对率准确性注释比率物种近缘性良好CDS序列相对完整60%以上StopCodon比率20%以下80%以上2020/2/14Trinity参数调整转录本数目过多,但是N50低,怎么办?数据量太大,如何提高组装速度?物种类型是真菌,参数需要注意什么?组装结果的优化2020/2/14Contig过多影响基因定量等分析Whatcanwedo?构建unigene组装结果的优化•脚本(perl/python/R)•筛选同一基因最长的转录本作为unigene自定义•TGICL•通过聚类筛选unigene软件2020/2/14转录本id长度Unigene?c1_g1_i1569bpnoc1_g1_i2595bpnoc1_g1_i3650bpyes2020/2/14组装结果使用实际操作•1、建立用来存放待组装数据的路径:cd/home/chenxi#进入操作目录mkdirTrinity#建立组装练习目录cdTrinity#进入组装练习目录mkdirfq#建立放组装数据的目录mkdirassemble#建立放组装结果的目录2020/2/14实际操作•2、将来自于两个或者多个样品的数据合并在一起:cat/home/chenxi/Trinity/clean/Sp.ds.left.fq/home/chenxi/Trinity/clean/Sp.hs.left.fq/home/chenxi/Trinity/fq/reads_1.fqcat/home/chenxi/Trinity/clean/Sp.ds.right.fq/home/chenxi/Trinity/clean/Sp.hs.right.fq/home/chenxi/Trinity/fq/reads_2.fq2020/2/14实际操作•生成组装的shell:vitriniy.sh2020/2/14实际操作任务运行本地运行:shtriniy.sh本地挂起运行:nohupshtriniy.sh&投递运行:qsub–cwd–lvf=10G–lp=5triniy.sh任务查看:qstat/qstat–jjob_number/jobs2020/2/142020/2/14实际操作计算组装出的contig/Unigene数量:grep“”Trinity.fa|wc–l计算N50、N90、GC含量等:/annoroad/share/software/install/trinityrnaseq_r20140717/util/TrinityStats.plTrinity.fasta|less查看转录本/Unigene长度分布:python3/annoroad/data1/bioinfo/PMO/chenxi/Trinity/evaluation/draw_plot.R–fTrinity.fasta–oTrinity_fasta.xls-s200-m40002020/2/14实际操作比对率评估:•/annoroad/share/software/install//bowtie2-2.2.3/bowtie2–xTrinity.fa–1all_read2_1-2all_read2_2-k1-p5|/annoroad/share/software/install//samtools-0.1.19/samtoolsview-bS–oalign/trinity.bam–#比对•/annoroad/share/software/install//samtools-0.1.19/samtoolssortalign/trinity.bamalign/trinity_sorted#sortbam文件2020/2/14实际操作•/annoroad/share/software/install//samtools-0.1.19/samtoolsindexalign/sorted.bam#建立索引•/annoroad/share/software/install//samtools-0.1.19/samtoolsflagstatalign/sorted.bamalign/sorted.mapping.rate#生成结果2020/2/14核心蛋白比对率评估:•mkdirassemblyevaluation#创建结果存放目录•vicegmer.sh#生成脚本实际操作2020/2/14Trinity组装习题请将以下真菌数据拷贝到自己的PMO下(自己任意命名一个文件夹即可),根据本节所学习到的知识完成数据的组装,并对各项指标做统计。数据路径:/home/chenxi/Trinity/practice数据量大小:每个样本数据大小1M