lncRNA生物信息分析结题报告

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

2455556778891011121314151616171818192020222223242526272828293031313132333435353637383939404142424343454546474849505152contentcontent一、建库测序流程1TotalRNA样品检测2文库构建3库检4上机测序二、生物信息分析流程三、结果展示及说明1 原始序列数据2 测序数据质量评估2.1 测序错误率分布检查2.2 测序数据过滤2.3 数据产出情况汇总3 参考序列比对分析3.1 Reads与参考基因组比对情况统计3.2 Reads在染色体上的密度分布情况3.3 Reads在已知类型的基因分布情况3.4 Reads比对结果IGV可视化浏览4 RNA-seq整体质量评估4.1 表达水平对比分析4.2 RNA-Seq相关性检查5转录本拼接(lncRNA)5.1 cufflinks拼接5.2 scripture拼接6 候选lncRNA筛选6.1 基本筛选6.2 编码潜能筛选6.2.1CPC分析6.2.2CNCI分析6.2.3pfam蛋白结构域分析6.2.4phyloCSF分析6.2.5维恩图7lncRNA表达水平分析8lncRNA靶基因预测8.1 cis作用靶基因预测8.2 trans作用靶基因预测8.3 trans作用靶基因共表达网络分析9 lncRNA靶基因功能富集分析9.1lncRNAcis作用靶基因GO富集分析9.1.1lncRNAcis作用靶基因GO富集列表9.1.2lncRNAcis作用靶基因GO富集DAG图9.1.3lncRNAcis作用靶基因GO富集柱状图9.1.4lncRNAcis作用靶基因GO富集表达聚类9.2lncRNAcis作用靶基因KEGG富集分析9.2.1lncRNAcis作用靶基因KEGG富集列表9.2.2lncRNAcis作用靶基因KEGG富集散点图9.2.3lncRNAcis作用靶基因KEGG富集通路图9.2.4lncRNAcis作用靶基因KEGG富集表达聚类9.3lncRNAtrans靶基因GO富集分析9.3.1lncRNAtrans靶基因GO富集列表9.3.2lncRNAtrans靶基因GO富集DAG图9.3.3lncRNAtrans靶基因GO富集柱状图9.4lncRNAtrans靶基因KEGG富集分析9.4.1lncRNAtrans靶基因KEGG富集列表9.4.2lncRNAtrans靶基因KEGG富集散点图9.4.3lncRNAtrans靶基因KEGG富集通路图10lncRNA保守性分析10.1序列保守性分析10.2位点保守性分析11lncRNA组织特异性分析11 可变剪切分析11.1 可变剪切事件分类与数量统计11.2 可变剪切事件结构与表达量统计12 SNP和InDel分析13mRNA表达水平分析2/70525353545556575757585960606162636464656667686969696969697013.1表达水平分析13.2差异表达分析13.2.1差异表达分析结果展示13.2.2差异表达情况筛选13.2.3差异基因在染色体上的分布13.2.4差异表达聚类分析14差异mRNA富集分析14.1差异mRNAGO富集分析14.1.1差异mRNAGO富集列表14.1.2 差异mRNAGO富集DAG图14.1.3 差异mRNAGO富集柱状图14.2 差异mRNAKEGG富集分析14.2.1 差异mRNAKEGG富集列表14.2.2 差异mRNAKEGG富集散点图14.2.3差异mRNAKEGG富集通路图15 差异mRNA蛋白互作网络分析16lncRNA与mRNA的结构比较16.1lncRNA与mRNA的长度比较分析16.2lncRNA与mRNA的exon个数比较分析16.3lncRNA与mRNA的ORF的长度比较分析17lncRNA与mRNA的表达水平比较18 差异lncRNA与mRNA网络互作四、备注1 文件目录列表2 软件列表3 Methods英文版4 RNA-seq名词解释5Novofinder使用说明五、参考文献3/70北京诺禾致源生物信息科技有限公司一、建库测序流程一、建库测序流程从RNA样品到最终数据获得,样品检测、建库、测序每一个环节都会对数据质量和数量产生影响,而数据质量又会直接影响后续信息分析的结果。因此,获得高质量数据是保证生物信息分析正确、全面、可信的前提。为了从源头上保证测序数据的准确性、可靠性,诺禾致源对样品检测、建库、测序每一个生产步骤都严格把控,从根本上确保了高质量数据的产出。实验流程图如下:4/70北京诺禾致源生物信息科技有限公司1TotalRNA样品检测样品检测诺禾致源对RNA样品的检测主要包括4种方法:(1)琼脂糖凝胶电泳分析RNA降解程度以及是否有污染(2)Nanodrop检测RNA的纯度(OD260/280比值)(3)Qubit对RNA浓度进行精确定量(4)Agilent2100精确检测RNA的完整性2文库构建文库构建RNA检测合格后,通过epicentreRibo-ZeroTM试剂盒去除rRNA。随后加入fragmentationbuffer将RNA打断成150-200bp短片段150-200bp,以短片段RNA为模板,用六碱基随机引物(randomhexamers)合成一链cDNA,然后加入缓冲液、dNTPs(dUTP、dATP、dGTP和dCTP)和DNApolymeraseI合成二链cDNA,随后利用AMPureXPbeads纯化双链cDNA。纯化的双链cDNA再进行末端修复、加A尾并连接测序接头,然后用AMPureXPbeads进行片段大小选择。之后用USER酶降解含有U的cDNA第二链,最后进行PCR富集得到链特异性cDNA文库。文库构建原理图如下:3库检库检文库构建完成后,先使用Qubit2.0进行初步定量,稀释文库至1ng/ul,随后使用Agilent2100对文库的insertsize进行检测,insertsize符合预期后,使用Q-PCR方法对文库的有效浓度进行准确定量(文库有效浓度>2nM),以保证文库质量。4上机测序上机测序库检合格后,把不同文库按照有效浓度及目标下机数据量的需求pooling后进行HiSeq/MiSeq测序。5/70北京诺禾致源生物信息科技有限公司二、生物信息分析流程二、生物信息分析流程获得原始测序序列(SequencedReads)后,在有相关物种参考序列或参考基因组的情况下,通过如下流程进行生物信息分析:6/70北京诺禾致源生物信息科技有限公司三、结果展示及说明三、结果展示及说明1 原始序列数据 原始序列数据高通量测序(如illuminaHiSeqTM2500/MiSeq等测序平台)测序得到的原始图像数据文件经碱基识别(BaseCalling)分析转化为原始测序序列(SequencedReads),我们称之为RawData或RawReads,结果以FASTQ(简称为fq)文件格式存储,其中包含测序序列(reads)的序列信息以及其对应的测序质量信息。FASTQ格式文件中每个read由四行描述,如下:@EAS139:136:FC706VJ:2:2104:15343:1973931:Y:18:ATCACGGCTCTTTGCCCTTCTCGTCGAAAATTGTCTCCTCATTCGAAACTTCTCTGT+@@CFFFDEHHHHFIJJJ@FHGIIIEHIIJBHHHIJJEGIIJJIGHIGHCCF其中第一行以“@”开头,随后为illumina测序标识符(SequenceIdentifiers)和描述文字(选择性部分);第二行是碱基序列;第三行以“+”开头,随后为illumina测序标识符(选择性部分);第四行是对应序列的测序质量(Cocketal.)。illumina测序标识符详细信息如下:标识符标识符含义含义EAS139Uniqueinstrumentname136RunIDFC706VJFlowcellID2Flowcelllane2104Tilenumberwithintheflowcelllane15343'x'-coordinateoftheclusterwithinthetile197393'y'-coordinateoftheclusterwithinthetile1Memberofapair,1or2(paired-endormate-pairreadsonly)YYi#fthereadfailsfilter(readisbad),Notherwise180whennoneofthecontrolbitsareon,otherwiseitisanevennumberATCACGIndexsequence第四行中每个字符对应的ASCII值减去33,即为对应第二行碱基的测序质量值。如果测序错误率用e表示,illuminaHiSeqTM2500/MiSeq的碱基质量值用Qphred表示,则有下列关系:公式一: Qphred = -10log10(e)illuminaCasava1.8版本测序错误率与测序质量值简明对应关系如下:测序错误率测序错误率测序质量值测序质量值对应字符对应字符5%13.1%2050.1%30?0.01%40I7/70北京诺禾致源生物信息科技有限公司2 测序数据质量评估 测序数据质量评估2.1 测序错误率分布检查 测序错误率分布检查每个碱基测序错误率是通过测序Phred数值(Phredscore,Qphred)通过公式1转化得到,而Phred数值是在碱基识别(BaseCalling)过程中通过一种预测碱基判别发生错误概率模型计算得到的,对应关系如下表所显示:illuminaCasava1.8版本碱基识别与版本碱基识别与Phred分值之间的简明对应关系分值之间的简明对应关系Phred分值分值不正确的碱基识别不正确的碱基识别碱基正确识别率碱基正确识别率Q-sorce101/1090%Q10201/10099%Q20301/100099.9%Q30401/1000099.99%Q40测序错误率与碱基质量有关,受测序仪本身、测序试剂、样品等多个因素共同影响。对于RNA-seq技术,测序错误率分布具有两个特点:(1)测序错误率会随着测序序列(SequencedReads)长度的增加而升高,这是由于测序过程中化学试剂的消耗而导致的,并且为illumina高通量测序平台都具有的特征。(2)前6个碱基的位置也会发生较高的测序错误率,而这个长度也正好等于在RNA-seq建库过程中反转录所需要的随机引物的长度。所以推测前6个碱基测序错误率较高的原因为随机引物和RNA模版的不完全结合(Jiangetal.)。图图2.1 测序错误率分布图 测序错误率分布图横坐标为reads的碱基位置,纵坐标为单碱基错误率8/70北京诺禾致源生物信息科技有限公司2.2 测序数据过滤 测序数据过滤测序得到的原始测序序列,里面含有带接头的、低质量的reads,为了保证信息分析质量,必须对rawreads进行过滤,得到cleanreads,后续分析都基于cleanreads。数据处理的步骤如下:(1)去除带接头(adapter)的reads;(2)去除N(N表示无法确定碱基信息)的比例大于10%的reads;(3)去除低质量reads。RNA-seq的接头(Adapter,OligonucleotidesequencesforTruSeqTMRNAandDNASamplePrepKits)信息:RNA5’Adapter(RA5),part#15013205:5’-AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCCGATCT-3’RNA3’Adapter(RA3),part#15013207:5’-GATCGGAAGAGCACACGTCTGAACTCCAGTCAC(6位index)ATCTCGTATGCCGTCTTC

1 / 70
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功