•1.转录组•2.高通量测序•3.转录组数据分析•4.差异表达基因分析•5.趋势性上调和下调基因分析•6.基因集功能富集分析1.1transcriptome转录组(transcriptome)是指特定生物体在某种状态或某一生理条件下,细胞内所有基因转录产物的总和,包括信使RNA、核糖体RNA、转运RNA及非编码RNA;狭义上指所有mRNA的集合。从RNA层次研究基因表达的情况,即为转录组学(transcriptomics),是研究细胞表型和功能的一个重要手段。1.2转录组研究的重要性转录组是连接基因组遗传信息与生物功能的蛋白质组的纽带,转录水平的调控是最重要也是目前研究最广泛的生物体调控方式。转录组的研究比基因组的研究能给出更高效的有用信息。与基因组不同,转录组更有时间空间性。除了异常的mRNA降解现象(如转录衰减)以外,转录组反映的是特定条件下活跃表达的基因转录组的研究可以提供什么条件下什么基因表达什么信息,从而推断相应未知基因的功能,揭示特定调节基因的作用机制对转录本的定量可以了解特定基因的活性和表达量,用于疾病的诊断和治疗通过对转录组的研究,也让个性化医疗的目标,从共性转移到个性,成为可能1.3转录组研究的技术主要包括如下三种:1)基于杂交技术的微阵列技术;2)基于Sanger测序法的SAGE(serialanalysisofgeneexpression)和MPSS(multipleparallelsignaturesequencing);3)基于新一代高通量测序技术的转录组测序。几种转录组研究所用技术的比较转录组所用技术MicroarraySAGE和MPSSRNA-seq原理寡核苷酸杂交Sanger测序高通量测序信号荧光信号数字化信号数字化信号分辨率数个-上百个单碱基单碱基分辨率高低高背景高低低成本高高相对较低起始RNA用量多多少DNA芯片技术:只适用于检测已知序列,却无法捕获新的mRNA。杂交技术灵敏度有限,对于低丰度的mRNA,微阵列技术难以检测,也无法捕获到目的基因mRNA表达水平的微小变化。SAGE(基因表达系列分析):可以全面了解特定组织或细胞类型中基因群体表达状态,它的显著特点是能够大量获取基因组范围基因表达的类别与丰度,该技术成功地应用于特异组织或细胞的转录组研究和mRNA群体间差异表达基因鉴定。缺点是需要大量的mRNAMPSS(多重性平行定序):对于功能基因组研究非常有效,能在短时间内捕获细胞或组织内全部基因的表达特征;对于鉴定致病基因并揭示该基因在疾病中的作用机制等发挥了重要作用。可以侦测到极为罕见的基因表现1.4转录组测序(1)RNA聚合酶I和III负责种类稀少、功能重要的看家非编码RNA基因的转录,包括rRNA,tRNA,snoRNA,snRNA等。由这两类RNA聚合酶转录的非编码RNA属于看家RNA,在各种生理和病理状态下都被高水平转录,转录产物占细胞内RNA总量的95%以上,不是生命科学研究前沿领域的主要关注对象(2)RNA聚合酶II负责蛋白质编码基因和调控非编码RNA的转录,在真核生物的不同生理和病理状态下表达量被严格调控,一直吸引着各生命科学研究领域的重点关注,无比幸运的是,由RNA聚合酶II生成的转录的末端均含有3’端多聚腺苷尾【3’poly(A)tail】。转录组测序一般是对用多聚胸腺嘧啶(oligo-dT)进行亲和纯化的RNA聚合酶II转录生成的成熟mRNA和ncRNA进行高通量测序。这样的数据有效排除了看家非编码RNA的干扰,可以通过一次测序获得一种细胞内几乎所有重要基因的表达参数。转录组高通量测序的优势?•高通量、更精确的数字信号、无需已知序列、能够在单核苷酸水平对任意物种的整体转录活动进行检测,在分析转录本的结构和表达水平的同时,还能够发现未知转录本和稀有转录本,精确的识别可变剪接位点以及cSNP(编码序列单核苷酸多态性),提供最全面的转录组信息。转录组前沿研究简介•单细胞转录组分析•转录组测序确定RNA结构•转录组测序在疾病中的应用2.高通量测序测序技术的发展高通量测序技术(High-throughputsequencing)又称“第二代”测序技术(“Next-generation”sequencingtechnology),高通量测序使得对一个物种的转录组和基因组进行细致全貌的分析成为可能,所以又被称为深度测序(deepsequencing)2.1高通量测序优势?价格比第一代大幅度降低可扩展的高通量需要样品量少新颖的测序化学技术单个或配对末端支持2.2高通量测序技术的应用重头测序(denovosequencing)重测序(resequencing)全转录组测序(wholetranscriptomeresequencing)小分子RNA测序(smallRNAsequencing)染色质免疫共沉淀测序(ChIP-seq)2.3三种常见的测序平台IlluminaGenomeAnalyzer•专利核心技术“DNA簇”和“可逆性末端终结”,达成自动化样本制备及基因组数百万个碱基大规模平行测序。具有高准确性,高通量,高灵敏度,和低运行成本等突出优势,可以同时完成传统基因组学研究(测序和注释)以及功能基因组学(基因表达及调控,基因功能,蛋白/核酸相互作用)研究。GenomeAnalyzerIIx测序技术原理1)文库制备:将基因组DNA打成几百个碱基(或更短)的小片段,并在两个末端加上接头(adapter)。2)桥式PCR产生DNA簇a、Solexa测序专用的测序芯片(flowcell)表面连接有一层单链引物(Primer),单链状态的DNA片断与芯片表面的引物通过碱基互补被一端固定在芯片上;b、通过扩增反应使得单链DNA成为双链DNA;c、双链再次变性后成为单链,其一端固定在测序芯片上,另外一端(5’或3’)随机和附近的另外一个引物互补,被固定住,形成“桥“(bridge);d、在测序芯片上同时有上千万DNA单分子发生以上的反应;e、c中形成的单链桥,以周围的引物为扩增引物,在测序芯片表面再次进行扩增,形成双链;f、双链经变性成单链,再次形成桥,成为下一轮扩增的模板继续扩增反应;g、在反复进行30多轮扩增,每个单分子得到了1000倍扩增,成为单克隆“DNA簇群”;h、“DNA簇群”在GenomeAnalyzerIIx测序仪上进行序列分析;3)测序反应IlluminaGenomeAnalyzerIIx是一种基于单分子簇的边合成边测序技术,基于专有的可逆终止化学反应原理。测序时加入带有4种荧光标记的dNTP,每个碱基末端被保护基团封闭,每个循环只允许单个碱基合成,经过扫描,读取该次反应后的荧光信号结果,该保护基团被除去,下一个反应可继续进行,如此反复,得出碱基的精确序列。illumina测序平台的特点•1)可控制的高通量:一次实验可读取量大于15亿个碱基/芯片•2)上样需求低:上样量只在pmol级(ng级)•3)简单、快速、自动化•4)低错误测序比例利用新颖的可逆荧光标记终止子,可以在DNA链延伸的过程中检测单个碱基掺入。由于四个可逆终止子dNTP在每个测序循环都存在,自然的竞争减少了掺入的错配。454/GS-FLX系统的测序技术•1)技术原理:GSFLXSystem是一种基于焦磷酸测序原理而建立起来的高通量基因组测序系统。焦磷酸测序的原理如下:(1)1个特异性的测序引物和单链DNA模板结合,然后加入酶混合物(包括DNAPolymerase、ATPSulfurylase、Luciferase和Apyrase)和底物混合物(包括APS和Luciferin)。(2)向反应体系中加入1种dNTP,如果它刚好能和DNA模板的下一个碱基配对,则会在DNA聚合酶的作用下,添加到测序引物的3’末端,同时释放出一个分子的焦磷酸(PPi)。(3)在ATP硫酸化酶的作用下,生成的PPi可以和APS结合形成ATP;在荧光素酶的催化下,生成的ATP又可以和荧光素结合形成氧化荧光素,同时产生可见光。通过CCD光学系统即可获得一个特异的检测峰,峰值的高低则和相匹配的碱基数成正比。(4)反应体系中剩余的dNTP和残留的少量ATP在Apyrase的作用下发生降解。(5)加入另一种dNTP,使第2-4步反应重复进行,根据获得的峰值图即可读取准确的DNA序列信息。•2)工作流程:3.GSFLX系统的技术优势和限制1)读长优势:单个序列的读长平均可达到450个碱基左右;2)操作简便高效,不需建库、克隆挑取、质粒提取等工作;3)分析结果快速、信息高通量,10小时的运行当中可获得100多万个读长,读取超过4-6亿个碱基信息;4)应用广泛且稳定,测序结果一致性较高;5)同聚物的限制,即相同碱基的连续掺入,如AAA或GGG,由于没有终止元件来阻止单个循环的连续掺入,同聚物的长度就需要从信号强度中推断出来。此处可能产生误差。因此,主要错误类型是插入-缺失,而不是替换。ABISOLID3system•SOLID平台技术原理:•SOLID是基于寡核苷酸连接和检测进行测序的技术。它以4色荧光标记寡核苷酸的连续连接反应为基础,以双碱基编码技术为检测技术,对单拷贝的DNA片段进行大规模扩增和高通量测序。•基本过程如下:(1)文库制备:根据实际情况制备文库:片段文库或末端配对文库(2)乳液PCR(3)磁珠富集技术制备单分子模板:含有DNA模板的磁珠共价结合在SOLiD玻片表面。(4)连接测序:上机测序,边连接边测序,获得SOLiD原始颜色序列。•SOLiD系统特点1)高准确度:双碱基编码检测技术在测序过程中对每个碱基判读两遍,从而减少原始数据错误,提供内在的校对功能。2)高通量:单次运行可产生50GB的序列数据。3)可扩展性4)灵活性5)运行时间较长,测序片段相对较小:单次运行时间长达7天,最短3.5天。最长2*50bp。测序技术的比较IlluminaGenomeAnalyzer3.转录组数据分析4.差异表达基因分析•统计学分析:•1.Foldchange,一般2-foldincreaseordecrease(平行实验的样本较少)•2.p-value(平行实验的样本较多)under-expressedover-expressed/2/24.1差异倍数法•Foldchange=log2(A/B)Foldchange=log2(A/B)A:sampleA表达值B:sampleB表达值通常以1和-1为作为差异表达的阈值,判断基因是否差异表达•倍数法是比较常用的一种方法,因为比较简单和直接。•但是,这种方法也是有其重大缺陷的。比如,在某个实验中,基因表达水平的变化不大,如果选择判别阈值为2倍,则有可能找不到几个差异表达的基因,假阴性率比较高。但如果是主观缩小判断阈值,又有可能增大假阳性率。•这一方法没有考虑到差异表达的统计显著性。4.2卡方检验•条件:a.所有单元频数都不能等于零,b.要求样本含量应大于40且每个格子中的理论频数不应小于5。当样本含量大于40但理论频数有小于5的情况时卡方值需要校正,当样本含量小于40时只能用确切概率法计算概率。•ᵡ2=[(ad-bc)2(a+b+c+d)]/[(a+b)(c+d)(a+c)(b+d)]•df=1sampleAsampleBGeneiabSum(genei)cd•根据ᵡ2求出p值,对于p=0.05或0.01的,拒绝原假设,存在显著的统计学意义。•统计学家已证明,当自由度比较大时,误差较小;自由度等于1时,特别n比较小,或理论频数5时,误差较大,使得所得概率值偏小,因此需要校正。4.2.Fisher精确检验•英国统计学家Fisher提出的2*2表的确切概率计算法,它基于四格表的边际和固定。当ᵡ2检验的条件不满足时,这个检验非常有用。•在样本比较小时(单元的频数小于4),需要用Fisher精确检验来做独立检验。•Fisher检验是建立在超几何分布的基础上的,对于单元频数小的表来说,特别适合。•对于2*2列联表,原假设“两变量无关”。