基因转录组的测定及分析

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

基因转录组的测定及分析胡松年husn@big.ac.cn中国科学院北京基因研究所大规模表达序列标签(EST)测定及分析1、什么是EST?2、EST的应用3、EST序列测定及分析过程什么是ESTs?ESTs(ExpressedSequencetags)是从已建好的cDNA库中随机取出一个克隆,从5’末端或3’末端对插入的cDNA片段进行一轮单向自动测序,所获得的约60-500bp的一段cDNA序列。大规模EST序列测定的开始1983年:Costanzo等提出EST概念的雏形1991年:Adams测定了三种人脑组织共609条EST,宣布了cDNA大规模测序的时代的开始代1991年:Okubo等提出大规模cDNA测序的研究战略1993年:Venter等创立现在的EST技术1993年:Boguski&Schuler提出以EST为界标的人类基因组转录图谱计划●●93年前ESTs数据收录于GenBank,EBI和DDBJ。●1993年NCBI(NationalCenterofBiotechnologyInformation)建立了一个专门的EST数据库dbEST来保存和收集所有的EST数据。●95年中期GenBank中EST的数目超过了非EST的数目。●现在GenBank中EST的数目已经超过了三千五百万,约占GenBank中序列数的60%.GrowthofdbEST051015202530354019931994199519961997199819992000200120022003200420051-Jun-06YearNumberofESTs(millions)EST数量排名前10的物种OrganismESTsHomosapiens(human)8,301,471Musmusculus+domesticus(mouse)4,852,146Zeamays(maize)2,018,798Bostaurus(cattle)1,620,962Arabidopsisthaliana(thalecress)1,559,485Daniorerio(zebrafish)1,527,299Glycinemax(soybean)1,481,930Xenopustropicalis(westernclawedfrog)1,422,983Oryzasativa(rice)1,271,375Cionaintestinalis1,249,110截止到2010年3月19日EST相关数据库储存EST原始数据的一级数据库◆EMBL◆GenBank(dbEST)◆DDBJ◆UniGene()◆TIGRGeneIndices()◆STACK()对EST进行聚类拼接的二级数据库EST的应用1ESTs与基因识别ESTs已经被广泛的应用于基因识别,因为ESTs的数目比GenBank中其它的核苷酸序列多,研究人员更容易在EST库中搜寻到新的基因(Boguskietal.,1994).●在同一物种中搜寻基因家族的新成员(paralogs)。●在不同物种间搜寻功能相同的基因(orthologs)。●已知基因的不同剪切模式的搜寻。【注:不过很难确定一个新的序列是由于交替剪切产生的或是由于cDNA文库中污染了基因组DNA序列(Wolfsbergetal.,1997)】EST的应用2ESTs与基因图谱的绘制EST可以借助于序列标签位点(sequence-taggedsites)用于基因图谱的构建.STS本身是从人类基因组中随机选择出来的长度在200-300bp左右的经PCR检测的基因组中唯一的一段序列。来自mRNA的3’非翻译区的ESTs更适合做为STSs,用于基因图谱的绘制。其优点主要包括:●由于没有内含子的存在,因此在cDNA及基因组模板中其PCR产物的大小相同;●与编码区具有很强的保守性不同,3’UTRs序列的保守性较差,因此很容易将单个基因与编码序列关系非常紧密的相似基因家族成员分开。(JamesSikela等,1991年)EST的应用3ESTs与基因预测由于EST来源于cDNA,因此每一条EST均代表了文库建立时所采样品特定发育时期和生理状态下的一个基因的部分序列。使用合适的比对参数,大于90%的已经注释的基因都能在EST库中检测到(Baileyetal.,1998)。ESTs可以做为其它基因预测算法的补充,因为它们对预测基因的交替剪切和3‘非翻译区很有效。ESTs与SNPs来自不同个体的冗余的ESTs可用于发现基因组中转录区域存在的SNPs。最近的许多研究都证明对ESTs数据的分析可以发现基因相关的SNPs(Buetowetal.,1999;Gargetal.,1999;Marthetal.,1999;Picoult-Newbergetal.,1999)。应注意区别真正的SNPs和由于测序错误(ESTs为单向测序得来,错误率可达2%)而引起的本身不存在的SNPs。解决这一问题可以通过:●提高ESTs分析的准确性。●对所发现的SNPs进行实验验证。EST的应用4EST的应用5利用ESTs大规模分析基因表达水平因为EST序列是从某以特定的组织的cDNA文库中随机测序而得到,所以可以用利用未经标准化和差减杂交的cDNA文库EST分析特定组织的基因表达谱。标准化的cDNA文库和经过差减杂交的cDNA文库则不能反应基因表达的水平。◆CGAP为研究癌症的分子机理,美国国家癌症研究所NCI的癌症基因组解析计划(CancerGenomeAnatomyProject,CGAP)构建了很多正常的或是癌症前期的和癌症后期的组织的cDNA文库,并进行了大规模的EST测序,其中大部分的文库未经标准化或差减杂交处理。CGAP网站提供了多种工具用以分析不同文库间基因表达的差异,如:●DigitalGeneExpressionDisplayer(DGED)●cDNAxProfiler◆基因表达系列分析(SerialAnalysisofGeneExpression,SAGE)基因表达系列分析是一种用于定量,高通量基因表达分析的实验方法(Velculescuetal.,1995)。SAGE的原理就是分离每个转录本的特定位置的较短的单一的序列标签(约9-21个碱基对),这些短的序列被连接、克隆和测序,特定的序列标签的出现次数就反应了对应的基因的表达丰度。◆DNA微阵列或基因芯片的研究高密度寡核苷酸cDNA芯片或cDNA微阵列是一种新的大规模检测基因表达的技术,具有高通量分析的优点。在许多情况下,cDNA芯片的探针来源于3'EST(Dugganetal.,1999),所以EST序列的分析有助于芯片探针的设计。EST技术流程体内:翻译体外研究:反转录连接,转化转化效率问题(基因芯片)文库构建技术已经成熟测序采样问题(SAGE)测序成本已经大大降低大数据量分析理念已经形成Serialanalysisofgeneexpression(SAGE)技术流程反转录酶切连接测序单条测序==对30-40条EST测序分析低丰度表达基因、基因表达量分析、新基因、上下调控基因鉴定、表达的复合效应实验步骤较长要求较高Serialanalysisofgeneexpression(SAGE)技术流程SAGE文库的构建:NlaIII(锚定酶)酶切,该酶能够识别CATG位点并在其3′端进行酶切;链霉素包被的磁珠进行亲和纯化;将cDNA分为A和B两部分,分别连接接头A或接头B,每一种接头都含有CATG四碱基突出端、限制性内切酶BsmFI的识别序列和一个PCR引物序列(引物A或B);用标签酶BsmFI酶切,该酶在其识别位点3′端下游的14-17bp处进行酶切,产生连有接头的短cDNA片段;混合并连接两个短cDNA片段,构成双标签(ditag)后,用引物A和B进行PCR扩增;锚定酶NlaIII切割扩增产物,抽提SAGE双标签片段;并用T4DNA连接酶连接成多聚体(concaterner);选择合适的片断长度,克隆进载体;得到的克隆插入序列由一系列的20-22bp长的SAGE双标签组成,每两个双标签中间由4bp的NlaIII酶切位点分隔开。SAGE文库的测序:单向测序。Serialanalysisofgeneexpression(SAGE)分析流程在双标签多聚体序列中定位NlaIII酶切位点(即CATG);提取CATG位点之间的20-22bp长的双标签序列;去除重复出现的双标签序列,包括反向互补方向上重复的双标签序列;截取每个双标签序列最靠近两头末端的10个碱基,即为标签序列;去除与接头序列相对应的标签(即TCCCCGTACA和TCCCTATTAA),同时去除含有不确定碱基(即除A、C、T、G四种碱基以外的碱基)的标签;计算每个标签的出重复次数,以列表的形式给出一个包含每个标签及其表达丰度的报告。基因芯片或微阵列技术流程….….Clone反转录(可选)读取光密度聚类分析(非同源功能注释)标记杂交反转录EST分析………….………….………….GeneChip0.10.060.050.04…000.070.01…表达量矩阵G1,G3,G5G2,G4G6,G9…利用EST,SAGE分析结果制作芯片(研究已发现的基因)连接,转化•Ricegenome-wideDNAchip(60,000+预测基因)•果蝇基因芯片…原位合成几种大规模分析基因表达水平的方法的比较ESTSAGEMicroarrayGeneChip发现新基因是是否否有序列是(可直接进行可变剪切的分析)否否否主要问题采样量实验过程重复性成本高◆ESTs很短,没有给出完整的表达序列;◆低丰度表达基因不易获得。◆由于只是一轮测序结果,出错率达2%-5%;◆有时有载体序列和核外mRNA来源的cDNA污染或是基因组DNA的污染;◆有时出现镶嵌克隆;◆序列的冗余,导致所需要处理的数据量很大。ESTs数据的不足技术路线cDNA文库构建随机测序得到EST序列读取与处理序列拼接和注释表达丰度和功能分析表达谱特征分析表达量在不同文库中的分布表达谱的比较分析差异表达基因鉴定与分类功能分析作用机理分析Q-PCR验证EST软件平台EST序列库/序列的质量检查测序量监控聚类和拼接检查(借助于基因组信息)全长ORF寻找发现全长基因研究表达基因概况的主要实验手段(DNAchip、proteomics的先驱)功能分类表达量分析SAGE的先驱交替剪接检测EST特有信息cDNA文库构建◆非标准化的cDNA文库的构建。(可用于基因表达量的分析)◆经标准化或扣除杂交处理的cDNA文库。(富集表达丰度较低的基因)◆Oligod(T)cDNA文库。(非翻译区由于不含有编码序列,与编码区保守序列相比所受到的选择压力比较小,因而其多态性程度比较高,便于多态性位点的选择以用于遗传图谱的构建。)◆随机引物cDNA文库。(所获得的EST在基因功能的鉴定时具有更多的信息含量,并且在构建EST数据库时更有优势,同时有利于利用EST数据库聚类完整的基因和阅读框的寻找,便于利用更敏感的蛋白质比较来寻找同源基因。)cDNA文库构建常见问题RNA得率低mRNA分离效率低cDNA产物少原因:多糖、多酚、内源性核酸蛋白酶、miRNA等原因多糖-糖蛋白(核酸蛋白酶,植物血凝素等)、多酚类等次生代谢产物在RNA分离时,经常与RNA共沉降,导致RNA丢失。或导致分离后的RNA严重不纯,影响mRNA分离的得率。内源性核酸酶存在较多的情况下,可降解双链DNA、RNA或者DNA-RNA杂合体,致使RNA易降解,转录后的DNA接头无法连接,是cDNA得率低的原因之一。miRNA的存在导致mRNA的降解测序方向的选择根据不同的实验目的选择不同的测序方向:◆5’端5’上游非翻译区较短且含有较多的调控信息。一般在寻找新基因或研究基因差异表达时用5’端E

1 / 186
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功