2019-第六章表达序列分析-文档资料

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

第六章表达序列分析第一节引言(二)什么是表达序列标签?(expressedsequencetag,EST)从已建好的cDNA库中随机取出一个克隆,从5′末端或3′末端进行一轮单向自动测序,所获得的约60-500bp的一段cDNA序列。基因组表达为RNA的序列:mRNA和功能RNA一、表达序列与表达序列标签(一)什么是表达序列?EST的获得途径二、EST的用途基因组物理图谱的绘制基因识别的验证基因表达谱的构建发现新基因电子PCR克隆SNP(singlenucleotidepolymorphism)发现(一)ESTs与基因图谱的绘制基因组物理图谱的构建:借助序列标签位点(sequence-taggedsites,STS)●物理图谱也称为STS图谱●EST是一种STS●2019发表的人类基因组物理图谱含有15086个STS,其中大多数为EST,平均密度为1个标记/199kb(二)ESTs与基因预测的验证某一个物种的基因组测序完成之后,首要任务是对基因组所包含的全部基因进行预测,而现有基因预测软件不能百分之百准确预测全部基因,此时需要对预测基因进行验证,每一条EST代表特定基因的部分序列,因此将预测基因同物种所有的EST进行比对,有助于基因预测的验证。(三)ESTs与基因预测(Blast数据库搜索)在同一物种中搜寻基因家族的新成员(paralogs)在不同物种间搜寻功能相同的基因(orthologs)已知基因的不同剪切模式的搜寻(四)ESTs与SNP位点预测来自不同个体的冗余的ESTs可用于发现基因组中转录区域存在的SNPs。应注意区别真正的SNPs和由于测序错误而引起的本身不存在的SNPs。解决这一问题可以通过:●提高ESTs分析的准确性●对所发现的SNPs进行实验验证(五)ESTs与基因表达谱的构建….….Clone反转录(可选)读取光密度聚类分析(非同源功能注释)标记杂交反转录EST分析………….………….………….GeneChip0.10.060.050.04…000.070.01…表达量矩阵G1,G3,G5G2,G4G6,G9…利用EST,SAGE分析结果制作芯片(研究已发现的基因)连接,转化•Ricegenome-wideDNAchip(60,000+预测基因)•果蝇基因芯片…原位合成(六)EST数据的不足ESTs很短,没有给出完整的表达序列;低丰度表达基因不易获得(SAGE可以解决);由于只是一轮测序结果,出错率达2%~5%;有时有载体序列和核外mRNA来源的cDNA污染或是基因组DNA的污染;有时出现镶嵌克隆;序列的冗余,导致所需要处理的数据量很大。第二节EST数据分析一、cDNA文库的构建与EST数据的实验获取非标准化cDNA文库的构建标准化cDNA文库的构建(杂交方法如扣除杂交)cDNA逆转录引物检测低丰度表达基因不能用于表达谱研究适用于表达谱研究测序成本较高OligoT引物随机引物EST技术流程体内:翻译体外研究:反转录连接,转化文库构建技术已经成熟大数据量分析理念已经形成二、EST数据库1993年前:EST收录于GenBank,EBI和DDBJ1993年NCBI建立dbEST02468101214161820总EST条目(million)19931995199719992001时间(年)dbEST中数据量的增长常用的EST数据库数据库名称网址说明dbESTncbi.nlm.nih.gov/dbEST/综合UniGenencbi.nlm.nih.gov/unigene综合GeneIndicescompbio.dfci.harvard.edu/tgi/综合(一)dbEST(databaseofEST)Genbank的一部分63,236,621条数据(20091016)描述:向dbEST提交数据按格式编辑数据通过E-mail提交更新数据dbEST数据格式Publication文件:文献文件,文献发表信息Library文件:文库文件,实验信息Contact文件:联系人文件,联系信息EST文件:EST数据文件,核心数据在dbEST中检索数据利用Entrez检索系统登录NCBIFTP下载:ftp.ncbi.nih.gov/repository/dbEST例:在Entrez中检索人类血红蛋白EST数据1.检索栏内输入关键词,如“HBBHuman”2.检索结果访问号数据描述Gi号/数据库来源3.检索结果的解读数据记录的编号:DN991377数据记录的描述:……数据记录的格式:Genbank格式、EST格式数据记录的下载:下载FASTA格式序列、下载Genbank格式的文本文件(二)UniGene数据库Genbank的一部分一条纪录为一个genecluster简介查询UniGene通过NCBIFtp下载:使用dbEST数据库检索例:检索人类血红蛋白β亚基的UniGene数据1.检索栏内输入关键词“HBBHuman”2.获得检索结果页面3.检索结果解读数据名称:……数据描述:……数据格式(主要字段):SELECTEDPROTEINSIMILARITIES:基因类中相似蛋白质集合GENEEXPRESSTION:基因表达信息SEQUECNES:与基因类相关的序列,如mRNA、EST等等(三)GeneIndices数据库TheInstituteofGenomicResearchDatabase(TIGR)中的一个子库compbio.dfci.harvard.edu/tgi/简介数据构成42类动物47类植物15类原生生物10类真菌三、EST数据分析方法随机挑取克隆进行5′或3′端测序序列前处理聚类和拼接基因注释及功能分类去除低质量的序列(如使用Phred)应用BLAST、RepeatMasker或Crossmatch屏蔽数据组中不属于表达基因的赝象序列(artifactualsequences)●载体序列()●重复序列(RepBase,girinst.org)●污染序列(如核糖体RNA、细菌或其他物种的基因组DNA等)去除其中的嵌合克隆最后去除长度小于100bp的序列(一)序列前处理EST数据预处理流程聚类目的:将来自同一个基因或同一个转录本的具有重叠部分(over-lapping)的ESTs整合至单一的簇(cluster)中聚类作用:●产生较长的一致性序列(contigs),用于注释●降低数据的冗余,纠正错误数据。●可以用于检测选择性剪切。ESTs聚类的数据库主要有三个:●UniGene(ncbi.nlm.nih.gov/UniGene)●TIGRGeneIndices(tigr.org/tdb/tgi/)●STACK(sanbi.ac.za/Dbases.html)(二)ESTs的聚类PhrapCAP3TIGRAssemblerStadenPackage(三)ESTs序列聚类拼接的主要软件4种ESTs聚类和拼接软件比较PhrapCAP3TIGRAssemblerStadenPackage应用平台UnixUnix/WindowsUnixUnix/Windows可获得性学术用户取得认证后可免费下载使用需要联系作者获取免费下载免费下载输入数据海量数据,长短reads皆可大量数据大量数据大量数据用户界面命令行命令行命令行命令行/图形界面主要应用基因组、ESTESTEST基因组、EST(四)序列注释和分析一级序列同源性比对:使用BLAST等工具蛋白质结构域和功能位点搜索基因功能分类:GeneOntology表达量比较分析:不同组织或发育阶段基因表达量比较通路分析可变剪切分析第三节基因表达系列分析Serialanalysisofgeneexpression一、SAGE技术原理简介基因表达系列分析(SerialAnalysisofGeneExpression,SAGE):2019,Velculescu高通量、平行性检测简介三个基本要点9-14bp的短核苷酸序列“标签”(Tag)可以特异确定一个转录本串联体(多聚体)分子批量分析mRNA各转录本的表达水平可以用特定标签被测得的次数定量SAGE技术原理二、SAGE技术方案构建SAGE文库多聚体分子的克隆与测序标签序列的提取反转录酶切连接测序单条测序相当于对30-40条EST测序分析由于采样量大大提高,可对低表达基因进行分析:基因表达量分析、寻找新基因等等实验步骤较长要求较高SAGE技术方案三、SAGE技术应用前景全基因组表达谱分析与比较深入认识基因调控网络四、SAGE数据库与分析软件1.NCBISAGE数据库(GEO)2.SAGEnet3.TheMouseSAGESite4.其他SAGE数据库(一)SAGE数据库1.NCBISAGE数据库:GEOGeneExpressionOmnibus,2000,NCBIGEO数据库四个基本实体1)提交者,2)平台,3)样本,4)系列GEO简介GEO数据库查询:在EntreZ中查询EntrezGEO数据集●查询所有的实验注解●ncbi.nlm.nih.gov/sites/entrez?db=gdsEntrezGEO表达谱●查询样品和系列纪录●ncbi.nlm.nih.gov/sites/entrez?db=geoGEO数据库查询:在GEO主页查询ncbi.nlm.nih.gov/geo/例:查询GDS325数据集的结果数据记录的相关信息ExpressionProfiles:表达谱数据DataAnalysisTools:分析工具Samplesubsets:样本子集表达谱信息分析工具样本子集GEO数据分析Findgenes工具:快速寻找指定基因Clusterheatmap工具:样本层次聚类图QueryGroupAversusB工具:子集比较查询ExperimentdesignandValuedistribution:数据集的数值分布GEOBLAST:使用BLAST搜索感兴趣序列的表达谱数据Subseteffects:子集效应,提供不同子集之间的差异信号FindgenesClusterheatmapExperimentdesignandValuedistributionGEO数据提交与更新创建GEO账号:●GEO主页点击“Createanewaccount”选择提交方式●DirectDeposit/Update:直接提交●WebDeposit/Update:Web交互方式提交准备数据,执行提交2.SAGEnetSAGEnet是一个关于SAGE技术方法、文档、资讯以及收录SAGE数据的网络资源库sagenet.org/主要内容:FINDNGS:SAGE技术介绍RESOURCES:资料及数据下载PUBLICATIONS:SAGE出版物CONFERENCES:相关会议信息CONTACSUS:联系获取SAGE资料sagenet.org/3.TheMOUSESAGESite小鼠SGAE数据库,由捷克科学院分子遗传研究所构建mouse.img.cas.cz/sage/4.其他SAGE数据库GutSAGE:genome.dfci.harvard.edu/GutSAGE/StormSAGE:genome.dfci.harvard.edu/StomSAGE/GermSAGE:germsage.nichd.nih.gov/germsage/home.html(二)SAGE分析软件对SAGE数据分析主要包括从原始的序列中得到标签列表,比较来自不同组织细胞或不同生理状态乃至不同物种的标签及其出现频率,在相应数据库中搜索匹配序列,进行基因功能的分析或发现新的基因等

1 / 58
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功