1实习二真核生物基因结构的预测分析浙江加州国际纳米技术研究院2010年11月苏锟楷楼小燕韩序蒋琰2实习一基因组数据注释和功能分析实习二真核生物基因结构的预测分析实习三芯片的基本数据处理和分析实习四蛋白质结构与功能分析实习五蛋白质组学数据分析实习六系统生物学软件实习课程内容基因组学转录物组学蛋白质组学系统生物学3基因组序列cDNA序列编码区预测CodonbiasGCContent限制性酶切位点基因结构分析选择性剪切转录调控因子序列比对功能注释KEGGGO系统发育树蛋白质序列翻译蛋白质理化性质二级结构预测结构域分析重要信号位点分析三级结构预测基因组功能分析4真核生物基因的主要结构5基因结构分析开放读码框GENSCANGENOMESCANCpG岛CpGPlot转录终止信号POLYAH启动子/转录起始位点PromoterScan密码子偏好分析CodonWmRNA剪切位点NETGENE2Spidey选择性剪切ASTD基因结构分析常用软件6开放读码框的识别•开放读码框(openreadingframe,ORF)是一段起始密码子和终止密码子之间的碱基序列•ORF是潜在的蛋白质编码区7基因开放阅读框/基因结构分析识别工具ORFFinder通用BestORF=bestorf&group=programs&subgroup=gfindSoftberry真核GENSCAN脊椎、拟南芥、玉米GeneFinder人、小鼠、拟南芥、酵母FGENESH=fgenesh&group=programs&subgroup=gfindSoftberry真核(基因结构)GeneMark原核GLIMMER://原核Fgenes=fgenes&group=programs&subgroup=gfindSoftberry人(基因结构)FgeneSV=virus&group=programs&subgroup=gfindvSoftberry病毒Generation原核FGENESB=fgenesb&group=programs&subgroup=gfindbSoftberry细菌(基因结构)GenomeScan脊椎、拟南芥、玉米GeneWise2人GRAIL人、小鼠、拟南芥、果蝇8ORF识别:GENSCAN结果返回到邮箱(可选)提交序列提交序列文件运行GENSCAN显示氨基酸或CDS序列序列名称(可选)是否显示非最优外显子选择物种类型99GENSCAN输出结果:文本1010GENSCAN输出结果:图形11ORF识别:GenomeScan提交待分析序列提交同源蛋白质序列运行GenomeScan输出结果:文本预测外显子位置、可信度等信息同源比对信息预测结果的氨基酸序列13GenomeScan输出结果:图形14课堂练习•1使用GENESCAN预测序列中可能的ORF。•2使用GENOMESCAN预测序列中可能的ORF。•练习用的序列文件在c:\zcni\shixi2文件下,名字为clone.fasta,使用写字板打开查看。15转录调控序列分析CpG岛、转录终止信号和启动子区域的预测16CpG岛的预测CpG岛常位于真核生物基因转录起始位点,GC含50%,长度200bp的一段DNA序列。17CpGIsland分析常用软件CpGIsland://://=cpgfinder&group=programs&subgroup=promoterWebCpGi130://pbil.univ-lyon1.fr/software/cpgprod_query.htmlweb提交序列文件提交序列参数选项CpG岛的预测:CpGPlot预测结果起始为532bp终止于51783bp20转录终止信号上游作用元件:AAUAAA下游作用元件:GCrich二重对称区、UUUUUUC-GC-GG-CG-CU-AG-CG-CC-GG-CUUUUUUUUURNA5’3’AAUAAACAAAAAAAAAAAAA成熟mRNA5’3’AAUAAACAGUmRNA前体5’3’21转录终止信号预测:POLYAH=polyah&group=programs&subgroup=promoter提交序列文件提交序列22polyA位置GENESCAN预测结果PolyA位点52490bpPOLYAH输出结果23启动子区结构启动子(Promoter)位于结构基因5’端上游,能活化RNA聚合酶,使之与模板DNA结合并具有转录起始的特异性。转录起始位点(Transcriptionstartsite,TSS)PYCAPY(嘧啶)核心启动子元件(Corepromoterelement)TATAbox,Pribnowbox(TATAA)上游启动子元件(Upstreampromoterelement,UPE)CAATbox,GCbox,SP1,Otc增强子(Enhancer)24原核和真核生物基因转录起始位点上游区结构原核生物真核生物TTGACATATAATAmRNA+1-10-35PyAPyTATAATGC区CAAT区mRNA+1-40-25-110增强子上游启动子元件,UPE核心启动子元件转录起始位点25PromoterScan://biowulf.bu.edu/zlab/PromoSer/WebNeuralNetworkPromoterPrediction:BPROM,TSSP,TSSG,TSSW=index&group=programs&subgroup=promoterWebMatInspector://rsat.ulb.ac.be/rsat/WebCister~mfrith/cister.shtmlWeb启动子结合位点分析常用软件26启动子预测:PromoterScan提交序列27PromoterScan输出结果找到的TATAbox和转录起始位点预测可能的转录因子转录因子在提交序列中的位置28课堂练习•1使用CpGPlot预测基因的CpGisland位置。•2使用PolyAH预测基因可能的转录终止的位置。•3使用PromotorScan寻找基因上游序列里可能的转录因子调控区域。基因密码子偏好性291.研究蛋白质结构功能中的作用2.在表达外源基因方面的作用3.在生物信息学研究中的作用基因密码子偏好性:CodonW30粘帖目的序列密码子表的选择如需计算FOP/CBI选择相应物种如需计算CAI选择相应物种输出格式(默认不选)汇总所有基因的信息31参数选择计算所有指数选择导入对应物种CAIFOPCBI数据计算有效密码子数计算GC含量计算GC3s含量计算同义密码子数量计算同义密码子第三位碱基组成密码子总数32各项指数输出结果密码子使用频率CodonW结果界面课堂练习•使用CodonW分析基因的密码子使用偏好,了解密码子偏好分析中各指数的含义。3334内含子/外显子剪切位点识别如何分析核酸序列中的外显子组成?通过对特征序列(GT-AG)的分析进行直接的预测基因预测软件(NetGene2)与相应的基因组序列比对,分析比对片段的分布位置(Spidey)3536剪切位点识别:NetGene2提交序列选择物种37NetGene2输出结果供体位点受体位点可信度相位38mRNA剪切位点识别:Spidey•NCBI开发的在线预测程序•用于mRNA序列同基因组序列比对分析同源序列的获得:序列比对•通过BLAST进行序列比对,找到可能同源的相似性好的一系列mRNA序列。BLAST比对到的三条mRNA序列40输入基因组序列或序列数据库号输入相似性序列判断用于分析的序列间的差异,并调整比对参数不受默认内含子长度限制,默认长度:内部内含子为35kb,末端内含子为100kb比对阈值选择物种输出格式选择41Spidey输出结果第一条蓝色序列为基因组序列,橘黄色为外显子外显子对应于基因组上的起始/结束位置外显子对应于mRNA/cDNA上的起始/结束位置供体、受体位点外显子长度一致性百分比错配和gap外显子序号序列联配结果42课堂练习•1练习两种预测剪切位点的软件的使用,NetGene2和Spidey。•2Spidey的同源序列文件保存在c:\zcni\shixi2文件下,名字为Spidey.txt,使用写字板打开查看。43选择性剪切(Alternativesplicing)分析选择性剪接是调控基因表达的重要机制了解不同物种、细胞、发育阶段、环境压力下基因的调控表达机制44选择性剪接的类型选择性剪切的五种基本类型:内含子保留.5‘端选择性剪切位点.3’端选择性剪切位点.外显子遗漏.互斥外显子.45查询选择性剪切相关的网站综合