高芳銮-生物信息学分析实例(生物信息学在植物病毒研究中的应用)

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

生物信息学生物信息学在植物病毒研究中的应用在植物病毒研究中的应用高芳銮高芳銮主要内容•生物信息学简介•基于序列的生物信息学分析•分子系统发育分析•抗原决定簇预测什么是生物信息学?•生物信息学是生物学、数学、计算机科学以及信息科学等诸多学科相互交融而形成的一门新兴学科,它以互联网为媒介,数据库为载体,利用数学知识建立各种计算机模型,并以计算机为工具对实验生物学中产生的大量生物学数据进行采集、存储、检索、处理、分析及解释,从而揭示生物数据所蕴含的生物学奥秘。•生物信息学的基础是遗传的中心法则•遗传的中心法则:DNA⇒RNA⇒蛋白质生物信息学的研究内容生物信息学的研究内容•生物信息的收集、存储、管理与提供•基因组序列信息的提取和分析••功能基因组相关信息分析功能基因组相关信息分析功能基因组相关信息分析功能基因组相关信息分析功能基因组相关信息分析功能基因组相关信息分析功能基因组相关信息分析功能基因组相关信息分析••生物大分子结构模拟生物大分子结构模拟生物大分子结构模拟生物大分子结构模拟生物大分子结构模拟生物大分子结构模拟生物大分子结构模拟生物大分子结构模拟和药物设计药物设计药物设计药物设计药物设计药物设计药物设计药物设计•生物信息分析的技术与方法研究•应用与发展研究生物信息学在病毒研究中的应用•SorinDraghici等人(2003)采用神经网络(neuralnetwork)方法,较为准确地预测HIV药物抗性,准确度达到78%;•成军(2003)等利用不同种属动物之间重要基因序列高度同源的理论,应用生物信息学技术和方法,克隆牛丙型肝炎病毒(HCV)核心结合蛋白6(HCBP6)的同源基因;•Zhu等(2004)通过使用最大似然法(ML)、贝叶斯推论和最大简约法(MP)证实了SARS冠状病毒系统发育树位置与第2组冠状病毒是单源的假说(Monophyletic)。========主要集中在人类及动物病毒的研究上基于核苷酸序列分析•同源分析和检索•基于NCBI/Blast软件的核酸序列同源性分析•Nr数据库、EST数据库、Unigene数据库等•核苷酸序列的基本分析•分子量、碱基组成•序列变换-反向、反向互补、转换为RNA序列等•限制性酶切分析•基因结构分析:•启动子及转录因子结合位点•重复序列•CpGIsland(HTFIsland)•ORF分析(内含子/外显子分析)•电子克隆(e-PCR)•利用EST数据库的重叠序列克隆新基因•核酸序列的电子基因定位(即:基因的染色体定位)•利用STS数据库进行电子基因定位•利用UniGene数据库进行电子基因定位•基因的电子表达谱分析(新基因)•UniGene数据库•Tigem的电子原位杂交服务器基于氨基酸序列分析•同同同同源分析和检索源分析和检索源分析和检索源分析和检索::::•BLAST、FASTA•NR数据库、Swissprot数据库等•蛋白质理化性质分析蛋白质理化性质分析蛋白质理化性质分析蛋白质理化性质分析::::•氨基酸组成、分子量、理论等电点(pI)、原子组成、吸光系数、半衰期、不稳定系数、脂肪系数•功能区域功能区域功能区域功能区域::::•疏水区、跨膜区、信号肽、螺旋卷曲、低复杂度区域等功能性特征•功能位点分析(Motif):•Prosite数据库搜索•Profile数据库搜索•结构域分析•空间结构预测空间结构预测空间结构预测空间结构预测::::•二级结构预测二级结构预测二级结构预测二级结构预测•三级结构预测同源模建折叠识别从头预测•分子进化(系统发育)分析流程分析流程分析流程分析流程RGDVRGDVP8P8//Pns10Pns10基因的原核表达及生信分析基因的原核表达及生信分析基因的原核表达及生信分析基因的原核表达及生信分析基因的原核表达及生信分析基因的原核表达及生信分析基因的原核表达及生信分析基因的原核表达及生信分析ORF预测及可靠性检验•NCBI的ORFFinder服务器•预测的可靠性检验I.基于一种在ORF上发现不寻常的序列变异类型,即每一第3碱基趋向于相同的几率远大于仅仅由随机产生的几率(GCG-TESTCODETESTCODE)II.通过分析确定ORF的密码子是否与那些用于同一生物其他基因中的密码子相一致(GCG-CODONFREQUENCYCODONFREQUENCY)III.III.将将将将将将将将ORFORF翻译成氨基酸序列翻译成氨基酸序列翻译成氨基酸序列翻译成氨基酸序列,,,,然后将结果序列然后将结果序列然后将结果序列然后将结果序列翻译成氨基酸序列翻译成氨基酸序列翻译成氨基酸序列翻译成氨基酸序列,,,,然后将结果序列然后将结果序列然后将结果序列然后将结果序列与现有数据库比对与现有数据库比对与现有数据库比对与现有数据库比对,,,,看看是否有多个显著相看看是否有多个显著相看看是否有多个显著相看看是否有多个显著相与现有数据库比对与现有数据库比对与现有数据库比对与现有数据库比对,,,,看看是否有多个显著相看看是否有多个显著相看看是否有多个显著相看看是否有多个显著相似的序列似的序列似的序列似的序列似的序列似的序列似的序列似的序列(BLASTP)(BLASTP)Blast比对结果•设计引物:PrimerPremier5.0•评估引物质量:Oligo6.65或OligonucleotidePropertiesCalculator•NCBI的BLAST2SEQUENCES程序•序列矩阵图示意序列同源序列易位序列交换序列插入核苷酸序列=氨基酸序列•ExPASy上的Translatetool••生物学软件生物学软件生物学软件生物学软件生物学软件生物学软件生物学软件生物学软件BioEditBioEdita)a)查看密码子用法查看密码子用法查看密码子用法查看密码子用法查看密码子用法查看密码子用法查看密码子用法查看密码子用法((CodonCodonUsageDatabaseUsageDatabase))b)b)整理制作密码子使用频率表整理制作密码子使用频率表整理制作密码子使用频率表整理制作密码子使用频率表整理制作密码子使用频率表整理制作密码子使用频率表整理制作密码子使用频率表整理制作密码子使用频率表c)c)翻译成氨基酸翻译成氨基酸翻译成氨基酸翻译成氨基酸翻译成氨基酸翻译成氨基酸翻译成氨基酸翻译成氨基酸Ricegalldwarfvirus密码子使用频率表制作密码子用法表•用文本编辑器类工具编辑BioEdit安装目录中“tables”文件夹中的“codon.tab”文件,替换相应数据;将核苷酸序列翻译成氨基酸序列蛋白质理化性质分析•在线分析•ExPasy服务器上的ProtParam••生物学软件•BioEdit-氨基酸成分•Seqtools-亲、疏水性残基,蛋白溶解度ProtParam程序分析蛋白质理化性质结果使用BioEdit7.05分析蛋白质组分Seqtools分析蛋白理化性质使用蛋白质功能性区域分析•疏水性分析•在线的ProtScale程序•使用生物学软件BioEdit7.05采用Kyte-Doolittle的TGRESE算法调整计算窗口大小n=9附:该参数用于估计每种氨基酸残基的平均显示尺度,有助于对数据进行平滑。蛋白质疏水性分析•跨膜区分析•在线分析••TMHMMServerv.2.0TMHMMServerv.2.0••TMpredTMpredTMPTMP图示红色阴影区域即P8蛋白的跨膜区(404-425位)•信号肽预测•SignalP3.0Server•几种人工神经网络法的组合•G+、G-、真核生物为训练集••卷曲螺旋预测•卷曲螺旋是控制蛋白质寡聚化的元件•••亮氨酸拉链结构亮氨酸拉链结构亮氨酸拉链结构亮氨酸拉链结构亮氨酸拉链结构亮氨酸拉链结构亮氨酸拉链结构亮氨酸拉链结构:亲脂性的α螺旋,包含有许多集中在螺旋一边的疏水氨基酸,两条多肽链以此形成二聚体。每隔6个残基出现一个亮氨酸。由赖氨酸(Lys)和精氨酸(Arg)组成DNA结合区。外膜前脂蛋白前体的卷曲螺旋预测结果•蛋白的亚细胞定位•预测步骤:•为每类亚细胞位置构建客观而具代表性的数据集;•从数据集中提取特征参数;•通过算法比较查询序列中所包含的特征参数与各类相应的位置的相似度,作出判断,一般会用一组概率的形式来表述。•预测软件:PSORTIIPrediction•网址:•Domain分析结构域结构域结构域结构域是蛋白序列的功能、结构和进化单元,由50-300个氨基酸组成,有独特的空间构象。类型类型类型类型类型类型类型类型:全平行结构域、反平行结构域、α+β结构域、α/β结构域及他折叠类型•EMBL的SMART服务器••提交序列后=系统每隔10秒刷新一次=结果Pfam数据库特点每个家族都有以下信息:A.基本比对:序列具家族代表性;B.隐马尔可夫模型:用于发现新结构域;C.全比对:通过2次隐马尔可夫模型自动将结构域的所有样本序列比对;D.注释:结构域的简介及相关资料•模体(Motif)搜索•PROSITE数据库•确定新的蛋白质序列是否属于已知家族•N-糖基化位点的模式(Pattern):N[^P][ST][^P]其中^P表示除Pro外的任意氨基酸•缺点:数量与质量上存在问题••Profile数据库•基于最佳的多重比对质量(包括人工校正)•优点:确保重要信息不被遗漏•提交PROSITE数据Motif搜索结果•蛋白质二级结构预测蛋白质二级结构是指α螺旋、β折叠、无规则卷曲(Coils)等元件•预测方法:•基于统计的预测方法,如Chou-Fasman法、人工神经网络法等•基于知识的预测方法:Lim方法、Cohen方法•混合方法:选择性合并以上提到的各种方法•预测准确率:70%,其中PHD神经网络预测的平均准确度及最佳残基的准确率分别高达72%和90%••二级结构预测的标准二级结构预测的标准二级结构预测的标准二级结构预测的标准::::二级结构预测的标准二级结构预测的标准二级结构预测的标准二级结构预测的标准::::PHDPHD跨膜结构预测结果PROF二级结构预测结果•蛋白质三维结构预测•三维结构是蛋白结构预测的最终目的,由于蛋白质结构尤其是高级结构决定蛋白质的功能,因此要充分研究蛋白质的功能,必须把结构研究清楚;•生物信息学发展到现在,已经有能力对一个未知结构的蛋白质序列作出一系列的分析,并最终得到一个三维结构;•可以减少研究人员的工作量,对研究蛋白质的生物学活性中心有很好的指导作用。•预测方法:同源模建同源模建同源模建同源模建同

1 / 100
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功