生物信息学软件及使用技巧BioinformaticsBasics吴元明讲师第四军医大学基础部wuym@fmmu.edu.cn生物信息学软件分类►单机分析软件:如winplas►在线分析软件:如webcutter►生物学数据库:如NCBI,DDBJ,EBI生物信息学软件的意义1.分析和处理实验数据和公共数据,加快研究进度,缩短科研时间。2.提示、指导、替代实验操作,利用对实验数据的分析所得的结论设计下一阶段的实验。3.用计算机管理实验数据。BioinformaticsBasics生物学软件常用功能(核酸类)DNA序列片断拼接----ContigExpress分析mRNA开放读框限制性酶切位点分析DNA模拟电泳PCR引物设计RNA二级结构分析BioinformaticsBasics生物学软件常用功能(蛋白类)蛋白一级结构分析(氨基酸分析)蛋白二级结构分析(结构域分析)蛋白三级结构分析(空间结构分析)BioinformaticsBasics生物学软件常用功能(共同类)DNA、蛋白质序列同源分析进化树构建BioinformaticsBasics生物学软件常用功能(其它类)质粒绘图类图象处理软件一、DNA序列片断拼接(电子基因克隆)►获得感兴趣的EST,在dbEST数据库中找出EST的最有途径是寻找同源序列,标准:长度≥100bp,同源性50%以上、85%以下。►然后将检出序列组装为重叠群(contig),以此重叠群为被检序列,重复进行BLAST检索与序列组装,延伸重叠样系列,重复以上过程,直到没有更多的重叠EST检出或者说重叠群序列不能继续延伸,有时可获得全长的基因编码序列。►再与GeneBank核酸数据库进行相似性检测,假如有精确匹配基因,将EST序列数据据EST六种阅读框翻译成蛋白质,接着与蛋白质序列数据库进行比较分析。VectorNTI5.2---contigExpress二、分析mRNA开放读框►(一)5’-UTR结构1、mRNA5’端m7G帽有增强翻译水平的作用.2、“上游AUG密码子”(位于起始AUG上游的其他AUG密码子)的存在往往抑制下游开放读框的翻译效率.3、起始AUG旁侧序列对翻译效率的影响.Kozak序列:GCCAUGG►(二)3’-UTR结构1.poly(A)尾增加翻译效率2.富含UA序列抑制翻译。二、分析mRNA开放读框►获得尽量长的mRNA序列。►分析可能的读框(六种)。软件:VectorNTI,Omiga等。在线:()►选取最可能的一种。看是否符合各种条件。分析步骤:目前应用的蛋白质结构预测的算法1.同源预测(一级结构决定高级结构)2.结构与结构相对比(DALI算法)3.当前最先进的结构预测方法:结构类识别(foldrecognition)先建立一个已知的结构类数据库(foldlibrary),将待测序列“穿过”该数据库构成的座标,并根据事先确定的物理限制,逐个位置移动(threading,sequence-structurealignment),并一个函数(sequence-structurefitnessalignment)判断序列与结构类的符合程度,找出未知序列在目标结构上的能量最优和构象最稳固的比对位置。对计算机要求很高。Cn3D2.5显示1EQFA链三维结构十一、质粒绘图►winplas►Plasmidprocessor►DMUPbeta►VectorNTIWinplas2.6质粒构建七、DNA与蛋白质序列同源分析(进化树构建)•个体与数据库比较。•两个或两个以上个体比较。不同情况:►internet网络。如,NCBI的BLAST;ExPASy的Alignment.►软件。如,VecotrNTI分析方法:VectorNTISuitAlignX同源比较—主窗口VectorNTISuit同源比较—进化树八、蛋白质一级结构分析•氨基酸组成。•PI•MW•亚细胞定位包括:►internet网络。如,ExPASy的primarystructureanalysistopologyprediction.►软件。如,VecotrNTI,Antheprot分析方法:Omiga2.0ORFMap三、限制性酶切位点分析一种能识别特殊,短核苷酸序列,并在DNA的某些位点上切割的蛋白质。细菌包含了400种这样的酶,能识别和切割100种以上不同的DNA序列。如:EcoRI识别序列定义:GAATTCGTTAAC三、限制性酶切位点分析►找到待分析的核酸序列。►利用VectorNTI软件分析。►利用webcutter2.0在线分析。()分析步骤:四、DNA模拟电泳►找到待分析的核酸序列。►利用VectorNTI或其他软件分析。分析步骤:•DNA模拟电泳具有一定实验预示功能。•模拟电泳不能作为实验结果或依据。注意:VectorNTISuit5.5模拟电泳GeneConstructionKit2.0模拟电泳五、PCR引物设计(杂交探针设计)引物设计的原则1.引物要跟模板紧密结合;2.引物与引物之间不能有稳定的二聚体或发夹结构存在;3.引物不能在别的非目的位点引起高效DNA聚合反应(即错配)。如:►引物长度(primerlength),►产物长度(productlength),►序列Tm值(meltingtemperature),►ΔG值(internalstability),►引物二聚体及发夹结构(duplexformationandhairpin),►错误引发位点(falseprimingsite),►引物及产物GC含量(composition),有时还要对引物进行修饰,如增加限制酶切点,引进突变等。引物设计需要考虑的因素引物设计要点►一般引物的长度为16-23bp,常用的长度为18-21bp,过长或过短都不合适。►引物3’端的碱基一般不用A,因为A在错误引发位点的引发效率相对比较高,而其它三种碱基的错误引发效率相对小一些。►引物的GC含量一般为45-55%,过高或过低都不利于引发反应。上下游引物的GC含量不能相差太大。►引物所对应模板序列的Tm值最好在72℃左右,当然由于模板序列本身的组成决定其Tm值可能偏低或偏高,可根据具体情况灵活运用。引物设计要点►ΔG值反映了引物与模板结合的强弱程度,也是一个重要的引物评价指标。►一般情况下,在Oligo5.0软件的ΔG值窗口中,引物的ΔG值最好呈正弦曲线形状,即5’端和中间部分ΔG值较高,而3’端ΔG值相对较低,且不要超过9(ΔG值为负值,这里取绝对值),如此则有利于正确引发反应而可防止错误引发。►其原理,引物与模板应具有较高的结合能量,这样有利于引物与模板序列的整合,因此5’端与中间段的ΔG值应较高,而3’端ΔG值影响DNA聚合酶对模板DNA的解链,过高则不利于这一步骤。引物设计要点►可能的错误引发位点决定于引物序列组成与模板序列组成的相似性,相似性高则错误引发率高,错误引发的引发率一般不要高过100,最好没有错误引发位点,如此可以保证不出非目的产物的假带。►引物二聚体及发夹结构的能量一般不要超过4.5,否则容易产生引物二聚体带,且会降低引物浓度从而导致PCR正常反应不能进行。►对引物的修饰一般是增加酶切位点,应参考载体的限制酶识别序列确定,常常对上下游引物修饰的序列选用不同限制酶的识别序列,以有利于以后的工作。关于引物的自动搜索和评价分析►推荐使用自动搜索软件:PrimerPremier5.0►推荐使用引物评价软件:Oligo5/6OLIGO5.0PCR引物设计六、RNA二级结构预测主要软件:DNAsis,RNAstructure,RNAdrawViennaRNAPackageRDFolder是RNA二级结构预测Web服务器(北京大学生物信息学中心)意义:分析RNA结构稳定性,为可能(酶、核酸)作用位点分析等提供依据。DNASIS2.5RNA二级结构预测DNASIS2.5tRNA二级结构预测RNAStructure3.5RNA二结构预测Antheprot5.0预测蛋白跨膜区域Antheprot5.0预测信号肽断裂点九、蛋白质二级结构分析•Helix,•Sheet,•Turn,•Coil包括:►internet网络。如,ExPASy的secondarystructureanalysis►软件。如,DNAsis,DNAstar,VecotrNTI分析方法:DNASIS2.5蛋白二级结构预测DnaStar之Protean对dif14蛋白二级结构预测BioinformaticsBasics十、蛋白质空间结构分析►该项技术算法十分复杂,尚未成熟。PDB及MMDB数据库目前仍然禁止收录软件预测出来的蛋白高级结构模型。►X射线晶体学技术和多维核磁共振技术是当前人们认识蛋白高级结构的主要手段,但两种技术都有不足之处。前者要求必需得到高标准的蛋白晶体,后者对分子量大于3万的大蛋白不能测定。因此理论模拟和结构预测显得十分重要。►序列与结构关系的根源在于“蛋白质折叠的问题”,这是近期研究关注的焦点。