Clustalx的实例操作蛋白质序列分析二班陈雯2010602128Whytouseit?在寻找基因和致力于发现新蛋白的努力中,人们习惯于把新的序列同已知功能的蛋白序列作比对。由于这些比对通常都希望能够推测新蛋白的功能,不管它们是双重比对还是多序列比对,都可以回答大量的其它的生物学问题。举例来说,面对一堆搜集的比对序列,人们会研究隐含于蛋白之中的系统发生的关系,以便于更好地理解蛋白的进化。人们并不只是着眼于某一个蛋白,而是研究一个家族中的相关蛋白,看看进化压力和生物秩序如何结合起来创造出新的具有虽然不同但是功能相关的蛋白。研究完多序列比对中的高度保守区域,我们可以对蛋白质的整个结构进行预测,并且猜测这些保守区域对于维持三维结构的重要性。实例分析TG(比对蛋白序列)人甲状腺球蛋白(HTG)是由甲状腺滤泡上皮细胞合成的一种含碘蛋白质,其主要作用与甲状腺激素的生物合成有关。正常情况下仅少量TG存在血循环中,在某些甲状腺病变时,因甲状腺功能异常或甲状腺组织细胞的损伤,外周血中TG含量有不同程度增高。很多研究从分子遗传学和细胞遗传学角度探讨血清TG含量及其基因位点在各种甲状腺病变情况下的表现,以了解TG基因活性改变对甲状腺疾病研究的临床价值。打开EBI主页,检索所要比对的蛋白序列选择UniprotKBTG白序列比对的物种RATMOUSEHUMANBOVIN寻找不同物种的TG蛋白序列蛋白序列的完整性不采用的序列提供的序列不完整完整的序列:序列长度的可比性四个物种的蛋白序列长度都在2000~3000AA.BOVIN2769AA.RAT2768AAMOUSE2766AA.HUMAN2768AA输入输出格式输入序列的格式比较灵活,可以是前面介绍过的FASTA格式,还可以是PIR、SWISS-PROT、GDE、Clustal、GCG/MSF、RSF等格式。输出格式也可以选择,有ALN、GCG、PHYLIP和NEXUS等,用户可以根据自己的需要选择合适的输出格式。输入文件的格式(fasta)tr|A1L1A0|A1L1A0_HUMANTGprotein(Fragment)OS=HomosapiensGN=TGPE=2SV=1DGGFWRILDCGSPDIEVHTYPFGWYQKPIAQNNAPSFCPLVVLPSLTEKVSLDSWQSLALSSVVVDPSIRHFDVAHVSTAATSNFSAVRDLCLSECSQHEACLITTLQTQPGAVRCMFYADTQSCTHSLQGQNCRLLLREEATHIYRKPGISLLSYEASVPSVPISTHGRLLGRSQAIQVGTSWKQVDQFLGVPYAAPPLAERRFQAPEPLNWTGSWDASKPRASCWQPGTRTSTSPGVSEDCLYLNVFIPQNVAPNASVLVFFHNTMDREESEGWPAIDGSFLAAVGNLIVVTASYRVGVFGFLSSGSGEVSGNWGLLDQVAALTWVQTHIRGFGGDPRRVSLAADRGGADVASIHLLTARATNSQLFRRAVLMGGSALSPAAVISHERAQQQAIALAKEVSCPMSSSQEVVSCLRQKPPS鼠的TG蛋白序列蛋白序列FASTA格式记事本格式在电脑保存将所保存的文本文档格式的蛋白序列导入Clustal进行比对1.序列导入2.插入另一序列3.设置参数完全比对比对结果4.结果保存(默认ALN,DND格式)MEGA软件的使用打开程序MAGA,主界面如图所示。(1)对其他格式多序列比对文件转换将clustal比对结果.ALN文件转换将比对好的ALN文件转换成meg格式转换好的meg格式,会弹出提示信息,点击ok保存前无效字符要删除点存盘保存meg文件,meg文件会和aln文件保存在同一个目录。关闭转换窗口,回到主窗口,现在点面板上的“Clickmetoactivateadatafile”打开刚才的meg文件本例为蛋白序列分析,点OK数据输入之后,窗口下面有序列文件名和类型窗口界面发生变化,功能键增多窗口1:数据文件点击选择和编辑数据分类图标,可对所选择的序列进行编辑窗口2:点击点击可选择比对的序列双击可编辑序列名称(2)构建进化树算法主要分为两类:独立元素法(discretecharactermethods)和距离依靠法(distancemethods)。所谓独立元素法是指进化树的拓扑形状是由序列上的每个碱基/氨基酸的状态决定的(例如:一个序列上可能包含很多的酶切位点,而每个酶切位点的存在与否是由几个碱基的状态决定的,也就是说一个序列碱基的状态决定着它的酶切位点状态,当多个序列进行进化树分析时,进化树的拓扑形状也就由这些碱基的状态决定了)。距离依靠法是指进化树的拓扑形状由两两序列的进化距离决定的。进化树枝条的长度代表着进化距离。独立元素法包括最大简约性法(MaximumParsimonymethods)和最大可能性法(MaximumLikelihoodmethods);距离依靠法包括除权配对法(UPGMAM)和邻位相连法(Neighbor-joining)。邻位相连法最大简约法除权配对法邻位相连法(参数的设置)phylogeny→bootstraptestofphylogeny→NJ系统进化树的测试通常设定100,一般为500或1000点compute开始计算,得出进化树。结果输出原始树Bootstrap验证过的一致树数字表示该树枝可信度的百分比过程所耗时间和序列的数量和长短成正比进化树的优化:得到不同树形对进化树进行优化显示建树信息对树枝上显示的信息进行修改树枝名称修改本身自带比对功能(3)对序列的比对功能如本例为蛋白序列比对,点NO在此可输入要比对的序列,也可由DATA导入导入已有的序列进行比对比对前删除无效序列进行比对参数设置默认设置蛋白比对点OK,进行比对将比对结果以meg格式导出结果分析Rat和MOUSE同源,两者序列相似性很高Human与BOVIN序列相似性高结论:从分子遗传学和细胞遗传学角度探讨血清TG,以及甲状腺病变情况与TG基因水平上的的关系,当下大多用小鼠细胞实验来验证。从以上蛋白序列比对的结果来看,牛的TG蛋白序列与人更相似,实验结果更能反映人的真实情况,但同时也应考虑现实可行性。