1生物信息学课程设计报告题目:应用MATLAB生物信息学平台的神经退行性疾病(NURR1)基因序列分析专业:生物医学工程专业班级:生物技术与生物信息专业方向学号:2006062128姓名:周潜指导教师:司家瑞天津医科大学生物医学工程系2008年12月12日2目录1.课题背景---------------------------------------------P32.课题目的---------------------------------------------P33.课题研究的主要内容-----------------------------------P34.课题原理和方法---------------------------------------P35.实验步骤5.1建立相关文献数据库------------------------------P45.2查找基因信息------------------------------------P55.3获取序列信息------------------------------------P65.4确定核苷酸组成,显示核苷酸分布--------------------P65.5统计双联核苷酸出现频率,显示频率分布--------------P75.6预测序列CpG岛----------------------------------P85.7显示开放阅读框,计算密码子数目,显示密码子分布-----P95.8查找编码的氨基酸-------------------------------P125.9查询单外显子基因的相关信息----------------------P136.实验结果讨论分析------------------------------------P147.参考文献--------------------------------------------P1731.课题背景研究背景神经退行性疾病已经成为危害人类健康的重大疾病,帕金森病(PD:Parkinsondisease)是一种以黑质纹状体通路的退变为主要特征的神经系统变性疾病,典型临床症状为静止震颤、肌肉僵直、运动迟缓和姿势反射受损。目前PD的发病机制尚未明确,已有研究表明与遗传、环境因素、感染、衰老、氧化应激、过多的自由基形成及神经生长因子缺乏等有关,是多种制协同作用的结果。PD至今仍无有效治疗措施[1]。PD基本病理特征是黑质致密区多巴胺(DA:dopamine)神经元变性,导致黑质纹状体通路破坏及尾状核、壳核中DA含量减少,使得中脑黑质致密部多巴胺能神经元的选择性丧失。因此,多巴胺系统的改变是PD发病的核心机制[2-4]。最近研究表明,核受体相关因子(NURR1:nuclearreceptor-relatedfactor1)作为基因转录调控蛋白对DA能神经元的发育、迁移以及存活起关键作用。中脑黑质内Nurrl缺失或功能改变与PD相关[5],并与其他一些神经精神疾病如精神分裂症、躁狂、可卡因易感等有关。因此,Nurrl已被认为是PD和药物依赖等疾病的重要候选基因。目前多数学者认为,PD主要是遗传因素和环境因素相互作用的结果[6]。2.课题目的查找PD疾病的有关基因及其相关信息,熟悉导致PD疾病的基因因素,并由此扩展至其他PD发病机制的研究情况。3.课题研究的主要内容PD是多基因疾病,此次研究只针对人类染色体上的其中的一个相关基因NURR1,同时还与线粒体基因有关。以NURR1为研究对象,全面研究该基因的序列及相关特征,并以此为例研究其他相关因素。NURR1是一种转录因子,属于核受体超家族成员,主要表达于中脑黑质与腹侧被盖区,作为基因转录调控蛋白而参与了中脑多巴胺能神经元的发育与存活、长时记忆、肝再生及炎症等多种生理和病理过程[7],也与其他疾病如各类癌症【8-10】相关44.课题的原理和方法利用NCBI数据库查找NURR1相关信息,EndnoteX2软件收集整理相关文献。再利用MATLAB平台的分析NURR1的基因序列,从而得出基因特征。5.实验步骤5.1建立相关文献数据库搜索PUBMED中关于NURR1基因与PD相关的文献。(图1)图1相关文献寻找相关文献并下载论文信息形成该基因的论文数据库。(图2)5图2关于NURR1基因建立的文献数据库5.2查找基因信息在NCBI核酸数据库中,搜索NURR1基因,其相关信息如图3。图3NURR1基因信息描述NURR1基因接收号为NG_011821,线性,全长15344bp。该基因是智人核受体第4亚家族,A组,2号成员,位于2号染色体上。该基因还有多个同义名词(HZF-3;NOT;6NURR1;RNR1;TINUR)。NURR1基因的同源生物来源有真核生物,后生生物,脊索动物门,Craniata,脊椎动物,Euteleostomi,哺乳纲,真兽亚纲,Euarchontoglires,灵长目动物;Haplorrhini;Catarrhini;人科;智人。NURR1基因有8个外显子,其mRNA的剪接方式为join(5001..5296,6985..7108,7588..8453,9243..9372,9762..9925,10856..11058,11448..11626,11776..13344)其编码序列为join(7590..8453,9243..9372,9762..9925,10856..11058,11448..11626,11776..12032)在第5277bp位置上,发生C被G取代,多聚腺苷酸信号位于3531碱基之后。5.3获取序列信息运用getgenbank(),获取基因序列信息,存为nurr1;nurr1=getgenbank('NG_011821','SequenceOnly',true);ORIGIN1ctattaactacttttagaatttgcagatatttgatgttttcttagcatgtagcaacttat61tttcataatctttaaactgtcttttaggactttgtacattttagtgatgcctatgtttac121taaaattagcaatgaaatctaaaaccaaagttattcttctttgcctaataaaaaatagtt181cttaaataagaaaatattaagtggttaatttaaaagcaagtatttaggagatggttactg241ggtgtcaagtattaacaaaaaatgaaggatttttattatgcaaaatactttttgagtggc301atgaggttttaccatatgttcagttttataatttcaatttacaagaagatgcttccagaa361aaaagaatgctgttttttttctgcacatctttacacatttctagtactgagttctgtatc421aaagaaagaaataattttaaaagtatttgtgttaagtggtttttggtaaaaatcggctga481gaaatactgaataaaagctacaactatccaaaatgtgaatattaacaaagcaattgactt541gttctttaaccatcctatgagaaaggaacaaacaatttggtcaattactatcctgtcaat601gcaaatgaaatggcaaaagcaaaacaataaaaacactttcagaagtaaaaactaattttg661tattttcagaaacagatttttttcaaagtgaaaatttatttcttgtatcagtaatgtgac721ttactgcccaatggcaacaaatgctgtgaatgagtttgtccaaatgtaatttaaaatata781tatcttgtaatgctaaaaataggttctacaaagtaattttattatgaaaaatcttaaagt841tgcctcaactcgtaaagcataacaggtatgtctgtttcactatatctgcattgtaaggtc901tattctgaattcatttgggaagaatggtgaaataaatccctaaaggcctctttcctatgc961attaaaatagaaaatcctatgggattacattcatgtttgctttctaaattatgccaaaag1021ctcaattttattaagtataatctgcctagccatgcataaaataaactactttggtttaga1081tgtgagtatatgtattatttatgttgatttttaatgaaaatatgtttacatgtaccaata1141tgttctgcctaatattggttaatgtcataaaagataatatagtaacattactttcctaaa……715241agttctcagctctgagggaaggtctaattttaagtctttgctatctagccccattttgag15301tttatggaaagatggccttaattcaaagctcgagtgagcagtga//5.4确定核苷酸组成,显示核苷酸分布运用basecount(),确定基因的核苷酸组成,存为bases,并画出直观的碱基分布饼形图;figurebasecount(nurr1,'chart','pie');title('DistributionofNucleotideBasesforNurr1Genome');bases=A:4056C:3490G:3632T:4166碱基的直观的分布图如图4。图4碱基分布饼形图5.5统计双联核苷酸出现频率,显示频率分布用dimercount()函数统计基因序列的二联核苷酸出现频率,存为dimers,并画出直观的频率分布柱状图(图5);figure8dimers=dimercount(nurr1,'chart','bar')title('Nurr1GenomeDimerHistogram');dimers=AA:1378AC:695AG:1073AT:909CA:965CC:1029CG:451CT:1045GA:918GC:874GG:1035GT:805TA:795TC:891TG:1073TT:1407图5二联核苷酸频率分布柱状图5.6预测序列CpG岛运用函数cpgisland()预测CpG岛,此程序先计算GC含量,得到1个概率密度(图6.a),或者用ntdensity()统计碱基含量,如图7。将CG的观测值除以期望值,计算公式如下CPGobs/CpGexp=(NumCpGs*Length)/(NumGs*NumCs),得到CGoe的含量(图6.b);再根据统计作图得到CpG岛(图6.cGCminValue0.5,Length200碱基),(图6.e,所有的CpG岛)注:以上没有提到的运算都以100个碱基为1个运算单位。相应程序如下cpgisland(S.Sequence,'PLOT',true)ans=9Starts:[284845534921798814755]Stops:[406348995360850815056]图6CpG岛程序预测图(a.GC含量;b.CpGoe含量;c.大于200bps形成的CpG岛;d.全部的CpG岛)10图7单核核苷酸及AT,CG二联核苷酸密度图5.7显示开放阅读框,计算密码子数目,显示密码子分布统计密码子分布,必须先要确定该序列的编码序列,再对此序列进行密码子数目的统计,并显示密码子分布。Nurr1基因为多外显子基因,找到它对应的mRNA的基因接收号为NM_006186.3采用Matlab中的seqtool程序,确定该基因的编码序列,也即为该图中最长的编码框。再将此可读框存为ORF.(图8).图8seqtool程序确定编码序列或者用函数seqshoworfs(),但缺点是不够直观,且不便于分析,同时起始密码子为三个,TTG,ATG,CTG,这