全基因组关联分析在畜禽上的应用摘要:随着数量遗传学、分子生物学以及计算机水平的高速发展,出现了数量遗传学与分子遗传学的结合,动物育种中也不断出现新的方法,全基因组关联分析(GWAS)以及全基因组选择(GS)。本文主要介绍了GWAS及其在几种畜禽上的应用和问题。关键字:GWAS,牛,猪,鸡,应用对畜禽实施标记辅助选择可提高遗传进展,但是我们首先需要找到影响畜禽重要性状的主效基因。候选基因分析和标记QTL连锁分析策略使我们对一些基因的功能和作用方式有所了解,也找到了一些主效基因。但是生物基因组中有庞大的基因数目,很多控制畜禽经济性状的基因还无法分离和鉴定,这就需要一种全新的研究手段,最好能无偏地覆盖所有基因,并能高通量检测和适应不断更新的物种基因组序列。20世纪80年代后期90年代初期,随着数量遗传学理论研究的不断深入、分子生物学的飞跃发展、计算机水平的日新月异,开始出现数量遗传学与分子遗传学结合研究的热潮,发展为现在的分子数量遗传学。动物育种中也在传统育种方法的基础上不断提出新的方法:全基因组关联分析(Genome-WideAssociationStudies,GWAS)以及全基因组选择。GWAS就可以解决以上问题,GWAS是一种对全基因组范围内的常见遗传变异:单核苷酸多态性(Singlenucleotidepolymorphism,SNP)和拷贝数变异(Copynumbervariation,CNV)进行总体关联分析的方法,其核心思想是利用全基因组范围的连锁不平衡来确定影响复杂性状或数量性状的基因[1]。GWAS目前主要是应用在人类的复杂疾病上,2005年,自从《Science》杂志上首次报道了Klein等利用Affymetrix100K的基因芯片对年龄相关性视网膜黄斑变性进行GWAS的结果之后,一大批有关复杂疾病的GWAS报道不断出现。已经陆续报导和公布了视网膜黄斑、乳腺癌、前列腺癌、白血病、冠心病、肥胖症、糖尿病、精神分裂症、风湿性关节炎等几十种疾病全基因组关联研究的结果[2]。在中国农业大学图书馆SCI数据中输入GWAS的相关词,并分析其检索结果。如表1。虽然这个数据并不是很全面,但是也反映了GWAS的迅速发展。是什么原因导致GWAS发展这么快速呢?主要原因可以归结于以下3个方面:首先是基础研究的支撑,基因组计划的完成和SNP数据库的建立为GWAS的开展奠定了基础;第二是技术上的成熟,如高通量SNP芯片检测的发展;第三是统计方法的发展,GWAS因样本量大、数据庞杂,同时还需克服群体混杂、选择偏倚、多重比较等带来的假阳性问题,需要有正确严谨的统计分析方法解决[1]。表1中国农业大学SCI数据库中每年发表的关于GWAS的数目除了对人类复杂疾病和人类数量性状方面应用GWAS。随着不同基因组测序的相继完成以及高通量测序技术平台的搭建,GWAS也开始在畜禽疾病性状和数量性状方面发挥重要的作用。GWAS在畜禽中的应用起步较晚,并主要集中在对重要经济性状的研究中。与人类不同,当前的畜禽品种在长期的人工选择驯化过程中,其有效群体含量较人类小,群体的连锁不平衡水平较高,往往造成单体型块的出现。因此,在畜禽中开展GWAS所需标记数量适中,目前商业化的动物SNP芯片密度一般在50K-60K左右,如果在品种内进行GWAS研究,50K的芯片基因就能满足定位要求,品种间的分析可能需要更高密度的SNP[3]。1.在畜禽上的应用现状自从GWAS在畜禽上应用以来,研究人员一直致力于影响复杂性状的标记及主效基因的挖掘。目前已有多个具有较强统计显著性的SNPs及区域被发现。下面介绍一下GWAS在牛,猪和鸡上的应用。1.1在牛上的应用GWAS在畜禽上应用的较多的是在奶牛上。包括奶牛的健康性状、产奶性状、繁殖性状、生产寿命性状、体型性状、功能性状等都有报道。对于奶牛的产奶性状上,Bastiaansen等使用BovineSNP50芯片。对荷兰、苏格兰、瑞典和爱尔兰等国家共计1933头荷斯坦牛进行了产奶量和脂蛋比性状GWAS研究,共发现了36个影响产奶量的SNP标记[1]。Jiang[4]等基于来自14个父系半同胞家系的2093头中国荷斯坦母牛女儿设计试验群体进行了5个产奶性状的GWAS,采用BovineSNP50芯片,传递不平衡检验方法(Transmissiondisequilibriumtest,TDT)和基于回归分析的混合模型方法(Mixedmodelbasedregressionanalysis,MMRA),共检测到105个显著SNP标记与某个或多个产奶性状显著相关。齐超等基于中国荷斯坦牛女儿设计资源群体,采用Illumina公司Bovine50K微珠芯片对产奶性状进行了全基因组关联分析(GWAS),利用传递不平衡(L1-TDT)和回归分析2种统计分析方法共同检测到35个显著SNPs位点。后来齐超[5]等旨在基于该GWAS结果进一步对产奶性状基因进行鉴定及功能注释。基于牛基因组序列草图,采用生物信息学和比较基因组学方法进行显著SNPs位置候选基因筛查和功能预测。分析发现。12个SNPs位点位于基因内部,23个位于基因侧翼.最终鉴定到28个位置候选基因,并确定了其物理位置、基因类型及潜在功能。基因功能可归纳为6种类型:调节机体营养成分代谢和平衡、细胞骨架或基质成分、调节细胞增殖和周期及凋亡、参与细胞信号转导和盐离子通道构成、具有激酶活性、参与mRNA转录调控或翻译调控。该研究为进一步鉴定中国荷斯坦牛产奶性状主效基因及功能验证打下了基础。1.2在家禽上的应用在家禽上应用相比在猪和牛上的还比较少。Liu[6]等利用Illumina60k鸡SNP芯片对385只白来航和361只矮小型褐壳蛋鸡纯系分别进行蛋品质和产蛋性状的GWAS研究,利用Fisher合并P值法对两个群体的关联分析结果进行整合分析,发现8个显著关联SNP。Xie[7]等以杏花鸡×隐性白羽洛克鸡全同胞资源群3代共554个个体样本为实验材料,采用Illumina60K鸡SNP芯片进行基因分型,对鸡肉质、屠体及生长性状进行了GWAS研究,发现1号染色体1.5MbKPNA3-FOXO1A的区间内有5个SNP对鸡22-42天和生长有最高的显著效应。Gu[8]等以法国明星肉鸡和丝羽乌骨鸡为亲本建立的F2资源群体为材料,对体重性状进行了全基因组关联分析研究,发现26个显著关联位点,其中1个位于18号染色体,2个位于1号染色体,23个位于4号染色体,共涉及10个不同的SNP,并发现影响后期体重效应最大的SNP位于LDB2基因内含子中。张磊[3]研究利用60KSNP基因分型芯片对来自50个公鸡家系的728只北京油鸡纯系公鸡个体进行了基因型检测,采用全基因组关联分析方法,对影响部分免疫性状的染色体片段或基因进行定位研究,采用单标记的线性回归模型,对9个免疫性状进行了全基因组关联分析,共检测到33个达5%基因组水平显著关联的SNP。在显著位点中,8个SNP与胸腺重、16个与脾脏重达到基因组水平显著关联,并在这些位点附近找到JAK1、QKI、PDLIM7等候选基因,部分SNP位于已报道QTL内;9个与血清IgG水平达到基因组水平显著关联,并在附近找到CD1b、B-G、IL4I1、GNB2L1、BMA1等候选基因,其中5个集中分布在16号染色体260kb区间内,而已知16号染色体上存在大量与免疫相关的基因,因此,此区域可能是影响该性状的重要候选区域。Noorai[9]等采用GWAS和单倍型方法,对Araucana(阿劳肯鸡)无尾性状和耳毛性状进行分析,确定了控制这两个的基因分别位于2号和15号染色体上。1.3在猪上的应用程笃学[10]等以大白猪×民猪F2设计资源群体为研究对象,采用11lumina公司猪SNP60K分型芯片技术,开展胴体瘦肉量(LMW)GWAS研究,寻找与瘦肉量相关的遗传变异。所有F2代个体在达到(240±7)d日龄时进行屠宰测定。对分型后的355头F2个体,采用基于混合模型及回归的快速全基因组关联及基因组控制法进行GWAS分析,结果获得14个在染色体水平与瘦肉量性状显著关联的SNP位点。其中2个SNP位点ALGA0010777和ALGA0010788分别位于1号染色体上285030256和285276856bp处;10个SNP位点都位于猪2号染色体末端,可能与已发现的瘦肉量基因突变位点IGF2-intron3-G3072A紧密连锁;2个SNP位点ASGA0065444和ASGA0065455位于14号染色体上99627980和100078535bp处。这次研究为猪的瘦肉量性状提供了显著关联SNP位点,预测了新的候选基因。李杰[11]研究以白色杜洛克×二花脸资源群体F2代母猪为研究对象,在母猪初情期QTL初步定位的基础上,利用Illumina猪60KSNP芯片对316头有初情期表型记录的F2母猪及其亲本进行全基因组关联分析(GWAS),并通过增加标记密度对初步定位的QTL进行精细定位,在此基础上分析L1N28B和TMEM38B两个位置候选基因与母猪初情期的关联性。基于60KSNP基因型数据的连锁和连锁不平衡分析结果显示,在SSCl、SSC2、SSC6、SSC7和SSCl3存在多个与母猪初情期显著关联的单倍型。其中SSC7上的单倍型与初情期关联性最强。Ren[12]等利用猪60KSNP芯片通过全基因组关联分析和IBD定位分析,鉴别了控制藏猪、大河猪和可乐猪等中国地方猪中宗褐毛色形成的TYRPl基因因果突变位点。2.存在问题及解决办法目前GWAS多采用两阶段设计的方法:首先采用覆盖整个基因组的高通量SNP分型芯片对一批样本进行扫描,其次筛选出最显著的SNP(如P0.05)供第二阶段扩大样本验证。GWAS两阶段研究设计减少了基因分型的工作量和花费[3]。但是GWAS也在在一些问题①多SNP检测的关联研究容易得出假阳性结果,因此,GWAS的关联性P值必须符合严格的、基因组水平上的统计学标准。另外,GWAS的关联性结果需要验证性研究(replicationstudy)的证实;②GWAS中的大多数SNP的关联度较弱OR(oddsratio)值在1.2—1.4之间,需要大样本量的研究进一步发现真正的相关位点;③GWAS发现的许多位点并不在蛋白编码基因或其附近,也不在既往认为与性状相关的基因的附近,因此致使较难解释其生物学功能;④GWAS发现的有些位点与几种不同的疾病发生关联,提示该基因可能存在多效性;⑤对于GWAS发现的SNP或基因,目前仍很少有令人信服的研究来阐明它们的生物学功能或不良作用[13]。因此,GWAS只提示某些基因与目的性状具有关联性,为目的性状机制的研究提供启示,至于确定性状易感基因的功能以及在性状发生发展中的作用仍然需要进行精细定位研究,在寻找性状相关变异、易感基因的功能和结构及转录调节等方面需进一步研究[1]。虽然GWAS现在面临这些问题,但作为一种趋势,随着表观遗传图谱,蛋白表达谱以及生理学等学科综合推进,作为一种综合性的分析方法,GWAS必将迎来一个更广阔的发展空间。参考文献[1]李聪,孙东晓,姜力,奶牛重要经济性状全基因组关联分析研究进展.遗传,2012,(1)[2]全基因组关联分析(GWAS).世界科学,2011,(9):28[3]张磊.鸡部分免疫性状全基因组关联分析研究:[硕士学位论文].中国农业科学院,2012[4]JiangL,LiuJ,SunD,etal.GenomeWideAssociationStudiesforMilkProductionTraitsinChineseHolsteinPopulation.PLOSONE,2010,5(e1366110)[5]齐超,谢岩,吴晓平,基于全基因组信息鉴定中国荷斯坦牛产奶性状基因及功能注释.畜牧兽医学报,2012,(6):872~877[6]LiuWB,LiDF,LiuJF,etal.AGenome-WideSNPScanRevealsNovelLociforEggProductionandQualityTraitsinWh