第五章个体育种值估计——BLUP法第一节有关基本知识一、有关数学问题1.随机向量、数学期望、方差-协方差矩阵假设有n个随机变量,x1x2x3……xn,其数学期望表示为μi=E(xi);随机变量间的方差、协方差表示为Var(x);2.表示方式那么n个随机变量及其数学期望可以表示为向量形式,方差、协方差表示为矩阵形式nxxxx21n2122221222222212121221212222111211nnnnnnnnnnnarCoVCoVCoVCoVCoVCoVCoVCoVCoVVV3.若对随机向量x作线性变换y=Tx,则y的期望向量为:E(y)=E(Tx)=TE(x)=TμY的协方差矩阵为Var(y)=E[y-E(y)]E[y-E(y)]′=E[Tx-Tμ]E[Tx-Tμ]′=E[T(x-μ)][T(x-μ)]′=TE(x-μ)(x-μ)′T′=TVar(X)T′=TVT′若有随机变量y=t′x,则Var(y)=tVt′二、个体间加性遗传相关1.概念:亲缘个体i和j间加性遗传相关:两个个体从共同祖先获得相同等位基因的概率。以往曾用rA(p1p2)表示;一般情况下(没有近交):亲子rA(op)=0.5,全同胞rA(FS)=0.5,半同胞rA(HS)=0.25,祖孙为0.25等。2.计算公式:)1()21()1()21()(21ANAnnijFFa上式中,A为祖先,n1和n2为亲缘个体X和Y到共同祖先A的世代数,FA为祖先A的近交系数;∑表示多个共同祖先求和、每个共同祖先的通径链求和。个体间的加性遗传相关与后面的选配一章需要详细讲解的个体近交系数和个体间的亲缘系数有密切关系。3.群体内个体间的加性遗传相关(Additivegeneticrelationshipmatrix)对于一个群体,有1,2,…,n个个体,个体间遗传相关就可以用矩阵(也称为分子遗传相关矩阵(numeratorrelationshipmatrix))表示:nnnnnaaaaaaA2111211式中aij表示任意两个i和j的加性遗传相关,通过系谱图实现。实际使用时,一般用两个公式来求解:)(5.0;5.01jjiiidisijdsiiaaaaa式中:si和di分别为个体i的父亲和母亲;sj和dj分别为个体j的父亲和母亲;asidi是个体i的父亲si和母亲di之间的加性遗传相关;当双亲或一个亲本未知时,asidi=0;aisj和aidj是个体i与个体j的父亲sj和母亲dj之间的加性遗传相关当个体j的父亲未知时,aisj=0;当个体j的母亲未知时,aidj=0;两个个体间的加性遗传相关对于任何性状都一样,可以理解为两个个体育种值之间的相关,用公式表示为2)(),(),(AjiAAjiijAijAACovAACovraji在n个个体的群体中,AAAji所以,个体间育种值的协方差表示为2)(),(AijAjirAACovn个个体的群体中,育种值的协方差矩阵表示为2)(AAaVar式中,a为n个个体育种值向量,A为n个个体间的加性遗传相关矩阵。三、线性模型基础知识(一)模型(Model):指描述观察值与影响观察值变异的各因子(变量)之间关系的数学方程式。模型分类:1.真实模型:准确的模拟观察值的变异性,模型中不含有未知成分。生物学领域,几乎不可能。2.理想模型:尽可能的接近真实的模型。3.操作模型:用于实际统计分析的模型,它通常是理想模型的简化形式。因子(变量)分类:离散型和连续型离散型:表现为若干有限的等级或水平;连续型:作为影响观察值的协变量来看待,连续型变量可人为划分成若干等级而使其成为离散型变量。离散型因子可根据取样方法和研究目的分为固定因子和随机因子。固定因子:一个因子分为几个特定水平,只对这些水平的效应进行估计或比较,就称该因子为固定因子。各水平的效应就称为固定效应。随机因子:一个因子的若干水平是该因子所有水平的随机样本,研究目的是通过样本推断总体,就称该因子为随机因子,不同水平的效应就称为随机效应。(二)线性模型(Linearmodel)线性模型:在模型中所包含的各因子以相加的形式影响观察值,就视为各因子与观察值之间的关系为线性关系。线性模型包括3个组成部分:1.数学方程式2.方程式中随机变量的期望和方差、协方差3.假设和约束条件yij:第i个日龄组中的第j头肉牛的体重,可视为观察值的随机变量。μ:总平均数,常数ai:第i个月龄组的效应,它是固定效应eij:剩余效应,也称为随机误差。2.随机变量的数学期望和方差、协方差为:ijiijeay1.建立的数学模型为:0),(),(),(;)()(;)(,0)('''2jiijjiijijijijijiijijeeCoveeCoveeCoveVaryVarayEeE3.约束条件(以下面的例子说明):①同一品种;②无母体效应;③不考虑性别;④饲养条件相同例:设某群肉牛190—210日龄的体重资料,将日龄按每5天间隔分组,190-210日龄可分为4组,欲分析不同日龄组对体重的影响。日龄组犊牛体重11982042012203206210320521221642252204244241441333333233231331232232222221221131131211211111220225216212205210206203201204198eayeayeayeayeayeayeayeayeayeayeay用向量和矩阵表示1000110001010010100101001001010010100101000110001100011X4321aaaaa4241333231232221131211eeeeeeeeeeee4241333231232221131211yyyyyyyyyyyy从而线性模型的矩阵表达式为eXay2)()(,)(,0)(IeVaryVarXayEeE矩阵X称为关联矩阵,指示y与a中元素的关联情况,I为单位矩阵(三)线性模型的分类回归模型按功能分为方差分析模型协方差分析模型方差组分模型单因子模型模型分类按因子分为双因子模型多因子模型固定效应模型按性质分为随机效应模型混合模型固定效应模型(fixedmodel)模型中除了随机误差外,其余所有效应均为固定效应,这种模型称为固定效应模型或固定模型。随机效应模型(randommodel)模型中除了总平均数μ外,其余所有效应均为随机效应,这种模型称为随机效应模型或随机模型。混合模型(mixedmodel)模型中除了总平均数μ和随机误差外,既含有固定效应,又有随机效应,这种模型称为混合效应模型或混合模型。混合模型的矩阵形式为:eZuXbyy——所有观测值构成的向量;b——所有固定效应构成的向量u——所有随机效应构成的向量;e——所有随机误差构成的向量;X——固定效应的关联矩阵;Z——随机效应的关联矩阵对于这个模型,相关的数学期望及对应的方差为:ReyCovZGueCovuZuCovueZuCovuyCovVRZGZeZuCoveVarZuVareZuVaryVareuCovReVarGuVarXbyEeEuE)',()',()',(]'),[()',(')',(2)()()()(,0),(,)(,)(;)(,0)(,0)(当混合模型中某一项不存在时,就变成特定模型。如Zu不存在,它变为固定模型:如Xb=Iμ,它变为随机模型:eXbyeZuIy第二节BLUP育种值估计方法Henderson1948年开始潜心研究应用混合模型方程组的原理,估计动物群体参数和预测随机效应的问题。50年代初,在理论和方法上已基本成熟,但由于计算手段的限制,未能用于实践。1966年他将混合模型方程组的原则应用于育种值估计,1973年(1972年纪念Lush学术研讨会上报告)系统介绍了BLUP育种值估计方法的原则。形成了所谓的BLUP法。BLUP(BestLinearUnbiasedPrediction):即最佳线性无偏预测。最佳——估计值的误差方差最小线性——估计值为观察值的线性函数无偏——估计值的数学期望等于被估计量的真值(固定效应),或被估计量的数学期望(随机效应)。BLUP方法仅仅是一种特殊的统计方法,其优越性的体现有赖于正确、合理的育种措施和条件。BLUP法的重要特征:在同一估计方程中,既能估计固定的环境效应和固定的遗传效应,又能预测随机的遗传效应。即估计育种值的同时,对系统环境效应进行了估计和校正。因而,根据观测值配合的模型都是混合模型。一、BLUP的基本原理单个性状最基本的估计育种值的BLUP模型建立的原理是表型值的剖分:iiijrjjieaxby1其中∑bjxij为第i头个体的r个系统效应或固定效应(xij)之和,bj为待估参数,ai为第i个体的育种值,待估计;ei为随机环境效应,或剩余效应EZAXBY假定,有m头个体,n个记录(观察值),m≥n,如果要估计育种值,可用矩阵形式写成如下数学模型Y——n×1的表型值向量,即所有观测值构成的向量;B——估计r个固定效应的r×1的向量,即所有固定效应构成的向量A——估计的m头个体的育种值向量,即所有随机效应构成的向量E——n个记录误差的n×1维向量,即所有随机误差构成的向量;X——r个固定效应的n×r阶结构矩阵,即固定效应的关联矩阵;Z——加性遗传效应的n×m阶结构矩阵,即随机效应的关联矩阵用这样的模型估计育种值,通常称为“动物模型(animalmodel)”几乎所有的动物育种资料都是混合模型(MixedModelEquations)根据上述原则,经过数学推导,得到两类效应的估计公式YVXXVXB111')'(ˆ)ˆ('ˆ1BXYVGZA该式就是b的广义最小二乘估计值上述两式涉及观察值向量Y的方差-协方差矩阵V的逆矩阵V-1的求解,V的维数就是观察值个数,当Y中观察值很多时,无法计算。Henderson提出了B和A的另一种解法——混合模型方程组法(Mixedmodelequations,MME),如下yRZyRXABGZRZXRZZRXXRX1111111''ˆˆ''''对该式子求解,所得到的b和u的估计值与广义最小二乘估计值正好相等,方程式中不涉及V-1的求解,而需要计算G-1和R-1,G-1的维数小于V。由该式得到的BLUP估计值的方差协方差通过对该方程组的系数矩阵求逆得到。下式为混合模型方程组中系数矩阵的逆矩阵(或广义逆矩阵),其中的分块与原系数矩阵对应。ZZZXXZXXCCCCXZZZZZXXCAABCovCAAVarABCovCGAVarCBVar)'ˆ,ˆ(,)ˆ(,0)'ˆ,ˆ(,)ˆ(,)ˆ(动物模型(animalmodel):将动物个体本身的加性遗传效应(育种值)作为随机效应放在模型中就称为动物模型。动物模型BLUP:基于动物模型的BLUP育种值估计方法。(一)无重复观察值时的动物模型BLUP1.方法:一个个体在所观察的性状上只有一个观测值,描述模型如下:二、动物模型BLUPeaxbyrjijj1bj——第j个系统环境效