1/12§2方差、协方差与相关系数2.1方差例1比较甲乙两人的射击技术,已知两人每次击中环数分布为::789010601...:6789100102040201......问哪一个技术较好?首先看两人平均击中环数,此时8EE,从均值来看无法分辩孰优孰劣.但从直观上看,甲基本上稳定在8环左右,而乙却一会儿击中10环,一会儿击中6环,较不稳定.因此从直观上可以讲甲的射击技术较好.上例说明:对一随机变量,除考虑它的平均取值外,还要考虑它取值的离散程度.称-E为随机变量对于均值E的离差(deviation),它是一随机变量.为了给出一个描述离散程度的数值,考虑用EE,但由于EE=EE=0对一切随机变量均成立,即的离差正负相消,因此用EE是不恰当的.我们改用2EE描述取值的离散程度,这就是方差.定义1若2EE存在,为有限值,就称它是随机变量的方差(variance),记作Var,Var=2EE(1)但Var的量纲与不同,为了统一量纲,有时用Var,称为的标准差(standarddeviation).方差是随机变量函数2E的数学期望,由§1的(5)式,即可写出方差的计算公式Var=2()d()xEFx=22()(),,()()d.iiixEPxxEpxx离散型,连续型(2)进一步,注意到2EE=222EEE=22EE即有Var=22EE.(3)许多情况,用(3)式计算方差较方便些.例1(续)计算例1中的方差Var与Var.2/12解利用(3)式2E=iiixPx)(2=72×0.1+82×0.8+92×0.1=64.2,Var=22EE=64.2--82=0.2.同理,Var=22EE=65.2-64=1.2Var,所以取值较分散.这说明甲的射击技术较好.例2试计算泊松分布P(λ)的方差.解2201!(1)!kkkkEkekekk11(1)(1)!(1)!kkkkkeekk200!!jjjjjeejj2所以Var22.例3设服从[a,b]上的均匀分布U[a,b],求Var.解222211d3baExxaabbba,Var2221132aabbab2112ba.例4设服从正态分布2,Na,求Var.解此时用公式(2),由于Ea,Var2()Ea222()/21()d2xaxaex222/2d2zzez222/2/22zzzeedz3/122222.可见正态分布中参数2就是它的方差,就是标准差.方差也有若干简单而重要的性质.先介绍一个不等式.切贝雪夫(Chebyshev)不等式若随机变量的方差存在,则对任意给定的正数ε,恒有2VarPE.(4)证设的分布函数为Fx,则PE=||)(ExxdF22||()d()xExEFx221()d()xEFx=Var/2.这就得(4)式.切贝雪夫不等式无论从证明方法上还是从结论上都有一定意义.事实上,该式断言落在,E与,E内的概率小于等于Var/2,或者说,落在区间,EE内的概率大于1-Var/2,从而只用数学期望和方差就可对上述概率进行估计.例如,取ε=3Var,则2Var1Var3VarPE≈0.89.当然这个估计还是比较粗糙的(当~2,Na时,在第二章曾经指出,P(|ξ-E|3Var)=P(|ξ-a|3σ)≈0.997).性质1Var=0的充要条件是P(ξ=c)=1,其中c是常数.证显然条件充分.反之,如果Var=0,记E=c,由切贝雪夫不等式,P(|ξ-E|ε)=0对一切正数ε成立.从而Pc10Pc1lim11nPcn.4/12性质2设c,b都是常数,则Var(c+b)=2cVar.(5)证Var(c+b)=E(c+b-E(c+b))2=E(c+b-cE-b)2=2c2()EE=c2Var.性质3若cE,则2VarEc.证因Var=E2-2)(E,而E(ξ-c)2=E2-2cE+2c,两边相减得2VarEc20Ec.这说明随机变量ξ对数学期望E的离散度最小.性质41Var()nii=1Varnii+2njijjiiEEE1))(((6)特别若1,,n两两独立,则1Var()nii=1Varnii.(7)证Var()1nii=E(nii1-E()1nii)2=EniiiE12))((=EninjijjiiiiEEE112)))((2)((=1Varnii+2njijjiiEEE1))((,得证(6)式成立.当1,,n两两独立时,对任何1,ijn有ijijEEE,故E))((jjiiEE=E()jiijjijiEEEE=EjijiEE=0,这就得证(7)式成立.利用这些性质,可简化某些随机变量方差的计算.例5设ξ服从二项分布B(n,p),求Var.解如§1例12构造i,1,,in,它们相互独立同分布,此时5/12Var2222201)(pqpEEiii=pq.由于相互独立必是两两独立的,由性质4Var1Var()nii1niiVarnpq.例6设随机变量1,,n相互独立同分布,iEa,Vari=2,(1,,in).记=niin11,求E,Var.解由§1性质2和本节性质2和4有E11niiEna,Var211Varniin221nn2n.这说明在独立同分布时,作为各i的算术平均,它的数学期望与各i的数学期望相同,但方差只有i的1/n倍.这一事实在数理统计中有重要意义.例7设随机变量ξ的期望与方差都存在,Var0.令*VarE,称它为随机变量ξ的标准化.求*E与Var*.解由均值与方差的性质可知*()0VarEEE,*Var()VarVarE1VarVar.2.2协方差数学期望和方差反映了随机变量的分布特征.对于随机向量1(,,)n,除去各分量的期望和方差外,还有表示各分量间相互关系的数字特征—协方差.定义2记i和j的联合分布函数为),(yxFij.若()()iijjEEE,就称6/12()()iijjEEE()()d(,)ijijxEyEFxy(8)为,ij的协方差(covariance),记作Cov(,ij).显然,Cov,ijVari.公式(6)可改写为Var(nii1)niiVar1+2njijiCov1),(.')6(容易验证,协方差有如下性质:性质1Cov(,)=Cov(,)EEE.性质2设,ab是常数,则Cov(,)abCov(,)ab.性质311Cov(,)Cov(,)nniiii.对于n维随机向量ξ=1(,,)n,可写出它的协方差阵BEEEnnnnnnbbbbbbbbb212222111211,(9)其中Cov(,)ijijb.由性质1可知B是一个对称阵,且对任何实数jt,1,,jn,二次型nkjkjjkttb1,,1()()njkjjkkjkttEEE21(())0njjjjEtE,即随机向量ξ的协方差阵B是非负定的.性质4设ξ=1(,,)n,C=ccccnmmn1111,则C的协方差阵为CBC,其中B是ξ的协方差阵.7/12因为''''')(CCECECCEC,所以CBC的第,ij元素就是C的第i元素与第j元素的协方差.2.3相关系数协方差虽在某种意义上表示了两个随机变量间的关系,但Cov,的取值大小与ξ,的量纲有关.为避免这一点,用ξ,的标准化随机变量(见例7)来讨论.定义3称r=Cov(,)()()VarVarEEE(10)为ξ,的相关系数(correlationcoefficient).为了讨论相关系数的意义,先看一个重要的不等式.柯西—许瓦茨(Cauchy—Schwarz)不等式对任意随机变量ξ,有222EEE.(11)等式成立当且仅当存在常数0t使01Pt.(12)证对任意实数t2222()()2utEttEtEE是t的二次非负多项式,所以它的判别式222()0EEE,证得(11)式成立.(11)式中等式成立当且仅当多项式()ut有重根0t,即200()0utEt.又由(3)200VartEt,故得0Var0t,同时有00Et.所以由方差的性质1就证得001Pt,此即(12)式.由此即可得相关系数的一个重要性质.性质1对相关系数r有8/121r.(13)r=1当且仅当1VarVarEEP;r=-1当且仅当1VarVarEEP.(14)证由(11)式得22VarVar1rEEE,证得(13)式成立.证明第二个结论.由定义****Err.由柯西-许瓦兹不等式的证明可知,1||r等价于)(tu=2***2*22EtEEt有重根)2/(22***0eEt=.**E因此由(12)式得1r当且仅当1)(**;1r当且仅当**()1.注性质1表明相关系数1r时,ξ与以概率1存在着线性关系.另一个极端是r=0,此时我们称ξ与不相关(uncorrected).性质2对随机变量ξ和,下列事实等价:(1)Cov(ξ,)=0;(2)ξ与不相关;(3)EEE;(4)VarVarVar.证显然(1)与(2)等价.又由协方差的性质1得(1)与(3)等价.再由')6(式,得(1)与(4)等价.性质3若ξ与独立,则ξ与不相关.显然,由ξ与η独立知(3)成立,从而ξ与不相关.但其逆不真.例8设随机变量θ服从均匀分布U[0,2],ξ=cos,sin,显然221,故ξ与不独立.但9/12cosEE201cosd02,201sin=sind02EE,201cossin=cossind02EE,故Cov,=0EEE,即ξ与不相关.注性质2不能推广到3n个随机变量情形.事实上从3n个随机变量两两不相关只能推得11Var()Varnniiii,