1应用多元统计分析第二章多元正态分布及参数的估计北大数学学院2在多元统计分析中,多元正态分布占有相当重要的地位.这是因为许多实际问题涉及到的随机向量服从正态分布或近似服从正态分布;当样本量很大时,许多统计量的极限分布往往和正态分布有关;此外,对多元正态分布,理论与实践都比较成熟,已有一整套行之有效的统计推断方法.基于这些理由,我们在介绍多元统计分析的种种具体方法之前,首先介绍多元正态分布的定义、性质及多元正态分布中参数的估计问题.第二章多元正态分布及参数的估计北大数学学院3第二章多元正态分布及参数的估计目录§2.1随机向量§2.2多元正态分布的定义与基本性质§2.3条件分布和独立性§2.4随机矩阵的正态分布§2.5多元正态分布的参数估计北大数学学院4本课程所讨论的是多变量总体.把p个随机变量放在一起得X=(X1,X2,…,Xp)′为一个p维随机向量,如果同时对p维总体进行一次观测,得一个样品为p维数据.常把n个样品排成一个n×p矩阵,称为样本资料阵.第二章多元正态分布及参数的估计§2.1随机向北大数学学院5第二章多元正态分布及参数的估计§2.1随机向其中X(i)(i=1,…,n)是来自p维总体的一个样品.)()2()1(212222111211nnpnnppXXXxxxxxxxxxXdef=(X1,X2,…,Xp)def北大数学学院6在多元统计分析中涉及到的都是随机向量,或是多个随机向量放在一起组成的随机矩阵.本节有关随机向量的一些概念(联合分布,边缘分布,条件分布,独立性;X的均值向量,X的协差阵和相关阵,X与Y的协差阵)要求大家自已复习.三﹑均值向量和协方差阵的性质(1)设X,Y为随机向量,A,B为常数阵,则E(AX)=A·E(X)E(AXB)=A·E(X)·B第二章多元正态分布及参数的估计§2.1随机向北大数学学院7D(AX)=A·D(X)·A'COV(AX,BY)=A·COV(X,Y)·B'(2)若X,Y相互独立,则COV(X,Y)=O;反之不成立.若COV(X,Y)=O,我们称X与Y不相关.故有:两随机向量若相互独立,则必不相关;两随机向量若不相关,则未必相互独立.(3)随机向量X=(X1,X2,…,Xp)′的协差阵D(X)=是对称非负定阵.即=´,´≥0(为任给的p维常量).第二章多元正态分布及参数的估计§2.1随机向北大数学学院8第二章多元正态分布及参数的估计§2.1随机向量—(4)Σ=L2,其中L为非负定阵.由于Σ≥0(非负定),利用线性代数中实对称阵的对角化定理,存在正交阵Γ,使LLpp'00'0011.0,1LLLOOLp故,其中北大数学学院9第二章多元正态分布及参数的估计§2.1随机向量—当矩阵Σ0(正定)时,矩阵L也称为Σ的平方根矩阵,记为Σ1/2.当矩阵Σ0(正定)时,必有p×p非退化矩阵A使得Σ=AA′.1pOOA其中北大数学学院10第二章多元正态分布及参数的估计§2.1随机向量—若Σ≥0(非负定),必有p×q矩阵A1使得Σ=A1A1′).(111pqOOAq其中这里记Γ=(Γ1|Γ2),Γ1为p×q列正交阵(p≥q).并设:.0,,0),,,1(01pqiqi北大数学学院11在一元统计中,若U~N(0,1),则U的任意线性变换X=σU+μ~N(μ,σ2)。利用这一性质,可以从标准正态分布来定义一般正态分布:若U~N(0,1),则称X=σU+μ的分布为一般正态分布,记为X~N(μ,σ2)。此定义中,不必要求σ>0,当σ退化为0时仍有意义。把这种新的定义方式推广到多元情况第二章多元正态分布及参数的估计§2.2北大数学学院12定义2.2.1设U=(U1,…,Uq)′为随机向量,U1,…,Uq相互独立且同N(0,1)分布;设μ为p维常数向量,A为p×q常数矩阵,则称X=AU+μ的分布为p维正态分布,或称X为p维正态随机向量,记为X~Np(μ,AA′)简单地说,称q个相互独立的标准正态随机变量的一些线性组合构成的随机向量的分布为第二章多元正态分布及参数的估计§2.2多元正态分布的第一种北大数学学院13第二章多元正态分布及参数的估计§2.2多元正态分布的性质1在一元统计中,若X~N(μ,σ2),则X的特征函数为φ(t)=E(eitX)=exp[itμ-t2σ2/2]dxEtxitxitX222)(ee21)e()(duuuitxu2)(/)(2ee21北大数学学院14第二章多元正态分布及参数的估计§2.2多元正态分布的性质1duitituituit])()(2[21222e21eduitituit22)(21)(21ee21e]21exp[ie21]21exp[i22)(21222ttduttitu北大数学学院15性质1设U=(U1,…,Uq)′为随机向量,U1,…,Uq相互独立且同N(0,1)分布;令X=μ+AU,则X第二章多元正态分布及参数的估计§2.2多元正态分布的性质1].21exp[)(tAAttitX这里t=(t1,…,tp),故ΦX(t)为p元函数.当X~N(0,1)时,φ(t)=exp[-t2/2].北大数学学院16性质1的证明:根据随机向量特征函数的定义和性质,经计算即可得出X的特征函数为ΦX(t)=E(eitX)=E(eit(AU+μ))第二章多元正态分布及参数的估计§2.2多元正态分布的性质1)e(E)exp(AUtiti令t′A=s′=(s1,…sq))ee(E)exp()e(E)exp(1111)(qqqqUisUisUsUsititi北大数学学院17第二章多元正态分布及参数的估计§2.2多元正态分布的性质1qjjsti12)21exp()exp()e(E)e(E)exp(11qqUisUisti(因U1,…,Uq相互独立,乘积的期望等于期望的乘积))](21exp[)exp(221qssti)21exp()21exp(tAAttissti北大数学学院18定义2.2.2若p维随机向量X的特征函数为:第二章多元正态分布及参数的估计§2.2)0(]2''exp[)(ttittX]2exp[]2exp[)(222tittttit一元正态:(p=1)则称X服从p维正态分布,记为X~Np(μ,Σ).记Σ=AA′,则有以下定义。北大数学学院19性质2设X~Np(μ,Σ),B为s×p常数阵,d为s×1常向量,令Z=BX+d,则Z~Ns(Bμ+d,BΣB).该性质指出正态随机向量的任意线性组合仍为正态分布.第二章多元正态分布及参数的估计§2.2多元正态分布的性质2北大数学学院20第二章多元正态分布及参数的估计§2.2多元正态分布的性质2证明因Σ≥0,Σ可分解为Σ=AA,其中A为p×q矩阵.已知X~Np(μ,Σ),由定义2.2.1可知X=AU+μ(d表示两边的随机向量服从相同的分布.)其中U=(U1,…,Uq),且U1,…,Uq相互独立同N(0,1)分布。d北大数学学院21Z=BX+d=B(AU+μ)+d第二章多元正态分布及参数的估计§2.2多元正态分布的性质2d=(BA)U+(Bμ+d)由定义2.2.1可知Z~Ns(Bμ+d,(BA)(BA)),Z~Ns(Bμ+d,BΣB).(这里Σ=AA).北大数学学院22推论设X=~Np(μ,Σ),将μ,Σ剖分为第二章多元正态分布及参数的估计§2.2多元正态分布性质2则X(1)~Nr(μ(1),Σ11),X(2)~Np-r(μ(2),Σ22).X(1)rX(2)p-rrprrpr22211211)2()1(,北大数学学院23证明:由性质2可得:类似地第二章多元正态分布及参数的估计§2.2多元正态分布性质2的推论,0,11drOIBrpr维向量取则维向量取,0,2(2drpIOBrppp-r)).,(~11)1(11)1(rNdXBX).,(~22)2(22)2(rpNdXBX北大数学学院24此推论指出,多元正态分布的边缘分布仍为正态分布。但反之,若随机向量的任何边缘分布均为正态分布,也不一定能导出该随机向量服从多元正态分布.如例2.1.1,证明了X1,X2均为一元正态分布,但由(X1,X2)联合密度函数的形式易见它不是二元正态.第二章多元正态分布及参数的估计§2.2多元正态分布性质2的推论北大数学学院25第二章多元正态分布及参数的估计§2.2多元正态分布性质2的推论例2.1.1(X1,X2)的联合密度函数为]e1[e21),()(2121)(212122212221xxxxxxxxf我们从后面将给出的正态随机向量的联合密度函数的形式可知,(X1,X2)不是二元正态随机向量.但通过计算边缘分布可得出:X1~N(0,1),X2~N(0,1)这就说明若随机向量的任何边缘分布均为正态分布时,也不一定能导出该随机向量服从多元正态分布.北大数学学院26第二章多元正态分布及参数的估计§2.2多元正态分布的定义与基本性质—简单例子例如:设三维随机向量X=(X1,X2,X3),且),300021011,002(~321NXXXX则有(1)X1~N(2,1),)3002,00(~232NXX北大数学学院27第二章多元正态分布及参数的估计§2.2多元正态分布的定义与基本性质—简单例子,001100010321132BXXXXXXXY令由性质2知,Y为3维正态随机向量,且200002001100010xyB(2)北大数学学院28第二章多元正态分布及参数的估计§2.2多元正态分布的定义与基本性质—简单例子101030102010001100011300021010001100300021011001100010BBxy).101030102,200(~132NXXXY故北大数学学院29第二章多元正态分布及参数的估计§2.2多元正态分布的定义与基本性质—简单例子(3)设Z=2X1-X2+3X3,试求随机变量Z的分布.Z=2X1-X2+3X3=(2,-1,3)X=CX故有:4002)3,1,2(xzC293129,0,1312300021011)3,1,2(2CCxz所以Z~N(4,29).北大数学学院30性质3若X~Np(μ,Σ),E(X)=μ,D(X)=Σ.证明因Σ≥0,Σ可分解为:Σ=AA′,则由定义2.2.1可知X=AU+μ(A为p×q实矩阵)其中U=(U1,…,Uq)′,且U1,…,Uq相互独立同N(0,1)分布,故有E(U)=0,D(U)=Iq.d第二章多元正态分布及参数的估计§2.2多元正态分布的性质3北大数学学院31第二章多元正态分布及参数的估计§2.2多元正态分布的性质3利用均值向量和协差阵的有关性质可得:此性质给出多元正态分布中参数μ和Σ的明确统计意义.μ是随机向量X的均值向量,Σ是随机向量X的协差阵。.)()()(,