2019/12/191多元统计分析何晓群中国人民大学出版社2019/12/192第一章多元正态分布目录上页下页返回结束§1.1多元分布的基本概念§1.2统计距离和马氏距离§1.3多元正态分布§1.4均值向量和协方差阵的估计§1.5常用分布及抽样分布2019/12/193第一章多元正态分布•一元正态分布在统计学的理论和实际应用中都有着重要的地位。同样,在多变量统计学中,多元正态分布也占有相当重要的位置。原因是:•许多随机向量确实遵从正态分布,或近似遵从正态分布;•对于多元正态分布,已有一整套统计推断方法,并且得到了许多完整的结果。目录上页下页返回结束2019/12/194第一章多元正态分布多元正态分布是最常用的一种多元概率分布。除此之外,还有多元对数正态分布,多项式分布,多元超几何分布,多元分布、多元分布、多元指数分布等。本章从多维变量及多元分布的基本概念开始,着重介绍多元正态分布的定义及一些重要性质。2χ目录上页下页返回结束2019/12/195§1.1多元分布的基本概念目录上页下页返回结束§1.1.1随机向量§1.1.2分布函数与密度函数§1.1.3多元变量的独立性§1.1.4随机向量的数字特征2019/12/196§1.1.1随机向量表示对同一个体观测的个变量。若观测了个个体,则可得到如下表1-1的数据,称每一个个体的个变量为一个样品,而全体个样品形成一个样本。pnpn假定所讨论的是多个变量的总体,所研究的数据是同时观测个指标(即变量),又进行了次观测得到的,把这个指标表示为常用向量)',,,(21pXXXXnpXXX,,,21pp目录上页下页返回结束2019/12/197横看表1-1,记,它表示第个样品的观测值。竖看表1-1,第列的元素表示对第个变量的n次观测数值。下面为表1-1jxj)',,,(21)(pxxxXn,2,1,)',,,(21njjjjxxxXpj,2,1jnpx…n…2…1…变量序号11x21x1nx12x22x2nxpx1px2npx目录上页下页返回结束§1.1.1随机向量2019/12/198§1.1.1随机向量•因此,样本资料矩阵可用矩阵语言表示为:/11121(1)/21222(2)12/12()(,,,)pppnnnpnxxxxxxxxxxxXxxxx目录上页下页返回结束若无特别说明,本书所称向量均指列向量定义1.1设为p个随机变量,由它们组成的向量称为随机向量。12,,,pxxx12(,,,)pxxx2019/12/1991.1),,(),,,()(1121pppxXxXPxxxFXF§1.1.2分布函数与密度函数12(,,,)pXxxx描述随机变量的最基本工具是分布函数,类似地描述随机向量的最基本工具还是分布函数。目录上页下页返回结束多元分布函数的有关性质此处从略。定义1.2设是以随机向量,它的多元分布函数是式中:12(,,,)XFPpxxxxR,并记为。2019/12/1910§1.1.2分布函数与密度函数(1.2),),()(111pxxpdttdttfFpxpR()()0()()1pifRiifdxxxx目录上页下页返回结束定义1.3:设=,若存在一个非负的函数,使得)(~XFX),,,(21pxxxFf对一切成立,则称(或)有分布密度并称为连续型随机向量。fpRxXFXX一个p维变量的函数f(·)能作为中某个随机向量的分布密度,当且仅当pRfpPR2019/12/1911§1.1.3多元变量的独立性目录上页下页返回结束(1.3))()(),(yxXyYxXYPPP定义1.4:两个随机向量和称为是相互独立的,若XY)()(),(yHxGyxF注意:在上述定义中,和的维数一般是不同的。YXY对一切成立。若为的联合分布函数,分别为和的分布函数,则与独立当且仅当(1.4)),(yxF),(YX),(YX)()(yHxG和XYXY)()(),(yhxgyxf若有密度,用分别表示和的分布密度,则和独立当且仅当(1.5)),(YX),(yxf)()(yhxg和XXY2019/12/1912§1.1.4随机向量的数字特征是一个p维向量,称为均值向量.p目录上页下页返回结束)8.1()()()2(7.1)()()1(BXAEAXBEXAEAXE当为常数矩阵时,由定义可立即推出如下性质:BA、X)',,,(21pXXXXXp)(PP)6.1)()((2121μXXEXEXEE1、随机向量X的均值设有P个分量。若存在,我们定义随机向量X的均值为:(1,2,)ip12(,,,)pXXXX()iiEX2019/12/1913(1.9))()D(X),(),(),()(),(),(),()(2122121211ijPPPPPXXCOVXXCOVXXCOVXDXXCOVXXCOVXXCOVXD§1.1.4随机向量的数字特征)())((),(/XXXXXXXΣDEEECOV目录上页下页返回结束2、随机向量自协方差阵X称它为维随机向量的协方差阵,简称为的协方差阵。称为的广义方差,它是协差阵的行列式之值。pXX),cov(XXX2019/12/1914目录上页下页返回结束§1.1.4随机向量的数字特征3、随机向量X和Y的协差阵设分别为维和维随机向量,它们之间的协方差阵定义为一个矩阵,其元素是,即)',,,()',,,(2121pnYYYYXXX和Xnppn),cov(jiYX)10.1(,,1;,,1,)),(cov(),cov(pjniYXYXji是不相关的。和,称若YXYX0),cov(当A、B为常数矩阵时,由定义可推出协差阵有如下性质:'''),cov(),cov()()(BYXABYAXAAAXADAXD2019/12/1915目录上页下页返回结束§1.1.4随机向量的数字特征(3)设X为维随机向量,期望和协方差存在记则AμμAΣAXX'')()(trEn常数阵,为nn,)(,)(AXDXE对于任何随机向量来说,其协差阵∑都是对称阵,同时总是非负定(也称半正定)的。大多数情形下是正定的。)',,,(21pXXXX2019/12/1916(1.11),,2,1,,)()(),()()),((pjiXDXDXXCOVrrXXcorrjijiijPPijjiR目录上页下页返回结束§1.1.4随机向量的数字特征4、随机向量X的相关阵若随机向量的协差阵存在,且每个分量的方差大于零,则X的相关阵定义为:)',,,(21pXXXX也称为分量与之间的(线性)相关系数。ijriXjX2019/12/1917在数据处理时,为了克服由于指标的量纲不同对统计分析结果带来的影响,往往在使用某种统计分析方法之前,常需将每个指标“标准化”,即做如下变换1/212/()1,,(1.12)(var)(,,,)()0()().11jjjjpXEXXjpXXXXEDcorrnXXXXRRXX于是即标准化数据的协差阵正好是原指标的相关阵(1.13)目录上页下页返回结束§1.1.4随机向量的数字特征2019/12/1918§1.2统计距离和马氏距离目录上页下页返回结束欧氏距离马氏距离2019/12/1919§1.2统计距离和马氏距离欧氏距离在多指标统计分析中,距离的概念十分重要,样品间的不少特征都可用距离去描述。大部分多元方法是建立在简单的距离概念基础上的。即平时人们熟悉的欧氏距离,或称直线距离.如几何平面上的点p=(x1,x2)到原点O=(0,0)的欧氏距离,依勾股定理有(1.14))(),0(2/12221xxpd目录上页下页返回结束2019/12/1920§1.2统计距离和马氏距离但就大部分统计问题而言,欧氏距离是不能令人满意的。这里因为,每个坐标对欧氏距离的贡献是同等的。当坐标轴表示测量值时,它们往往带有大小不等的随机波动,在这种情况下,合理的办法是对坐标加权,使得变化较大的坐标比变化小的坐标有较小的权系数,这就产生了各种距离。欧氏距离还有一个缺点,这就是当各个分量为不同性质的量时,“距离”的大小竟然与指标的单位有关。目录上页下页返回结束2019/12/1921§1.2统计距离和马氏距离目录上页下页返回结束例如,横轴代表重量(以kg为单位),纵轴代表长度(以cm为单位)。有四个点A、B、C、D见图1.1,它们的坐标如图1.1所示1X2X2019/12/1922§1.2统计距离和马氏距离目录上页下页返回结束1011101251052222CDAB这时显然AB比CD要长。100011100260010502222CDAB结果CD反而比AB长!这显然是不够合理的。2x2x现在,如果用mm作单位,单位保持不变,此时A坐标为(0,50),C坐标为(0,100),则2x1x2019/12/1923§1.2统计距离和马氏距离目录上页下页返回结束因此,有必要建立一种距离,这种距离要能够体现各个变量在变差大小上的不同,以及有时存在着的相关性,还要求距离与各变量所用的单位无关。看来我们选择的距离要依赖于样本方差和协方差。因此,采用“统计距离”这个术语,以区别通常习惯用的欧氏距离。最常用的一种统计距离是印度统计学家马哈拉诺比斯(Mahalanobis)于1936年引入的距离,称为“马氏距离”。2019/12/1924§1.2统计距离和马氏距离目录上页下页返回结束下面先用一个一维的例子说明欧氏距离与马氏距离在概率上的差异。设有两个一维正态总体。若有一个样品,其值在A处,A点距离哪个总体近些呢?由图1-2),(:),(:22222111GG和图1-22019/12/1925§1.2统计距离和马氏距离212目录上页下页返回结束由图1-2可看出,从绝对长度来看,A点距左面总体G1近些,即A点到比A点到要“近一些”(这里用的是欧氏距离,比较的是A点坐标与到值之差的绝对值),但从概率观点来看,A点在右侧约4处,A点在的左侧约3处,若以标准差的观点来衡量,A点离比A点离要“近一些”。显然,后者是从概率角度上来考虑的,因而更为合理些,它是用坐标差平方除以方差(或说乘以方差的倒数),从而化为无量纲数,推广到多维就要乘以协方差阵∑的逆矩阵,这就是马氏距离的概念,以后将会看到,这一距离在多元分析中起着十分重要的作用。122111112019/12/1926§1.2统计距离和马氏距离马氏距离设X、Y从均值向量为μ,协方差阵为∑的总体G中抽取的两个样品,定义X、Y两点之间的马氏距离为(1.21))()(),(1/2YXΣYXYXdmXG(1.22))()(),(1/2μXΣμXXGdm的马氏距离为与总体定义目录上页下页返回结束2019/12/1927§1.2统计距离和马氏距离设表示一个点集,表示距离,它是到的函数,可以证明,马氏距离符合如下距离的四条基本公理:EdEE),0[;0),(yxdEyx,(1),(2)当且仅当;0),(yxdyx(3)),(),(xydyxdEyx,(4)),(),(),(yzdzxdyxdEzyx,,目录上页下页返回结束2019/12/1928§1.3多元正态分布多元正态分布是一元正态分布的推广。迄今为止,多元分析的主要理论都是建立在多元正态总体基础上的,多元正态分布是多元分析的基础。另一方面,许多实际问题的分布常是多元正态分布或近似正态分布,或虽本身不是正态分布,但它的样本均值近似于多元正态分布。本节将介绍多元正态分布的定义,并简要给出它的基本性质。目录上页下页返回结束2019/12/1929§