zfMultivariateStatisticsAnalysis多元统计分析2020/1/32cxt第一章绪论§1.1课程概论§1.2随机向量§1.1课程概论一、什么是多元统计分析二、多元统计分析的内容和方法三、多元统计的发展四、多元统计的应用五、教学安排和要求2020/1/34cxt§1.1课程概论一、什么是多元统计分析多元统计分析是研究多个随机变量之间相互依赖关系以及内在统计规律的一门统计学科。2020/1/35cxt二、多元统计分析的内容和方法1、简化数据结构(降维问题)将具有错综复杂关系的多个变量综合成数量较少且互不相关的变量,使研究问题得到简化但损失的信息又不太多。(1)主成分分析(2)因子分析(3)对应分析等2020/1/36cxt指标与指标可能存在相关关系信息重叠,分析偏误指标太多,增加问题的复杂性和分析难度如何避免?选用主成分分析或因子分析2020/1/37cxt例:美国的统计学家斯通(stone)在1947年关于国民经济的研究。他曾利用美国1929一1938年各年的数据,得到了17个反映国民收入与支出的变量要素,例如雇主补贴、消费资料和生产资料、纯公共支出、净增库存、股息、利息外贸平衡等等。2020/1/38cxt运用主成分分析以97.4%的精度,用三新变量就取代了原17个变量。根据经济学知识,斯通给这三个新变量分别命名为总收入F1、总收入变化率F2和经济发展或衰退的趋势F3。2020/1/39cxt2、分类与判别(归类问题)对所考察的变量按相似程度进行分类。(1)聚类分析:根据分析样本的各研究变量,将性质相似的样本归为一类的方法。(2)判别分析:判别样本应属何种类型的统计方法。2020/1/310cxt例:根据信息基础设施的发展状况,对世界20个国家和地区进行分类。考察指标有6个:1、X1:每千居民拥有固定电话数目2、X2:每千人拥有移动电话数目3、X3:高峰时期每三分钟国际电话的成本4、X4:每千人拥有电脑的数目5、X5:每千人中电脑使用率6、X6:每千人中开通互联网的人数2020/1/311cxt具体数据见教材第92页分析结果:将20个国家分为两类第1类(基础设施落后):巴西、墨西哥、波兰、匈牙利、智利、俄罗斯、泰国、印度、马来西亚第2类(基础设施发达):瑞典、丹麦、美国、中国台湾、韩国、日本、德国、法国、新加坡、英国、瑞士2020/1/312cxt如果:我们想知道我国基础设施发展属于哪一类型?运用判别分析依据:20个国家的分类结果2020/1/313cxt3、变量间的相互联系的研究一是:分析一个或几个变量的变化是否依赖另一些变量的变化。(回归分析)二是:两组变量间的相互关系(典型相关分析)2020/1/314cxt4、多元数据的统计推断点估计参数估计区间估计统u检验计参数t检验推F检验断假设相关与回归检验卡方检验非参秩和检验秩相关检验2020/1/315cxt三、多元统计的发展起源于:20世纪20年代1928年威沙特(Wishart)发表的《多元正态总体样本协方差矩阵的精确分布》为开端30年代多元分析在理论上得到迅速发展费希尔(Fisher)、霍特林(Hotelling)等进一步发展多元统计。40年代在心理学、教育学等领域进行应用因计算量大,发展受到影响2020/1/316cxt20世纪50年代中期——,多元统计在地质、气象、医学、社会学等方面得到广泛应用因计算机的出现和发展我国:70年代初期才开始重视多元统计在各领域的应用2020/1/317cxt四、多元统计的应用1、教育学2、医学3、气象学4、环境科学5、地质学6、考古学7、经济学8、社会科学等等2020/1/318cxt五、教学安排和要求1、教学内容:多元正态分布、聚类分析、判别分析、主成分分析、因子分析2、教学目标:掌握多元统计常用基本方法的原理与应用,能熟练运用一种统计软件——SPSS进行分析,并能解释软件输出结果及结论3、教学计划:理论教学(40课时)+实践教学(8课时)4、成绩考核:平时15%+实践15%+期末70%。5、教学信箱:zziastatistics@163.com密码:选课号3031312020/1/319cxt§1.2随机向量一、相关基础知识复习二、随机向量及其分布三、随机向量的数字特征一、相关基础知识复习线性代数相关知识(附录)矩阵及其基本运算向量与特征向量概率统计中的相关知识2020/1/321cxt概率统计中的相关知识随机变量及其分布总体与样本总体样本、样本均值、样本方差参数估计假设检验几种常用分布二、随机向量及其分布1、随机向量的概念p个随机变量X1,X2,……,Xp组成的向量X=(X1,X2,……,Xp)T,称为p维随机向量。2、随机向量的概率分布定义:P维随机向量的概率分布函数定义为其中性质:是每个变量的非降右连续函数;12(,,,)pXXXX121122()(,,,)(,,)pppFxFxxxPXxXxXx12(,,,)ppxxxxR12(,,,)pFxxx(1,2,,)ixip分布函数的取值范围为[0,1];1),,,(F2112(,,,)(,,,)(,,,)0ppFxxFxxFxx3.离散型随机向量的分布对P维随机向量,若存在有限个或可列个p维数向量,记且满足,则称X为离散型随机向量,为X的概率分布12(,,,)pXXXX'12(,,,)pxxx(),(1,2)kkPXxPk1kkP()kkPXxP4.连续型随机向量的分布p维随机向量X~,若存在一个非负可积函数,使得对一切有则称X为连续型随机向量,为分布密度函数。12()(,,,)pFxFxxx12(,,,)pfxxx12(,,,)ppxxxxR112121()(,,,)(,,)pxxpppFxFxxxftttdtdt12(,,,)pfxxx分布密度函数的性质:121(,,)1ppfxxxdxdx12(,,,)0pfxxx边际密度函数为12121(,,,)(,,,)qpqpfxxxfxxxdxdx例题1.1二维随机向量X有密度函数12(,)XX)sinsin1(21),(212212221xxexxfxx求X1、X2的边际密度6.独立性定义:p个随机变量X1,X2,……,Xp的联合分布等于各自边缘分布的乘积,则称X1,X2,……,Xp相互独立。三、随机向量的数字特征1.数学期望:定义:对,若存在且有限,则称为X的数学期望(均值向量)性质:12(,,,)pXXXX()(1,,)iEXip12()(,,,)'PEXEXEXEX()()EAXAEXCBXACAXB)()(EE()()()EAXBYAEXBEY2、协方差矩阵定义:设和分别为维和维随机向量,则其协方差矩阵为12(,,,)pXXXX12(,,,)qYYYYpq11221122()()()()()()qqppXEXXEXYEYYEYYEYXEXEcov(,)[()()']XYEXEXYEY111212122212cov(,)cov(,)cov(,)cov(,)cov(,)cov(,)cov(,)cov(,)cov(,)qqpppqXYXYXYXYXYXYXYXYXY12(,,,)pXXXX的协方差矩阵为1121212212var()cov(,)cov(,)cov(,)var()cov(,)()cov(,)cov(,)var()pppppXXXXXXXXXXVarXXXXXX协方差矩阵的性质若(X1,X2,…,Xp)’和(Y1,Y2,…,Yq)相互独立。则111212122212cov(,)cov(,)cov(,)cov(,)cov(,)cov(,)0cov(,)cov(,)cov(,)qqpppqXYXYXYXYXYXYXYXYXY若(x1,x2,…,xp)’的分量相互独立,则协方差矩阵,除主对角线上的元素外均为零,即12var()000var()0()00var()pXXVarXx证:设a为任意与X有相同维数的常数向量,则axxEaaa]))(([]))(([axxaE0)]([2xaE设A是常数矩阵,b为常数向量,则V(AX+b)=AV(X)A’;)(bAXV)]))[(bAbAXE])))[(bAbAXAxxA]))([(EAxA)(V随机向量X的协方差矩阵是非负定矩阵。若(X1,X2,…,Xp)’和(Y1,Y2,…,Yq)分别是p和q维随机向量,A和B为适合运算的常数矩阵,则ByxAByAx),(),(CovCov),(ByAxCov证}])()][(({[(xBBxxAAxEEEBxxA]))([(E若(X1,X2,…,Xp)’和(Y1,Y2,…,Yq)分别是p和q维随机向量,则其相关系数矩阵为111212122212(,)(,)(,)(,)(,)(,)(,)(,)(,)(,)qqpppqXYXYXYXYXYXYXYXYXYXY3、相关系数矩阵