多元统计分析MultivariateStatisticalAnalysis32学时课程介绍教材:Johnson&Wichern,AppliedMultivariateStatisticalAnalysis(6thEdition);参考教材:张尧庭,方开泰,多元统计分析引论,科学出版社;王学民,应用多元分析,上海财经大学出版社;何晓群,多元统计分析,中国人民大学出版社;考试要求:平时成绩+卷面成绩平时成绩:45分,报告25分,作业+考勤20分;卷面成绩:55分。第一章多元分析概述AspectsofMultivariateAnalysis附矩阵代数及随机向量MatrixAlgebraandRandomVector第二章多元正态分布TheMultivariateNormalDistribution第三章多元正态总体的统计推断InferencesonMultivariateNormalPopulation第四章主成分分析PrincipalComponentsAnalysis第五章因子分析FactorAnalysis第六章判别分析DiscriminantAnalysis第七章聚类分析ClusterAnalysis第一章多元分析概述第一节引言第二节应用背景第三节计算机在统计分析中的应用第一节引言多元统计分析是运用数理统计方法来研究解决多指标问题的理论和方法。近30年来,随着计算机应用技术的发展和科研生产的迫切需要,多元统计分析技术被广泛地应用于地质、气象、水文、医学、工业、农业和经济等许多领域,已经成为解决实际问题的有效方法。然而,随着Internet的日益普及,各行各业都开始采用计算机及相应的信息技术进行管理和决策,这使得各企事业单位生成、收集、存储和处理数据的能力大大提高,数据量与日俱增,大量复杂信息层出不穷。第一节引言在信息爆炸的今天,人们已经意识到数据最值钱的时代已经到来。显然,大量信息在给人们带来方便的同时也带来一系列问题。如:信息量过大,超过了人们掌握、消化的能力;一些信息真伪难辩,从而给信息的正确应用带来困难;信息组织形式的不一致性导致难以对信息进行有效统一处理等等,这种变化使传统的数据库技术和数据处理手段已经不能满足要求.Internet的迅猛发展也使得网络上的各种资源信息异常丰富,在其中进行信息的查找真如大海捞针。这样又给多元统计分析理论的发展和方法的应用提出了新的挑战。多元统计分析的发展1928年,Wishart发表论文《多元正态总体样本协差阵的精确分布》,可以说是多元分析的开端。20世纪30年代,R.A.Fisher、H.Hotelling、S.N.Roy、许宝騄等人作了一系列得奠基性工作,使多元分析在理论上得到了迅速得发展。20世纪40年代,在心理、教育、生物等方面有不少得应用,但由于计算量大,使其发展受到影响,甚至停滞了相当长得时间。多元统计分析的发展20世纪50年代中期,随着电子计算机得出现和发展,使多元分析方法在地质、气象、医学、社会学等方面得到广泛得应用。20世纪60年代通过应用和实践又完善和发展了理论,由于新的理论、新的方法不断涌现又促使它的应用范围更加扩大。20世纪70年代初期在我国才受到各个领域的极大关注,并在多元统计分析的理论研究和应用上也取得了很多显著成绩,有些研究工作已达到国际水平,并已形成一支科技队伍,活跃在各条战线上。在20世纪末与本世纪初,人们获得的数据正以前所未有的速度急剧增加,产生了很多超大型数据库,遍及销售、存款、天文学、粒子物理、化学、医学以及政府统计等领域,多元统计与人工智能和数据库技术相结合,已在经济、商业、金融、天文等行业得到了成功的应用。为了让人们更好的较为系统地掌握多元统计分析的理论与方法,重点介绍多元正态总体的参数估计和假设检验以及主成分分析、聚类分析、因子分析、判别分析等常用的统计方法。与此同时,我们将利用SPSS统计软件来实现实证分析,做到在理论的学习中体会应用,在应用的分析中加深理论。第二节应用背景统计方法是科学研究的一种重要工具,其应用颇为广泛。特别地,多元统计分析方法常常被应用于自然科学、社会科学等领域的问题中。为了进一步体现多元统计分析方法的应用,我们首先从宏观的角度认识统计学应用的背景,然后从微观的角度显示多元统计分析应用的广泛性。统计学的生命力在于应用统计学的发展过程中可以看出统计学产生于应用,在应用过程中发展,它的生命力在于应用。1672年,威廉·配第(1623-1687,英国古典政治经济学创始人,统计学家)写的《政治算术》,从其研究方法看,被认为是一本统计学著作。政治算术学派的统计学家将统计方法应用于各自熟悉和感兴趣的研究领域,都还是把其应用对象当作肯定性事物之间的联系来进行研究的。他们确信,事物现象存在着简单明了的数量关系,需要用定性与定量的方法将这种关系(规律)揭示或描述。使人们能够更具体、真切地认识世界。数理统计学派的奠基人凯特勒(1796~1874,比利时统计学家、数学家和天文学家)在统计学中引入了概率论,把它应用与自然界和社会的许多方面,从而为人们认识和说明不确定现象及其相互之间的联系开辟出了一条道路。在自然科学和社会科学的许多领域,都留下凯特勒应用统计学研究的烙印。自从凯特勒把概率论引入了应用中的统计学,人们对客观世界的认识及描述更全面、更接近于实际了。他在广泛应用拉普拉斯等人概率论中的正态曲线、误差法则、大数法则等成果的过程中,为统计学增添了数理统计方法,进而又扩展了统计学的应用范围。统计学的生命力在于应用在应用中对发展统计方法贡献显著的当推生物统计学派的戈尔登(1822-1921)、皮尔逊(1857-1936)和农业实验学派的孟德尔(1822--1884)、戈塞特(1876-1937)等。戈尔登在六年中测量了近万人的“身高、体重、阔度、呼吸力、拉力和压力、手击的速率、听力、视力、色觉及个人的其他资料”。在探究这些数据内在联系的过程中提出了“相关”思想。将大量数据加以综合描述和比较,从而能使他的遗传理论建立在比较精确的基础上,为统计学引入了中位数、四分位数、分布、回归等极为重要的概念和方法。统计学的生命力在于应用农业实验学派的孟德尔和戈塞特同样是在实验回答各自应用领域中出现的新要求、新课题,发展了统计思想和统计分析方法。孟德尔及其后继者贝特森等人创建的遗传试验手段,运用推断的理论与实验的方法,通常只用小样本来处理。戈塞特的T分布与小样本思想更是在由于“有些实验不能多次地进行”,从而“必须根据极少数的事例(小样本)来判断实验结果的正确性”的情况下产生的。今天,这些统计思想和分析推断方法已经成为了科学家们不可缺少的基本研究工具了。统计学的生命力在于应用近现代,统计学已经空前广泛应用于最高级的运动形式——社会。其结果便是出现了一系列与其应用对象指导理论和其它相关学科交织在一起的边缘学科。如在社会经济方面的投入产出经济学、经济计量学、统计预测学、统计决策学等等。在这些边缘学科中,统计学与其应用对象结合更紧密、更自然。这些学科的专家学者至少在两个或两个以上的专业领域里有比较深厚的学术造诣。统计学的应用帮助他们在各自的应用领域中取得辉煌的成就。统计学的生命力在于应用统计理论问题的研究和应用研究从总体上说应该属于“源”和“流”的关系。如果理论不成熟,方法不完善,统计应用研究也很难达到较高的水平。因此,充分发挥统计学的生命力,必须建立在统计理论研究的基础之上。从国际上看,近十几年来,统计分析技术的研究有了新的发展。这些研究的总体特征是,广泛吸收和融合相关学科的新理论,不断开发应用新技术和新方法,深化和丰富了统计学传统领域的理论与方法研究,并拓展了统计研究的新领域。统计学的生命力在于应用统计学具有强有利的生命力,其具体表现在:第一,统计学为计算机科学的发展发挥作用。第二,统计理论与分析方法的新发展。第三,统计调查方法与记述的创新。统计学的生命力在于应用统计方法和研究目的之间的关系问题内容方法数据或结构性化简尽可能简单地表示所研究的现象,但不损失很多有用的信息,并希望这种表示能够很容易的解释。多元回归分析、聚类分析、主成分分析、因子分析、相应分析、多维标度法、可视化分析分类和组合基于所测量到的一些特征,给出好的分组方法,对相似的对象或变量分组。判别分析、聚类分析、主成分分析、可视化分析变量之间的相关关系变量之间是否存在相关关系,相关关系又是怎样体现。多元回归、典型相关、主成分分析、因子分析、相应分析、多维标度法、可视化分析预测与决策通过统计模型或最优准则,对未来进行预见或判断。多元回归、判别分析、聚类分析、可视化分析假设的提出及检验检验由多元总体参数表示的某种统计假设,能够证实某种假设条件的合理性。多元总体参数估计、假设检验1、城镇居民消费水平通常用八项指标来描述,如人均粮食支出、人均副食支出、人均烟酒茶支出、人均衣着商品支出、人均日用品支出、人均燃料支出、人均非商品支出。这八项指标存在一定的线性关系。为了研究城镇居民的消费结构,需要将相关强的指标归并到一起,这实际就是对指标进行聚类分析。2、某一产品是用两种不同原料生产的,试问此两种原料生产的产品寿命有无显著差异?又如,若考察某商业行业今年和去年的经营指标的平均水平是否有显著差异以及指标之间的波动是否有显著差异。都可用多元正态总体均值向量和协差阵的假设检验。多元统计分析方法的应用3、某医院已有100个分别患有胃炎、肝炎、冠心病、糖尿病等的病人资料,记录了他们每个人若干项症状指标数据。如果对于一个新的病人,当也测得这若干项症状指标时,可以利用判别分析方法判定他患的是哪种病。4、研究中国七星瓢虫在黄海、渤海的群聚与近期气象条件的关系。对1000个类似的鱼类样本,如何根据测量的特征如体重、身长、鳍数、鳍长、头宽等,我们可以利用聚类分析方法将这类鱼分成几个不同品种。多元统计分析方法的应用5、考古学家对挖掘出来的人头盖骨的高、宽等特征来判断是男或女,根据挖掘出的动物牙齿的有关测试指标,判别它是属于哪一类动物牙齿、是哪一个时代的。6、在高考招生工作中,我们知道每个考生的基本情况,通过分析我们不仅可以了解到学生喜欢学习的科目,还可以进一步从考生每门课程的成绩,分析出学生的逻辑思维能力、形象思维能力和记忆力等等对学习成绩的影响。多元统计分析方法的应用一、加强计算机统计应用教学第三节计算机在统计分析中的应用多元统计分析的数学计算比较复杂,如果不借助于计算机,许多问题根本无法解决。在多元统计分析的教学中,加强计算机的应用教学就显得尤为重要。这样不仅能体现多元统计分析方法的理论价值,而且能更好的显示出其应用价值。二、计算机统计分析的基本步骤数据的组织数据的录入统计分析结果输出