1应用多元统计分析北大数学学院2课程介绍多元统计分析(简称多元分析)是统计学的一个重要分支.它是应用数理统计学来研究多变量(多指标)问题的理论和方法;它是一元统计学的推广和发展.多元统计分析是一门具有很强应用性的课程;它在自然科学和社会科学等各个领域中得到广泛的应用;它包括了很多非常有用的数据处理方法.北大数学学院3第一章绪论第二章多元正态分布及参数的估计第三章多元正态总体参数的假设检验第四章回归分析--第五章判别分析第六章聚类分析第七章主成分分析第八章因子分析第九章对应分析方法第十章典型相关分析第十一章偏最小二乘回归分析本课程的内容多变量分析(数据结构简化)分类方法两组变量的相关分析基础理论两组变量的相依分析北大数学学院4普通高等教育”十一五”国家级教材北京大学数学教学系列丛书本科生数学基础课教材应用多元统计分析使用的教材北大数学学院51.实用多元统计分析(方开泰,1989,见参考文献[1])2.多元统计分析引论(张尧庭,方开泰,2003,见[2])3.实用多元统计分析(王学仁,1990,见[6])4.应用多元分析(王学民,1999,见[8])5.实用统计方法与SAS系统(高惠璇,2001,见[3])6.多元统计分析(于秀林,1999,见[9])7.多元统计方法(周光亚,1988,见[28])8.多元分析(英.M.肯德尔,1983,见[15])9.SAS系统使用手册等资料(1994-1998,见[17]-[21])参考书(一)北大数学学院6(1)AnIntroductiontoMultivariateStatisticalAnalysis(Anderson1984,见[22])参考书(二)(2)AppliedMultivariateStatisticalAnalysis(RichardA.JohnsonandDeanW.Wichern4thed1998)中译本:实用多元统计分析(陆璇译2001,见[5])(3)LinearStatisticalInferenceandItsApplications(C.R.Rao1973)中译本:线性统计推断及其应用(C.R.劳1987,见[25])北大数学学院7教学方式:授课与实际例题相结合.本课程的特点与教学方式本课程的特点是将常用的多元分析方法的介绍与在计算机上实现这些方法的软件紧密地结合起来,不仅介绍每种多元分析方法的实际背景、统计思想、统计模型、数学原理和解题的思路,并结合实例介绍应用统计软件(SAS系统)解决问题的步骤和计算结果的分析。北大数学学院8《多元统计》考核方法考核方法1.出勤率及课堂表现,占10%;2.课程论文(实验),占40%;3.期末考试,占50%。北大数学学院9第一章绪论§1.1引言在实际问题中,很多随机现象涉及到的变量不止一个,而经常是多个变量,而且这些变量间又存在一定的联系。我们常常需要处理多个变量的观测数据。例如考察学生的学习情况时,就需了解学生在几个主要科目的考试成绩。下表给出从中学某年级随机抽取的12名学生中5门主要课程期末考试成绩。北大数学学院10第一章绪论§1.1引言序号政治语文外语数学物理19994931001002998896999731009881961004938888999651009172967869078827597775738897898938483688898773607684109582906239117672436778128575503437北大数学学院11第一章绪论§1.1引言--多元分析的研究对象和内容上表提供的数据,如果用一元统计方法,势必要把多门课程分开分析,每次分析处理一门课的成绩。这样处理,由于忽视了课程之间可能存在的相关性,因此,一般说来,丢失信息太多。分析的结果不能客观全面地反映某年级学生的学习情况。本课程要讨论的多元分析方法,它同时对多门课程成绩进行分析。这样的分析对这些课程之间的相互关系、相互依赖性等都能提供有用的信息。北大数学学院12第一章绪论§1.1引言--多元分析的研究对象和内容由于大量实际问题都涉及到多个变量,这些变量又是随机变化,如学生的学习成绩随着被抽取学生的不同成绩也有变化(我们往往需要依据它们来推断全年级的学习情况)。所以要讨论多维随机向量的统计规律性。多元统计分析就是讨论多维随机向量的理论和统计方法的总称。多元统计分析研究的对象就是多维随机向量.北大数学学院13第一章绪论§1.1引言--多元分析的研究对象和内容研究的内容既包括一元统计学中某些方法的直接推广,也包括多个随机变量特有的一些问题。多元统计分析是一类范围很广的理论和方法。企图用三言两语来下一个严格的定义是困难的.北大数学学院14第一章绪论§1.1引言--多元分析的研究对象和内容就以学生成绩为例,我们可以研究很多问题:用各科成绩的总和作为综合指标来比较学生学习成绩的好坏(如成绩好的与成绩差的,又如文科成绩好的与理科成绩好的);研究各科成绩之间的关系(如物理与数学成绩的关系,文科成绩与理科成绩的关系);……等等。所有这些都属于多元统计分析的研究内容。北大数学学院15第一章绪论§1.1引言--多元分析的研究对象和内容综上所述,多元分析以p个变量的n次观测数据组成的数据矩阵x11x12…x1px21x22…x2p….….….….xn1xn2…xnpX=为依据。根据实际问题的需要,给出种种方法。英国著名统计学家M.肯德尔(M.G.Kendall)在《多元分析》一书中把多元分析所研究的内容和方法概括为以下几个方面:北大数学学院16第一章绪论§1.1引言--多元分析的研究对象和内容1.简化数据结构(降维问题)例如通过变量变换等方法使相互依赖的变量变成互不相关的;或把高维空间的数据投影到低维空间,使问题得到简化而损失的信息又不太多.主成分分析,因子分析,对应分析等多元统计方法就是这样的一类方法。2.分类与判别(归类问题)对所考查的对象(样品点或变量)按相似程度进行分类(或归类)。聚类分析和判别分析等方法是解决这类问题的统计方法。北大数学学院17第一章绪论§1.1引言--多元分析的研究对象和内容3.变量间的相互联系(1)相互依赖关系:分析一个或几个变量的变化是否依赖于另一些变量的变化?如果是,建立变量间的定量关系式,并用于预测或控制---回归分析.(2)变量间的相互关系:分析两组变量间的相互关系---典型相关分析等.(3)两组变量间的相互依赖关系---偏最小二乘回归分析.北大数学学院18第一章绪论§1.1引言--多元分析的研究对象和内容5.多元统计分析的理论基础包括多维随机向量及多维正态随机向量,及由此定义的各种多元统计量,推导它们的分布并研究其性质,研究它们的抽样分布理论。这些不仅是统计估计和假设检验的基础,也是多元统计分析的理论基础。4.多元数据的统计推断参数估计和假设检验问题.特别是多元正态分布的均值向量和协差阵的估计和假设检验等问题。北大数学学院19第一章绪论§1.1引言--多元分析的发展历史多元统计分析起源于二十世纪初,1928年Wishart发表论文《多元正态总体样本协方差阵的精确分布》,可以说是多元分析的开端.之后R.A.Fisher、H.Hotelling、S.N.Roy、许宝騄等人作了一系列奠基的工作,使多元统计分析在理论上得到迅速的发展,在许多领域中也有了实际应用.由于用统计方法解决实际问题时需要的计算量很大,使其发展受到影响,甚至停滞了相当长的时间.北大数学学院20第一章绪论§1.1引言--多元分析的的发展历史二十世纪50年代中期,随着电子计算机的出现和发展,使得多元统计分析在地质、气象、医学、社会学等方面得到广泛的应用.60年代通过应用和实践又完善和发展了理论,由于新理论、新方法的不断出现又促使它的应用范围更加扩大.多元统计的方法在我国至70年代初期才受到各个领域的极大关注,近30多年来我国在多元统计方法的理论研究和应用上也取得了很多显著成绩,有些研究工作已达到国际水平,并已形成一支科技队伍,活跃在各条战线上.北大数学学院21第一章绪论§1.2多元统计分析的应用领域--教育学多元统计分析是解决实际问题有效的数据处理方法。随着电子计算机使用的日益普及,多元统计方法已广泛地应用于自然科学,社会科学的各个方面。以下我们列举多元分析的一些应用领域。从中可看到多元分析应用的广度和深度。1.教育学n个考生报考北大概率统计系.每个考生参加7门课(语文、数学、政治、外语、物理、化学、生物)的考试,各门课成绩记为Yj1,Yj2,…,Yj7。又每个考生在高中学习期间,m门主要课程成绩为Xj1,Xj2,…,Xjm(j=1,2,…,n)。经对这大量的资料作统计分析,我们能够得出:北大数学学院22第一章绪论§1.2多元统计分析的应用领域--教育学(1)高考成绩和高中学习期间成绩的关系,即给出两组变量线性组合间的关系,从而可由考生在高中期间的学习成绩来预报高考的综合成绩或某科目的成绩.(2)给出考生成绩次序排队的最佳方案(最佳组合).总分可以体现一个考生成绩好坏,但对报考概率统计系的学生,按总分从高到低的顺序录取并不是最合适的.应按适当的权数加权求和.如数学、物理、外语的权数相对高些.北大数学学院23第一章绪论§1.2多元统计分析的应用领域--教育学(3)利用n个学生在高中学习期间m门主科的考试成绩,可对学生进行分类,如按文、理科成绩分类,按总成绩分类等。若准备给优秀学生发奖,那么一等奖、二等奖的比例应该是多少?应用多元统计分析的方法可以给出公平合理地确定。北大数学学院24教育学--主成分分析在学生学习成绩排序中的应用我在担任学生班主任期间,经常会遇到学校下达的评选三好生,评选学习奖等任务.另还有评选各种奖学金的工作;推荐研究生的工作都要求班主任提出意见.如何利用全班学生在校几年中主要课程的学习成绩及各方面的表现更科学,更合理地进行评选?应用多元统计分析中的主成分方法可以给出公平合理地确定.北大数学学院25教育学--主成分分析在学生学习成绩排序中的应用比如全班有40名学生,本科生四年中主要课程包括基础课,专业基础课,本专业的限选课,设共有12门课.从教务可以得到全班40名学生这12门课的成绩,组成的40行12列的数据阵X就是我们的原始数据.(1)全班学生综合成绩的排序评选三好生,评选学习奖,推荐研究生的工作首先都要了解全班学生的学习情况.北大数学学院26教育学--主成分分析在学生学习成绩排序中的应用12门课的成绩可看成12个变量,这是多指标(变量)系统的排序评估问题。这类问题在实际工作中经常会迂到,比如对某类企业的经济效益进行评估比较,影响企业经济效益的指标有很多,如何更科学、更客观地将一个多指标问题综合为单个综合变量的形式.主成分分析方法为样品排序或多指标系统评估提供可行的方法.北大数学学院27教育学--主成分分析在学生学习成绩排序中的应用这里把12门课的成绩看成12个变量,这些变量是相关的,有的相关性强些,有的相关性一般些。用主成分分析方法从12个相关的变量中可以综合得出几个互不相关的主成分--它们是原始变量的线性组合。其中第一主成分综合原始变量的信息最多(一般在70%以上),我们就用第一主成分(即单个综合指标)替代原来的12个变量;然后计算第一主成分的得分并进行排序。北大数学学院28教育学--主成分分析在学生学习成绩排序中的应用最简单最直观地综合变量就是12门课的成绩总和。但这个最简单的综合变量并不是最科学地代表12门课综合成绩的指标,而用主成分分析得出的第一主成分(原始变量的线性组合)Z1是最科学地代表12门课综合成绩的指标。比如12432112852.01025.03502.04525.03233.0XXXXXZZ1是12个变量的线性组合,且系数都是正数,数值有大有小。显然数值大的变量对综合指标(主成分)的贡献大;数值小的变量对综合指标(主成分)的贡献小。北大数学学院29教育学--主成分分析在学生学习成绩排序中的应用12个原始变量(课程)提供的信息各为多少?用什么量来表达?最经典的方法是用变量的方差Var(