多元统计实验报告关于某校导师研究生指标的分配问题班级:***姓名:***学号:***2目录一.问题背景.........................................4二.实验要求.........................................4三.数据预处理.......................................43.1数据分离3.2数量化3.3归一化四.建模及求解.......................................64.1多元线性回归填补模型...........................64.1.1多元线性回归模型简介4.1.1.1向前选择法4,1.1.2向后消去法4.1.1.3逐步删选法4.1.2多元线性回归填补模型4.1.2.1建模4.1.2.1求解A.向前选择法B.向后消去发C.逐步删选法4.2判别分析填补模型...............................94.2.1判别分析模型简介4.2.1.1概论4.2.1.2分类4.2.1.3常用判别方法A.距离判别法B.Fisher判别法C.Bayes判别法4.2.2判别分析填补模型4.2.2.1建模4.2.2.2求解34.3主成分分析验证模型.............................124.3.1主成分分析简介4.3.1.1概论4.3.1.2数学模型4.3.1.3主成分分析步骤4.3.2主成分分析验证模型4.3.2.1建模4.3.2.2求解4.4典型相关分析验证模型...........................154.4.1典型相关性分析简介4.4.1.1概论4.4.1.2数学模型4.4.2典型相关性分析验证模型4.4.2.1建模4.4.2.2求解A.典型相关结果B.多种多元统计结果比较C.典型变量的标准线性方程D.原始变量与典型变量的相关度4.5聚类分析.......................................184.5.1聚类分析简介4.5.1.1概论4.5.1.2常用方法A.最短距离法B.平均距离法C.Ward法4.5.1聚类分析4.5.1.1建模4.5.1.2求解A.聚类图形表示B.Ward聚类详解C.基于Ward分类的预测五.体会及建议......................................24六.SAS程序.........................................25七.附录..............................................284一.问题背景高等学校研究生招生指标分配问题,对研究生的培养质量、教育资源利用率、学科建设和科研成果的取得有直接影响。传统的硕士研究生名额分配方案主要参考导师岗位级别进行分配。这种单因素的指标分配策略显然不是科学的,为了更好地提升研究生的培养质量和对教育资源地充分利用,一套更科学的研究生指标分配方案亟需提出。附件1中的数据是2007-2011年某高校硕士研究生招生情况,其中有10组数据由于客观原因造成缺损。二.实验要求2.1建立数学模型,利用多元线性回归法对数据中的缺损项进行填补2.2建立数学模型,利用判别分析法对数据中的缺损项进行填补2.3利用主成分分析法验证“传统的硕士研究生名额分配方案主要参考导师岗位级别进行分配”的正确性2.4利用典型相关分析法验证“传统的硕士研究生名额分配方案主要参考导师岗位级别进行分配”的正确性2.5利用聚类分析法对数据进行分类,并建立数学模型对2012年研究生数进行更合理的分配三.数据与处理3.1数据分离由于原始数据中有10组数据有缺损,为了更方便地分析数据先将数据分离成两大组数据,第一大组为完整的数据,第二大组的数据为有缺损的数据。3.2数据数量化分析数据我们发现“学科分类”和“岗位级别”是非数量型数据,为了后续分析首先要将非数量型数据数量化。由于“岗位级别”在一定程度上反映了导师的能力,从一级岗道七级岗具有某种趋势的渐变,因此不妨做如表3.1的数量化处理:5表3.1一级岗1二级岗2三级岗3四级岗4五级岗5六级岗6七级岗7不同学科之间的差异具有多元性,即不同学科在不同指标上的差异可能具有不同的表现。由于我们研究的目标是“招生人数”,因此我们不妨以“招生人数”为参考来数量化“学科分类”,即根据“招生人数”从小到大来对“学科分类”排序,以实现“学科分类”的数量化。数量化结果如表3.2所示。表3.2学科分类招生人数均值招生人数排名数量化结果A1.1633B0.7411C1.3777D1.2044E1.4188F1.2355G1.4599H1.681010I2.581111J0.8822K1.26663.3数据标准化由于各个指标都不同的量纲,为了更为准确地反映数据间的关系,需要对数据进行归一化。选用最大最小值归一化法来归一化数据:)min()max()min(),(),(jjjjijiMMMMD式中,),(jiD表示归一化后第i个教师第j个指标的数值,),(jiM表示归一化前第i个教师第j个指标的数值,)max(jM、)min(jM分别表示归一化前第j个指标的最大、最小值。附录2为原始数据经过预处理后的数据。6四.建模及求解4.1多元线性回归填补模型4.1.1多元线性回归模型简介在实际问题中,一个变量往往受到多个变量的影响。这些影响是复杂多样的,其中最简单的一种影响形式就是多个变量的线性组合,即多元线性回归模型。其数学模型如下:nnppnnnppppzzzyzzzyzzzy2211022222211021112211101式中,)(piyi,...,,21为因变量,),...,,;,...,,(pjnizij2121为相互独立的自变量,),...,,(pii21为模型参数,IE20)cov(,)(,我们可以认为为随机项。在实际问题中,往往是已知自变量和因变量来估计模型的参数,最常用的估计方法为最小二乘估计。定理设回归模型zy满足npzrank1)(,则:(1)最小二乘估计:yzzz')'(ˆ1(2)残差:yzzzzI]')'([ˆ1,满足0ˆ'z和0ˆ'ˆy(3)残差平方和:yzzzzIyS]')'([ˆ'ˆ)ˆ(1实际问题中,对于观察到的自变量),...,,(pizi21往往不是完全独立的。因此,为了使线性回归模型能够更准确地描述客观事实,一般会对自变量进行删选。常用的方法有向前选择法(FORWARD)、向后消去法(BACKWARD)和逐步删选法(STEPWISE)。4.1.1.1向前选择法在向前选择法中,初始模型中没有变量。对于每个未加入模型的自变量,向前计算它对模型贡献大小的F统计量,并与SLENTRY的值进行比较。若大于SLENTRY则加入到模型中,否则不加入。在向前选择法中,自变量一旦被加入到模型中就不再被踢出。模型的典型SLENTRY值为0.05.4.1.1.2向后消去法在向后消去法中,所有变量都被包含在模型中。对于每一个模型中的变量,计算它的F统计量,并与SLENTRY值进行比较。若比SLENTRY小则被踢出。典型SLENTRY的值为0.05.74.1.1.3逐步删选法逐步删选法是向前选择法的改进。区别在于,对于加入到模型中的变量还有可能被踢出。具体来说,是在每次加入变量后要对模型中的所有变量进行检验,删除那些在SLENTRY水平上不显著的变量。重复上述加入和踢出变量的过程,直到未加入模型中的所有自变量在SLENTRY水平上都不显著且模型中的所有自变量的SLENTRY水平都很显著时,逐步删选法才结束。4.1.2多元线性回归填补模型4.1.2.1建模模型中的自变量有学科分类、岗位级别、经费、英文论文数、中文论文数、专利数、优硕数等七个,因变量为招生数。模型的具体数学描述如下:77344234421344103442722222110217112211101),(),(),(),(),(zzzyzzzyzzzyppp利用完整数据可得到模型的参数:)ˆ,ˆ,ˆ,ˆ,ˆ,ˆ,ˆ,ˆ(ˆ76543210由于缺损数据缺失的数据项都只有“岗位级别”,因此将除“岗位级别”外的其他数据代入模型中,即可求得岗位级别的理论值。然后用最短距离法来估计它的实际值。表4.1为各岗位级别归一化后对应的统计值。表4.1岗位级别1234567归一化值721,,,,izi00.16670.33330.50.66670.8331分别求七个级别统计值与理论值的距离:iizzd式中Z为岗位级别的理论值。则距离最短的那个级别极为它的真实级别。4.1.2.2求解A.向前选择法向前选择法的运行结果如图4.1所示。图4.18利用向前选择法得到的线性回归模型为:765321089440046000083550070710531000047290568820xxxxxxy.......4x没有通过检测。将缺损数据代入模型中,计算“岗位级别”理论值,并用最短距离法估计出它的真实值。结果如表4.2所示。表4.2教师编号51114115131157178280329353354岗位级别理论值0.21240.41310.47420.50010.24830.26840.22110.21970.44900.4500岗位级别估计值2444232244B.向后消去法向后消去法运行得到的结果如图4.2所示。图4.2利用向后消去法得到的线性回归模型为:7521091960097010534140039560580670xxxxy.....643xxx,,没有通过检测。将缺损数据代入模型中,计算“岗位级别”理论值,并用最短距离法估计出它的真实值。结果如表4.3所示。表4.3教师编号51114115131157178280329353354岗位级别理论值0.22480.42260.48320.50160.25290.27960.21400.22100.45250.4525岗位级别估计值24442222449C.逐步删选法逐步删选法的运行结果如图4.3所示。图4.3利用向后消去法得到的线性回归模型为:7521091960097010534140039560580670xxxxy.....643xxx,,没有通过检测。将缺损数据代入模型中,计算“岗位级别”理论值,并用最短距离法估计出它的真实值。结果如表4.4所示。表4.4教师编号51114115131157178280329353354岗位级别理论值0.22480.42260.48320.50160.25290.27960.21400.22100.45250.4525岗位级别估计值24442222444.2判别分析填补模型4.2.1判别分析模型简介4.2.1.1概论判别分析是在已知总体确切分类的情况下,判别某个样本归属哪一类的统计方法。判别分析的前提是要知道大量的分类明确的训练数据,根据训练数据建立判别函数,然后根据判别函数来判别某一个样本的归属。其基本流程如图4.4所示。图4.4104.2.1.2分类根据判别中的组数,可以分为两组判别分析和多组判别分析;根据判别函数的形式,可以分为线性判别和非线性判别;根据判别式处理变量的方法不同,可以分为逐步判别、序贯判别等;根据判别标准不同,可以分为距离判别、Fisher判别、Bayes判别法等4.2.1.3常用方法A.距离判别设有k个组,k,...,,21,他们的均值分别为k,...,,21,协防差矩阵分别为k,...,,21。x到总体i的马氏距离为:)()'(),(iiiixxxd12判别