多元统计实验报告

slking
1 ℃
2020-01-16

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

多元统计实验报告关于某校导师研究生指标的分配问题班级：***姓名：***学号：***2目录一．问题背景.........................................4二．实验要求.........................................4三．数据预处理.......................................43.1数据分离3.2数量化3.3归一化四．建模及求解.......................................64.1多元线性回归填补模型...........................64.1.1多元线性回归模型简介4.1.1.1向前选择法4,1.1.2向后消去法4.1.1.3逐步删选法4.1.2多元线性回归填补模型4.1.2.1建模4.1.2.1求解A.向前选择法B.向后消去发C.逐步删选法4.2判别分析填补模型...............................94.2.1判别分析模型简介4.2.1.1概论4.2.1.2分类4.2.1.3常用判别方法A.距离判别法B.Fisher判别法C.Bayes判别法4.2.2判别分析填补模型4.2.2.1建模4.2.2.2求解34.3主成分分析验证模型.............................124.3.1主成分分析简介4.3.1.1概论4.3.1.2数学模型4.3.1.3主成分分析步骤4.3.2主成分分析验证模型4.3.2.1建模4.3.2.2求解4.4典型相关分析验证模型...........................154.4.1典型相关性分析简介4.4.1.1概论4.4.1.2数学模型4.4.2典型相关性分析验证模型4.4.2.1建模4.4.2.2求解A.典型相关结果B.多种多元统计结果比较C.典型变量的标准线性方程D.原始变量与典型变量的相关度4.5聚类分析.......................................184.5.1聚类分析简介4.5.1.1概论4.5.1.2常用方法A.最短距离法B.平均距离法C.Ward法4.5.1聚类分析4.5.1.1建模4.5.1.2求解A.聚类图形表示B.Ward聚类详解C.基于Ward分类的预测五．体会及建议......................................24六．SAS程序.........................................25七．附录..............................................284一．问题背景高等学校研究生招生指标分配问题，对研究生的培养质量、教育资源利用率、学科建设和科研成果的取得有直接影响。传统的硕士研究生名额分配方案主要参考导师岗位级别进行分配。这种单因素的指标分配策略显然不是科学的，为了更好地提升研究生的培养质量和对教育资源地充分利用，一套更科学的研究生指标分配方案亟需提出。附件1中的数据是2007-2011年某高校硕士研究生招生情况，其中有10组数据由于客观原因造成缺损。二．实验要求2.1建立数学模型，利用多元线性回归法对数据中的缺损项进行填补2.2建立数学模型，利用判别分析法对数据中的缺损项进行填补2.3利用主成分分析法验证“传统的硕士研究生名额分配方案主要参考导师岗位级别进行分配”的正确性2.4利用典型相关分析法验证“传统的硕士研究生名额分配方案主要参考导师岗位级别进行分配”的正确性2.5利用聚类分析法对数据进行分类，并建立数学模型对2012年研究生数进行更合理的分配三．数据与处理3.1数据分离由于原始数据中有10组数据有缺损，为了更方便地分析数据先将数据分离成两大组数据，第一大组为完整的数据，第二大组的数据为有缺损的数据。3.2数据数量化分析数据我们发现“学科分类”和“岗位级别”是非数量型数据，为了后续分析首先要将非数量型数据数量化。由于“岗位级别”在一定程度上反映了导师的能力，从一级岗道七级岗具有某种趋势的渐变，因此不妨做如表3.1的数量化处理：5表3.1一级岗1二级岗2三级岗3四级岗4五级岗5六级岗6七级岗7不同学科之间的差异具有多元性，即不同学科在不同指标上的差异可能具有不同的表现。由于我们研究的目标是“招生人数”，因此我们不妨以“招生人数”为参考来数量化“学科分类”，即根据“招生人数”从小到大来对“学科分类”排序，以实现“学科分类”的数量化。数量化结果如表3.2所示。表3.2学科分类招生人数均值招生人数排名数量化结果A1.1633B0.7411C1.3777D1.2044E1.4188F1.2355G1.4599H1.681010I2.581111J0.8822K1.26663.3数据标准化由于各个指标都不同的量纲，为了更为准确地反映数据间的关系，需要对数据进行归一化。选用最大最小值归一化法来归一化数据：)min()max()min(),(),(jjjjijiMMMMD式中，),(jiD表示归一化后第i个教师第j个指标的数值，),(jiM表示归一化前第i个教师第j个指标的数值，)max(jM、)min(jM分别表示归一化前第j个指标的最大、最小值。附录2为原始数据经过预处理后的数据。6四．建模及求解4.1多元线性回归填补模型4.1.1多元线性回归模型简介在实际问题中，一个变量往往受到多个变量的影响。这些影响是复杂多样的，其中最简单的一种影响形式就是多个变量的线性组合，即多元线性回归模型。其数学模型如下：nnppnnnppppzzzyzzzyzzzy2211022222211021112211101式中，）（piyi,...,,21为因变量，),...,,;,...,,(pjnizij2121为相互独立的自变量，),...,,(pii21为模型参数，IE20)cov(,)(，我们可以认为为随机项。在实际问题中，往往是已知自变量和因变量来估计模型的参数，最常用的估计方法为最小二乘估计。定理设回归模型zy满足npzrank1)(，则：（1）最小二乘估计：yzzz')'(ˆ1（2）残差：yzzzzI]')'([ˆ1，满足0ˆ'z和0ˆ'ˆy（3）残差平方和：yzzzzIyS]')'([ˆ'ˆ)ˆ(1实际问题中，对于观察到的自变量),...,,(pizi21往往不是完全独立的。因此，为了使线性回归模型能够更准确地描述客观事实，一般会对自变量进行删选。常用的方法有向前选择法（FORWARD）、向后消去法（BACKWARD）和逐步删选法（STEPWISE）。4.1.1.1向前选择法在向前选择法中，初始模型中没有变量。对于每个未加入模型的自变量，向前计算它对模型贡献大小的F统计量，并与SLENTRY的值进行比较。若大于SLENTRY则加入到模型中，否则不加入。在向前选择法中，自变量一旦被加入到模型中就不再被踢出。模型的典型SLENTRY值为0.05.4.1.1.2向后消去法在向后消去法中，所有变量都被包含在模型中。对于每一个模型中的变量，计算它的F统计量，并与SLENTRY值进行比较。若比SLENTRY小则被踢出。典型SLENTRY的值为0.05.74.1.1.3逐步删选法逐步删选法是向前选择法的改进。区别在于，对于加入到模型中的变量还有可能被踢出。具体来说，是在每次加入变量后要对模型中的所有变量进行检验，删除那些在SLENTRY水平上不显著的变量。重复上述加入和踢出变量的过程，直到未加入模型中的所有自变量在SLENTRY水平上都不显著且模型中的所有自变量的SLENTRY水平都很显著时，逐步删选法才结束。4.1.2多元线性回归填补模型4.1.2.1建模模型中的自变量有学科分类、岗位级别、经费、英文论文数、中文论文数、专利数、优硕数等七个，因变量为招生数。模型的具体数学描述如下：77344234421344103442722222110217112211101),(),(),(),(),(zzzyzzzyzzzyppp利用完整数据可得到模型的参数：)ˆ,ˆ,ˆ,ˆ,ˆ,ˆ,ˆ,ˆ(ˆ76543210由于缺损数据缺失的数据项都只有“岗位级别”，因此将除“岗位级别”外的其他数据代入模型中，即可求得岗位级别的理论值。然后用最短距离法来估计它的实际值。表4.1为各岗位级别归一化后对应的统计值。表4.1岗位级别1234567归一化值721,,,,izi00.16670.33330.50.66670.8331分别求七个级别统计值与理论值的距离：iizzd式中Z为岗位级别的理论值。则距离最短的那个级别极为它的真实级别。4.1.2.2求解A.向前选择法向前选择法的运行结果如图4.1所示。图4.18利用向前选择法得到的线性回归模型为：765321089440046000083550070710531000047290568820xxxxxxy.......4x没有通过检测。将缺损数据代入模型中，计算“岗位级别”理论值，并用最短距离法估计出它的真实值。结果如表4.2所示。表4.2教师编号51114115131157178280329353354岗位级别理论值0.21240.41310.47420.50010.24830.26840.22110.21970.44900.4500岗位级别估计值2444232244B.向后消去法向后消去法运行得到的结果如图4.2所示。图4.2利用向后消去法得到的线性回归模型为：7521091960097010534140039560580670xxxxy.....643xxx,，没有通过检测。将缺损数据代入模型中，计算“岗位级别”理论值，并用最短距离法估计出它的真实值。结果如表4.3所示。表4.3教师编号51114115131157178280329353354岗位级别理论值0.22480.42260.48320.50160.25290.27960.21400.22100.45250.4525岗位级别估计值24442222449C.逐步删选法逐步删选法的运行结果如图4.3所示。图4.3利用向后消去法得到的线性回归模型为：7521091960097010534140039560580670xxxxy.....643xxx,，没有通过检测。将缺损数据代入模型中，计算“岗位级别”理论值，并用最短距离法估计出它的真实值。结果如表4.4所示。表4.4教师编号51114115131157178280329353354岗位级别理论值0.22480.42260.48320.50160.25290.27960.21400.22100.45250.4525岗位级别估计值24442222444.2判别分析填补模型4.2.1判别分析模型简介4.2.1.1概论判别分析是在已知总体确切分类的情况下，判别某个样本归属哪一类的统计方法。判别分析的前提是要知道大量的分类明确的训练数据，根据训练数据建立判别函数，然后根据判别函数来判别某一个样本的归属。其基本流程如图4.4所示。图4.4104.2.1.2分类根据判别中的组数，可以分为两组判别分析和多组判别分析；根据判别函数的形式，可以分为线性判别和非线性判别；根据判别式处理变量的方法不同，可以分为逐步判别、序贯判别等；根据判别标准不同，可以分为距离判别、Fisher判别、Bayes判别法等4.2.1.3常用方法A.距离判别设有k个组，k,...,,21，他们的均值分别为k,...,,21，协防差矩阵分别为k,...,,21。x到总体i的马氏距离为：)()'(),(iiiixxxd12判别