回归、判别分析

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

第1页共11页天津理工大学实验报告学院(系)名称:计算机与通信工程学院姓名学号专业班级实验项目回归分析与判别分析课程名称数据分析及其应用软件课程代码0665106实验时间2016年4月6号3、4节,中午实验地点7号楼216批改意见成绩教师签字:实验内容:回归分析:1.研究货运总量Y(万吨)与工业总值1X(亿元)、农业总产值2X(亿元)、居民非商品支出3X(亿元)的关系。数据见下表编号货运总量Y工业总产值x1农业总产值x2居民非商品支出x3116070351.0226075402.4321065402.0426574423.0524072381.2622068451.5727578424.0816066362.0927570443.21025065423.0设变量x1表示工业总产值,变量x2表示农业总产值,变量x3表示居民非商品支出,y表示货运总量。假设因变量y和自变量x1,x2,x3的线性回归模型为1122330yxxx判别分析:2.为研究某地区人口死亡状况,已按某种方法将15个已知样品分为3类,指标及原始数据如下表。利用费歇线性判别函数,判定另外4个待判样品属于哪一类?某地区人口死亡状况指标及原始数据表组别序号X1=0岁组死亡概率X2=1岁组死亡概率X3=10岁组死亡概率X4=55岁组死亡概率X5=80岁组死亡概率X6=平均预期寿命第2页共11页第一组134.167.441.127.8795.1969.3233.066.341.086.7794.0869.7336.269.241.048.9797.368.8440.1713.451.4313.88101.266.2550.0623.032.8323.74112.5263.3第二组133.246.241.1822.9160.0165.4232.224.221.0620.7124.768.7341.1510.082.3232.84172.0665.85453.0425.744.0634.87152.0363.5538.0311.26.0727.84146.3266.8第三组134.035.410.075.290.169.5232.113.020.093.1485.1570.8344.1215.121.0815.15103.1264.8454.1725.032.1125.15110.1463.7528.072.010.073.0281.2268.3待判样品150.226.661.0822.54170.665.2234.647.331.117.7895.1669.3333.426.221.1222.95160.3168.3444.0215.361.0716.45105.364.2实验结果分析:回归分析:(1)描述统计量的结果,显示变量y和x1,x2,x3的均数、标准差和例数(N)。(2)相关分析的结果,货运总量和农业总产值,货运总量和居民非商品住处的相关系数分别为0.731,0.724,单尾单侧检验分别为P=0.008,P=0.009,相关程度高。第3页共11页(3)模型摘要,相关系数为R=0.898,判定系数为RSquare=0.806,调整判定系数AdjustedRSquare=0.708,估计值的标准误差Std.ErroroftheEstimate=1.391(4)方差分析结果,回归的均方RegressionMeanSquare=4551.790,残差的均方ResidualMeanSquare=549.522,F=8.283,P=0.0150.05,所以线性回归方程显著。(5)偏回归系数结果,常数项(Constant)=-348.280,工业总产值回归系数=3.754,回归系数的标准误差=1.933,回归系数的t检验值=0.385,P=0.100,农业总产值回归系数=7.101,回归系数的标准误差=2.880,回归系数的t检验值为2.465,P=0.049,居民非商品支出回归系数=12.477,回归系数的标准误差=10.569,回归系数的t检验值为1.178,P=0.284。故求的回归方程为y=-348.280+3.7541x+7.1012x+12.4473x第4页共11页(6)残差直方图,正态曲线被加载到直方图上,判断标准化残差呈正态分布。(7)save结果,增加新变量到正在使用的数据文件。第5页共11页判别分析:(1)将数据导入SPSS,根据要求,采用系统聚类方法,在SPSS中选择分析-分类-判别分析:(2)进行判别分析,将X1到X6全部选入自变量中,分组变量为组别,如图:(3)在统计量选项中选择均值,单变量,Box’sM等,如图,分类选项中勾选个案、第6页共11页摘要:(4)检验各组的描述统计量和对各组均值是否相等:第7页共11页表1反映的是有效样本量为15,变量的缺失值为4。表2是对各组均值是否相等的检验,根据P值,我们可以在0.01的显著性水平上拒绝X4与X5在三组的均值相等的假设,即认为变量X4、X5在三组的均值是有显著差异的。(5)典型判别函数:第8页共11页由表3可以得出:第一判别函数解释了98.8%的方差,第二判别函数解释了1.2%的方差,两个判别函数解释了全部的方差。表4是对两个判别函数的显著性检验,由Wilkins’Lambd检验,在0.05的显著性水平上,根据P值可以得到,第一个判别函数是显著的,第二个判别函数是不显著的。(6)判别函数、判别载荷和各组的重心:第9页共11页表5是标准化的判别函数,表示为:Y1=-17.046X1+14.757X2-1.306X3+6.381X4+1.332X5+4.315X6Y2=-7.677X1+9.870X2-0.531X3-0.666X4+0.710X5+1.833X6表6位结构矩阵,即判别载荷,表四是反映判别函数在各组的重心表7是非标准化的判别函数,表示为:Y1=-78.896-1.950X1+1.748X2-0.930X3+0.825X4+0.102X5+1.662X6Y2=-30.330-0.878X1+1.169X2-0.365X3-0.086X4+0.054X5+0.706X6(7)分类的统计结果:表8是每组的分类函数,也称费歇线性判别函数,三组的分类函数表示为:Y1=-5628.382-159.015X1+168.068X2-98.413X3+58.217X4+11.702X5+202.770X6Y2=-6584.377-181.479X1+187.715X2-109.195X3-68.296X4+12.862X5+221.972X6Y3=-5266.780-149.370X1+158.749X2-93.908X3+54.948X4+11.185X5+194.625X6可以根据计算每个观测在各组的分类函数值,将观测分类到较大的分类函数值中。第10页共11页表9位分类矩阵表,通过判别函数的预测,根据原数据的所属组关系,3组观测全被判对,未分组的变量中有一个待判样品判给第一组,有一个待判样品判给第二组,有两个待判样品判给第三组。在交叉验证中,第一组5个样品全部被判为对,第二组5个样品观测有4个被判对,第三组5个样品观测中有3个被判对。根据图6的分类结果可以看出:第二组样品与第一组样品和第三组样品可以很清晰地区分第11页共11页开,而第一组与第三组样品存在重合区域,即存在误判。根据上表CasewiseStatistic结果可以得出:将待判样品1判给第三组,经待判样品2判给第一组,将待判样品3判给第二组,将待判样品4判给第三组。

1 / 11
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功