SPSS数据统计分析(复习)

天堂不收地狱不留
2 ℃
2020-06-15

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

均值：方差检验（【单样本T检验】1.从某厂第一季度生产的电子元件中抽取了部分样品测量他们的电阻（单位：欧姆），数据资料在“小测1.sav”中。按质量规定，元件的额定电阻为0.140欧姆，假定元件的电阻服从正态分布。判断这批产品的质量是否合格。从上表单样本数据统计量表中可以得测试电阻值的样品有35个，均值为0.1423，标准差为0.00426，均值标准误为0.00072从单样本检验表中可以看出：t统计量的值为3.174，自由度为34,均值差值为0.00229,95%的置信区间（0.0008,0.0037），相伴概率为0.003，远小于显著性水平0.05，说明假设成立，也就是说这批产品的质量与0.140欧姆有显著性差异，说明这批产品的质量是不合格的。假设方差相等所对应的一行数据是在方差无显著性差异条件下的各统计量的值，假设方差不相等所对应的下面一行数据是在方差有显著性差异条件下的各统计量的值【独立样本T检验】2、甲乙两台测时仪同时测量两靶间子弹飞行的时间，测量结果在“小测2.sav”中，假定两台仪器测量的结果服从正态分布，设显著性水平为0.05，问两台仪器的测量结果有无显著差异Levene检验主要用来检验原假设条件是否成立，（即：假设方差相等和方差不相等两种情况）如果SIG0.05，证明假设成立，不能够拒绝原假设，如果SIG0.05，证明假设不成立，拒绝原假设。在组数据统计表中可以得到第1组有6个样本，均值为12.8883，标准差是0.72256，均值标准误为0.29498；第二组有7个样本，均值是13,标准差是0.5870均值标准误是0.22189；在独立样本检验表中可以得出F的统计量的值为1.028，相伴概况为0,332，远大于显著性水平0.05，说明这两组数据的方差之间不存在显著差别，所以适合采用独立样本T检验。t的统计量为-0.772，自由度为11，95%的置信区间，（01.07881,0.51834），相伴概率为0.456，远大于显著性水平0.05，假设成立，不能拒绝原假设，说明这2台仪器的测试结果没有显著性差异。【配对样本T检验】3、分别从甲乙两厂生产的同规格的前轮轮胎中随机抽取10只，将它们配对安装在10辆汽车的左右轮上，行驶相同的里程之后，测得各只轮胎磨损的数据在“小测3.sav”中，试用配对样本T检验过程检验两种轮胎的耐磨性之间的差异。从上表的成对样本数据统计表中可以看出：左轮胎磨损量的举止为614.2，有10个样本，标准差是119。644，均值的标准误为37.834；右轮胎磨损量均值为568.9，有10个样本，标准差为99.31，均值的标准误为31.405；成对样本相关系数表看出：x1和x2的相关系数为08.9%，相关性很高在成对样本检验表中可以发现：t的统计量为3.343，自由度为9，95%的置信区间（8.82633,45.77367），相伴概率为0.009，远小于显著性水平0.05，说明左右轮胎的耐磨性有显著性差异。【单因素】对4个服务行业（航空公司-1、零售业-2、酒店业-3和汽车制造业-4）的服务质量进行评估。评价数据见“小测1.sav”。从上表可以看出4个服务行业的服务质量的相伴概率大于显著性水平0.05.说明这组数据适合进行单因素方差分析。方差检验的F值为11.644，相伴概率为0.00，小于显著性水平，表示拒绝零假设，也就是说明4个服务行业中至少有一行业和其他行业有明显的区别，也就是会所四个服务行业的服务质量存在明显的差异、。航空公司-1、零售业-2、酒店业-3和汽车制造业-4这是LSD法多重比较的结果。可以看出hotel和areways、hotel和retailing、hotel和auto、retailing和auto之间的相伴概率小于显著性水平，说明他们之间都存在显著差别。Retailing和areway、auto和areways之间的相伴概率大于0.05，他们之间没有显著性差异【单因素】评估某种型号的电池质量。分别从A、B、C三个工厂生产的同种型号电池中各随机抽取5只电池为样本，经试验得到其寿命（小时）如下表所示。显著性为0.218，大于显著性水平0.05，可以认为各个组总体方差是相等的，因此这组数据适合进行单因素方差分析。方差检验的F值为12.447，相伴概率为0.001，小于显著性水平0.05.表示拒绝零假设，也就是说这三组数据中至少有一组和其他两组有明显的区别LSD法多重比较结果可以的看出：工厂A和工厂B的相伴概率为0.002，工厂B和工厂C的相伴概率为0.001，都低于显著性水平0.05，说明工厂A与工厂B的电池寿命存在显著性差异。工厂A和工厂C的相伴概率为0.515，大于显著性水平0.05，说明A和B厂的电池寿命不存在显著性差异、【多因素】试分析不同包装及口味对某饮料销售水平的影响。在20家超市一天的销售数据见“小测3.sav”。第一个表是【主体间因子】表，可以看出各个控制变量水平下观察到的个案的个数。第二个表是【误差方案等同性的Levene检验】表中i看出相伴概率为0.335，大于显著性水平0.05，因此认为各个组总体方差相等的，满足方差齐次性检验的前提条件。【主体间效应的检验】表看出不同口味的离差平方和为2420，均分为2420，自由度为1，F的统计量为8.067，相伴概0.012小于显著性水水平0.05，而包装类贡献的离差平方和为180，均方为280，自由度1，F的统计量为0.600，相伴概率为0.45大于显著性水平0.05.因此说明不同口味对超市的销售量有显著性的影响，而不同包装对销售量却没有显著性影响。口味类别和包装类别的交互作用的相伴概率为0.067，大于显著性水平0.05，说明它们之间的交互作用对销售量造成的影响不显著。相关性【二元定距相关性分析】分析→相关→双变量【二元定序相关系分析】某农场通过试验取得某农作物产量与春季降雨量和平均温度的数据，如下表所示。现求降雨量对产量的偏相关。表中上半部分输出的是变量两两之间的Pearson简单相关系数，“产量”和“降雨量”的相关性系数为0.981，双侧检验的相伴概率为0.000。表中下半部分偏相关分析的输出结果，在剔除“温度”变量的影响条件下，“产量”和“降雨量”的相关性系数为0.780，双侧检验的相伴概率为0.013。可见，简单相关系数和偏相关系数相比，前者有夸大的成分，后者更符合实际。【偏相关分析】【距离分析】【回归】【一般线性回归】练习1：为了检验美国电力行业是否存在规模经济，特收集了1955年145家美国电力企业的总成本（TC）、产量（Q）、工资率（PL）及资本租赁价格（PK）的数据，见“练习1.sav”。试以工资率为y因变量，以产量为x自变量，对工资率和产量做简单线性回归分析。第一个是输入/移去的变量表：模型汇总表中看出：R值为0.171，R方为0.029，调整后的R方为0.023，反应了因变量工资率和自变量产量之间没有线性回归关系。从ANOVA表方差分析表中可以看出：相伴概率为0.039，说明因变量和自变量之间有显著性系数表中可以看出：常量为1.943，回归系数为1.385*10（-5次方）。回归系数的相伴概率为0.39小于0.05该回归方差有意义：练习2：现有1992年~2006年国家财政收入和国民生产总值的数据如下表所示，请研究国家财政收入x和国民生产总值y之间的线性关系。模型汇总表中可以看出：R值为0.989，R方为0.979，调整后的R方为0.977，表明了因变量国家财政收入和自变量国民生产总值之间的具有高度线性关系从ANOVA表中看出回归的相伴概率为0，小于显著性水平0.05，反应了因变量和自变量之间具有显著性的线性回归关系从系数表中可以看出：该回归模型的常量是24949，回归系数是4.962，回归系数的相伴概率为0，说明回归于0有显著差别改回归方程有意义最终的回归方程是：y=26949.902+4.962x【多元回归】练习1现有某地区1973~1990年水稻总产量y和水稻播种面积x1、化肥使用量x2、生猪存栏数x3以及水稻扬花期降雨量x4的数据资料“练习1.sav”，试分析水稻总产量与对它具有显著影响的因素之间的关系。在进行二元线性分析前先使用偏相关分析相关性，然后在进行二元线性对水稻总产量y与对它影响的因素x1-x4之间进行偏相关分析，可以发现，在4个影响因素里除了x4与Y之间的相关系数为0.298，有低度相关性，但是相伴概率为0.238，表明他们之间没有显著的线性关系。而其他因素x1-x3与y的相关系数都是高度相关，并且相伴概率都小于0.05，表明其余三个因素与水稻总产量y有显著的相关性。回归分析描述统计表显示了经过偏相关分析之后y、x1x2x3描述统计，显示了自变量和因变量的均值、标准偏差。在性关系表中可以发现，x1-x3与Y之间的相关系数分别为0/798,0/913/0.887都达到了高度相关，并且相伴概率都为0，远小于显著性水平，说明x1-x3与Y之间都具有显著的相关性从汇总模型中可以看出R值为0.944，R方值为0.892，调整后的R方为0.869，表明了回归线性的模型拟合度很高。从ANOVA显示了相伴概率为0.远小于0.05说明因变量和自变量之间具有显著的线性回归关系。从Coefficients系数表中显示了常量为-119.583，变量值分别为1.701,1.326,2.180.相对应的相伴概率为0.55,0.007,0.044，其中回归系数相伴概率小于0.05的只有x2和x3的系数，因此改回归线性模型欠佳。回归方程：y=-119.583+1.701x1+1.326x2+2.18x3大部分自变量的残差都符合正太分布练习2现为了检验美国电力行业是否存在规模经济，特收集了1955年145家美国电力企业的总成本（TC）、产量（Q）、工资率（PL）、燃料价格（PF）及资本租赁价格（PK）的数据资料“练习2.sav”，试以总成本为因变量，以产量、工资率、燃料价格和资本租赁价格为自变量，分析它们之间的关系。模型汇总表可以看出：R值为0.961，R方为0.923，调整后的R方为0.921.说明给回归模型拟合度很高。ANOVA表显示。相伴概率为0，小于显著性水平0.05，表明因变量和自变量之间具有具有显著线性回归。从系数表中可看出常量为-22.221，产量的系数为0.006，工资率为5.655，燃料价格为0.208，租赁价格系数为0.028，所对应的相伴概率中只有租赁价格的相伴概率大于0.05其余的相伴概率都小于0.05，这表明该线性模型欠佳。线性方程为y=-22.221+5.655*工资率+0.208*燃料价格+0.028*租赁价格一次：Linear对数：Logarithmic二次：Quardratic三次：Cubic幂：power指数：Exponential曲线估计（练习）1980年~2001年国家保费收入与国民生产总值的数据，请研究保费收入与国民生产总值的关系。第一个表显示了模型描述信息，第二个表是个案处理信息统计表第一个表是变量处理摘要，显示了该组数据的样本数22，自变量和因变量都无缺失值第二个表是模型汇总和第三个表参数估计值以及下表多种曲线预测值的表，立方模型是拟合程度最高的；立方模型的表达式为：y=5074.788+78.164*x^1+-0.013*x^2+-2.061*10^(-6)*x^3【非线性】【聚类】Q型个案练习1：下表列出了20种塑料样品的有关特性，其中tear_res、gloss、opacity分别代表3种不同的特性，试将样本分为3类。上表是案例处理汇总表：显示了该组数据有20个样本，有效百分比为100%，无缺失值。上表是个样本的近似矩阵图上表是层次聚类分析得出的聚类表：表中体现了聚类的具体过程。例：第1阶，群集组合的群集1的样本4和群集2的样本12练习2：系统聚类：层次聚类分析中Q型聚类列出了我国2005年各地城镇居民平均每人全年家庭收入统计表，试对全国各地区的收入来源结构进行分类。R型，变量在某大型化工厂的厂区及邻近地区挑选10个有代表性的大气抽样点，