第讲 SPSS探索和交叉表分析

sxdtwhd
1 ℃
2020-01-25

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

描述和频率分析回顾集中趋势的描述统计量：均值、中位数、众数，代表了数据的集中位置均值(Mean)：代表中心值或平均值的描述统计量，只适用于间隔尺度变量计算中位数(Median)是将数据排序后，排在第n/2位置上的案例所对应的数值，由于中位数只是进行排序，因此间隔尺度和顺序尺度变量都可以计算中位数，而名义尺度变量不能计算中位数。在实际应用中，应该根据数据的特点决定使用哪种集中趋势描述统计量，均值的特点是易受极端值影响，因此如果数据中有特别大或特别小的值时，不推荐使用均值，应该使用中位数作为集中趋势统计量。离散趋势的描述统计量：全距、样本方差、样本标准差全距(Range)也称极差，定义是：，是一个比较粗糙的描述离散趋势的描述统计量，通过排序就可以获得，它只能说明数据的分布范围，而不能准确刻画数据离中心的程度，因此实际中不常用。由于全距涉及距离，因此，只适合间隔尺度变量计算。离散趋势的描述统计量刻画了数据离中心的分散程度，也把此类统计量成为分布尺度(Scale)统计量，尺度越大，就越分散，从另一个角度讲，数据越分散，离中心远的数据越多，中心的代表性就越差，因此，也可以认为离散趋势的描述统计量是刻画集中趋势的代表性的统计量。分布形态的描述统计量：偏度和峰偏度是描述数据分布对称性的统计量，如果数据关于中心（均值）的分布是对称的，此时称为分布对称或偏度为0，如果数据大部分分布在中心左边，小部分分布在中心右边，说明此时中心右边有偏大的值，即右边的值距离中心远，左边值距离中心近，这样右边的少数距离能够“抵消”左边的多数距离。此时，偏度为正，称为正偏或右偏分布，反之称为负偏或左偏分布峰度大于0，说明数据分布比标准正态分布更陡峭；峰度小于0，说明数据分布不如标准正态分布陡峭；等于0，说明数据分布陡峭程度和标准正态分布相当。值得指出的是，在经济学和金融学中得到的数据，很多都具有“尖峰后尾”的特点，即峰度大于0，偏度也大于0，在处理这类数据时，要特别小心5.1探索分析1定义和计算公式定义：调用此过程可对变量进行更为深入详尽的描述性统计分析，故称之为探索分析。它在一般描述性统计指标的基础上，增加有关数据其他特征的文字与图形描述，显得更加细致与全面，有助于用户思考对数据进行进一步分析的方案。2.探索分析的内容包括下面几个方面检查数据是否有错误：过大或过小的数据均有可能是奇异值、影响点或错误数据。要找出这样的数据，并分析原因，然后决定是否从分析中删除这些数据。因为奇异值和影响点往往对分析的影响较大，不能真实反映数据的总体特征。对数据规律的初步观察：通过初步观察获得数据的一些内部规律，例如，两个变量间是否线性相关。3．探索分析的考察方法探索分析一般通过数据文件在分组与不分组的情况下，获得常用统计量和图形。一般以图形方式输出，直观帮助用户确定奇异值、影响点、进行假设检验，以及确定用户要使用的某种统计方式是否合适。4．正态分布检验常用的正态分布检验是Q-Q图。5．方差齐次性检验对数据分析不仅需要进行正态分布检验，有时候还需要比较各个分组的方差是否相同，这就要进行方差齐次性检验。例如，在进行独立右边的T检验之前，就需要事先确定两个数据的方差是否相同。如果通过分析发现各个方差不同，还需要对数据进行方差分析，那么就需要对数据进行转换使得方差尽可能相同。在探索分析中可以使用Levene检验。Levene检验对数据进行方差齐次性检验时，不强求数据必须服从正态分布，它先计算出各个观测值减去组内均值的差，然后再通过这些差值的绝对值进行单因素方差分析。如果得到显著性水平小于0.05，那么就可以拒绝方差相同的假设。6.SPSS中实现过程研究问题表5.1给出两个天津、济南两个城市某年个月份的平均气温，根据对天津平均气温和济南平均气温进行探索性统计分析，研究天津平均气温和济南平均气温的基本特征。用于从左侧的变量列表中选入因子变量，一般为分类变量用于从左侧的变量列表中选入标签变量，用以在结果里标识观测个案。用于从左侧的变量列表中选入因变量，一般为连续变量选中此项会输出含有：均值，中位数、5%修整均数、标准误、方差、最小值、最大值、全距、峰度系数、峰度系数标准误、偏度系数及偏度系数标准误计算并输出比均值和中位数更为定的数据中心估计值，包括4个：Hubers、Andrews、Hampels和Tukeys主要用来判别数据中有无明显异常值输出5个最大值与最小值，包括观测量的标签箱式图，图由箱体部分和线组成，箱体上沿为数据75%分位数，下沿为数据25%分位数，箱体中间的横线表示50%分位数，即中位数，箱体上方和下方横线之间的细线长度为1.5倍箱体长度，超出横线范围用“●”表示的称为离群点(Outlier)，其值在1.5倍箱体长度到3倍箱体长度之间，而超出横线用“＊”表示的成为极端值(ExtremeValue)，其值在3倍箱体长度以上，记号上的数值表示其案例编号。从箱式图可以看出，数据有一些离群点和极端值，呈现右偏分布。Q-Q图，图中斜线表示正态分布的理论值，而“○”表示数据实际值，当数据确实是正态分布时，数据实际值应该在理论线上或者附近，没有明显的偏离，如果出现明显偏离，就好像图中情况，说明数据不是正态分布。箱式图(Boxplots)，是利用最小值、25%分位数、中位数、75%分位数和最大值五个数绘制而成，可以描述数据分布的特征。茎叶图(Stem-and-leaf)，是根据数据数值绘制的图形，类似直方图，但更精细。Q-Q图(Q-Qplots)，检验数据是否服从正态分布。【上机练习】研究问题20名10岁少儿的身高（cm）资料，数据如表3-9所示，试作探索性分析。Id男孩身高（cm）女孩身高（cm）1123.00126.002125.00121.003127.00120.004130.00125.005134.10139.706135.80133.007140.40140.308136.00124.009128.20125.4010137.40137.5011135.50120.9012129.00138.8013132.20138.6014140.90141.4015129.30137.5016130.00137.0017121.40133.4018131.50132.7019132.60130.1020129.20136.70第六讲交叉列联表分析1定义和计算公式定义：前面的分析都是对单个变量的数据分布情况进行分析。但在实际分析中，还需要掌握多个变量在不同取值情况下的数据分布情况，从而进一步深入分析变量之间的相互影响和关系，这种分析就称为交叉列联表分析。交叉列联表分析除了列出交叉分组下的频数分布外，还需要分析两个变量之间是否具有独立性或一定的相关性。要获得变量之间的相关性，仅仅靠频数分布的数据是不够的，还需要借助一些变量间相关程度的统计量和一些非参数检验的方法。常用的衡量变量间相关程度的统计量是简单相关系数，但在交叉列联表分析中，由于行列变量往往不是连续变量，不符合计算简单相关系数的前提条件。因此需要根据变量的性质，选择其他的相关系数，如Kendall等级相关系数、Eta值等。SPSS提供了多种适用于不同相关系数的相关关系，这些检验的零假设是：行和列变量之间彼此独立，不存在显著的相关关系。SPSS将自动给出检验的相伴概率，如果相伴概率小于显著性水平0.05，那么应拒绝零假设，认为行列变量之间彼此相关。计算公式如下。（1）卡方统计量检验是常用的检验行列变量之间是否相关的方法。交叉列联表的卡方检验零假设是：行列变量之间独立，计算公式为卡方统计量服从（行数−1）×（列数−1）个自由度的卡方统计，SPSS在自动计算卡方统计量后，还会给出相应的相关概率。（2）Contingencycoefficient：列联系数。用于名义变量之间的相关系数计算。计算公式由卡方统计量修改而得，公式为其中，N为样本系数（3）PhiandCramer‘sV：ψ系数。用于名义变量之间的相关系数计算。计算公式由卡方统计量修改而得，公式为数值界于0～1之间，其中K为行数和列数较小的实际数。交叉表操作过程1、【分析】|【描述统计】|【交叉表】2、变量设置3、精确检验设置4、统计量设置5、单元格显示设置6、格式设置参数说明应用于联列表的行应用于联列表的列用于选入封层变量，单击上一张、下一张可以指定多组分层变量。输出关于各类别频数统计的复式条形图选中表示不输出频数统计表格基于检验统计量的渐进分布计算显著性水平，次方法适用于较大的数据集，当数据较少或者没有明显的分布特征时，可能会不稳定。对精确性显著性水平的无偏估计，此种方法适用于数据量太大，无法使用其他方法进行计算的情况由此计算出的显著性水平低于0.5时被认为是显著的，即认为行列变量之间存在一定的相关性包括Pearson卡方检验、似然比卡方检验等进行相关性检验，包括行、列变量的Pearson相关系数基于卡方的相关统计量，其值介于0-1,0表示行列变量之间没有关系，越接近1表示相关性越强Phi是基于卡方统计量的关联性测量，它是将卡方检验统计量除以样本大小，并取结果的平方根，Cramer是基于卡方统计量的关联性测量用于反映自由变量预测因变量时的误差缩减比例，取值为1表示用自变量能完全预测因变量，越接近0表示自变量对因变量的预测作用越小相关性测量，表示当一个变量的值用来预测其它变量的值时，误差比例下降的程度关于两个有序变量相关性的对称性度量，取值在-1~1之间关于两个有序变量相关性的非对称性度量，取值在-1~1关于有序变量相关性的非参数统计量关于有序变量相关性的非参数统计量，计算时不考虑结的问题，取值在-1~1，符号表示相关性的方向当一个变量为分类变量，一个变量为连续变量时，选择此栏。Eta的取值范围：0~1输出CohensKappa统计量，用于衡量两种方法评价同一对象时的一致性，取值在0~1，越接近1表示两种方法的评价越一致，只有当表格的行列变量有相同的取值个数以及相同的取值范围时才会输出用来衡量某个因素与某件事发生与否的相关性大小，也就是行列变量的相关性。如果计算所得的置信区间包含1，则认为此因素与事件发生与否没有显著的相关性关于两个二分量的非参数检验，用卡方分布检验相应的改变检验两个二分变量独立性的统计量实际频数与期望频数的差2SPSS中实现过程研究问题用两个班级学生进行两个感冒疫苗的试验，两个班级学生患感冒结果如表所示，问两个班级学生的患病比例有无差别。两班级学生的患病情况班级患病不患病153202404【练习】表6.1中给出了两所学校的高三毕业生的升学情况，根据此对两所学校学生的升学情况进行交叉表分析，研究两所学校的学生升学率之间有无明显的差异。表6.2请基于此数据分析客户在年龄和收入上的、在教育和工作年限上的以及在工作年限和居住年限上的联合频数情况，并完成三组变量的独立性检验。表6.3给出了某地两所中学的毕业生升学情况。根据此对该地两所学校学生的升学情况进行联列表分析，研究两所学校学生的升学率之间有无明显的差别。