SPSS数据分析的主要步骤

xiaoyaocan
4 ℃
2020-04-18

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

SPSS数据分析的主要步骤利用SPSS进行数据分析的关键在于遵循数据分析的一般步骤，但涉及的方面会相对较少。主要集中在以下几个阶段。1．SPSS数据的准备阶段在该阶段应按照SPSS的要求，利用SPSS提供的功能准备SPSS数据文件。其中包括在数据编辑窗口中定义SPSS数据的结构、录入和修改SPSS数据等。2．SPSS数据的加工整理阶段该阶段主要对数据编辑窗口中的数据进行必要的预处理。3．SPSS数据的分析阶段选择正确的统计分析方法对数据编辑窗口中的数据进行分析建模是该阶段的核心任务。由于SPSS能够自动完成建模过程中的数学计算并能自动给出计算结果，因而有效屏蔽了许多对一般应用者来说非常晦涩的数学公式，分析人员无需记忆数学公式，这无疑给统计分析方法和SPSS的广泛应用铺平了道路。4．SPSS分析结果的阅读和解释该阶段的主要任务是读懂SPSS输出编辑窗口中的分析结果，明确其统计含义，并结合应用背景知识做出切合实际的合理解释。数据分析必须掌握的分析术语1、增长：增长就是指连续发生的经济事实的变动，其意义就是考查对象数量的增多或减少。2、百分点：百分点是指不同时期以百分数的形式表示的相对指标的变动幅度。3、倍数与番数：倍数：两个数字做商，得到两个数间的倍数。番数：翻几番，就是变成2的几次方倍。4、指数：指数是指将被比较数视为100，比较数相当于被比较数的多少得到的数。5、比重：比重是指总体中某部分占总体的百分比6、拉动。。。增长。。。：即总体中某部分的增加值造成的总体增长的百分比。例子：某业务增量除以上年度的整体基数=某业务增量贡献度乘以整体业务的增长率。例如：去年收入为23（其中增值业务3），今年收入为34（其中增值业务5），则增值业务拉动收入增长计算公式就为：（5-2）/23=（5-2）/（34-23）×（34-23）/23，解释3/（34-23）为数据业务增量的贡献，后面的（34-23）/23为增长率。7、年均增长率：即某变量平均每年的增长幅度。8、平均数：平均数是指在一组数据中所有数据之和再除以数据的个数。它是反映数据集中趋势的一项指标。公式为：总数量和÷总份数=平均数。9、同比与环比同比：同比发展速度主要是为了消除季节变动的影响，用以说明本期发展水平与去年同期发展水平对比而达到的相对发展速度。如，本期2月比去年2月，本期6月比去年6月等。环比：环比发展速度是报告期水平与前一时期水平之比，表明现象逐期的发展速度。如计算一年内各月与前一个月对比，即2月比1月，3月比2月，4月比3月……12月比11月，说明逐月的发展程度。10、复合增长率复合增长率是指一项投资在特定时期内的年度增长率，计算方法为总增长率百分比的n方根，n相等于有关时期内的年数。公式为：(现有价值/基础价值)^(1/年数)-1如何用EXCEL进行数据分组什么是交叉表“交叉表”对象是一个网格，用来根据指定的条件返回值。数据显示在压缩行和列中。这种格式易于比较数据并辨别其趋势。它由三个元素组成：行列摘要字段“交叉表”中的行沿水平方向延伸（从一侧到另一侧）。在上面的示例中，“手套”(Gloves)是一行。“交叉表”中的列沿垂直方向延伸（上下）。在上面的示例中，“美国”(USA)是一列。汇总字段位于行和列的交叉处。每个交叉处的值代表对既满足行条件又满足列条件的记录的汇总（求和、计数等）。在上面的示例中，“手套”和“美国”交叉处的值是四，这是在美国销售的手套的数量。“交叉表”还可以包括若干总计：每行的结尾是该行的总计。在上面的例子中，该总计代表一个产品在所有国家/地区的销售量。“手套”行结尾处的值是8，这就是手套在所有国家/地区销售的总数。注意：总计列可以出现在每一行的开头。每列的底部是该列的总计。在上面的例子中，该总计代表所有产品在一个国家/地区的销售量。“美国”一列底部的值是四，这是所有产品（手套、腰带和鞋子）在美国销售的总数。注意：总计列可以出现在每一行的顶部。“总计”(Total)列（产品总计）和“总计”(Total)行（国家/地区总计）的交叉处是总计。在上面的例子中，“总计”列和“总计”行交叉处的值是12，这是所有产品在所有国家/地区销售的总数。EXCEL培训－－数据透视表用Excel做数据分析——描述统计某班级期中考试进行后，需要统计成绩的平均值、区间，以及给出班级内部学生成绩差异的量化标准，借此来作为解决班与班之间学生成绩的参差不齐的依据。要求得到标准差等统计数值。样本数据分布区间、标准差等都是描述样本数据范围及波动大小的统计量，统计标准差需要得到样本均值，计算较为繁琐。这些都是描述样本数据的常用变量，使用Excel数据分析中的“描述统计”即可一次完成。注：本功能需要使用Excel扩展功能，如果您的Excel尚未安装数据分析，请依次选择“工具”-“加载宏”，在安装光盘中加载“分析数据库”。加载成功后，可以在“工具”下拉菜单中看到“数据分析”选项。操作步骤1.打开原始数据表格，制作本实例的原始数据无特殊要求，只要满足行或列中为同一属性数值即可。2.选择“工具”-“数据分析”-“描述统计”后，出现属性设置框，依次选择：输入区域：原始数据区域，可以选中多个行或列，注意选择相应的分组方式；如果数据有标志，注意勾选“标志位于第一行”；如果输入区域没有标志项，该复选框将被清除，Excel将在输出表中生成适宜的数据标志；输出区域可以选择本表、新工作表或是新工作簿；汇总统计：包括有平均值、标准误差(相对于平均值)、中值、众数、标准偏差、方差、峰值、偏斜度、极差、最小值、最大值、总和、总个数、最大值、最小值和置信度等相关项目。其中：中值：排序后位于中间的数据的值；众数：出现次数最多的值；峰值：衡量数据分布起伏变化的指标，以正态分布为基准，比其平缓时值为正，反之则为负；偏斜度：衡量数据峰值偏移的指数，根据峰值在均值左侧或者右侧分别为正值或负值；极差：最大值与最小值的差。第K大(小)值：输出表的某一行中包含每个数据区域中的第k个最大(小)值。平均数置信度：数值95%可用来计算在显著性水平为5%时的平均值置信度。结果示例如下(本实例演示了双列数据的描述统计结果)：成绩学习时间平均78.64285714平均62.91428571标准误差2.408241878标准误差1.926593502中位数85中位数68众数98众数78.4标准差18.02163202标准差14.41730562方差324.7792208方差207.8587013峰度1.464424408峰度1.464424408偏度-1.130551511偏度-1.13055151区域85区域68最小值15最小值12最大值100最大值80求和4404求和3523.2观测数56观测数56最大(1)100最大(1)80最小(1)15最小(1)12置信度(95.0%)4.826224539置信度(95.0%)3.860979631某班级期中考试进行后，需要统计成绩的平均值、区间，以及给出班级内部学生成绩差异的量化标准，借此来作为解决班与班之间学生成绩的参差不齐的依据。要求得到标准差等统计数值。样本数据分布区间、标准差等都是描述样本数据范围及波动大小的统计量，统计标准差需要得到样本均值，计算较为繁琐。这些都是描述样本数据的常用变量，使用Excel数据分析中的“描述统计”即可一次完成。注：本功能需要使用Excel扩展功能，如果您的Excel尚未安装数据分析，请依次选择“工具”-“加载宏”，在安装光盘中加载“分析数据库”。加载成功后，可以在“工具”下拉菜单中看到“数据分析”选项。操作步骤1.打开原始数据表格，制作本实例的原始数据无特殊要求，只要满足行或列中为同一属性数值即可。2.选择“工具”-“数据分析”-“描述统计”后，出现属性设置框，依次选择：输入区域：原始数据区域，可以选中多个行或列，注意选择相应的分组方式；如果数据有标志，注意勾选“标志位于第一行”；如果输入区域没有标志项，该复选框将被清除，Excel将在输出表中生成适宜的数据标志；输出区域可以选择本表、新工作表或是新工作簿；汇总统计：包括有平均值、标准误差(相对于平均值)、中值、众数、标准偏差、方差、峰值、偏斜度、极差、最小值、最大值、总和、总个数、最大值、最小值和置信度等相关项目。其中：中值：排序后位于中间的数据的值；众数：出现次数最多的值；峰值：衡量数据分布起伏变化的指标，以正态分布为基准，比其平缓时值为正，反之则为负；偏斜度：衡量数据峰值偏移的指数，根据峰值在均值左侧或者右侧分别为正值或负值；极差：最大值与最小值的差。第K大(小)值：输出表的某一行中包含每个数据区域中的第k个最大(小)值。平均数置信度：数值95%可用来计算在显著性水平为5%时的平均值置信度。结果示例如下(本实例演示了双列数据的描述统计结果)：成绩学习时间平均78.64285714平均62.91428571标准误差2.408241878标准误差1.926593502中位数85中位数68众数98众数78.4标准差18.02163202标准差14.41730562方差324.7792208方差207.8587013峰度1.464424408峰度1.464424408偏度-1.130551511偏度-1.13055151区域85区域68最小值15最小值12最大值100最大值80求和4404求和3523.2观测数56观测数56最大(1)100最大(1)80最小(1)15最小(1)12置信度(95.0%)4.826224539置信度(95.0%)3.860979631用Excel做数据分析——相关系数与协方差（Z）化学合成实验中经常需要考察压力随温度的变化情况。某次实验在两个不同的反应器中进行同一条件下实验得到两组温度与压力相关数据，试分析它们与温度的关联关系，并对在不同反应器内进行同一条件下反应的可靠性给出依据。相关系数是描述两个测量值变量之间的离散程度的指标。用于判断两个测量值变量的变化是否相关，即，一个变量的较大值是否与另一个变量的较大值相关联(正相关)；或者一个变量的较小值是否与另一个变量的较大值相关联(负相关)；还是两个变量中的值互不关联(相关系数近似于零)。设(X,Y)为二元随机变量，那么:为随机变量X与Y的相关系数。p是度量随机变量X与Y之间线性相关密切程度的数字特征。注:本功能需要使用Excel扩展功能，如果您的Excel尚未安装数据分析，请依次选择“工具”-“加载宏”，在安装光盘中加载“分析数据库”。加载成功后，可以在“工具”下拉菜单中看到“数据分析”选项。操作步骤1.打开原始数据表格，制作本实例的原始数据需要满足两组或两组以上的数据，结果将给出其中任意两项的相关系数。2.选择“工具”-“数据分析”-“描述统计”后，出现属性设置框，依次选择:输入区域:选择数据区域，注意需要满足至少两组数据。如果有数据标志，注意同时勾选下方“标志位于第一行”；分组方式:指示输入区域中的数据是按行还是按列考虑，请根据原数据格式选择；输出区域可以选择本表、新工作表组或是新工作簿；3.点击“确定”即可看到生成的报表。可以看到，在相应区域生成了一个3×3的矩阵，数据项目的交叉处就是其相关系数。显然，数据与本身是完全相关的，相关系数在对角线上显示为1；两组数据间在矩阵上有两个位置，它们是相同的，故右上侧重复部分不显示数据。左下侧相应位置分别是温度与压力A、B和两组压力数据间的相关系数。从数据统计结论可以看出，温度与压力A、B的相关性分别达到了0.95和0.94，这说明它们呈现良好的正相关性，而两组压力数据间的相关性达到了0.998，这说明在不同反应器内的相同条件下反应一致性很好，可以忽略因为更换反应器造成的系统误差。协方差的统计与相关系数的活的方法相似，统计结果同样返回一个输出表和一个矩阵，分别表示每对测量值变量之间的相关系数和协方差。不同之处在于相关系数的取值在-1和+1之间，而协方差没有限定的取值范围。相关系数和协方差都是描述两个变量离散程度的指标。用Excel做数据分析——回归分析在数据分析