第三章SPSS数据的预处理

xxzz1
2 ℃
2019-12-21

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

第三章SPSS数据的预处理为什么查进行预处理在数据文件建立之后，通常还需要对分析的数据进行必要的预加工处理，这是数据分析过程中必不可少的一个关键步骤。数据的预加工处理服务于数据分析和建模，主要包括以下几个问题：数据的排序变量计算数据选取计数分类汇总数据分组数据预处理的其他功能：转置、加权、数据拆分、缺失值处理、数据排秩、定义变量集。3.1数据的排序3.1.1数据排序的作用3.1.2数据排序的基本操作将观测量按照统计分析的具体要求进行合理的分类整理是数据文件整理的重要工作。仍以文件“研究生．sav”来说明，观测量分类整理的基本操作步骤如下：(1)执行Data→SortCases(观测量分类)命令，打开SortCases对话框。(2)从源变量列表框中选择一个或几个分类变量，单击中间的箭头按钮将它们移入Sortby框中，不妨称移入该框的变量为By变量。选择By变量的意义是将按这个变量对观测量进行分类整理。如果选择了几个By变量，从上至下依次称为第一By变量、第二By变量等。分类整理将按每一个By变量层叠分类整理。例如，选择了两个分类变量，sex为第一By变量，score为第二By变量，在sex的每一个分类中观测值将按score分类。(3)在SortOrder栏中选择一种排序方式。如对某分类变量选择Ascending(升序)，则在Sortby框里该变量名之后用连线连接Ascending；如选择Descending(降序)，该变量名连接Descending。各分类变量的排序方式可以不同。(4)以上选择确定后，单击OK，返回数据窗口，分类排序结果显示于数据窗口内。此外，对字符串变量按分类次序大写字母将优先于小写的同一字母。在我们引用的数本来有一个Order(序号)变量，它的值为自然数顺序。按照某些By变量分类后，要将文件恢复成原来的顺序，可以再用Order作为By变量执行观测量分类即可。如果文件缺少这样一个变量，经过分类的文件将不能恢复原状。SPSS的许多系统数据文件中都包含一个标志观测量序号的“id'’(单词identity的头两个字母)变量，它就可以起到这个作用。3.2变量计算3.2.1变量计算的目的略3.2.2SPSS条件表达式条件表达式(If．．)及其对话框的使用。有时候，仅仅需要对一些符合某些特定条件的自变量的观察值来进行计算。例如，在记录某年级3班和6班学生成绩的数据文件中，我们只需要了解3班女同学的学习情况，需要计算她们各门功课平均成绩，即需选择满足条件“sex＝0＆class＝3”(即三班女学生)的观测值来计算。当条件表达式“sex＝0”和“class＝3”同时为真时，计算平均成绩。对使表达式为假的或缺失的观测量就不计算这个值，对应于这些观测量，新变量的值为系统缺失值。在ComputeVariable对话框中单击If…按钮，打开IfCases条件对话框。对话框上方有两个单选项：●Includeallcases：对所有观测量计算新变量值，相当于不设条件，为系统默认的选项。●Includeifcasessatisfiescondition：对满足条件的观测量计算新变量值。此时，源变量清单栏、表达式栏、函数栏同时被激活，将条件表达式输入表达式框。单击Continue按钮对设定的条件表达式加以确认，返回ComputeVariable主对话框。条件表达式的建立规则是：条件表达式中至少要包括一个关系运算符，也可以使用逻辑运算符，并且可以通过关系（或逻辑）运算符连接多个条件表达式。各项选择确认后，单击OK。系统将根据表达式和条件计算新变量的值，并且将其结果显示到数据窗口的工作文件中3.2.3SPSS算术表达式在Compute对话框中定义了计算表达式、目标函数，以及设置了计算条件后，单击主对话框的Paste按钮，系统随即打开Systax窗口，该窗口显示如下格式的命令语句。(1)未设置计算条件情况下，COMPUTE命令语句：COMPUTE变量名＝计算表达式．EXECUTE.其中：●命令关键字COMPUTE。●变量名即定义的目标变量名，它既可以是在主对话框Taget框中新定义的变量名，也可以是当前工作文件中已经存在的变量。●＝等号。●计算表达式，表达式后接一个点“．”表示语句中止。计算表达式中的变量必须是工作文件中存在的变量。●“EXECUTE．”为执行语句。例如，假设表达式中的变量都是当前工作文件已经定义过的变量，则下列语句都是合法的COMPUTE命令：COMPUTEaverage＝(math十physical十chemical)／3.COMPUTEaverage＝mean(scoreltoscore5)．COMPUTEage＝2002—birthday．COMPUTEsales=quantity*price.COMPUTEpredict=123.55+0.875*x1/(1+0.025*EXP(-x2)).用鼠标将COMPUTE命令和EXECUTE命令选中，单击Syntax窗口工具条中的箭头按钮或执行RUN→ALL菜单命令，计算结果将显示到数据窗口。掌握COMPUTE命令的结构后，需要执行变量计算命令时，可以直接打开Syntax窗口自行编写COMPUTE命令语句。而且允许并列多个COMPUTE命令语句，这样可以一次计算多个新变量值，大大地提高计算效率，(2)设置计算条件情况下，IF命令语句：IF(关系表达式或逻辑表达式)新变量＝计算表达式．EXECUTE．表示在关系表达式或逻辑表达式为真的条件下计算新变量值。例如，下列语句都是合法的If命令：IF(sex＝1)salary＝0．95*salary十125．IF(score＝90Ortotal450)grade＝1IF(age=15&age=20)count=age+3.IF(b**2-4*a*cGE0andaNT0)root=age+3.用鼠标将IF命令行到EXECUTE命令行选中，单击窗口中的箭头按钮或执行Run→All菜单命令，计算结果将显示到数据窗口。与(1)相同也允许同时并列多个IF命令语句，也可以和COMPUTE命令语句并列，执行新变量的计算。SPSS的每个统计功能对话框中都设有Paste按钮，当对话框内选项设置确定以后，单击该按钮，系统按照设定的选项将需执行的命令以SPSS语法程序显示在Syntax窗口，在该窗口可以进一步地编辑，然后执行Run→All菜单命令，或者选择其中部分程序语句，执行Run→Select菜单命令。输出结果或显示于数据窗口，或显示于Output窗口。要深入了解SPSS语法命令，建议同学们在每次运行SPSS命令时，都遵照上述做法进行即可，本书将不再介绍其他语法命令。3.2.4SPSS函数SPSS函数是事先编好并存储在SPSS软件中，能够实现某些特定计算任务的一段计算机程序。这些程序都有各自的名字称为函数名。执行这些程序段得到的计算结果称为函数值。函数书写的具体形式为：函数名（参数）SPSS有约180个内部函数，其中包括数学函数、逻辑函数、缺失值函数、字符串函数、日期函数等。函数表达方法是在函数名(即函数的几个关键字)后的括号中列出自变量和参数，不同的函数对自变量和参数的要求是不同的，调用之前必须明确对自变量和参数的要求，要给参数赋以恰当的数值。我们将SPSS函数列于书末的附录中供用户参考。下面仅就其中最大的一类数学函数(125多个)作简要介绍。SPSS的数学函数均为数值型函数。各函数的自变量可以是符合取值范围要求的数值表达式。数学函数(设arg表示自变量)中包括：(1)算术函数，如三角和反三角函数、指数和对数函数、四舍五入函数RND(arg)、截尾函数TRUNC(arg)、求余函数MOD(arg，modulus)等。设自变量arg＝-5．6，则四舍五入函数RND(—5．6)＝—5、截尾函数TRUNC(—5．6)＝—4。又如arg=75，则MOD(75，10)＝5。(2)统计函数，即数理统计中的统计量，SPSS有7个统计函数，用于计算实变量的均值Mean(argl，arg2，…)、标准差Sd(argl，arg2，…)、变异系数CFVAR(argl，arg2，…)等。(3)概率函数，SPSS中，给出了概率统计中几乎所有常见的随机变量的分布函数、密度函数、逆分布函数、随机数生成函数、非中心分布函数等。SPSS提供了数量约80个概率函数，它们以函数名的前缀来区分，各种前缀列于表3．3中。表3．3概率函数中的前缀前缀CDF．rv_name(q，ａ…)随机变量的累积分布函数IDF．rv_name(p，ａ…)连续型随机变量的逆分布函数PDF．rv_name(p，ａ…)随机变量的概率(或密度)函数(SPSSll．0新增)RV．rv_name(a…)随机数生成函数NCDF．rv_name(q，ａ…)非中心分布函数NPDF．rv_name(q，ａ…)非中心概率密度函数(SPSSll．0新增)表中rv_name代表随机变量名，CDF．rv_name(g，a,…)=P(ξq)=p，即对指定的自变量值q，它返回到服从相应概率分布的随机变量ξg的概率p。前缀为“IDF”的称为逆分布函数，即分布函数的反函数。离散型随机变量没有逆分布函数。前缀为“PDF”的称为概率函数(离散型随机变量)或概率密度函数。中心的贝塔分布、χ2分布、Studentt分布和F分布等。各种概率函数中都依赖于数目不等的分布参数，不同分布的参数有不同的取值范围，因此在调用分布函数时，必须给它们赋以恰当的数值。而且同名的累积分布函数、概率密度函数、逆分布函数的参数取值是完全一致的。形如RV.rv_name(a,…)，括号内的“a,…”为分布参数，其取值与相应的累积分布函数的参数一致，功能是生成服从相应概率分布的独立观察值，即随机数。例如，对正态随机生成函数RV.NORMAL(a,b)来说，当指定了参数值以后可以产生一列按数据文件中观测量序号排列的服从正态分布的随机数。3.2.5变量计算的基本操作统计中，建立的数据文件中包含的数据可能来自统计调查的原始测量结果，统计分析要通过研究变量之间关系来揭示现象的内在数量规律。例如，统计学中大量的相对指标的指标值是不可能通过实际测量得到的，而需要利用有联系的变量的比值计算出来，计算所得的数值就成为新变量的观测值。SPSS提供了强大的Compute(计算)功能，新变量的计算可以利用Compute对话框方便地求得。用Compute命令计算新变量步骤如下：(1)打开数据文件，执行Transform(转换)→Compute命令，打开ComputeVariable(计算变量)对话框。(2)输入计算表达式。使用计算器板(ColculatorPad)或键盘将计算表达式输入到NumericExpression(数值表达式)栏中，表达式中需要的SPSS函数可从Function(函数)栏中选择，通过双击鼠标左键或单击该栏上方的箭头按钮将选中者移入表达式栏。这时，栏中函数的自变量和参数用“?”提示，自变量必须选用当前工作文件中的变量，可以从源变量清单栏中选择，选中后用鼠标双击它，或单击栏边的箭头按钮输入表达式中。计算器板上的数字、运算符按钮以及Delete按钮与计算机键盘上相应的按钮等效。(3)定义新变量及其类型。在Targe(目标)框中定义目标变量名，它可以是一个新变量名，也可以是已经定义的变量名，甚至可以是表达式中使用的自变量本身，用于接受表达式的计算值。单击Type&Label(类型和标签)按钮，类型和标签对话框。●Label：在框中给目标变量加注标签。●Useexpressionaslabel：使用计算目标变量的表达式作为标签，这有利于统计分析时清晰地了解新变量的意义及运算关系。在此对话框里，还可以对新变量的类型及宽度进行选择。选择确定后，单击Continue按钮，返回主对话框。3.2.6变量计算的应用举例统计学中利用已知变量计算新变量的值是经常进行的工作，下面我们应用SPSS提供的变量计算方法解决几个统计学中的问题。例3．2．1输出标准正态分布函数表。统计计算和统计