SPSS实用教程第二章SPSS的数据管理第一节数据的输入2.1.1变量的定义2.1.2数据格式化2.1.3数据的输入2.1.4缺失值处理2.1.5变量标签2.1.6数据管理器列宽定义第二节数据的编辑2.2.1数据的增删2.2.2数据的整理2.2.3数据的算术处理第三节数据文件的管理2.3.1数据文件的调用2.3.2数据文件的连接2.3.3数据文件的保存统计分析离不开数据,因此数据管理是SPSS的重要组成部分。详细了解SPSS的数据管理方法,将有助于用户提高工作效率。SPSS的数据管理是借助于数据管理窗口和主窗口的File、Data、Transform等菜单完成的。第一节数据的输入2.1.1变量的定义先激活数据管理窗口,然后选Data菜单的DefineVariable...命令项,弹出DefineVariable对话框(见图1.1),在VariableName:框内输入变量名,如本例为x1。图1.1变量定义对话框返回目录返回全书目录2.1.2数据格式化在DefineVariable对话框中点击Type...钮,弹出DefineVariableType对话框(如图1.2所示),用户可根据具体资料的属性对数据进行格式化。DefineVariableType对话框中列出如下7种数据类型:图1.2定义变量类型对话框1、Numeric:数值型,同时定义数值的宽度(Width),即整数部分+小数点+小数部分的位数,默认为8位;定义小数位数(DecimalPlaces),默认为2位。2、Comma:加显逗号的数值型,即整数部分每3位数加一逗号,其余定义方式同数值型。3、Dot:3位加点数值型,无论数值大小,均以整数形式显示,每3位加一小点(但不是小数点),可定义小数位置,但都显示0,且小数点用逗号表示。如1.2345显示为12.345,00(实际是12345E-4).4、Scientificnotation:科学记数型,同时定义数值宽度(Width)和小数位数(DecimalPlaces),在数据管理窗口中以指数形式显示。如定义数值宽度为9,小数位数为2,则345.678显示为3.46E+02。5、Date:日期型,用户可从系统提供的日期显示形式中选择自己需要的。如选择mm/dd/yy形式,则1995年6月25日显示为06/25/95。6、Dollar:货币型,用户可从系统提供的日期显示形式中选择自己需要的,并定义数值宽度和小数位数,显示形式为数值前有$。7、Customcurrency:常用型,显示为整数部分每3位加一逗号,用户可定义数值宽度和小数位数。如12345.678显示为12,345.678。8、String:字符型,用户可定义字符长度(Characters)以便输入字符。用户选择完毕可点击Continue钮返回DefineVariable对话框。返回目录返回全书目录2.1.3数据的输入定义好变量并格式化数据之后,即可向数据管理窗口键入原始数据。数据管理窗口的主要部分就是电子表格,横方向为电子表格的行,其行头以1、2、3、……表示,即第1、2、3、……行;纵方向为电子表格的列,其列头以var00001,var00002,var00003……表示变量名。行列交叉处称为单元格,即保存数据的空格。鼠标一旦移入电子表格内即呈十字形,这时按鼠标左键可激活单元格,被激活的单元格以加粗的边框显示;用户也可以按方向键上下左右移动来激活单元格。单元格被激活后,用户即可向其中输入新数据或修改已有的数据。图1.3所示即为一个已输入数据的数据管理窗口。为方便起见,用户亦可省略定义变量和数据格式化两个步骤,一启动SPSS即向数据管理窗口中键入原始数据,这时,变量名默认为var00001,var00002,var00003……图1.3数据管理器返回目录返回全书目录2.1.4缺失值处理在实际工作中,因各种原因会出现数值缺失现象,为此,SPSS提供缺失值处理技术。在DefineVariable对话框中点击MissingValue...钮,弹出DefineMissingValues对话框(图1.4),用户有4个可选项:图1.4缺失值定义对话框1、Nomissingvalues:没有缺失值;2、Discretemissingvalues:可定义1-3个。如测量身高(厘米)的资料,可定义999为缺失值;性别的资料(男为1、女为2),可定义-1为缺失值;3、Rangeofmissingvalues:可定义缺失值的范围。如脉搏资料,可定义0—9为缺失值;4、Rangeplusonediscretemissingvalue:可定义缺失值的范围,同时定义另外1个不是这一范围的缺失值。如定义0—9为脉搏的缺失值,同时定义999为身高的缺失值。返回目录返回全书目录2.1.5变量标签在DefineVariable对话框中点击Labels...钮,弹出DefineLabels对话框(图1.5),用户可定义变量标签和特定变量值的标签。如定义变量hb的标签为“血红蛋白值”,同时定义12.36为“正常”,则可在DefineLabels对话框中的VariableLabel处输入变量标签名,在ValueLabels框中的Value处指定变量值,在ValueLabel处输入变量值标签,点击Add钮表示加入这种标签定义,点击Change表示更改原有标签,用户重新定义,点击Remove钮表示取消原有标签。图1.5定义标签对话框返回目录返回全书目录2.1.6数据管理器列宽定义在DefineVariable对话框中点击ColumnFormat...钮,弹出DefineColumnFormat对话框(图1.6),用户可定义数据管理器纵列的宽度,以便显示较长的数值或文字;同时用户还可指定数值或文字在数据管理器单元格中的位置:Left表示靠左、Center表示居中、Right表示靠右(此为默认方式)。图1.6列宽格式定义对话框返回目录返回全书目录第二节数据的编辑输入的原始数据,经常在统计分析前或统计分析过程中,需要作一些特殊的处理。为此,系统提供了如下主要方法。2.2.1数据的增删2.2.1.1增加一个新的变量列例如要在第2列前增加一个新的列,使原来的第2列右移变成第3列,则可先激活第2列的任一单元格,然后选Data菜单的InsertVariable命令项,系统自动为用户在第2列前插入一个新的变量列,原第2列自动向右移一列成为第3列。2.2.1.2增加一个新的观察单位(即增加一个新的行)例如要在第6个观察单位前增加一个观察单位(亦即在第6行前增加一行,使原来的第6行下移成为第7行),则可先激活第6行的任一单元格,然后选Data菜单的InsertCase命令项,系统自动为用户在第6行前插入一个新的行,原第6行列自动向下移一行成为第7行。2.2.1.3增加一个新的观察值例如由于输入错误,造成第7个观察单位的第4个变量值漏输,结果第8个观察单位的第4个变量值误为第7个观察单位的第4个变量值,这样的情形使得数据管理器中的第4个变量值从第7行起全部上移,而合计例数少一个。于是希望在第7行的第4列处插入1个单元格,原有数据依次下移恢复正常。可先将鼠标指向在第7行第4列交叉处的单元格,然后按住鼠标左键向下拖动鼠标直至第4列从第7行起的所有数据被选中(黑底白字),选Edit菜单的Cut命令项,选中的数据被剪切入剪贴板,再激活第8行第4列交叉处的单元格,选Edit菜单的Paste命令项,可将剪贴板中的原第7行起的所有数据下移自第8行开始,并空出第7行第4列的单元格以便补入漏输的数值。2.2.1.4删除一个行例如要删除第9行(即删除这个观察单位的所有观察值),则可先点击第9行的行头,这时整个第9行被选中(呈黑底白字状),然后按Delete键或选Edit菜单的Clear命令项,该行即被删除。2.2.1.5删除一个变量列例如要删除第4个变量列,则可先点击第4列的列头,这时整个第4列被选中(呈黑底白字状),然后按Delete键或选Edit菜单的Clear命令项,该列即被删除。2.2.1.6删除一个观察值例如由于输入错误,造成第6个观察单位的第2个变量值重复输入,结果第7个观察单位的第2个变量值误为第6个观察单位的第2个变量值,第8个观察单位的第2个变量值误为第7个观察单位的第2个变量值,……,这样的情形使得数据管理器中的第2个变量值从第7行起全部下移,而合计例数多一个。于是希望将第7行第2列的单元格删除,原有数据依次上移恢复正常。可先将鼠标指向在第8行第2列交叉处的单元格,然后按住鼠标左键向下拖动鼠标直至第2列从第8行起的所有数据被选中(黑底白字),选Edit菜单的Cut命令项,选中的数据被剪切入剪贴板,再激活第7行第2列交叉处的单元格,按Del键删除该单元格的数值,选Edit菜单的Paste命令项,可将剪贴板中的原第8行起的所有数据上移自第7行开始,既填补第7行第2列的单元格,又恢复原有下移的数值。返回目录返回全书目录2.2.2数据的整理2.2.2.1数据的排序用户可按要求对数据管理器的数据进行排序。选Data菜单的SortCases...命令项,弹出SortCases...对话框(图1.7),在变量名列框中选1个需要按其数值大小排序的变量(用户也可选多个变量,系统将按变量选择的先后逐级依次排序),点击钮使之进入Sortby框,然后在SortOrder框中确定是按升序(Ascending,从小到大)或降序(Descending,从大到小),点击OK钮即可。图1.7排序对话框2.2.2.2数据的行列互换有时,用户需要将数据管理器中原先按行(列)方向排列的数据转换成按列(行)方向排列的数据,这时可选Data菜单的Transpose...命令项,弹出Transpose...对话框(图1.8),在变量名列框中选1个或多个需要转换的变量,点击钮使之进入Variable(s)框,再点击OK钮即可。产生的新数据会在第1列出现一个case_lbl新变量,用于放置原来数值的变量名。若要将数据再转换回原来的排列方式,方法与上述过程相同。图1.8行列互换框2.2.2.3数据的分组汇总用户还可对数据管理器中的数据按指定变量的数值进行归类分组汇总,汇总的形式十分多样。例如,要对下列数据(图1.9)按变量group的大小,把变量x1作平均值汇总、把变量x2作求和汇总。选Data菜单的Aggregate...命令项,弹出AggregateData对话框(图1.10),在变量名列框中选group变量,点击钮使之进入BreakVariable(s)框,选x1变量进入AggregateVariable(s)框,因x1欲作平均值汇总,故点击Function...钮弹出AggregateData:AggregateFunction对话框(图1.11)选Meanofvalues项点击Continue钮返回;选x2变量进入AggregateVariable(s)框,因x2变量欲作求和汇总,故点击Function...钮选Sumofvalues项点击Continue钮返回。再点击OK钮即可。结果如图1.12所示。图1.9欲作分组汇总的原始数据图1.10分组汇总对话框图1.11分组汇总的函数功能对话框图1.12分组汇总后的数据分组汇总提供的函数形式有:1、Meanofvalues:求该组的平均值;2、Standarddeviation:求该组的标准差;3、Firstvalue:只保留该组的第1个数值;4、Minimumvalue:只保留该组的最小值;5、Lastvalue:只保留该组的最后1个数值;6、Maximumvalue:只保留该组的最大值;7、Numberofcases:合计该组的观察例数;8、Sumofvalues:求该组所有观察值的和。9、Percentageabove:先确定1个数值,求大于该数值的所有例数占总例数的百分比(0-100%);10、Percentagebelow:先确定1个数值,求小于该数值的所有例数占总例数的百分比(0-100%