北京大学社会学系数据分析课程讲义刘爱玉2004年SPSS数据分析技术课程提纲教材:自编讲义阮桂海主编,2000,《SPSS实用教程》电子工业出版社课程内容第一讲SPSS基本知识及数据录入一.概述二.SPSS的基本模块三.SPSS的基本窗口四.SPSS文件类型五.问卷及编码六.什么是数据七.数据录入——问卷资料转变为原始数据文件(一)WORD中录入(二)在EXCEL中录入数据(三)在SPSS中录入(四)Epidat录入(六)数据文件的编辑与管理第二讲SPSS命令文件的编写一·SPSS的命令文件(一)Datalist(二)Variablelabel的命令格式(三)valuelabel的命令格式(四)程序中的缺少值(MissingValue命令)第三讲用Frequencies做数据汇总一.数据汇总使用的数据类型二·频次统计及统计量的计算(一)Statistics——统计量(二)画图第四讲描述性统计(Descriptives与Explore的应用)一.Descriptives(一)应用实例(二)统计量分析二.Explore分析第五讲数据变换一.Recode命令对数据重新编码二.用Compute命令创建新变量三.COUNT命令四.用If命令做条件变换和逻辑校第六讲交叉汇总与关联分析(Crosstabs的应用)一.交叉汇总表的一般形式及其特点二.交互表的检验——两个变量之间是否相关三.两个变量之间相关的强度(一)定类——定类北京大学社会学系数据分析课程讲义刘爱玉2004年(二)定序——定序(三)定类——定距(四)定距——定距四.运用CRPSSTABS做交互表及对变量之间的关系进行测量第七讲引进其他变量后的交互分析一.因果分析——explanationmodel二.阐明分析——Interpretationanalysis三.条件分析——conditionalanalysis第八讲描述子总体均值的差异(Means过程的应用)一.Means过程运行二.OneSampleT-Test第九讲均值比较分析(T——Test过程)一.独立样本T检验二.成对样本T-TEST三.注意事项第十讲方差分析ANOVA一.实例二.解释第十一讲相关分析(Correlate过程分析)一.BivariateCorrelate二.Partialcorrelation偏相关(也叫净相关)三.距离分析(Distance)第十二讲简单线性相关(一元线性回归分析)一.回归分析对变量的要求(假设条件)二.一元线性回归模型及其含义三.在对话框中做一元线性回归模型第十三讲SPSS统计图形一.Bar条形图二.Line线图——年龄与收入三.Area面积图四.Pie饼图五.High-LOW高低图六.Pareto帕雷托图七.Control控制图八.Boxplot箱图九.ErrorBar误差条图十.Scatter散点图十一.Histogram直方图十二·P-P:P-P概率图十三·Q-Q:Q-Q概率图十四·Sequence序列图十五·TimeSeries时间序列图第十四讲非参数检验北京大学社会学系数据分析课程讲义刘爱玉2004年SPSS数据分析技术第一讲SPSS基本知识及数据录入..........................................................................................3第二讲SPSS命令文件的编写....................................................................................................25第三讲用Frequencies做数据汇总.............................................................................................27第四讲描述性统计(Descriptives与Explore的应用)....................................................32第五讲数据变换P43-55......................................................................................................39第六讲交叉汇总与关联分析(Crosstabs的应用)...........................................................50第一讲SPSS基本知识及数据录入一.概述SPSS(statisticalpackageforthesocialscience)是美国SPSS公司开发的社会科学统计软件,SPSS昀初的几个版本都是在DOS系统下运行,虽然功能比较强,但在用户界面、输入、输出环境等方面并不十分理想。80年代末,Microsoft推出Windows后,SPSS迅速向Windows移植。90年代以来,由于MSWindows的普及,SPSS公司于1992、1993、1994年相继推出了在Windows操作系统下的5.0,6.06.1版本,随着Windows95与WindowsNT3.5以上版本的32位操作系统的出现,1997年以来又相继推出了8.0,9.0,10.0及11.5版本。11.5版本的界面与10.0版本相比没有什么变化,只是增加了一些统计功能和方法。与其他版本相比,11.5版本的用户界面更为友好,使用更加方便,统计功能更为强大。它的基本特点有四个:[1]大多数操作是通过菜单、图表按钮、对话框完成,操作简单方便;[2]命令语句、子命令、选择项大部分通过对话框来进行,无需记忆大量的命令、过程与选择项;[3]可以与其他数据转换接口,其他软件生成的数据,可以转化为SPSS数据[4]与其他Windows兼容,输出结果可以复制到WORD,以便进一步编辑。二.SPSS的启动及基本模块BSPSS11.0版一共由十个模块组成SPSSBaseAdvancedModelsRegressionModelsTablesTrendsCategoriesConjointExactTestsMissingValueAnalysisMaps三.SPSS的基本窗口(一)打开SPSS北京大学社会学系数据分析课程讲义刘爱玉2004年(二)基本窗口-DataEditorFile文件管理菜单,完成对数据文件的建立、读取、存储、打印等操作。Edit文件编辑菜单,完成对数据文件的重新编辑、检索、拷贝、剪贴与替换等操作。View浏览编辑,完成文本或数据内容的状态栏、工具栏、字体、网格线以及数值标签等功能的操作。Data数据管理,数据的选择、排序菜单,包括对数据行的增加、合并、变量值的选择等Transform数据变换菜单,创建新变量、重新编码、计算同值的次数等。Analyze统计过程菜单,完成各种统计分析。Graphs统计图表,完成统计图表的建立与编辑北京大学社会学系数据分析课程讲义刘爱玉2004年Utilities实用程序,有关命令解释、字体选择、文件信息、定义输出标题和窗口设计等。Windows窗口控制,可进行窗口的排列、选择和显示操作Help帮助文件,帮助文件的调用、选择和显示等操作。(三)SPSS的其他窗口在SPSS的主窗口中还有两个窗口,一个是数据管理窗口,其标题名称是“Newdata”,且默认为激活状态。数据管理器是一种典型的电子表格形式,用户可通过定义变量名、格式化数据类型后输入原始数值,并可根据需要对数据进行增删、剪贴、修改、存储等操作。另一个是结果输出窗口,标题名称是“!Output1”,启动时为非活动窗口,只有当完成一项处理后,才在该窗口显示处理过程提示和计算结果。当进行某项具体的统计方法操作时,可点击对话框的“Paste”钮激活命令编辑窗口,其标题名称是“!Syntax1”,或选Window菜单的!Syntax1项也可激活命令编辑窗口。用户可利用该窗口进行SPSS命令的输入、编辑和运行,这对熟悉DOS版本的SPSS用户是十分方便的。上述三个窗口在实际操作时,经常因为内容很多,一个窗口中无法看到全部内容。有两种方法可帮助用户看到全部内容:1、使用窗口的滚动条每个窗口的右侧有一个垂直滚动条,用鼠标点击滚动条上下两头的箭号钮或用鼠标按住滚动条中的方块上下拖动,可使窗口中的内容前后翻滚;底边有一个水平滚动条,用鼠标点击滚动条左右两头的箭号钮或用鼠标按住滚动条中的方块左右拖动,可使窗口中的内容左右移动。如此,用户便可看清所有内容。2、改变窗口的大小一般情况下,鼠标指针是一个朝左上方的箭头,当把鼠标指针指向窗口边界时,鼠标指针变成双向箭头形。这时,若按住鼠标左键移动,可改变窗口的大小,同样可看清窗口内容。SPSS的退出完成SPSS的统计分析后,退出该系统的方法是:选File菜单的Exit项,回答系统提出的有关是否需要存储原始数据、计算结果和SPSS命令之后,即退到Windows的程序管理器中。SPSS的求助系统SPSS提供了丰富且详尽的在线帮助。主要有下列几种方式:1、主窗口的Help菜单:在软件运行的任何时候,点击Help菜单选相关的子菜单,可得到所需的各种帮助。2、主窗口的Utilities菜单:在Utilities菜单中,有Commandindex...子菜单,它提供有关SPSS各项统计分析技术能解决什么问题的信息。3、各种对话框中的Help钮:在具体操作过程中,当弹出某一对话框时,一般总有Help钮,点击该钮,用户可得到这一对话框选项内容的详细帮助。4、结果输出窗口中的Grossary钮:当用户在浏览计算结果时,可点击结果输出窗的Grossary钮,它显示各种专用统计术语的解释信息以便用户理解。5、命令编辑窗口中的Syntax钮:激活命令编辑窗,可见一Syntax钮,点击该钮,可得到与用户正在编辑的命令相关的命令语法提示。北京大学社会学系数据分析课程讲义刘爱玉2004年四.SPSS文件类型1.原始数据文件及其类型*.Dat(原来还有ASCII码)生成方法DOS中的EDITWORD中的·TXTEXCEL中的·XLSDBASE中的·DBF以上形式的数据文件在SPSS中可以直接调用打开一个已有的数据文件的方式如下:北京大学社会学系数据分析课程讲义刘爱玉2004年2.数据文件*·SAV*·SAS(原来)数据文件可以根据原始数据的转换获得3.图形文件*·CHT4.命令文件*·SPS5.结果文件*·SPO(OUTPUT,原来是·LST)五.问卷及编码1.多选择题的处理(0,1编码)2.多位题(要补位)3.缺失值,以9结尾,如年龄,编码为99,如答案正好是9,以0替补北京大学社会学系数据分析课程讲义刘爱玉2004年4.不适用,以8结尾,8,98,998,如答案正好是8,以0替补。如有四个可选项的多选题而不适用,则为8888。六.什么是数据数据是一个矩阵,行是一个case在多维空间下的位置,列是不同空间的维度用来分析用行收集到的资料。数据分析:用微观的方法分析宏观的资料,分析平均人、平均的体系;这个分析都是在平均的基础上,这种推断是不能还原到个案的,分析的过程是不断抛弃个人影响的过程。数据的计算机表示法:变量------问卷中的每一个问题,在dBASE中称为字段(Field)变量名---变量名以字母为首,后面跟A---Z,0-----9字符(字符≤8个字符),变量名不能带扩展名,如A1·1。变量值----变量的答案七.数据录入——问卷资料转变为原始数据文件(一)WORD中录入,存成·TXT1.方法:打开WORD文档,录入数据固定格式:这种数据要根据已经确定的栏目位置对号入座地录入数据,在对问卷进行编码时,指定了各个项目的数值与栏位(书P10),给数据指定栏目位置时,前后数据一般不留空格,这样可以提高数据录入的速度,缺点是前后的数据不太容易区分。如:栏位(列号)123456