统计分析软件应用薛薇中国人民大学统计学院2015.7第一章SPSS概述SPSS概述SPSS:StatisticalPackageforSocialScienceStatisticalProductandServiceSolutionsÀSPSS的发展:l60年代:美国斯坦福大学三位研究生研制l70年代:SPSS总部成立于芝加哥,推出SPSSX中小型机版l80年代:SPSS公司(SPSS/PC+微机版1~3)l90年代:SPSS公司(SPSSWINDOWS版5~14)SPSS主要特点•操作简便。绝大多数操作是通过菜单、按钮、对话框完成的。•无需计算机编程、需记忆大量命令和参数。•分析方法丰富、分析结果清晰、直观。•可以直接读取其他软件格式的数据文件,如:dbf、xls、sas等。•最新版本采用分布式分析系统,适应互联网,支持动态收集、分析数据和HTML报告•与一般的办公软件直接兼容不方便SPSS主要窗口:数据编辑窗口•窗口标题:dataeditor•功能:对SPSS的数据文件进行录入、修改、管理等基本操作的窗口。•组成:窗口主菜单、工具栏、数据编辑区、状态显示区•特点:–SPSS运行过程中自动打开–SPSS中各统计分析功能都是针对该窗口中的数据进行的–窗口中的数据文件以.sav存于磁盘上–两个视图:数据视图和变量视图SPSS主要窗口:数据输出窗口•窗口标题:viewer•功能:SPSS统计分析报表及图形的输出的窗口。•组成:窗口主菜单、工具栏、结果显示区、状态显示区•特点:–在进行第一次分析时自动打开,也可手工打开–可以手工打开若干个可相互切换的viewer窗口;状态栏上的!表示当前输出窗口–输出窗口可以关闭,窗口内容以.SPO存于磁盘上–两个视图:目录视图和内容视图SPSS主要窗口:数据输出窗口驾驭数据出输出窗口一般操作•结果文件的打开和保存–加密保存•窗口元素的移动和删除–标准的拖放式操作–在大纲视图中操作最方便结果的导出•以纯文本格式导出、以HTML格式导出如何在WORD中引用分析结果•统计表格:拷贝或拷贝对象•统计图:拷贝对象表格的编辑表格状态的确定单元格内容编辑行列转置Autofit表格样式的变换SPSS基本运行方式•完全窗口菜单方式:–所有分析操作过程都是通过菜单和按钮及对话框方式进行的.–是经常使用的一种运行方式,适用于一般分析和SPSS的初学者.SPSS基本运行方式•程序运行方式:–手工编写SPSS命令程序–一次性提交计算机运行–适用于大规模的分析工作和熟练的SPSS程序员.•实现方法:(1)打开SYNTAX语句窗口并编写和修改SPSS程序(2)点击语句窗口中的RUN菜单项,选择运行方式运行利用SPSS进行数据分析的步骤•建立SPSS数据文件定义数据文件结构录入修改和编辑待分析数据•数据的统计分析统计分析之前的预处理统计分析•数据和分析结果的保存•结果的说明和解释思考复习•SPSS有哪两个主要窗口?功能是什么?有哪些特点?•SPSS有哪些运行方式?特点是什么?第二章SPSS数据文件的建立和管理一份简单的调查问卷•单项选择题–提供几个备选择答案,从其中选择一个答案–变量类型:分类数据、定序数据–数据类型:字符型•填空题–变量类型:定距数据–数据类型:数值型如何利用SPSS组织数据SPSS数据文件是一种有结构的数据文件年级性别问题1……问题n11……….422………2.……………………………文件结构数据个案case变量名•变量用字符或数字表示字符型数据SPSS数据文件一般只能通过SPSS软件打开一份简单的调查问卷多项选择题提供几个备选择答案,从其中选择多个答案•如:在下列品牌中您信任哪些品牌?被诊断为高血压要后你采取了以下哪些辅助治疗手段?•如:高考时报考学校•(1)北京大学(2)清华大学(3)人民大学(4)北京理工大学•(5)北京师范大学(6)北京外国语大学多项选择题不能在SPSS中直接存储,因为SPSS的一个变量只能有一个取值如何利用SPSS组织数据多项选择题的处理方法思路:–将一个问题定义成几个变量,用这几个变量来描述该问题的几个可能被选择的答案。编码方式:–多选项二分法或多重二分法(multipledichotomizemethod)–多选项分类法或多重分类法(multiplecategorymethod)多选项二分法将每个答案作为一个变量,每个变量只有两个取值(0或1)。例如:变量名变量名标签编码方案X1北京大学01X2清华大学01X3人民大学01X4北京理工大学01X5北京师范大学01X6北京外国语大学01如何利用SPSS组织数据多选项分类法:预先估计多选项问题可能被选择的最多答案数(多项选择最多选几项就定义几个变量).为每个答案建立一个变量,取值为多选项问题的可选答案编码.例如:变量名变量名标签编码方案A第一选项(1)北京大学(2)清华大学(3)人民大学(4)北京理工大学(5)北京师范大学(6)北京外国语大学B第二选项(1)北京大学(2)清华大学(3)人民大学(4)北京理工大学(5)北京师范大学(6)北京外国语大学C第三选项(1)北京大学(2)清华大学(3)人民大学(4)北京理工大学(5)北京师范大学(6)北京外国语大学如何利用SPSS组织数据•频数数据:男女统计1023精算1220如何利用SPSS组织数据•设置三个变量:•专业方向、性别、人数SPSS数据文件的结构(一)变量名(Variablename):变量名是变量存取的唯一标志。起名规则:•不多于8个字符组成•不区分大小写•允许汉字作为变量名•默认变量名为VARn,如:var00001SPSS数据文件的结构(二)变量的类型(type)和显示宽度(width)1、数值型:•标准数值型(Numeric):默认类型8.2如:12345678、12345.67、-1234.56•带逗号的数值型(Comma):从个位开始三位一个逗号8.2如:1,234.56•科学计数法(ScientificNotation):表示很大或很小的数据8.2如:1.2E+05•带美元符号(Dollar):表示货币格式很多,如:$12.30SPSS数据文件的结构2、字符型(String):存储字符数据8位如:beijing处理时用双引号扩起来3、日期型(Date):存储日期数据格式很多,如:20-AUG-19994、其他:如:圆点数值型(dot)、用户自定义型(customer)注意:显示宽度不影响数据的存储SPSS数据文件的结构(三)变量名标签(Variablelabel):对变量名的一些解释说明,增强分析结果的可视性。可以省略。(四)变量值标签(Valuelabel)对变量所取值的一些解释说明,增强分析结果的可视性。可以省略。一般用于品质数据如:1-男2-女、1-高2-中3-低SPSS数据文件的结构(五)变量列格式(ColumnFormat)•对齐方式(TextAlignment)左对齐(Left):字符型默认。右对齐(Right):数值型默认。居中对齐(Center)•列宽度(ColumnWidth)默认值为变量的总长度。SPSS数据文件的结构(六)缺失值(MissingValues)1、什么是缺失值?漏填数据明显错误的数据2、对缺失值的一般处理事先指定:指定某个特定值为缺失值(用户缺失值)其他处理方法,如:以均值、众数替代等3、SPSS缺失值用户缺失值系统缺失值:数值型:点(•)字符型:空SPSS数据文件的结构(七)变量计量尺度(Measurement)•scale:定距数据,一般为数值型数据。如:收入、人数。•ordinal:有固有顺序的顺序水准的数值型或字符型数据。如:职称、年龄段•nominal:无固有顺序的名义水准的数值型或字符型数据。如:性别、民族定义SPSS数据文件结构•操作方法:利用变量视图•如何查看变量定义的情况菜单选项:Utilities-VariablesSPSS数据的录入与保存•录入时应注意:–黑框确定当前数据单元–录入带有变量值标签的数据:手工输入代码,屏幕显示变量值标签–冻结第一列•数据保存:–操作–保存格式:•(1)*.sav:SPSS数据文件(默认)。•(2)*.dbf:dbase数据文件。•(3)*.xls:Excel工作表文件。–注意:有些信息会丢失SPSS数据的编辑(一)打开数据文件菜单选项:File-Open-.sav(二)数据定位•按个案号码定位菜单:Data-Gotocase-输入样本号•按值定位光标定位到某列变量上-Edit-Find...SPSS数据的编辑(三)插入和删除一个个案•插入:data-insertcase•删除:选定待删行,鼠标右键找到Cut(四)插入和删除一个变量•插入:光标定位到某列变量上-Data-InsertVariable(插到某列前)或鼠标右键•删除:选定列,鼠标右键Cut项SPSS数据的编辑(五)数据移动、复制和删除•定义源数据块•鼠标右键:cutcopyclear•确定目标单元•鼠标右键:paste数据文件的合并•目的:将两个SPSS数据文件合并到一个数据文件中•文件合并的方式:–纵向合并–横向合并(一)纵向数据合并(1)含义:将磁盘上的一个SPSS数据文件追加到当前dataeditor窗口中的数据文件中。(2)前提:两个SPSS数据文件应可以合并的内容,且最好有相同的变量名和变量类型。(3)菜单选项:data-mergefile-addcases数据文件的合并数据文件的合并(二)横向数据合并(1)含义:将磁盘上的一个SPSS数据文件中的若干个变量增加到当前dataeditor窗口的数据文件中。(2)前提:a.两个数据文件必须有一个共同的变量名为关键字段---合并的依据;b.两个数据文件应事先按关键字段升序排序。数据文件的合并(二)横向数据合并(3)菜单选项:data-mergefile-addvariable(4)选项说明:–mathcasesonkeyvariablesinsortedfiles:以关键字作为合并标志。–Bothfilesprovidecases:合并后的文件的数据由两个文件共同提供。–Externalfileiskeyedtable:以dataeditor的数据为基础。–Workingdatafileiskeyedtable:以磁盘文件的数据为基础。与其他软件数据共享•共享dbf和xls格式文件菜单选项:Data-Open(1)*.dbf:dbase数据文件。字段名、字段类型自动转成SPSS数据文件中的变量名和类型。一条记录为一个个案。(2)*.xls:Excel文件(Readvariablename选项)•共享数据库文件–建立ODBC数据源第三章SPSS数据文件的基本加工和处理SPSS数据文件的基本加工和处理•数据文件的整理个案排序、个案选取•数据加工变量计算、计数•数据分组自动分组、手工分组•数据文件的其他处理功能指定加权变量•目的:将所有个案按照用户指定的某一个或多个变量的变量值的升序或降序重新排列。•菜单选项:data-sortcases•注意:(1)Ascending:升序、Descending:降序。(2)多重排序,选择变量名的次序很关键。个案排序•排序在数据分析中的作用?个案选取•目的:从现有数据中挑选出部分数据。•菜单选项:data-selectcases•选取个案的几种不同方式(1)选择符合一定条件的个案(Ifconditionissatisfied)(2)随机选取个案(Randomsampleofcases)近似选取、精确选取(3)选取某一区域内的个案(Basedontimeorcaserange)(4)使用过滤变量(usefiltervariable)注意:以后的操作和分析都在该个案选取的基础上进行.•个案选取在数据分析中的作用?变量计算目的:产生新变量或对原变量进行必要的转换处理(如:预测问题产生比率数据偏态数据的正态处理时间序列的平稳处理等)(1)含义:根据用户给出的SPSS算术表达式,