SPSS在数学建模中的应用

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

SPSS在数学建模中的应用第一讲SPSS的一般应用一、SPSSforWindows的界面介绍数据编辑窗口包括窗口名显示栏、主菜单、工具栏、数据编辑区、变量定义区和状态栏。结果编辑窗口显示和管理SPSS统计分析结果、报表及图形的窗口,可以将窗口中的内容以结果文件.spo的形式保存。二、建立数据文件定义变量1、单击数据编辑窗口左下方的“VariableView”标签或双击题头(Var),进入变量定义窗口。可定义:变量名(Name)变量类型(Type)变量长度(Width)小数点位数(Decimal)变量标签(Label)变量值标签(Values)缺失值的定义方式(Missing)变量的显示宽度(Columns)变量显示的对齐方式(Align)变量的测量尺度(Measure)2、定义变量名(Name)时,应注意:1)变量名可为汉字或英文,英文的第一个字符必须为字母,后面可跟任意字母、数字、句点或@、#、_、$等;2)变量名不能以句点结尾;3)定义时应避免最后一个字符为下划线“_”(因为某些过程运行时自动创建的变量名的最后一个字符有可能为下划线);4)变量的长度一般不能超过8个字符;5)每个变量名必须保证是唯一的,不区分大小写。常用的变量类型(Type)包括:数值型、字符串型、日期格式变量等。数据录入定义变量后,单击“DataView”,即可在数据编辑窗口中输入数据。数据编辑1)数据的排序:Data→SortCases…2)数据的转置:Data→Transpose…3)数据的聚合:Data→AggregateData4)数据文件的拆分:Data→SplitFile5)数据文件的合并:Data→MergeFiles→AddCases…/AddVariables6)数据的转换:Transform→Compute…数据文件的保存1)选择“File”菜单的“Save”命令,可直接保存为SPSS默认的数据文件格式(*.sav)。2)选择“File”菜单的“SaveAs”命令,弹出“SaveDataAs”对话框,可选择保存为Excel(*.xls)等文件格式。调用其它数据文件按照File→Open→Data…的顺序选择菜单项,打开“OpenFile”对话框。可以打开的文件格式除了SPSS(*.sav)外,还包括:Excel(*.xls)、数据文件(*.dat)和文本文件(*.txt)。三、SPSS制图主要通过“Graph”菜单中的选项来创建图形。变量(Variable)分类与统计分析要进行统计分析,离不开统计数据。在搜索数据之前,必须首先了解数据的种类。数据涉及到变量的取值,通常用变量的取值来描述数据。变量可按多种方法分类,这些分类有助于选择适当的统计分析方法作进一步的分析与研究。下面按三种方法对变量进行分类:按间隙分类、按作用分类和按测量尺度分类。(一)按间隙(gaps)划分根据一个变量紧挨着的两个观测值之间是否有间隙,可以把变量分为两类:离散型变量(discretevariable)和连续型变量(continuousvariable)。更准确地说,当一个变量的任意两个可能取值之间没有其他取值时,该变量是离散的;当一个变量的任意两个可能取值之间还有其他可能取值时,该变量是连续的。例如,性别(设男性取值为0,女性取值为1)、企业数目、分组情况(设A组取值为1,B组取值为2等)等为离散型变量;身高、体重、血压、GDP等为连续型变量。离散型变量与连续型变量需要指出的是,由于分析的需要,离散型变量经常作为连续型变量处理。而连续型变量也可以作为离散型变量处理,如可以把“血压”变量分为“低”、“中”、“高”三组变为离散型变量。(二)按作用划分根据一个变量在分析时的作用,可以把变量分为因变量(dependentvariable)或自变量(independentvariable)。如果一个变量由其他变量来描述,该变量称为因变量或反应量(responsevariable);如果一个变量与其他变量一起用于描述因变量,该变量称为自变量或预测变量(predictorvariable)。例如,在分析家庭收入、性别等因素对消费支出的影响时,收入变量和性别变量是自变量,消费支出变量是因变量。一个变量是因变量还是自变量,与统计分析的目的有关。同一个变量在某种分析中作为因变量,而在其它分析中可能作为自变量。(三)根据测量尺度划分根据变量测量精度不同,可把变量由低到高分为四种尺度:定类变量、定序变量、定距变量和定比变量。1、定类变量定类变量又称为名义(nominal)变量。这是一种测量精确度最低、最粗略的基于“质”因素的变量,它的取值只代表观测对象的不同类别,例如“性别”变量、“职业”变量等都是定类变量。定类变量的取值称为定类数据或名义数据。定类数据的其同特点是用不多的名称来加以表达,并由被研究变量每一组出现的次数及其总计数所组成,这种数据是枚举性的,即由计数一一而得。唯一适合于定类数据的数学关系是“等价关系”。因而,在定类数据中,同一组内各单位是等价的,同时若更换各不同组的符号并不会改变数据原有的基本信息。因此,最常用来综合定类数据的统计量是频数、比率或百分比等。2、定序变量定序变量又称为有序(ordinal)变量、顺序变量,它的取值的大小能够表示观测对象的某种顺序关系(等级、方位或大小等),也是基于“质”因素的变量。例如,“最高学历”变量的取值是:1—小学及以下、2—初中、3—高中、中专、技校、4—大学专科、5—大学本科、6—研究生以上。由小到大的取值能够代表学历由低到高。定序变量的取值称为定序数据或有序数据。适合于定序数据的数学关系是“大于()”和“小于()”关系。在定序数据中,同一组内各单位是等价的,相邻组之间的单位是不等价的,它们存在“大于”或“小于”的关系。而且,并进行保序变换(或称单调变换),则不改变数据原有的基本信息即等级顺序。最适合用于综合定序数据取值的集中趋势的统计量是中位数。3、定距变量定距变量又称为间隔(interval)变量,它的取值之间可以比较大小,可以用加减法计算出差异的大小。例如,“年龄”变量,其取值60与20相比,表示60岁比20岁大,并且可以计算出大40岁(60-20)。定距变量的取值称为定距数据或间隔数据。定距数据是一些真实的数值,具有公共的、不变的测定单位,可以进行加减乘除运算。定距数据的基本特点是两个相同间隔的数值的差异相等,例如,年龄的60岁与50岁之差等于40岁与30岁之差。对于定距数据,不仅可以规定“等价关系”以及“大于关系”和“小于关系”,而且也可以规定任意两个相同间隔的比值或差值。如果将每个数值分别乘以一个正的常数再加上一个常数,即进行正线性变换,并不影响定距数据原有的基本信息。因此,常用的统计量如均值、标准差、相关系数等都可直接用于定距数据。4、定比变量定比变量又称为比率(ratio)变量,它与定距变量意义相近,细微差别在于定距变量中的“0”值只表示某一取值,不表示“没有”。例如,人的身高就是一个定比变量,如果身高值为“0”米,则表示这个人不存在。而定比变量的“0”值表示“没有”。而在测定温度的摄氏表中,0oC并不表示没有温度,因为还有在零点以下的温度。定比变量的取值称为定比数据或比率数据。定比数据也同样可进行算术运算和线性变换等。通常对定距变量和定比变量不需再加以区别,两者统称为定距变量或间隔变量。一般地,定类变量和定序变量用于描述定性数据,属于定性变量;而定距变量和定比变量用于描述定量数据,属于定量变量。同其他分类标准一样,一个变量在不同分析中可当作不同尺度的变量。例如,“年龄”在某些分析中(如回归分析)当作定距变量,而在另外一些分析中(如方差分析)可通过分组作为定类变量处理。另外,较高尺度的变量包含了较低尺度变量的性质。定序变量包含了定类变量的所有特征,定距变量同时包含了定序变量和定类变量的特征。这种性质允许在分析数据时把一些较高尺度变量作为较低尺度变量处理。例如,定距变量可当作定类变量或定序变量看待,而定序变量可作为定序变量分析。以上通过三种不同方法对变量进行分类。这些分类是可以重叠的。一个变量可能是离散型变量、自变量、定类变量(如“最高学历”),也可能是连续型变量、因变量、定距变量(如“血压”)。按间隙分类和按测量尺度分类的重叠。变量分类的重叠因为自变量与因变量是根据分析目的而不是按变量本身性质来划分的,所以上图中没有包括这种分类。从上图可以看出,定类变量必须是离散变量,而定距变量和定序变量可以是离散变量或连续变量;连续变量必须是定序变量或定距变量。例如,变量“性别”是离散变量又是定类变量;变量“年龄”可当作定距变量、连续变量,也可以作为定类变量、离散变量。二、统计分析方法的分类与选择对数据进行统计分析时,选择正确的分析方法是非常重要的。选择统计分析方法时,必须考虑许多因素,主要有:(1)统计分析的目的,(2)所用变量的特征,(3)对变量所作的假定,(4)数据的收集方法(即抽样过程)。选择统计分析方法时一般考虑前两个因素就足够了。(一)根据统计分析目的不同进行分类统计分析方法根据统计分析目的的不同,可以分成四大类:相关分析方法、结构简化方法、分类分析方法、预测决策方法。(二)根据变量特征的不同进行分类根据变量的分类不同分类方法,把变量分为因变量、自变量以及定量变量、定性变量,可把统计分析方法一一进行归类,这是正确选择统计分析方法的一种有效方法。统计分析方法分类表变量类型统计分析方法统计分析目的自变量因变量定量定量回归分析(或线性模型)相关分析描述一个或多个自变量与一个因变量之间的因果依存关系,或变量之间的相关关系。定量定性T检验方差分析描述一个连续型因变量与一个或多个定类自变量之间的关系。定量定性定量协方差分析(或线性模型)描述在控制了一个或多个连续型自变量的影响下一个连续因变量与一个或多个定类自变量之间的关系。定性定性列联分析Logit模型描述定性变量之间的相互影响关系。定性定量Logistic回归分析判别分析聚类分析描述多个定量变量与定性变量之间的依赖关系。定性定性定量对数线性模型描述定性或定量变量与分类变量之间的关系。定性定量定性定量//相依模型主成分分析因子分析对应分析等。描述变量、样品或类型之间的结构关系。

1 / 8
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功