数学建模基础第三章SPSS入门IBMSPSS20.0StatisticalProductandServiceSolutions统计产品与服务解决方案SPSS世界上最早的统计分析软件:1968年,由美国斯坦福大学的3位研究生于研制,广泛应用于自然科学、技术科学、社会科学的各个领域世界上应用最广泛的专业统计软件:目前世界上流行的三大统计分析软件之一(SAS、SPSS及SYSTAT)。全球约有28万家产品用户,世界上许多有影响的报刊杂志纷纷就SPSS的自动统计绘图、数据的深入分析、使用方便、功能齐全等方面给予了高度的评价与称赞影响和信誉极高:在国际学术界有条不成文的规定,即在国际学术交流中,凡是用SPSS软件完成的计算和统计分析,可以不必说明算法目前最新版本:IBMSPSSStatistics20.0多国语言版1.SPSS界面与菜单介绍2.数据准备3.描述性统计分析4.简单统计推断5.相关分析6.回归分析7.图形的实现SPSS简单操作SPSS界面介绍4个主要窗口:数据编辑窗口、结果输出窗口、语法编辑窗口、脚本编辑窗口变量视图:定义数据的格式(变量名、类型、宽度等),每一行代表对一个变量的定义,每一列则代表定义该变量时用到的某种属性数据编辑窗口:•建立新数据、编辑和显示已有数据文件;•两个视图区结果查看窗口:随执行统计分析命令打开,显示分析结果、统计报告、图表等如果在运行时产生错误,也会输出提示信息允许对输出结果进行常规编辑整理,窗口内容可以直接保存,“*.sav”数据准备要利用SPSS进行数据统计分析,首要的工作就是建立SPSS数据文件;实际中收集、调查得到的数据资料往往是零乱的,不能直接进行统计分析;主要由菜单栏中的【数据】和【转换】命令来实现规范化操作中不可忽略的一步。数据文件的建立四种创建数据文件的方法:●新建数据文件●直接打开已有数据文件:*.sav、*.sys,*.xls,*.sas7bdat,*.txt等●使用数据库查询:与大型数据库进行数据交换,如SQL、Oracle,也适用于Excel●从文本向导导入数据文件Excel数据的导入1.整理excel文档,第一行设置为变量,与spss格式相同2.打开SPSS软件,菜单栏中选择【文件】→【打开】→【数据】命令,弹出【打开数据】对话框3.选择2-1.xls文件4.点选【从第一行数据读取变量名】5.【确定】•文件2-1.xls是上证指数从2007年1月4日至2008年10月16日的数据资料,包括了开盘价、当日最高价、当日最低价和收盘价等选项,请将该数据导入至SPSS中。SPSS数据文件的属性SPSS数据文件是一种有结构的数据文件,包括文件结构和数据,在软件中创建好数据后,首先应该进行数据文件的属性定义或者结构定义。变量属性:变量名、变量类型、变量名标签、变量值、缺失值的定义、度量的尺度、及数据的显示属性(显示宽度、列宽度、对齐方式)例:新建数据录入“变量视图”定义变量;“数据视图”在定义好的变量列填入相应数据左边是对人们信息获取情况的一个调研表,请定义问卷调查表的变量信息。SPSS操作实例打开新数据表:文件-新建-数据变量视图变量名数据类型描述性的变量标签描述性的值标签用户定义的缺失值◆缺失值:如果直接进行数据分析,SPSS将把缺失数据作为正常数据,造成非常大的误差数据中存在漏填数据数据中存在明显错误或明显不合理的数据(如年龄130)◆缺失数据处理步骤:1、指定缺失数据,指明哪些数据属于缺失数据(空缺数据,首先填一个特定标记数据)2、统计分析时对缺失数据进行一定处理(选择缺失数据处理方法)数据视图变量名称个案或观察值SPSS数据文件中的一列数据称为一个变量,每个变量都应有一个变量名。SPSS数据文件中的一行数据称为一条个案或观测量。描述性统计分析统计分析的目的:研究总体的数量特征。首先了解数据的整体情况,随后才能考虑做深入的推断;两种方式实现:第一,数值计算,计算常用的基本统计量的值,准确反映数据的基本统计特征;第二,图形绘制,即绘制常见的基本统计图形,直观展现数据的分布特点。描述性统计分析描述性统计分析是统计分析的第一步和先决条件在进行统计分析和建模前,常需对数据做一些描述性统计,了解数据的基本统计指标定量数据:均数、标准差、标准误等计数或分类数据:频率、比率等SPSS的许多模块均可完成描述性分析,但专门为该目的而设计的几个模块则集中在描述菜单中:【分析】-【描述统计】基本统计量•频率(F):该过程产生频数表;•描述(D):进行一般性统计描述;•探索(E):用于对数据概况不清时的探索性分析•使用目的:了解变量取值的状况,对把握数据分布特征非常有用,是描述性统计中最常用的方法之一。•例如,了解某班学生考试的学习成绩、了解某地区居民的收入水平等都可以借助于频数分析。作用:(1)编制频数表,按要求给出某百分位点的数值►频率:各类别的记录数►有效百分比:即各记录数占有效样本数的百分比,有效样本数=总样本-缺失样本数►累计百分比:即各百分比逐级累加起来的结果。最终取值为100(2)绘制常用的条图、饼图等统计图(3)还可以进行分位数、描述集中趋势的基本统计量等计算功能假设某公司每周大约卖出2000万件产品,但市场的需求不稳定,该公司的生产经理想更好的掌握近期该产品的分布情况。利用频数分析你能得到什么有助于生产及销售的的信息?近期公司该产品每周的销售数据(单位:百万):2418182624231618212021241919142221262715191720201922231623211519212022152419Step1:打开“3-1”(sav、xls)-【分析】-【描述统计】-【频率】SPSS频数分析实例Step2:设置“统计量”、“图表”内容Step3:结果输出•描述分析目的:获取数据的均值、标准差、峰度等数据,进一步把握数据的集中趋势、离散程度和分布形状。基本描述统计量:(1)表示数据的中心位置(集中趋势):均值、中位数、众数等(2)表示数据的离散程度(离散趋势):全距、方差、标准差、极差、变异系数等(3)刻画分布形态的描述统计量(与正态分布比较):数据分布是否对称,偏度、峰度等众数:就是数据中出现次数或出现频率最多的数值中位数:即一组数据按升序排序后,处于中间位置上的数据值全距:也称极差,是数据的最大值与最小值之间的绝对离差偏度:描述变量取值分布形态对称性的统计量,0:对称;>0:右偏;<0:左偏峰度:描述变量取值分布形态陡峭程度的统计量,0:同正态分布;>0:尖峰分布;<0:平峰分布。Step:打开数据文件(3-2.sav)-【分析】-【描述统计】-【描述】•请你分析不同性别演员获奥斯卡金奖的年龄差异性。男:323736325153336135455539763742403260385648484043624342444156394631474560女:504435802628412161384933743033413135414237263434352661603424303731273934SPSS描述分析实例输出结果:结果:男演员的获奖年龄波动幅度小于女演员,且都不服从正态分布。探索分析基本思想从数据本身出发,采用非常灵活的方法来探讨数据分布的大致情况,从复杂的数据中分离出数据的基本模式和特点,让分析者发现其中的规律主要内容(1)检查数据是否有错。过大或过小的数据均可能是异常值、影响点或错误值。要检查这样的数据,并分析原因,然后决定是否从分析中剔除这些数据(2)获得数据分布特征。很多统计方法模型对数据的分布有要求,如方差分析就需要数据服从正态分布(3)对数据的初步观察,发现一些内在规律•例3-3:对中国南北城市的温度差异性作探索性分析数据准备1:“变量视图”定义变量数据准备2:“数据视图”输入数据Step1:打开数据(3-3.sav)-【分析】-【描述统计】-【探索】Step2:选择标签值Step3:选择输出的描述性统计量Step4:结果输出•分析样本数据的稳健性,求出中心趋势的最大似然比的稳健估计值•4种稳健估计量:Huber(稳健估计量)、Hampel(非降稳健估计量),Andrew(波估计量),Tukey(复权估计量)结果:1.北方城市的标准差大于南方城市,说明北方年平均温度变化较南方更大。2.从分布形态看,南方城市年均气温呈尖峰、右偏特征;北方城市则为平峰、左偏。Step4:结果输出结果:由M值差异可以得出,南北方数据差异明显。茎叶图:•第一列:频数,表示所在行观察值频数;•第二列:茎,实际观察值除以图下方茎宽后的整数部分•第三列:叶,实际观察值除以图下方茎宽后的小数部分Extremes异常值个数及定义范围它在反映数据整体趋势的同时,还能精确反映数值的大小,分析小样本时优势明显,在国外非常流行。箱图:•中间粗线为中位数;•方框的两端分别表示四分位数(75%)和下四分位数(25%),两者间的距离为四分位数间距;•方框外上、下两个细线分别表示除去异常值外的最大、最小值;•凡是与四分位数值的距离超过1.5倍的都定义为异常值。中位数75%百分位数25%百分位数最小值最大值异常值简单统计推断均值比较-T检验方差分析非参数检验-卡方检验均值比较-T检验总体中的每个个体之间存在差异,即使严格遵守随机抽样原则,也会由于抽到一些数值较大或较小的个体致使样本统计量与总体参数之间有所不同:两个变量均值不同的样本是否来自同一总体?其差异是否有统计学意义?类型:均值分析:用于分组计算、比较制定变量的描述性统计量,如总和、均值、方差、标准差、观测数等,还可以给出方差分析表和线性检验结果。区别与“描述”,必须分组求均值,目的在于比较单样本T检验:某个变量的样本均数与给定总体的已知均数相比,其差异是否有显著(例:周岁儿童的平均身高是否为75厘米)非配对或独立T检验:检验由两个独立样本估计的总体均数之间的差异是否显著(如两种不同饵料养殖罗非鱼)配对T检验:两组样本彼此不独立,又称为成对样本(如家兔接种某疫苗前后体温)T检验的先决条件是:样本的抽样呈正态分布,方差齐性(F检验)T检验是0假设,即总体均值与指定检验值之间不存在显著差异T检验的结果:如果在置信度为95%下,显著性水平0.05,则接受假设;如果0.05,拒绝假设10只家兔接种某疫苗后体温是否有显著变化?组别12345678910接种前体温38.038.238.238.438.438.138.138.238.538.3接种后体温38.438.538.538.838.938.538.738.538.539.01.确定样本情况:自身配对的成对样本2.SPSS数据准备-【分析】-【比较均值】-【配对样本T检验】结果输出不存在线性相关关系P<0.05,说明接种前后兔子体温有极显著差异,接种疫苗可使体温极显著升高•几个重要概念(1)因素:是指所要研究的变量(销售方式),它可能对因变量产生影响。(2)水平:水平指因素的具体表现,如销售的四种方式就是因素的不同取值等级。(3)单因素方差分析:只针对一个因素进行方差分析(4)多因素方差分析:同时针对多个因素进行方差分析方差分析案例:某公司产品销售方式所对应的销售量序号销售方式12345水平均值方式一778681888383方式二959278968990方式三717668817474方式四808479708279总均值81.54种销售方式,就是多个总体均值是否相等的假设检验问题,需要采用的方法是方差分析基本假设(1)独立性:各组观察数据,是从相互独立的总体中抽取的(2)正态性:因变量在影响因素的各个水平上的分布必须服从正态分布(3)方差齐性:各个水平下的总体具有相同的方差组间方差:水平之间的方差,既包括系统性差异,也包括随机性差异;组内方差:水平内部的方差,仅包括随机性差异单因素方差分析•SST(总的离差平方和)=SSA(组间离差平方和)+SSE(组内离差