SPSS基本原理以及实用方法2014级研周禹2014/11/3SPSS简介SPSS(StatisticalProductandServiceSolutions),“统计产品与服务解决方案”软件。SPSS集数据录入、资料编辑、数据管理、统计分析、报表制作、图形绘制为一体。SPSSforWindows由于其操作简单,该软件还可以应用于经济学、数学、统计学、物流管理、生物学、心理学、地理学、医疗卫生、体育、农业、林业、商业等各个领域。目前最高版本是SPSS22.0版,较普遍使用的是19.0版。1968年:斯坦福大学三位学生创建了SPSS1968年:诞生第一个用于大型机的统计软件1975年:在芝加哥成立SPSS总部1984年:推出用于个人电脑的SPSS/PC+1992年:推出Windows版本,开始全球化发展。SPSS使用前的准备SPSS_Statistics_19_win32的安装,参考网络。注意破解文件的拷贝。标题栏菜单栏工具栏编辑栏变量名栏内容区窗口切换标签页状态栏软件界面SPSS软件运行方式•完全窗口菜单运行管理方式•程序运行管理方式•混合运行管理方式数据统计分析的基本步骤建立SPSS数据文件分析前的预处理统计分析分析结果的解释说明定义数据文件结构录入、修改、保存数据文件SPSS数据管理SPSS数据的属性及其定义方法一个完整的SPSS数据结构包括:变量名、变量类型、变量名标签、变量值标签、缺失值的定义、度量的尺度、及数据的显示属性(显示宽度、列宽度、对齐方式)•首字符必须是字母或汉字,后面可以是除(!、?*)之外的任意字符。•变量名的结尾不能是圆点、句点、下划线•变量名的长度不能超过64个字符•变量名必须唯一,并且不区分大小写•SPSS的保留字不能作为变量名(ALL、NE、EQ、GT•AND、NOT、WITH)•如不指定变量名,则系统默认变量名以VAR开头后面跟5个数字变量名•数值型:根据其功能和形式又可细分为(标准型、逗号型、句点型、科学计数型、美元型和自定义货币型)•字符型•日期型系统默认为标准数值型变量的类型度量尺度变量名标签(variablelabel):对变量名进行进一步步补充说明。1.定距型变量(scale)可以表示如温度、重量等含义的连续性数值变量,也可以表示年龄、次数等离散型变量.还可以表示时间的日期变量或者货币的货币型变量,但不能是字符型变量2.定序型变量(ordinal)其值表示一种顺序的前后,如职称变量可分为高中低三个档次,可用A(1)、B(2)、C(3)表示,定序型变量可以是数值型也可以字符型。3定类型变量(nominal):该变量不存在变量值之间的大小、顺序的前后等。只表示属于的类别。如性别中“1”表示男,“2”表示女等,可以是数值型也可以字符型SPSS数据管理SPSS数据文件的建立可以利用【File(文件)】菜单中的命令来实现。具体来说,SPSS提供了四种创建数据文件的方法:●新建数据文件;●直接打开已有数据文件;●使用数据库查询;●从文本向导导入数据文件。SPSS连接oracle数据库获取数据步骤:1、“运行”中输入C:\Windows\SysWOW64\odbcad32.exe安装数据源。2、在系统DSN中添加oracle数据库ODBC。3、连接配置oracle数据库。4、在SPSS打开后选择:文件—打开数据库—新建查询。SPSS数据管理SPSS数据文件的整理方法:●数据文件的合并;●数据文件的转置;●数据文件的重组;●变量计算;●缺失值的替代;●数据排序;SPSS数据分析计算描述统计量•描述集中趋势的统计量均值:表示某变量所有变量值集中趋势或平均水平的统计量。适用于特点:利用了全部数据定距数据,易受极端值的影响。SPSS数据分析计算描述统计量•描述离散程度的统计量标准差:表示某变量的所有变量值离散程度的统计量。SPSS中计算的是样本标准差。方差:标准差的平方。SPSS中计算的是样本方差。极差:最大值—最小值计算描述统计量•描述对称程度的统计量偏度:描述某变量分布形态的偏斜程度和方向的统计量.偏度为0表示对称;大于0表示正偏差大(右偏),频数最大的值比均值小,极值大于均值;小于0表示负偏差大(左偏)。SPSS数据分析计算描述统计量•其他统计量标准误差:抽样分布中的标准差,反映样本误差。均值标准误差(meansofS.E)中心极限定理认为:样本均值~N(u,2/n)反映样本均值与总体真值间的平均离散程度样本数越大,样本均值的离散程度越小,对真值的估计越准。SPSS数据分析SPSS数据分析数据分类聚类分析:是建立一种分类,是将一批样本(或变量)按照在性质上的“亲疏”程度,在没有先验知识的情况下自动进行分类的方法.其中:类内个体具有较高的相似性,类间的差异性较大.聚类分析的亲疏远程度的衡量指标:相似性:数据间相似程度的度量距离:数据间差异程度的度量.距离越近,越“亲密”,聚成一类;距离越远,越“疏远”,分别属于不同的类。常用欧式距离计算。SPSS数据分析相关分析相关关系反映出变量之间虽然相互影响,具有依存关系,但彼此之间是不能一一对应的。例如,学生成绩与其智力因素、各科学习成绩之间的关系、教育投资额与经济发展水平的关系、社会环境与人民健康的关系等等,都反映出客观现象中存在的相关关系。相关系数的数值范围是介于–1与+1之间(即–1≤r≤1)。两个变量之间的相关程度用相关系数r的绝对值表示,其绝对值越接近1,表明两个变量的相关程度越高;其绝对值越接近于0,表明两个变量相关程度越低。如果其绝对值等于零1,则表示两个变量完全直线相关。如果其绝对值为零,则表示两个变量完全不相关。SPSS数据分析回归分析线性回归模型侧重考察变量之间的数量变化规律,并通过线性表达式,即线性回归方程,来描述其关系,进而确定一个或几个变量的变化对另一个变量的影响程度,为预测提供科学依据。分为一元线性以及多元线性回归。基本步骤:①确定回归方程中的自变量和因变量;②从收集到的样本数据出发确定自变量和因变量之间的数学关系式,即确定回归方程;③建立回归方程,在一定统计拟合准则下估计出模型中的各个参数,得到一个确定的回归方程;④对回归方程进行各种统计检验;⑤利用回归方程进行预测。SPSS数据分析时间序列分析时间序列分析是概率统计学科中应用性较强的一个分支,在金融经济、气象水文、信号处理、机械振动等众多领域有从所采用的数学工具和理论,时间序列分析分为时域分析和谱分析两大类分析方法。预测的流程通常可以用下图来描述:•条形图(BarChart):用宽度相同的条形的高度或长短来表示频数分布变化的图形,适用于定序和定类变量的分析。•饼图(PieChart):用圆形及圆内扇形的面积来表示频数百分比变化的图形,以利于研究事物内在结构组成等问题。•直方图(Histograms):用矩形的面积来表示频数分布变化的图形,适用于定距型变量的分析。SPSS绘制图表SPSS与GIS的结合技术流程各类数据:遥感数据;文本数据;等等数据预处理:几何纠正;数据融合;等等SPSS数据分析:聚类分析;预测分析;等等空间分析:利用GIS软件进行所需空间等等得出结论完成研究SPSS参考参考书籍:《SPSS统计软件》主编刘仁权中国中医药出版社《SPSS统计分析基础教程》主编张文彤闫洁高等教育出版社《SPSS统计分析高级教程》主编张文彤副主编董伟高等教育出版社参考网址:〖SPSS资料〗〖人大论坛〗〖中国社会调查网〗谢谢周禹2014/11/3