数学建模之SPSS软件介绍西安科技大学理学院张守刚20013年7月基本内容•SPSS软件概述•SPSS数据文件的建立和整理•数据的统计图表示•描述性统计分析•均值比较与T检验•方差分析主要内容•相关分析•回归分析•聚类分析和判别分析•因子分析•SPSS在各领域的实用案例一、SPSS软件概述常用统计软件主要有:SPSS、SAS、S-Plus、Stata和E-Views等,均有各自优点,在不同统计分析领域中有着重要的应用。SAS被誉为国际上的标准统计软件和最具权威的组合式统计软件。由于它是为专业统计分析人员设计的,因而它具有功能强大,应用灵活多样的特点,为许多专业人士所喜爱,但对于非专业人士来说,它的人机对话的界面太不友好,学习起来比较困难。S-Plus作为S语言的后续发展,它在应用上以理论研究和统计建模为主,它的优点是具有强大的统计功能和绘图功能。当然,同样因为它的专业性,使用这款软件需要有较好的数理统计背景,而且对编程能力要求较高。Stata这款软件与其它款软件相比算是小巧的了,它的统计分析能力很强,绘图也很美观,但是它不提供对话框界面,而是使用命令方式操作。E-Views该软件的主要贡献在计量经济学上,可以对时间序列和非时间序列数据进行分析。SPSSStatisticalPackageoftheSocialScienceStatisticalProductandServiceSolutions社会科学统计软件包;统计产品与服务解决方案;它是世界上最著名的统计分析软件之一。SPSS广泛应用于农业、工业、商业、医学、交通运输、公检法、社会学、市场分析、股市行情、军事地理、旅游业等多个领域与行业。可以这么说,有需要数据分析的地方,就可以用到SPSS。在国际学术界有一条不成文的规定:在国际学术交流中,凡是用SPSS软件完成的计算和统计分析,可以不必说明算法。这一条就足以说明国际上使用SPSS的广泛程度。SPSS具有强大的统计功能,主要特点有•工作界面友好完善、布局合理、操作简便,大部分统计分析过程可以借助鼠标,通过菜单命令的选择、对话框参数设置,点击功能按钮来完成,不需要用户记忆大量的操作命令。菜单分类合理,并且可以灵活编辑菜单以及设置工具栏;•具有完善的数据转换接口,可以方便的和Windows其它应用程序进行数据共享和交换。可以读取Excel、FoxPro、Lotus等电子表格和数据库软件产生的数据文件,也可以读取ASCII数据文件;•提供强大的程序编辑能力和二次开发能力,方便高级用户完成更为复杂的统计分析任务的需要,具有丰富的内部函数和统计功能;•具有强大的统计图绘制和编辑功能,且增强了三位统计图的绘制功能,图形更为美观大方,输出报告形式灵活、编辑方便易行;•Help文件功能强大,具有丰富的数据资料实例和完善的使用指南。二、SPSS数据文件的建立与整理•建立和编辑好数据文件以后(Employeedata),必须进行数据文件的加工、整理,经过整理以后的文件才能更好的满足统计分析的要求,这项工作在统计学中被称为统计整理。•整理工作主要包括:排序,分组,Data菜单和Transform菜单可以完成;Data菜单主要针对观测量整理;Transform菜单主要针对变量的整理。•我们主要学习的是Analyze功能,以及作图。•事实上,EXCEL,MATLAB也能够完成,不能软件有不同的特点。在解决问题过程中,多种方法交叉使用可能更好。三、SPSS数据的统计图表示•统计图是最直观的表示数据的方式。通过图形,用户可以对数据的基本特征有一个感性的认识,为进一步选取恰当的统计方法和模型打下基础。•SPSS绘图一般不需要编程,而是由界面直接完成;并且图形美观,可进一步编辑图形。•常见统计图•交互式统计图条形图•文件chengji_1.sav,绘制学生语文平均成绩的条图;•文件chengji_2.sav,绘制分组条图;以年级分组绘制某科平均成绩条图;各年级语文、数学、英语平均成绩条图。线图•文件chengji_1.sav,绘制学生语文平均成绩的线图;以及三门课的线图,以及分线图。饼图,pareto图•文件supermarket.sav,绘制某店营业额的饼图。•绘制pareto图,按某一只表从大到小排列,同时绘制累计百分比。高低图•文件stock_SFZ.sav,绘制股票高低图;散点图•文件homesales.sav,绘制房屋销售散点图等;直方图四、描述性统计分析SPSS的统计分析功能有:•描述性统计分析•均值比较与T检验•方差分析•相关分析•回归分析•聚类分析与判别分析•因子分析或主成分分析这是我们学习的主要内容。•描述性统计分析是基础的统计分析过程。对于整理好的数据,通过描述性统计分析,可以挖掘出很多统计量的特征。•描述性统计量主要包括三类:•描述集中趋势的统计量;•描述变量离散程度的统计量;•描述变量分布的统计量。•描述集中趋势的统计量:均值、中位数、众数、和;•描述变量离散程度的统计量:标准差、方差、极小值、极大值、全距、均值的标准误差;•描述变量分布的统计量:偏度(对称)、峰度(相比正态分布)•这些量在统计学中都有定义。•Frequenceies频数分布(传统意义上的统计量)•Descriptive描述性分析(最基础的统计量)•height.sav,12岁男童身高数据五、均值比较与T检验•T检验就是检验统计量为T的假设检验,是最常用的假设检验方法之一;•假设检验,就是在统计推断中,根据样本观测量,检验总体参数或分布的假设是否正确的一种统计学方法;•T检验步骤略。•显著性水平SPSS下可选0.05/0.01•T检验共有四类:•样本均值与总体均值比较的T检验;•独立两样本均值比较的T检验;•配对设计的差数均值与总体均值0的T检验;•独立两样本几何均值比较的T检验;•SPSS下可以通过comparemeans实现。•已知从甲乙两地各抽取60名12岁的学生,其中男女各占一半,其身高数据文件为Height_2.sav,比较身高是否收到地区和性别的影响?(Means,均值描述)•单样本T检验,主要用来比较样本均值和总体均值。(One-sampleTTest)•已知某炼铁厂铁水含量服从均值为4.53的正态分布,某日随机测定了9炉铁水,含碳量Fe.sav。问含碳量是否仍为4.53?•独立样本T检验,主要用来检验两个独立样本的均值是否相等。•设有甲乙两种安眠药,比较他们的治疗效果。X表示A组8个样本服用甲药后延长睡眠时间,Y表示B组8个样本,共16个病体。设XY均服从正态分布,问两种药的疗效有无显著性差异?Medicine.sav(无显著性差异)六、方差分析•在科学实验和生产分析过程中,影响一事物的因素是多方面的。比如农作物的产量受到品种、肥料、水分、气候等因素的影响。这些因素有的影响大,有的影响小。那么,对于产量来说,哪些因素的影响是显著的呢?•产量的差异还要受随机误差的影响,那么影响程度如何?•方差分析就是采用数理统计方法对所有结果进行分析,以鉴别各种因素对影响研究对象的某些特征值影响大小的一种有效方法;•实验指标,因素等是方差分析中常见概念。•T检验主要解决两样本间均值比较问题,方差分析主要解决多个总体均值比较。•方差分析的适用条件:样本来自的总体服从正态分布样本方差必须是齐次的各个样本之间相互独立•方差分析主要有三类:•单因素方差分析;一个因素一个指标•多因素方差分析;•多元方差分析;•为了寻求适应某地区的高产油菜品种,现在选择5中不同品种进行试验,每一品种在4块条件完全相同的试验田上试种,其他施肥等田间管理措施完全一样,表中数据为某产量。根据这些数据分析不同油菜品种对平均某产影响是否显著。(Yield)123451256244250288206222230027728021232802902303152204298275322259212平均264277270286213•单因素方差检验;•方差齐次性检验结果表明:Levene统计量为1.896,Sig.=0.164,大于0.05,所以,各组的方差齐次;•方差分析表中Sig.=0.016,小于0.05,表明至少有一类油菜品种的产量和其它品种有显著性差别;•多重检验表表明,品种五与其它四种品种有显著性差异。七、相关分析•在实际工作中,常常要研究两个及以上变量的关系。比如,医学统计中研究青少年年龄和身高的关系,经济学中研究利率与股票价格的关系,农业上研究施肥量与农作物生长水平的关系,等等。研究这些关系主要通过相关分析和回归分析的方法来实现。