SPSS统计分析基础教程主讲人:彭超联系方式联系方式:QQ:704697438(彭老师)e-Mail:economicsforyou@sina.com.cnHomepage:课下问题解决方式:邮件联系网页提问课程目的应用统计学理解统计数据分析主要方法的基本理论掌握基本统计方法在实践中的应用能熟练运用SPSS软件实现数据分析建立起独立运用统计方法解决实际问题的基础能力参考书目:1、《统计学:从数据到结论》(第2版)吴喜之著,中国统计出版社,2006。2、《统计分析与SPSS的应用》,薛薇编著,中国人民大学出版社,2001。3、《SPSS统计分析教程》,李志辉等主编,电子工业出版社,2003。4、《社会统计方法——SPSS软件应用》,郭志刚主编,中国人民大学出版社,1999。在线教辅=65第一章一些基本概念什么是统计呢?报表?数字?你觉得你们需要统计吗?为什么?§1.1统计是什么?统计是人类思维的一个归纳过程站在一个路口,看到每过去20辆小轿车时,也有100辆自行车通过而且平均每10个轿车载有12个人于是,你认为小汽车和自行车在这个路口的运载能力为24:100这是一个典型的统计思维过程§1.1统计是什么?一般来说,统计先从现实世界收集数据(信息),如经济增长然后,根据数据作出判断,称为模型模型是从数据产生的模型也需要根据新的信息来改进不存在完美的模型模型的最终结局都是被更能够说明现实世界的新模型所取代§1.1统计是什么?比如说,经济生产的模型),,()(tKLFty)(),,()(ttKLFty))(),(()()(tLtKftAtY),,,,()(tmLLKftYa统计学可以应用于几乎所有的领域:精算,农业,动物学,人类学,考古学,审计学,晶体学,人口统计学,牙医学,生态学,经济计量学,教育学,选举预测和策划,工程,流行病学,金融,水产渔业研究,遗传学,地理学,地质学,历史研究,人类遗传学,水文学,工业,法律,语言学,文学,劳动力计划,管理科学,市场营销学,医学诊断,气象学,军事科学,核材料安全管理,眼科学,制药学,物理学,政治学,心理学,心理物理学,质量控制,宗教研究,社会学,调查抽样,分类学,气象改善,博彩等。§1.1统计是什么?一句话,统计学(statistics)是用以收集数据,分析数据和由数据得出结论的一组概念、原则和方法。以归纳为主要思维方式的统计不是以演绎为主的数学统计可应用于各个不同学科,在有些学科已经有其特有的方法和特点;如生物统计(biostatistics)、经济计量学(econometrics)以及目前很热门的生物信息(bioinformation)和数据挖掘(DataMining)的方法主体都是统计。你想过下面的问题吗?当你买了一台电视时,被告知三年内可以免费保修。你想过厂家凭什么这样说吗?说多了,厂家会损失;说少了,会失去竞争,也是损失。到底这个保修期是怎样决定的呢?大学排名是一个非常敏感的问题。不同的机构得出不同的结果;各自都说自己是客观、公正和有道理的。到底如何理解这些不同的结果呢?你想过下面的问题吗?任何公司都有一个信用问题。当然,在这些公司试图得到贷款时并没有不还贷的不良记录。如何根据它们的财务和商业资料来判断一个公司的信用等级呢?我国东部和西部的概念是一个比较笼统的概念。如何能够根据需要,选择一些指标来把各省,或各市县甚至村进行分类呢?疾病传播时,如何能够通过感染者入院前后的各种因素得到一个疾病传染方式的模型呢?你想过下面的问题吗?如何通过大众调查来得到性别、年龄、职业、收入等各种因素与公众对某项事物(比如商品或政策)的态度的关系呢?一个从来没有研究过红楼梦的统计学家如何根据比较写作习惯得出红楼梦从哪一段开始就不是曹雪芹的手笔了呢?如何才能够客观地得到某个电视节目的收视率,以确定广告的价格是否合理呢?你如何理解下面说法?“明天降水概率为40%”“我冬天去新加坡度假的概率为10%”“该节目收视率是30%”“调查结果表明20%的观众喜欢某节目”“抽样调查结果的误差为±3%”“支持率的95%置信区间为(25%,30%)”“某学校排名第一”“某县是贫困县”你如何理解下面说法?“某国的综合竞争力排名第43位”“该国家属于发展中国家”“该药品疗效99%”“该国贫富差距大”“这个县收入比那个县高”“该结果统计显著”“消费价格指数为120%”“他的血压已经正常了”可以想象出的统计应用例子如何确定观众/听众是否忠实于某节目(专栏)如何对电视节目排名次什么因素影响一个节目的收视率如何按照各种不同环境估计某商店的顾客人数如何按照各种指标评价雇员如何把地区(市县镇等)按照各种指标分类如何确定红楼梦第几回不是曹雪芹所写如何确定一个产品的可靠性如何进行偏差较少的民意调查如何根据一些财务数据发现漏税的嫌疑单位?你相信统计结果吗?数据可以有误或作假统计方法(有意或无意)使用不当可以误导。有低级误导和高级误导。常识判断和直觉是重要的关于美国选举的两个例子(1)谁会在1936选举中获胜?AlfLondon还是F.D.R.(罗斯福)?LiteraryDigest(文摘)送出一千万份问卷(返回二百四十万份)后,预测London会赢.而Gallop(盖洛普)只问了5000人说Roosevelt(罗斯福)会赢.最后罗斯福和盖洛普都赢了.文摘倒闭了.谁会在1948选举中获胜?ThomasDewey还是HarryTruman(杜鲁门)?Crossley,Gallop(盖洛普),Roper所有都预测Dewey会赢(每个机构用了5000个问卷).最后(包括盖洛普)他们都输了,而杜鲁门赢了.关于美国选举的两个例子(2)统计的一些做法统计可以指导我们收集数据.当拥有来自一些变量(指标)的数据或记录,但缺乏模型来描述这些变量之间关系的情况下,可用统计方法建立模型.在有了一定的模型时,统计可以确定手中数据是否令人信服地支持某种论点.模型也用来对未来进行预测.统计直观的图表展示,可以使各个领域的专家容易理解中国统计的独特历史环境•中国统计过去分为“统计学”(文科的列宁主义统计)和“数理统计”(数学类的国际意义上的统计)国内一些学者把统计称为是经济学科的一部分,则是中国特有的与前苏联关联的国情所造成;读者可以从《苏联大百科全书》的统计学条款得到答案。但前苏联的经济学中的统计学概念是其意识形态和计划经济体系的产物,其模型多属于小学数学水平,很难称为数学模型。这与现代经济学所需要的大量的统计和数学形成鲜明对照.前苏联式的“统计学”不是目前国际流行意义上的统计学或统计学的分支。统计的内容和需要的知识数学的几乎所有内容(不一定事先知道需要什么)用计算机做统计计算其他(对象)领域的知识统计和数学的区别数学思维是以演绎为主统计思维是以归纳为主,兼有演绎统计各领域利用几乎所有存在的数学内容.但统计本身的数学是为具体目标服务的,自己一般不形成数学体系计算机的重要性由于统计和数据打交道,没有计算机的发展统计就没有前途.计算机和统计的发展相辅相成§1.2现实中的随机性和规律性从中学起,我们就知道自然科学的许多定律,例如物理中的牛顿三定律,物质不灭定律以及化学中的各种定律等等。但是在许多领域,很难用如此确定的公式或论述来描述一些现象。比如,人的寿命是很难预先确定的。一个吸烟、喝酒、不锻炼、而且一口长荤的人可能比一个很少得病、生活习惯良好的人活得长。因此,可以说,活得长短是有一定随机性的(randomness)。这种随机性可能和人的经历、基因、习惯等无数说不清的因素都有关系。现实中的随机性和规律性但是从总体来说,我国公民的平均年龄却是非常稳定的。而且女性的平均年龄也稳定地比男性高几年。这就是规律性。一个人可能活过这个平均年龄,也可能活不到这个年龄,这是随机的。但是总体来说,平均年龄的稳定性,却说明了随机之中有规律性。这种规律就是统计规律。概率和机会你可能经常听到概率(probability)这个名词。例如在天气预报中会提到降水概率。大家都明白,如果降水概率是百分之九十,那就很可能下雨;但如果是百分之十,就不大可能下雨。因此,从某种意义说来,概率描述了某件事情发生的机会。显然,这种概率不可能超过百分之百,也不可能少于百分之零。换言之,概率是在0和1之间的一个数,说明某事件发生的机会有多大。有些概率是无法精确推断的比如你对别人说你下一个周末去公园的概率是百分之八十。但你无法精确说出为什么是百分之八十而不是百分之八十四或百分之七十八。其实你想说的是你很可能去,但又没有完全肯定。实际上,到了周末,你或者去,或者不去;不可能有分身术把百分之八十的你放到公园,而其余的放在别处。有些概率是可以估计的比如掷骰子。只要没有人在骰子上做手脚,你得到6点的概率应该是六分之一。得到其他点的概率也是一样。得到6的概率或者机会是可以知道的,但掷骰子的结果还只可能是六个数目之一。这个已知的规律就反映了规律性,而得到哪个结果则反映了随机性。如果你掷1000次骰子,那么,大约有六分之一的可能会得到6;这也是随机性呈现有规律的一个体现。§1.3变量和数据一节火车车厢有多少坐位是一个固定的数目,称为常数(constant)或者常量。但是,开车后,坐在这节车厢的旅客有多少就没准了。这有随机性。该车厢的乘客数为变量(variable)。§1.3变量和数据一个学校的注册在校男女生比例是固定的,为常量但是,该校任意一群学生的男女生比例就不一定和全校的比例一样了,它为变量(variable)。§1.3变量和数据当变量按照随机规律所取的值是数量时该变量称为定量变量或数量变量(quantitativevariable);因为是随机的,也称为随机变量(randomvariable)。如身高体重,购买某商品的人数等等SPSS主要为Numeric§1.3变量和数据象性别,观点之类的取非数量值的变量就称为定性变量或属性变量或分类变量(qualitativevariable,或categoricalvariable)。这些定性变量也可以由定量变量来描述,如男女生的数目,持有某观点的人数比例等等。§1.3变量和数据定性变量只有用数量来描述时,才有可能建立数学模型,并使用计算机来分析。数据中它们通常用哑元(dummyvariable)代表,比如性别用0、1代表,三种收入用0、1、2代表(或用字母代表)SPSS中没有特别的变量,往往用数值表示§1.3变量和数据有了变量,何谓数据?不同机构调查所得到的北京收入万元以上市民的比例都不一样,这是变量而这些调查产生一些数目,这些数目就是数据(data)数据是关于变量的观测值。§1.3变量和数据通过数据可验证有关的理论或假定。比如通过抽样调查验证美国选民对共和党候选人的支持率是否超过50%通过抽样,可以检验某批产品是否合格等等§1.4变量之间的关系现实世界紧密联系的人们想知道投资方式和经济效益之间的关系、旅客人数和经济发展之间的关系等等不讨论变量之间的关系,就无从谈起任何有深度的应用,统计的基本概念就仅仅是摆设而已。§1.4.1定量变量间的关系例1.1.广告投入和销售之间的关系。下表(数据ads.sav)显示了某企业的广告投入和销售额之间的关系(万元)。广告1.03.23.25.55.97.17.39.210.812.1销售9.431.833.252.453