第1章什么是统计学?统计学是研究收集数据,整理数据,分析数据以及由数据分析得出结论的方法,简称为“数据的科学”。统计滥用——不好的样本——过小的样本——误导性图表——局部描述——故意曲解统计应用上的两个极端——不用或几乎不用统计——简单问题复杂化随机性和规律性当我们不能预测一件事情的结果时,这件事就和随机性联系起来了。通过对看起来随机的现象进行统计分析,统计知识能够帮助我们把随机性归纳于可能的规律性中。统计从我们如何观察事物和事物本身如何真正发生这两个方面帮助我们理解随机性和规律性的重要性。因此,统计可以看做是一项对随机性中的规律性的研究。规律也表现出某种随机性。在这种意义下来说,统计就成了对数据中的偏差问题的研究。根据作为统计基础的数学理论,我们可以确定一项调查中的某一比例有多大的随机性,以及在下一次的重复调查中,这个比例可能有多大的偏差。我们还可以指出,两个比例之间的差异是否大到了随机性本身所不能解释的地步。概率概率是一个0到1之间的数,它告诉我们某一事件发生的机会有多大。•概率为统计学的第三个方面——如何从数据中得出结论——奠定了基石。•我们可能永远不能确定两个数字的差异是否超出了随机性本身所预期的范围,但是我们可以确定,这种差异发生的概率是大还是小。根据这个基本思想,在很多情况下,我们可以得出关于我们所处的这个世界的重要结论。变量(variable)是指一个可以取两个或更多个可能值的特征、特质或属性。比如,性别是取两个值的变量,因为一个人只可能是男性或女性。还有其它变量的例子,如人的寿命,体重,以及汽车每升汽油所能行驶的距离,等等。变量的值(value)通常是对某一特定个体的度量,特定个体可能是指一个人,一个家庭,一个地区,或一个国家。表1.1列出了一些变量、变量的取值及其所测量的个体的例子。从表中可知,性别变量是以人为个体的观测,孩子的数目是以家庭为个体的观测。变量,值和个体变量变量的值个体性别男,女人学历小学,中学,本科,硕士,博士人失业有工作,无工作人孩子数0,1,2,3,…家庭贫困程度严重,一般,边缘,没有地区•上面介绍的是经验变量,级处理的对像是我们周围可观测到的物质世界中的事物。•用数学方法推导的变量称为理论变量——z,t,和F变量。•与变量相对的概念是常数。在统计中经常使用的一种被称做参数的常数。1.定量变量或数值变量–可以用阿拉伯数据来记录其观察结果–如“企业销售额”、“上涨股票的家数”、“生活费支出”、“投掷一枚骰子出现的点数”–定量变量的观察结果称为定量数据或数值型数据2.分类变量–表现为不同的类别–如“性别”、“企业所属的行业”、“学生所在的学院”等–分类变量的观察结果就是分类数据3.顺序变量或有序分类变量–具有一定顺序的类别变量–如考试成绩按等级,一个人对事物的态度–顺序变量的观察结果就是顺序数据或有序分类数据分类变量和顺序变量统称为定性变量数据的收集数据收集的第一个准则是要清楚测量的是什么。换句话说,变量必须有一个明确的适合研究目的的定义。观测数据数据收集有两种主要方法,其中一种是当我们观测现实世界时收集到的数据,如在不同城市中的流动人口数量。观测数据是指仅通过对世界的观察(而没有操纵或控制它)所得到的数据。收集观测数据的研究者们尽量不干涉研究对象的行为模式。数据的来源——观测研究1.抽样调查(samplesurvey)2.普查(census)3.抽样的精髓:从检查一部分来得知全体。4.抽样调查是一种很重要的观测研究,选中这些人是因为他们具有代表性局限性:timeandcost总体和样本•收集数据是为了从收集的个体中得出结论。•所有我们感兴趣的个体就组成了总体。比如,你读本教材这一时刻,我国所有居民就构成了一个总体。•有时我们能够收集到总体中所有个体的数据。在这种情况下,我们就是对总体做了普查(census)。我国进行的第六次全国人口普查就是希望确定我国所有居民数。•然而,在苛刻的现实生活中,由于资金、时间有限以及不断变化的环境条件,普查通常是很困的。此时,我们需要把收集数据限制在总体的一个样本上,样本是总体的中的一个被选中的部分。样本的选择•我们希望基于样本得出的结论能够适用于该样本所属的总体,这依赖于获得一个好的样本,否则这是不可能实现的。•由于样本选择对于结果的可信度有重要作用,所以根据正确的统计原理选择样本是非常必要的。概率抽样1.根据一个已知的概率来抽取样本单位,也称随机抽样2.特点–按一定的概率以随机原则抽取样本抽取样本时使每个单位都有一定的机会被抽中–每个单位被抽中的概率是已知的,或是可以计算出来的–当用样本对总体目标量进行估计时,要考虑到每个样本单位被抽中的概率随机样本指一个合适的、能够被推广应用于更大的总体的统计样本。当一个总体中的名字或代码被放进一个纸箱子里,搅拌均匀,并随机抽取,其结果就是一个简单随机样本简单随机抽样1.从总体N个单位(元素)中随机地抽取n个单位作为样本,使得总体中每一个元素都有相同的机会(概率)被抽中——帽子抽签法2.抽取元素的具体方法有重复抽样和不重复抽样可以使用随机数表或电脑产生的随机数字来实现1.特点–简单、直观。–用样本统计量对目标量进行估计比较方便2.局限性–抽出的单位很分散,给实施调查增加了困难–没有利用其他辅助信息以提高估计的效率简单随机样本1.由简单随机抽样形成的样本2.从总体N个单位中随机地抽取n个单位作为样本,使得每一个容量为n样本都有相同的机会(概率)被抽中3.参数估计和假设检验所依据的主要是简单随机样本分层抽样1.将总体单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本2.优点–保证样本的结构与总体的结构比较相近,从而提高估计的精度–组织实施调查方便–既可以对总体参数进行估计,也可以对各层的目标量进行估计系统抽样1.将总体中的所有单位(抽样单位)按一定顺序排列,在规定的范围内随机地抽取一个单位作为初始单位,然后按事先规定好的规则确定其他样本单位-先从数字1到k之间随机抽取一个数字r作为初始单位,以后依次取r+k,r+2k…等单位2.优点:操作简便,可提高估计的精度3.缺点:对估计量方差的估计比较困难整群抽样1.将总体中若干个单位合并为组(群),抽样时直接抽取群,然后对中选群中的所有单位全部实施调查2.特点–抽样时只需群的抽样框,可简化工作量–调查的地点相对集中,节省调查费用,方便调查的实施–缺点是估计的精度较差普查•又称“清点”。企图把整个总体纳入样本的抽样调查。•即使有政府的强大后盾,普查也不是一定做得到的。•但一个糟糕的普查往往比不上一个设计和实施都比较好的抽样调查。方便样本:如何产生一个坏的样本能够很容易、很经济地得到的样本称为方便样本•从方便样本中得出的结果有时候很难推广到整个总体。收集观测数据时的错误和误差•随机抽样误差是样本统计量和总体参数之间的差距,是在选取样本时因机遇造成的。•非抽样误差是和“从总体取样本”这个动作无关的误差。非抽样误差即使在人口普杳中也可能出现。调查中的有些误差纯粹是统计上的,主要的统计误差即所谓的抽样误差。抽样误差:并非错误的误差未响应误差未响应误差是指由于包含在样本中的一部分人未回答调查而造成的误差。•一些经验表明,在大部分情况下,未响应者和响应者并无多大差别。如果我们开始时有一个高的响应率,那么可假定未响应者也依同样的比例作出回答。但是如果响应率很低,例如不超过50%,那么不响应的影响可能会很大。响应误差响应误差是在调查过程中,由于问题的提问方式、问题所处的位置或访员的影响而使得响应者在回答问题时产生的偏差。实验数据:寻找造成结果的原因•实验数据是指在实验中控制实验对象而收集到的变量的数据。实验是检验变量间因果关系的一种方法。在实验中,研究者试图控制某一情形的所有相关方面,操纵少数感兴趣的变量,然后观察实验结果。实验的特点是:实验者(调查者)存心要改变被实验者的行为。在做实验时,我们不只是观察个体或问他们问题,而是刻意加上某些处理,以期能观察其反应。观测研究VS实验•实验比观测研究更有优势,因为实验可以为“因果关系”提供良好的证据。•如果我们适当的设计实验,例如使得两组对象的其他变量——年龄、教育程度等基本接近,所以两组之间只有一项系统性的差别,就是一组参加了工作培训,另外一组没有。第2章分类数据的描述方法数据分析的三个原则2.2频数表2.3统计图2.4列联表数据分析包括三种形式:为数据画一个图,制作一个表或者计算一些我们感兴趣的东西。•这可以帮助我们对数据进行简化。简化使得理解数据和从数据中提取信息变得容易了。•但是数据简化有一个不足之处,就是难以从简化的形式中恢复原始数据,因此,当我们分析数据时,几乎总会丢失某些信息。数据分析的三个原则1、绘制一个图。图像可以帮助你看到从数据表里看不到的信息,有助于你选择分析的方法,帮你明确思考隐藏在数据背后的模式和关系。2、绘制一个图。精心设计的图像在分析工作中很重要。它能够展现重要的特征和模式,有时候可以揭示出你意想不到的事情:值得注意的(可能是错误的)数据或意想不到的模式。3、绘制一个图。使用一个精心挑选的图像是向其他人汇报你的数据分析结果的最佳方式。频数表1.频数:落在各类别中的数据个数2.比例:某一类别数据个数占全部数据个数的比值3.百分比:将对比的基数作为100而计算的比值4.比率:不同类别数值个数的比值频数表或频数分布表可以帮助了解变量取值的分布状况。频数表是遵循既不重叠又不遗漏的原则,按变量(数据特征)的取值归类分组,把总体的所有单位按组归并排列,其各个组别所包含的数据数目(频数)的汇总表格。简而言之,频数表包括两个要素:总体按其标志所分的组和各组所分布的单位数量。统计图•如果想获得更生动的展示,我们可以使用统计图。•统计图是用几何图形或具体事物的形象来表现统计数据的一种形式。•统计图既可以节省大量文字叙述,又可便于数据的对比分析与积累。利用统计图表现统计数据,能更为鲜明醒目、一目了然、形象具体地显示现象之间的相互关系。•按照图形的形式,统计图大体上可以分为几何图、象形图和统计地图三种。(1)几何图。几何图是利用几何的形和线来表明统计数据的图形,包括条形图、饼图等。(2)象形图。象形图是以表示现象本身形象的长度、大小、多少来表示数值大小的一种图形。例如用油桶的大小表示的某地1990年、2000年和2005年三年的原油产量(3)统计地图。统计地图是用不同的颜色或纹理表示变量或某种指标在地域上的分布特征及规律,用以显示不同地域事物数量的分布情况。例如可以利用颜色的深浅来表示某地区各县某种产品的生产情况。面积原则•在得到频数表之后,我们就可以按照数据分析的三个原则来对数据进行绘图。但是不能随便做图,因为一个糟糕的图像反而会歪曲我们对数据的认识。•获得最佳数据展示的一个基础原则就是面积原则,即图像一部分所占的面积应该与数据的量级对应。条形图和柱形图•分类数据的一个常用统计图是条形图。•条形图是用等宽直条的长短来表示各个相互独立的指标大小的图形,适用于相互独立的数据(数据有明确分组,不连续)。•条形图可以描述那些已经用频数或频率汇总了的定性变量。一个坐标轴代表定性变量的各个取值,在每个变量位置的条的长度和其所代表的水平的频数或频率成比例。•条形图分为单式和复式两种,单式适用于只有一组观察数据,复式适用于有若干组观察数据。•条形图有很多变种。比如,纵轴和横轴可以互换,这决定条形是垂直放置(柱形图)还是水平放置。条形图还可以描述离散定量变量数据的频数、频率或概率分布。帕累托图帕累托图是根据“关键的少数和次要的多数”的原理而制做的。饼图•饼图(piechart)又叫圆形图,是一个圆面积为100%,由许多扇形组成的圆,各个扇形的大小比例等于变量各个水平(或类别)的频率或比例,即表示了不同组成部分的相对重要性。饼图对描述定类尺度的数据特别有用。饼图比条形图简单,描述比例较直观。但是当变量太多时,饼图就不那么好看了。但是,有时候我们不容易看出不同类别之间的差异。列联表•列联表是由两个或两个以上变量进行交叉分类得到的频