1以Excel和SPSS为工具的管理统计同济大学经济与管理学院管理科学与工程系张建同教授2第四章抽样分布和参数估计本章教学目标通过本章内容的学习了解抽样调查的特点、方法及抽样误差的计算。了解和掌握推断统计学的基本概念;统计学中最常用的3种概率分布(2分布、t分布、F分布)及其查表使用;了解和掌握统计推断中的一个基本问题:参数估计及其在经济管理中的应用;3本章主要内容§4.1简单随机抽样和统计量§4.2其他抽样方法§4.3参数的点估计§4.4区间估计本章重点:推断统计学的基本概念、基本原理和基本方法;2分布、t分布、F分布的右侧分位点的概念及其查表使用4一.抽样调查概述1.抽样调的特点(1)按随机原则抽取调查单位这是抽样调查与其他非全面调查的主要区别之一。随机原则——指在抽取样本单位时完全排除调查者的主观判断,使各总体单位都有同等的被抽中的机会。只有严格遵循随机原则,才能使样本的内部结构类似于总体的结构分布特征,对总体具有充分的代表性。§4.1抽样调查和抽样误差(增加)5(2)用样本指标推断总体的数量分布特征抽样调查的目的是根据所得到的样本数据推断被调查现象总体的特征。如总体指标、总体的概率分布等,这是其他非全面调查方法都无法做到的。(3)可以计算和控制抽样误差任何调查方法都会产生误差,抽样调查以概率论为其理论依据,根据数理统计所提供的抽样误差的理论和方法,可以把推断的误差控制在一定的精确度内,以满足实际工作的需要。而其他调查方法都无法计算和控制误差。62.抽样调查的优点抽样调查和全面调查相比,有以下有显著优点:(1)费用低与进行全面调查相比,抽样调查可以节省大量的人力、物力、财力,获得得事半功倍的效果。(2)速度快调查和综合样本资料要比收集和综合全面调查的资料更快。当有些资料具有很强的时效性时,全面调查只能获取陈旧的信息,而抽样调查可以获得及时的信息。7(3)适用面广许多社会经济现象不可能采用全面调查方法,如破坏性的产品检验,矿藏资源的调查等等,只能用抽样调查。有些调查则需要受过专业训练的人员或专用设备来获得有关数据,也只能用抽样调查方法。此外当要调查的是无限总体时,就更不可能进行全面调查。(4)准确度高由于抽样调查的工作较全面调查大大减少,调查人员可以经过专门训练,因此可能取得更准确的结果。例如对人口普查、统计报表制度等获得的全面调查结果,通常需要采用抽样调查进行验证或修正。83.样本——抽样调查中随机抽取的部分总体单位组成的集合;样本中的个别单位称为样本单位。样本中的单位数称为样本容量,记为n。94.总体参数和样本指标(1)总体参数——也即总体指标,是反映总体数量分布特征的综合指标。在抽样调查中,总体指标都是未知的常数,需要使用样本指标进行推断估计。故称为待估的参数。在推断统计学中,称总体平均数为总体均值,记为μ。同样称样本平均数为样本均值,记为X10(2)统计量——也称为样本指标,是根据样本数据计算的综合指标,用以估计总体指标。由于从同一个总体中抽取的不同样本,其样本指标值都不相同,因此样本指标是随机变量。常用的样本指标主要有以下几个,它们分别是对应总体指标的优良估计。①样本均值XniixnX11n——样本容量;fi——第i组子样本中的单位数;xi——第i个(组)样本单位的标志值或组中值;niiiifxfX11或:11②样本方差和标准差样本方差和样本标准差是反映样本数量标志变异程度的指标,分别是总体方差和标准差的优良估计。;niixxnS122)(11;)(1112niixxnSniiiifxxfS122)(11或:)(1112niiiifxxfS或:12③样本比例——样本中具有某一属性的单位数在全部样本单位中所占的的比重,记为p。n1——样本中具有某一属性的单位数。样本比例是总体比例的优良估计。nnp113④样本比例的均值、方差和标准差(补充),nXp,)(nPXE)1()(PnPXDnXEpE)(nXDp2记样本成数的方差和标准差分别为,和2pp则2)(nXDnPP)1(nPPp)1(设总体比例为P,则X~B(n,P)。则样本成数从而可得PX为n次独立试验中具有该特征的单位数,146.抽样方式抽样方式可分为重复抽样和不重复抽样两种。⑴重复抽样——又称放回抽样,指每次从总体中随机抽取一个样本单位,观察登记其标志值后再放回总体中,如此进行n次的抽样方法。重复抽样的特点:①在重复抽样的过程中,被抽取的总体单位总数始终保持不变,每一次抽样中各总体单位被抽到的机会都相同,每次抽样结果相互独立。②每一总体单位都有被重复抽取的可能。15⑵不重复抽样——也称不放回抽样,指被抽到的单位不再放回总体,每次仅在余下的总体单位中抽取下一个样本的抽样方法。特点:①任一总体单位都不会被重复抽到;②每次抽样结果都受到以前各次抽取结果的影响,因此各次抽取结果是不独立的;③可以一次抽取所需要的样本单位数。在实际应用中通常采用的都是不重复抽样方法。16二.抽样方法抽样方法关系到抽样调查的成本费用和抽样误差的大小,应根据调查的目的、和调查对象的特点采取不同的抽样方法。主要有以下四种抽样方法。1.简单随机抽样——也称纯随机抽样,指不对总体作任何处理,直接按随机原则抽取调查单位的抽样方式。简单随机抽样最能体现抽样的随机原则,抽样误差的计算就是以简单随机抽样为基础的。局限性:当总体单位数很大时,就难以实现简单随机抽样,且抽样误差较大。使用EXCEL实现简单随机抽样172.分层随机抽样——也称类型抽样,是将总体按某一主要标志进行分类(分组),分别从各类型组中随机抽取一部分调查单位共同组成样本。三种方法:(1)等数分配法(2)等比分配法(3)最优分配法例如,对企业进行调查时将企业划分为特大型企业、大型企业、中型企业和小型企业四个类型组。对家庭收入进行调查时将居民家庭分为高收入、中等收入、低收入三个类型组等。184.整群抽样人们就将总体的各单位按一定的标志或要求,分成若干群,然后以群为单位,随机抽取几个群,对被抽中的群进行全部调查,这就是整群抽样。如对人口普查资料进行复查,就采用整群抽样的方式。当群中的元素差异性大时,整群抽样得到的结果比较好。在理想状态下,每一群是整个总体小范围内的代表。193.机械抽样也称等距抽样和系统抽样,其步骤如下:(1)按某一标志值的大小将总体单位进行排队并顺序编号;(2)根据确定的抽样比例确定抽样间距;(3)随机确定第一个样本单位;(4)按顺序从总体中等间距地抽取其余样本单位。系统抽样的随机性主要体现在第一个样本单位的抽取上,因此一定要保证抽取第一个样本单位的随机性。20方便抽样方便抽样是一种非概率抽样技术。正如名称所暗示的,样本的确定基于简便。样本中所包括的项不是事先确定或选取时有已知的概率。例如,一个教授在一所大学作一项调查,由于学生志愿者已准备好并且参加该项调查无需或几乎不需要成本,故由他们组成样本。21判断抽样另一种非概率抽样技术为判断抽样,在这个方法中,由对总体非常了解的人选择总体中最具代表性的元素。经常这是一个相对容易选择样本的方法。例如,报告者可抽样选择2个或3个人大代表,认为这些代表反映了整个代表的普遍意见。然而,样本结果的质量依赖于选择样本的人的判断。22抽样类型概率抽样非概率抽样简单随机抽样分层随机抽样整群抽样系统抽样方便抽样判断抽样其他非概率抽样方法231.统计误差和抽样误差统计结果与现象实际之间存在的差异统称为统计误差。统计误差可以分为以下两类:(1)登记性误差——指由于调查工作中的差错或弄虚作假等原因而引起的误差。无论是全面调查还是非全面调查,都可能存在登记性误差。登记性误差从理论上应是可以避免的,但实际中却难以完全避免,在误差理论中不考虑这类误差。三.抽样误差和标准误差24(2)代表性误差——指由于随机样本内部结构与总体结构之间存在差异而引起的样本指标与总体指标之间的差异。代表性误差又可分为两类:①系统性误差——指由于违反抽样的随机原则而产生的误差。②随机误差——也称抽样误差,指由于随机抽样本身导致的现样本内部结构与总体结构不一致而产生的误差。在抽样调查中随机误差是不可避免的。如全部产品中有2%的次品,随机抽取100件,其中恰好有2件次品的可能性是很少的。252.影响抽样误差的主要因素(1)总体标准差总体标准差越大,样本结构就越难以接近总体结构,抽样误差也就越大。(2)样本容量样本容量越大,样本结构就越接近总体结构,样本对总体的代表性就越高,抽样误差就越小。(3)抽样方法不同抽样的方法,将直接影响样本内部结构与总体结构之间的差异。如类型抽样就可以使样本结构更接近于总体结构,因而其抽样误差是所有抽样方法中最小的。(4)抽样方式不重复抽样可以使样本内部结构更接近总体结构。因此不重复抽样的抽样误差小于重复抽样。263.标准误差(抽样平均误差)⑴标准误差的概念在一次抽样中,均值和成数这两个指标的抽样误差可以分别表示为;||X||Pp但由于样本指标是随机变量,根据不同的样本计算的样本指标都不会相同,因而不同样本的抽样误差也就各不相同,因此需要引进标准误差即抽样平均误差的概念。标准误差——是指所有可能样本的样本指标与总体指标间的平均离差,反映抽样误差的平均水平。27⑵标准误差的计算可以证明,样本均值的均值就是总体均值;同样,样本成数的均值就是总体成数。由此可知,抽样平均误差就是样本指标与其均值的平均离差。而测定平均离差最好的方法就是计算标准差。因此抽样平均误差就是样本指标的标准差,故称为标准误差。下面仅介绍简单随机抽样标准误差的计算公式。28四.简单随机抽样的标准误差1.均值的标准误差nXX⑵不重复抽样11NnNnXN——总体单位总数;—修正系数。—Nn1当抽样比n/N≤5%,或总体单位数未知时,或无限总体时,可按重复抽样公式计算抽样平均误差。NnnS11nS⑴重复抽样292.比例的标准误差⑴重复抽样nPPp)1(pP——总体比例p——样本比例⑵不重复抽样NnnPPp1)1(npp)1(Nnnpp1)1(30例1某地在2800农户中随机抽取5%进行平均收入调查,调查结果:户均年收入为5965元,样本标准差为827元,分别求重复抽样和不重复抽样的标准误差。解:n=2800×5%=140,S=827(元)重复抽样:nSX不重复抽样:NnnSX11140827(元)89.6905.011401827(元)12.6831例2某厂产品的的次品率为2%,现从10000件产品中抽取100件进行检验。分别求重复抽样和不重复抽样的标准误差。解:次品率是比例指标。由题意,P=0.02,N=10000,n=100,重复抽样:nPPp)1(不重复抽样:NnnPPp1)1(100)02.01(02.0%4.101.01100)02.01(02.0%39.132一.再论总体与样本1.总体在推断统计中,人们关心的是所研究对象的某个指标X(如产品的寿命,居民家庭月收入水平和月生活费支出等),它是一个随机变量。因而在推断统计中,总体是指某个随机变量取值的全体。按总体X所包含的个体数是有限还是无限的,可将总体分为有限总体和无限总体两类。以下假定总体都是无限总体。§4.2统计量332.随机样本设总体为X,X1,X2,···,Xn为从总体X中抽取的n个个体,称X1,X2,···,Xn为总体X的一个样本,并称n为样本容量。样本中每个个体Xi也是随机变量,称为样本分量;抽样中所得到的样本数据x1,x2,···,xn称为样本观察值。以下所称的样本都假定是简单随机样本。34统计量是用样本构造的函数,它包含了样本中的信息,因而可以用统计量的值来推断总体参数,如均值、方差、成数等。二.统计量设X1,X2,···,Xn为总体X的一个样本,