第四章抽样与参数估计推断统计:利用样本统计量对总体某些性质或数量特征进行推断。从数据得到对现实世界的结论的过程就叫做统计推断(statisticalinference)。这个调查例子是估计总体参数(某种意见的比例)的一个过程。估计(estimation)是统计推断的重要内容之一。统计推断的另一个主要内容是本章第二节要介绍的假设检验(hypothesistesting)。因此本节内容就是由样本数据对总体参数进行估计,即:学习目标:了解抽样和抽样分布的基本概念理解抽样分布与总体分布的关系了解点估计的概念和估计量的优良标准掌握总体均值、总体比例和总体方差的区间估计第一节抽样与抽样分布回顾相关概念:总体、个体和样本抽样推断:从所研究的总体全部元素(单位)中抽取一部分元素(单位)进行调查,并根据样本数据所提供的信息来推断总体的数量特征。总体(Population):调查研究的事物或现象的全体参数个体(Itemunit):组成总体的每个元素样本(Sample):从总体中所抽取的部分个体统计量样本容量(Samplesize):样本中所含个体的数量一般将样本单位数不少于三十个的样本称为大样本,样本单位数不到三十个的样本称为小样本。一、抽样方法及抽样分布1、抽样方法(1)、概率抽样:根据已知的概率选取样本①、简单随机抽样:完全随机地抽选样本,使得每一个样本都有相同的机会(概率)被抽中。注意:在有限总体的简单随机抽样中,由抽样是否具有可重复性,又可分为重复抽样与不重复抽样。而且,根据抽样中是否排序,所能抽到的样本个数往往不同。②、分层抽样:总体分成不同的“层”(类),然后在每一层内进行抽样③、整群抽样:将一组被调查者(群)作为一个抽样单位④、等距抽样:在样本框中每隔一定距离抽选一个被调查者(2)非概率抽样:不是完全按随机原则选取样本①、非随机抽样:由调查人员自由选取被调查者②、判断抽样:通过某些条件过滤来选择被调查者(3)、配额抽样:选择一群特定数目、满足特定条件的被调查者2、抽样分布一般地,样本统计量的所有可能取值及其取值概率所形成的概率分布,统计上称为抽样分布(samplingdistribution)。某个样本统计量(如均值、比例、方差等)的抽样分布,从理论上说就是在重复选取容量为n的样本时,由每一个样本计算出的该统计量数值的相对频数分布或概率分布。二、样本均值的抽样分布与中心极限定理1、样本均值的抽样分布(一个例子)【例】设一个总体,含有4个元素(个体),即总体单位数N=4。4个个体分别为X1=1、X2=2、X3=3、X4=4。总体的均值、方差及分布如下均值和方差5.21NXNii25.1)(12NXNii总体数据的直方图00.511.51234其他接收频数频率样本均值的抽样分布01234511.522.533.54其他接收频数频率现从总体中抽取n=2的简单随机样本,在重复抽样条件下,共有42=16个样本。所有样本的结果如下表计算出各样本的均值,如下表。并给出样本均值的抽样分布所有样本均值的均值和方差:式中:M为样本数目比较及结论:1.样本均值的均值(数学期望)等于总体均值2.样本均值的方差等于总体方差的1/n2、中心极限定理所有可能的n=2的样本(共16个)第一个观察值第二个观察值1,11,21,31,42,12,22,32,43,13,23,33,44,14,24,34,416个样本的均值(x)第一个观察值第二个观察值1.01.52.02.51.52.02.53.02.02.53.03.52.53.03.54.05.2160.45.10.11Mxniix5.2160.45.10.11MxniixnMxnixix222122625.016)5.20.4()5.20.1()(nMxnixix222122625.016)5.20.4()5.20.1()(当总体服从正态分布N~(μ,σ2)时,来自该总体的所有容量为n的样本的均值X也服从正态分布,X的数学期望为μ,方差为σ2/n。即x~N(μ,σ2/n)中心极限定理:设从均值为μ,方差为σ2的一个任意总体中抽取容量为n的样本,当n充分大时(一般,30n就可以用中心极限定理了),样本均值X的抽样分布近似服从均值为μ、方差为σ2/n的正态分布。即有:XE和nx也即有,nXz~1,0N其实,样样本本均均值值抽抽样样分分布布的的数数字字特特征征一一方方面面与与总总体体分分布布的的均均值值和和方方差差有有关关,,另另一一方方面面也也与与抽抽样样的的方方法法是是重重复复抽抽样样还还是是不不重重复复抽抽样样有有关关。。无无论论是是重重复复抽抽样样或或不不重重复复抽抽样样,,样样本本均均值值的的数数学学期期望望始始终终等等于于总总体体的的均均值值。。但但在在不不重重复复抽抽样样条条件件下下,,样样本本均均值值的的方方差差需需要要用用修修正正系系数数1NnN去去修修正正重重复复抽抽样样时时均均值值的的方方差差。。当当N很大,而/5%nN时,其修正系数11NnN,可视不不重重复复抽抽样样与与重重复复抽抽样样一一致致。。图4.1.3样本均值的抽样分布与总体分布的关系三、样本比例的抽样分布(SamplingDistributionofp样本比例的抽样分布是样本比例所有可能值的概率分布。(Thesamplingdistributionofpistheprobabilitydistributionofallpossiblevaluesofthesampleproportionp.)总体分布正态分布非正态分布大样本小样本大样本小样本正态分布正态分布非正态分布样本比例抽样分布的相关信息,即p的期望值、标准差、抽样分布形状等。主要应用于分类变量:在经济与商务的许多场合,需要用样本比例p对总体比例P进行统计推断根据中心极限定理有:当样本容量增大时(大样本:经验上,当下面两个条件(n·p=5且n(1-p)=5)满足时,与p相关的样本为大样本),样本比例抽样分布趋向于以样本期望值为中心、以样本方差为方差的正态分布1、期望值(Expectedvalueofp):E(p)=P2、标准差(Standarddeviationofp):重复抽样:不重复抽样:*四、样本方差的抽样分布要用样本方差s2去推断总体的方差σ2,必须知道样本方差的分布。设总体服从正态分布X~N(μ,σ2),X1,X2,…,Xn为来自该正态总体的样本,统计证明比值221sn的抽样分布为自由度是(n-1)的2分布,即:22221snxxii~12n2分布的性质:(1)、2分布的变量始终为正;(2)、2分布的期望为nnE2,方差为nnD2)(2。第二节参数估计的基本方法一、估计量和估计值参数是总体的数值特征(Aparameterisanumericalcharacteristicofapopulation。)参数估计:就是用样本统计量去估计总体的参数。数字特征总体参数()样本统计量(ˆ)一个总体均值x比例Pp方差22s估计量(ˆ)(estimator)用于估计总体某一参数的样本统计量(随机变量)的名称。样本均值,样本比例、样本方差等都可以是一个估计量。估计值((eessttiimmaattee)):用来估计总体参数时计算出来的估计量的具体数值。例如:样本均值就是总体均值的一个估计量如果样本均值x=3,则3就是的估计值二、点估计与判断估计量的优良性准则(一)、点估计点估计(PointEstimate)就是用样本估计量的值直接作为总体参数的估计值。设是总体分布中一个要估计的参数。例如,总体分布的均值、方差等。现在从总体中得到一个随机样本nXXX,,,21,如何估计?记估计的估计量(统计量)为ˆnXXX,,,21,简记为ˆ若得到一组样本观察值nxxx,...,,21,就可以得到的估计值:nxxx,...,,ˆ21,也记为ˆ。总体分布参数的点估计,就是求出的估计值ˆ。点估计的方法一般有矩估计发法、极大似然估计法等。概念要点:1.从总体中抽取一个样本,根据该样本的统计量对总体的未知参数作出一个数值点的估计。例如:用样本均值作为总体未知均值的估计值就是一个点估计2.点估计没有给出估计值接近总体未知参数程度的信息3.其理论基础是抽样分布(二)、估计量的优良性准则要估计总体的某一指标,并非只能用一个样本指标,而可能有多个指标可供选择,即对同一总体参数,可能会有不同的估计量。作为一个好的估计量,估计量必须具有如下性质:无偏性、有效性、一致性。1、无偏性(Unbiasedness):样本估计量的数数学学期期望望((均值)等于被估总体参数的真值;如果)ˆ(E,则称ˆ为的无偏估计量。可以证明,总体方差2的样本矩估计量2s是无偏估计量。2、有效性(Efficiency):好的点估计量应具有较小的方差;在用估计量ˆ来估计总体的某个参数时,如果对其它所有对的估计量~总是有:~ˆVarVar那么,这个估计量ˆ就是总体参数的有效估计量。33、、一一致致性性((CCoonnssiisstteennccyy))::随着样本容量的增大,估计量越来越接近被估计的总体参数。如如果果nˆ满满足足::1)ˆ(limnnP,即:nnˆlim则称为nˆ的一致估计量。可可以以证证明明::样本均值、样本比例、样本标准差的点估计是无偏、有效、一致的。三、抽样误差与区间估计(一)、抽样误差(SamplingError)一个样本可以得到总体参数的一个点估计,该点估计值与总体参数真值之间的差异,即为抽样误差。有三个相互联系的概念:1、实际抽样误差:具体样本的估计值ˆ与总体参数的实际值之间的离差。)ˆ(2、抽样平均误差:所有可能样本估计值与相应总体参数的平均差异程度。3、抽样极限误差一定概率下抽样误差的可能范围(也称允许误差):ˆˆ注意:①、统计学上往往用抽样极限误差来测度抽样误差的大小或者说测度点估计的精度。原因:总体参数值往往并不知道,因此,实际抽样误差与抽样平均误差也往往无法求出,但在抽样分布大体知道的情况下,抽样极限误差是可以估计出来的。②、抽样平均误差是所有可能样本值与总体指标值之间的平均离差,它表明抽样估计的准确度;而抽样极限误差是样本指标值与总体指标值的离差绝对值是表明抽样估计的准确程度的范围。这也就决定了两者存在一定的联系。通常,把抽样极限误差与抽样平均误差相比,从而使单一样本的抽样极限误差标准化,一般称为概率度或相对误差范围,即置信度。③抽样极限误差的估计总是要和一定的概率保证程度联系在一起的。原因:样本统计量往往是一随机变量,它与总体参数真值之差也是一个随机变量,因此就不能期望某次抽样的样本估计值落在一定区间内是一个必然事件,而只能给予一定的概率保证。因此,在进行抽样估计时,既需要考虑抽样误差的可能范围,同时还需考虑落到这一范围的概率大小。前者是估计的准确度问题,后者是估计的可靠性问题,两者紧密联系不可分开。这也正是区间估计所关心的主要问题。(二)、区间估计(IntervalEstimate)在点估计的基础上,给出总体参数估计的一个范围,称为参数的区间估计。若总体分布含一个未知参数,找出了两个依赖于样本nXXX,,,21的估计量:),,,(ˆ),,,(ˆ212211nnXXXXXX使得1)ˆˆ(21P其中,10,显著性水平一般取0.05或0.01,则称随机区间为的100(1-)%的置信区间。百分数100(1-)%被称为置信度或置信水平。1.根据一个样本的观察值给出总体参数的估计范围给出总体参数落在这一区间的概率例如:总体均值落在50~70之间,置信度为95%2、置信水平①