本科课程陈宜治系列课件统计学课件制作:陈宜治第二节抽样误差(samplingerror)统计——误差持久战逃不开的抽样误差如果样本总是停留在西装革履的白领,而不去寻找隐匿在楼宇间,衣衫褴褛的装修工人,不去寻找挥汗如雨的建筑工人,那么我们的工资就永远“被增长”。如果样本总是停留在和颜悦色的受访者,而不去寻找那些面带怒气,对调查不屑一顾的人,那么我们的幸福感就只会“越来越高”你是个诚实的样本么?一、抽样中的误差构成抽样中的总误差可以简单地分为两类,一类是抽样误差,一类非抽样误差。抽样误差——偶然性代表性误差非抽样误差——系统性代表性误差观测性误差抽样误差:是由于抽样的非全面性和随机性所引起的偶然性误差,即因抽样估计值随样本不同所造成的误差。特点:随着样本容量的增大而趋向于0,不可避免但可以加以控制由随机抽样的偶然性因素以外的原因所引起的误差。超过一定程度就会使抽样估计失去意义,减少和控制它十分重要。非抽样误差:指由于抽样的随机性引起的样本结果与总体真值之间的误差222+非抽样误差=抽样误差总误差总误差抽样误差非抽样误差总误差计算公式:二、抽样误差的表现形式指样本估计量与总体参数之间数量上的差异,仅指由于随机抽样的偶然性因素使样本不足以代表总体而引起样本指标与总体指标间的差异(即偶然性误差)抽样误差有三种形式:抽样实际误差抽样标准误差(抽样平均误差)抽样极限误差(一)抽样实际误差是抽样估计值与总体参数真值之间的绝对离差,表示为由于随机抽样的偶然性,使样本结构不能与总体结构完全一致,从而产生估计误差ˆ成数估计的实际抽样误差是随机变量,不同的样本有不同的抽样实际误差;对于任何一个样本,其抽样实际误差都不可能测量出来均值估计的实际抽样误差XxPp(二)抽样标准误差(抽样平均误差)是反映抽样误差一般水平的指标,实质含义是指样本统计量抽样分布的标准差它能够反映样本指标与总体指标的平均离散程度,也能够说明样本指标代表性的大小。抽样标准误越大(小),抽样分布越离散(集中),样本指标对总体指标的代表性越差(好),抽样估计的误差平均来讲就越大。ˆ()SE)ˆ(Vˆ()SE在前面的例题中,重复抽样的抽样分布如下:频率343638404244464850合计4%8%12%16%20%16%12%8%4%100%x样本平均数的期望与方差:XxxEi(元)42%450%836%434)(16%4)4250(%8)4236(%4)4234()()(2222ixExxVi不重复抽样的抽样分布如下:频率36384042444648合计10%10%20%20%20%10%10%100%x样本平均数的均值与方差:XxxEi42)(12)()(2ixExxVi对于固定的总体和样本容量n,在相同的抽样方法和抽样组织形式下,抽样标准误是一个唯一确定的值。——所谓“抽样误差能够加以计算并控制”16)(16)()(2xSExExxVi12)(12)()(2xSExExxVi说明不重复抽样的样本均值分布比重复抽样更为集中,其样本均值的代表性更好,不重复抽样的抽样误差小于重复抽样。所以实践中常用不重复抽样方法。重复抽样下不重复抽样下上述公式在实际应用时有两个困难:实际中无法根据该公式计算出标准误,只能根据一套样本来计算其估计值,因此抽样标准误是随机变量需计算所有可能样本统计量的值;需要知道总体参数)(xse)(xse(三)抽样极限误差(允许误差)是指以样本估计量估计总体参数时所允许的最大误差范围通常用表示ˆˆˆ抽样极限误差的实际意义:实际上就是对总体参数可允许取的最高值或最低值进行了限制。即希望总体参数落在样本估计量的范围内抽样极限误差越大,抽样估计的精确度越低抽样极限误差取决于两个因素:1、抽样标准误,即抽样分布本身具有多大的标准差。当抽样方法和样本容量固定时,抽样标准误差是一个定值,反映抽样误差的一般水平。因此,抽样极限误差通常可以以抽样标准误差为标准单位来衡量,表示为抽样标准误差的多少倍。抽样标准误差越大(小),抽样极限误差就越大(小)2、抽样估计的概率保证程度(置信水平)是指抽样估计结果的可靠程度,即抽样估计结果是准确的概率(可靠程度)有多大。通常表示为,其中称为显著性水平。1ˆˆ1指的是总体参数处于区间内的概率。即总体参数不在区间内的概率。要求估计结果的可靠程度越高,则越大。)ˆ(2/SEZ抽样极限误差、抽样标准误差与抽样概率保证程度三者的关系可以这样表示:)ˆ(/2/SEZ其中,称为抽样概率度。可见,抽样极限误差分别与概率度和抽样标准误差成正比。越高,抽样估计的可靠程度越高,但也越大,估计的精确度降低。12/Z2Z2Z221正是当显著性水平为时的标准正态分布的双侧临界值,概率保证程度与的值是一一对应的12/Z2/Z68.27%95.45%99.73%)1,0(~NZ01232131常用的:1-α=68.27%,90%,95%,95.45%,99.73%=1,1.64,1.96,2,32z二、抽样分布定理(一)样本均值的抽样分布定理1、正态分布的再生定理若总体服从正态分布则样本均值也服从正态分布),(2SXNXxXxE)()()(2重复抽样nSxV)()1()(2有限总体且不重复抽样NnnSxV附注:50X10s50)(xE5)(xVn=45.2)(xVn=16x抽样分布(重复抽样)任一总体(不要求正态),期望值,方差,当n足够大(当n30,大样本),趋于正态分布X2SxXxE)()()(2重复抽样nSxV2、中心极限定理)()1()(2有限总体且不重复抽样NnnSxV当样本容量足够大时(大样本),抽样分布趋于正态分布小样本xXxE)()()(2重复抽样nSxV从任意分布的总体中抽样大样本若正态总体方差未知且n较小,则服从于自由度为n-1的t分布任一总体但n较小,服从于自由度为n-1的t分布xx3、t分布定理(二)样本成数的抽样分布定理1、二项分布定理从一个数学期望为p、方差为的是非变量(0-1分布)总体中随机重复地抽取容量为n的样本,那么样本中含有个某类变量值的概率为:1NPQN1111()nnnnnnCPQ1n2.超几何分布定理从一个数学期望为p、方差为的是非变量(0-1分布)总体中随机不重复地抽取容量为n的样本,那么当同时时,样本中含有个某类变量值的概率为:1NPQN01101010(,,)nnNNnNCCnnNNC1nnN0nN1从一个数学期望为p、方差为的是非变量(0-1分布)总体中随机抽取容量为n的样本,当n足够大(nP5,n(1-P)5),样本成数p趋于正态分布或nNNPQpV)1()(1NnNnPQE(p)=P3.中心极限定理1NPQN正态分布是最重要、最常用的抽样分布,由于抽样一般都是大样本,因此可以根据正态分布理论,根据样本统计值来推断总体参数。第三节参数估计方法一、估计量的评价标准所谓估计量,就是用以估计总体参数的量,或者说是根据样本结果来估计总体参数的规则或形式。估计量一般情况下就是样本统计量。估计量的某一具体的值,就称为估计值。评价估计量好坏的标准有四个:无偏性、有效性、一致性和充分性符合标准的称为优良估计量oemmxX当有两个以上个统计量可以估计某个总体参数时,应该如何选择?指估计量的抽样分布的均值应等于被估计的总体参数的真值无偏性若,则称为的无偏估计量。)ˆ(EˆxCA无偏有偏1ˆ2ˆ优良估计量的抽样分布方差小于其他估计量的方差有效性若则称为比更有效的估计量1ˆ2ˆ)ˆ()ˆ(21VVABxX1ˆ2ˆxem指随着样本单位数n的增大,样本估计量的取值趋近于总体参数真值一致性较小的样本容量较大的样本容量xX若估计量提取了样本中包含的有关总体参数的全部信息,则为充分估计量。例如:充分性nxxnii1为、s2n-1为S2、p为P的无偏、有效、一致、充分估计量。xX数理统计证明:同时满足上述四个标准,则为优良估计量参数估计方法有两种:点估计区间估计二、参数估计方法(一)点估计点估计:也称定值估计,就是以样本统计量的值作为总体参数的估计值。pPsSxX,,关键问题是估计量的选择简单,具体明确优点缺点不知道估计的可靠程度,仅适用于对推断的准确程度与可靠程度要求不高的情况点估计的优缺点(二)区间估计是指用一个具有一定可靠程度的区间范围来估计总体参数。即在给定的概率保证程度(可靠程度)1-α下,找到两个数值θ1和θ2,构成总体参数θ取值的区间范围[θ1,θ2]。该区间称为估计区间,θ1称为估计下限,θ2称为估计上限若已知抽样极限误差,则总体参数处在样本估计量的范围内,那么总体参数的区间范围为:ˆ,ˆ在一定的概率保证程度下,找到相应的抽样极限误差的值,则可以确定估计区间的上下限1)ˆ(2/SEZ估计区间可表示为:)(),(2/2/xseZxxseZx)(),(2/2/pseZppseZp)ˆ(ˆ),ˆ(ˆˆ,ˆ2/2/seZseZX的估计区间:P的估计区间:区间估计的两个基本要求:置信度1-α精确度估计区间长度一般在给定的概率保证程度下,尽可能提高估计的精度(通过降低抽样标准误)。置信度1-α越大,越大,估计的精确程度越低。反之,置信度1-α越小,越小,估计的精确度越高。)ˆ(2/SEZ希望置信度尽可能大(可靠程度高),同时精确度尽可能高(估计区间的长度短)。但在样本容量n一定时,两者矛盾。区间估计的特点:不指出参数的确定数值,而是在一定的概率保证程度下指出参数的可能范围。估计结果的可靠程度可知,即为概率保证程度第三节各种抽样组织形式下的抽样估计抽样组织形式:简单随机抽样等距抽样分层抽样整群抽样多阶段抽样——事先未对总体进行分组或组合,直接从总体全部单位中按随机原则抽取样本。一、简单随机抽样(纯随机抽样)1、计算估计量2、抽样标准误(1)当总体方差已知Xixnx1)()(2重复抽样nSxSE(一)总体均值的估计f=n/N,称为抽样比当f5%,有限总体校正系数1-f可以忽略不计)()1()(2不重复抽样fnSxSE【例3.1】对某天生产的2000件电子元件的耐用时间进行全面检测,然后又抽取5%进行抽样复检,样本资料如下。计算平均耐用时间的抽样标准误差(重复和不重复)耐用时间(小时)全面检测(支)抽样复检(支)3000以下3000-40004000-50005000以上合计5060099036020002305018100支)(小时/4330X)(小时222531100)(ffXXS(2)当总体方差未知时,用样本方差s2代替)()(2重复抽样nsxse)()1()(2不重复抽样fnsxse【例3.2】上例中,若总体方差未知,即只进行抽样检测,计算抽样平均误差耐用时间(小时)抽样复检(支)3000以下3000-40004000-50005000以上合计2305018100支)(小时/4340x)(小时2225344001)(ffxxs3、区间估计(1)给定1-α,查表得(2)根据,可求出(3)确定总体均值的估计区间)(xseXxx,2z【例3.3】对某县进行人均月收入抽样调查,n=500户,已知样本平均月收入为600元,方差为187620元,要求概率保证程度为95%,估计该县人均月收入。【例3.4】从某市400户个体户饮食店中抽取10%进行月营业额调查,样本资料如下:月均营业额(万元)户数10以下10-2020-3030-4040-50