第五章抽样估计5.2抽样误差5.3参数估计方法5.4各种抽样形式的参数估计第五章抽样估计主讲人:陈曦目录抽样误差2抽样分布1各种抽样组织形式的参数估计4参数估计方法35.1抽样分布一、基本概念总体(样本)比例:总体(样本)中具有某种特征的单位N1(n1)在总体N(样本n)中所占的比率。1NPN1NNQN样本统计量T样本容量n样本均值样本方差S2样本比率总体参数总体容量N总体均值总体方差总体比率Px2p二、抽样分布的概念及影响因素抽样分布:样本统计量的概率分布,它由样本统计量的所有可能取值和与之对应的概率所组成。影响因素:总体分布样本容量抽样方法抽样组织形式估计量构造举例【例】设一个总体,含有4个元素(个体),即总体单位数N=4。4个个体分别为x1=1,x2=2,x3=3,x4=4。总体的均值、方差及分布如下:总体分布14230.1.2.3均值和方差5.21NxNii25.1)(122NxNii现从总体中抽取n=2的简单随机样本,在重复抽样条件下,共有42=16个样本。所有样本的结果为3,43,33,23,132,42,32,22,124,44,34,24,141,441,33211,21,11第二个观察值第一个观察值所有可能的n=2的样本(共16个)计算出各样本的均值,如下表。并给出样本均值的抽样分布3.53.02.52.033.02.52.01.524.03.53.02.542.542.03211.51.01第二个观察值第一个观察值16个样本的均值(x)x样本均值的抽样分布1.000.10.20.3P(x)1.53.04.03.52.02.5=2.5σ2=1.25总体分布14230.1.2.3抽样分布P(x)1.00.1.2.31.53.04.03.52.02.5x5.2x625.02x比较及结论:1.样本均值的均值(数学期望)等于总体均值2.样本均值的方差等于总体方差的1/n为样本数目MnMxnixix222122625.016)5.20.4()5.20.1()(5.2160.45.10.11Mxniix名称数学符号样本均值的均值(期望)或E()样本均值的方差或V()样本比率的均值(期望)或E()样本比率的方差或V()2019/12/17样本统计量的数字特征x2xp2pxxppx1、正态分布再生定理:当总体服从正态分布且总体均值μ和总体方差σ2已知时,不论样本容量n多大,样本均值也服从正态分布即x~N(,),其中或2xx22()xn重复抽样22()()1xNnnN不重复抽样三、均值的抽样分布x2、中心极限定理:不论总体服从什么分布,总体均值μ和总体方差σ2已知时,只要样本容量n足够大(n≥30),样本均值也服从正态分布,即x~N(,),其中2xx22()xn重复抽样22()()1xNnnN不重复抽样补充说明2019/12/17对于不重复抽样时的修正系数:当N的值较大时,近似等于:1NnNNnN总体分布正态分布非正态分布大样本n>30小样本n﹤30方差未知中心极限定理正态分布再生定理T分布定理3、T分布定理:当正态总体的方差未知,且n(n≤30)样本均值的抽样分布服从自由度为(n-1)的t分布。四、样本比率的抽样分布2019/12/17中心极限定理:当样本容量足够大(n≥5)样本比率的抽样分布近似服从正态分布,即~N(,),其中2()PPQn重复抽样2.()1PPQNnnN不重复抽样ppp2ppP二、抽样误差1、抽样中的误差构成抽样误差:因抽样估计值随样本不同所造成的误差。非抽样误差:由随机抽样的偶然性因素以外的原因所引起的误差,非抽样调查所特有的。(总误差)2=(抽样误差)2+(非抽样误差)22、抽样误差的表现形式抽样实际误差:是指样本估计值与总体参数值之间的离差。抽样标准误差:抽样分布方差的平方根,即抽样分布的标准差或样本统计量的标准差“”或“”和“”抽样极限误差:指以样本估计总体所允许的最大误差范围,估计量所允许取的最高值或最低值与总体参数值之间的绝对离差。用“”表示ˆ()SE()xp3、抽样极限误差的计算及应用(1)抽样极限误差计算:(2)抽样极限误差的应用:其中:得总体均值的置信区间为2ˆazSE()12{}1P1ˆ2ˆ22,aaxzsexxzsex定义:显著性水平为α时的标准正态分布的双侧临界值的含义2az原理:引题:大样本(n30),由中心极限定理可知,不论总体服从什么分布,),(~2nNX,为未知,设nXXX,,,21是来自总体X的样本,求的置信度为1的置信区间。解:因),(~2nNX,则令Z=)1,0(~/NnX2222()11/PzZzXPzzn122znX<<znXP三参数估计方法一、概念1、参数估计:在抽样分布及抽样分布的基础上,据样本统计量来推断总体参数()的统计方法。2、估计量:用来估计总体参数的统计量的名称。估计值:计算得到的样本估计量的具体数值“”ˆ点估计:用样本估计量直接作为总体参数估计值3、区间估计:在点估计基础上,依照一定的概率保证度用样本估计值估计出总体参数取值的区间范围。4、置信区间:由样本统计量所构造的总体参数的估计区间,用()来表示,即(置信下限,置信上限)。5、置信水平也称为置信度用表示表示置信区间包括总体参数真值的概率,记为,则总体参数真值有的可能性落在置信区间内。其中为事先给定的概率值,称为显著性水平。12(,)(1)12{}1P100(1)%12(,)练习:1、置信度越大,参数估计的可靠性就越()。2、置信区间越短,参数估计的精确性就越()。3、置信度增加,置信区间();置信度减小,置信区间()。置信度越大越好,参数估计越可靠;置信区间越短越好,参数估计越精确。但是置信度增加,置信区间也会变大,所以两者是相矛盾的。二、估计量的评选标准(一)无偏性样本统计量的期望等于该样本统计量所估计的总体参数的真实值,则称该估计量为无偏估计量。(二)一致性也称为相合性,当样本容量n增加时,如果估计量越来越接近总体参数的真实值,则称这个估计量为一致估计量。(三)有效性估计量与总体参数的离散程度越小,则估计量越有效。(四)充分性估计量的构造应尽量减少有用信息的损失。结论:同时满足上述四个标准的估计量是优良的估计量。例如:样本均值、样本比率和样本方差。四各种抽样估计形式的参数估计一、简单随机抽样1、总体均值的区间估计重复抽样时:不重复抽样时:注:总体方差未知时,用样本方差代替总体方差。22xn22()1xNnnN22S四各种抽样估计形式的参数估计注:总体比率P未知时,用样本比率代替总体比率。一、简单随机抽样2、总体比率的区间估计重复抽样时:不重复抽样时:2PPQn2.1PPQNnnNp1、总体均值的置信区间简单随机抽样/2/2(,)()ssXzXznn重复抽样/2/2((),())()11sNnsNnXzXzNNnn不重复抽样2、总体比率的置信区间简单随机抽样/2/2(1)(1)(,)()pppppzpznn重复抽样/2/2(1)(1)(,)()11ppNnppNnpzpznNnN不重复抽样例5.3从某高校的14500名学生中随机不重复抽取100名学生进行月生活费支出调查,经计算样本均值为-x=546元,样本方差为s2=45568元,要求以95%的概率保证估计该校全体学生的人均月生活费支出额。由题意知,N=14500,n=100,f=0.69%5%;由1-a=95%可知,Za/2=1.96.由于f5%,可用重复抽样公式,并以s2代替S2,可估计抽样标准误为课堂练习:【例】一家保险公司通过重复抽样收集到由36投保个人组成的随机样本,得到每个投保人的年龄(周岁)数据如下表。试建立投保人年龄90%的置信区间。36个投保人年龄的数据233539273644364246433133425345544724342839364440394938344850343945484532解:已知n=36,1-=90%,z/2=1.645。根据样本数据计算得:总体均值在1-置信水平下的置信区间为63.41,37.3713.25.393677.7645.15.392nszx5.39x77.7s练习2.随机抽取400只袖珍半导体收音机,测得平均使用寿命5000小时。若已知该种收音机使用寿命的标准差为595小时,求概率保证度为99.73%的总体平均使用寿命的置信区间。课堂练习:【例】某城市想要估计下岗职工中女性所占的比率,随机重复地抽取了100名下岗职工,其中65人为女性职工。试以95%的置信水平估计该城市下岗职工中女性比率的置信区间解:已知n=100,=65%,1-=95%,z/2=1.96该城市下岗职工中女性比率的置信区间为55.65%~74.35%2(1)65%(165%)65%1.9610065%9.35%55.65%,74.35%pppzn估计总体均值时样本容量(未知时用S2代替)估计总体比率时样本容量(P未知时用代替)因为不重复抽样和重复抽样时计算的样本容量相差很少所以一般实践中都用重复抽样公式计算样本容量n3、样本容量的确定估计总体均值时样本容量(未知时用S2代替)2222()zn2222()(1)zppnP例题6.假定总体为5000个单位,被研究标志的方差不小于400,抽样允许误差不超过3,当概率保证程度为95%时,问(1)采用重复抽样需抽选多少个单位?(2)若要求抽样允许误差减少50%,又需抽取多少个单位?课堂练习:【例】拥有工商管理学士学位的大学毕业生年薪的标准差大约为2000元,假定想要估计年薪95%的置信区间,希望允许误差为400元,应抽取多大的样本容量?例题分析:解:已知=2000,△=400,1-=95%,z/2=1.96应抽取的样本容量为即应抽取97人作为样本2222222()(1.96)200040096.0497zn课堂练习:【例】根据以往的生产统计,某种产品的合格率约为90%,现要求允许误差为5%,在求95%的置信区间时,应抽取多少个产品作为样本?解:已知P=90%,1-=0.95,z/2=1.96,△=5%22222()(1)(1.96)0.9(10.9)0.05138.3139zppn应抽取139个产品作为样本