第5章 抽样和参数估计

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

1第五章抽样推断和参数估计全及总量指标的推算两总体参数的估计一个总体参数的估计一般问题参数估计样本容量的确定抽样极限误差抽样平均误差抽样和抽样分布抽样推断2.51.52学习目标区分总体分布、样本分布、抽样分布,理解抽样分布与总体分布的关系,掌握单总体参数推断时样本统计量的分布,掌握双总体参数推断时样本统计量的分布抽样误差的含义及计算样本容量的确定方法(纯随机抽样)估计量与估计值的概念点估计与区间估计的区别评价估计量优良性的标准抽样平均数和抽样成数的区间估计方法(纯随机抽样)一个总体参数的区间估计方法;两个总体参数的区间估计方法35.1抽样推断5.1.1抽样和抽样分布5.1.2抽样平均误差5.1.3抽样极限误差5.1.4样本容量的确定45.1.1抽样和抽样分布抽样:从总体中抽取部分单位,并进行实际调查,以推断总体。由概率抽样和非概率抽样抽样推断就是按照随机抽样的原则,从总体中抽出一部分单位作为样本,并利用样本的实际资料计算样本指标值,然后根据样本指标对总体的数量特征(总体指标)做出具有一定可靠程度的估计和判断的一种统计分析方法。总体和样本;样本容量和样本个数参数和统计量估计量和估计值51、抽样推断的过程总体样本算术平均数x统计量用来推断总体参数的统计量称为估计量(estimator),其取值称为估计值(estimate)。同一个参数可以有多个不同的估计量。参数是唯一的,但估计量(统计量)是随机变量,取值是不确定的。?参数6..2、抽样推断的理论基础建立在概率论的大数定律和中心极限定理的基础上。大数定律:当样本容量足够大时,样本平均数与总体平均数的偏差小于任意正数的可能性趋近与1的概率。是抽样推断的前提。中心极限定理:只要在样本容量充分大的条件下,无论全及总体的变量分布是否属于正态分布,其抽样平均数也趋近于正态分布。帮我们正确测算样本平均数与总体平均数间的误差,样本平均数推断总体平均数的可靠程度是我们推断的主要依据。73、3种不同性质的分布总体分布:总体中各元素的观测值所形成的相对频数分布,常常是未知的,假定它服从某种分布样本分布:从总体中抽取一个容量为n的样本,由这n个观测值形成的相对频数分布,又称经验分布。当样本容量逐渐n增大时,样本分布逐渐接近于总体分布抽样分布:某个样本统计量的概率分布,从理论上说就是在重复选取容量为n的样本时,由该统计量的所有可能取值形成的相对频数分布。提供了样本统计量长远而稳定的信息,是进行推断的理论基础,也是抽样推断科学性的重要依据。84、抽样分布的几个要点抽样分布是样本统计量的分布,统计量是样本的函数,由于不同的样本计算出来的统计量的值不同,因此统计量是一个随机变量样本数据的统计分布是可以直接观测的,最直观的方式是直方图,可以用来对总体分布进行检验。现实中不可能将所有样本都抽出来,抽样分布一般利用概率统计的理论推导得出,即抽样分布实际上是一种理论分布。在统计推断中总体的分布一般是未知的,不可观测的(常常被假设为正态分布)。在参数估计中,所关心的总体参数主要有均值、比例、方差。因此一般用样本的均值、比例、方差来推断总体的均值、比例和方差95、一个总体参数推断时样本统计量的抽样分布:以均值为例设一个总体含有4个个体,标志值分别为X1=1、X2=2、X3=3、X4=4。总体分布14230.1.2.3=2.5σ2=1.25抽样分布P(x)1.00.1.2.31.53.04.03.52.02.5x5.2x625.02x10所有样本均值的均值和方差样本均值的均值(数学期望)等于总体均值样本均值的方差:反映样本平均数与总体平均数的平均误差程度,样本均值的方差等于总体方差的1/n。5.2160.45.10.11MxniixnMxnixix222122625.016)5.20.4()5.20.1()((M为样本数目)11样本均值的抽样分布与中心极限定理当总体服从正态分布N(μ,σ2)时,来自该总体的所有容量为n的样本的均值x也服从正态分布,x的数学期望为μ,方差为σ2/n。即x~N(μ,σ2/n)=50=10X总体分布n=4抽样分布xn=165x50x5.2x12中心极限定理(centrallimittheorem)从均值为,方差为2的一个任意总体中抽取容量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为μ,方差为σ2/n的正态分布一个任意分布的总体xx当样本容量足够大(n﹥30),样本均值的抽样分布逐渐趋于正态分布nx13单一总体样本统计量的抽样分布样本统计量正态或非正态大样本非正态总体(小样本)大样本样本均值样本比例样本方差正态分布非正态分布正态分布分布p2x2s14样本的抽样分布(8)单一总体样本均值样本比例样本方差两个总体两样本均值差两样本比例差两样本方差比)1(~)1())1()1(,(~))1(,(~22222nsnNnnNpNnnNx)1,1(~))1()1(,(~)(),(~)(21222122211121212221212121nnFssnnNppnnNxx155.1.2抽样平均误差:统计量的标准误(StandardError)又叫标准误差,样本统计量的抽样分布的标准差,是根据样本统计量计算的,反映统计量的离散程度。测度了用样本统计量估计总体参数的精确程度描述统计分析时软件一般会输出这一结果。当计算标准误时涉及的总体参数未知时,用样本统计量代替计算的标准误,称为估计的标准误影响抽样品均误差的因素不重复抽样重复抽样122,22,NnNnnpxpxnsxˆ各种方式下的抽样平均误差16抽样极限误差:又叫最大允许误差(allowableerror)是指抽样指标与总体指标之间抽样误差允许的可能范围。置信区间=抽样极限误差:是人为确定的,是调查者在相应的置信度下可以容忍的误差水平。基于概率估计要求,抽样极限误差△x或△p通常需要以抽样平均误差μx或μp为标准单位来衡量。抽样误差的概率度:把抽样极限误差△x或△p分别除以μx或μp得相对数z,表示误差范围为抽样平均误差的z倍。z是测量抽样估计可靠程度的一个参数。5.1.3抽样极限误差()pxxx;pppxxpxxzzzz;;17已知由概率论可知服从标准正态分布,即:有以下关系式成立:一般称,为置信度,可靠程度等,反映估计结果的可信程度。若事先给定一个置信度,则可根据标准正态分布找到其对应的临界值。进而计算抽样误差抽样误差的概率表述),(~2NxxxZ)1,0(~NZ1)(2ZxPx2ZxxZx2118抽样估计的置信度抽样估计的置信度:又称抽样估计的概率保证程度,是表明样本指标与总体指标的误差不超过一定范围的概率保证程度,它一般用F(z)表示。()()()()()()()()xxxppppxxXzFzxzXxzFzpzFzpzpzFzPPPPPP19关于置信度含义的说明样本均值的抽样分布1、在所有的置信区间中,有(1-)*100%的区间包含总体真实值。2、对于计算得到的一个具体区间,“这个区间包含总体真实值”这一结论有(1-)*100%的可能是正确的。3、说“总体均值有95%的概率落入某一区间”是不严格的,因为总体均值是非随机的。=1-/2/2X_σx_x205.2参数估计5.2.1参数估计的一般问题5.2.2一个总体参数的区间估计5.2.3两个总体参数的区间估计5.2.4全及总量指标的推算215.2.1参数估计的一般问题(一)科学的估计方法具备的条件(二)点估计(三)评价估计量的标准(四)区间估计22(一)科学的估计方法具备的条件要有合适的统计量作为估计量要有合理的允许误差范围要有一个可接受的置信度,即概率保证程度23(二)点估计(pointestimate)用样本的估计量的某个取值直接作为总体参数的估计值例如:用样本均值直接作为总体均值的估计;用两个样本均值之差直接作为总体均值之差的估计缺陷:无法给出估计值接近总体参数程度的信息,不能反映估计的误差和精确程度虽然在重复抽样条件下,点估计的均值可望等于总体真值,但由于样本是随机的,抽出一个具体的样本得到的估计值很可能不同于总体真值一个点估计量的可靠性是由它的抽样标准误差来衡量的,这表明一个具体的点估计值无法给出估计的可靠性的度量24无偏性(unbiasedness):估计量抽样分布的数学期望等于被估计的总体参数。即P()BA无偏有偏ˆˆ(三)评价估计量的标准Xx)(25一致性(consistency):随着样本容量的增大,估计量的值越来越接近被估计的总体参数。即AB较小的样本容量较大的样本容量P()ˆˆ1)(limXxpn评价估计量的标准26AB的抽样分布的抽样分布1ˆ2ˆP()ˆˆ有效性(efficiency)对同一总体参数的两个无偏点估计量,有更小方差的估计量更有效。即评价估计量的标准)ˆ()ˆ(221227(四)区间估计(intervalestimate)利用样本统计量和抽样分布估计总体参数的可能区间。在点估计的基础上,给出总体参数估计的一个区间(样本统计量加减抽样误差)范围。关键是将抽样误差求解。若已知,则区间可表示为:根据样本统计量的抽样分布能够对样本统计量与总体参数的接近程度给出一个概率度量。比如,某班级平均分数在75~85之间,置信水平是95%x置信区间置信下限置信上限样本统计量(点估计)置信水平=1x),(xxxx28区间估计的图示置信区间与置信水平29置信水平或置信系数:将构造置信区间的步骤重复很多次,置信区间包含总体参数真值的次数所占的比例称为置信水平表示为(1-。是总体参数未在区间内的比例。如用95%的置信水平得到某班学生考试成绩的置信区间为75~85。不能表述为75~85这个区间以95%的概率包含全班学生平均考试成绩的真值,或全班学生的平均考试成绩以95%的概率落在75~85之间常用的置信水平值有99%,95%,90%相应的为0.01,0.05,0.10相应的z为1.65,1.96,2.5830置信区间(confidenceinterval)置信水平为95%的置信区间:用某种方法构造的所有区间中有95%的区间包含总体参数的真值。总体参数的真值是固定且未知,用样本构造的区间则是不固定的,即置信区间是一个随机区间。一个置信区间就像是为捕获未知参数而撒出去的网,不是所有撒网的地点都能捕获到参数。只能用概率表示在多次抽样得到的区间中大概有多少个区间包含了参数的真值。实际估计时只抽一个样本,此时所构造的是与该样本相联系的一定置信水平下的置信区间,是一特定区间,因此无法知道它是否包含总体参数的真值。所以只能希望该区间是大量包含总体参数真值的区间中的一个。31置信区间(95%的置信区间)重复构造出的20个置信区间点估计值32例1:从某厂生产的5000只灯泡中,随机不重复抽取100只,对其使用寿命进行调查,调查结果如表又该厂质量规定使用寿命在3000小时以下为不合格品。使用寿命(小时)产品数量(只)3000以下3000—40004000—50005000以上2305018合计100要求:(1)按不重复抽样方法,以95.45%的概率保证程度估计该批灯泡的平均使用寿命;(2)按不重复抽样方法,以68.27%的置信度估计该批灯泡的合格率。33(1)∵N=5000n=100F(z)=95.45%z=2..解:样本平均数:xfxf时4340004340(小)100

1 / 91
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功