5-1统计学参数估计假设检验统计方法描述统计推断统计统计估计非参数估计5-2统计学*第5章抽样推断5.1抽样推断的一般问题5.2抽样误差5.3参数估计5.4样本容量的确定5-3统计学*抽样推断的过程总体样本随机取样计算出样本的均值、样本比例、样本方差调查推断5-4统计学*5.1抽样推断的一般问题5.1.1抽样推断的概念和特点5.1.2抽样推断的基本范畴5.1.3抽样分布5-5统计学*1、概念抽样推断是在抽样调查的基础上,根据样本的情况来推断总体特征的一种统计分析方法。2、抽样推断的特点按照随机原则抽取样本单位(样品);根据对样本的调查对总体做出推断;抽样误差可以事先计算并加以控制。3、抽样推断的适用场合无法进行全面调查时;进行全面调查有困难或不必要时;5.1.1抽样推断的概念和特点5-6统计学*1.抽样框和抽样单位(1)总体和样本总体也称母体,是所要研究的全部单位组成的整体。一般用N表示总体包括的总体单位数。样本又称子样,它是从总体中随机抽取出来的一部分单位组成的整体。一般用n表示样本包括的总体单位数。作为推断对象的总体是确定的,而且是唯一的;作为观察对象的样本不是确定的,也不是唯一的。5.1.2抽样推断的基本范畴5-7统计学*(2)抽样框:抽样框是包括全部总体单位的框架,以此代表总体,用来从中抽取样本单位,具体表现形式有总体单位(或其集合)的名单或目录、地图、时间等。(3)抽样单位:抽样单位是构成抽样框的基本要素,它可以是总体单位也可以是总体单位的集合。5-8统计学*2.重复抽样和不重复抽样重复抽样,也叫回置抽样/放回抽样,是指从总体的N个单位中抽取一个容量为n的样本,每次抽出一个单位后,再将其放回总体中参加下一次抽取,这样连续抽n次即得到一个样本。不重复抽样,也叫不回置抽样/不放回抽样,是指抽中单位不再放回总体中,下一个样本单位只能从余下的抽样单位中抽取。5-9统计学*3.样本容量和样本可能数目样本容量:一个样本所包含的总体单位数,用n表示,当样本容量大于等于30时称为大样本,小于30时称为小样本。样本可能数目:指按一定抽样方法和一定样本容量从总体中抽取样本时,所有可能的样本个数,一般用M表示。5-10统计学*考虑顺序的重复抽样的样本可能数目:考虑顺序的不重复抽样的样本可能数目:nNM!)(!nNNPMnN样本可能数目的计算5-11统计学*)!1(!)!1(1NnnNCMnnN!!)(!nNnNCMnN不考虑顺序的重复抽样的可能样本数目:不考虑顺序的不重复抽样的可能样本数目:客观现象中常见的5-12统计学*4.参数和统计量参数:根据总体中各单位的变量值计算的、反映总体数量特征的特征值。主要有总体均值、成数或比例、方差。统计量:根据样本中各单位的变量值计算的、反映样本数量特征的特征值。主要有样本均值、成数或比例、方差。总体是确定的、唯一的,所以总体参数也是确定的、唯一的;样本是随机的,所以样本统计量是随机变量。5-13统计学*FXFNXXFF)XX(N)XX(222PXPfxfnxxpxp222()()iiiixxxxfSnf总体参数样本统计量5-14统计学*样本统计量的概率分布;随机变量是样本统计量:样本均值,样本比例,样本方差等结果来自容量相同的所有可能样本;提供了样本统计量的分布特征,是进行推断的理论基础,也是抽样推断科学性的重要依据。5.1.3抽样分布(samplingdistribution)5-15统计学*抽样分布的形成(samplingdistribution)总体计算样本统计量:样本均值、比例、方差样本5-16统计学*1.形成过程从单位数为N的总体中抽取样本容量为n的随机样本,在重复抽样的条件下,共有Nn个可能的样本,在不重复抽样条件下,共有PNn个可能样本;对于每一个样本,我们都可以计算出样本的均值;将所有可能样本的样本均值根据其取值形成概率分布,即可得到样本均值的抽样分布,它是推断总体均值的理论基础。(一)样本均值的抽样分布5-17统计学*【例】设一个总体,总体单位数N=4。4个单位某一标志值的取值分别为x1=1、x2=2、x3=3、x4=4。总体的均值、方差及分布如下:总体分布14230.1.2.3均值和方差5.21NXXNii25.1)(122NXXNii5-18统计学*现从总体中抽取n=2的简单随机样本,在重复抽样条件下,共有16个样本。所有样本的结果为:3,43,33,23,132,42,32,22,124,44,34,24,141,441,33211,21,11第二个观察值第一个观察值所有可能的n=2的样本(共16个)5-19统计学*计算出各样本的均值,并给出样本均值的抽样分布:3.53.02.52.033.02.52.01.524.03.53.02.542.542.03211.51.01第二个观察值第一个观察值16个样本的均值(x)x样本均值的抽样分布1.00.1.2.3P(x)1.53.04.03.52.02.55-20统计学*222221.01.5...4.0E()2.5M16()M(1.02.5)...(4.02.5)0.62516nxxxXxX2.样本均值的数字特征5-21统计学*11221221211()[]().11()[]()niniiininiiixxExEExnXXnnnxVxVVxnnnnnnn证明:5-22统计学*X=2.5σ2=1.25总体分布14230.1.2.3抽样分布P(X)1.00.1.2.31.53.04.03.52.02.5X5.2)(xE625.02xxP(x)结论:1.样本均值的均值(数学期望)等于总体均值;2.样本均值的方差等于总体方差的1/n。5-23统计学*样本均值的数学期望:样本均值的方差:XxE)(122NnNnx不重复抽样条件下:5-24统计学*样本均值的抽样分布=50=10X总体分布n=4抽样分布Xn=165x5.2x当总体服从正态分布N(μ,σ2)时,来自该总体的所有容量为n的样本的均值x也服从正态分布,且其数学期望为μ,方差为σ2/n。即x~N(μ,σ2/n)()50Ex5-25统计学*中心极限定理(centrallimittheorem)当样本容量足够大时(n30),样本均值的抽样分布逐渐趋于正态分布中心极限定理:设从均值为,方差为2的一个任意总体中抽取容量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为μ、方差为σ2/n的正态分布。一个任意分布的总体xX5-26统计学*的分布趋于正态分布的过程X5-27统计学*总体分布正态分布非正态分布大样本小样本正态分布正态分布非正态分布样本均值的抽样分布样本均值的抽样分布与总体分布的关系5-28统计学*总体(或样本)中具有某种属性的单位与全部单位总数之比:不同性别的人数与全部人数之比合格品(或不合格品)与全部产品总数之比总体比例表示为NNPNNP101或nnpnnp101或样本比例表示为(二)样本成数(比例)的抽样分布5-29统计学*样本比例的抽样分布容量相同的所有可能样本的样本比例的概率分布,当样本容量很大时,样本比例的抽样分布可用正态分布近似。样本比例的数学期望:样本比例的方差重复抽样:不重复抽样:PpE)(nPPP)1(21)1(2NnNnPPP5-30统计学*22(,),01,1lim.2ntxnnXbnppXnpPxedtnpq~则棣莫弗-拉普拉斯:n定理表明,当充分大时,二项分布可用正态分布来近似。5-31统计学*5.2抽样误差5.2.1抽样误差5.2.2抽样平均误差5-32统计学*1、概念抽样误差是指由于随机抽样的偶然因素使样本单位不足以代表总体单位,而引起的样本统计量和总体参数之间的绝对离差。()2、影响因素总体单位标志值的离散程度;样本容量的大小(n);抽样方法(重复抽样/不重复抽样);抽样调查的组织方式(简单随机抽样/分层抽样/等距抽样/整群抽样)。5.2.1抽样误差,xXpP5-33统计学*1、所有可能样本统计量与总体参数的平均离差。2、理论计算公式为:M)Pp(p2M)]p(Ep[p2上式可以变换为:5.2.2抽样平均误差(标准误)2x(x)MX2x(xE(x))M由此,样本均值的抽样平均误差就是样本均值的标准差。5-34统计学*3、抽样平均误差的计算公式:(1)重复抽样条件下(2)不重复抽样条件下2xnnn)P(Pnp122xNn()nN11)1(NnNnPPp5-35统计学*在总体单位数很大的情况下,可近似表示为:22xNnn()(1)nNnN)Nn(n)P(Pp115-36统计学*抽样推断的标准误差(standarderror)样本统计量的标准差,称为统计量的标准误,也称为标准误差;衡量统计量的离散程度,测度了用样本统计量估计总体参数的精确程度;当总体标准差未知时,可用样本标准差s代替,在重复抽样条件下,样本均值的标准误差为nsx5-37统计学*可以通过调整样本单位数n来控制抽样平均误差。例如,将样本容量增加3倍,则平均误差就缩小一半;而抽样平均误差减少20%,则样本容量就需要原来的1.56倍。nx21214'nnx22nnn56.164.01%802222)(56.1倍nn5-38统计学*5.3参数估计5.3.1抽样推断的内容5.3.2点估计5.3.3区间估计5-39统计学*1、参数估计依据所获得的样本数据,对总体的数量特征进行估计的推断方法称为参数估计,即根据样本统计量来估计总体参数。参数估计包括的内容:如确定估计值,确定估计的优良标准;确定估计值和被估计参数之间的误差范围以及在一定误差范围内所作推断的可靠性程度等。2、假设检验先对总体的数量特征作某种假设,再根据样本数据对所作假设进行检验。假设检验包括的内容:确定原假设与备择假设;选择检验统计量;确定显著性水平;做出决策。5.3.1抽样推断的内容5-40统计学*5.3.2点估计(pointestimate)1、定义:用样本统计量的值直接作为总体参数的估计值,称为总体参数的点估计2、优点:简便、易行3、缺点:没有考虑抽样误差的大小;没有给出估计值接近总体参数的程度;没有考虑估计的概率保证程度。5-41统计学*估计量与估计值(estimator&estimatedvalue)估计量:用于估计总体参数的样本统计量的名称;如样本均值、样本比例(成数)、样本方差等参数用表示,估计量用表示估计值:根据样本资料得出的估计量的具体取值如果样本均值x=80,则80就是估计值ˆ22xXpPS5-42统计学*评价估计量的优良标准无偏性:估计量的数学期望等于被估计的总体参数XxE)(PpE)(P()BA无偏有偏ˆˆ总体参数2ˆ1ˆ5-43统计学*有效性:对同一总体参数的两个无偏估计量,有更小标准差的估计量更有效。AB的抽样分布的抽样分布1ˆ2ˆP()ˆˆ比更有效125-44统计学*一致性:随着样本容量的增大,估计量的值越来越接近被估计的总体参数。大数定律已经证明了:样本平均数和样本成数都满足一致性:nlimp1nnlimp1limp1NNxXpP5-45统计学*1、定义:在点估计的基础上,指出总体参数的上限和下限,即指出总体参数可能存在的区间范围,并指出总体参数落在这一区间的置信水平。区间估计的三个要素:点估计值总体参数与点估计值的抽样误