第七章抽样推断任课教师:汤来香tanglx2000@163.com美国总统选举民意调查1984年11月里根与孟代尔竞选总统,美国著名的盖洛普、哈里斯、国家广播公司三家民意调查社在选举前三个星期所做调查的统计分析,里根分別约可获得58%、55%及60%选票,正式选举的结果:里根约获得59%选票,而孟代尔约41%选票。此次美国所有的民意调查社的预测数字与选举结果最多只有4%误差,但被调查的选民不超过3000人,可见统计的技巧是多么有用。在以往的十七次美国总统选举预测中,只有两次失败,第一次是1936年的蓝顿对罗斯福的选举,样本数一千万但是误差20%,第二次是1948年杜威对杜鲁门,样本数二百万误差5%,50年来美国21次全国选举预测之平均误差只有2.3%。学习目的与要求:抽样估计是抽样调查的继续,它提供了一套利用抽样资料来估计总体数量特征的方法。通过本章的学习,要理解和掌握抽样估计的概念、特点,抽样误差的含义、计算方法,抽样估计的置信度,推断总体参数的方法,能结合实际资料进行抽样估计。主要内容:§1抽样推断概述§2抽样平均误差的计算§3抽样估计§4抽样的组织形式§5必要抽样数目的确定第一节抽样推断概述一、抽样推断的概念抽样推断:是按随机原则从总体中抽取一部分单位构成一个样本进行观察,并根据样本的实际数据对总体的数量特征作出具有一定可靠程度的估计和判断的一种统计方法。随机原则:随机原则——即是在抽取样本时,排除人们主观意图的作用,使得总体中的每个单位或每个样本有相等的入选机会。随机原则又称为等可能性原则。统计推断的过程:样本总体样本指标二、抽样推断的特点①按随机原则抽取样本单位;②用部分推断总体,即用样本指标去推断或估计总体指标。③抽样推断必然产生抽样误差,且误差可以事先计算并加以控制。④运用概率估计方法。三、抽样调查的作用①适用于无限总体或者很难进行全面调查的总体的研究;②对某些可以但事实上不必或不可能进行全面调查的现象总体的研究。③适应于破坏性产品的质量检验;④可以用于生产过程中的质量控制;⑤用于订正全面调查的数据;⑥可用于假设检验。四、抽样推断的基本概念(一)总体与样本总体(全及总体、母体):是指统计所要研究的全体,由具有某种特定性质的许多个别事物组成的集合体。N:总体单位数。总体可分为有限总体与无限总体。样本(抽样总体、样本总体或子样)样本:是指按照随机原则,从全及总体中抽取出来,代表全及总体的那部分单位的集合体。样本容量(n):样本中所包含的总体单位数。n≽30是大样本。总体是唯一的,样本是随机多个的。(二)、总体指标与样本指标总体指标(母体参数、总体参数、全及指标):它是根据总体各单位的标志值或标志特征计算的,反映总体某种属性的综合指标。全及指标是唯一确定的,一个总体常常有多个总体参数。常用的总体指标有:或或NXXFXFXN)XX(2FF)XX(2NNP1P1NNQ0PQP。、X2P2还有样本指标(样本统计量):样本指标:也称为统计量或抽样指标,它是根据抽样各单位的标志值或标志特征值计算的、用以估计和推断相应总体指标的综合指标。一个样本常常有多个样本指标,依据样本的数据计算的样本指标不是唯一确定的。常用的样本统计量有:或或nxxfxfxn)xx(s2ff)xx(s2nnp1p1nnq0pqsP。、2P2ssX还有说明:①按照无偏估计的要求,才是总体方差的无偏公式,但在某些统计中,n通常较大,n与(n-1)相差甚微,为简便,就用n代替(n-1)。②总体指标是唯一确定的值,样本指标是随机变量。1n)xx(s22总体指标与样本指标的区别:①样本指标是一个随机变量,它的不同取值取决于不同的样本;而总体指标是一个确定的量值,它与样本指标的取值无关。②总体指标是未知的,样本指标通过抽样调查却是可知的。总体指标与样本指标的联系:①运用抽样调查对全及总体指标的推断必须通过样本指标;②对全部样本而言,所有可能样本指标的平均数等于相应的总体指标;③对一个样本而言,当样本单位数逐渐增大时,样本指标会逐渐接近总体指标。(三)抽样方法与样本个数样本个数(m)——指从总体中可能抽取的全部样本数目,又称样本可能数目。这与抽样方法和样本容量有关系。抽样方法重复(置)抽样不重复(置)抽样考虑顺序不考虑顺序考虑顺序不考虑顺序重复抽样的特点:①n个单位的样本是由n次连续试验构成的。②每次试验相互独立,各单位中选与不中选相互不影响。③每次试验都是在相同的条件下进行,即都是从N个总体单位中随机抽取一个,因此,每个单位在每次中选的机会都相等,它们每次都有1/N的中选机会。不重复抽样的特点:①n个单位的样本是由n次连续试验构成的,但由于每次抽出不放回,所以实质上等同于同时从总体中抽n个样本单位。②每次试验不相互独立,上次中选情况影响下次中选结果。③每抽一次总体的单位数便少一个,因此每个单位在各次中选的机会是不相等的,第i次抽取每个单位有1/(N-i+1)的中选机会。考虑顺序的样本个数:1)不重复排列数n)!(NN!1)n(N2)1)(NN(NPmnN2)重复排列数nNm不考虑顺序的样本个数:3)不重复组合数n)!(Nn!N!n!1)n(N2)1)(NN(NCmnN4)重复组合数n1nNnNCD【例】从0-9的10个数中随机重复抽选6个数字组成电话号码,共能组成多少个电话号码?(重复排列数)100万10Nm6n【例】从班级10位学生中抽选三人担任不同的职务,问共有几种抽法?(不重复的排列数)种72089101)n(N2)1)(NN(NPmnN【例】从小组10位学生中不重复随机抽选3个组成样本,考查其平均成绩,可能的样本数目为:31010*9*87201203*2*16C种(重复组合数)120种1238910n)!(Nn!N!CmnN从A、B、C、D四个单位中,抽出两个单位构成一个样本,问样本个数是多少?重复抽样排列数:Nn=42=16(个样本)AAACADBABBBCBDABCACBCCCDDADBDCDD不重复抽样排列数:N(N-1)(N-2)……=4×3=12(个样本)【例】(四)抽样推断的理论依据1.大数法则(大数定律)基本思想:大量的随机现象具有一定的稳定性。我们知道,总体由许多总体单位组成,每个总体单位的表现各不一样。这些不同的表现共同决定着总体的表现或特征。如果我们将这些大量的总体单位加以综合平均,那么它们对总体的个别影响会将相互抵消,最后呈现出它们共同作用的结果,使总体具有稳定的性质。实际推断原理:当试验次数很大时,可以用样本指标代替总体指标。在概率论中,大数法则是这样表述的:对于任意正数,有:1εXxPinlim或1εpnnPAnlim这样,以严格的数学形式,表达了频率的稳定性。2、中心极限定理:中心极限定理,其着眼点是“变量和的分布”。一个随机变量服从正态分布的现象并不多见,但多个变量和的分布服从正态分布则是普遍存在的。在现实生活中,变量和的分布是普遍存在的。基本思想:变量和的分布函数向正态分布收敛。也就是说:中心极限定理论证了:如果总体变量存在有限的平均数和方差,那么,不论这个总体变量的分布如何,随着抽样单位数n的增加,抽样平均数的分布便趋近于正态分布。中心极限定理的通俗定义是这样的:当n无限增大时,不管总体分布是什么形状,样本平均数分布趋近于平均数为方差为的正态分布;且,。标准化变量的分布趋近于平均数为0,方差为1的标准正态分布。这样就可以利用标准正态分布求得标准变量t落入任意区间的概率了。X)xE(Xn/σ2为有限值)(2σnσμ22xXtx第二节抽样平均误差一、统计误差的分类抽样极限误差抽样平均误差抽样实际误差随机误差偏差(系统误差)(抽样误差)统计误差登记性误差代表性误差各种统计误差:登记误差:指由于调查登记或计算差错在发生的误差统计误差:指调查所得的统计数字与调查总体实际数值之间的差异。代表性误差:指用样本指标推断总体指标时,由于样本结构与总体结构不一致,样本不能完全代表总体而产生的误差。系统误差:由于非随机因素引起的样本代表性不足而产生的误差,表现为样本估计量的值系统性偏高或偏低,故也称为偏差。随机误差:指遵循随机原则抽样,由于随机因素(偶然性因素)引起的代表性误差。通常所说的抽样误差指的就是随机误差。抽样实际误差:抽样实际误差:每一次抽样,得到的样本指标与总体指标的绝对离差。如、,这是无法计算的。抽样实际误差是随机变量。XxPp抽样平均误差抽样平均误差:指所有可能出现的样本指标(平均数或抽样成数)的标准差。反映了抽样指标与总体指标的平均误差程度。从理论上说是一个唯一确定的量。μμ二、抽样平均数的平均误差(一)平均数的抽样分布平均数的抽样分布:由总体中全部样本平均数的可能取值和与之相应的概率(频率)组成。即把所有可能样本平均数的次数分布称之为平均数的抽样分布。抽样分布:指样本指标的次数分布。1.重复抽样分布【例】设有某班组5个工人的日分别为34、38、42、46、50元,则:)元元2222222X32()/5844(8/N)XΣ(Xσ)42(ΣX/NX现用重复抽样方法从中随机抽取2个构成样本,并求样本平均工资来推断总体的平均工资。重复排列数:样本日工资平均数样本变量3438424650343436384042383638404244423840424446464042444648504244464850255Nm2n单位:元样本日平均工资的次数分布表样本日平均工资(元)频数频率3411/253622/253833/254044/254255/254444/254633/254822/255011/25合计251根据上表数据,可以整理出样本平均数的分布如左表:5/254/253/252/251/25343638404244464850样本日平均工资分布图平均工资(元)则样本日工资平均数的平均数和方差为:)xE()x(σ2(元)42)2361(34251ΣffxΣ)xE(222222)(16)34261(8251Σff)]xE(xΣ[)x(σ元两个重要结论:①重复抽样的样本平均数的平均数等于总体平均数,即:xX)E(x)xσ()(x)xE(ffXxffxx)x(22][)]E([所以抽样平均数的标准差反映了样本平均数与总体平均数的平均误差程度,称为抽样平均误差或抽样标准误差。②因为样本平均数的分布与总体分布的比较:总体分布样本平均数的分布32σ42X216(x)σ42)xE(23438424650X20100%3/252/251/254/255/253436384042444648500x重复抽样抽样平均误差的计算公式:nσ(X)μx元)4(232nσ(X)μx验证可见抽样平均误差比总体标准差小得多,仅为总体标准的。另外,抽样平均误差和总体标准差成正比变化,而和样本单位数n的平方根成反比变化。n1/2.不重复抽样分布2045PPm25nN样本变量3438424650343436384042383638404244423840424446464042444648504244464850样本日工资平均数单位:元样本日平均工资的次数分布表样本日平均工资(元)频数频率3621/103821/104042/104242/104442/104621/104821/10合计201根据上表数据,可以整理出样本平均数的分布如左表:则样本日工资平均数的平均数和方差为:)xE()x((元)42)2382(36201ΣffxΣ)xE(2(元)12)42242(6201Σff)]xE(xΣ[)x(