、掌握抽样调查中的基本概念3、掌握必要样本数的确定方法2、掌握总体均值和总体成数的点估计和区间估计方法一、随机抽样与非随机抽样(一)随机抽样又称概率抽样随机抽样是按随机原则从全部研究对象中抽取样本进行观察,并根据样本的实际数据对总体的数量特征作出具有一定可靠程度的估计和推算。只抽取部分单位进行调查。§1抽样调查中常用的基本概念随机抽样最基本的组织方式有:1.简单随机抽样2.分层随机抽样3.整群抽样4.系统抽样(二)非随机抽样又称非概率抽样是从研究目的出发,根据调查者的经验、判断或基于方便的原则,从总体中有意识地抽取样本。二、重复抽样与不重复抽样(一)重复抽样:也叫放回抽样。(二)不重复抽样:也叫无放回抽样。一个单位可能中选多次每次抽单位,概率固定,都为1/N。一个单位最多中选一次每次抽单位,概率不同,逐渐增加三、总体分布样本分布和抽样分布(一)总体分布(指总体标志值的分布)总体:也称全及总体。指所要认识的研究对象全体。总体单位总数用“N”表示。针对总体分布的指标称全及指标,也叫总体参数。常用的参数有:总体平均数、总体成数P、总体标准差σ未分组数据:分组数据:未分组数据:分组数据:总体方差公式总体标准差公式NXXNii122)(KiiKiiiFFXX1122)(NXXNii12)(KiiKiiiFFXX112)(总体指标的计算公式样本:也称抽样总体,是抽出的单位组成的整体。样本单位总数用“n”表示。(二)样本分布针对样本计算的指标为抽样指标,也叫统计量(估计量)。其值随样本的不同而不同,是个随机变量。抽样估计就是通过统计量的值去估计参数的值。常用的统计量有:样本平均数、样本成数p、样本标准差S21fxfffffxfxfxxnnn212211ffxffxffxffxinnii2211或样本指标的计算公式样本均值22)(ffxxs22)(nxxs2)(ffxxs2)(ffxxs22)(ffxxs2)(样本方差和标准差的计算公式若总体单位的某种标志只有两种表现(称为是非标志),总体成数是指具有某种特征和属性的单位在全部总体单位中所占比重,记为p。以代表N个总体单位中具有某种特征的单位数,代表N个总体单位中不具有某种特征的单位数,N=N1+N0。则有成数1N0NNNP1属性总体的全及指标从总体中随机抽出容量为的样本,具有某种特征的单位数为,则样本的成数为。例如,某工厂生产某种电子元件,某批产品共10000件,其中不合格品100件,则不合格品所占的成数。若从中按随机的原则抽100件,其中有3件不合格品,则样本的成数为。n1nnnp1%1P%3pNEXT属性总体的样本指标推断统计:利用样本统计量对总体某些性质或数量特征进行推断。随机原则总体参数统计量推断估计参数估计检验假设检验抽样分布抽样估计和推断的过程(一)抽样误差抽样误差,是指抽样调查中所产生的误差,是调查得结果与总体真实值之间的差异。按误差来源不同分登记性误差和代表性误差两类。登记误差系统性误差统计误差代表性误差实际误差随机误差抽样平均误差四、抽样误差登记性误差,指在调查和汇总过程中由于测量、登记、计算等方面的差错或被调查者提供虚假资料而造成的误差。它在任何调查中均存在。而且调查范围越大,调查单位越多,产生登记性误差的可能性也越大。2.代表性误差,指样本推断总体时,由于样本结构与总体结构不一致而产生的误差。又分系统误差与随机误差两种。(一)抽样误差(2)随机误差也叫偶然误差。它是由偶然性因素引起的代表性误差。它不可避免,但可计算与控制。抽样估计中的抽样误差,就是指这种随机误差。在计算抽样误差时,常常假设不存在登记性误差和系统误差。(1)系统误差是非随机因素引起的误差,它系统性偏高或偏低,也称偏差。(一)抽样误差(二)抽样平均误差1.抽样误差是指由于抽样的随机性而产生的那一部分代表性误差(随机性误差),不包括登记性误差,也不包括可能发生的偏差。主要有两种:实际抽样误差,抽样平均误差。(1)实际抽样误差:指某一样本指标与总体参数之间的离差例8-2-1:从1、2、3中抽2个(重复),参数取总体平均数(等于2),则实际抽样误差如下:X样本样本统计量实际抽样误差(-)(1、1)1-1(1、2)1.5-0.5(1、3)20(2、1)1.5-0.5(2、2)20(2、3)2.50.5(3、1)20(3、2)2.50.5(3、3)31xxX(2)抽样平均误差是指所有可能的样本指标与总体指标间的平均差异程度,即样本统计量的标准差,也称抽样分布的标准差。在实际工作中,抽样实际误差是无法知道的,而抽样平均误差则可以计算。所以,我们在讨论抽样误差时,通常指的是抽样平均误差。计算抽样平均误差,得从抽样分布谈起(二)抽样平均误差抽样分布:是指样本指标的概率分布,由样本指标的可能取值与之相应的频数或频率组成。(二)抽样平均误差对于抽样分布,可计算其均值和方差等来反映该分布的中心和离散趋势。均值的抽样平均误差公式:成数的抽样平均误差公式:xmxmiix2)1(pmPmip2)1(M表示所有可能的样本个数。总体方差或标准差。总体各单位在被研究变量上的差异程度差异越大,误差越大。2.样本容量n的大小。抽取的单位数越多,误差越小。3.抽样方法。重复抽样的误差大于不重复抽样的误差。4.抽样组织的方式。当一个总体给定后,总体各单位在被研究变量上的差异程度也随之确定。所以在选定抽样方式和方法后,要缩小抽样平均误差,必须保证足够多的样本容量n。又叫抽样绝对误差或最大允许误差。(三)抽样极限误差均值的抽样绝对误差公式:成数的抽样绝对误差公式:xXxpPp抽样误差系数是以抽样极限误差除以总体均值或成数来定义的,分别用和rp表示。即(四)抽样误差系数和抽样估计精度2.抽样估计精度简称精度。分别用和表示抽样平均数和成数的精度,则XrxxPrppxrxApAxxrA1pprA1样本平均数的平均数等于总体平均数。§2抽样估计原理-大数定律及中心极限定理一、大数定律及中心极限定理的基本内容1.从正态总体中抽取的样本,无论样本容量n的大小,样本平均数的分布一定是正态的。3.样本平均数的方差等于总体方差除以n。nx2XxE)()(xE2x4.如果总体分布未知或是非正态分布,随着样本容量n的增大(一般认为n≥30就是大样本了),样本平均数的分布趋近于正态分布。(二)总体均值的区间估计1.总体方差已知时,总体均值在1-α的置信度下的置信区间为:xXˆ§3总体平均数和总体成数的估计一、总体均值的估计(一)总体均值的点估计),(2/2/nZxnZxxxtnZ2/式中,点估计没有给出估计值与未知总体参数的误差范围,也不能指出估计的把握程度。点估计的方法常用的有矩估计法、最大似然法等。叫概率度。一个概率度对应一个概率保证程度F(t),同时可通过查正态分布表得到对应的t与F(t)。常用t值及其对应概率99.73%395.45%268.27%95%11.96概率F(t)概率度(t)趋近于无穷大时,t分布趋近于正态分布,因此,在实际运用中,当n30时,仍然用正态分布近似。2.总体方差未知时,总体均值的区间估计(二)总体均值的区间估计总体方差未知时,用样本方差代替总体方差,总体均值在1-α的置信度下的置信区间为:),()1(2/)1(2/nstxnstxnn的值分布得到的通过查自由度为)1(2/t1-nnt:某农场进行小麦产量抽样调查,小麦播种总面积为1万亩,采用不重复简单随机抽样,从中抽选了100亩作为样本进行实割实测,测得样本平均亩产400斤,方差144斤。以95.45%的可靠性推断小麦平均亩产的区间。解:N=10000n=1009545.0,144,4002tFx(1)计算抽样平均误差斤19.110000100110014412Nnnx实例(2)计算抽样极限误差斤38.219.12xtx(3)计算总体平均数的置信区间上限:斤38.40238.2400xx下限:斤62.39738.2400xx即:以95.45%的可靠性估计该农场小麦平均亩产量在397.62斤至402.38斤之间.实例对一批电子元件进行耐用性能的检查,随机重置抽样方法选取100件作耐用测试,所得结果的分组资料如下:100—合计1855005000以上5045004000—50003035003000—4000225003000以下件数(f)组中值(x)耐用时数(小时)试以95.45%的把握程度估计这批产品的平均耐用时数.实例解:(1)计算样本平均数和样本标准差)(73110018)43405500(2)43402500(4340100434000222小时)((小时)ffxxsfxfx实例(2)计算极限误差(小时)小时2.1461.7322%45.95)()(1.73100731tttFnsx(3)估计区间的下限:4340-146.2=4193.8小时;估计区间的上限:4340+146.2=4486.2小时。所以,这批电子元件的平均耐用时数在4193.8小时至4486.2小时之间,可靠程度为95.45%。区间估计实例(一)总体成数与样本成数二、总体成数的估计总体成数:NNP1样本成数:nnp1总体成数的标准差:)1(PPP样本成数的标准差:)1(ppsp(二)样本成数p的分布特征2.不重复抽样下p208)1(ppsp)1)(1(Nnppsp重复抽样下(三)总体成数的估计pPsZ2/2.不重复抽样下)1(ppsp)1)(1(NnppspPppppP≤≤pp:某纱厂某时期内生产了10万个单位的纱,按纯随机抽样方式抽取2000个单位检验,结果合格率为95%,试以95%的把握程度估计全部纱合格品率的区间。100000N2000n%95p%51p95.0tF96.1tNnnppp11%48.010000020001200005.095.0%94.0%48.096.1ppt区间下限:%06.940094.095.0pp区间上限:%94.950094.