第7章抽样和抽样分布返回总目录基本概念•抽样是从研究的对象中随机地抽出其中一部分来观察,由此而获得有关总体的信息•抽样的特点1.遵守随机原则,即在抽样时每个单位有同等被抽中的机会2.推断被调查现象的总体特征3.计算推断的准确性和可靠性返回本章返回总目录1.当某些现象对不可能采全面调查时,可利用抽样作出推断;2.当某些现象没有必要采全面调查时,可利用抽样作出推断;3.抽样调查和全面调查结合,可相互补充;4.对于某些总体假设需靠抽样去进行假设检验;5.可用于现代化工业大批量生产过程的产品质量控制。•总体与样本名称样本总体定义从总体中抽出的部分单位研究对象的全部单位特征统计量参数符号样本容量样本平均数样本比率样本方差样本标准偏差总体容量总体平均数总体比率总体方差总体标准偏差2nxpss2PN返回本章返回总目录•随机抽样与判断抽样•随机抽样:是按随机原则,即按概率规律抽取样本,在总体中所有单位单位被抽中的机会是均等的。被抽中的样本单位数不带任何个人或集体的主观意见。被选的概率可以事先确定。•判断抽样:是一种非随机抽样,是根据个人或集体的设想或经验,从总体中有目的地抽取样本。其抽样结果不能用概率方法来加以分析。•随机原则:机会均等原则(抽样时避免主观倾向,以保证样本的代表性)返回本章返回总目录•非抽样误差和抽样误差非抽样误差登记性误差偏差抽样误差总体内部差异度(删除outlier)样本容量(调整样本)抽样方法(改变)抽样调查中的误差•抽样误差是进行抽样调查所固有的误差,是具有随机性质的误差。但是,一般说来,抽样误差受到大数定律的支配,可以运用概率统计的理论和方法把误差控制到最小的限度,从而对总体参数作出科学的推断或估计。返回本章返回总目录1.纯随机抽样(简单随机抽样)对总体不做任何分类或排序,完全按随机原则抽样。适用范围:总体规模不大,内部差异较小。抽簽法:將總體容量全部加以編號隨機數字法:採用隨機數表。可消除抽取樣本時的人為偏差。(例P164)随机抽样设计返回本章返回总目录2.等距抽样(机械抽样或系统抽样)将总体按某一标志值顺序排列,然后相等距离或相等间隔抽取样本单位。间隔距离:N:总体单位数n:需要抽取的样本单位数例:从某企业5000名职工中抽取100人进行家庭收入水平调查。样本的距离=起点的选择:按姓氏排序,在第一个间隔中随机选取。knN501005000返回本章返回总目录优点:1.能保证被抽取的单位在总体中均匀分布2.能使抽样过程简化返回本章返回总目录3.类型抽样(分类抽样或分层抽样)先将总体中的所有单位按某个标志分组,然后从各组按纯随机抽样或等距抽样方式抽样。采用这种方法,由于各单位之间的差异因划类或分层而缩小,这就比较容易选出有代表性的样本适用范围:总体情况复杂,各类型或层次之间的差异较大而总体容量又较大。优点:比简单纯随机抽样更精确,能以较少的抽样单位数得到较准确的推断结果。特别是当总体各单位变量值大小悬殊、各组标志变动程度很大时,划分类型能保证各组都有选中的机会。返回本章返回总目录•类型抽样分类类型比例抽样:按统一的比例来确定各类型组应抽选的样本单位数,即各类型中抽取的样本单位数占各类型组所有单位数的比例是相等的,等同于样本单位总数n占总体单位数N的比例类型适宜抽样:考虑各类型标志变动程度不同,变动程度大的组要多抽样,变动程度小的类型组可少抽样,使得各类型组的变动程度在所有类型变动程度之和中的比例相同,等同于或NnNnNnNnkk2211i1kiiiNnniNNi返回本章返回总目录iniN1iiikiiinNnN总体N比例抽样适宜抽样N1N2N3n1n2n3iiNnnNiiiiiNnnN•类型抽样确定各组样本的方法:返回本章返回总目录4.整群抽样将总体按某个标志分为多个群,按纯随机抽样方式或等距抽样方式,抽取若干群,然后对所抽中的各群中的全部单位一一进行调查。适宜范围:不适合单个抽样的场合,就可采用整群抽样方式。优缺点:调查方便,但抽样误差较大。例:从某县100个村中抽出10个村,进行全面调查,就可以大致了解农村家庭副业发展情况。总群数R=13CDGK样本数r=4样本容量n=nc+nd+ng+nkADCFGHIJKLMBE返回本章返回总目录5.多阶段抽样总体包含的单位很多,分布很广,要通过一次抽样抽选样本很困难,此时,可以将其分成若干阶段,然后逐阶段进行抽样,以完成整个抽样过程。特点:多个阶段、多种方法综合抽样,优点是降低抽样成本。例:对某山区的林采蓄积量作抽样调查。将总体50块面积相等的地划为10个区,每个区包括5个地块。采用两阶段抽样,先从10个区选中30%,再从选中的区域中抽取60%的地块组成样本进行调查。返回本章返回总目录重复抽样:已经抽取出来的单位仍放回原来的一般总体中,总体单位数始终不变,各个单位被抽中的机会也先后相等不重复抽样:已经抽取出来的单位不再放回去,而从剩下的总体中抽选,抽样总体逐次减少,总体中的每个单位只能被抽中一次,不会被重复抽取出来抽样技术•重复抽样和非重复抽样返回本章返回总目录抽样分布样本统计量的概率分布(理论分布)返回本章返回总目录构造抽样分布的步骤:①②③样本统计量全部可能的数值对应的频数分布,即抽样分布。样本平均数的抽样分布(例题分析)【例】设一个总体,含有4个元素(个体),即总体单位数N=4。4个个体分别为x1=1,x2=2,x3=3,x4=4。总体的均值、方差及分布如下总体分布14230.1.2.3均值和方差5.21NxNii221()1.25NiixN返回本章返回总目录现从总体中抽取n=2的简单随机样本,在重复抽样条件下,共有42=16个样本。所有样本的结果为:•3,4•3,3•3,2•3,1•3•2,4•2,3•2,2•2,1•2•4,4•4,3•4,2•4,1•4•1,4•4•1,3•3•2•1•1,2•1,1•1•第二个观察值•第一个•观察值•所有可能的n=2的样本(共16个)返回本章返回总目录计算出各样本的均值,如下表。并给出样本均值的抽样分布。•3.5•3.0•2.5•2.0•3•3.0•2.5•2.0•1.5•2•4.0•3.5•3.0•2.5•4•2.5•4•2.0•3•2•1•1.5•1.0•1•第二个观察值•第一个•观察值•16个样本的均值(x)x样本均值的抽样分布1.000.10.20.3P(x)1.53.04.03.52.02.5返回本章返回总目录样本均值的分布与总体分布的比较(例题分析)=2.5σ2=1.25总体分布14230.1.2.3抽样分布P(x)1.00.1.2.31.53.04.03.52.02.5x5.2x20.625x返回本章返回总目录(例7-1)•样本平均数的抽样分布数字特征抽样分布特性:数学期望方差)(XE2222()1XXNnnnN1当总体服从正态分布时,从该总体中取样所得到的样本均值仍然服从正态分布。2从非正态总中抽取的样本,只要容量足够大,根据中心极限定理可知,样本均值的分布也趋向正态分布。一般认为样本容量足够大的标准为:n大于等于30返回本章返回总目录(P.171)(例7-2;例7-3;例7-4)(重复)(不重复)两个样本均值之差的抽样分布(不考)两个正态总体两个非正态总体22111122221222121212,12(,,),(,,),-~)xnxnxxxxNnn的分布(22111122221222121212,12(,,),(,,),-~)(xnxnxxxxNnn的分布(大本)返回本章返回总目录则为则为样(例7-5;例7-6;例7-7)样本比率的抽样分布当样本容量n足够大并且np和n(1-p)都大于5时,根据中心极限定理可知,样本比率的抽样分布近似服从正态分布,其特征值为:(不重复)且(n/N)0.05两个样本比率之差的抽样分布(大样本)(不考)从两个总体中分别抽取容量为n1和n2的2个独立随机样本,当样本容量足够大时两个样本比率之差的抽样分布就近似正态分布,其特征值为:1212121221122122111122221122()(1)(1)(1)(1)11ppppEppppppppnnppNnppNnnNnN或返回本章返回总目录122,()1ppnpnpqpqNnEppnnN1=或NpN则记(例7-8)(例7-9;例7-10)•样本比率的抽样分布实例假定已知办公室人员所填写的表格中有5%至少包含一处笔误,如果检查一个由475份表格组成的简单随机样本,其中至少含一处笔误的表格所占的比例在3%到7.5%之间的概率有多大?由于n较大,p较小,np5,因此可利用正态近似处理,即认为样本比率的抽样分布近似服从均值和方差的正态分布。将值变换为服从正态分布的z值,即将例题中的数据代入上述公式,得:p~05.0~pnppp/)1(2~p~nppppz)1(~201.002.0475)05.01(05.005.003.01z5.201.0025.0475)05.01(05.005.0075.02z于是所求得概率为:%1.97)9772.01(9938.0)2()5.2()5.22(zP返回本章返回总目录•两个样本比率之差的抽样分布实例•例7-10某公司市场研究人员的调查报告表明,在A市场有15%的人喜欢该公司生产的某种牌号的牙膏,而在B市场则有9%的人喜欢该产品。如果从A、B两个市场中各抽取由120人组成的独立随机样本,问样本比率之差的数值大于或等于0.14的概率有多大?)~~(BApp此例中没有说明总体服从何种分布,但因其样本容量足够大,n1和n2都为120,因此根据中心极限定理,可认为近似服从正态分布0417.0120)09.01(09.0120)15.01(15.006.009.015.0~~~~AAAApppp于是所求的概率为:0.140.06(0.14)()0.0417ABPppPz0274.09726.01)92.1(zP计算结果表明值大于或等于0.14的概率为2.74%。)~~(BApp返回本章返回总目录t分布、分布和F分布2•t分布t分布是小样本分布,小样本指n30。t分布适用于当总体标准偏差未知时用样本标准偏差代替总体标准偏差,由样本平均数推断总体平均数以及两个小样本之间差异的显著性检验等。t分布的性质:1.t分布是对称分布,均值为0。2.样本容量大于或等于30时,t分布接近于标准正态分布,这是可用标准正态分布来代替t分布。3.t分布是一个分布族,不同的样本容量(n)对应不同的t分布。4.与标准正态分布相比,t分布的中心部分较低,两个尾部较高。5.变数t的取值范围在与之间。返回本章返回总目录/xtsn检定统计量t分布的图形(红色的曲线是标准正态分布)n=1n=15-3-2-11230.10.20.30.4n=2不同的样本容量对应不同的自由度,因此对应的t分布也不同。自由度概念可以自由选择的数值的个数。返回本章返回总目录(n-1)t分布表的使用:-3-2-11230.050.10.150.20.250.30.35t/2(n-1)-t/2(n-1)••/2/20.052(8)2.306t-3-2-11230.050.10.150.20.250.30.35t(n-1)-t(n-1)••5083.2)22(t306.2)8(t99.0025.0返回本章返回总目录(例P.185)2•分布2分布是一种抽样分布,自由度为n。适用于对拟合优度检验和独立性检验,以及对总体方差的估计和检验等。分布的性质:21.分布是一个以自由度n为参数的分布族,不同的n对应不同的分布。2.分布是一种非对称分布,为正偏分布。自由度n达到