第八章抽样推断分析法第八章抽样推断分析法§8.1抽样方法概述§8.2概率与概率分布§8.3抽样分布§8.4抽样估计的方法与应用§8.5抽样推断误差的控制第一节抽样方法概述一、抽样的概念和特点抽样根据随机原则从总体中抽取一部分单位作为样本,并根据样本数量特征对总体数量特征做出具有一定可靠程度的估计与推断。特点按随机原则抽取样本单位用部分信息推断总体数量特征抽样推断具有一定的概率保证程度抽样误差可以事先计算并控制抽样的应用对不可能进行全面调查的社会现象对不必要进行全面调查的社会现象对普查资料进行必要的修正二、有关抽样的几个基本概念样本从总体抽取出的、用以代表和推断总体的部分单位的集合体。注意1.样本的单位必须取自总体;2.由一个总体可以抽取许多样本;3.样本的抽取必须排除主观因素的影响,以确保其客观性与代表性。样本容量和样本个数样本容量:一个样本中所包含的个体单位数,一般用n表示。样本个数:一个抽样方案中所有的可能被抽取的样本的总数量,即可能的样本个数。第二节概率与概率分布一、样本空间及简单随机抽样方式试验从总体中随机抽取一个单位并把结果记录下来称为一次试验。样本(点)连续n次试验的结果构成一个样本(点)。样本空间以全部样本点为元素组成的集合称为样本空间。简单随机抽样的两种方式重复抽样每次从N个单位的总体中随机抽取1个单位,登记后放回总体参加下一次的抽取,连续进行n次。1、n个单位的样本由n次连续试验构成。2、每次试验的结果相互独立。3、每次试验都在相同条件下进行,每个单位被选中的机会(概率)在各次是相同的。特点:简单随机抽样的两种方式不重复抽样每次从N个单位的总体中随机抽取1个单位,登记后不放回原总体,下次从总体中余下的单位里抽取,连续进行n次。1、n个单位的样本由n次连续试验构成,由于每次抽出后不放回,所以相当于从总体中同时抽取n个样本单位。2、每次试验的结果不独立。3、每抽一次总体的单位数少一个,每个单位被选中的机会(概率)在各次是不等的。特点:简单随机抽样的样本个数重复抽样如果考虑顺序,可能的样本个数是。nN不重复抽样如果考虑顺序,可能的样本个数为;如果不考虑顺序,可能的样本个数为。)!(!nNN!)!(!nnNN二、事件及其概率事件样本空间中满足给定性质的样本点组成事件。简单事件复合事件对应样本空间中一个样本点的事件,是不可再分事件(基本事件)。由若干个简单事件结合成的事件。必然事件不可能事件每次实验中必定发生,是样本空间本身。在任何实验中都不发生,是空集。实验中发生该事件的可能性大小。若样本空间中各样本点出现的可能性大小相同,可用样本空间中属于该事件的样本点个数与样本空间中全部样本点个数之比来计算。事件A、B之和A+B表示事件A或事件B发生。A+BAB事件发生的概率事件的和事件的积复合事件的概率是简单事件的概率通过代数运算得到的。事件A、B之积AB表示事件A和事件B同时发生。ABAB两种常用的复合事件的概率互不相容事件的和的概率A、B互不相容表示ABФ若事件A与事件B互不相容,则:P(A+B)=P(A)+P(B)。概率的加法定理:几个互不相容事件中至少一个发生的概率等于这几个事件各自发生的概率之和。推论设表示A的对立事件,则:P()=1-P(A)AA两种常用的复合事件的概率互相独立事件的积的概率A、B互相独立表示事件B发生与否对事件A没有影响。若事件A与事件B互相独立,则:P(AB)=P(A)P(B)。概率的乘法定理:几个互相独立事件同时发生的概率等于这几个事件各自发生的概率之积。推论设A、B互相独立,则:P(A+B)=P(A)+P(B)-P(A)P(B)随机变量离散型随机变量连续型随机变量三、离散型随机变量的概率分布概率分布表将离散型随机变量的所有可能取值及相应的概率按顺序列成表。XXx1x2…xn…x1x2……PPp(x1)p(x2)…p(xn)…p(x1)p(x2)……nxnxp(i=1,2,…)离散型随机变量的概率分布也可以用等式表述为:iixp1离散型随机变量的概率分布的性质:10ixp(i=1,2,…);iixpxXp)(例:连续抛两次硬币,正面向上的次数的概率分布为:412121)2(2121212121)1(412121)0(+XpXpXp离散型随机变量的概率分布还可以用概率分布函数来表示。RxxXpxF)()()()()()()()()()()()(121221211211221xFxFxXpxXpxXxpxXxpxXpxXxxXpxXp,xx++有对任意实数例:连续抛两次硬币,正面向上的次数的概率分布用分布函数表示为:+)2(1)21(43)10(41)0(0)()(xxxxxXPxF一次试验只有两种结果:事件A发生或A不发生贝努里试验n重贝努里试验中事件A出现的次数k服从二项分布。nnqpC00111nnqpC222nnqpC0qpCnnnk012…n012…nP…k…四、连续型随机变量的概率分布连续型随机变量的概率分布只能用概率分布函数来表示。xdxxfxXpxF)()()(其中f(x)是分布函数F(x)的导数,称为密度函数。xxxXxpxxFxxFxfxx++)(lim)()(lim)(00连续型随机变量的密度函数的性质:1、f(x)≥02、3、1dxxfbaxxfbXapd)()(abxP(aXb)f(x)五、随机变量的数值特征常用的有:数学期望、方差离散型随机变量的数学期望(一)随机变量的数学期望iiixpxXE连续型随机变量的数学期望xxxfXEd)(数学期望的两个重要性质:)()()()(:,,,,2)()()()()(:,),(,),(),(:,,,12121212121212121nnnnnnnnXEXEXEXXXEXXXn、XEXEXEXXXEXEXXXXXEXEXEXXXn、+++++++++则相互独立个随机变量设则的数学期望分别为个随机变量设连续型随机变量的方差xxfxXEd222(二)随机变量的方差离散型随机变量的方差iiixpxXE222方差的两个重要性质:nXnXnnnXnXXXXXXX、XXXXXXXXXXXXn、nnnnnnniinnnnn+++++++++++++++++++++)(,)(:,1)(:,,,,,2)()()(:,,,,,:,,,,12222222122221222221221212112222212122212222121则若则相互独立设则方差分别为相互独立个随机变量设六、正态分布——最重要的连续型随机变量分布正态分布的密度函数xxfx222e21称随机变量X服从均值为μ,方差为σ2的正态分布,记为X~N(μ,σ2)。f(x)xf(x)5.012正态分布的密度函数曲线μ是该分布的中心,σ是标准差,反映分布的离散程度,σ越大,分布曲线越平缓,离散程度越大;σ越小,分布曲线越陡峭,分布越集中。正态分布的分布函数xtxdtdttfxF222e21)()(利用正态分布函数可计算正态分布随机变量X落在任意区间的概率:baxdxaFbFbXaP222e21)()()(对于不同的μ和σ2都要计算上述积分很麻烦。标准正态分布μ=0,σ=1的正态分布称为标准正态分布,相应的随机变量称为标准正态随机变量,用Z表示,即Z~N(0,1)。标准正态分布的密度函数22e21zzf标准正态分布的分布函数ztdtzF22e21书中把z在0~3.49的取值及其相应的概率编成正态分布面积表,通过查表可求出Z落在任意区间的概率。正态分布函数的标准化设X~N(μ,σ2),令Z=X1)()()0()(0)()()(:2222222XEXEZEZXEXEZE则即:Z~N(0,1)。把一般正态分布化成标准正态分布后,通过查正态分布概率表即可求出一般正态分布随机变量落在任意区间的概率。例1:设X~N(μ,σ2),求X落在区间(μ-a,μ+a)的概率。解:令Z=,XX落在区间(μ-a,μ+a),等价于Z落在区间。),(aa查正态分布表可得其概率为,)](-2[1-1aF此即为X落在区间(μ-a,μ+a)的概率。例2:设部队战士的身高服从正态分布X~N(175,42),军服厂要制100000套军服,问身高在171~179的应制多少套?解:令Z=,4175XX落在区间(171,179)等价于Z落在区间(-1,1)。查正态分布表可得1-2[1-F(1)]=0.6827,所以军服厂应制68270套身高在171~179的军服。第三节抽样分布一、基本概念总体参数总体分布的数量特征。样本统计量定义在样本空间上的一个函数,也称样本指标。本身也是随机变量。抽样分布样本统计量的概率分布。本节主要讨论简单随机抽样的抽样分布。抽样分布的形成过程总体计算样本统计量如:样本均值、成数、方差样本二、重复抽样分布样本平均数的分布例:某班组有5个工人,他们的单位工时工资分别是4、6、8、10、12元,现用重复抽样方式从5个工人中抽出2人,求样本平均工时工资的抽样分布。解:先计算总体工时工资的平均数和方差:)(8581281088868485121086422222222元元++++++++NXXXNXX样本变量468101244567865678986789101078910111289101112样本工时平均工资(单位:元)样本工时平均工资(元)频数频率411/25522/25633/25744/25855/25944/251033/251122/251211/25合计251样本工时平均工资分布计算样本平均工时工资的平均数和标准差:ffxxE)(8112211310495847362514251元++++++++487386285184251222222+++ffxExx18122811381048958822222+++++24元)(2元x从理论上推导样本平均数的分布:nxxxxxxx样本为nXXXXXXnnN+++=,,,,:)(:,,,,,:212121其平均数为的容量为标准差为其平均数为设总体变量XXnnxExExEnnxxxExEXNXxExExEnnniin++++++1)()()(1)()(1)()()(2121121nXxnXXnnxxxnxxxnnxxxxXxxxXxxxnnnnn)()()()(1)()()(1)(1)()()()()()(,,,,2222221222122212222221221+++++++++同分布且都与相互独立重复抽样下结论:在重复抽样的情况下,样本平均数的平均数等于总体平均数。样本平均数的标准差反映样本平均数与总体平均数的平均误差程度,等于总体标准差的,称为抽样平均(标准)误差。记为。nxxn1样本成数的分布成数是0—1分布的变量的平均数,设总体成数为,总体方差为PXP)1(2PPP结论:在重复抽样的情况下,样本成数p的平均数