第四章总体分布、样本分布与参数估计§4.1总体分布与样本分布一、总体(母体):反映总体特征的随机变量的取值的全体。总体分布(母体分布):反映总体特征的随机变量的概率分布。从无限次随机抽取(然后放回)的角度看,表征一个总体特征的变量(指标),都可以视为随机变量。有限总体的概率分布,就是有限总体中不同个体的比率(频率)分布。二、随机样本与样本观测值(样本数据)1、随机样本表征n次抽取个体的随机抽样的一组随机变量X1,X2,···,Xn。2、样本观测值n次随机抽样的结果:x1,x2,···,xn(称为随机样本X1,X2,···,Xn的样本观测值)。n称为随机样本向量(X1,X2,···,Xn)的维度,即自由度。3、样本(累积)分布函数设样本观测值x1x2,···,xnki为小于xi+1的样本值出现的累积频次,n为样本容量,则可得样本累积频率分布函数如下:xxxxxnkxxxFniiin当当当1/0)(11样本累积频率分布函数,又称样本(累积)分布函数.样本(累积)分布函数Fn(x)是对总体的累积分布函数F(x)的近似,n越大,Fn(x)对F(x)的近似越好.样本分布与总体分布格利文科(Glivenko)定理(样本分布与总体分布的关系)定理:当样本容量n趋于无穷大时,Fn(x)以概率1(关于x)均匀地收敛于F(x).该定理是运用样本推断总体的理论依据.定理的数学表达为:1)0)()(suplim(xFxFPnxn随机样本的均值函数和方差函数都是一个随机变量.样本数据的样本均值x是随机变量X的观测值;样本数据的样本方差s2是随机变量S2的观测值.随机样本的均值函数:niiXnX11随机样本的方差函数:niiXXnS122)(11三、统计量与统计量的分布统计量定义:统计量是不含未知参数的,随机样本X1,X2,···,Xn的函数。统计量的值的定义:统计量的值是不含未知参数的,样本观测值x1,x2,···,xn的函数.四、由标准正态分布N(0,1)的随机样本所引出的几个重要统计量分布:2、t与F分布1、2(n)分布的构成设随机变量X服从N(0,1)分布,X1,X2,···,Xn为X样本,则2=X2i=X21+X22+···X2n服从自由度为n的2分布,记为2~2(n)。2(n)分布的均值E(2)=n,方差D(2)=2n。n=1n=4n=102(n)分布图0,00,)2(21)(2122xxexnxfxnnn2(n)密度函数:其中,n为自由度。(n/2)为珈玛函数,是一个含参数n/2的积分,为:0212)2/(dtetntn2、t分布自由度为n的t分布,记为t(n),是由N(0,1)分布和2(n)分布组成的,其表达式为:nYXT其中,X服从N(0,1),Y服从2(n)分布,且X与Y相互独立。密度函数为:xnxnnnxfnn,)1()2/()21()(212t分布图3、F分布F分布是由两个2分布之比组成的:nVmUF服从F(m,n)。其中,U服从2(m),V服从2(n)。m=100,n=20m=15,n=20重要性质:000,)1())(()2/()2/()2()(212xxxnmxnmnmnmnmxfnmm密度函数形式为:),(1),(1mnFnmF五、由一般正态分布的随机样本所构成的若干重要统计量的分布定理:若X1,X2,···,Xn是正态总体N(,2)的一个随机样本,则样本均值函数和样本方差函数,满足如下性质:(1)X服从N(,2/n)分布。(2)X与S2相互独立。nXZ(3)服从N(0,1)分布;22)1(Sn(4)服从2(n-1)分布;(5)服从t(n-1)分布;nSXT(1)服从N(0,1)。22212121)()(nnYX(6)服从2(n)分布;niiX122)(1定理:若X1,X2,···,Xn1和Y1,Y2,···,Yn2分别是正态总体N(1,12)和N(2,22)的一个随机样本,且它们相互独立,则满足如下性质:(3)服从F(n1-1,n2-1)。22222121SSF其中,S12是容量为n1的X的样本方差,S22是容量为n2的Y的样本方差。21212122221121)2()1()1()()(nnnnnnSnSnYXT(2)服从t(n1+n2-2),(1=2)。21122211121222)()(niiniiYnXn(4)服从F(n1,n2)。六、任意分布的随机样本均值函数的均值与方差设:随机变量X服从任何均值为,标准差为的分布,X是随机样本X1,X2,···,Xn的均值函数。记随机变量X的分布函数的均值为X,标准差为X,则有如下结论成立:(1)X=;(2)X=/n或2X=2/n注:一个应用广泛的样本均值函数的均值和方差:0-1分布的样本均值函数均值和方差。反映总体中某类个体的比例的随机变量X,可以简单地用0-1分布B(1,p)表示.E(X)=p,D(X)=p(1-p).p是总体中某类个体的比例.由样本X1,X2,···,Xn产生均值函数X的均值X=p,方差的均值也是总体中某类个体的比例p.所以,常用x来估计p.XnppX,)1(2七、大样本均值函数的分布:中心极限定理设:随机变量X服从任何均值为,标准差为的分布,X是随机样本X1,X2,···,Xn的均值函数。中心极限定理:当n充分大时,X近似地服从均值为,标准差为/n的正态分布。在实际问题中n多大?但一般n30。对比总体参数和样本统计量§4.2点估计在实际问题中,人们常常判断总体分布的参数,这就需要用样本来推断总体分布的这些参数,这就是参数估计。参数估计分为:点估计和区间估计两种方法。1、点估计概念设是总体分布中一个需要估计的参数,现从总体中抽取一个随机样本X1,X2,···,Xn,记估计的统计量为),,,(ˆˆ21nXXX则称为的估计量。ˆ若得到一组样本观测值x1,x2,···,xn,就可得出的估计值,记:。),,,(ˆˆ21nxxx注:在选取样本统计量作为点估计时,必须考虑到“无偏差性”,这一点很重要。如果样本统计量的期望值(或均值)与打算估计的总体参数值相同,则估计值不存在偏差。总体分布参数的点估计,就是求出的估计值。对比总体参数和样本统计量参数估计值备注均值()nXX无偏差估计值标准差()1)(2nXXs不是无偏差估计值*比例(p)nnppˆ无偏差估计值点估计–ˆ2、矩法估计就是用样本矩来估计总体矩。矩的一般形式:E(Xk)表示k阶原点矩(以原点为中心);E(X-)k表示k阶中心矩(以为中心);3、极大似然估计法设:总体X的(累积)概率分布函数为F(x,),概率密度函数f(x,),其中为未知参数(也可以表示未知参数向量).若X为离散型随机变量,则由离散型与连续型的对应关系,f(x,)对应于离散情况下的概率P(X=x).X为连续型随机变量时,X的随机样本X1,X2,···,Xn的联合概率密度函数为niixfL1),()(称为的极大似然估计函数.当X为离散随机变量时,L表示概率:),,,(2211nnxXxXxXPL关于的极大值如果存在,极大值就是的极大似然估计值.其含义是:一组观测值x1,x2,···,xn在一次实验中出现了,其联合概率就应当是最大的,所以选择使联合密度L最大的那个.),,,(ˆˆ21nxxxˆ例:设x1,x2,···,xn是正态总体N(,2)的一个样本观测值,求与2的极大似然估计值.解:极大似然函数为nixieL12)(2221)(取对数,分别对与2求偏导,并令偏导为0,可求出与2的极大似然估计值如下:2121)(1ˆ1ˆniiniixxnxnx如果将上述xi换成Xi,上式成为极大似然估计量.§4.3判别点估计的优劣标准1、无偏估计量ˆˆE如果,则称为的无偏估计量。2、最小方差性若总体参数为,的估计量的方差Var()小于等于其他所有对的估计量的方差,即则称的估计量具有最小方差性。)~()ˆ(VarVarˆˆ~ˆ3、有效估计量如果一个估计量满足(1)无偏性;(2)最小方差性。那么,该估计量为有效估计量。4、渐近无偏估计量如果:,(n为样本容量)则称为渐近无偏估计量。)ˆ(limEnˆ5、一致估计量如果满足:则称为的一致估计量。ˆˆ1)ˆ(limpn一致估计量的另一等价定义:(1)渐进无偏的;(2)ˆ0)ˆ(limnnVar9、渐进有效性如果一个估计量满足:(1)是一致估计量;(2)比其它的估计量更小的渐进方差。注:在实践中广泛应用的准则:(1)小样本准则a、无偏性;b、有效性。(2)大样本准则一致估计量。)))ˆ(ˆ((1lim)ˆ(lim2nnnnnEnEnVar渐进方差定义:§4.4区间估计1、置信区间若总体分布含有一个未知参数,找出了2个依赖于样本X1,X2,···,Xn的估计量:),,,(ˆ),,,(ˆ212211nnXXXXXX使1)ˆˆ(21P其中,01,一般取0.05或0.01,则称随机区间为的100(1-)%的置信区间.百分数100(1-)%称为置信度.2、总体均值的置信区间(总体方差已知)设:总体X服从已知N(,2),2已知,抽取n个观)ˆ,ˆ(21测值x1,x2,···,xn,求总体均值的100(1-)%(如=95%)的置信区间。首先构造:nXZ因为X服从N(,2/n)分布,所以Z服从N(0,1)分布。nZXnZX2/2/由:1)(2/ZZP得置信区间:Z/2Z1-/21-/2/2例:设:总体X服从已知N(,0.09),抽取4个观测值x1,x2,x3,x4,求总体均值的95%的置信区间。解:由已知:1-=0.95,=0.3,n=4根据:95.0)(025.0025.0ZnXZP得到:23.0)23.0(025.0025.0zXzX查表得z0.025=1.96,于是置信区间为(X-0.294,X+0.294),置信度为95%.也就是说:总体均值以95%的概率在该区间内.3、总体均值的置信区间(总体方差未知)设:总体X服从已知N(,2),2未知,抽取n个观测值x1,x2,···,xn,求总体均值的100(1-)%=95%的置信区间。首先构造:)1(~ntnSXT1))1((2/2/tnSXntpnstXnstXnn2/,12/,1可得置信区间:由:将n个观测值x1,x2,···,xn代入上式得到置信区间。4、总体方差的置信区间(未知总体均值)设:总体X服从已知N(,2),未知,抽取n个观测值x1,x2,···,xn,求总体方差2的100(1-)%=95%的置信区间。首先构造:)1(~)1(2222nSn)1()1()1()1(22/12222/2nsnnsn得到置信区间:由:1))1()1()1((22/2222/1nSnnp将n个观测值x1,x2,···,xn代入上式得到置信区间。5、总体比例的置信区间Letpdenotetheobservedproportionof“successes”inarandomsampleofnobservationsfromapopulationwithaproportionofs