第六章数理统计的基本概念数理统计的基本任务:由部分来推断总体,或者由过去来推断未来.这样就涉及到两个问题:1)如何选取部分?2)如何利用部分?由于抽取的部分具有一定的随机性,因此据此得出的推论总含有一定程度的不确定性.一般地,在数理统计中所做出的推断我们都可以用一定的概率来表明推断的可靠或可信程度.这种伴随着一定概率的推断就称为统计推断.统计推断的含义§6.1总体和样本对每个个体来说,它有许多方面的特性,而在实际问题中,人们关心的往往只是个体的某个或某几个数量指标以及该指标在总体中的概率分布情况.通常我们把被研究的对象的全体称为总体,而把组成总体的元素叫做个体.一般地,在数理统计中所指的总体,就是一个具有确定分布的随机变量,而个体则是该随机变量的一个可能的取值.总体X的分布函数)(xF常常是未知的,统计推断的主要任务就是确定总体的分布为了使所抽取的部分客观地反映总体的特性,我们将依据如下两个假设来从总体中抽取部分:1)假设每个个体被抽中的机会是均等的;2)抽取一个个体后不影响总体.这种获取部分的方式我们称之为简单随机抽样.简单随机抽样设从总体X中依次抽取n个个体进行试验,将这n次试验的结果记为nXXX,,,21.显然,nXXX,,,21随着抽取的n个个体的不同而变化,它们具有随机性,因此它们均为随机变量.依据简单随机抽样假设,第一个假设能保证每次抽样的结果(首先是1X)具有与总体X相同的分布,第二个假设则保证了各次抽样的结果之间的独立性,这样就使得nXXX,,,21是相互独立的且与总体X具有相同的分布.对抽取的n个个体进行试验,当试验全部完成后,就得到一组实数nxxx,,,21,它们依次是nXXX,,,21的观察值,称nxxx,,,21是样本观察值或样本值.定义6.1.1设(nXXX,,,21)是n维随机变量,若nXXX,,,21相互独立且其中每个都与总体X具有相同的分布,则称(nXXX,,,21)是取自总体X的容量为n的简单随机样本,简称为样本.关于样本记号的注大写字母nXXX,,,21表示的样本是一组随机变量小写字母12,,,nxxx表示的样本观察值是一组实数在本课件中将严格在上述的意义上使用这些记号,切记不要混淆大小写英文字母之间的含义!12,,,(),nXXXFx若为取自总体的一个样本的联合分布函数为则nXXX,,,21).(),,,(*121niinxFxxxF(),Xfx又若具有概率密度的联合概率密度为则nXXX,,,21).(),,,(*121niinxfxxxf样本的分布§6.2统计量与抽样分布定义6.2.1设(nXXX,,,21)是来自总体X的样本,),,,(21nxxxg是nxxx,,,21的连续函数,若g不含任何未知参数,则称),,,(21nXXXg是统计量;若(nxxx,,,21)是样本观察值,则称),,,(21nxxxg是该统计量的观察值.由定义,函数21)(1niiXT当,均已知时是统计量,而当,至少有一个是未知时就不是统计量.常用的统计量1、样本均值称统计量niiXnX11为样本均值。2、样本方差称统计量212)(11XXnSnii为样本方差;称niiXXnS12)(11为样本标准差。3、样本矩称nikikXnA11为样本k阶矩;称kniikXXnB)(11为样本k阶中心矩。以上定义的各个统计量的观察值分别为:niixnx11niixxns122)(11niixxns12)(11nikikxna11nikikkxxnb1),2,1(;)(1定理6.2.1设总体X的数学期望和方差存在,并设)(XE,2()DX,若(nXX,,1)是取自总体X的样本,则有)(XE2()DXn22)(SE证首先,对任意的i(ni1),有()iEX,2()iDX,从而)(1)(11)(11XnEnXEnXnEXEniinii221111()()nniiiiDXDXDXnnn对于样本方差2S,注意到niniiiniiXnXXXnXXnS1122122)(211)(11niiXnXn122)(1122211()[()()]1niiESEXnEXn2222211[()()]1ninnn顺序统计量定义6.3.3设nXXX,,,21是来自总体X的样本,如果)(kX),,2,1(nk是这样的一个统计量,对于任意一组样本观察值(nxxx,,,21),当我们将其从小到大排成)()2()1(nxxx时,它总是取其中的第k个值)(kx,则称)(kX是样本),,,(21nXXX的第k位顺序统计量.特别地,称},,,min{21)1(nXXXX为最小顺序统计量,称},,,max{21)(nnXXXX为最大顺序统计量.经验分布函数经验分布函数的做法如下:12()(),,,,nSxxXXXx用表示中不大于的随机变量的个数()nFx定义经验分布函数为)(),(1)(xxSnxFn总体分布函数F(x)相应的统计量成为经验分布函数12,,,,nXXXF设是总体的一个样本12(1)(2)(),,,.()nnnxxxnxxxFx一般,设是总体的一个容量为的样本值将它们按大小次序排列如下:则经验分布函数的观察值为.,1,,,,0)()()1()()1(nkknxxxxxnkxxxF,,()1(),limsup()()01.nnnxxnFxFxPFxFx对于任一实数当时以概率一致收敛于分布函数即,()(),().nxnFxFxFx对于任一实数当充分大时经验分布函数的任一个观察值与总体分布函数只有微小的差别从而在实际上可当作来使用格里汶科定理定义6.2.3设随机变量nXXX,,,21相互独立且均服从标准正态分布)1,0(N,则称随机变量222221nXXX所服从的分布是自由度为n的分布,记为)(~22n26.2.22分布t分布F分布1、2分布的概率密度为)(2n12221,0()220,0nxnxexnfxx概率密度图形的示意图可以将绿色的曲线视为概率密度的代表图形)(2n05101520253000.050.10.150.20.250.30.350.40.450.5n=2n=6n=10分布具有可加性2设)(~),(~22221221nn,且2221,独立,则)(~2122221nn例6.2.1若),(~22n则22(),()2EnDn证因对ni,,2,1,有22()0,()()[()]101iiiiEXEXDXEX24421()ed32xiEXxx24222()()[()]312iiiDXEXEX.利用独立性有nXEXEXEEn)()()()(222212222212()()()()2nDDXDXDXn0246810121416182000.020.040.060.080.10.120.14的上分位数记为)(2n)(2n)(2n22{()}Pn设)(~22n,则2.t分布/XTYn~().Ttn所服从的分布为自由度为n的t分布,记为定义6.2.5设)(~),1,0(~2nYNX,并且X与Y独立,则称随机变量分布的概率密度为)(nttntnnntfn,)1()2()21()(212注:f(t)是偶函数,因此其图形关于y轴对称.-5-4-3-2-101234500.050.10.150.20.250.30.350.4n=5n=20N(0,1)n取不同值时t分布及N(0,1)的概率密度的比较图上分位数)(nt若~(),Ttn则有{()}PTtn-5-4-3-2-101234500.050.10.150.20.250.30.350.4)(nt由对称性知,有2{||()}Pttn并且)()(1ntnt-5-4-3-2-101234500.050.10.150.20.250.30.350.42()tn2()tn223.F分布21nYnXF服从的分布为自由度为n1,n2的F分布,记为),(F~21nnF定义6.3.6设)(~),(~2212nYnX且X与Y独立,则称随机变量0,00,)]/(1)[2()2()/](2/)[()(2/)(2121122/21212111yynxnnnynnnnynnnnF分布的概率密度为00.511.522.533.544.5500.10.20.30.40.50.60.70.80.91n=10,m=25n=10,m=5n=15,m=25F分布密度函数的图形00.511.522.533.544.5500.10.20.30.40.50.60.712(,),Fnn),(21nnF分布的上分位数记为),(21nnF由定义,若12~(,),FFnn则211~(,)FnnF12121211(,)(,)111(,)PFFnnPFFnnPFFnn所以12111(,)PFFnn121121(,)(,)FnnFnn例6.2.2设正态总体,而是来自X的样本,令)2,0(~2NX),,,(1521XXX)(22152112102221XXXXXY试确定随机变量Y的分布.解由已知条件知)1,0(~2NXi15,,2,1i222101()()~(10)22XXU2221511()()~(5)22XXV利用样本的独立性知,与相互独立,于是,由F分布的定义,有UV22110221115/10~(10,5)2()/5XXUYFXXV例6.2.3设总体621,,,),1,0(~XXXNX是来自总体X的样本.又设26542321)()(XXXXXXY试决定C,使得CY服从2分布。解由已知条件及正态分布的独立可加性有)3,0(~321NXXX)3,0(~654NXXX且321XXX与654XXX相互独立.又对于0C)3,0(~)(),3,0(~)(654321CNXXXCCNXXXC26542321)()(XXXCXXXCCY于是当13C,即3/1C时,)2(~2CY.§6.3正态总体的抽样分布定理6.3.1若总体),(~2NX,则),(~2nNX证由于nXXX,,,21相互独立且均服从正态分布),(2N,所以作为它们线性组合的样本均值也服从正态分布,又由定理6.2.1知)(XE2()DXn故),(~2nNX推论若总体),(~2NX,则)1,0(~/NnX定理6.3.2若总体),(~2NX,则1)X与2S相互独立;2)统计量)1(~)1(222nSn.说明:由样本方差的定义可知2122)1(niiXXSn虽然是个随机变量的平方和,但是这些随机变量是不独立的,因为它们的和恒等于零:0111niiniiXnXXX由于受到一个条件的约束,所以自由度为1n.)1(~/ntnSX证明因为),1,0(~/NnX)1(~)1(222nSn)1(~/)1(/)1(22ntnSXnSnnX因为X与2S独立,所以nX/与22)1(Sn也是独立的,于是由t分布的定义,