第六章数理统计的基本概念由于大量随机现象必然呈现出其规律性,因而从理论上讲,只要对随机现象进行足够多次的观察,随机现象的规律性就一定能够清楚地呈现出来。但是,客观上只允许我们对随机现象进行次数不多的观察或试验,也就是说:我们获得的只能是局部的或有限的观察资料。数理统计的任务就是研究怎样有效地收集、整理和分析所获得的有限资料,并对所研究的问题尽可能地给出精确而可靠的估计和推断。现实世界中存在着形形色色的数据,分析这些数据需要多种多样的方法。因此,数理统计中的方法和支持这些方法的相应理论是相当丰富的。概括起来可以归纳成两大类。参数估计:根据数据,对分布中的未知参数进行估计;假设检验:根据数据,对分布的未知参数的某种假设进行检验。参数估计与假设检验构成了统计推断的两种基本形式,这两种推断渗透到了数理统计的每个分支。§6.1总体与样本6.1.1总体与样本在数理统计中,我们往往关心所研究对象的某项数量指标(比如灯泡的使用寿命,学生的身高等).把研究对象的某项数量指标值的全体称为总体,每个研究对象的数量指标值称为个体。总体中的个体数目称为总体容量。1.总体与个体在研究2000名学生的年龄时,这些学生的年龄的全体就构成一个总体,每个学生的年龄就是个体.实例1某工厂10月份生产的灯泡寿命所组成的总体中,个体的总数就是10月份生产的灯泡数,这是一个有限总体;而该工厂生产的所有灯泡寿命所组成的总体是一个无限总体,它包括以往生产和今后生产的灯泡寿命.2.有限总体和无限总体实例2当有限总体包含的个体的总数很大时,可近似地将它看成是无限总体.3.总体分布在2000名大学一年级学生的年龄中,年龄指标值为“15”,“16”,“17”,“18”,“19”,“20”的依次有9,21,132,1207,588,43名,它们在总体中所占比率依次为实例3,20009,200021,2000132,20001207,2000588,200043即学生年龄的取值有一定的分布.一般地,我们所研究的总体,即研究对象的某项数量指标X,其取值在客观上有一定的分布,X是一个随机变量.如实例3中,总体就是数集{15,16,17,18,19,20}.总体分布为:200043200058820001207200013220002120009201918171615比率年龄即总体就是一个随机变量,总体的分布就是随机变量的分布.4.样本在实际问题中,总体的分布一般是未知的,或分布形式已知,却含有未知参数(比如服从P(),未知).我们往往从总体中抽出部分个体,根据获得的数据对总体的分布进行推断.被抽出的部分个体称为总体的一个样本.所谓从总体中抽出一个个体,就是对总体X进行一次观察,并其记录结果.在相同的条件下对总体X进行n次重复独立观察,其结果12,,,,nXXX显然,12,,,nXXX都是随机变量,而且它们相互独立,与总体X同分布..,,,,21个独立的观察值的又称为称为样本值它们的观察值nXxxxn与总体X具有相同的概率分布,则称随机变量为来自总体X的容量为n的简单随机定义1:若随机变量相互独立且都样本,简称样本.注意:样本的二重性。样本X1,X2,…,Xn可以被看作n维随机向量,自然需要研究其联合分布。6.1.2样本的分布假设总体X具有概率密度函数f(x),因样本X1,X2,…,Xn独立同分布于X,于是,样本的联合概率密度函数为:若总体X是离散型的,其分布律为:则样本的联合分布为由样本推断总体的某些情况时,需要对样本进行“加工”,构造出若干个样本的已知(确定)的函数,其作用是把样本中所含的某一方面的信息集中起来。6.2.1统计量的概念这种不含任何未知参数的样本的函数称为统计量。它是完全由样本所决定的量。§6.2抽样分布是样本的函数,如果中不包含任何未知参数,则称它定义2:设12,,,nXXX是来自总体X的样本,12(,,,)ngXXX12,,,nXXX12(,,,)ngXXX是一个统计量。定义3:几个常用的统计量样本均值样本方差niiXnX11niiXXnS122)(11反映总体均值的信息样本标准差niiXXnS12)(112211()1niiXnXn样本k阶原点矩样本k阶中心矩nikikXnA11k=1,2,…反映总体k阶中心矩的信息11()nkkiiBXXn反映总体k阶矩的信息它们的观察值分别为…定理1:设212(),(),,,,nEXVarXXXX来自总体X的样本,则222(),(),().EXVarXESn若总体X的k阶矩存在,由大数定律可以得到:()PkkAEX[]kPkBEX定理2:设X1,X2,,Xn是来自均值为,方差为2的正态总体的样本,则有(0,1)./XNn~统计量的分布称为抽样分布,下面介绍来自正态总体的几个重要统计量的分布,称为统计学的三大分布:2分布,t分布和F分布.6.2.2χ2分布定义4:设X1,X2,…,Xn是来自总体N(0,1),的样本,则称统计量222212nXXX服从自由度为n的卡方分布,记为:22~().n注意:若X1,X2,…,Xn是来自正态总体2(,)N的样本,则随机变量22211()~().niiXn.0,0,0,)2(21);(2122xxexnnxfxnn通过积分函数,为伽玛其中Gamma)()(Γ来定义。0,)(01dxexx2()n的概率密度为:分布概率密度曲线2()n2分布的性质:22221122(1).~(n)~(n)若,,且二者相互独立,则2221212~(n+n).22(2).~(n),若则22(),()2.EnVarn定理3:则值与样本方差,分别为样本均与的简单样本,,是抽自正态总体,,,设)(2221SXNXXXn222(1).(1)/~(1);nSn2(2).XS与相互独立.证明略.t分布的概率密度为.,1)2(2)1();(212xnxnnnnxfn为服从自由度n的t分布,记为T~t(n)。6.2.3t分布nYXT定义5:设X~N(0,1),Y~χ2(n),且X与Y相互独立,则称随机变量t分布的概率密度图形当n充分大时,f(x;n)趋近于标准正态分布的概率密度。,0);(lim0nxfxx且对称,图形关于定理4:则值与样本方差,分别为样本均与的简单样本,,是抽自正态总体,,,设)(2221SXNXXXn~(1)./XtnSn6.2.4F分布且U与V相互独立,则称F=(U/m)/(V/n)服从第一自由度为m,第二自由度为n的F分布。记成F~F(m,n)。定义6:设22~(),~(),UmVn221221,0,()220,0.mmnmmnmmxxxmnfxnnx其概率密度函数为F分布的性质:(1)若F~F(m,n),则1/F~F(n,m);(2)若X~t(n),则2~(1,).XFn结论:6.2.5正态总体样本均值与样本方差的分布则值与样本方差,分别为样本均与的简单样本,,是抽自正态总体,,,设)(2221SXNXXXn;,或,,)10(~/)/(~).1(2NnXnNX222(2).(n1)S/~(n1)相互独立;与).3(2SXX(4).~t(n1).S/n定理5:设X1,X2,…,Xm与Y1,Y2,…,Yn分别来自总体221122~(,)~(,)XNYN和的样本,22122212/~(1,1)./SSFFmn两样本独立,则有定理6*:设X1,X2,…,Xm与Y1,Y2,…,Yn分别来自2212~(,)~(,)XNYN总体和的样本,两样本独立,则有12()()~(2).11XYTtmnSmn其中22212(1)(1).2mSnSSmn6.3分位数设随机变量X的分布函数为F(x),设满足01,若数x,使1(),PXxFx则称x为此概率分布的分位数(或上侧分位数)。标准正态分布的分位数记为z,满足条件()zPXzxdx()1,z即例如,0.050.011.645,2.327.zz由于概率分布的对称性,有1.zz224.n分布的分位数记为,附表1()3.()().ttntntn分布的分位数记为,附表(,)5.FFmn分布的分位数记为,附表11(,).(,)FmnFnm例1:总体216103XNXX~(,),,,为其样本,求11PX{}.解:21036~(,/),XN即1032~(,/),XN100132~(,),/XN101110113232{}{}//XPXP1082(.)10793902061..例2:总体2123402~(,),,,,XNXXXX为其样本,求a,b使随机变量2221234234()()~YaXXbXX分布,并写出自由度.解:122020~(,),XXN34340100~(,),XXN1220120~(,),XXN34340110~(,),XXN二者独立,2223412342220100()()~().XXXX2234123422010020100()()XXXXYab要使Y服从2分布,必须使2011001,ab1201100/,/ab22~().Y例3:设X与Y独立,都服从2191903(,),,,,,NXXYY与分别为来自总体X,Y的两个样本,则统计量129222129XXXYYY服从什么分布?解:212909~(,)XXXN129019~(,)XXXUN时,011293~(,),,,,.iYNi9133,,YY相互独立,22229129333()()()~()YYY即222212999~()YYYVU与V独立,由t分布的定义9/UV129222129t(9)~XXXYYY例5:设总体2110003~(,.),,,XNXX为其样本,求10211144{.};iiPX()123206{max(,,).}.PXXX()解:(1)01121003~(,),,,,,.iXNi102210310(/.)~()iiX且相互独立,因此1010221114403144009{.}{(/.)./.}iiiiPXPX10210316{(/.)}iiPX反查P173表4.=0.1.(2)设总体X的分布函数为F(x),则123max(,,)XXX的分布函数为3),Fz(312306106{max(,,).}(.)PXXXF所求概率为306103.().312()31097720067(.)..例6:总体110115103~(,),,,,,XNXXYY与为其两独立样本,计算03{||.}.PXY解10310~(,/),XN10315~(,/),YN且两者独立,102~(,)XYN0112~(,),/XYN即201()~(,),XYN032203{||.}{||.}PXYPXY210422106628[(.)](.)06744.练习从总体2346(.,)N中抽取容量是n的样本,若要求样本均值位于(1.4,5.4)内的概率不少于0.95,问n至少取多大?附正态分布的分布函数部分值表:)(zz1.281.6451.962.330.90.950.9750.99解34016.~(,)/XNn由于1454{..}PX1434345434666.....{}///XPnnn