第六章数理统计的基本知识数理统计是以概率论为基础,根据试验或观察得到的数据,来研究随机现象.通过统计分析,对研究对象的客观规律性作出合理的估计和推断.第一节总体与样本在一个统计问题中,我们把所研究对象的全体称为一个总体.总体中的每个元素(即每一个研究对象)称为个体.若总体中包含有限个个体,则称这个总体为有限总体,否则称为无限总体,总体中所包含的个体总数称为总体容量.在统计问题中,人们所关心的往往不是总体的一切方面,而是它的某一项数量指标X.因此,我们把这个数量指标X所有可能取值的全体就作为总体看待,称为总体X,X是一个随机变量.我们要根据试验或观察得到的数据来得到X的概率分布和数字特征,分别称为总体的分布和数字特征.大家知道,随机现象的统计规律性必然在大量的重复试验中呈现出来,为了推断总体X的性质,从理论上讲,应该对每个个体逐一进行测试,然而实际上这样做往往是不现实的,例如,要研究灯泡寿命,由于寿命测试是破坏性的,当测试过每只灯炮的寿命后,这批灯泡就报废了.一般来说,恰当的方法是按一定的规则从总体中抽取若干个个体进行测试,为了使测试到的数据能很好地反映总体的情况,当然应该要求总体中每一个个体被抽到的可能性是均等的.并且在抽取一个个体后总体的成分不改变.这种抽取个体的方法称为简单随机抽样.被抽出的部分个体,叫做总体的一个样本.假设我们从总体X中抽取n个个体进行测试(简单抽样),把测试结果分别记作X1,X2,…,Xn.由于抽样的随机性,Xi可以取X所有可能的值,是与X具有相同分布的随机变量,且X1,X2,…,Xn相互独立.这样的n个个体称为总体X的一个简单随机样本.定义设X是具有某一概率分布的随机变量(看作一个总体).如果随机变量X1,X2,…,Xn相互独立,且都与X具有相同的概率分布,则称n维随机变量(X1,X2,…,Xn)为来自总体X的简单随机样本,简称样本,n称为样本容量.在对总体X进行一次具体的抽样并作观测之后,得到样本(X1,X2,…,Xn)的确切的数值(x1,x2,…,xn),称为一个样本观测值(观察值),简称样本值.样本(X1,X2,…,Xn)所有可能取值的全体称为样本空间,它是n维空间或其中的一个子集.样本观察值(x1,x2,…,xn)是样本空间中的一个点.如果总体X的分布函数为F(x),则X的样本X1,X2,…,Xn的联合分布函数为.如果总体X为连续型且概率密度为f(x),则样本(X1,X2,…,Xn)的联合概率密度为.niixF1)(niixf1)(第二节统计量及其分布一、统计量样本是总体的代表,是统计推断的依据.在应用时,往往不是直接使用样本本身,而是针对不同的问题构造样本的函数,来进行统计推断.定义1设(X1,X2,…,Xn)是来自总体X的一个样本,t=g(t1,t2,…,tn)为t1,t2,…,tn的一个单值实函数,并且其中不包含任何未知参数,则称T=g(X1,X2,…,Xn)为一个统计量.设x1,x2,…,xn是相应于样本X1,X2,…,Xn的样本值,则称g(x1,x2,…,xn)是统计量T=g(X1,X2,…,Xn)的观察值.二、样本矩下面给出几个常用的统计量.设(X1,X2,…,Xn)是来自总体X的一个样本,(x1,x2,…,xn)是样本观察值,定义:样本均值.niiXnX11样本分差.样本标准差(均方差).niiniiXnXnXXnS12212211)(11niiXXnSS122)(11样本k阶(原点)矩(k=1,2,…).样本k阶中心矩(k=1,2,…).nikikXnA11nikikXXnB1)(1显然,.XA1221SnnB它们的观察值分别为,,niixnx11niiniixnxnxxns12212211)(11niixxns12)(11nikikxna11nikikxxnb1)(1,,.三、顺序统计量定义2(X1,X2,…,Xn)是总体X的一个样本,(x1,x2,…,xn)是一个样本观察值,将它由小到大的顺序排列,得到x(1)≤x(2)≤…≤x(n),取x(i)作为X(i)的观测值,由此得到的统计量X(1),X(2),…,X(n)称为样本(X1,X2,…,Xn)的一组顺序统计量,X(i)称为第i个顺序统计量或第i项.统计量Rn=x(n)-x(1)分别称为样本中位数和样本极差.样本均值、顺序统计量的首项及末项、样本中位数描述了样本在数轴上的大致位置;样本方差与样本极差描述了样本的分散程度.mnXXmnXXmmm2,)(2112,~)1()()1(当当第三节样本分布函数与频率直方图一、样本分布函数样本能够反映总体X的信息,总体X的分布函数F(x)是否能由样本来“表示”?回答是肯定的,我们用下面介绍的样本函数来近似表示总体X的分布函数.定义设x(1),x(2),…,x(n)是总体X的顺序统计量的一组观察值,对于任意的实数x,定义函数.,1;1,,2,1,,;,0)()()1()()1(niinxxnixxxnixxxF称Fn(x)为总体X的样本分布函数(或经验分布函数).样本分布函数Fn(x)不仅与样本容量n有关,还与所得到的样本观察值有关,故它是随机变量.Fn(x)的图形(图6-1)呈跳跃上升的台阶状,在x(1),x(2),…,x(n)中的不重复的值处,跳跃高度为;在重复l次的值处,跳跃高度为.图6-1中的曲线是总体X的理论分布函数F(x)的图形.nln1图6-1样本分布函数Fn(x)具有以下性质:1°0≤Fn(x)≤1;2°Fn(x)是单调不减函数;3°Fn(x)是处处右连续的.对于样本观察值(x1,x2,…,xn),为了求其对应的样本分布函数Fn(x)之值,只须将这n个值中小于或等x的个数除以样本容量n即可.对于给定的x,Fn(x)是n次重复独立试验中事件{X≤x}出现的频率,而理论分布函数F(x)是事件{X≤x}发生的概率,由伯努利定理知,对任意给定的正数ε,有,即Fn(x)按概率收敛于F(x).进一步还有如下结论.1}|)()({|limxFxFPnn定理(格利文科(W.Glivenko)定理)设总体X的分布函数为F(x),样本分布函数Fn(x),则对于任何实数x,有.证明从略.以上结论是我们用样本去推断总体的依据.1}0|)()(|suplim{xFxFPnxn二、频率直方图如果说样本分布函数是通过随机样本对总体分布函数的反映,那么下面介绍的频率直方图就是样本对总体概率密度函数的反映(假设总体是连续随机变量).依据总体X的一个样本观察值(x1,x2,…,xn)画直方图的一般步骤如下:1°找出x1,x2,…,xn中的最小值x(1)与最大值x(n).2°选择常数a、b(a≤x(1),b≥x(n)),在区间[a,b]内插入k-1个分点;a=t0t1t2…tk-1tk=b.用来对样本观察值进行分组.为了方便,可将区间[a,b]分成k等分,此时组距是i=1,2,…,k.组数k要选择适当.一般地说,当20≤n≤100时,取k为5~10;当n100时,取k为10~15.通常取ti比样本观察值精度高一位.,1kabtttii3°对于每个小区间(ti-1,ti],数出x1,x2,…,xn落入其中的个数ni(称为频数),再算出频率,i=1,2,…,k.4°在xOy平面上,对每个i,画出以(ti-1,ti]为底,以yi=fi/Δt(i=1,2,…,k)为高的矩形.这种图称为频率直方图,简称直方图.nnfii直方图中第i个小矩形面积yiΔt=fi(i=1,2,…,k),k个小矩形的面积之和为1.由于样本观察值的n个数值x1,x2,…,xn是从总体X中独立抽取的,它们落入区间(ti-1,ti]的频率fi近似等于随机变量X在该区间内取值的概率,即fi≈P{ti-1X≤ti}=pi,i=1,2,…,k,当X是连续随机变量,且概率密度为f(x)时,则有,i=1,2,…,k.由此可见直方图在一定程度上反映了X的概率密度情况.ittipxxffii1d)(例1某炼钢厂生产一种钢,由于各种偶然因素的影响,各炉钢的含硅量是有差异的,因而应该把含硅量X看成一个随机变量.现在记录了120炉正常生产的这种钢的含硅量的数据(百分数):0.860.830.770.810.810.800.790.820.820.810.810.870.820.780.800.810.870.810.770.780.770.780.770.770.770.710.950.780.810.790.800.770.760.820.800.820.840.790.900.820.790.820.790.860.760.780.830.750.820.780.730.830.810.810.830.890.810.860.820.820.780.840.840.840.810.810.740.780.780.800.740.780.750.790.850.750.740.710.880.820.760.850.730.780.810.790.770.780.810.870.830.650.640.780.750.820.800.800.770.810.750.830.900.800.850.810.770.780.820.840.850.840.820.850.840.820.850.840.780.78试根据这些数据作出直方图,并根据直方图估计含硅量X的分布.解1°从n=120个数据中找出最小值x(1)=0.64及最大值x(120)=0.95.2°取a=0.635,b=0.955,分k=16组,组距.3°分组及频数如表6-1所示.表中的组中值(i=1,2,…,16)将会在第八章第五节用到.4°以横轴x轴表示含硅量,a=t0=0.635,t1=0.655,…,t15=0.935,b=t16=0.955,Δt=0.02,取纵坐标的单位长为,则直方图中第i个矩形的高度,正好是ni(i=1,2,…,16)个单位.02.016635.0955.0t21iiittt4.211tn4.21itiiintnntnntfy分组(ti-1,ti)]频数组中值0.635~0.65520.6450.655~0.67500.6650.675~0.69500.6850.695~0.71520.7050.715~0.73520.7250.735~0.75580.7450.755~0.775130.7650.775~0.795230.7850.795~0.815240.8050.815~0.835210.8250.835~0.855140.8450.855~0.87560.8650.875~0.89520.8850.895~0.91520.9050.915~0.93500.9250.935~0.95510.9451461有了直方图,就可以大致画出X的概率密度曲线.从图上看,曲线很象正态分布的概率密度曲线.第四节几个常用统计量的分布统计量是样本的函数,它是一个随机变量,下面介绍来自正态总体的几个常用统计量的分布.一、分布21.定义设X1,X2,…,Xn是来自正态总体N(0,1)的样本,则称统计量为服从自由度为n的分布,记作~(n).222212nXXX2220f(x)n=1n=5n=15x2.(n)分布的概率密度(不证):其中为函数在处的函数值.0,00,e221)(2122/xxxnxfnnn2n)0(de)(01sxxsxs2ns)1)1(,!)1(,21),()1((nnsss2nXDDnXEEniinii2)()(,)()(122122