1第六章数理统计的基本概念在前面五章里我们介绍了概率论的基本内容,后面的四章里我们将讲述数理统计的基本内容。数理统计是随机数学的一个应用性极强的分支,它是根据随机试验数据,以概率论理论为基础来研究随机现象,从而对研究对象的统计规律性作出种种合理的统计分析和统计判断的一门应用科学。数理统计的内容十分丰富,包括抽样分布、抽样调查、实验设计、统计估计、统计假设检验、线性回归分析与方差分析等统计理论与方法。随着计算机技术的迅猛发展,统计软件的大力开发,数理统计知识的应用越来越广泛,现已成为自然科学与社会科学的各个学科必不可少的数学工具。本章将介绍数理统计的基本概念,包括总体、样本、统计量、抽样分布、直方图、经验分布函数、三大统计分布等等知识。§6.1总体与样本一、总体与个体在数理统计中,我们把所研究对象的全部元素组成的集合称为总体(母体),组成总体的每一个元素称为个体(样品)。例如要考察某地区全体居民的情况,则该地区的全体居民构成一个总体,每位居民为一个个体;又如考察一批灯泡的质量情况,这一批灯泡构成一个总体,其中每一个灯泡为一个个体。而在实际问题中,我们关心的仅仅是总体的某项数量指标,如考察某地区全体居民的身高情况,一批灯泡的使用寿命情况,因此以后我们就把总体和数量指标等同起来,视某地区全体居民的身高为一个总体,每位居民的身高为一个个体;一批灯泡的使用寿命为一个总体,每一个灯泡的使用寿命为一个个体。由于总体的数量指标是随所考察的个体不同而取不同数值的量,且每个个体所取的值是不同的,事先是无法准确确定的,因此总体的数量指标是一个随机变量,可用X等大写英文字母表示,个体的数量指标也是随机变量,可用12,,XX表示。若总体包含多项研究的数量指标时,则对应分为多个总体进行研究。例如考察某地区全体居民的身高或体重情况时,则某地区全体居民的身高为一个总体X,身高亦为一个总体Y。总体中所包含的个体总数称为总体容量。包含有限个个体的总体称为有限总体,包含2无限个个体的总体称为无限总体。如果一个有限总体所包含的个体很多,在实际中常当作无限总体来处理,如一大批某种产品,一大袋粮食种子等。二、样本数量指标的分布称为总体的分布。为了能了解总体的分布特征情况,实际上是从总体中抽出若干个体,对这若干个体的进行观测,从而去推断总体的分布特征的。例如要了解一批电视机的使用寿命,可以从这批电视机中随机抽取n台电视机,观察这n台电视机的使用寿命,获得n个观察值nxxx,,,21,然后根据这组观察值对整体电视机的寿命(即总体X)作出分析和判断。从总体中抽出若干个体进行观测的方式称为抽样。抽样分为完全抽样与随机抽样,完全抽样即是抽出总体的全部个体进行观测;随机抽样即是从总体中随机抽出部分个体进行观测。由于对个体的观测需要付出一定的人力、财力和物力,所以在实际上,因为观测资源的缺少,或是观测的难度,或是观测本身具有破坏性(如观测灯泡的使用寿命的长短)等原因,不能进行完全抽样,只能进行随机抽样。而且从观测结果而言,完全抽样的观测分析不一定优于随机抽样的观测分析。因此多采用随机抽样方式。一般地,从一个总体X中随机抽出的n个个体12,,,nXXX的集合称为总体X的一个样本(子样),样本中个体的个数称为样本的容量。对样本的一次观察所得的观测值nxxx,,,21,我们称为样本观测值,简称样本值。样本12,,,nXXX所有可能取值的全体称为样本空间,它是n维实数空间或其子集。样本观测值nxxx,,,21则是样本空间中的一个点。为了更有效地利用样本来反映总体的分布特性,我们要求从总体中抽出的样本,必须满足下述两个条件:(1)独立性:12,,,nXXX是相互独立的随机变量,即每个个体的观测结果互相不受影响;(2)代表性:12,,,nXXX能代表总体的分布特征,即是指nXXX,,,21中每一个iX都与总体X具有相同分布。定义6.1.1(简单随机样本)设nXXX,,,21是来自总体X的容量为n的样本,如3果nXXX,,,21相互独立,且每一个iX都是与总体X具有相同分布的随机变量,则称nXXX,,,21为总体X的简单随机样本,简称为样本或子样。在以后的章节中,我们所提到的样本nXXX,,,21,如无特别声明的话,都是指简单随机样本。从定义6.1.1与概率论知识可知,若总体的分布函数为()Fx,则样本nXXX,,,21的联合分布函数12(,,,)nFxxx为()Fx完全决定,其表达式为:121122,,,{,,,}nnnFxxxPXxXxXx1122={}{}{}nnPXxPXxPXx121nniiFxFxFxFx(6.1.1)特别地,如果总体X是连续型随机变量,其概率密度函数为fx,则样本nXXX,,,21的联合概率密度函数为12121,,,nnniifxxxfxfxfxfx(6.1.2)如果总体X是离散型随机变量,其概率分布为{}(1,2,)xPXxpx,则样本nXXX,,,21的联合概率分布为112211,,,innnniixiiPXxXxXxPXxp(6.1.3)例6.1.1设总体X服从参数为的指数分布()Z,从中取出一个容量为n的样本,试求样本nXXX,,,21的联合概率密度函数12,,,nfxxx与联合分布函数412(,,,)nFxxx。解:总体X服从参数为的指数分布()Z,则其概率密度与分布函数分别为0()(0)00xexfxx,10()00xexFxx故样品(1)iXin的概率密度与分布函数分别为0()(0)00ixiiiexfxx,10()00ixiiiexFxx由(6.1.2)式可得样本nXXX,,,21的联合概率密度函数12,,,nfxxx为121,,,nniifxxxfx11210,0,,00niiinxxnnieexxx其它样本nXXX,,,21的联合分布函数12,,,nFxxx为121,,,nniiFxxxFx121(1)0,0,,00inxniexxx其它例6.1.2设总体X服从两点分布((0-1)分布),从中取出一个容量为n的样本,试求样本nXXX,,,21的联合概率分布。解:设总体X服从两点分布((0-1)分布),则其概率分布为1{}(1)0,1xxPXxppx故样品(1)iXin的概率分布为51{}(1)0,1iixxiiPXxppx由(6.1.3)式可得样本nXXX,,,21的联合概率分布为:1122,,,nnPXxXxXx111(1)iinnxxiiiiPXxpp11(1)0,11,2,,nniiiixnxippxin三、统计量我们在用样本nXXX,,,21获得的信息来对总体X作出估计与推断时,需按不同的要求确定样本的各种相应的函数。一般地,设nXXX,,,21是来自总体X的样本,若g是n元连续函数,则称函数12(,,,)ngXXX为样本的函数,特别地,我们对不包含任何未知参数的样本的函数作出定义:定义6.1.2设nXXX,,,21为总体X的样本,若样本的函数12(,,,)ngXXX中不包含任何未知参数,则12(,,,)ngXXX称为统计量。因为nXXX,,,21都是随机变量,而统计量12(,,,)ngXXX是nXXX,,,21的函数,也是一个随机变量。若(nxxx,,,21)为样本的一次观察值,则12,,,ngxxx是12(,,,)ngXXX的观察值,称为统计值。例如函数在21()niiX中,若参数已知,则该函数是统计量;若参数未知时,则它只是样本nXXX,,,21的函数,而不是统计量。6下面列出一些常用的统计量:(1)顺序统计量设nXXX,,,21为总体X的样本,把它们按从小到大的顺序排列为:(1)(2)()...nXXX(6.1.4)则称(1)(2)(),,...,nXXX为原样本nXXX,,,21的顺序统计量。其中()(1)kXkn称为第k个顺序统计量,意味着在nXXX,,,21中恰有k个不超过它,恰有nk个超过它。易见,(1)12n()12nmin,,...,,max,,...,nXXXXXXXX。若样本值为nxxx,,,21,则按其从小到大的顺序排列后得到顺序统计值:(1)(2)()...nxxx样本极小值为(1)12nmin,,...,xxxx,样本极大值为()12nmax,,...,nxxxx。例6.1.3设125,,,XXX为X的容量为5的样本,今对这个样本作了3次观测,得其值如下表所列,试求顺序统计值。解:将每一次观测所得数据按从小到大的顺序排列得下表:X(k)观测次数(1)X(2)X(3)X(4)X(5)X11356102226783358910(2)样本中位数Xk观测次数X1X2X3X4X5131105622672838391057设(1)(2)(),,...,nXXX是原样本nXXX,,,21的顺序统计量,则称统计量()21()2(1)212nnnnXnMXXn为奇数为偶数(6.1.5)为样本的中位数。即nXXX,,,21中恰有一半不超过nM。这是描述总体中心位置的统计量。(3)样本极差设(1)(2)(),,...,nXXX是原样本nXXX,,,21的顺序统计量,则称统计量()(1)nnDXX(6.1.6)为样本的极差。它是样本中最大值与最小值之差,反映了样本观察值的波动幅度。例6.1.4某工厂制作一种线圈,为了控制生产过程保持稳定,从产品中任取10件,测定其电阻抗值X(单位:)所得数据如下:15.3,13.0,16.7,14.2,14.5,14.5,15.9,15.0,15.1,16.4试求:1)样本中位数nM;2)若取第11件数据为15.2,此时nM又为何值;3)样本极差。解:先将所得数据从小到大顺序排列为13.0,14.2,14.5,14.5,15.0,15.1,15.3,15.9,16.4,16.71)n=10为偶数,故(5)10(6)1115.015.115.0522MXX2)1115.2X时,n=11为奇数,故数据重新排列为:13.0,14.2,14.5,14.5,15.0,15.1,15.2,15.3,15.9,16.4,16.7此时得样本中位数11(6)111215.1MXX83)16.713.03.7nD(4)样本众数(mod):数据中最常出现的值为众数,即样本中出现性最大的值,众数可能不惟一。例6.1.5现有一数据集合:{2,3,3,3,3,4,4,5,6,6,6,6,6,7,7,8},其中每一个值出现的次数如下:解:从表中可见,数字6出现的次数最多,故众数为6。(5)样本均值设nXXX,,,21为总体X的样本,统计量11niiXXn(6.1.7)称为样本均值。它描述总体的平均可能取值。其统计值为11niixxn即为样本值nxxx,,,21的算术平均值。(6)样本方差设nXXX,,,21为总体X的样本,统计量22111niiSXXn(6.1.8)称为样本方差,其统计值为2211()1niisxxn2SS称为样本标准差。(7)样本变异系数数值2345678出现次数14215219设nXXX,,,21为总体X的样本,统计量rSCX(6.1.9)称为样本变异系数,其统计值为rscx(8)样本矩设nXXX,,,21为总体X的样本,统计量111,2,nkkiiXXkn(6.1.10)称为样本k阶原点矩;111,2,nkkniiSXXk