第六章统计量与抽样分布随机样本与统计量分布t分布F分布1正态总体下的抽样分布2数理统计是一门以数据为基础的学科,可以定义为收集数据,分析数据和由数据得出结论的一组概念、原则和方法。例如:若规定灯泡寿命低于1000小时者为次品,如何确定次品率?由于灯泡寿命试验是破坏性试验,不可能把整批灯泡逐一检测,只能抽取一部分灯泡作为样本进行检验,以样本的信息来推断总体的信息,这是数理统计研究的问题。26.1随机样本与统计量总体:研究对象的全体;个体:总体中的成员;总体的容量:总体中包含的个体数;有限总体:容量有限的总体;无限总体:容量无限的总体,通常将容量非常大的总体也按无限总体处理。3例:1)了解某校“大学生的月消费水平”。总体是该校大学生全体。这是一个有限总体,每个大学生有许多指标,我们关注的是学生“过去6个月平均每月的花费”这一指标。42)了解某城市的空气质量情况,调查该城市的PM2.5值。这是一个无限总体,描述空气质量有许多指标,而我们仅关心PM2.5值。53)研究某种药物在人体中的吸收情况。这是一个有限总体,但数量非常巨大,我们常把它看出无限总体。6为了采用数理统计方法进行分析,首先要收集数据,数据收集方法一般有两种。(1)通过调查、记录收集数据。如为了调查大学生“过去6个月平均每月的花费”,可以进行问卷调查;要了解PM2.5值,需要在城市设立若干PM2.5监测站点,定时收集数据。(2)通过实验收集数据。如为了了解药物吸收情况,要征集若干志愿者,把他们分成若干组,观察他们服药后不同时间点药物含量数据。关于调查数据和实验数据的收集可以根据数据本身的特点有多种不同的方法和设计,有专门的课程讲授,这里不作详细介绍。总体的某个指标X,对于不同的个体来说有不同的取值,这些取值构成一个分布,因此X可以看成一个随机变量.有时候就把X称为总体.假设X的分布函数为F(x),也称F(x)为总体.7数理统计主要任务是从总体中抽取一部分个体,根据这部分个体的数据对总体分布给出推断.被抽取的部分个体叫做总体的一个样本.8随机样本:从总体中随机地取n个个体,称为一个随机样本。简单随机样本:满足以下两个条件的随机样本(X1,X2,…,Xn)称为容量是n的简单随机样本。1.代表性:每个Xi与X同分布;2.独立性:X1,X2,…,Xn是相互独立的随机变量。9[说明]:后面提到的样本均指简单随机样本。[注意]:一个容量为n的样本是指n个独立与总体分布相同的随机变量。一旦对样本进行观察,得到实际数值称为样本观察值(或样本值)。两次观察,样本值可能是不同的。12,,nxxx12,,nXXX10如何取得的样本才称是简单随机样本?对于有限总体,采用放回抽样就能得到简单随机样本.但当总体容量很大的时候,放回抽样有时候很不方便,因此在实际中当总体容量比较大时,通常将不放回抽样所得到的样本近似当作简单随机样本来处理.对于无限总体,一般采取不放回抽样.1112(88,88)(88,75)(88,70)(88,63)(75,88)(75,75)(75,70)(75,63)(70,88)(70,75)(70,70)(70,63)(63,88)(63,75)(63,70)(63,63)例1.1有4个学生参加《概率论与数理统计》课程考试,成绩分别为88,75,70,63.现从中抽取容量为2的样本,列出全部的样本.答:共有16个样本,分别为:统计量:样本的不含任何未知参数的函数。常用统计量:设(X1,X2,…,Xn)为取自总体X的简单随机样本。常用的统计量如下:111.niiXXn样本均值1113.1,2,1()1,2,nkkiinkkiikAXknkBXXkn样本矩阶矩:阶中心矩:22112.(),1niiSXXSn样本方差为样本标准差131222,,,,(),()()[()],3()[()]nkkkkkkXXXEXVarXEXEXXSAEXBEX对于总体是来自总体的样本设下列数字特征存在,,,问:(1)与,(2)与,()与,(4)与都相等吗?[思考题]:答:不对。前者是随机变量,观察两次得到的统计量的值可能不一样;后者是数,可能已知也可能未知。14一般,用样本均值X作为总体均值()EX的估计;用样本方差2S作为总体方差22()EX的估计;用样本原点矩kA作为总体原点矩()kkEX的估计;用样本中心矩kB作为总体中心矩()kkEX的估计.总体方差的估计可以用2S也可以2B,主要的区别涉及到“无偏性”(这个概念将在第七章讨论).当总体数字特征未知时(设各阶矩存在)1516例1.2接例1.1,总体为88,75,70,63,显然,总体均值为74.计算全部16个样本的样本均值.从中看到,用样本均值估计总体均值,可能估计过高,可能估计过低。所有样本均值的平均值恰好是总体均值。(无偏性)样本编号样本样本均值样本编号样本样本均值样本编号样本样本均值1(88,88)887(75,70)72.513(63,88)75.52(88,75)81.58(75,63)6914(63,75)693(88,70)799(70,88)7915(63,70)66.54(88,63)75.510(70,75)72.516(63,63)635(75,88)81.511(70,70)7016个样本均值的平均为746(75,75)7512(70,63)66.5222n分布记为,176.2分布t分布F分布22(一)分布定义:设随机变量相互独立,12,,,nXXX0,11,2,,iXNin则称221=(1)niiX服从自由度为n的其中,自由度指(1)式右端包含的独立变量个数.182221101,0,2220,0,.nyxnyeyfynyxedx分布的概率密度函数为:其中,x()fx010n1n4n2分布的概率密度函数2n02分布的分位数x()fx192分布的性质21221212~(),1,2,,~();iiYniYYYYnn2.设且相互独立,则有2222~(),(),()2;nEnVarn1.设则有2——分布可加性212211~,1,2,,,~.iimmmiiiiYnimYYYYn一般地,若,相互独立,则22222,01,,nnfdynynn为分布的上分对给定的概率称满足条件的点上分位数的值可查位数分布表20在Excel表单的任一单元格输入“=CHISQ.INV.RT(0.1,25)”;点击''确定即在单元格中出现''34.382.2120.1(25).例2.1利用Excel求2212222122223452.2,,,,,,1()5)(2)~(),,,nniiXNXXXXXnaXXbXXXkabk1例设总体已知,是取自总体的样本.求(1)统计量的分布;(2)设,若(则各为多少?221,2,,iiXYin解:(1)作变换12,,,0,11,2,,niYYYYNin显然相互独立,且22211()nniiiiXYn2于是2321212(2)~(0,2),~(0,1)2XXXXNN234534522~(0,6),~(0,1)6XXXXXXNN345122223451222226(2)()~(2)26XXXXXXXXXX与相互独立,故221,21,62.abk241212226.41,nnnttnfttnn定理:分布的概率密度为:121222,1,nnnttnftntnn分布的概率密度函数为:设)1,0(~NX,nY2~,并且假设YX,相互独立,则称nYXT/服从自由度为n的t分布.记为)(~ntT25(二)t分布tn分布概率密度函数26,01,,tnftndttntntt对给定的称满足条件的点为分布的上。分布的上分位数可位数查分分布表1()()tntn27在Excel表单的任一单元格输入“=T.INV(1–0.05,25)”或“=T.INV.2T(0.05*2,25)”;点击“确定”即在单元格中出现“1.708”.280.05(25).t例2.3利用Excel求221211221212,,,/,/~,.XnYnXYXnFnnFYnFFnnnn设且独立,则称随机变量服从自由度的分布,记为其中,称为第一自由度,称为第二自由度.11221~(,),~(,).FFnnFFnn性质:则29(三)F分布12121222121212122122121110,1,0,,;,0,6.0.,51nnnnnnnbFnnnnxnnxxBfxnnxBabxxdx分布的概率密度函数为:中定:其理abab.3012,Fnn分布概率密度函数12;,fxnn1212,121212,01,;,,,,FnnfxnndxFnnFnnFnnF对于给定的称满足条件的点为分布的上分位数.的值可查分布表.111221(,)[(,)]FnnFnn31在Excel表单的任一单元格输入“=F.INV.RT(0.1,9,10)”或“=F.INV(1–0.1,9,10)”;点击“确定”即在单元格中出现“2.347”.320.1(9,10).F例2.4利用Excel求定理6.3.1设12,,,nXXX为来自正态总体),(2N的简单随机样本,X是样本均值,2S是样本方差,则有:nNX2,~.6.3正态总体下的抽样分布33定理6.3.2设12,,,nXXX为来自正态总体),(2N的简单随机样本,X是样本均值,2S是样本方差,则有:(1))1(~)1222nSn(,(2)X与2S相互独立.342122212212,,,(,)()1()2nniiniiXXXNXSXXX设是来自正态总体的简单随机样本,和分别是样本均值和样本方差。问:()服从什么分布?()服从什么分布?[思考题]:22(1)()nn答:(1),(2).35定理6.3.3设12,,,nXXX为来自正态总体),(2N的简单随机样本,X是样本均值,2S是样本方差,则有:~(1).XtnSn3622=~(1).(1)(1)XXntnnSSnn注意到222211111222222222(1)~(1,1);SSFnnSS则37定理6.3.4设样本和分别来自总体和且相互独立,样本均值分别为样本方差分别为1211,,,,nnXXYY221122,,,NN,,XY2212,,SS12221212(2)~(0,1);XYNnn2222111122122222112222(1)(1)~(1,1);(1)(1)SnSnSFnnnnS注意到38222121212122211222212(3),~2.1111,.2当时其中,121212221122221211~2.11(+)(2)XYnntnnnSnSnn2122223.1,,,(),(),();(2),()nXXXXXSEXVar