1第七章样本分布数理统计是研究如何有效地收集、整理和分析带有随机影响的数据,从而对所观察的现象做出推断或预测,为决策提供依据的一门学科。在近一个多世纪的发展中,数理统计不同程度地渗透到人类活动的许多领域。人口调查、税收预算、测量误差、出生与死亡统计、保险业中赔款额和保险金的确定等,这些数理统计早期主要研究的问题,直到现在仍然值得认真研究。在近半个世纪以来,数理统计在理论、方法、应用上都有较大的发展。抽样调查、试验设计、回归分析与回归诊断、多元分析、时间序列分析、非参数统计、统计决策函数、统计计算、随机模拟、探索性数据分析等统计方法相继产生并在实践中普遍使用,把以描述为主的统计发展到以推断为主的统计。数理统计的内容已异常丰富,应用广泛,成为当前最活跃的学科之一。2§7.1总体与样本一、总体与个体总体指研究对象的某项数量指标值的全体。组成总体的每个元素称为个体。由于每个个体的出现带有随机性,即相应的数量指标值的出现带有随机性。从而可把此种数量指标看作随机变量,我们用一个随机变量及其分布来描述总体。为此常用随机变量的符号或分布的符号X,Y,Z…,F(x)…来表示总体。例7.1研究某灯泡的使用寿命时,总体可用随机变量X来表示,或用其分布函数F(x)表示。3二、样本为了推断总体分布及其各种特征,就必须从总体中按一定法则抽取若干个体进行观测或试验,以获得有关总体的信息.这一抽取过程称为抽样.所抽取的部分个体称为样本,样本中个体的数目称为样本容量.例如容量为n的样本可以看作是n维随机变量(),其观察值为().nXXX,,,21nxxx,,,21例7.2研究某地区学龄前儿童发育情况,人们关心的是其体重X和身高Y这两个数量指标,则此总体就可用二维随机变量(X,Y)或其联合分布函数F(x,y)表示.4简单随机抽样它要求满足两点:(1)代表性.样本中每个个体与所考虑的总体有相同的分布.即样本中每个个体与总体X具有相同的分布.(2)独立性.样本中每个个体取什么值并不影响其它个体取什么值.即必须是相互独立的随机变量.由简单随机抽样所得到的样本称为简单随机样本.假如总体的分布函数为F(x),则其简单随机样本的联合分布函数为niinniinxfxxfxFxxF1111)(),,()(),,(5三、分布族在概率论研究中,随机变量的分布总是假设给定的,但在数理统计的研究中,总体的分布是未知的,但总可以假定总体的分布是某一个分布族的成员.例7.3在研究某批灯泡的质量时,若关心的是其质量是否合格,若合格记为0,不合格记为1,因此该总体就可用仅取0和1的随机变量X来表示.显然,这个总体的分布就是一个参数为p的二点分布b(1,p),由于p未知,故这个总体分布也是未知的,但可以假定该总体分布是二点分布族F={b(1,p);0p1}6若人们关心的是灯泡的寿命。这是一个无限总体。假如人们根据过去的资料知道灯泡的寿命X服从指数分布,其密度函数为所需确定的参数是λ0.0,00,)(xxexfx7四、从样本去认识总体⑴频数频率分布表及其图示例7.4我们通常饮用的矿泉水有19个指标.某市技术监督局一次抽查了58批矿泉水,记录每一批矿泉水的每个指标是否合格,从中可统计出每批矿泉水不合格指标的个数X.这里X是一个离散型随机变量,其一切可能取值为0,1,…19。58批矿泉水的指标不合格数构成了一个容量为58的样本的观察值,每个可取0,1,…,19中某个值,将它们整理后列成表1.1.18不合格指标数频数频率0330.571170.293250.086310.017420.034合计581表158批矿泉水不合格指标数的频率、频数分布表9直方图0204001234其他个数频率频率10(2)经验分布函数样本直方图可以形象地去描述总体概率密度函数大致形状,经验分布函数将可以用来描述总体分布函数的大致形状.定义1.1.1设总体X的分布函数为F(x),从中获得的样本观察值为,将它们从小到大排列成,令nxx,,1)()2()1(nxxx)()1()()1(,1,,0)(nkknxxxxxnkxxxF称为该样本的经验分布函数.)(xFn11例7.5写出经验分布函数某食品厂用自动装罐机生产净重量为345克的午餐肉罐头,由于随机性,每个罐头的净重有差别,现从中随机取10个罐头,其净重如下:344,336,345,342,340,338,344,343,344,343,求经验分布函数.xxxxxxxxxFn34513453449.03443436.03433424.03423403.03403382.03383361.03360)(12统计量及其分布1.定义1.2.1设是取自某总体的一个容量为n的样本,假如样本函数中不含任何未知参数,则称T为统计量.统计量的分布称为抽样分布.nXX,,11(,,)nTTXX2.常用的几个统计量设是来自总体X的样本nXX,,1⑴样本均值样本均值是反映总体数学期望所在位置信息的一个统计量,是总体数学期望的一个很好的估计.niiXnX1113⑵样本方差样本标准差样本方差与样本标准差反映了数据取值分散与集中的程度,即反映了总体方差与标准差的信息.niiXXnS122)(112SS⑶样本k阶(原点)矩样本k阶中心矩它们分别反映了总体k阶(原点)矩与k阶中心矩的信息.nikikXnA11nikikXXnB1)(114⑷样本偏度SK反映了总体分布密度曲线的对称性信息.当SK0时,分布的形状是右尾长,称为正偏的;当SK0时,分布的形状是左尾长,称为负偏的.2323BBSK3224BBKU⑸样本峰度KU反映了总体分布密度曲线在其峰值附近的陡峭程度的信息,当KU0时,分布密度曲线在其峰比正态分布来得陡;当KU0时,比正态分布来得平坦.15⑹次序统计量被称为样本的第i个次序统计量,它是样本的满足如下条件的函数:每当样本得到一组观察值()时,将它们从小到大排列为,第i个值便是的观察值,称为该样本的次序统计量.)(iX),,(1nXXnxxx,,,21)()2()1(nxxx)(ix)(iX)1(X)(nX()111()[()][1()]()iiiniXnfxnCFxFxfxnXXX,,21,又称为该样本的最小次序统计量,称为该样本的最大次序统计量.16⑺样本极差若样本容量为n,则样本极差它反映了样本取值范围的大小,也反映了总体取值分散与集中的程度.极差常在小样本(n≤30)场合使用,而在大样本场合很少在实际中使用.()(1)nRXX这是因为极差仅使用了样本中两个极端点的信息,而把中间的信息都丢弃了,当样本容量越大时,丢弃的信息也就越多,从而留下的信息过少,其使用价值就不大了.17(8)样本p分位数和中位数定义设是来自总体F(x)样本,为该样本的次序统计量.nXXX,,,21)()2()1(,,,nXXX10p))(1][)(1(])([)1]([])([npnpnppXXnnppnXm为该样本的p分位数(或p分位点).5.0m称为样本中位数,显然有对于,称18375.0125.0QmQm第一四分位数第三四分位数1Q3Q为偶数为奇数nXXnXmnnn)(21)12()2()21(5.019例2设是F(x)的样本,),,,(21nXXX2,2)(21),(jijiXXXXf2),(jiXXEf2nC此种统计量有个,加起来平均得:令有iXjX从中任选两个分量和分别为总体均值与方差,20}{11]})[()1{()1(1]2)([)1(1)()1(1),(12222222222XnXnXXnXnnnXXXXnnXXnnXXfCSiiijijijijijijijijinn21niiXY12几种常用的分布族⑴分布2Ⅰ定义:1.2.2设为相互独立的随机变量,且均服从标准正态分布N(0,1),则称随机变量服从自由度为n的分布,记作nXXX,,,212()Yn2自由度可理解为平方和中独立变量的个数.Ⅱ分布性质2(1)设,则E(X)=n,D(X)=2n.2()Xn(2)可加性:设,,且X与Y独立,则2()Xn2()Ym2()XYnm22下图描绘了分布密度函数在n=5,10,20时的图形.)(2nN=5N=10N=2023(2)t分布①定义1.2.3:设X~N(0,1),,且X与Y独立,则称随机变量所服从的分布为t分布,记为T~t(n),称n为自由度.2()YnnYXTN(0,1)24(3)F分布①定义1.2.4:设,,且X与Y独立,则称随机变量服从自由度为(n,m)的F分布,记作.2()Xn2()YmXnYmF),(~mnFF)50,10(),10,10(),4,10(FFF图1.2.4描绘了的密度函数曲线25(4)Γ分布族定义1.2.5:定义在正实数上,且用密度函数1(;,),0()xfxxex表示的概率分布称为Γ分布,记为Γ(α,λ).其中α0是形状参数,λ0是尺度参数.而{Γ(α,λ);α0,λ0}就是Γ分布族当α=1时的Γ分布为指数分布其密度曲线如下:Γ(1,0.5)26α=0.5α=1.0α=1.6α=2.8λ=0.327Γ分布族性质21~(,),(),()ifXthenEXDX12122~(,),~(,),,~(,)ifXYXandYareindependentthenXY3~(,),~(,),0ifXthenYXkkk214(,)(),1,22nnE28(5)β分布族定义1.2.6:定义在[0,1]上,且密度函数10,)1()()()(),;(11xxxbababaxfba表示的概率分布称为β分布记为β(a,b),其中a0,b0.而{β(a,b):a0,b0}为β分布族.a=0.6,b=0.3a=1.2b=1.5β分布有几个重要的特例.当a=1,b=1时,β分布就是U(0,1)29随机变量的分布的分位点xPXxx1、设随机变量X~F(x),给定常数:01,uuPXu若存在,满足,则称为分布F(x)的上(侧)分位点.2、设随机变量X~N(0,1),给定常数:01,若存在,满足,则称为标准正态分布的上侧分位点.30标准正态分布的分位点u0.0010.0050.010.0250.050.103.0902.5762.3271.961.6451.28231设X~2(n),若对于:01,满足)(2n,)}({2nXP)(2n)(2n则称为分布的上分位点。)(2n分布分位点2232t分布分位点设T~t(n),若对:01,存在t(n),满足P{Tt(n)}=,则称t(n)为t(n)的上侧分位点.)(nt)()(1ntnt33F—分布的分位点设F~F(n1,n2)对于:01,若存在F(n1,n2),满足P{FF(n1,n2)}=,则称F(n1,n2)为F(n1,n2)的上侧分位点),(21nnF),(1),(12211nnFnnF34正态总体的抽样分布定理211.,,~(,),iidnXXN若则)1,0(~/1NnXU)(相互独立与2)2(SX)1(~)1()3(2222nSn)1(~/)4(ntnSXT(1)证明:niiXnX11是n个独立的正态随机变量的线性组合,故服从正态分布niiXEnXE1)(1)(nXDnXDnii212)(1)(35),(~2nNX