经管类核心课程统计学第6章统计量及其抽样分布经管类核心课程统计学§6.1统计量§6.2关于分布的几个概念§6.3由正态分布导出的几个重要分布§6.4样本均值的分布与中心极限定理§6.5样本比例的抽样分布§6.6两个样本平均值之差的分布§6.7关于样本方差的分布第6章统计量及其抽样分布经管类核心课程统计学§6.1统计量6.1.1统计量的概念6.1.2常用统计量6.1.3次序统计量6.1.4充分统计量经管类核心课程统计学6.1.1统计量的概念在实际应用中,当我们从总体中抽取一个样本后,并不能直接应用它去对)(21nXXX,,,总体的有关性质和特征进行推断,这是因为样本虽然是从总体中获取的代表,含有总体性质的信息,但仍较分散。为了使统计推断成为可能,需要把分散的信息集中起来,针对不同的研究目的,构造不同的样本函数,这种函数在统计学中称为统计量。1.构造统计量的原因:经管类核心课程统计学6.1.1统计量的概念(1)定义6.1设是从总体X中抽取的nXXX,,,21容量为n的一个样本,如果由此样本构造一个2.统计量的定义:函数)(21nXXXT,,,,不依赖于任何未知为一个参数,则称函数)(21nXXXT,,,统计量(或样本统计量)。代入T计算的数值称为一个具体的统计量值。(2)当获得样本的一组具体观测值nxxx,,,21后,经管类核心课程统计学统计量概念的例题【例6.1】设解:一个样本,判断下列各量是否为统计量。是从某总体X中抽取的nXXX,,,21niiXnX11)1(niiXXnS122)(1)2(niiXEX12)]([)3()()()4(XDXEXi(1)(2)是统计量,(3)(4)不是统计量,因为(3)(4)依赖总体分布的未知参数。经管类核心课程统计学6.1.2常用统计量(1)由于数学期望和方差等概念用“矩”来描述1.常用统计量的构造:(2)当n充分大时,经验分布函数靠近总体分布函数。)(xFn)(xF2.常用的统计量:niiXnX11)1(是样本的均值,反映总体期望的信息niiXXnS122)(1)2(是样本方差,反映总体方差的信息。样本标准差S也是常用的统计量。经管类核心课程统计学6.1.2常用统计量XsV)3(是样本变异系数,反映总体变异系数C它反映了随机变量在以它的均值为单位时,取值的离散程度。此统计量取消了均值不同对不同总体的离散程度的影响,常用来刻画均值不同时,不同总体的离散程度。在投资项目的风.险分析中、不同群体或行业的收入差距描述中有广泛的应用。的信息。其中总体变异系数定义为)()(XEXDC经管类核心课程统计学6.1.2常用统计量称为样本阶矩,反映总体kkmnikikXnm11)4(阶矩的信息。k,称为样本阶中心矩。knikikXXnv1)(1)5(反映出总体阶中心矩的信息。k经管类核心课程统计学6.1.2常用统计量,称为样本偏度。32312133)()()6(niiniiXXXXn反映出总体偏度的信息。偏度反映了随机变量密度函数曲线在众数(密度函数在这一点达到最大值)两边的对称偏斜性。如果)(~2,NX03,则偏度经管类核心课程统计学6.1.2常用统计量,称为样本峰度。43)()()7(212144niiniiXXXXn它反映出总体峰度的信息。峰度反映随机变量密度函数曲线在众数附近的“峰”的尖峭程度。如果)(~2,NX04,则峰度经管类核心课程统计学6.1.3次序统计量定义6.2设是从总体X中抽取的nXXX,,,21它是样本)(21nXXX,,,满足如下条件的函数:容量为n的一个样本,)(iX称为第i个次序统计量,时,每当样本得到一组观测值nxxx,,,21中,其由小到大的顺序)()2()1(nxxx的观测值,第i个值)(ix就作为次序统计量)(iX称为次序统计量。而)()2()1(nXXX,,,分别为最小和最大次序统计量。)()1(nXX和称为样本极差。)1()()(XXRnn经管类核心课程统计学6.1.4充分统计量充分统计量是指统计量的加工过程中一点信息都不损失的统计量。【例6.2】某电子元件厂欲了解其产品的不合格率p,质检员抽检了100个电子元件,检查结果是,除前3个是不合格品(记为)外,其他都是合格品(记为)。当企业领导问及抽检结果时,质检员给出如下两种回答:111321=,=,XXX100~40iXi,(1)抽检的100个元件中有3个不合格)3(1001=记为iiX(2)抽检的100个元件中前3个不合格)3(31=记为iiX解:10011iiXT3212XXXTT1为充分统计量。经管类核心课程统计学6.1.4充分统计量)(2,N当是来自正态分布)(21nXXXX,,,的一个样本时,的充分统计量;是已知,则若21)(niiX的充分统计量。是已知,则若niiXnX121经管类核心课程统计学§6.2关于分布的几个概念6.2.1抽样分布6.2.2渐近分布6.2.3随机模拟获得的近似分布经管类核心课程统计学6.2.1抽样分布1.英国统计学家费希尔曾把抽样分布、参数估计和假设检验看做统计推断的三个中心内容。2.研究统计量的性质和评价一个统计推断的优良性,完全取决于其抽样分布的性质。3.在总体X的分布类型已知时,若对任一自然数n,都能导出统计量的分布的数学表达式,这种分布称为精确的抽样分布。它对样本容量较小时的统计推断十分有用.)(21nXXXTT,,,4.正态条件下,主要有分布、t分布、F分布。2经管类核心课程统计学6.2.2渐近分布1.抽样分布理论中,至今已求出的精确抽样分布并不多。2.通常,抽样分布很难求得,有时尽管求出了精确抽样分布,但因为过于复杂而难以使用。3.实用中,当n无限增大时,常用统计量的极限分布作为抽样分布的一种近似,这种极限分布常称为渐近分布。【例6.2】设nXXX,,,21)0(2,N是抽自正态总体的一个样本,可以证明当n时,22)10(sNXn和,所以统计量的渐近分布为N(0,1)sXnT经管类核心课程统计学6.2.3随机模拟获得的近似分布因为在实际应用中,有许多问题要寻求它的精确分布和渐近分布都是非常困难的,而在计算机飞速发展的今天,利用计算机进行随机模拟来获得某种统计量的近似分布已十分容易。因此,随机模拟方法寻求统计量的分布已被普遍使用。通常,抽样分布很难求得,有时尽管求出了精确抽样分布,但因为过于复杂而难以使用。经管类核心课程统计学6.2.3随机模拟获得的近似分布基本思想:设有一个统计量)(21nXXXTT,,,,为了获得统计量T的分布函数)()(tFn,我们可连续作一系列类似实验,每次试验都是从总体中随机抽取容量为n的样本,然后计算其统计量的值。当这种试验进行了N次时,就得到统计量T的N个观测值:NTTT,,,21根据这N个观测值:可做其经验分布函数)()(tFn可以证明,这种经验分布函数)()(tFn是统计量T的分布)()(tFnN的一个很好的近似。这种寻求统计量的方法就是反复地从总体中抽样,这种抽样完全可由计算机来实现。由此得到的统计量分布。就是随机模拟法所获得的近似分布。经管类核心课程统计学§6.3由正态分布导出的几个重要分布6.3.1分布6.3.2t分布6.3.3F分布2经管类核心课程统计学6.3.1分布2.定义6.3设随机变量相互独立,nXXX,,,21,则它们的且iX服从标准正态分布)10(,N2niiX12平方和服从自由度为n的2分布。分布由阿贝(Abbe)1863年首先提出,后来由21.自由度是统计学中常用的一个概念,它可以解释3.海尔墨特(Hermert)和卡·皮尔逊(K.Pearson)分别于1875年和1900年推导出来的。为独立变量的个数,还可以解释为二次型的秩。经管类核心课程统计学6.3.1分布2)(~2,NX设4.)10(~,NXZ,则1)(Yrank,即2ZY令)1(~2Y,则)(2n5.分布的概率密度函数曲线为n=1图6-1分布的概率密度函数曲线)(2n)(xpxn=4n=10n=20经管类核心课程统计学6.3.1分布2(1)分布的变量值始终为正的;分布的性质和特点:6.2(2)分布的形状取决于自由度n的大小,通常为不对称分布,但随着自由度的增大逐渐趋于对称,nDnE2)()(22,(3)数学期望和方差分别为)(~)(~22221221nn,(4)可加性:若,且独立,)(~2122221nn则当n时,2分布的极限分布是正态分布;经管类核心课程统计学6.3.1分布2可从卡方分布表查得。分位数的)()(22npnp7.)(xp2)(2n计算相应的临界值。分布的右尾概率根据)(2n。,则可求出相应的即如果xxP)(2利用Excel提供的统计函数CHIINV可构建2分布的临界值表。Excel操作经管类核心课程统计学6.3.1分布2当n很大时,8.)112()(22,近似服从nNn实际上,当n45时,22)12(21)(nnpp由于)112(~)(22,nNn标准化后)10(~112)(22,Nnn查标准正态分布p分位数表ppnn112)(22则22)12(21)(nnpp经管类核心课程统计学6.3.2t分布2.定义6.4设随机变量分布,)(~)10(~2nYNX,,记为t(n),其中n为自由度。独立,则且YX与nYXt/其分布称为t分布,t分布也称学生氏分布,是高塞特(W.S.Gosset)于1.提出的。1908年在一篇以“Student”为笔名的论文中首次经管类核心课程统计学6.3.2t分布3.t分布的概率密度函数曲线图6-2t分布的概率密度函数曲线N(0,1)t(13))(xpx0t(4)经管类核心课程统计学6.3.2t分布4.t分布的临界值表N(0,1)t(13))(tpt0利用Excel提供的统计函数TINV可构建t分布的临界值表。Excel操作t经管类核心课程统计学6.3.2t分布(1)t分布的密度函数与标准正态分布N(0,1)的t分布的性质和特点:5.(2)t(n)的密度函数的两侧都按t-(n+1)的速度趋向密度函数非常近似,都是单峰偶函数;于零,这比负指数函数趋向于零的速度要慢一些,故t(n)的密度函数在两侧尾部都要比N(0,1)的两侧尾部粗一些;20)(ntE,(3)t分布的数学期望为:方差为:32)(nnntD,,显然比N(0,1)大;经管类核心课程统计学6.3.2t分布(4)自由度为1的分布称为柯西分布,随着自由度增大,t分布的密度函数愈来愈接近正态分布的密度函数。30n(5)实际应用中,一般当时,t分布与标准正态分布就非常接近;(6)t分布一般用于小样本问题。经管类核心课程统计学6.3.2t分布6.与t分布有关的两个抽样分布:,,22)(111XXnsXnXii的一个样本,(1)设是来自正态分布nXXX,,,21)(2,N称为服从自由度为n-1的t分布。则,)1(~)(ntsXn,)1(~)()1(22222nXXsni,,)(~2nNX注:由于故,,)10(~/NnX经管类核心课程统计学6.3.2t分布,,iiYnYXnX11记:(2)设是两个相互独立的总体,YX和,,)(~21NX是来自X的一个nXXX,,,21,,)(~22NY样本,mYYY,,,21是来自Y的一个样本,,22)(11XXnsix,22)(11YYmsiy,2)1()1(222mnsmsnsyxxy则,)2(~)()(21mntnmmnsYXxy经管类核心课程统计学6.3.2t分布则。)2(~)()(21mnt