第五章数理统计的概念()EYxxy()fyx1x2x3x总体与总体特征数样本与统计量统计三大分布与抽样分布数理统计回归关系图数理统计数理统计一、数理统计及其任务数理统计是一门以概率论为基础的应用学科。它是研究如何有效地收集、整理、分析带有随机性的数据,以便对所考察的问题作出推断和预测,从而为决策提供依据。数理统计的任务就是研究有效地收集数据,科学地整理与分析所获得的有限的资料,对所研究的问题,尽可能地作出精确而可靠的结论。数理统计研究问题的方式,不是对所研究对象的全体(称为总体)进行观察,而是抽取其中的部分(称为样本)进行观察获得数据(抽样),并通过这些数据对总体进行推断。数理统计方法具有“部分推断整体”的特征。二、数理统计研究问题的一般流程分析问题确定总体收集数据试验设计抽样数据整理统计推断参数估计假设检验我们这门课所学的数理统计实际上是统计推断及其应用(方差分析与回归分析)的一部分内容。为什么要用数理统计方法研究问题?随机现象有它的规律性,随机现象的特点注定了进行足够多次观察,其规律性才能清楚地呈现出来。但是,客观上只允许对随机现象进行有限次观察试验,只能获得局部观察资料.总体与总体特征数一、总体与总体标志总体(Population)Def在数理统计中,把研究对象的全体称为总体或母体,而把组成总体的每个单元称为个体。描述总体单元在某方面特性的名称或记号称为总体指标;每个总体单元对总体指标的响应称为指标值。总体中所包含的个体的个数称为总体的容量。…研究某批灯泡的质量…总体个体有限总体总体无限总体在数理统计中,人们往往研究有关总体总是关注总体某一项或几项指标,为此,对这些指标进行随机的试验或观测,试验或观测结果获得这些指标的一部分或全部指标值,从而考察该数量指标的分布情况。这时,指标值的全体就象是总体。每个指标值就象是总体单元。总体指标值全集指标随机变量总体可以用随机变量及其分布来表示,研究总体等价于研究表达总体的随机变量概率分布;在理论上可以把总体与概率分布等同起来,总体分布就是表达总体的随机变量的分布。例如:研究某批灯泡的寿命时,关心的指标是寿命,那么,该总体就可以用随机变量X和其概率分布表示。总体特征数22()().()()XEXDXEXDX设总体用随机变量表示,那么称为总体均值称为总体方差,并分别记为即有121221,,,1()1()()NNiiNiixxxEXxNDXxN如果总体为有限总体,指标值的全体为,则NMMpN如果总体容量为,具有某特点总体单元数为,则称为总体频率或总体重数。2,p,统称为总体特征数。显然,它们是由总体唯一决定的常数。实践中,由于它们的值未知又称为参数。样本与统计量一、样本样本(Sample)Def按一定规则从总体中抽取一部分总体单元进行观测或试验,这一抽取过程称为“抽样”,所抽取的部分总体单元的整体称为总体的一个样本(子样)。样本中所包含的总体单元称为样本单元,样本中样本单元的数目称为样本容量。12121212,,,,,,,,,,,,nnnnXXXXXXxxxXXX如果用表示抽自总体的一个样本的样本单元指标,显然,是一组随机变量,我们就称其为样本。而将一个具体抽定的样本的观测结果称为样本实现,它是随机变量组许多取值种的一组。样本12,,,nXXX样本实现12,,,nxxx抽定样本应满足的性质(1)代表性;(2)随机性。简单随机样本(Independenceidenticaldistribution)Def121212,,,,,,,,,nnnXXXXXXXXXXXiid设为总体的一个样本,如果相互独立,且均与总体具有相同的分布,则称为简单随机样本,简称样本。例如:要通过随机抽样了解一批产品的次品率,如果每次抽取一件产品观测后放回原来的总量中再抽第二件产品,则这样获得一个简单随机抽样。实际抽样中,往往是不再放回产品,则这不是一个简单随机抽样。但当总量N很大时,可近似看成是简单随机抽样。样本分布1212,,,,,,nnXXXXXXX设为总体的一个样本,则()的分布称为样本分布。Def1212121,,,(,,,)(,,,)ixnnnnxiXPXxpXXXXiidPXXXxxxp如果总体的概率函数为,为抽自总体的样本,则样本分布的概率函数为12121(),,,(,,,)()iXnnnXiiXfxXXXXiidfxxxfx如果总体的概率密度函数为,为抽自总体的样本,则样本分布的概率密度为注意:样本分布反映样本取不同实现的概率规律,其与总体分布相联系,一般求算比较麻烦,但对于iid样本有下列结果。总体、样本、样本实现的关系总体样本实现样本推断例5.1120-1,,,nXXXXXiid设总体服从分布,是抽自总体的样本,求样本分布。1111211212111(1)0,1,,,(1)0,11,2,,(,,,)(,,,)(1)(1)iiiinniiiixxnxxiiinnniiinxxixnxXPXxppxxxxiidPXxppxinPXXXxxxPXxpppp总体的概率函数为设样本任意一组实现为,由于样本为所以于是,样本分布的概率函数为解:例5.212~(),,,nXeXXXXiid设总体,是抽自总体的样本,求样本分布。1-12--121121110~()()00,,,0()1,2,,00min,,,0(,,,)()0miniiiiniixXnxiXiinxnninnXiiixninexXefxxxxxiidexfxinxexxxfxxxfxe总体,即有=设样本任意一组实现为,由于样本为所以=于是,样本分布的概率密度为其他解:12,,,00nxxx其他二、统计量样本(Statistic)12121212,,,(,,,),,,(,,,)nnnnXXXXTXXXXXDeXXXXfT设是来自总体的一个样本,是的函数,且不含未知参数,则称是一个统计量。12121212,,,,,,(,,,)(X,,,).nnnnXXXXxxxTxxxTXX设是来自总体的一个样本,而是样本的一个实注现,则也是统计量:的一个实现意例5.3设是123,,XXX2(,)N从正态总体中抽取的一个样本,其中为已知参数,为未知参数,确定下列那些量是统计量1233XXX21233XXX2123XXX2123123212333XXXXXXXXX由统计量的定义知,是统计量;则解:不是统计量。它反映了总体k阶矩的信息几个常用的统计量样本平均值11niiXXn它反映了总体均值的信息样本方差2211()1niiSXXn22111niiXnXn它反映了总体方差的信息样本标准差211()1niiSXXn样本k阶原点矩111,2,nkkiiAXkn样本k阶中心矩11()1,2,nkkiiBXXkn统计三大分布分布2122122,,,(0,1)1~()..nniiDefXXXNXXnXn设随机变量相互独立,且都服从,则随机变量所服从的分布称为自由度为的分布,记为这个分布是由Helmet于1875年提出,K.Pearson于1900年重新提出。理论推导可得概率密度函数为122210(;)2(2)00nxnxexfxnnx10()0txxetdtx其中,称为伽玛函数。221122122121221212221121212122~()~()~().(2)~()~()~().~(),()()2(4)(),,,(0,12.)nXnXnXXXXnnXXXXXXnXnXnnXnXEXnDXnCochranXXXNQQ(1)设,且与相互独立,则有+设=+且已知与相互独立,,则(3)若则的数学期望与方差为定理设相互独立且都服从,的若分布性质21122121,,,~()1,2,,.nkiiiinkiikiiQXQnXXXQQQQniknn其中为秩位的的非负二次型,则,,,相互独立且的充要条件为其概率密度函数的图像如图所示x(;)fxn2()n2(5)~()~(0,1).2nXnXnNn若,则(用中心极限定理证明)222222222222~()(01)3.()()120.05()21.()()(02)6XnnPXDnnnefnnn设,对于给定的,可找到实数使得,则称为自由度为的分布关于的上侧分位数。分布上侧分位数分布上侧分位数的概率意义如图所示,可以通过查分布上侧分位数表求得。例如:自由度为的分布关于的上侧分位数。t分布(学生氏t分布)2~(0,1)1~()//~()..DefXNYnXYTXYnntTtn设随机变量,,与相互独立,则随机变量所服从的分布称为自由度为的分布,记为这个分布是由W.S.Gosset于1908年提出,该分布的提出为小样本方法的建立奠定了概率基础。理论推导可得概率密度函数为1221()2(;)(1)()2nnxfxnxRnnn10()0txxetdtx其中,称为伽玛函数。221(;);2(3)()0()(2).2.2xnfxnenETDTnnt(1)t分布是关于纵轴对称的分布的性质分布;(2)222~()(01)3.()()()tDTtntnPTtntnntef设,对于给定的,可找到实数使得,则称为自由度为的分布关于的分布双侧分位数双侧分位数。x(;)fxn22()tn22()tn220.052()()120.05()2.179ttntntttn分布双侧分位数的概率意义如图所示,可以通过查分布双侧分位数表求得。例如:自由度为的分布关于的双侧分位数。F分布2212121212~()~()//~(,)1.DefXnYnXYXnFYnnnFFFnn设随机变量,,与相互独立,则随机变量所服从的分布称为第一自由度为,第二自由度为的分布,记为这个分布是由R.A.Fisher于1918年提出,该分布的提出为方差分析的建立奠定了概率基础。Snedcor于1934年给出概率密度函数。112112121122122221222()()10(;,)()()00nnnnnnnnnnnnxxxfxnnx12212221222221222~(,)~(,)2(2)()(2)()(4);2(2)(4)(3)~()~(1..,)2FFnnFFnnnnnnEFnDFnnnnnTtnTFnF(1),则有分布的性质1/;(2),如果,则1212121212~(,)(013).(,)(,)(,)XFnnFnnPXFnnFnnFfnnFDe设,对于给定的,可找到实数使得,则称为第一自由度为,第二自由度为的分布分布上侧分关于的上位数侧分位数。121212(,)(,)580.05(,)2.73FFnnFnnFFFnn分布上侧分位数的概率意义如图所示,可以通过查分布上侧分位数表求得。例如:第一自由度为,第二自由度为的分布关于=的上侧分位数。x12(;,)fxnn12(,)Fnn112211(,)(,)FnnFnnF分布的上分位点的性质:1~(3,9)0.05(3,9)(3,9)XFFF设,,求,。例5.40.050.0510.950.05(3,9)(3,9)(3,9)3.861(3,9)(3,9)(9,3)10.11358.81FFFFFF查表得解:抽样分布抽样分布(SamplingDistributi