概率论:随机变量的概率分布数理统计:分析带有随机影响数据理论基础第六章一个统计问题总有它明确的研究对象.1.总体…研究某批灯泡的寿命研究对象的全体称为总体,总体中每个成员称为个体.总体每个个体具有的数量指标的全体就是总体.某批灯泡的寿命该批灯泡寿命的全体就是总体总体就可以用一个随机变量及其分布来描述.寿命X可用一概率分布来刻划F(x)为推断总体分布及各种特征,随机地从总体中抽取若干个体进行观察试验,这一抽取过程称为“抽样”,所抽取的部分个体称为样本.样本中所包含的个体数目称为样本容量.2.样本但是,一旦取定一组样本,得到的是n个具体的数(x1,x2,…,xn),称为样本的一次观察值,简称样本观测值.•容量为n的样本可以看作n维随机变量(X1,X2,…,Xn)设X1,X2,…,Xn为总体X的一个容量为n的样本。若它满足(1)独立性,即X1,X2,…,Xn相互独立;(2)同分布性,即每个Xi都与总体X服从相同的分布.则称这样的样本为简单随机样本,简称为样本。3.简单随机样本4.总体、样本、样本值的关系总体(理论分布)?样本样本值统计是从手中已有的资料--样本值,去推断总体的情况---总体分布的性质特征等.总体分布决定了样本取值的概率规律,也就是样本取到样本值的规律,因而可以由样本值去推断总体.一、统计量定义:设X1,X2,…,Xn是总体X的样本,g(X1,X2,…,Xn)是样本的实值函数,且不包含任何未知参数,则称g(X1,X2,…,Xn)为统计量。注意:样本的二重性统计量的二重性目的:集中利用样本信息推断总体特征、性质1.样本均值2.样本方差niiXnX11niiXXnS122)(11它反映了总体均值的信息它反映了总体方差的信息常用统计量3.样本k阶原点矩4.样本k阶中心矩nikikXnA11nikikXXnB1)(1k=1,2,…它反映了总体k阶矩的信息它反映了总体k阶中心矩的信息设X1,X2,…,Xn是取自总体X的样本,记x1,x2,…,xn是样本的任一观测值,将它们按由小到大的顺序重新排列为x(1)x(2)…x(n)。若X(k)=x(k),则称X(1),X(2),…,X(n)为样本X1,X2,…,Xn的次序统计量。次序统计量最小次序统计量最大次序统计量设X1,X2,…,Xn是取自总体X的样本,对应的次序统计量为X(1)X(2)…X(n),当给定次序统计量的观测值x(1)x(2)…x(n)时,对任意实数x,称下面函数为总体X的经验分布函数。经验分布函数(1)()(1)()0,(),1,21,1,.nkknxxkFxxxxknnxx,例1:从总体X中抽取容量为8的样本,其观测值为33,45,25,33,35,65,30,27。试求X的经验分布函数。解:将样本观测值由小到大排序得25273033=333545650,25,1,2527,82,2730,83,3033,8()5,3335,86,3545,87565,81,65.nxxxxFxxxxx,4对x1,x2,…,xn的数据制作频数/频率分布表的步骤:1.确定组数K2.确定每组组距,通常取等距d3.确定每组组限,得到一个区间4.统计样本数据落入每个区间的频数,并计算频率频数/频率直方图利用上述表格,将区间做成横坐标,将频数/频率做成纵坐标,就可以做出相应的直方图。某地区30名2000年某专业毕业实习生实习期满后的月薪数据如下:9091091967123210961164108610711572950808971112010818257751224950999113091412031044866132013369921025871738A.构造该数据的频率分布表(组数为6)B.画出直方图频数/频率直方图Max=1572,Min=738,组数=6组距=(Max-Min)/6=140取a0=735,则分组区间及相关数据如下频数/频率直方图组序分区区间频数频率累计频率1(735,875]60.20.22(875,1015]80.270.473(1015,1155]90.30.774(1155,1295]40.130.95(1295,1435]20.070.976(1435,1575]10.031.0合计301频数/频率直方图(示范图)来自LLLStat软件二、抽样分布统计量既然是依赖于样本的,而后者又是随机变量,故统计量也是随机变量,因而就有一定的分布,这个分布叫做统计量的“抽样分布”.统计中常用的三个分布:分布2.12.t分布3.F分布■数理统计三大分布分布2.1)(~22n记为定义:设相互独立,都服从正态分布N(0,1),则称随机变量:所服从的分布为自由度为n的nXXX,,,21222212nXXX分布22分布的密度函数为000)2(21);(2122xxexnnxfxnn来定义.其中伽玛函数通过积分0,)(01xdttexxt)(x性质1(可加性)Y1~χ2(m),Y2~χ2(n),Y1与Y2独立,则Y1+Y2~χ2(m+n)性质2(数字特征)若χ2~χ2(n),则E(χ2)=n,D(χ2)=2n例2:设X1,X2,X3,X4是来自总体N(0,4)的简单随机样本,X=a(X1-2X2)2+b(3X3-4X4)2,问当a,b为何值时,统计量X服从分布2例1.设X1,X2,…,Xn是来自总体N(μ,σ2)的简单随机样本,求随机变量2211()niiX的分布分析:X1-2X2~N(0,20)3X3-4X4~N(0,100)因此a=sqrt(20),b=10T的密度函数为:212)1()2(]2)1[()(nnnxnnnxf定义:设X~N(0,1),Y~,且X与Y相互独立,则称变量nYXT服从自由度为n的t分布,记为T~t(n).)(2n2.t分布t分布的多组密度函数图,以标准正态分布为极限()0,()2nETDTn例3.设X1,X2,…,Xn是来自正态总体N(0,4)的样本,试问统计量niiXXn2211服从什么分布?3.F分布定义:设X与Y相互独立,则称统计量),(~),(~2212nYnX服从自由度为n1及n2的F分布,n1称为第一自由度,n2称为第二自由度,记作F~F(n1,n2).21nYnXF222(2)(),()2(2)(4)nnmnEFDFnmnnF分布的密度函数图F分布性质1若X~F(m,n),则1/X~F(n,m)F分布性质2若X~t(n),则X2~F(1,n)例4.设X1,X2,…,Xn是来自正态总体N(0,1)的样本,试问统计量niiiiXXn423123)3(服从什么分布?抽样分布的分位点设α为给定的常数,且0α1.若存在χα2(n)使)(222)()(nndxxfnP其中fn(x)为χ2的概率密度,则称点χα2(n)为χ2分布关于α的上侧分位点。设α为给定的常数,且0α1.若存在tα(n)使)()()(ntndttfntTP其中fn(t)为T的概率密度,则称点tα(n)为t分布关于α的上侧分位点。1()()tntn设α为给定的常数,且0α1.若存在Fα(m,n)使),()(),(nmFdyyfnmFFP其中f(y)为F的概率密度,则称点Fα(m,n)为F分布关于α的上侧分位点。11(,)(,)FmnFnm分位点的性质1uu(1)1()()tntn(2)11(,)(,)FmnFnm(3)三、正态总体的抽样分布定理1:设X1,X2,…,Xn是来自正态总体N(μ,σ2)的样本,则),(~2nNX22222i=1(1)~(1)()~(1)ninSnXXn相互独立与2SX)1(~)(ntSXn定理2(两总体样本均值差的分布),,设),(~),(~2221NYNXYX和分别是这两个样本的且X与Y独立,X1,X2,…,mX是取自X的样本,取自Y的样本,分别是这两个样本的样本方差,均值,22xySS和则有Y1,Y2,…,nY是样本)2(~11)()(21nmtnmSYXw222(1)(1)2xywmSnSSmn定理3(两总体样本方差比的分布))1,1(~2122222121nnFSS,设),(~),,(~222211NYNXYX和分别是这两个样本的且X与Y独立,X1,X2,…,1nX是取自X的样本,取自Y的样本,分别是这两个样本的样本方差,均值,2221SS和则有Y1,Y2,…,2nY是样本2222121212,/~(1,1)SSFnn若则例5:设X1,X2,…,X16是来自正态总体N(μ,σ2),经计算的样本均值=9,样本方差=5.32,试求()~(1)4||4*0.6(||0.6)()5.32nXutnSXuPXuPS其中4*0.6/5.321.0405(||0.6)PXu例6:设X1,X2,…,Xn是来自正态总体N(μ,σ2),S2为其样本方差,试求满足P(S2/σ2=1.5)=0.95最小的n.222222n-1)S~(1)(1.5)((1)1.5(1))0.95n=27nSPPnn(则则可以通过搜索法得到最小的可运行LLLStat,载入“Chapter6_5.lpr”程序~(100,4/15),~(100,4/20),447~(0,)(0,)152015||0.2(||0.2)()7/157/152(1(0.2928))0.7697XNYXYXYNNXYPXYP,相互独立则则即例7:正态总体N(100,4)抽取两个样本,样本容量分别为15,20,样本均值分别为求,XYP(|X-Y|0.2)1nX是取自X的样本,,设),(~),,(~.1222211NYNX问下面两个统计量服从什么分布?且X与Y独立,X1,X2,…,取自Y的样本,Y1,Y2,…,2nY是22212221112121)()(nYnXniinii作业2221221112)1()()1()(21nYYnXXniiniinX是取自X的样本,22122.~(,),~(,)XNYN设,问下面统计量Z服从什么分布?且X与Y独立,X1,X2,…,取自Y的样本,Y1,Y2,…,mY是作业12222222()()(1)(1)2,c,d0wxywxycXudYuZcdSnmnSmSSnmSSXY其中分别为和的样本方差是任意两个不为的常数。习题6的第4题计算与证明题---第7题作业作业3:随机变量X~F(n,n),求P(X1)作业4:X~N(7.6,4),从总体X中抽取n个样本,如果要求样本均值落在(5.6,9.6)的概率不小于0.95,则n至少应为多少?