SPSS第5章-总体分布、样本分布与参数估计(修改)解读

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

第五章总体分布、样本分布与参数估计§5.1总体分布与样本分布一、总体与总体分布总体:反映总体特征的随机变量的取值的全体。总体分布:反映总体特征的随机变量的概率分布。二、随机样本与样本观测值1、随机样本表征n次抽取个体的随机抽样的一组随机变量X1,X2,···,Xn。2、样本观测值(样本数据)n次随机抽样的结果:x1,x2,···,xn(称为随机样本X1,X2,···,Xn的样本观测值)。n称为随机样本向量(X1,X2,···,Xn)的维度,即自由度。样本均值的抽样分布一个总体10,5,8,7,10直方图012357911其他接收频率0.00%50.00%100.00%150.00%频率累积%Q:若有放回地抽取2次,请画出两次均值的分布图。有放回(withreplacement)抽样{,}ijXXX105871010{10,10}10{10,5}7.5{10,8}9{10,7}8.5{10,10}105{5,10}7.5{5,5}5{5,8}6.5{5,7}6{5,10}7.58{8,10}9{8,5}6.5{8,8}8{8,7}7.5{8,10}97{7,10}8.5{7,5}6{7,8}7.5{7,7}7{7,10}8.510{10,10}10{10,5}7.5{10,8}9{10,7}8.5{10,10}10一个样本统计量的概率分布被称为该统计量的抽样分布样本均值抽样分布直方图0510678910其他接收频率0.00%50.00%100.00%150.00%频率累积%3、样本(累积)分布函数设样本观测值x1x2,···,xn,ki为小于xi+1的样本值出现的累积频次,n为样本容量,则可得样本累积频率分布函数如下:xxxxxnkxxxFniiin当当当1/0)(11样本(累积)分布函数Fn(x)是对总体的累积分布函数F(x)的近似,n越大,Fn(x)对F(x)的近似越好。格利文科(Glivenko)定理当样本容量n趋于无穷大时,Fn(x)以概率1(关于x)均匀地收敛于F(x).1)0)()(suplim(xFxFPnxn思考:请举出总体均值和总体方差的合适估计量。§5.2统计量与统计量的分布一、统计量的定义统计量:统计量是不含未知参数的,随机样本X1,X2,···,Xn的函数。统计量的值:统计量的值是不含未知参数的,样本观测值x1,x2,···,xn的函数.二、几个重要统计量分布:2、t与F分布1、2(n)分布设随机变量X~N(0,1),X1,X2,···,Xn为X样本,则2=X2i=X21+X22+···X2n~2(n)2(n)分布的均值E(2)=n,方差D(2)=2n。n=1n=4n=102(n)分布图0,00,)2(21)(2122xxexnxfxnnn2(n)密度函数:其中,n为自由度。(n/2)为珈玛函数,是一个含参数n/2的积分,为:0212)2/(dtetntn2、t分布)(~ntnYXT其中,X~N(0,1),Y~2(n)分布,且X与Y相互独立。密度函数为:xnxnnnxfnn212)1()2/()21()(t分布图3、F分布),(~nmFnVmUF其中,U~2(m),V~2(n),且U与V相互独立。m=100,n=20m=15,n=20重要性质:000,)1())(()2/()2/()2()(212xxxnmxnmnmnmnmxfnmm密度函数形式为:),(1),(1mnFnmF三、由一般正态分布的随机样本所构成的若干重要统计量的分布定理:若X1,X2,···,Xn是正态总体N(,2)的一个随机样本,则:(1)X~N(,2/n)(2)X与S2相互独立。nXZ(3)~N(0,1)22)1(Sn(4)~2(n-1)(5)~t(n-1)nSXT(6)~2(n)niiX122)(1(1)~N(0,1)22212121)()(nnYX定理:若X1,X2,···,Xn1和Y1,Y2,···,Yn2分别是正态总体N(1,12)和N(2,22)的一个随机样本,且它们相互独立,则满足如下性质:(3)~F(n1-1,n2-1)22222121SSF其中,S12是容量为n1的X的样本方差,S22是容量为n2的Y的样本方差。21212122221121)2()1()1()()(nnnnnnSnSnYXT(2)~t(n1+n2-2),(1=2)21122211121222)()(niiniiYnXn(4)~F(n1,n2)四、任意分布的随机样本均值函数的均值与方差设:随机变量X服从任何均值为,标准差为的分布,X是随机样本X1,X2,···,Xn的均值函数。则:(1)X=;(2)X=/n或2X=2/nTips:某类个体数量占总体数量的比例问题:0-1分布若X~B(1,p),则E(X)=p,D(X)=p(1-p)X的均值也是总体中某类个体的比例pnpppXX)1(,2五、中心极限定理假设随机变量X服从任何均值为,标准差为的分布,X是随机样本X1,X2,···,Xn的均值函数。当n充分大时,有:思考:在实际问题中n多大?2(,)XNn近似地正态分布均匀分布总体分布样本均值分布(n=2)样本均值分布(n=10)样本均值分布(n=30)指数分布Tips:当n30,无论总体分布形态如何,中心极限定理均适用;当n15,对于分布较为对称的总体,中心极限定理适用;当总体是正态分布时,无论样本大小,中心极限定理均适用。Ex:某高校在研究生入学体检后对所有结果进行统计分析,得出其中某一项指标的均值是7,标准差2.2。从这个总体中随机选取一个容量为31的样本。(1)计算样本均值大于7.5的概率;(2)计算样本均值小于7.2的概率;(3)计算样本均值在7.2和7.5之间的概率。解答1:)5.7(XP求)2.27-5.72.27-(XP)2273.0Y(2.27-YPX,则:令?)2273.0Y(),1,0(~YPN查表得其中标准正态分布表φ(-x)=1–φ(x)x00.010.020.030.040.050.060.070.080.0900.50000.50400.50800.51200.51600.51990.52390.52790.53190.53590.10.53980.54380.54780.55170.55570.55960.56360.56750.57140.57530.20.57930.58320.58710.59100.59480.59870.60260.60640.61030.61410.30.61790.62170.62550.62930.63310.63680.64040.64430.64800.65170.40.65540.65910.66280.66640.67000.67360.67720.68080.68440.68790.50.69150.69500.69850.70190.70540.70880.71230.71570.71900.72240.60.72570.72910.73240.73570.73890.74220.74540.74860.75170.75490.70.75800.76110.76420.76730.77030.77340.77640.77940.78230.78520.80.78810.79100.79390.79670.79950.80230.80510.80780.81060.81330.90.81590.81860.82120.82380.82640.82890.83550.83400.83650.838910.84130.84380.84610.84850.85080.85310.85540.85770.85990.8621解答2:)2.7(XP求)2.27-2.72.27-(XP)0909.0Y(2.27-YPX,则:令?)0909.0Y(),1,0(~YPN查表得其中统计方法统计描述统计推断参数估计假设检验点估计区间估计§5.3点估计1、概念设是总体分布中一个需要估计的参数,现从总体中抽取一个随机样本X1,X2,···,Xn,记估计的统计量为),,,(ˆˆ21nXXX则称为的估计量。ˆ若得到一组样本观测值x1,x2,···,xn,就可得出的估计值,记:。),,,(ˆˆ21nxxx注:在选取样本统计量作为点估计时,必须考虑到“无偏性”,这一点很重要。总体分布参数的点估计,就是求出的估计值。点估计参数估计值备注均值()nXX无偏估计值标准差()1)(2nXXs非无偏估计值*比例(p)nnppˆ无偏估计值2、矩估计用样本矩来估计总体矩。矩的一般形式:E(Xk)表示k阶原点矩(以原点为中心);E(X-)k表示k阶中心矩(以为中心);Q:偏度、峰度、方差、均值分别是什么矩?2、矩估计Ex:设某批产品的寿命在上服从均匀分布,但是参数未知,随机地抽取五个产品,测得寿命分别是1265小时,1257小时,1276小时,1269小时和1266小时,试求这批产品寿命均值和方差的矩估计值,并写出相应的分布函数。3、极大似然估计法若总体X的(累积)概率分布函数为F(x,),概率密度函数f(x,),其中为未知参数。若X为离散型随机变量,则由离散型与连续型的对应关系,f(x,)对应于离散情况下的概率P(X=x).X为连续型随机变量时,X的随机样本X1,X2,···,Xn的联合概率密度函数为niixfL1),()(称为的极大似然估计函数.当X为离散随机变量时,L表示概率:),,,(2211nnxXxXxXPL关于的极大值如果存在,极大值就是的极大似然估计值.其含义是:一组观测值x1,x2,···,xn在一次实验中出现了,其联合概率就应当是最大的,所以选择使联合密度L最大的那个.),,,(ˆˆ21nxxxˆEx:设x1,x2,···,xn是正态总体N(,2)的样本观测值,求与2的极大似然估计值.解:极大似然函数为nixieL12)(2221)(取对数,分别对与2求偏导,并令偏导为0,可求出与2的极大似然估计值如下:2121)(1ˆ1ˆniiniixxnxnx如果将上述xi换成Xi,上式成为极大似然估计量。§5.3判别点估计的优劣标准1、无偏估计量ˆE2、最小方差性)~()ˆ(VarVar3、有效估计量(1)无偏性;(2)最小方差性。4、渐近无偏估计量)ˆ(limEn5、一致估计量1)ˆ(limpn一致估计量的另一等价定义:(1)渐进无偏的;(2)ˆ0)ˆ(limnnVar6、渐进有效性:(1)一致估计量;(2)比其它的估计量更小的渐进方差。渐进方差定义:注:在实践中广泛应用的准则:(1)小样本准则a、无偏性;b、有效性。(2)大样本准则一致估计量。})]ˆ(ˆ[{1lim)ˆ(lim2nnnnnEnEnVar思考:为了估计目前北京市场二手房交易的平均价格,制定相应的营销策略,某房地产中介公司某年第四季度的二手房交易中,随机抽取40个交易作为样本,得到二手房交易价格如下表所示(单位:万元)。4852.436458019.94460.53339.52158.17236.6514973.516654810237.542.84836.52746.233.5415658.53940.535.422.54150.83834.243根据上述数据如何估计总体的平均价格?如果需要进一步推断房屋款项在43

1 / 83
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功