研-统计3抽样误差t分布参数估计

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

均数的抽样误差,t分布,参数估计Samplingerrorofmean,t-distribution,parameters’estimation张建军汕大医学院预防医学教研室Tel:0754-88900445Email:zhangjj@stu.edu.cn主要内容•均数的抽样误差•t分布•参数估计•概念:频数分布以均数为中心,左右两侧基本对称,靠近均数两侧频数较多,离均数愈远,频数愈少,形成一个中间多,两侧逐渐减少的对称分布。•是一种连续型分布。又称高斯分布.回顾:正态分布(normaldistribution)•正态分布用N(µ,)表示,其位置与均数有关,形状与标准差有关。•医学现象许多呈正态分布,或近似正态分布:如正常人的生理,生化指标变量,等2•正态分布的密度函数:式中μ为均数;σ为标准差;π为圆周率;е为自然对数的底,即2.71828。以上均为常数,仅x为变量。x2()1()[]21()2xfxe(1)•标准正态分布:•为了应用方便,常将式进行变量变换,即:u变换.所得到的新变量u的分布即为标准正态分布。•u的含义:变量到均数间的距离相当于标准差的倍数。xux标准正态分布的概率密度函数:(2)u2()21()2uue•正态分布的特征和分布规律:•(1)曲线在x轴的上方,与x轴不相交,当x=μ时,曲线位于最高点。f(u=0)=0.3989•(2)曲线关于直线x=μ左右对称。•(3)正态分布有两个参数:均数,标准差;标准正态的参数分别为:0,1•(4)正态分布的面积分布有一定规律。正态分布标准正态分布面积(或概率)μ-1σ__μ+1σ-1__+168.27%μ–1.96σ__μ+1.96σ-1.96__+1.9695.00%μ–2.58σ__μ+2.58σ-2.58__+2.5899.00%正态分布和标准正态分布曲线下面积分布规律(-1,1),68.27%(-1.96,1.96),95%(-2.58,2.58),99%双侧概率单侧概率请思考:•抽样?•统计量?•抽样分布?一、均数的抽样误差和标准误均数的抽样误差samplingerrorofmean由于总体中存在个体变异,抽样研究中所抽取的样本,只包含总体中一部分个体,因而样本均数(或率)往往不等于总体均数(或率),样本均数之间也互不相等,这种由抽样引起的差异称为均数的抽样误差的体现。即:iXijXX•如何估计抽样误差?•标准误standarderror,SE•以样本均数为例:•SE越大,均数的抽样误差越大,样本均数与总体均数间的差异越大。XSSnXn•当样本例数一定时,样本均数的标准误与原始数据的标准差成正比;当标准差一定时,标准误与样本含量n的平方根成反比。增加样本含量可以减小抽样误差。•与标准差的区别:•标准差:表示一般个体值的离散程度;•标准误:特别说明统计量的离散程度。再思考一个问题:•其它的统计量有抽样误差吗?•它们的计算公式怎样?XnXSSn标准误的应用1、用来衡量抽样误差的大小:标准误越小,样本均数与总体均数越接近,样本均数的可信度越高;2、结合标准正态分布与t分布曲线下的面积规律,估计总体均数的置信区间。3、用于假设检验。•假定2003年汕头市15岁女学生的身高服从均数155.4cm、标准差5.3cm的正态分布。用计算机做抽样模拟试验,从N(155.4,5.32)的总体中,每次抽出10个数字(样本含量为10),组成一个样本,求出样本均数、样本标准差S。再求得此100个样本均数的均数、样本均数的标准差。X抽样分布•样本均数的标准差是什么?……..•标准误•100个样本均数构成一个新的分布,也是正态分布。•即使原分布为偏态分布,当样本含量足够大时,新分布也近似正态分布)。新分布的集中趋势用均数的均数来表示,离散趋势用标准误表示N(,)。•各样本均数的均数等于总体均数。2X0501001502002503003504004502.082.342.612.873.143.403.663.934.194.464.724.985.25均数频数0501001502002503003504004502.082.342.612.873.143.403.663.934.194.464.724.985.25均数频数0501001502002503003504004505002.082.342.612.873.143.403.663.934.194.464.724.985.25均数频数正态总体中抽样(样本量5)正态总体中抽样(样本量10)正态总体中抽样(样本量30)抽样时样本量大小决定了样本均数分布的形状,当样本量足够大时,均数分布趋向正态分布。二、t分布(t-distribution)还记得吗?xu•u转换将正态分布转换为标准正态,N(0,1)。•同理:将样本均数的分布也可以转换为标准正态分布。•即:2,()(0,1)XNNXXu•实际工作中,总体标准差往往未知,常用S代替σ计算标准误,因此:为了和u分布区别,就变为:/XXXtSSn均数的分布也是这样•如果我们采用另一个正态变量:•于是,均数的分布变成了标准正态分布:XXu2,()(0,1)XNNxu但是,条件发生了变化•我们通常用代替•然而,随着样本量的变化而变化,所以,我们称之为t-分布,虽然它是正态分布,但只有当样本量(自由度)无穷大的时候,它才是标准正态分布,此时,u=t/XXXtSSnXXuXXSXSt分布曲线•t分布是一簇对称于0的单峰分布曲线。•自由度越小(相当于标准差大),曲线的中间越低,两边越高;随自由度增大,t分布曲线逐渐逼近于标准正态分布曲线。•当自由度无穷大时,t分布就是标准正态分布曲线。•每一条t分布曲线,都对应于相应的自由度。•t分布模拟试验t分布曲线下的面积规律•与标准正态曲线下的面积规律相似:•在某一个自由度下,两侧外部总面积为5%的界限的t值称为t0.05/2(υ),把两侧外部总面积为1%的界限的t值称为t0.01/2(υ)。•因此,中部占95%面积的t值范围:-t0.05/2(υ)--t0.05/2(υ),-中部占99%面积的t值范围:-t0.01/2(υ)--t0.01/2(υ)。•当自由度确定时,占一定面积的t界限值,可以查表得出。•例如:查当自由度=20,两侧概率之和为0.05时,对应的t值:•t0.05/2(20)=±2.086,•单侧概率为0.05时,对应的t值:•t0.05(20)=1.725,•一般,t0.05/2(v)≥1.96,t0.01/2(v)≥2.58•自由度越小,曲线越低平,t比1.96,2.58大的多;自由度变大,t接近于1.96,2.58;自由度无穷大,t=1.96,2.58•使用t值表注意:•同一自由度下,P越小,t值越大;P值相同时,自由度越大,t越小;当自由度无穷大时,t值与u值相等。这也是u分布与t分布的区别。t分布的主要应用:•总体均数置信区间估计;•t检验;三、总体均数置信区间的估计•统计推断:参数估计,假设检验•参数估计:•点估计(pointestimation):用样本统计量作为对总体参数的估计值(μ)。比如均数的估计。•区间估计(intervalestimation):根据选定的置信度估计总体均数所在的区间(aμb).a,b为置信限(可信限)。•置信度(confidencelevel):•在估计总体均数的置信区间时,如果可能估计错误的概率为α,那么估计正确的概率为1-α,即为置信度.常用:95%,99%.•置信区间(confidenceinterval,CI)根据置信度估计得到的区间,称为置信区间。为何要进行区间估计?•点估计,即用样本均数来估计总体均数,简单易行,但未考虑抽样误差,而后者又是不可避免的。故常按照一定的概率估计总体均数在哪个范围。如何进行区间估计?•1、总体标准差已知•参照u分布,•95%置信区间:•99%置信区间:1.961.96XX1.961.96XXXX1.96,1.96XXXX2.58,2.58XXXX•2、总体标准差未知,样本例数(50)足够大•也可参考u分布进行•95%置信区间:•99%置信区间:2.58,2.58XXXSXS1.96,1.96XXXSXS•3、总体标准差未知,样本例数较小•按t分布原理,依据自由度,查出某个概率相应的t界值,•中部占95%面积的t值范围:•-t0.05/2(υ)___t0.05/2(υ),•占99%面积的t值范围:•-t0.01/2(υ)___t0.01/2(υ)进行估计。•因为:•95%的样本满足:•95%置信区间:•99%置信区间:XXtS0.05/2,0.05/2,,XXXtSXtS0.01/2,0.01/2,,XXXtSXtS0.05/2||,vXXtS•95%置信区间的意义:•理论上,用一次抽样所得的样本均数估计总体均数,犯错误的概率为5%.•或进行100次抽样,可算得100个置信区间,平均有95个置信区间包括客观存在的总体均数,只有5个置信区间未包括总体均数。估计置信区间的注意事项:(1)区间是以上、下可信限为界的一个范围。通常用表示置信限,用表示置信区间/2,*/2,*(,)XXXtSXtS/2,*XXtS(2)置信区间与正常值范围:95%正常值范围一般是指同质总体内包括95%个体值的估计范围,若总体为正态分布,常用:计算;95%置信区间是指按照95%置信度估计的总体参数的可能范围,常按照下式计算。前者用标准差,后者用标准误。1.96XS0.05/2,0.05/2,,XXXtSXtS•以上是均数抽样误差的相关内容。•这是针对某个总体进行的参数估计,对多个总体的参数推断又是什么呢?•且听下回!谢谢

1 / 48
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功