抽样误差

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

第七章参数估计SamplingError&EstimationofParameter南方医科大学生物统计学系DepartmentofBiostatisticsSouthernMedicalUniversity抽样误差与标准误t分布可(置)信区间主要内容变异“世界上没有两片完全相同的叶子”----植物学家“世界的丰富多彩来源于其多样性”----哲学家“个体差异是生物医学领域里普遍存在的现象”----医学家统计学就是研究变异(variation)的科学。抽样误差变异----抽样误差(variation)----(samplingerror)联系?抽样实验例1:假定某地正常成年男子的红细胞计数服从正态分布N(5.00,0.502)的总体,单位1012/L。用计算机模拟从该总体中随机抽样,每次抽10例组成一个样本,重复100次抽样。结果见表1。抽样实验表1正常成年男子红细胞计数抽样实验结果样本号红细胞计数S15.595.114.265.114.74…5.555.040.4424.654.655.595.704.46…5.325.030.5234.564.875.214.534.53…4.234.710.3344.084.734.844.884.65…5.334.660.46::::::1005.164.495.265.024.64…4.564.900.29X抽样实验1S2S__2X__1X__100X100S总体4.660.57抽样误差由于事物间普遍存在着变异,由此产生了这么一个现象:由于抽样而引起的误差——抽样误差抽样误差定义:抽样误差(samplingerror):是指由于样本的随机性引起的统计量与参数的差别,或同一总体的相同统计量之间的差别。由于抽样而引起的样本指标(统计量)与总体指标(参数)的差异。属随机误差:特点:①无倾向性;②不可避免。抽样误差统计学的分析思路总体population样本samplesamplinginferring抽样误差在实际工作中,由于各种条件所限,一般不可能也没有必要观察总体中的每一个个体,常常是通过抽样来进行研究的。虽然抽样误差是不可避免的,但其大小是可以度量的。问题:如何度量抽样误差的大小?抽样误差由表1可见,各个样本均数`Xi并不等于相应的总体均数5.00,相互间也不完全相同。由数理统计可证明,这些样本均数服从均数为μ(本例为5.00),标准差为σX的正态分布。其中,σX的计算公式为:Xn一种统计量抽样误差标准误(StandardError,SE)统计学上将样本均数`X、样本率P等统计量的标准差称为标准误,它可用于说明抽样误差的大小。抽样误差样本均数的标准误:即样本均数的标准差,说明样本均数抽样误差的统计指标。总体:样本:__0.50/100.16Xn____XXSSn不同样本量抽样实验结果图示0501001502002503003504004503.713.924.124.334.544.744.955.155.365.575.775.986.19均数频数5n0501001502002503003504004503.713.924.124.334.544.744.955.155.365.575.775.986.19均数频数30n0501001502002503003504004503.713.924.124.334.544.744.955.155.365.575.775.986.19均数频数10n与n成反比,n↑,S`X↓;n→∞时,S`X→0,而S趋近于稳定。抽样误差由可见:当样本量n一定时,σ越大,即个体变异越大,则样本均数的抽样误差σX就越大;反之,当σ固定时,n越大,则σX就越小。Xn样本均数的分布若原始分布服从正态分布,则其样本均数服从正态分布。若原始分布不服从正态分布,当样本量够大时(如n60),其样本均数一般服从正态分布(中心极限定理)。抽样误差由数理统计的中心极限定理可知,无论原始总体为何种分布,只要它具有总体均数μ和标准差σ,当样本含量足够大时(n≥60),`X都近似服从均数为μ,标准差为σ`X的正态分布。)/,(2nNX~样本均数中心极限定理(centrallimittheorem)xnxX当n足够大,样本均数逐渐趋于正态分布任一分布的总体这一点具有很高的实用价值的。因为在实际工作中,许多医学测量结果,我们并不知道它的确切分布。有了这条性质,就可以利用正态分布原理对其特征进行推断。抽样误差标准差VS标准误22/1XXnSn/XSSn内容SDSE性质表示个体变异大小统计量的标准差表示抽样误差大小控制方法个体变异或自然变异,不可通过统计方法来控制。增大样本含量可减少算式用途求参考值范围求可信区间随n增大渐趋于稳定渐趋于0t分布tDistribution希尔米特哥赛特早在1875年,德国天文学家、测量学家F.R.Helmert就在数学上发现了t分布。1908年Gosset以Student为笔名发表的论文,提出了t分布的概念,从而开创了小样本统计推断的新纪元。t分布的发现t分布标准化变换抽样实验中,各个`X也服从总体均数标准差为的正态分布,对各个`Xi也做一下标准化变换nX在实际工作中,通常是未知的,用各个样本标准差Si估计,则得到该式已经不服从标准正态分布了,而是t分布1nnSXtii,t分布t分布)1,0(~),(~)1,0(~),(~22NXZNXNXZNXXX)(~tSXtXZ转换XS估计Xt分布三条t分布密度曲线v=1v=5v=∞分布特征t分布曲线是单峰的关于t=0对称t分布与标准正态分布的关系自由度较小时,t分布与标准正态分布相差较大,并且t分布曲线的尾部面积大于标准正态分布曲线的尾部面积当自由度时,t分布逼近于标准正态分布。t分布t分布与标准正态分布的区别在于:中间小,两尾翘(大)。t分布与Z分布曲线下面积均为1。Xt分布与正态分布的比较N(0,1)t(n)0t分布t界值表/2,vt给定自由度,t分布曲线的双侧尾部面积为时对应的t值,记为t/2,并称其为t的双侧界值.单侧界值:一侧尾部面积为时对应的t值t/2,对称性:2×单侧曲线下面积=双侧曲线下面积,同一t值单侧概率是双侧概率的一半。给定曲线下面积对应的界值与自由度有关。同样的尾部面积,t分布的界值要大于标准正态分布的界值t界值表t界值表单侧(one-sided/tailed):双侧(two-sided/tailed):)()(,,ttPttP1)()&(,2,2,2,2tttPttttPt界值表t分布界值示意图,表示阴影的面积t分布曲线下面积双侧t0.05/2,∞=1.96=单侧t0.025,∞1.96-1.960规律:1.同一下,t值增加,P值减小2.同一P值下,增加,t值减小1.640反向关系参数估计EstimationofParameter参数估计统计分析统计推断假设检验参数估计统计描述区间估计点估计参数估计(estimationofparameter):——用样本统计量估计总体参数。样本统计量(statistic)总体参数(parameter)XSP、、、、利用样本信息计算一个区间,并给出重复试验时该区间包含总体参数的概率参数估计点估计区间估计总体均数的估计置信上限可信/置信区间(区间估计)置信下限样本统计量(点估计)Xˆ点估计:pointestimation区间估计:intervalestimation点估计(pointestimation)直接用样本均数作为总体均数的估计值,不足之处在于:它没有考虑到抽样误差。在大样本情况下,用`X和S作为μ和σ的估计值计算参考值范围。总体均数的点估计:总体率的点估计:即样本均数和样本率分别是总体均数和总体率的估计值。ˆPˆX区间估计(intervalestimation)指给出一个区间(常称为可信区间,confidenceinterval,CI),并同时给出该区间包含总体均数的概率(即:可能性,一般取95%)。1.重复试验时该区间包含总体均数的概率2.表示为1-或100(1-)%常用的有99%,95%,90%相应的为0.01,0.05,0.10置信水平/可信度2,2,1XXPttS总体均数的区间估计________/2,/2,XXXtSXtS总体均数μ的双侧1-置信区间为:________/2,/2,(,)XXXtSXtS例2由例1中的第二个样本计算总体均数的95%可信区间。(`X=5.03,S=0.52,n=10)查附表2的t界值表,得双侧,即95%可信区间为:0.05/2,92.262t0.520.52(5.032.2625.032.262)1010(4.66,5.40),从总体中作随机抽样,如:100次,得100个可信区间,平均有95个可信区间包括总体均数m(估计正确),只有5个可信区间不包括总体均数m(估计不正确)。实际中,只作一次抽样,只得到一个可信区间,作为未知总体均数的可能范围的估计,理论上有95%的可能是正确的,而5%的可能发生错误。95%可信区间的含义:可信区间95%99%公式范围窄宽估计错误概率大(0.05)小(0.01)XStX,2/05.0XStX,2/01.0精密度(precision)可靠(reliability)1增大样本量不同置信度下可信区间的对比参考值范围与可信区间的区别例:已知某市100名健康成年男性工人血红蛋白量资料服从正态分布,其X=141.8g/L,S=12.2g/L。试计算双侧95%参考值范围及95%可信区间。解:由题意可知,用正态分布法计算双侧95%参考值范围:95%可信区间用公式计算:本例n=100,ν=100-1=99,t=1.66标准误,则1.96141.81.9612.2117.9~165.7(/)XSgL2,XXtS12.21.22100XSSn2,141.81.661.22139.8~143.8(/)XXtSgL参考值范围与可信区间的区别我们估计该市95%成年男性工人血红蛋白量在117.9~165.7g/L之间。我们有95%的把握,他们的平均血红蛋白量在139.8~143.8g/L之间。显然后者范围要窄于前者。参考值范围与可信区间的区别(1-)100%参考值范围与可信区间的区别含义:参考值范围——指该区间包含了(1-)100%的观察值。参考区间——指该区间包含总体均数的可能性是(1-)100%。计算(双侧):参考值范围:可信区间:/2,XxtS/2ZxS

1 / 50
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功