第三章抽样误差SamplingError易洪刚DepartmentofEpidemiology&Biostatistics,SchoolofPublicHealthNanjingMedicalUniversity主要内容抽样误差中心极限定理标准误t分布2分布F分布1.抽样误差SamplingError抽样误差中心极限定理标准误统计分布了解抽样误差的重要性总体同质、个体变异总体参数未知样本代表性、抽样误差随机抽样样本统计量已知统计推断风险抽样误差samplingerror,samplingvariability由抽样引起的样本统计量与总体参数间的差别。原因:个体变异+抽样表现:样本统计量与总体参数间的差别不同样本统计量间的差别抽样误差是不可避免的!抽样误差是有规律的!假设一个已知总体,从该总体中抽样,对每个样本计算样本统计量(均数、方差等),观察样本统计量的分布规律--抽样分布规律。均数的模拟试验均数的模拟试验考察:样本均数的均数与总体均数有何关系?样本均数的标准差与总体标准差有何关系?样本均数的分布形状如何?不同的样本含量对上述性质的影响如何?抽样分布规律μ=5.0σ=0.5样本含量n=10抽样次数m=100=5.19S=0.42x=5.04S=0.44x红细胞计数=5.03S=0.52xFractionx2.52.83.13.43.744.34.64.95.25.55.86.16.46.777.37.67.90.1.2.3图正态分布N(5.00,0.502)总体分布结论1各样本均数未必等于总体均数;样本均数间存在差异;由抽样实验所得的100个样本作出其均数分布直方图如图4.1。曲线是对抽样得到的100个数据拟合的分布曲线。Fraction2.52.83.13.43.744.34.64.95.25.55.86.16.46.777.37.67.90.1.2.3.4.5.6.7.8.91图从正态分布N(5.00,0.502)总体中抽样样本均数的分布x图从正态分布N(5.00,0.502)总体中抽样样本均数的分布Fraction4.14.44.755.35.65.90.1.2.3.4.5x结论2的分布很有规律,围绕着,中间多,两边少,左右基本对称;样本均数的变异范围较之原变量的变异范围大大缩小;X2.中心极限定理CentralLimitTheorem抽样误差中心极限定理标准误分布中心极限定理(centrallimittheorem)(一)从均数为、标准差为的正态总体中,独立随机抽取例数为n的样本,样本均数的分布服从正态分布;■样本均数的均数为μ;■样本均数的标准差为。Xxn不同类型的总体分布,对于统计量分布有何影响?正态分布总体偏三角分布总体均匀分布总体指数F分布总体双峰分布总体中心极限定理中心极限定理(二)从非正态(nonnormal)分布总体(均数为μ,方差为σ)中随机抽样(每个样本的含量为n),可得无限多个样本,每个样本计算样本均数,则只要样本含量足够大(n50),样本均数也近似服从正态分布。■样本均数的均数为μ;■样本均数的标准差为。xn3.标准误standarderror抽样误差中心极限定理标准误分布标准误(standarderror)样本统计量的标准差称为标准误。样本均数的标准差称为均数的标准误。均数的标准误表示样本均数的变异度。当总体标准差未知时,用样本标准差代替,前者称为理论标准误,后者称为样本标准误。xnxssn与标准差的关系1、意义上标准差描述个体值之间的变异,即观察值间的离散程度;而标准误是描述统计量的抽样误差,即样本统计量和总体参数的接近程度;2、用途上标准差常用于表现观察值的波动范围;标准误常表示抽样误差的大小,估计总体参数可信区间。3、与样本含量标准差是随着样本含量的增多,逐渐趋于稳定。标准误是随着样本含量的增多,逐渐减少。区别与标准差的关系首先,标准差和标准误都是变异指标,说明个体之间的变异用标准差,说明统计量之间的变异用标准误。其次,当样本含量不变时,标准差大,标准误亦越大,均数的标准误与标准差成正比。联系4.t分布t-distribution抽样误差中心极限定理标准误分布正态分布的标准化变化若X~N(μ,σ),则。~(0,1)XN因,则。~(0,1)XXuNXXN~(,)从正态分布总体中1000次抽样的u值的分布(n=4)Fractionu-4-3-2-1012340.05.1.15.2均数为0.007559标准差为1.006294t分布的概念实际工作中,总体方差未知。所以,用样本方差代替总体方差,此时的分布如何?XXs从正态分布总体中1000次抽样的值的分布(n=4)Fractiont-8-6-4-2024680.05.1.15.2.25.3.35均数为0.05696标准差为1.55827XXst分布的概念用样本方差代替总体方差,此时不服从正态分布。XXs1908年,W.S.Gosset(1876-1937)以笔名Student发表了著名的t分布,证明了:设从正态分布N(,2)中随机抽取含量为n的样本,样本均数和标准差分别为和s,设:XXXts则t值服从自由度为n-1的t分布。t分布的概念(1)~nXXtts记为:图自由度分别为1、5、∞时的t分布t分布图形f(t)=∞(标准正态曲线)=5=10.10.2-4-3-2-1012340.3t分布的特征t分布是一簇曲线,当ν不同时,曲线形状不同;单峰分布,以0为中心,左右对称;当ν逼近∞时,t分布逼近u分布,故标准正态分布是t分布的特例;t分布曲线下面积是有规律的。请看演示t分布t界值表表上阴影部分,表示t,以外的尾部面积占总面积百分数,即概率P。表中数据表示与确定时相应的t界值(criticalvalue),常记为t,。-t0t抽样总体样本t1t2t3t4tn-3tn-2tn-1tn统计量t分布t分布表明,从正态分布总体中随机抽取的样本,由样本计算的t值接近0的可能性较大,远离0的可能性较小。XXts例如,当=10,单尾概率=0.05时,查表得单尾t0.05,10=1.812,则:P(t≤-1.812)=0.05或P(t≥1.812)=0.05表明:按t分布的规律,从正态分布总体中抽取样本含量为n=11的样本,则由该样本计算的t值大于等于1.812的概率为0.05,或者小于等于-1.812的概率亦为0.05。-1.81200.050.051.812例如,当=10,双尾概率=0.05时,查表得双尾t0.05,10=2.228,则:P(t≤-2.228)+P(t≥2.228)=0.05或:P(-2.228t2.228)=1-0.05=0.95。表明:按t分布的规律,从正态分布总体中抽取样本含量为n=11的样本,则由该样本计算的t值大于等于2.228的概率为0.025,小于等于-2.228的概率亦为0.025。-2.22800.0250.0252.228单尾:P(t≤-t,)=,或P(t≥t,)=双尾:P(t≤-t/2,)+P(t≥t/2,)=,即P(-t/2,tt/2,)=1--t0tt分布曲线下面积规律5.2分布chi-distribution抽样误差中心极限定理标准误分布2分布设从正态分布N(,2)中随机抽取含量为n的样本,样本均数和标准差分别为和s,设:2值服从自由度为n-1的2分布(2-distribution)222)1(snX=4=3=520246810120.00.10.20.30.40.5f(2)=1=2=62分布请看演示2分布2分布的特征(1)2分布为一簇单峰正偏态分布曲线;随的逐渐加大,分布趋于对称。(2)自由度为的2分布,其均数为,方差为2。(3)自由度为的2分布实际上是个标准正态分布变量之平方和。2=u12+u22+……+uv23.840.050.0250.0251.96-1.962分布-与正态分布的关系(4)每一自由度下的2分布曲线都有其自身分布规律。自由度为1的2分布界值0.00.10.20.30.40.53.840.052分布是方差的抽样分布。2分布说明,从正态分布的总体中随机抽样,所得样本的方差s2接近于总体方差2的可能性大,远离总体方差的可能性小。即2值接近其均数n-1的可能性大,远离n-1的可能性小。2分布的特征自由度=10时,20.025,10=20.48,20.975,10=3.25。从正态分布的总体中随机抽样,得到的样本其2值大于等于20.48的概率为0.025,小于等于3.25的概率亦为0.025。P(2≤3.25)+P(2≥20.48)=0.052分布的特征2分布近似描述具有某种属性的实际频数Ai与理论频数Ti之间的抽样误差iiiTTA22)(2分布的特征6.F分布F-distribution抽样误差中心极限定理标准误分布F分布设从两个方差相等的正态分布N(1,2)和N(2,2)总体中随机抽取含量分别为n1和n2的样本,样本均数和标准差分别为、s1和和s2。设:则F值服从自由度为(n1-1,n2-1)的F分布(F-distribution)。1X2X2221ssFF分布的特征(1)F分布为一簇单峰正偏态分布曲线,与两个自由度有关。(2)若F服从自由度为(1,2)的F分布,则其倒数1/F服从自由度为(2,1)的F分布。(3)自由度为(1,2)的F分布,其均数为2/(2-2),与第一自由度无关。(4)第一自由度1=1时,F分布实际上是t分布之平方;第二自由度2=∞时,F分布实际上等于2分布。请看演示F分布(5)每一对自由度下的F分布曲线下的面积分布规律。PFF分布的特征F分布表明,从两个方差相等的正态分布总体中随机抽取含量分别为n1和n2的样本,计算所得F值,应接近v2/(v2-2)。F(0.05;20,20)=2.12表示,从方差相等的正态分布总体中随机抽取n1=n2=21的样本,则由两样本计算的F值大于等于2.12的可能性为0.025,而小于1/2.12=0.4717的可能性亦为0.025。F分布的特征F分布的特征样本统计量的抽样分布任何一个样本统计量均有其分布规律。从正态分布总体中抽样:均数的抽样分布为正态分布;样本方差的分布服从2分布;样本方差之比服从F分布;t值服从t分布;……总结抽样误差中心极限定理标准误统计分布