均数的抽样误差和总体均数估计

rain_nic
3 ℃
2020-01-03

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

均数的抽样误差和总体均数估计1.参数估计包括：点估计与区间估计2.假设检验统计推断的两部分内容：总体样本随机抽取部分观察单位μ？推断inferenceX参数估计若某市2009年18岁男生身高服从均数μ=167.7cm、标准差=5.3cm的正态分布。对该总体进行随机抽样，每次抽10人，（jn=10），共抽得100个样本（g=100），计算得每个样本均数jX及标准差jS。一、抽样误差与标准误jjXS167.41,2.74165.56,6.57168.20,5.36┆165.69,5.09nj=10100个=167.7cm=5.3cmX1,X2,X3,Xi,2009年某市18岁男生身高N(167.7,5.32)的抽样示意图将此100个样本均数看成新变量值，则这100个样本均数构成一新分布，绘制频数图从正态分布总体N(167.7,5.32)随机抽样所得样本均数分布①，各样本均数未必等于总体均数；②各样本均数间存在差异；③样本均数的分布为中间多，两边少，左右基本对称。④样本均数的变异范围较之原变量的变异范围大大缩小。可算得这100个样本均数的均数为167.69cm、标准差为1.69cm。XX样本均数分布具有如下特点：1、抽样误差：由个体变异产生的、抽样造成的样本统计量与总体参数的差别原因：1）抽样2）个体差异表示样本统计量抽样误差大小的统计指标。标准误：说明抽样误差的大小，总体计算公式（7-27）Xn2、标准误(standarderror,SE)实质：样本均数的标准差若用样本标准差s来估计,（7-28）XSSn当样本例数n一定时，标准误与标准差呈正比当标准差一定时，标准误与样本含量n的平方根呈反比。通过增加样本含量n来降低抽样误差。随机抽样调查7岁男孩120名，的身高均数为120.88，标准差为5.23，则其标准误是多少？例子:48.0nsxs指标意义应用标准差（s）衡量变量值变异程度，s越大表示变量值变异程度越大，s越小表示变量值变异程度越小描述正态分布（近似正态分布）资料的频数分布；医学参考值范围的估计标准误（）样本均数的变异程度，表示抽样误差的大小。标准误越大表示抽样误差越大，样本均数的可靠性越小；标准误越小表示抽样误差越小，样本均数的可靠性越大总体均数区间估计；两个或多个总体均数间比较XS标准差和标准误的区别1．若某一随机变量X服从总体均数为μ、总体标准差为的正态分布2(,)N，则可通过z变换(X)将一般正态分布转化为标准正态分布N(0,12)，即z分布；二、t分布（一）t分布概念随机变量XN（，2）标准正态分布N（0，12）z变换Xz2．若样本均数X服从总体均数为μ、总体标准差为的正态分布2(,)XN,则通过同样方式的z变换(XX)也可将其转换为标准正态分布N(0,12)，即z分布。X,1XXXtnSSn式中为自由度(degreeoffreedom,df)3．实际工作中，由于未知，用代替，则不再服从标准正态分布，而服从t分布。XXS()/XXS均数标准正态分布N（0，12）),(2nN1,nvSXnSXtXStudentt分布自由度：n-1XnXz/t分布是一簇曲线。当自由度ν不同时，曲线的形状不同。当ν时，t分布趋近于标准正态分布，但当自由度ν较小时，与标准正态分布差异较大。（二）t分布的图形与特征分布只有一个参数，即自由度tt-5.0-4.0-3.0-2.0-1.00.01.02.03.04.05.0ν─∞(标准正态曲线)ν=5ν=1f(t)图不同自由度下的t分布图①单峰分布，以0为中心，左右对称；②自由度ν越小，则t值越分散，t分布的峰部越矮而尾部翘得越高；③当ν逼近,逼近,t分布逼近z分布，故标准正态分布是t分布的特例。XXS1．特征：2．参数(onlyone):3．t界值表：详见附表2，可反映t分布曲下的面积。单侧概率或单尾概率：用,t表示；双侧概率或双尾概率：用/2,t表示。2、t界值表：详见附表2，可反映t分布曲线下的面积。单侧概率或单尾概率：用表示；双侧概率或双尾概率：用表示。2．参数(onlyone):3．t界值表：详见附表2，可反映t分布曲下的面积。单侧概率或单尾概率：用,t表示；双侧概率或双尾概率：用/2,t表示。-tt0附表2t界值表自由度概率，P单侧0.250.200.100.050.0250.010.0050.00250.0010.0005双侧0.500.400.200.100.050.020.010.0050.0020.00111.0001.3763.0786.31412.70631.82163.657127.321318.309636.61920.8161.0611.8862.9204.3036.9659.92514.08922.32731.59930.7650.9781.6382.3533.1824.5415.8417.45310.21512.92440.7410.9411.5332.1322.7763.7474.6045.5987.1738.61050.7270.9201.4762.0152.5713.3654.0324.7735.8936.86960.7180.9061.4401.9432.4473.1433.7074.3175.2085.95970.7110.8961.4151.8952.3652.9983.4994.0294.7855.40880.7060.8891.3971.8602.3062.8963.3553.8334.5015.04190.7030.8831.3831.8332.2622.8213.2503.6904.2974.781100.7000.8791.3721.8122.2282.7643.1693.5814.1444.587210.6860.8591.3231.7212.0802.5182.8313.1353.5273.819220.6860.8581.3211.7172.0742.5082.8193.1193.5053.792230.6850.8581.3191.7142.0692.5002.8073.1043.4853.768240.6850.8571.3181.7112.0642.4922.7973.0913.4673.745250.6840.8561.3161.7082.0602.4852.7873.0783.4503.725①0.05,10101.812t，单=0.05，，则有(1.812)0.05(1.812)0.05PtPt或②0.05/2,10102.228t，双=0.05，，则有(2.228)(2.228)0.05PtPt举例：三、参数估计用样本统计量推断总体参数。总体均数估计：用样本均数（和标准差）推断总体均数。1.点估计(pointestimation)：用相应样本统计量直接作为其总体参数的估计值。如用估计μ、s估计等。其方法虽简单，但未考虑抽样误差的大小。X按预先给定的概率(1)所确定的包含未知总体参数的一个范围。总体均数的区间估计：按预先给定的概率(1)所确定的包含未知总体均数的一个范围。如给定=0.05,该范围称为参数的95%可信区间或置信区间；如给定=0.01,该范围称为参数的99%可信区间或置信区间。2．区间估计(intervalestimation)：计算总体均数可信区间需考虑：（1）总体标准差是否已知，（2）样本含量n的大小通常有两类方法：（1）t分布法（2）z分布法2,2,XXXtSXtS2,2,(,)XXXtSXtS,2/,2/aXatSXt（1）未知且n比较小：按t分布举例已知样本含量为10，均数166.95X(cm)，标准差3.64S(cm)，求其总体均数的95%可信区间。本题n=10，按公式算得样本均数的标准误为3.641.151110XS(cm)=n1=101=9，双尾=0.05，查附表2的t界值表得0.052,92.262t。得(166.952.2621.1511)即(164.35,169.55)cm故该地18岁男生身高均数的95%可信区间为(164.35,169.55)cm。已知：未知但n较大：(2)按z分布2/2/aXazXz2/2/aXazsXz某地抽取正常成年人200名，测得其血清胆固醇的均数为3.64mmol/L，标准差为1.20mmol/L，估计该地正常成年人血清胆固醇均数的95%可信区间。举例故该地正常成年人血清胆固醇均数的双侧95%可信区间为(3.47,3.81)mmolL。本题n=20050，故可采用正态近似的方法计算可信区间。今=3.64、s=1.20、n=200、xs=0.0849，取双尾0.05得0.05/21.96u。3.641.960.0849(3.47,3.81)(mmol/L)X四、假设检验的基本概念和步骤例大规模调查表明，健康成年男子血红蛋白的均数为136.0g/L，今随机调查某单位食堂成年男性炊事员25名，测得其血红蛋白均数121g/L，标准差48.8g/L。问题：根据资料推论食堂炊事员血红蛋白均数是否与健康成年男子血红蛋白均数有无差别（一）假设检验的基本思想假设检验目的——判断差别是由哪种原因造成的。①抽样误差造成的；②本质差异造成的。;/8.48,/121,25,/0.1360LgSLgXnLg0X造成的可能原因有二：案例炊事员血红蛋白总体均数136.0g/L121g/L炊事员血红蛋白总体均数138.0g/LX一种假设H0另一种假设H1抽样误差总体不同假定假如炊事员均数为136.0g/L，即则,服从t分布,绝大多数t应该分布在主要区域根据t分布能够计算出有如此大差异的概率P，如果P值很小，即计算出的t值超出了给定的界限，则倾向于拒绝H0，认为山区血红蛋白均数不是136.0g/L0.136:0dHnSXt/0假设检验的基本思想—利用小概率反证法的思想利用小概率反证法思想，从问题的对立面（H0）出发间接判断要解决的问题（H1）是否成立。然后在H0成立的条件下计算检验统计量，最后获得P值来判断。当P小于或等于预先规定的概率值α，就是小概率事件。根据小概率事件的原理：小概率事件在一次抽样中发生的可能性很小，如果他发生了，则有理由怀疑原假设H0，认为其对立面H1成立1.建立检验假设，确定检验水准（选用单侧或双侧检验）（1）无效假设，记为H0；（2）备择假设，记为H1。对于检验假设，须注意：1）检验假设是针对总体而言，而不是针对样本；2）H0和H1是相互联系，对立的假设，后面的结论是根据H0和H1作出的，因此两者不是可有可无，而是缺一不可二、假设检验的基本步骤3）H1的内容直接反映了检验单双侧。若H1中只是0或只是0，则此检验为单侧检验。它不仅考虑有无差异，而且还考虑差异的方向。4）单双侧检验的确定，首先根据专业知识，其次根据所要解决的问题来确定。若从专业上看一种方法结果不可能低于或高于另一种方法结果，此时应该用单侧检验。一般认为双侧检验较保守和稳妥。(3)检验水准，是预先规定的概率值，它确定了小概率事件的标准。在实际工作中常取=0.05。可根据不同研究目的给予不同设置。例如本题：0.136:00H01:H=0.052.计算检验统计量根据变量和资料类型、设计方案、统计推断的目的、是否满足特定条件等（如数据的分布类型）选择相应的检验统计量。如t检验、z检验、F检验和检验等。2本例采用t检验方法本例t值为1.540,1XXXXtnSSnSn是指根据所计算的检验统计量确定H0成立的可能性大小，即确定在检验假设条件下由抽样误差引起差别的概率。3.确定P值,