统计推断—参数估计南京医科大学柏建岭统计推断的内容•参数估计(parameterestimation)•假设检验(hypothesistest)参数估计•由样本统计量估计总体参数–点估计(pointestimation)–区间估计(intervalestimation)参数估计之一:点估计•用样本统计量作为总体参数的估计例如:用样本均数作为总体均数的一个估计点估计的缺陷μ=?cmσ=?cmx1,x2,x3,x4……N=143.3747S=5.2347x1,x2,x3…x10x=144.0681S=4.7245x1,x2,x3…x10x=142.7203S=9.2473x1,x2,x3…x10x样本含量n=10点估计•直接用样本统计量作为总体参数的估计值–方法简单,但未考虑抽样误差的大小–在实际问题中,总体参数往往是未知的,但它们是固定的值,并不是随机变量值。而样本统计量随样本的不同而不同,属随机的。区间估计•按一定的概率或可信度(1-)用一个区间估计总体参数所在范围,这个范围称作可信度为1-的可信区间(confidenceinterval,CI),又称置信区间。这种估计方法称为区间估计。可信区间的两个要素•可信度(1-),可靠性–一般取90%,95%。–可人为控制。•精确性–是指区间的大小(或长短)•兼顾可靠性、精确性均数的可信区间•总体均数的(1-)可信区间定义为:1)(,,tttP1)(,,XXstXstXP,,,XXXtsXts,,()1XXPtts影响可信区间大小的因素•可信度–可信度越大,区间越宽•个体变异–变异越大,区间越宽•样本含量–样本含量越大,区间越窄•当样本含量较大时,例如n>100,t分布近似标准正态分布,此时可用标准正态分布代替t分布,作为可信区间的近似计算。相应的100(1-)%可信区间为:•,XXXusXus例4.1•随机抽取某地25名正常成年男子,测得该样本的脉搏均数为73.6次/分,标准差为6.5次/分,求该地正常成年男子脉搏总体均数95%的可信区间。-tt0附表2t界值表概率,P单侧0.250.200.100.050.0250.010.0050.00250.0010.0005自由度双侧0.500.400.200.100.050.020.010.0050.0020.00111.0001.3763.0786.31412.70631.82163.657127.321318.309636.61920.8161.0611.8862.9204.3036.9659.92514.08922.32731.59930.7650.9781.6382.3533.1824.5415.8417.45310.21512.92440.7410.9411.5332.1322.7763.7474.6045.5987.1738.61050.7270.9201.4762.0152.5713.3654.0324.7735.8936.869……………………………210.6860.8591.3231.7212.0802.5182.8313.1353.5273.819220.6860.8581.3211.7172.0742.5082.8193.1193.5053.792230.6850.8581.3191.7142.0692.5002.8073.1043.4853.768240.6850.8571.3181.7112.0642.4922.7973.0913.4673.745250.6840.8561.3161.7082.0602.4852.7873.0783.4503.725•本例自由度=12-1=24,经查表得t0.05,24=2.064,则•即该地正常成年男子脉搏总体均数的95%可信区间为:70.9~76.3(次/分)。用该区间估计该地正常成年男子脉搏总体均数的可信度为95%。例4.10.05,2473.62.0646.5/2570.9(/)XXts次分0.05,2473.62.0646.5/2576.3(/)XXts次分例4.2•某市2001年120名7岁男孩身高均数为123.62cm,标准差为4.75cm,计算该市7岁男童总体均数90%的可信区间。附表2t界值表概率,P单侧0.250.200.100.050.0250.010.0050.00250.0010.0005自由度双侧0.500.400.200.100.050.020.010.0050.0020.00111.0001.3763.0786.31412.70631.82163.657127.321318.309636.61920.8161.0611.8862.9204.3036.9659.92514.08922.32731.59930.7650.9781.6382.3533.1824.5415.8417.45310.21512.92440.7410.9411.5332.1322.7763.7474.6045.5987.1738.61050.7270.9201.4762.0152.5713.3654.0324.7735.8936.8691000.6770.8451.2901.6601.9842.3642.6262.8713.1743.3902000.6760.8431.2861.6531.9722.3452.6012.8393.1313.3405000.6750.8421.2831.6481.9652.3342.5862.8203.1073.31010000.6750.8421.2821.6461.9622.3302.5812.8133.0983.3000.67450.84161.28161.64491.96002.32642.57582.80703.09023.2905-tt0例4.2•n=120100,标准正态分布代替t分布,u0.10=1.645•即该市7岁男童平均身高的90%可信区间为:122.91~124.33(cm),可认为该市7岁男童平均身高在122.91~124.33(cm)之间。0.10123.621.6454.75/120122.91()XXuscm0.10123.621.6454.75/120124.33()XXuscm均数之差可信区间的计算正常组肝炎组2=?均数:231.86ug/dL标准差:12.17ug/dL1=?均数:273.18ug/dL标准差:9.77ug/dL1-2=?1242.32XX合并方差与均数之差的标准误•合并方差(方差的加权平均)•均数之差的标准误222112212(1)(1)2Cnsnssnn1221211()CXXssnn与均数之差有关的抽样分布“均数之差”与“均数之差的标准误”之比,服从自由度=n1+n2-2的t分布。样本含量较大时,服从标准正态分布。121212122~nnXXXXtts121212~(0,1)XXXXtNs计算122220.05,23119.771212.17122.931213211122.93()4.43912132.069(273.18231.86)2.0694.43932.14,50.50CXXsst双侧正确理解可信区间的涵义•可信区间一旦形成,它要么包含总体参数,要么不包含总体参数,二者必居其一,无概率可言。所谓95%的可信度是针对可信区间的构建方法而言的。•以均数的可信区间为例,其涵义是:如果重复100次抽样,每次样本含量均为n,每个样本均按构建可信区间,则在此100个可信区间内,理论上有95个包含总体均数,而有5个不包含总体均数。XstX,05.095%可信区间的含义-2-1012按这种方法构建的可信区间,理论上平均每100次,有95次可以估计到总体参数。正确理解可信区间的涵义•在区间估计中,总体参数虽未知,但却是固定的值(且只有一个),而不是随机变量值。下列说法正确吗?算得某95%的可信区间,则:总体参数有95%的可能落在该区间。有95%的总体参数在该区间内。该区间包含95%的总体参数。该区间有95%的可能包含总体参数。该区间包含总体参数,可信度为95%。可信区间与参考值范围的区别•可信区间用于估计总体参数,总体参数只有一个。•参考值范围用于估计变量值的分布范围,变量值可能很多甚至无限。•95%的可信区间中的95%是可信度,即所求可信区间包含总体参数的可信程度为95%•95%的参考值范围中的95%是一个比例,即所求参考值范围包含了95%的正常人。标准差与标准误的联系•都是变异指标。•当n不变时,标准差↑,标准误↑nssX标准差与标准误的区别•标准差描述原始数据的离散程度;•标准误反映均数的抽样误差大小。标准差与标准误的区别•标准差衡量样本均数对原始数据的代表性,标准差越小,样本均数对原始数据的代表性越好;•标准误衡量样本均数估计总体均数的精确性,标准误越小,样本均数估计总体均数精度越高。标准差与标准误的区别•当n→N时,样本标准差→总体标准差•当n→N时,标准误→0标准差与标准误的区别•结合样本均数和正态分布的规律,标准差估计参考值范围;•结合样本均数和t分布的规律,标准误估计总体均数的可信区间。概念辨析•标准差标准误•个体变异抽样误差•参考值范围可信区间•变量分布抽样分布Homework•简述标准差和标准误的区别和联系•简述参考值范围与均数的可信区间的区别和联系