第十六章数值变量资料的统计分析江海东学习目的和要求掌握:1.集中趋势指标的计算与应用意义2.离散趋势指标的计算与应用意义3.数值变量资料的t检验★熟悉:1.总体均数的区间估计2.假设检验的意义和步骤了解:数值变量资料的统计描述中频数表的制作第一节数值变量资料的统计描述一、编制频数表(了解)120名12岁男孩身高(cm)资料142.3156.6142.7145.7138.2141.6142.5130.5132.1135.5134.5148.8134.4148.8137.9151.3140.8149.8143.6149.0145.2141.8146.8135.1150.3133.1142.7143.9142.4139.6151.1144.0145.4146.2143.3156.3141.9140.7145.9144.4141.2141.5148.8140.1150.6139.5146.4143.8150.0142.1143.5139.2144.7139.3141.9147.8140.5138.9148.9142.4134.7147.3138.1140.2137.4145.1145.8147.9146.7143.4150.8144.5137.1147.1142.9134.9143.6142.3143.3140.2125.9①132.7152.9147.9141.8141.4140.9141.4146.7138.7160.9②154.2137.9139.9149.7147.5136.9148.1144.0137.4134.7138.5138.9137.7138.5139.6143.5142.9146.5145.4129.4142.5141.2148.9154.0147.7152.3146.6139.2139.91.计算全距(极差)R=最大值-最小值2.确定组距①确定组段数:8~15组②确定组距:组距i=全距/组段数3.划分组段4.统计频数组段划记频数f(1)(2)(3)125~一1129~止4133~正止9137~正正正正正下28141~正正正正正正正35145~正正正正正丁27149~正正一11153~止4157~161—1合计=120120名12岁男孩身高(cm)资料的频数分布f二、集中趋势指标(掌握)•数值变量资料的集中趋势指标用平均数来描述。•常用的平均数有算数均数、几何均数、中位数(一)算数均数将各观察值相加后除以观察值个数所得的商即为算术均数。1、定义总体均数用希腊字母表示样本均数用表示x2.应用条件适用于呈对称分布或近似对称分布的资料。3.计算方法⑴直接法:变量值个数不多公式为12...nxxnnxxx⑵加权法:n≥100公式为x例•某年某市120名12岁健康男孩身高(cm)资料如下表,求其平均数。142.3156.6142.7145.7138.2141.6142.5130.5132.1135.5134.5148.8134.4148.8137.9151.3140.8149.8143.6149.0145.2141.8146.8135.1150.3133.1142.7143.9142.4139.6151.1144.0145.4146.2143.3156.3141.9140.7145.9144.4141.2141.5148.8140.1150.6139.5146.4143.8150.0142.1143.5139.2144.7139.3141.9147.8140.5138.9148.9142.4134.7147.3138.1140.2137.4145.1145.8147.9146.7143.4150.8144.5137.1147.1142.9134.9143.6142.3143.3140.2125.9①132.7152.9147.9141.8141.4140.9141.4146.7138.7160.9②154.2137.9139.9149.7147.5136.9148.1144.0137.4134.7138.5138.9137.7138.5139.6143.5142.9146.5145.4129.4142.5141.2148.9154.0147.7152.3146.6139.2139.9120名12岁男孩身高(cm)资料组段划记频数f(1)(2)(3)125~一1129~止4133~正止9137~正正正正正下28141~正正正正正正正35145~正正正正正丁27149~正正一11153~止4157~161—1合计=120120名12岁男孩身高(cm)资料的频数分布f组段组中值x频数ffx(1)(2)(3)(4)=(2)×(3)125~1271127129~1314524133~13591215137~139283892141~143355005145~147273969149~151111661153~1554620157~1611591159合计---=120=17172120名12岁健康男孩身高(cm)均数的加权法计算fxf(二)几何均数1.定义将n个变量值的乘积开n次方所得的根即为几何均数。符号用G表示2.适用条件:•数值变量呈倍数关系或呈对数正态分布,如抗体效价、抗体滴定度、疾病潜伏期3.计算例•5人的血清滴度分别为1:2、1:4、1:8、1:16、1:32,求平均滴度。⑵加权法:变量值个数较多或变量值为频数表资料1lg()lgfxGf二、几何均数(几何平均数)例2-4•某年某市100名儿童接种某种疫苗后,测定抗体滴度的资料如第(1)、(2)列所示,求该疫苗的抗体平均滴度。(三)中位数和百分位数中位数1.定义将一组变量值按大小顺序排列,位次居中的变量值即为中位数。符号用M表示2.适用条件①变量值中出现特小或特大的数值②资料的分布呈明显偏态③变量值分布一端或两端无确定数值,只有小于或大于某个数值④资料的分布类型不清3.计算方法⑴直接法•当变量值个数为奇数时计算公式为M=21nX当变量值个数为偶数时计算公式为例•某地11例某传染病患者,其潜伏期(天)分别为2,2,4,3,5,6,3,8,9,11,15,求其平均潜伏期。例•如上例资料在第21天又发生1例该传染病患者,其平均潜伏期又为多少?先将变量值按从小到大的顺序排列:2,2,3,3,4,5,6,8,9,11,15,21。编制频数表计算步骤4计算步骤3计算步骤2计算步骤1⑵频数表法编制中位数计算表确定中位数所在的组段计算中位数计算公式()2Lminff例•现有145例食物中毒病人,其潜伏期分布如下表的第(1)(2)栏,求中位数。潜伏期(小时)频数f累计频数累计频率(%)(1)(2)(3)(4)0~171711.76~466343.412~3810169.618~3213391.724~613995.930~013995.936~414398.642~2145100.0合计145————145例食物中毒病人潜伏期分布表•可确定中位数所在组段是12~,故L=12,i=6,fm=38,n=145,=63。代入公式,得M=12+(6/38)×(145×50%-63)=13.5(小时)LfLf百分位数1.定义指将n个观察值从小到大依次排列,再把它分成100等份,对应于x%位的数值即为第x百分位数。•中位数是第50百分位数,用P50表示。•第25,第75,第95百分位数记为P25,P75•P95是统计学上常用的指标。PXX%(100-X)%)%(LxxxfxnfiLP2.计算方法L:Px所在组段下限i:组距n:总例数f:Px所在组段频数fL:小于L的各组段累计频数潜伏期(小时)频数f累计频数累计频率(%)(1)(2)(3)(4)0~171711.76~466343.412~3810169.618~3213391.724~613995.930~013995.936~414398.642~2145100.0合计145————145例食物中毒病人潜伏期分布表求P25和P75P25=6+(6/46)(145×25%-17)=8.51(小时)P75=18+(6/32)(145×75%-101)=19.45(小时)练习题1.适用于对称分布或近似对称分布的资料的平均数为A.算数均数B.几何均数C.中位数D.百分位数答案:A描述正态分布资料集中趋势的指标是()A.中位数B.几何均数C.算术平均数D.标准差答案:C(全国2011年4月高等教育自学考试预防医学(二)试题)2.描述一组偏态分布资料的平均水平,下列哪个指标较好A.算术均数B.几何均数C.百分位数D.中位数答案:D3.计算某抗体滴度的平均水平,一般宜选择A.算术均数B.几何均数C.中位数D.百分位数答案:B描述呈倍数关系的数值变量的指标是A.算术均数B.几何均数C.中位数D.百分位数答案:B三、离散趋势指标(掌握)离散趋势指标(掌握)•三组同龄男孩体重(kg)如下:甲组9095100105110均数=100(cm)乙组9698100102104均数=100(cm)丙组9699100101104均数=100(kg)平均水平指标仅描述一组数据的集中趋势,可作为总体均数的一个估计值。由于变异的客观存在,需要一类指标描述资料的离散趋势。常用指标:全距,四分位数间距,方差,标准差,变异系数科学出版社卫生职业教育出版分社概念是一组变量值中最大值与最小值之差,反映一组变量值的变异范围。符号以符号R表示公式R=最大值-最小值极差(又称全距)•R甲=110-90=20(cm)•R乙=104-96=8(cm)•R丙=104-96=8(cm)甲组9095100105110均数=100(cm)乙组9698100102104均数=100(cm)丙组9699100101104均数=100(kg)缺点:①只用到最大、最小值,样本信息没能充分利用,不能反映所有数据的变异程度。②受样本含量影响较大,样本例数越多,R可能越大,2组观察值例数悬殊时不用R比较。③样本含量不变时,每次抽样得到的极差值相差较大,R稳定性较差。优点:①表示变异范围,简单明了;②各种分布类型的资料均可用。练习题关于极差的描述错误的是A.极差值大,离散度就大B.极差可以反映所有数据的变异大小C.极差受样本含量的影响较大D.极差只能粗略的说明变量值的变动范围答案:B四分位数间距•四分位数间距,用Q表示:•Q=2575PP四分位数间距越大,说明变异度越大;反之,说明变异度越小。方差方差也称均方差,反映一组数据的平均离散水平。2s方差愈小,说明变量值的变异程度愈小;方差愈大,说明变异程度愈大。总体方差用2表示22()XN2S2s样本方差用表示概念把方差开平方,恢复了原来的单位,这就是标准差。优点由于克服了方差的不足因而最常用。符号s表示样本标准差,σ表示总体标准差。标准差公式:样本标准差用表示公式:总体标准差用表示2()XNS2()1XXSn说明变量值的变异程度。2.标准差的意义标准差愈小,说明变量值的变异程度愈小;标准差愈大,说明变异程度愈大。•标准差的公式还可以写成:•利用频数表计算标准差的公式为22()1XXnSn22()1fXfXfSf•测定了5名健康人第一小时末红细胞沉降率,分别是6、3、2、9、10mm,求标准差。例•某年某市120名12岁健康男孩身高(cm)资料如下表,求其标准差。142.3156.6142.7145.7138.2141.6142.5130.5132.1135.5134.5148.8134.4148.8137.9151.3140.8149.8143.6149.0145.2141.8146.8135.1150.3133.1142.7143.9142.4139.6151.1144.0145.4146.2143.3156.3141.9140.7145.9144.4141.2141.5148.8140.1150.6139.5146.4143.8150.0