集中趋势

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

第4章定量资料的统计描述本章的内容和重点第一节频数分布第二节集中趋势的描述第三节离散趋势的描述第四节描述分布形态的统计指标重点:掌握概念、方法的用途和适用条件熟悉统计符号和公式教学目的与要求•掌握:描述定量资料的集中趋势的指标——算术均数、几何均数、中位数的计算方法和适用条件,描述定量资料的离散趋势的指标——极差、四分位数间距、方差、标准差和变异系数的计算方法和适用条件。•熟悉:连续型变量频数表的编制,频数分布类型,百分位数法的概念及计算。•了解:离散型定量变量的频数分布单变量计量资料的统计分析研究总体统计描述样本统计推断随机抽样参数估计假设检验统计表统计图统计指标定量资料的统计描述•统计表-频数分布表•统计图-频数分布图•统计指标•集中趋势:均数、几何均数、中位数•离散趋势:极差、四分位间距、方差、标准差、变异系数表1100例高血压患者治疗后临床记录编号年龄性别治疗组舒张压体温疗效X1X2X3X4X5X6137男A11.2737.5显效245女B12.5337.0有效343男A10.9336.5有效459女B14.6737.8无效10054男B16.8037.6无效频数与频数分布频数与频数分布频数:某个测量值的个(例)数。频数分布表(frequencydistributiontable):又称频数表,是将原始数据值适当分组后得到各组的频数,如表2-1频数分布表。适用于样本量较大的资料进行统计描述的常用方法。通过频数表可以显示数据分布的范围与形态。可用手工和计算机软件(如SAS、SPSS等)方便制作频数表。频数与频数分布离散型定量变量的频数分布例2-11998年某山区96名孕妇产前检查次数资料如下:0,3,2,0,1,5,6,3,2,4,1,0,6,5,1,3,3,…,4,7等共96个数值频数与频数分布表2-1:96名妇女产前检查次数分布的频数分布表表2-11998年某地96名妇女产前检查次数分布检查次数频数频率(%)累计人数累计频率(%)(1)(2)(3)(4)(5)044.244.2177.31111.521111.52222.931313.53536.542627.16163.552324.08487.551212.596100.0合计96100——频数与频数分布图2-1图2-1某地96名妇女产前检查次率分布0510152025300123455产前检查次数频率(%)频数与频数分布连续型定量变量的频数分布频数分布表的编制步骤1.求极差2.确定组段数、组距3.从小到大列出组段4.清点各组段包含的观察单位数(频数)5.整理成频数分布表频数与频数分布连续型定量变量的频数分布例2-2抽样调查某市1997年12岁男童120人的身高(cm)资料如下。将数据适当分组,计数每组的频数,根据这些数据编制成的频数分布表(表2-2)则能显示出这组数据分布的特点。频数与频数分布某市1997年12岁男童120人的身高(cm)资料如下。142.3156.6142.7145.7138.2141.6142.5130.5134.5148.8134.4148.8137.9151.3140.8149.8145.2141.8146.8135.1150.3133.1142.7143.9151.1144.0145.4146.2143.3156.3141.9140.7141.2141.5148.8140.1150.6139.5146.4143.8143.5139.2144.7139.3141.9147.8140.5138.9134.7147.3138.1140.2137.4145.1145.8147.9150.8144.5137.1147.1142.9134.9143.6142.3125.9132.7152.9147.9141.8141.4140.9141.4160.9154.2137.9139.9149.7147.5136.9148.1134.7138.5138.9137.7138.5139.6143.5142.9129.4142.5141.2148.9154.0147.7152.3146.6132.1145.9146.7144.0135.5144.4143.4137.4143.6150.0143.3146.5149.0142.1140.2145.4142.4148.9146.7139.2139.6142.4138.7139.9频数与频数分布手工编制表2-2步骤:(1)计算全距(range,R),也称为极差R=最大值-最小值=160.9-125.9=35(cm)(2)确定组段数与组距:组距=上限-下限=R/(预计的组段数)i=R/K(极差/组数)本例如果预计取10个组段,则组距长度约为35/10=3.5,取整数4。两端的组段应分别包含最小值或最大值;(3)列表做出如表2-2的表格,将选好的组段顺序地列在(1)列。按照“下限≤x<上限”的原则确定每一例数据x应归属的组段。组段频数频率124~10.0083128~20.0167132~100.0833136~220.1834140~370.3083144~260.2167148~150.1250152~40.0333156~20.0167160~10.0083合计1201.0000频数与频数分布124132140148156164010203040人数图某市120名12岁男童身高的频数分布•频数分布的类型typesoffrequencydistribution对称分布symmetricdistribution偏态分布skewnessdistribution频数表与频数分布124132140148156164010203040人数身高(cm)对称分布频数表与频数分布偏态分布正偏态(positiveskew)负偏态(negativeskew)Frequencyvar512345678902468Frequencyvar6123456789100510频数表与频数分布•非对称分布称为skewness;俗称偏态分布,有人称偏峰分布。•“偏”是偏离的意思,表示个别观察值偏离均数较远,而不是“集中位置偏”;频数表与频数分布•分布不对称者称为偏态分布。•偏态分布又分为正偏分布和负偏分布。•所谓正偏分布是指分布的长尾在峰的右侧,又称右偏分布;•所谓负偏分布是指分布的长尾在峰的左侧,又称左偏分布。”频数表与频数分布70357911131517192110203040506001人数大多数居民发汞含量在1~15mol/kg之间,少数人的发汞大于15mol/kg,分布呈正偏态。发汞含量(mol/kg)(a)239人发汞含量的频数分布图某城市892名老年人生存质量自评分的频数分布0102030405060708090100自评分4003002001000人数051015202530354045010203040(b)102名黑色素瘤患者的生存时间频数分布人数生存时间(月)患者生存时间大部份在30个月内,少数达45个月,分布呈极度偏态,又称L型分布。图某地1990~1992年男性死亡年龄分布0510152025303540455055606570758085死亡年龄(岁)25002000150010005000频数分布表和频数分布图的用途•描述分布类型•描述分布的特征集中趋势-反映资料的平均水平离散趋势-反映资料的变异程度•便于发现特大、特小的可疑值•便于计算有关指标、统计分析与处理求出极差确定组段数确定组距列出各个组段确定每一组段频数选极差即最大值与最小值之差一般8-15之间组距=R/组段数,但一般取一方便计算的数字第一组段包括极小值,最后一组段包括极大值,除最后一组段可同时标出上下限,其他组段只标出下限。根据变量值大小把各观察单位归入各个组段编制频数表的步骤编制频数表步骤流程图频数分布特征124132140148156164010203040人数图某市120名12岁男童身高的频数分布第二节集中趋势统计指标平均数:描述一组变量值集中位置的特征值,用来说明某种现象或事物数量的平均水平•算术均数•几何均数•中位数•众数•调和均数适用条件:适用于正态分布或近似正态分布的资料(对称分布)1)直接计算法:计算公式为式中X1,X2和Xn为所有观察值,n为样本含量,∑(希腊字母,读作sigma)为求和的符号。nXXXxn...21nXnXnXiinii1一、算术均数:简称均数,用表示(样本均数)X定量变量的特征数2)加权频数表法:计算公式为nfXffXxOO120例17岁男生的身高频数分布组段(1)组中值x0频数(2)累计频数(3)累计频率%(4)124~126110.83128~130232.50132~134101310.83136~138223529.17140~142377260.00144~146269881.67148~1501511394.17152~154411797.50156~158211999.17160~1621120100.00合计120均数的应用:最适于对称分布资料,特别是正态分布资料;对于偏态资料,均数不能较好地反映其集中趋势。我也知道了!定量变量的特征数二、几何均数(geometricmean,G)适用条件:适用于对数正态分布或近似正态分布,以及呈倍数关系的等比资料。其频数图一般呈正偏峰分布。在医学研究中常适用于免疫学的指标。其计算公式为nXXXXGnnlglg...121定量变量的特征数例2-57名慢性迁延性肝炎患者的HBsAg滴度资料为1:16,1:32,1:32,1:64,1:64,1:128,1:512。试计算其几何均数。6451212864643232167G)log(log1nXG.648062.1lg7512lg128lg64lg64lg32lg32lg16lglg11定量变量的特征数加权法计算几何均数例2-652例慢性肝炎患者的HBsAg滴度数据如表2-4。试计算滴度的几何均数。nXffXfGloglgloglog11定量变量的特征数表2-452例慢性肝炎患者的HBsAg滴度资料抗体滴度频数(f)滴度倒数(X)lgXf(lgX)1:162161.204122.408241:327321.5051510.536051:6411641.8061819.867981:128131282.1072127.393731:256122562.4082428.898881:51275122.7092718.96489合计52108.06977定量变量的特征数52例慢性肝炎患者的HBsAg滴度的几何均数为1∶119.74705。74705.1195206977.108lg1G表2-469例RA患者血清EBV-VCA-lgG抗体测定结果抗体滴度人数f滴度倒数XlgXlgfX⑴⑵⑶⑷⑸1:101:201:401:801:1601:3201:6401:128043101011151421020408016032064012801.00001.30101.60211.90312.20412.50512.80623.10724.00003.903016.021019.031024.245137.576539.28686.2144合计69——150.2778111lg150.2778lg()lg()lg(2.1779)150.669fXGf几何均数的应用:1.等比资料,如抗体平均滴度2.对数正态分布资料Remember!使用几何均数时的注意点:1)观察值不能有0。2)观察值不能同时有正值和负值。若全为负值,在计算时先把负号去掉,得出结果再加上负号。Becareful!定量变量的特征数三、中位数(median,M)适用条件:可用于各种分布的定量资料。尤其用于偏态分布资料、一端或两端无确定数据资料和分布不明的资料。M:

1 / 53
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功