数值变量的统计描述(2013临本)

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

第十五章数值变量的统计分析一、数值变量的频数分布表与频数分布图在医学研究工作中,所收集到的原始数据一般是无规律所循的,特别当观察值较多时,直接从原始数据很难得出概括的印象。必须通过资料清理,编制频数表,来显示数据分布的范围、数据最集中的区间和频数分布的形态等。第一节集中趋势和离散趋势的统计描述例15.1一般可分为计量资料、计数资料和等级资料。对医学资料的统计描述是统计分析的一个方面,也是科研结果表述的基本内容。描述的方法包括计算相关的指标、用统计表和统计图来表示。统计分析统计描述统计推断(第十六章)统计描述统计推断统计分析的两大方面统计描述—用适当的统计图(表)和统计指标(如均数、标准差、有效率、治愈率等)来描述资料的分布规律(图表)和数量特征(统计指标)。目的:用直观的、简单的形式来表达测定了110例正常人血铅含量(μg/L),见下表。血铅含量0-4-8-12-16-20-24-28-合计频数1423301914613110广西人均卫生事业费在全国位次(1998年)指标广西(元)全国(元)广西在全国位次人均卫生事业费11.2418.5228人均医院经费3.707.6130人均卫生院补助2.673.6028人均防治防疫事业费1.662.6229人均妇幼保健经费0.840.76161999年中国农村死亡原因构成(%)呼吸系病23%其它14%恶性肿瘤18%脑血管病18%心脏病12%消化系病4%损伤中毒11%计量资料是连续性的资料,我们可把该组数据范围大小分成若干段,然后再统计各段的频数,并用表格来表示,即称为计量资料的频数分布表。(一)频数分布表的编制最小值最大值个数:28152516742计量资料的频数表:即按数量大小分组,然后再清点各组(段)的个数(一)频数分布表的编制(1)求全距R=最大值-最小值=104.8-80.1=24.7例15.1150名3岁女孩身高值(cm)。编制步骤:计量资料的频数表:即按数量大小分组,然后再清点各组(段)的个数R最小值最大值(2)划分组段②求组距(i):i=极差/组数=24.7/10=2.47≌2.5①确定组数原则:n50,5-8组;n50,9-15组。实际应用时,应根据研究目的和分析要求,灵活确定组数。一般以能反映频数分布的特征为原则。③确定各组段的上下限原则:第一组段包括最小值,最后组段包括最大值。每一组段都有上限和下限下限:组段的起点(最小值)上限:组段的终点(最大值)一般只列出下限!80.1104.8组距⑶组距=极差/组数(拟采用等距分组)24.7⑵确定组数:拟分几个组?(一般10组)⑴求全距:线段的长度⑷定组段:划范围⑸统计各组段的人数:下限上限(下组段的下限)编制步骤:读取数据,然后“对号入座”划记80.1100.1频数表的用途:1.描述频数分布的类型和特征DescriptiveStatistics频数分布表(frequencytable)2.便于发现一些特大或特小的可疑值3.便于进一步做统计分析和处理(二)频数分布的特征1、集中趋势(centraltendency):数据向某一数值集中的倾向(中等身高[92-94cm]的人数最多)2、离散趋势(tendencyofdispersion):数据的数值大小不等的倾向(由中间向两侧逐渐减少)集中趋势离散趋势离散趋势(三)频数分布的类型正态、对称分布偏态分布正偏态负偏态频数分布图以观察变量(组段)为横轴,频数或频率为纵轴绘制统计图。可直观地反映频数分布的特征。对称分布示意图正态分布示意图可以是多峰,只要左右对称只能是单峰二集中趋势的描述描述计量资料分布特征的指标集中趋势指标离散趋势指标平均数(average)R、Q、S、CV常用平均数的种类:1、算术均数(arithmeticmean)(简称均数,mean)2、几何均数(geometricmean)3、中位数(median)(一)算术均数(均数)样本均数用X表示,总体均数用μ表示.1、适用范围对称分布,尤其是正态分布的资料2、计算方法:(1)直接法nxx例有10人身高值:92.5,82.5,…,95.1求平均身高。)(27.93101.95...5.825.92cmnxx(2)加权法ffxxf为相同观察值的个数(频数)例:2,3,3,4,4,4,5,5,5,6求均数。方法一:1.41041106555444332nxx方法二:1.41041101625342312ffxx直接法加权法加权法用于频数表资料其中:X=组中值=(上限+下限)/2f=频数ffxx为什么用组中值?问题:所有的频数表资料计算均数都需要用组中值计算吗?3、均数的应用⑴反映一组观察值的平均水平⑵描述正态分布特征的重要参数原始数据的分布为偏态分布,但经对数变换后的分布呈正态分布(二)几何均数(geometricmean,简记为G)1、适用资料:对数正态分布资料(血清抗体滴度资料)(微量元素资料)xlgxlgx2、计算方法:(1)直接法G=lg-1nlgx设:xxlgnxnxxlgxG1lg(正态分布)(求均数)(还原)例15.21:10,1:100,1:1000,1:10000,1:100000,求平均血清抗体效价。该5人的平均血清效价为1:1000。10003lg5100000lg10000lg1000lg100lg10lglg11G注:用抗体倒数直接计算。(2)加权法fflgxG=log-1抗体滴度资料的计算:不用组中值计算其中:X=组中值=(上限+下限)/2f=频数为什么?不需计算组中值,为什么?例15.33、应用几何均数注意事项:(1)观察值不能有0;(2)观察值不能同时有正负值,若全部为负值,可按正值先求,然后加上负号;(3)同一资料求得的Gx(三)中位数(M)和百分位数(Px)1、定义中位数:将一组观察值从小到大按顺序排列,位次居中的观察值就是中位数。在全部观察值中,大于和小于中位数的观察值的个数相等。M50%50%百分位数:将一组观察值从小到大按顺序排列,一个百分位数将全部观察值分为两部分,理论上有x%的观察值比它小,有(100-x)%的观察值比它大。P50分位数也就是中位数。25%P2575%2、中位数和百分位数的适用范围:(1)偏态分布资料(2)分布类型不明资料(3)分布末端无确定值资料(开口资料)理论上,中位数和百分位数可用于任何分布的计量资料,但实际应用中常用于偏态分布,特别是开口资料。某医师检测了60例链球菌咽炎患者的潜伏期,结果如下。潜伏期(小时)12-24-36-48-60-72-84-96-≥108合计病例数11018145442260开口资料偏态分布资料3、计算方法:(1)直接法:适用于观察数少资料(中位数)n为奇数时,21nxM=3,4,6,7,9,10,26x1x2x3x4x5x6x7Mn为偶数时,212n2nxxM=x1x2x3x4x5x6x7x835789101327M(2)频数表法:适用于频数表资料步骤:①从小到大计算累计频数和累计频数;②确定百分位数和中位数所在组段;③计算百分位数Px和中位数MLxf%xnfiLPx=Lxf2nfiLM=P50=L=Px或M所在组段的下限i=Px或M所在组段的组距fx=Px或M所在组段的频数=小于L各组段的累计频数LfLxf%xnfiLPx=起点平均每例的组距从起点到Px的例数L(起点)Px累计频数/181M所在组段明显偏态分布L=12(M所在组段的下限)i=12(M所在组段的组距)fx=63(或M所在组段的频数)=30(小于L各组段的累计频数)LfLxf2nfiLM=302181631212M=23.52(h)(50%)(50%)LmMnnfMLif所在组段下限值至该下限值的累计频数组距所在组段下限值至上限值间的频数下限值L上限值U中位数M中位数(median)和百分位数(percentile)描述数值变量资料的集中趋势(centraltendency)DescriptiveStatistics描述数值变量资料的集中趋势(centraltendency)指标(二)百分位数(percentile)中位数(median)和百分位数(percentile)百分位数(percentile)是一种位置指标,以Px表示。百分位数是将频数等分为一百的分位数。一组观察值从小到大按顺序排列,理论上有x%的变量值比Px小,有(100-x)%的变量值比Px大。故P50分位数也就是中位数,即P50=M。DescriptiveStatistics描述数值变量资料的集中趋势(centraltendency)描述数值变量资料的集中趋势(centraltendency)指标正态分布时:均数=中位数=众数正偏态分布时:均数中位数众数负偏态分布时:均数中位数众数均数、中位数、众数之间的关系DescriptiveStatistics描述数值变量资料的集中趋势(centraltendency)描述数值变量资料的集中趋势(centraltendency)指标4、中位数和百分位数的用途:(1)中位数描述一组偏态资料的集中趋势;百分位数描述一组资料在某百分位置的水平(见第三节)在对称分布资料中,理论上有M=(2)百分位数可用于确定医学参考值范围。x集中趋势指标的选择判断步骤:资料抗体滴度G否偏态、开口M否X是是第三节离散趋势的描述甲组26,28,30,32,34.=30乙组24,27,30,33,36.=30丙组26,29,30,31,34.=30甲x乙x丙x反映离散程度的常用指标:1、极差2、四分位数间距3、方差4、标准差5、变异系数变异(variation)指标反映数据的离散度(Dispersion)。即个体观察值的变异程度。常用的指标有:1.极差(Range)(全距)2.百分位数与四分位数间距PercentileandQuartilerange3.方差Variance4.标准差StandardDeviation5.变异系数CoefficientofVariationDescriptiveStatistics描述数值变量资料的离散趋势(centraltendency)指标一、全距(R)1、计算公式:R=最大值-最小值2、意义:R愈大,离散度愈大,R愈小,离散度愈小。3、优点:计算简单,意义明了4、缺点:(1)不能反映每一个观察值的变异;(2)样本例数越大,R可能越大;(3)R抽样误差大,不稳定。二、四分位数间距(简记Q)1、计算公式:四分位数间距Q=QU-QLP25:下四分位数,简记QLP75:上四分位数,简记QU2、意义:中间一半观察值的极差,意义与R相似。3、特点:(1)比R稳定,但仍未考虑每一个观察值的变异;(2)常用于描述偏态资料的离散度。三、方差(总体方差简记,样本方差简记)2σ2s一组观察值的离均差平方和,取其均数,即方差。∑(X-X)=0(离均差和)∑(X-X)2≠0(离均差平方和)缺点:与例数多少有关1、计算公式:Nμxσ22122nxxs2、意义:方差越大,离散度越大;方差越小,离散度越小。3、缺点:单位被平方,不便于使用四、标准差(总体标准差简记σ,样本标准差简记S)方差的开方,即标准差。1、计算公式:Nx212nxxs2、意义:与方差的意义相同(注:n-1为自由度)3、计算方法:(1)直接法:NxNxNx22211222nxnxxsnX(2)加权法:NfxNfx22122nfxsffxX为组中值X为组中值2()1XXSn标准差(StandardDeviation)样本方差为什么要除以(n-1)与自由度(

1 / 67
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功