2.计量资料(定量资料)的统计描述资料

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

第十一章资料的描述性分析2020/5/72第十一章资料的描述性分析第一节计量资料的统计描述方法第二节计数资料的统计描述方法统计图表2020/5/73第一节计量资料的统计描述方法常用的描述定量资料分布规律的统计方法有两类:统计图表:频数分布表/图选用适当的统计指标:集中趋势指标:均数、中位数离散趋势指标:极差、标准差2020/5/74频数分布表(frequencydistributiontable):将变量值化分为若干个组段,清点并记录各组段变量值的个数,称为频数表(frequencytable)。第一节数值变量资料的频数分布2020/5/75最小值最大值第一节数值变量资料的频数分布2020/5/761.频数表的编制步骤(1)求数据的极差:极差(range)是全部数据中的最大值与最小值之差,它描述了数据的变异幅度。公式:R=XMax-XMin例8.1:XMax=5.59XMin=3.60R=5.59-3.60=1.99第一节数值变量资料的频数分布2020/5/77(2)划分组段确定组数:n100,10~15组;n100,8~10组确定组距:组距可以相等也可以不相等,一般采用等距分组,组距=极差/组数例8.11.99/10≈2,故组距=2mmol/L1.频数表的编制步骤2020/5/78(2)划分组段确定各组段的上下限:每个组段的起点称为该组的下限(lowlimit),终点称为上限(upperlimit),上限=下限+组距;第一组段必须包括最小值,因此其下限取包含最小值、较为整齐的数值;例8.1第一组段下限为3.60,上限为3.60+0.20=3.80各组段不能重叠,每一组段均为半开半闭区间,即包括下限,不包含上限。例8.1第一组段为3.60~即[3.60,3.80);以此类推。最后一组段,须包括最大值,且要列出这一组段的下限和上限,即5.40~5.60,[5.40,5.60]1.频数表的编制步骤2020/5/791.频数表的编制步骤最后一组段第一组段列出各组段2020/5/710(3)列表划记1.频数表的编制步骤将原始数据一一对应入每个组段,通过划“正”字,来统计每个组段内的数据2020/5/711(3)列表划记1.频数表的编制步骤统计每个组段内的频数(例数)频数的合计数等于样本含量2020/5/7121.频数表的编制步骤(3)列表划记计算出每个组段的频率每组的频数样本含量2020/5/7131.频数表的编制步骤(3)列表划记计算出每个组段的累计频率=本组段的频率+上一组段的累计频率2020/5/7141.频数表的编制步骤2020/5/7152.绘制频数分布直方图绘制频数分布直方图坐标轴横坐标:变量值即研究指标,无需从0开始,以单位尺度划分。纵坐标:为频数f,必须从0开始(f为每一组段内的人数)直条直条的宽度:组距直条的高度:每一组段的频数累计2020/5/7162.绘制频数分布直方图2020/5/7172.绘制频数分布直方图2020/5/7183、频数分布的特征从频数表可以看到频数分布的两个重要的特征集中趋势(centraltendency)血糖值向中央部分(中等水平)集中,以中等水平的血糖值者居多,是为集中趋势。离散趋势(tendencyofdispersion)从中央部分到两侧(血糖值从中等水平到较低或较高水平)的频数分布逐渐减少,是为离散趋势。集中趋势和离散趋势是频数分布的两个重要侧面,从这两方面就可全面的分析所研究的事物。2020/5/7194.频数分布的类型频数分布又可分为对称分布和偏态分布对称分布:集中位置在正中,左右两侧频数分布大体对称偏态分布:集中位置偏向一侧,频数分布不对称正偏态分布:集中位置偏向年龄小的一侧负偏态分布:集中位置偏向年龄大的一侧不同类型的分布,应采用相应的统计分析方法。2020/5/7204.频数分布的类型正态分布(normaldistribution)中间高、两边低、左右对称属于对称分布的一种许多医学资料都属于这种分布,例如人体正常的生理生化指标正态分布2020/5/7214.频数分布的类型a.尖峭峰b.正态峰c.平阔峰2020/5/722正偏态分布正偏态分布:峰偏左,尾部向右侧延伸如:以儿童为主的传染病发病人数的分布右偏态4.频数分布的类型负偏态分布负偏态分布:峰偏右,尾部向左侧延伸如:以老年人为主的慢性病发病人数的分布左偏态(positiveskewed)(negativeskewed)2020/5/7235.频数表的用途频数表可揭示资料的分布特征和分布类型便于进一步计算统计指标和统计分析处理(第二节)便于发现某些特大或特小可疑值,便于资料的校对。2020/5/724一、集中趋势指标算术均数(arithmeticmean)几何均数(geometricmean)中位数和百分位数(medianpercentile)以上统称为平均数(average)常用于描述一组变量值的集中位置,代表其平均水平或是集中位置的特征值。2020/5/7251.算术均数又简称为均数(mean)定义:是反映一组观察值在数量上的平均水平。总体均数用希腊字母表示,样本均数用表示计算方法:直接法:频数表法:应用:正态分布或近似正态分布资料x(arithmeticmean)2020/5/7261.算术均数计算方法直接法:即将所有观察值x1,x2,x3,…,xn直接相加再除以观察值的个数,写成公式nxnxxxxxin...321为样本均数n为变量值个数,i为各变量值,Σ表示求和x2020/5/7271.算术均数例1有9名健康成人的空腹胆固醇测定值(mmol/L)为5.61,3.96,3.67,4.99,4.24,5.06,5.20,4.79,5.93,求算术均数。L)4.83(mmol//95.93)3.96(5.61x2020/5/7281.算术均数计算方法频数表法(weightingmethod)当资料中相同观察值的个数较多时,可将相同观察值的个数,即频数f,乘以该观察值x,以代替相同观察值逐个相加。对于频数表资料,用各组段的频数作f,以相应的组中值(classmid-value)作x。组中值=(下限+上限)/2公式fi为各组段的频数xi为各组段的组中值fxfffffxfxfxfxfxiinnn......3213322112020/5/7291.算术均数2020/5/7301.算术均数组中值=(下限+上限)/2如:3.60~组段的组中值=(3.60+3.80)/2=3.70以此类推/L)4.653(mmol132614.2fxfxii2020/5/731f1,f2,…,fk分别为各组段的频数,这里的f起到了“权数”的作用,它权衡了各组中值由于频数不同对均数的影响。即频数多,权数大,作用也大;频数少,权数小,作用也小,故称为加权法。1.算术均数用组中值,加权法计算出的均数是精确值吗?2020/5/732均数的两个重要特性各离均差(即各观察值x与均数x之差)的总和等于零。离均差的平方和小于个观察值x与任何数α(α≠x)之差的平方和。1.算术均数0)(xx22)(xxx)(2020/5/7331.算术均数0)...()(...)(02121nxnxxnxxxxxxxxxxxxxiinn)()()(论证:各离均差(即各观察值x与均数x之差)的总和等于零。偶知道另一个也能证明了!嘿嘿2020/5/7341、最常用,特别是正态分布资料2、均数对极值特别敏感,极大值或极小值通常将均数拉向自己1.算术均数均数的特征2020/5/735CASIOfx-3600P计算器统计功能步骤键盘说明1.MOOD3进入SD统计功能2.SHIFTAC清除原有数据3.2.35DATA输入数据4.21DATA3.32DATA4.SHIFT1(数字键)显示计算的5.SHIFT3(数字键)显示计算的S6.Kout3(数字键)显示计算的n7.Kout1(数字键)显示计算的xX2020/5/7362.几何均数定义:有些医学资料,如抗体滴度、细菌计数等,其频数分布明显偏态,各观察值之间呈倍数变化(等比关系),此时宜用几何均数反映其平均增减倍数。计算方法:直接法加权法应用:等比资料或对数正态分布资料(geometricmean)2020/5/737计算方法:直接法:直接将n个观察值(x1,x2,x3,…,xn)的乘积开n次公式写成对数形式为2.几何均数nnxxxxG...,321=)lg(lg)lg...lglg(lg1211nxnxxxGin几何均数:变量对数值的算术均数的反对数。2020/5/738例3有7份血清的抗体效价分别为1:2,1:4,1:8,1:16,1:32,1:64,1:128,求平均抗体效价。本例先求抗体效价的倒数,再求几何均数2.几何均数16)204.1(lg7128lg...4lg2lglg11G血清抗体的平均效价为1:162020/5/739计算方法:加权法:当资料中相同观察值得个数f(即频数)较多时,如频数表资料写成公式2.几何均数)lg(lg1fxfG2020/5/740例4有60人的血清抗体效价,分别为7人1:5,11人1:10,22人1:20,12人1:40,8人1:80,求平均抗体效价。2.几何均数705.20)3161.1(lg)8122211780lg8...10lg115lg7(lg11G60人的血清平均抗体效价为1:20.7052020/5/741注意事项等比资料,如:抗体的平均滴度、药物的平均效价、卫生事业平均发展速度、人口的几何增长对数正态分布:是右偏态分布观察值不能有0。因为0不能去对数,不能与任何其他数呈倍数关系。观察值不能同时有正值和负值。若全是负值,计算是可以把负号去掉,得出结果后再加上负号。同一组资料求得的几何均数小于算术均数。2.几何均数2020/5/742若一组数值变量资料为偏态分布,变量为x,令y=lgx后,变量y服从正态分布,请问变量x为什么样的偏态分布资料?2.几何均数正偏态分布正态分布变量y服从则变量x服从抗体滴度⑴人数,f⑵滴度倒数,X⑶lgX⑷1:2.51:101:401:1601:640合计141822126722.510.040.0160.0640.00.39791.00001.60212.20412.8062102.10322020/5/7433.中位数和百分位数(1)中位数定义:是将一组观察值从小到大按顺序排列,位次居中的观察值就是中位数。例:((medianpercentile))X:5,5,6,7,20,位次:12345中位数(M):66.52362020/5/744(1)中位数计算方法:直接由原始数据计算中位数先将观察值按大小顺序排列,再按下面公式计算:212221nnnXXMnXMn为偶数时:为奇数时:为相应为此上的观察值位次为有序数列中观察值的12221)12()2()21(nnnxxxnnn、、、、2020/5/745例5有7名正常人的血压(舒张压)测定值(mmHg)为:72,75,76,77,81,82,86,求中位数。解:n=7为奇数变量x:72,75,76,77,81,82,86位次:1234567(1)中位数7742172121xxxMXMnnn为奇数时:请大家思考下:计算中位数和其他平均数有什么不同?特点:仅利用了中间的1~2个数据2020/5/746计算方法:用频数表计算中位数,按所分组段,由小到大计算累计频数和累计频率。再按下面公式计算为:(1)中位数mLffniLMM%50数所在组段下

1 / 85
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功