定量变量的统计描述

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

lzhmin•资料的类型:定性资料•统计分析方法:定量资料数值变量资料的统计分析方法分类变量资料的统计分析方法•统计分析:-描述统计-推断统计-集中趋势指标-离散趋势指标-可信区间估计-统计检验-相对数(率、构成比、相对比)-可信区间估计-统计检验lzhminlzhmin频数(frequency)频率分布表(frequencydistributiontable)频率分布图(frequencydistributionchart)集中趋势(centraltendency)离散趋势(tendencyofdispersion)正态分布(normaldistribution)-正偏态分布(skewedpositivelydistribution):若高峰位于左侧。-负偏态分布(skewednegativelydistribution):若高峰位于右侧。lzhmin离散型定量变量的频率分布离散型定量变量的取值是不连续的(P11,例2-1)可用频数、频率;累计频数、累计频率来表示(P12,表2-1)可用直条图(barchart)来表达各组频率的大小(P12,图2-1)lzhminlzhmin连续型定量变量的频率分布连续型定量变量的取值是连续的(P11,例2-2;P12,表2-2)。可用组段的频数、频率;组段的累计频数、累计频率来表示(P13,表2-3)。可用直方图(histogram)来表达各组段频率的分布状况(P13,图2-2)lzhminlzhmin频率分布表(图)的用途描述变量的分布类型(P14,图2-3)-正偏峰分布:左侧偏移的分布-负偏峰分布:右侧偏移的分布揭示变量的分布特征-集中趋势(centraltendency)-离散趋势(tendencyofdispersion)便于发现某些极端值或离群值便于计算统计指标和进行统计分析lzhminlzhmin计算极差,或称全距(range)决定组数、组段和组距列表划记绘制频数分布图lzhminlzhmin算术平均数(arithmeticmean)几何平均数(geometricmean)中位数(median)众数(mode)调和均数(harmonicmean)lzhmin算术平均数(arithmeticmean)指一组同质的数值之和除以数值个数所得的商。总体均数用希腊字母μ表示,样本均数用表示。-适用条件:正态分布或近似正态分布资料。-计算方法:*直接法(P15,例2-3)lzhminnxxxxnxni321式(2-1)*频数表法或加权法(P15,例2-4,表2-4)nnniiifffxfxfxfxffxf21332211※各组的权数越大,权数和组中值(classmid-value)乘积越大,作用也越大;反之依然。式(2-2)lzhmin几何均数(geometricmean)指各观察值x对数值均值的反对数。用G表示。-适用条件:*偏态分布资料;*各观察值呈倍数关系或近似倍数关系资料。如抗体的平均滴度、药物的平均效价等。-计算方法:*直接法(P16,例2-5)lzhmin)lg(lglglglglg121121nxnxxxxxxGinnn式(2-3,2-4)*频数表法或加权法(P17,例2-6,表2-5)inniiifxfxfxffxfGlglglg)lg(lg22111式(2-5)lzhmin中位数(median)和百分位数(percentile)中位数是指一组数据中位置居中的数值。用M表示。-适用条件:*明显的偏态分布资料;*未知分布资料。-计算方法*直接法(P17,例2-7)-n为奇数时,-n为偶数时,lzhmin]2/1[)(NXM2/][]12/[2/)()(NNXXM式(2-6)式(2-7)*频数表法(P18,例2-8,表2-6))%(LxXfxnfiLP※百分位数是把数据从小到大分成100等份,各等份分成1%的观察值,分割界限上的值。用Px表示。中位数实际上就是50百分位数,用P50表示。式(2-8)lzhmin众数(mode)(P18,例2-9)指一组数据中出现频率最多的那个数据。一组数据可以有多个或没有众数。调和均数(harmonicmean)指变量倒数的算术平均数。调和平均数又称倒数平均数。lzhminlzhmin例(P19,2-10):试观察A、B和C三组数据的离散状况。A组:24,27,30,33,36B组:26,28,30,32,34C组:26,29,30,31,34lzhmin极差或称全距(range)指一组资料最大值和最小值之差。用R表示。四分位数间距(quartilerange)指上四分位数QU(P75)和下四分位数QL(P25)之差。用Q表示。Q=P75-P25lzhmin方差(variance)指离均差平方和的均数。总体方差用σ2表示,样本方差用S2表示。Nx22)(1)(22nxxS式中(n-1)称为自由度,用或表示。自由度(degreeoffreedom):随机变量能“自由”取值的个数。dfv式(2-9)限制条件的个数nvlzhmin标准差(standarddeviation)(P21,例2-13,14)指方差开平方的值。总体标准差用方差σ表示,样本标准差用S表示。在实际计算中,样本标准差较总体标准差小,故英国统计学家W.S.Gosset提出了校正方法,即N用n-1的自由度代替。lzhminNx2)(1)(2nxxS※方差和标准差都表示资料变异的程度,值越大,说明变异程度就越大。式(2-12)变异系数(coefficientofvariation)(P22,例2-15)指标准差除以算术均数,以百分数表示。用CV表示。常用于比较度量单位不同或均数相差悬殊的两组(或多组)资料的变异程度(式2-16)。%100xSCV式(2-16)lzhminlzhmin偏度系数(coefficientofskewness,SKEW)理论上,总体偏度系数为0时,分布是对称的;取正值时,分布为正偏峰;取负值时,分布为负偏峰。3)()2)(1(SnnnSKEW式(2-17)lzhmin峰度系数(coefficientofkurtosis,KURT)理论上,正态分布的总体峰度系数为0;取负值时,其分布较正态分布的峰平阔;取正值时,其分布较正态分布的峰尖峭。)3)(2()1(3)()3)(2)(1()1(24nnnSnnnnnKURT式(2-18)lzhminlzhmin统计表(statisticaltable)统计表的基本结构-表号及标题:位于统计表的上方中央,要简明扼要,必要时要表明时间、地点。-标目:用简单的文字说明表格内的项目。。横标目:位于表的左侧,说明横行数字的涵义;。纵标目:位于表的上侧,说明纵行数字的涵义。-线条:只用横线,不用竖线,斜线;线条不宜过多,常用“三线表”。-数字:用阿拉伯数字表示,小数位数要一致,上下要对齐,表内不留空格。。数字暂缺或未记录用“…”表示;。无数字用“-”表示;。数字为零用“0”表示。-备注:可用“*”标注后,在表的下方用文字加以说明。lzhmin统计表的种类-简单表(simpletable):主辞仅有一个标志。(P23,表2-7)lzhminlzhmin-复合表(combinativetable):又称组合表,主辞有两个以上的标志。(P24,表2-8)lzhminlzhmin编制统计表常存在的问题-内容庞杂;-标题不确切,不精练,不完善,甚至缺标题;-标目安排不恰当,重复;-计算指标不能说明研究事物的本质;-数字不准确或数字位数未对齐。lzhmin编制统计表应注意的事项-重点突出,简单明了;-主谓分明,层次清楚。lzhmin统计图(statisticalchart)描述定量变量的常用统计图1)直方图(histogram)用各直方的面积表示各组段的频数,用以表示连续型定量变量的频数分布。横轴常表示被观察的对象(变量),通常为连续型变量;纵轴表示频数或频率。以各矩形面积代表各组段的频数或频率,各矩形之间不留空隙(P25,图2-5)。lzhmin2)累计频率分布图(cumulativehistogram)可用于描述连续型变量的累计频率分布,其横轴为变量的组段,纵轴为各组段的累计频率(P25,图2-6)。lzhminlzhmin3)箱式图(boxplot)可用于描述定量变量的平均水平和变异程度,还可显示数据中的离群值(outlier)或极端值(extremecase)(P26,图2-7)。lzhmin4)线图(linegraph)用线段的升降来表示某变量随另一个变量的变化而变化的趋势。通常纵轴为统计指标,如频数或比率,横轴为时间或连续性变量(P51,图3-5)。lzhminlzhmin5)半对数线图(semi-logarithmiclinegraph)表示某事物发展的相对速度(相对比)。纵轴为对数尺度;横轴为算术尺度。也可把纵轴值转换成常用对数值表示(P53,图3-7)。lzhmin6)散点图(scatterdiagram)用点的位置表示两变量间的数量关系和变化趋势(P195,图10-1)。lzhmin7)直条图(barchart)用等宽直条的长短表示统计指标数值的大小。适用于相互独立,性质相似的各指标间比较。横轴为基线,表示分组因素,纵轴表示频数或频率,必须从零开始。单式条图各直条的间隔是半个或一个直条宽;复式直条图各组直条的间隔一般是一个直条图,同组直条间不留间隙,组内各直条的排列顺序要一致(P26,图2-8)。直条所表示的类别应有图例说明。lzhminlzhmin绘制统计图的基本要求1.按资料的性质和分析目的选用适当的图形。-资料是连续性的,目的是用线段升降表达事物的动态变化趋势,选择普通线图;若指标的最大值和最小值相差悬殊,可考虑选用半对数线图;-资料是连续性的,但分析的目的是用线段升降表达事物动态变化的速度,选择半对数线图;-数值变量的频数表资料,其分析目的是用直方的面积表达各组段的频数或频率分布情况,宜选择直方图;lzhmin-资料是相互独立的,目的是用直条的长短比较数值的大小,选用直条图;-双变量连续性资料,目的是用点的密集程度和趋势表达两个变量的相互关系,选用散点图;-地区性资料,目的是用不同的颜色或纹线表示某事物在地域上的分布情况,选择统计地图。lzhmin2.要有图号及标题,概括统计图的主要内容。标题一般位于图的下方,要简明扼要。3.有纵轴和横轴为坐标的图形,一般以第一象限为准做图,两轴的交点为起点,纵横两轴应有刻度、数量单位和标目。4.图的纵横两轴的比例以7:10为宜;5.在同一图内比较几个不同的事物时,须用不同的图案或颜色表示,并附图例说明。lzhmin例2-1:某地进行冠心病危险因素研究时,调查了居民的心理得分值与其它冠心病的相关因素,结果如下表。表2-1不同心理分值的冠心病危险因素水平比较危险因素心理分值p值1(252人)2(253人)3(252人)4(253人)×±S%×±S%×±S%×±S%年龄(岁)35.2±6.537.0±6.336.5±6.837.8±6.50.05收缩压(mmHg)120.7±13.4121.2±13.2121.1±13.2120.4±12.80.5舒张压(mmHg)78.86±10.277.91±10.578.2±1178.4±10.60.39体力活动2.1±0.22.1±0.12.1±0.22.3±0.30.08体重指数23.1±3.224±3.524.8±3.125.8±3.10.01吸烟率(%)70.869.470.771.10.41吸烟量8±110±215±215±20.001饮酒率(%)52.355.553.152.80.13饮酒量60.1±7.578.2±8.579.3±

1 / 52
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功