计量资料的统计描述随机变量和研究资料的类型计量资料等级资料计数资料计量资料计量资料(measurementdata,quantitativedata)是指每个观察单位某个变量用测量或其他定量方法观察结果,一般有计量单位。计量资料的各个观察值之间有量的区别,没有性质的不同。计数资料计数资料(countdata,qualitativedata,nominaldata),计数资料是按照事物的属性分组,然后清点各组的观察单位个数得到的资料。其变量值是定性的,表现为无不相容的类别或属性,定性变量的属性指标的分类是无序的。各观察单位之间一般没有量的区别,但有质的不同。等级资料等级资料(ordinaldata)是介于计量资料和计数资料之间的半定量观察结果,通常有两个以上的等级。等级资料也是先将观察单位按照某种属性或某个标志分组,然后清点各组观察单位的数目得来的,但是所分的各组之间有等级的顺序,各个类别之间存在着大小和程度上的差别,这一点不同于计数资料。连续型资料和离散型资料连续型资料(continuousdata)理论上在任何两个连续型数据之间都还有无穷多个数据;只要测量仪器足够精确,连续型数据可以精确到小数点后第无限位,比如体重,在60.1和60.2kg之间理论上存在着无限多个数据。离散型资料(discretedata)往往是一种计数,这种计数只能是0和正整数,不会是负数,也没有小数点;比如心率、脉搏、儿童龋齿个数、血小板数、某年某地交通事故死亡人数等,例2-1某地儿研所测得该地150名12岁健康男童体重(kg)原始数据如下,试编制频数表。25.234.934.338.141.327.833.837.728.433.547.334.830.536.251.038.043.840.937.536.633.447.436.441.436.542.533.729.339.637.539.633.232.129.943.733.835.137.832.438.528.236.523.435.834.127.642.623.137.144.035.644.546.535.031.836.436.247.938.720.537.129.238.241.136.243.532.836.331.830.638.539.628.733.735.142.920.135.426.542.039.638.735.451.231.434.125.329.638.243.733.824.529.245.932.523.536.827.234.034.744.441.235.342.634.130.031.440.827.348.635.829.745.641.833.028.333.335.140.638.237.625.537.337.541.538.444.243.231.540.234.537.437.833.432.233.432.432.836.845.741.240.936.547.935.739.342.235.330.127.21.找出最大值和最小值,计算极差。最大值为51.2kg,最小值为20.1kg,极差R=51.2-20.1=31.1kg。极差(R)也叫全距,它是一组变量值中最大值与最小值之差。2.按极差大小决定组段数、组段和组距。组距=极差/组数,常取整数作组距,取整只是为了方便资料的整理汇总。斯梯阶公式第一组段必须包括最小值,一般取略小于最小值的整数作为第一组的下限;最后一个组段应该包括最大值,并且封口,但最后一个组段的上限不能等于最大值。NRlg322.31H频数表的编制3.列表划记,统计各组段频数。4.计算频率与累计频率频数分布的两个特征体重虽有轻有重,但都向35~组段集中,数据大多数集中在32~38组段,共83人,占总人数的55%,这种趋势称为集中趋势。另一方面,随体重逐渐变大或变小,仍有小部分变量值存在,称这种特征为离散趋势。集中趋势和离散趋势是频数分布的两个重要特征。频数分布的类型频数分布分为对称分布和偏态分布两种类型。对称分布是指集中位置在正中,左右两侧频数分布大体对称,如表2-1所示。若将其绘制成频数分布直方图2.1,则更清楚。频数分布的类型偏态分布指集中位置偏向一侧,频数分布不对称。一些以儿童为主的传染病,患者的年龄分布,集中位置偏于年龄小的一侧,频数尾部向右侧延伸,称为右偏态、正偏态(峰)分布,如图2-2;一些慢性病患者的年龄分布,其集中位置偏向年龄大的一侧,频数尾部向左侧延伸,称为左偏态、负偏态(峰)分布,如图2-3。集中趋势指标平均数(average)用来描述一组变量的集中趋势、中心位置或平均水平,常作为一组资料的代表值,使资料产生简明概括的印象,又便于组间的比较。平均数的计算和应用必须具备同质基础。常用的平均数有均数、几何均数和中位数。均数(mean)均数是算术均数(arithmeticmean)的简称,它反映了一组观察值在数量上的平均水平。总体均数用希腊字母μ表示,样本均数用表示。均数的计算均数的计算方法有直接法和加权法,计算机运算中多采用直接法。x均数的应用用途:用来描述一组变量值的平均水平,具有代表性,因此变量值必须是同质的。应用条件:适用于呈对称分布的资料,特别是正态分布或者近似正态分布的资料,因为这时均数位于分布的中心,最能反映分布的集中趋势。几何均数(geometricmean,G)几何均数的计算直接法:是将n个观察值x1,x2,x3…xn的乘积开n次方所得的根。加权法:)lg(lg121nxxxxGnn)lg(lg1fxfG几何均数的应用用于对数正态分布资料,如:某些传染病的潜伏期、抗体滴度、细菌计数等。观察值不能为0。因为0不能取对数,也不能与任何其它数呈对数关系。可以把所有的变量值均加上一个较小的常数,如加1。观察值不能同时有正值和负值。若全是负值,计算是可把负号去掉,得出结果后再加上负号。中位数(M)和百分位数(P)中位数(median,M)是将一组观察值从小到大按顺序排列,位次居中的数值对应的观察值就是中位数。因而全部观察值中,大于和小于中位数的观察值的个数相等。百分位数(percentile,P)是指把一组资料的全部观测值分为两部分,理论上讲,有x%的观测值比Px小,有(100-x)%的观测值比Px大。中位数是特定的百分位数,即P50,它是表示一组资料集中位置的指标。直接法计算中位数将原始观察值按大小顺序排列:n为奇数时,n为偶数时,2/][)12()2()21(nnnxxMxM频数表法M=P50Lx:第x百分位数所在组段的下限;fx:第x百分位数所在组段的频数;ix:第x百分位数所在组段的组距;ΣfL:小于L各组段的累计频数。)%(LxxxxfxnfiLP中位数和百分位数的应用中位数不是由全部观察值的数量值综合计算出来的,只受居中变量值波动的影响,不受两端特小值和特大值的影响,仅仅反映了位次居中的观察值的水平,因此中位数常用于描述偏态分布或末端无确定数据时资料的集中位置。百分位数用于描述样本或总体观察值序列在某百分位置水平,多个百分位数结合应用时,可更全面地描述总体或样本的分布特征,可用来确定医学参考值范围。离散趋势指标极差R四分位数间距QR离均差(x-μ)离均差总和(x)=0离均差绝对值和|x|离均差平方和(x)2均方(方差)σ2=(x)2/N标准差Nx2)(方差与标准差但是在实际工作中,总体方差往往是未知的,常用样本方差s2来估计。在公式中,用代替,用n代替N,这时计算的结果往往比总体方差σ2要小,所以分母用n-1来代替N,即公式变为:这时样本方差s2是总体方差σ2的无偏估计。N-1:自由度,常用ν或df表示,是指随机样本研究中,可独立地随机选择变动的观测值的个数。1)(1)(222nxxsnxxs,x标准差的应用标准差是反映数据变异程度的指标,其大小受每一个观察值的影响。常用于描述对称分布,尤其是正态分布或近似正态分布资料的离散程度。随着样本量增大,标准差逐渐趋于稳定。变异系数(CV)CV=s/×100%它是反映相对变异度的指标。变异系数常用于:测量单位不同的几组资料变异度的比较;均数相差悬殊的几组资料变异度的比较。x计算器功能简介MODE或D·R·G:模式转换DEG:degree角度RAD:radian弧度GRA:gradient梯度INV、SHIFT或2ndF:第二功能键SD或STAT:统计分析功能,n,Σx,Σx2,σn(σX,σ),σn-1(sX,s)。X、data或DT:数据储存Xi×fdataXiSHIFT,fdatax课堂练习P57案例(1)-(6)