1计量资料统计描述统计推断计数资料统计描述统计推断等级资料统计描述统计推断2第二章计量资料的统计描述统计描述(statisticaldescription)是指采用统计图、统计表、统计指标等形式来对资料的数量特征和分布规律作出测定和描述的一种方法。统计描述是统计分析的最基本内容统计描述的三种形式:统计表统计图统计指标3举例说明计量资料频数表的编制过程例2-2、某市2005年100名18岁女孩身高(cm)资料如下:165.1169.6163.0166.5160.9156.6169.3165.9162.0165.3165.1164.0159.9171.2169.1168.0160.6157.1162.5165.8161.5166.3168.5167.1161.0159.0167.3157.2163.7163.1166.1167.5166.0158.5161.2167.5158.2154.7155.6168.2162.8163.6164.2161.8160.7173.6159.8158.0159.4158.2166.2166.1156.8166.6161.5162.0160.6164.3161.9167.2170.2160.4163.0163.5162.9167.4162.2162.7169.7159.9165.2169.0162.3164.6163.4170.6162.8163.1164.0161.2161.0161.3165.0160.4168.9165.0164.2165.2162.6164.5161.5162.6158.3165.1170.5166.8165.8164.5167.5162.84组段(1)频数(2)频率(%)(3)累计频数(4)累计频率(%)(5)154~22.0022.00156~44.0066.00158~1010.001616.00160~1616.003232.00162~2020.005252.00164~1919.007171.00166~1515.008686.00168~99.009595.00170~44.009999.00172~11.00100100.00合计100100.005编制步骤如下:1.求极差(R)也称为全距,是资料中最大值和最小值之差。本例:R=173.6-154.7=18.9(cm)2.确定组数原则:即简化资料又不影响反映资料的规律性,一般8-15组。本例:选择10组。63.确定组距组距为每组的上限与下限之差。实际中组距=R/(预计的组数)本例:组距=18.9/10=1.89调整为2注明:1)尽量取较整齐的数值最为组段的端点。2)组距以相等为宜。74.确定组段的上下限原则:(1)第一组包含最小的观察值,最后一组包含最大的观察值。(2)组和组之间不能互相包含。(3)x表示数据,则5.归组计数,做频数分布表。2.30~2.60~上限下限x求出极差确定组段数确定组距列出各个组段确定每一组段频数选极差即最大值与最小值之差一般8-15之间组距=R/组段数,但一般取一方便计算的数字第一组段包括极小值,最后一组段包括极大值,除最后一组段可同时标出上下限,其他组段只标出下限。根据变量值大小把各观察单位归入各个组段编制频数表步骤流程图9计量资料频数分布图100名18岁女孩身高的频数分布图0510152025155157159161163165167169171173身高(cm)频数10频数分布表的用途:揭示数值变量频数分布的类型和特征分布的类型分布特征作为大样本数据的陈述形式便于发现一些特大或特小的可疑值便于进一步的统计分析分布特征集中趋势:指频数表中频数分布表现为频数向某一位置集中的趋势离散趋势:指频数虽然向某一位置集中,但频数分布表现为各组段都有频数分布,而不是所有频数分布在集中位置的趋势。分布类型正态分布:各组段的频数以中间组段为中心,左右两侧基本对称偏态分布:各组段的频数不以中间组段为中心,而是一侧偏多或偏少计量资料频数分布的类型和特征12第二节描述集中趋势的指标集中趋势常用平均数(average)来描述。是一组数据典型或有代表性的值。趋向于落在根据数据大小排列的数据的中心,因此可以用于度量集中位置(位置指标)算术均数几何均数中位数13第二节描述集中趋势的指标算数均数(mean)简称均数适用条件:对称分布,尤其是正态分布或近似正态分布表示:总体均数用μ表示;样本均数用表示意义:描述一组同质资料的平均水平。计算方法:直接法间接法(频数表法)1、算术均数(arithmeticmean)(1)直接法nxxxnxXnnii211(2)加权法又称频数表法,适用于频数表资料。当观察例数较时用。kkkkiiikiifffxfxfxffxfX2122111115几何均数(geometricmean)适用条件:等比或等积资料对数正态分布资料表示:G计算方法:直接法加权法16几何均数(geometricmean)计算方法1.直接法:适用于样本量较小的计量资料。2.间接法:加权法,适用于样本量较大的计量资料,如频数表资料。例100名受试者接种某疫苗三周后,抗体测定结果如下表第(1)栏和第(2)栏,求平均抗体滴度。表100名受试者平均抗体滴度计算表抗体滴度频数f滴度倒数XlgXf·lgX(1)(2)(3)(4)(5)=(2)·(4)1:4640.60213.61261:81080.90319.03101:1616161.204119.26561:3234321.505151.17341:6420641.806236.12401:12881282.107216.85761:25652562.408212.04101:51215122.70932.7093合计100------150.814518中位数(median)概念:中位数是将一组观察值按大小顺序排列后,位次居中的观察值。适用条件:明显的偏态资料分布类型不明的资料一端或两端无界的资料表示:M计算方法19直接法:适用于样本量较小的计量资料。9例正常人的发汞值(mol/kg):1.1,1.83.54.24.85.65.97.110.510例正常人的发汞值:1.1,1.83.54.24.85.65.97.110.516.320频数表法:适用于样本量较大的计量资料,如频数表资料。其中LM:M所在组下限i:M所在组组距fM:M所在组频数n:样本例数ΣfL:M所在组段之前的累计频数21组段(1)频数(2)累计频数(3)累计频率(4)124~110.83128~232.50132~101310.83136~223529.17140~377260.00144~269881.67148~1511394.17152~411797.50156~211999.17160~1120100.00合计12022附注:百分位数(percentile)符号:性质:一种位置指标。意义:一个百分位数将全部变量值分为两部分,使得全部变量值中有的变量值比它小,1-变量值比它大。%X%X23(100)%XXP百分位数示意图24(%)XXXLXiPLnXff所在组段的下限xxPL所在组段的组距xxPi该组段之前的累计频数Lf所在组段的频数xxPf总例数n25百分位数例利用上表,求P50,P25,P75)(94.14235%5012037414050cmP)(09.13913%2512022413625cmP)(78.14672%7012026414475cmP26平均数应用的注意事项同质的资料计算平均数才有意义根据资料分布的特征选用适当的平均数–均数:单峰对称分布的资料–几何均数:等比资料、滴度资料、正偏态资料–中位数:理论上可用于任何分布资料,但当资料适合计算均数或几何均数时,不宜用中位数。(偏态分布、分布不明资料、有不确定值的资料)27平均数应用的注意事项计算几何均数时:–变量值中不能有0–同一组变量值不能同时存在正、负值–若变量值全为负值,可先将负号除去,算出结果后再冠以负号样本含量较少时不宜计算靠近两端的百分位数平均数要与变异指标结合使用28看一个例子:有甲、乙两组同性别同年龄儿童体重(kg):甲组26,28,30,32,34=30kgn甲=5乙组24,27,30,33,36=30kgn乙=5丙组26,29,30,31,34=30kgn乙=5甲X乙X第三节描述离散趋势的指标丙X2930例如,某零件的真实长度为a,现用甲、乙两台仪器各测量10次,将测量结果X用坐标上的点表示如图:若让你就上述结果评价一下两台仪器的优劣,你认为哪台仪器好一些呢?a乙仪器测量结果a甲仪器测量结果较好测量结果的均值都是a因为乙仪器的测量结果集中在均值附近31极差四分位间距方差标准差变异系数描述离散趋势的统计指标321、极差range符号:R计算:R=最大值-最小值R反映的是观察值变异的范围大小。适用条件:任何资料缺点:易受特大、特小值影响,不稳定;除最大、最小值,不能反映其他数据的变异度;样本量越大极差就会越大。优点:简单明了332、四分位数间距quantilerange符号:Q(中间一半观察值的极差)计算:Q=P75-P25下四分位数:上四分位数:Q越大说明数据间的变异越大。适用条件:可用于任何资料,主要用于偏态资料特点:比极差要稳定25LQP75UQP343.方差variance考虑了每个观察值的离散程度符号:σ2——总体方差S2——样本方差计算:方差越大,观察值的变异就越大。适用条件:对称分布、正态分布特点:它反映的是所有观察值的变异情况Nx22)(122nxxS)(35几个符号•离均差•离均差平方和SS•自由度:•方差S2=SS/364.标准差standarddeviation符号:σ—总体标准差S—样本标准差计算:意义:标准差越大,观察值的变异就越大,数据越分散,均数的代表性越差;反之,资料越集中,均数的代表性越好。适用条件:对称分布、正态分布资料Nx2)(12nxxS)(37标准差的基本内容是“离均差”,它显示一组变量值与其均数的间距,故标准差直接地、总结地、平均地描述了数据变异的大小。38实用计算公式:频数表资料:22()1XXnSn22()1fXfXfSf39例利用下表中的数据和频数表法计算标准差。脉搏组段组中值(Xi)频数,ifiifX2iifX(1)(2)(3)(4)(5)56~57.52115.06612.559~60.55302.518301.362~63.512762.048387.065~66.515997.566333.868~69.5251737.5120756.371~72.5261885.0136662.574~75.5191434.5108304.877~78.5151177.592433.880~81.510815.066422.583~8584.5184.57140.3合计1309311.0671354.5N=∑f∑fX∑fX22671354.59311.0/1305.89()1301S次/分405.变异系数(coefficientofvariation)性质:描述相对离散程度符号:CV(没有单位)计算:适用条件:用于单位不同或单位相同,但均数相差较大的资料间变异程度的比较。%100xsCV41变异系数的两个特点及相应的用途没有单位–反映标准差占均数的百分比或标准差是均数的几倍–可用来比较度量衡单位不同的资料的变异度不受平均水平的影响–反映的是以均数为基数的相对变异的大小–比较均数相差悬殊的资料的变异度42某地20岁男子100人,身高均数为166.06cm,标准差为4.95cm;体重均数为53.7kg,标准差为4.96kg,试比较身高和体重的变异。•身高•体重%98.2%10006.16698.4