11第二章资料的描述性统计分析异常数据的判断和处理资料的分类数据的频数(频率)分布数据的汇总(统计表、统计图)集中趋势的度量离散趋势的度量122.1异常数据的判断和处理异常数据:指数据中的极端值,其数值明显偏离它(或他们)所属样本的其余观测值。存在两种可能:1变量内在随机变异性的极端表现—正常2试验或数据记录过程出现错误或试验条件异常所致异常对其舍弃或修所致—异常(对其舍弃或修正)如何判断:检查数据采集过程。检查发生该数据的个体。统计学方法检验:四分位数检验,格拉布斯检验。3四分位数检验将所有数据大小排序,找到其中上四分位数UQ和下四分位数LQ,计算他们差值IQR=UQ-LQ(中四分位范围),所有大于UQ+1.5IQR或小于LQ-1.5IQR的数据都可判定为异常数据。例:12345678根据定义:UQ=7;LQ=3;IQR=7-3=4;UQ+1.5IQR=7+6=13;LQ-1.5IQR=3-6=-3所以:该组数据中未有异常数据第25百分位数又称下四分位数(FirstQuartile),第50百分位数又称中位数,第75百分位数又称上四分位数。分位数:一组n个数据从小到大排序,如果小于某数值的数据个数为全体数据个数的x%,则称为第x百分位数,或x%分位数。4格拉布斯(Grubbs)检验用于来自正态总体样本的异常值检验。对于样本中某个极端值Xi,计算T值。将其与表2.1中临界值比较,如果T值大于表中临界值,就判定该极端值为异常值。当判定该值为异常值后,剔除该值,再对下一个极端值进行检验,直到没有异常值为止。例:12345678X=4.5,S=2.45Xi=1时T=1.43,样本容量n=8,查表T0.05=2.13T同理Xi=8时T=1.43,查表T0.05T所以:该组数据中未有异常数据iXXTS、连续性资料指用量测手段得到的数量性状资料,即用度、量、衡等计量工具直接测定的数量性状资料。2、离散性资料指用计数方式得到的数量性状资料。计数资料、分类资料(公称尺度、等级尺度)62.2资料的分类17频率分布反映一组数据中不同观测出现频率。对数据的分布特征和趋势一目了然。2.3.1离散性资料的频率分布计数资料和分类资料的频率分布指每个自然值或属于不同类别的观测值出现的次数(频数)和所占的比例。见教材P10表2-2和表2-3。2.3数据的频数(频率)分布2-322-2192.3.2连续性资料的频率分布首先,将资料进行分组然后,将观测值分别纳入相应的组内最后,计算各组中观测值的频数和频率110一、数据分组1.求全距:变数的最大值与最小值之差2.确定组数:取决于样本含量,表2.53.确定组距:每组的最大值与最小值之差组距=全距/组数组距为整数(计算得到的小数化为整数),各组的组距相同,用i表示.1114.求组中值和组限组限:每组的两个极限值组下限:最小值组上限:最大值组中值:(组上限+组下限)/2组下限=组中值-0.5X组距一般是首先确定第一组的组中值,然后根据加上组距得到第二组的组中值,依次类推……112第一组的组中值一般接近或等于资料中的最小值,这样可以避免资料中的最小值被排除在外。为避免上一组的组上限与下一组的组下限相等时,使得其分组时的归属问题,通常采用将该数值向后靠的原则,即上一组的组上限稍小于下一组的组下限。或采用开口式分组,即每组无确定的组上限。以课本表2.4为例详细说明。113根据组限,将资料中的数据分别分配到各组中,然后计算各组的频数和频率。从而很容易地了解资料的特点。小结:计算频率分组组限全距组数组距二、计算频率分布2-41151.求全距:R=19.3-8.5=10.8kg。2.确定组数:n=200,由表2-5,初步确定为12组。3.确定组距:组距(i)=全距/组数i=10.8/12≈1.0。4.求组中值和组限组中值=(组下限+组上限)/2=组下限+1/2组距=组上限-1/2组距5、归组划线计数,作次数分布表一、数据分组1162-52-61172.4数据的汇总(统计表、统计图)统计表:信息量大、精确的数值。不仅反映资料的特征和趋势,还可以提供更详细的信息。统计图:形象、生动、直观主要反映资料的主要特征和趋势经常需要统计表结合统计图来说明问题;根据研究目的灵活应用;统计表应用更多、更常见。118统计资料的基本表现形式,也是最常见的形式。使得数据具有条理性、清晰易懂、便于比较和分析。形式:标题、纵列标题、横列标题、表体类型:简单表(一组横标目和一组列标目)复合表(多组横标目和一组列标目、一组横标目和多组列标目、多组横标目和多组列标目)一、统计表119•简单表•复合表表新旧两药物治疗某种疾病的222三维列联表病情(Z)药物(X)治疗结果(Y)不严重严重治愈98986新药未愈59125治愈525149旧药未愈58201051表两组新生儿HBV感染率的比较组别阳性阴性合计感染率(%)预防注射组4182218.18非预防组561145.45合计9243327.27120利用点、线、面、体形象、直观地表示统计资料的基本特征和变化趋势。(长条图、圆图、线图、直方图、和折线图)二、统计图1211、条形图(Barchart):用直条反映分类资料和离散性资料的频率分布。222、直方图(Histogram):用于描述数量性状变量的频率分布特征。3、圆图(pieChart):反映种类不多的分类资料的频率分布。1244.折线图表示数据的动态变化趋势12522.533.544.5510152025雌三醇含量(mg/24h)初生儿体重(kg)5.散点图:反应数据间的相对关系在数理统计中,平均数是用来反映一组变数的集中趋势,即变数分布的中心位置。常用的度量指标有:1.算术平均数2.中位数(M)4.几何平均数(Mg)3.众数(Mo)5.调和平均数(H)2.6集中趋势的度量作为一个资料的代表,指资料中各变数集中较多的中心位置,用来与另一资料相比较。不同的平均数适合于不同的数据资料。例如:不同国家、地区、种族之间身高、体重等的比较;不同品种的家畜、家禽之间生产性能的比较集中趋势的度量平均数的意义1算术平均数一、定义一组资料中,所有观测值的总和除以其个数所得到的商,称为算术平均数,简称平均数或均数。是最常用的一种集中趋势度量指标。样本的平均数记为总体平均数记为xxnnnxxixxx211:第i个观察值或变数n:观察值或变数的个数∑:求和符号(sigma)xi计算公式:Σ的性质1.分类资料:每个类别在某个指标上取相同的值。2.计数资料和连续性资料:频率分布表加权法,即计算时先将各个变数乘上它的权数,再经过总和,然后除以权数的总合,称为加权平均数。二、加权法计算一、直接法计算fxfiiixxi=变数值fi=变数值xi出现的频数“权”计算公式:二、加权法(一)离均差之和为零:一个样本观察值与平均数之差简称离均差。∑(xi-)=(x1-)+(x2-)+……+(xn-)=x1+x2+……+xn-n•=∑xi-n‧∑xi/n=0xxxxx三、算术平均数的性质(二)离均差平方和最小:一个样本的各个观察值与平均数之差的平方和比各个观察值与任意其他数之差的平方和小。Axxxii22所以:平均数是与各个观察值最接近的数值。平均数代表这个样本的集中趋势。定义:n个非负数的乘积开n次方的根称为几何平均数,用G表示。ninnXXXXG212几何平均数为了计算方便,各变数先取对数,再相加除以n,即为logG,再求其反对数,即为G值。nnXXXGGlglglglg)(lglg21111几何平均数用于以百分率、比例表示的数据资料,如:增长率、利率、药物效价、抗体滴度等。能够消弱数据中个别过分偏大值的影响。定义:各观察值倒数的算术平均数的倒数inXnxxxnH111111215调和平均数适用于极端右偏态例:用某药物救治12只中毒的小鼠,它们的存活天数记录如下:8、8、8、10、10、7、13、10、9、14,另有两只一直未死亡,求平均存活天数。14.11)/1/19/18/18/1(/12H由于数据极端右偏态,用调和平均数较为合理。定义:将n个观察值从小到大依次排队,位于中间的那个观察值称为中位数。4中位数(Md):观察值个数为偶数时,当为奇数时,当nXXMnXMnnndnd212221对于频数分布的资料,公式如下:)2(CnfiLMmmddLmd:中位数所在组的组下限;fm:中位数所在组的频数;C:从第一组到中位数所在组前一组的累计频数n:样本含量;i:组距;定义:在资料中某一个变数出现次数最多,就称之为众数。1.离散性资料:出现频数最多的数。2.连续性资料:频数分布表中,频数出现最多的一组的组中值。!!有的资料可出现多个众数,即多个数具有相同的最高频数;有的资料没有众数,即所有数出现的频数都相同。5众数各个集中趋势度量指标之间的关系在完全对称分布情况下,算数平均数、中位数和众数三者相等。在微偏态分布中,众数与中位数及算术平均数三者之间存在以下关系:0d32MMX-一组数据中的几何平均数、算术平均数、调和平均数之间存在HGX143评价:①必须有严格的定义及算法②计算过程中应利用全部观察值③简单明了,容易领悟,容易计算④受抽样变动影响不大,即抽样误差小⑤适用于代数方法处理能最好的满足上述标准。1、算术平均数但是当分布不对称时,呈偏态时,用算术平均数则难以表示资料的集中趋势。偏态:是指大部分的数值落在平均数的哪一边,若分配较多的在低值的方面,视为正偏态,也称右偏态满足条件②③适用于非参数检验,如卡方检验。4、几何平均数和调和平均数满足条件①②⑤,适用于右偏态分布。2、中位数3、众数满足条件③,日常生活中经常用到平均数的代表程度与样本的变异程度有关一个样本内有很多的变数,用平均数作为样本的代表,其代表程度决定于样本内各个变数的变异程度。2.7离散趋势的度量即使两个样本的平均数相同,但是样本内变数的变异程度不一定相同。产仔数总和甲8,4,16,12,22,17,6,14,6,511011乙14,8,11,9,11,12,10,14,13,811011xi1.如果各个变数相同或者变异程度比较小,则平均数能够代表整个样本。2.如果各个变数的变异程度比较大,则平均数的代表性就小。因此,单靠平均数不能全面、正确地了解样本。也不能了解平均数作为样本的变异程度。如果一个样本有n个观察值x1,x2……xn,设其算术平均数为,则该样本的标准差为:x12nxxsi标准差考虑了每个变数与平均数的离差。每个变数与平均数相差愈小,样本变异程度愈小,反之,愈大。因此,标准差是离散程度的度量1标准差的定义1.离均差=(x-)2.离均差之和=∑(x-)=03.离均差平方和SS=∑(x-)2xx为了合理地计算平均差异,用平方和的办法来消除离均差的正负号,离均差平方相加,得到平方和(SS),但是由于不同样本的观察值个数不同,所以离均差平方和也不是理想指标x虽然离均差可以衡量变异程度,但是离均差之和为0,所以不是理想的指标2标准差公式的来源3样本方差和样本标准差122nxxs将离均差平方和求平均数,称为样本方差,目的是消除观察值个数的影响12nxxs样本方差开方,目的是使变异还原,即标准差。nx22nx2总体是未知的,用样本标准差估计和推断总体标准差4总体方差和样本标准差如果一个样本含有n个变数,从理论上讲,n个变数都同样用以计算标准差,n个变数与平均数相减有n个离均差。表面上虽有n个比较,但实质上仅有n-1个可以自由变动,最后一个离均差受到离均差之和这个条件的限制,所以不能自由。自由度:df,n-1122nxxs例如:有3个变数,平均数等于5。问着三个变数可能是多