第一节统计学概述一、统计学的意义二、统计学中的几个基本概念三、统计资料的类型四、统计工作的基本步骤第二节统计表和统计图一、统计表二、统计图第三节数值变量资料的统计分析一、数值变量资料的统计描述二、数值变量资料的统计推断第四节分类变量资料的统计分析一、分类变量资料的统计描述二、分类变量资料的统计推断学习目标1.掌握:总体、样本等统计学基本概念;统计资料的类型;统计表及统计图的制作;数值变量资料和分类变量资料统计描述的指标、计算及适用条件;数值变量资料和分类变量资料区间估计的方法,常用的假设检验方法及应用条件。2.熟悉:医学统计工作的基本步骤;频数表的编制方法;正态分布曲线下的面积分布规律及参考值范围的制订。3.了解:t分布的特征;统计中两型错误。重点:总体和样本的概念;统计资料的类型;统计表及统计图的制作要求;数值变量资料和分类变量资料统计描述的指标、计算及适用条件;抽样误差与标准误;数值变量资料和分类变量资料区间估计的方法;常用假设检验方法及应用条件。难点:抽样误差与标准误;t分布与t界值;假设检验的基本思想;P值的含义;假设检验中的两型错误;分布与检验。222第十章第一节丁可南阳医学高等专科学校第一节统计学概述统计学(statistics)是研究数据的收集、整理、分析的一门科学,是认识社会和自然现象客观规律数量特征的重要工具。统计学方法就是帮助人们透过偶然现象认识其内在的规律性,揭示疾病或现象发生、发展规律,为预防疾病、促进健康提供客观依据。第十章第一节(一)同质与变异同质(homogeneity)是指被研究指标的影响因素相同变异(variable)是同质基础上的各观察单位(亦称为个体)之间的差异第十章第一节(二)总体与样本总体(population)是指根据研究目的确定的同质观察单位的全体样本(sample)从总体中随机抽取的部分观察单位,其测量值(或变量值)的集合第十章第一节(三)变量与变量值总体(population)是指根据研究目的确定的同质观察单位的全体样本(sample)从总体中随机抽取的部分观察单位,其测量值(或变量值)的集合第十章第一节(四)参数与统计量参数(parameter)是指总体的统计指标。习惯上用希腊字母表示总体参数统计量(statistic)是指样本的统计指标。习惯上用拉丁字母表示统计量第十章第一节(五)误差1.系统误差(systematicerror):测量结果又倾向性。查明原因,可以避免。2.随机测量误差(randomerrorofmeasurement):测量结果没有倾向性。不可避免。3.抽样误差(samplingerror):由于随机抽样所引起的样本统计量与总体参数之间的差异以及各样本统计量之间的差异称为抽样误差。变异是绝对的,抽样误差不可避免。第十章第一节(六)概率概率(probability)是描述某随机事件发生可能性大小的量值,常用符号P表示。随机事件的概率在0~1之间,即0≤P≤1。小概率事件:P≤0.05或P≤0.01的事件。统计学上,认为小概率事件在一次抽样中几乎不可能发生。第十章第一节(一)数值变量资料数值变量资料(measurementdata)亦称定量资料(quantitativedata)或计量资料(numericalvariabledata)(二)分类变量资料分类变量资料(categoricalvariabledata)又称定性资料(qualitativedata)1.无序分类(unorderedcategories)2.有序分类(orderedcategories)第十章第一节资料类型的划分是根据研究目的确定的,而统计分析方法的选用,则与资料类型密切相关。在资料的分析过程中,根据有关专业理论和实际需要,各类资料间可以互相转化,以满足不同统计分析方法的要求。第十章第一节(一)统计设计:第一步,最关键的环节(二)收集资料:经常性资料和一时性资料(三)整理资料:查漏补缺,系统化、条理化(四)分析资料1.统计描述2.统计推断第十章第一节第十章第二节丁可南阳医学高等专科学校(一)统计表的结构和制表要求1.统计表主要有标题、标目(包括横标目、纵标目)、线条、数字和备注五部分构成。2.编制统计表主要的要求是表的中心内容要突出,一张表表达一个中心问题为宜。第十章第二节第十章第二节统计表的基本框架:表序标题横标目名称纵标目名称横标目数字合计(一)统计表的种类1.简单表第十章第二节简单表:指被研究对象只按单一特征或标志分组的表格。表10-1某地某年咽舒康治疗急性咽喉炎疗效比较组别例数有效数有效率(%)试验组1079386.9对照组1088477.8(一)统计表的种类2.复合表第十章第二节复合表:指被研究对象按两个(或两个以上)特征分组的表格。如表3-2,将被研究对象按年龄和性别两个特征结合起来分组,故称为组合表。表10-2某地某年不同年龄、性别的儿童青少年意外损伤情况男女年龄(岁)调查人数损伤人数损伤率(%)调查人数损伤人数损伤率(%)3.5~4476614.77424296.846.5~1215927.571239534.289.5~118012210.341070807.4812.5~121715012.331136665.8115.8~18.56226510.45582203.44合计468149510.5744512485.57(一)统计表的类型与选择1.资料是连续性的,其目的是用线段升降表达事物的动态变化趋势,选择普通线图;2.表示变量分布的频数表资料,其目的是用直方的面积表达各组段的频数或频率分布情况,宜选择直方图;3.资料是相互独立的,其目的是用直条的长短比较数值的大小,选择直条图;第十章第二节(一)统计表的类型与选择4.事物内部各部分的百分构成比资料,其目的是用面积大小表达各部分所占的比重大小,则应选择圆图;5.双变量连续性资料,其目的是用点的密集程度和趋势表达两个变量的相互关系,选择散点图;6.资料是连续性的,其目的是比较两组或多组资料的集中趋势和离散趋势,宜选择箱式图。第十章第二节(二)制图通则1.根据资料性质和分析目的正确选用适当的统计图。2.要有标题,简明扼要地说明统计图资料的时间、地点和主要内容,一般放在图下方。3.绘制有坐标轴的图形时,纵横两轴应有标目并注明单位。一般将两轴的相交点即原点初定为0。纵横轴比例一般以5∶7或7∶5为宜。4.在同一张图内比较不同事物时,须用不同线条或颜色来表示,并附图例加以说明。第十章第二节(三)常用统计图及其绘制方法1.直条图(bargraph)直条图是以等宽直条(柱)的长短来表示各指标数值的大小。适用于指标为各自独立的分类资料。第十章第二节第十章第二节举例说明:单式条图:图10-1三城市某种传染病发病比较丙乙甲发病率(‰)6050403020100553919第十章第二节复式条图:图10-2某地1989年与1990年男女婴儿死亡率比较女婴男婴死亡率(‰)30252015105089年90年28242120(三)常用统计图及其绘制方法2.构成图(constituentratiochart)它是以图形的面积大小表示事物内部各组成部分所占比重或比例。适用于按性质分类、能计算构成比的资料。构成图可分为圆形图和百分条图。第十章第二节第十章第二节临床治愈27.15显效44.34有效23.08无效5.43临床治愈显效有效无效图10-3复方猪胆囊治疗单纯型老年气管炎近期疗效比较第十章第二节27.1512.6444.3445.0623.0836.265.436.040%20%40%60%80%100%单纯型哮喘型临床治愈显效有效无效图10-4复方猪胆囊治疗老年性气管炎近期疗效比较(三)常用统计图及其绘制方法3.线图(linegraph):用线段的升降来表示某事物(某现象)随时间或条件而变化的趋势。适用于连续性资料。第十章第二节第十章第二节图10-5某地1968-1974年结核病死亡率0204060801001968196919701971197219731974年份死亡率(1/10万)男女(三)常用统计图及其绘制方法4.直方图(histogram)直方图又称频数分布图,是以各矩形的面积表示各组段的频数,各矩形面积的总和为总频数,适用于表示连续性资料的频数分布。第十章第二节第十章第二节0510152025308084889296100104身高(cm)图10-6某市某年150名3岁女孩身高频数分布(三)常用统计图及其绘制方法5.散点图(scatterdiagram)散点图是用点的密集程度和变化趋势来表示两种现象间的相关关系。适用于双变量资料,均具有连续性变化的特征。第十章第二节第十章第二节图10-715名8岁男孩身高与坐高散点图6062646668707274115120125130135身高(cm)坐高(cm)(三)常用统计图及其绘制方法6.箱式图(boxplot)用于比较两组或多组资料的集中趋势和离散趋势,箱式图的中间横线表示中位数,箱子的长度表示四分位数间距,两端分别是P75和P25,箱式图最外面两端连线表示最大值和最小值。第十章第二节第十章第二节图10-8抑肿瘤药不同剂量与对照组用药后小白鼠肿瘤重量的比较第三节数值变量资料的统计分析刘琥济宁医学院求出极差确定组段数确定组距列出各个组段确定每一组段频数选极差即最大值与最小值之差一般8-15之间组距=R/组段数,但一般取一方便计算的数字第一组段包括极小值,最后一组段包括极大值,除最后一组段可同时标出上下限,其他组段只标出下限。根据变量值大小把各观察单位归入各个组段1.频数表的编制编制频数表步骤流程图(一)频数分布(1)揭示数值变量频数分布的类型和特征(2)作为陈述资料的形式(3)便于发现一些特大或特小的可疑值(4)便于进一步的统计分析3.数值变量资料频数分布的类型和特征431.算术均数(mean)样本均数:总体均数:(1)应用:对称分布资料,尤其是正态分布资料。(2)计算直接法加权法xnxnxxxxxn321ffxx(二)集中趋势指标442.几何均数(geometricmean):(1)应用:等比数列资料;对数正态分布资料(2)计算:直接法加权法nxlglgG1nxlgflgG1453.中位数(median)(1)概念:将一组观察值从小到大按顺序排列,位次具中的观察值就是中位数。(2)应用:偏态分布;分布一端或两端无确定数据;资料的分布情况不清楚。(3)计算:直接法频数表法离散趋势即个体值之间的变异程度,数据越分散,变异程度越高。极差四分位数间距方差标准差变异系数46(三)离散趋势指标471.全距(R)全距也称极差,是一组观察值中最大值与最小值之差。反映个体变异的范围。全距大,说明离散程度大;反之,说明离散程度小。缺点:(1)除了最大值和最小值外,不能反映组内其他数据的离散程度。(2)样本含量悬殊时不宜比较其全距。(3)即使样本含量不变,全距的抽样误差亦较大,即不够稳定。482.四分位数间距(Q)上四分位数(P75)与下四分位数(P25)之差Q=P75-P25四分位数间距可看成中间一半变量值的全距。它与全距类似,数值越大,说明变异程度越大;反之,说明变异度越小。用四分位数间距作为说明个体差异的指标,比全距稳定,但仍然未考虑到每个观察值的离散程度。应用:与中位数结合用于说明偏态分布资料的特征。493.方差全面地考虑每个变量值的离散程度。离均差:总和为零离均差平方和:除了与变异度有关外,还与变量值的个数有关。取其均数,即为方差。504.标准差(standarddeviation)总体方差开平方,就是总体标准差。标准差越大,说明个体的变异就越大,则平均数的代表性就越差。计算:直接法:加权法:122nn/xxs122nn/fxfxs51标准差的应用(1)用于描述正态分布数值变量资料的离散程度。(2)结合均数描述正态分布的特征,估计参