卫生统计学知识点汇总

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

1第一讲绪论总体:是研究目的所确定的所有同质个体某指标实际值的集合;或说,总体是根据研究目的确定的所有同质观察对象的全体。样本:根据随机化的原则从总体中抽取有代表性的部分观察单位,其变量实测值构成样本。样本含量:样本所包含个体或个体值的个数。抽样(Sampling):从总体中抽取有代表性的一部分样本的过程,称为抽样。抽样研究:从确定的同质总体中随机抽取部分样本进行观察,用样本信息来推断总体特征,该研究方法叫抽样研究。统计推断:样本的现象推断所研究总体的特征。即分析样本数据,获得关于总体的知识。同质(homogeneity):指研究对象在一定范畴的各种可能影响主要观察指标的其它因素处于相同或非常相似的情况,即把具有相同性质的观察单位简称为同质的(homogeneous),否则称为异质的(heterogeneous)。变异(variation):同质基础上的各观察单位间的差异参数:根据总体变量值统计计算出来,描述总体特征的统计指标。统计量:根据样本个体值统计计算出来,描述特征的统计指标。变量:变异性表现为取值上的大小就是变量。通常把观察单位的观察指标称为变量。如身高、体重等变量值:观察单位的观察值叫变量值,如身高118cm,体重26kg等。误差:为观察值(X)与实际值(μ)之差。抽样误差(samplingerror):由抽样造成的样本统计量和总体参数的差别、以及样本统计量之间的差别称为抽样误差。随机事件(Radomevent):随机试验中可能出现的各种结果,叫随机事件。即在一定条件下具有多种可能发生的结果,而究竟发生那一个结果不能肯定,又称偶然事件。概率(Probability):描述随机事件发生的可能性大小的一种度量,常用P表示。小概率事件:当随机事件A的概率P(A)≤,习惯上,当=0.05时,就称A为小概率事件;其统计学意义是小概率事件在一次随机试验中不可能发生。频率(Frequency):在n次试验中,若事件A发生的次数为m,则:m称为事件A在n次试验中的频数,fn(A)称为事件A在n次试验中发生的频率。统计描述:用统计指标、统计表、统计图等方法,对样本资料的数量特征及其分布规律进行描述统计推断:指用样本信息推断总体特征,包括参数估计和假设检验。第二讲:数值变量的统计描述一、频数表与频数分布图(一)基本概念:频数(frequency):指在一个抽样资料中,某变量值出现的次数。频数分布表(frequencydistributiontable):将各数值变量的值及其相应的频数列表,简称频数表。频率是表示频数出现机率的指标,可用百分数或小数表示,频率为100%或1。频数分布图(frequencydistributionfigure):根据频数分布表,以变量值为横坐标,频数为纵坐标,绘制的直方图。nmAAfn试验的总次数发生的次数事件)(2(二)连续型变量频数表的编制方法:⒈求全距(Range,简记R):是一组资料中最大值(Xmax)与最小值(Xmin)之差,亦称极差。2.定组距:将全距分为若干段,称为组段。组与组之间的距离,称为组距;用小写i表示。原则:(1)“组段”数一般为10-15个;(2)“组距”一般为R/10取整;(3)为计算方便根据组距采取取整数方法3.写组段:即将全距分为若干段的过程。原则:(1)第一组段要包括Xmin,最末组段包括Xmax;(2)每组段均用下限值加“~”表示,最终组段同时注明上下限。4.列表划记:根据预定的组段和组距,用划记的方法整理原始资料。(三)频数表的用途:1.揭示频数的分布特征:集中趋势与离散趋势结合能全面反映频数的分布特征2.揭示频数的分布类型对称分布:集中部位在中部,两端渐少,左右两侧的基本对称,为对称(正态)分布。正偏:集中部位偏于较小值一侧(左侧),较大值方向渐减少,为正偏态分布。负偏:集中部位偏于较大值一侧(右侧),较小值方向渐减少,为负偏态分布。3.便于发现某些特大或特小的可疑值。4.样本含量足够大时,以频率作为概率的估计值。5.作为陈述资料的形式。二、集中趋势的指标集中趋势:用于描述一组计量资料的集中位置,说明这种变量值大小的平均水平,常用平均数(average)表示。注意:1.同质的事物或现象才能求平均数2.应根据资料分布状态选用适当的均数。算术均数:单峰对称分布包括几何均数:对数正态分布中位数、百分位数:偏态分布(一)算术平均数(arithmeticmean)●使用条件:数据分布比较均匀呈正态分布或近似正态分布。●样本均数用符号:X表示●总体均数用符号:μ表示●计算方法有两种:直接法(小样本)和加权法(大样本)(1)直接法:举例:某地10名18岁健康男大学生身高为(cm):168.7,178.4,170.0,170.4,172.1,167.6,172.4,170.7,177.3,169.7求平均身高?适用范围:小样本资料,n30方法:将观察值X1、X2、X3、……、Xn直接相加,再除以观察值的个数n。公式:10X)(171.7cm7169.4178.168.7nXnXXXXnin1213(2)加权法:适用范围:大样本含量的分组资料或频数表资料。方法:计算各组段的组中值Xi与其频数fi的乘积和Σfx,然后除以总频数Σf。公式:举例:用加权法计算某市8岁男童身高平均数(表3.1)①计算各组段的组中值xi、fxi和Σfx第1组段:②用加权法计算该组身高值的均值(二)几何均数(geometricmean,G)●概念:对一组观察值,先进行对数变换,按算术均数计算方法求其对数值的均数,该均数的反对数值即几何均数(G)。●使用条件:用于原始数据分布呈偏态分布,等比资料(倍数变化)或对数正态分布资料的平均数的计算。●表示符号:G●计算方法:直接法和加权法(1)直接法:适用范围:小样本资料方法:将n个观察值(X1,X2,3,……Xn)直接相乘再开n次方。公式:用对数形式表示为:117.5121191162上限下限xnfXfffXfXfXfXkkk212211)(05.13010013055.0cmnfXXnnXXXG21)lg(lg)lg...lglg(lg1211nXnXXXGn4举例:设有5份血清样品,滴度分别为:1:1,1:10,1:100,1:1000,1:10000求其平均滴度。或G=lg-1((lg1+lg10+lg100+lg1000+lg10000)/5)=lg-1((0+1+2+3+4)/5)=lg-12=100即:平均滴度为1:100;较好地代表了观察值的平均水平。(2)加权法:适用范围:大样本含量的分组资料或频数表资料。公式:举例:有95名麻疹易感儿童,接种麻疹疫苗一个月后,血凝抑制抗体滴度见下表,试求平均滴度(例3.3)。G=lg-1(ΣflgX/Σf)=lg-1(145.0948/95)=33.68即95名易感儿童接种疫苗一个月后,血凝抑制抗体的平均滴度为1:33.68。计算几何均数(G)注意事项:(1)观察值不能为0;(2)观察值不能同时有正有负;(3)同一组资料求得的几何均数小于算术均数。练习:1.有8份血清的抗体效价分别为:1:5,1:10,1:20,1:40,1:80,1:160,1:320,1:640求平均抗体效价。将各抗体效价的倒数代入公式:所以血清的抗体平均为1:56.571001000010001001015G=G=lg-1(ΣflgX/Σf)表3.495名儿童的血凝抑制抗体平均滴度计算(加权法)抗体滴度①滴度倒数②频数③lgX④f·lgX⑤=③×④1:4440.60212.40841:8890.90318.12791:1616161.204119.26561:3232341.505151.17341:6464181.806232.51161:12812882.107216.85761:25625652.408212.0410≥1:51251212.70932.7093合计95145.094857.56)752575.1(lg]8/)640lg10lg5[(lglg11G52.有50人的血清抗体效价,分别为:5人1:10,9人1:20,20人1:40,10人1:80,6人1:160求平均抗体效价。将各抗体效价的倒数代入公式:所以该50人的血清抗体效价为1:41.70(三)中位数(Median,M)●概念:把一组变量值从小到大排列,位于中间位置的变量值叫中位数,用M表示。●使用条件:当一组资料类型分布不清或明显偏态分布时的平均数的计算。●表示符号:M●计算方法:直接法和加权法百分位数(Percentile,P)●概念:为一种位置指标,表示位于全部观察值第X%位置处的数值。一个PX将总体或样本的全部观察值分为两部分,理论上有X%的观察值比它小,(100-X)%的观察值比它大,P50分位数即是中位数。●表示符号:Px●计算方法:频数表计算(1)直接法由原始数据计算中位数:当n为奇数时:(2)用频数表计算中位数和百分位数步骤:按所分组段,由小到大计算累计频数和累计频率代入公式计算中位数及其它百分位数中位数计算公式百分位数计算公式注:fm、fx为所在组的频数,i为该组段的组距,L为其下限,∑fL为小于L的各组段的累积频数。(mm)2/LfnfiLP)%(LxxfnxfiLP70.4162012.1lg6102095160lg680lg1040lg2020lg910lg5lg11G)21(nXM6例:求164例沙门菌食物中毒病人潜伏期的中位数和百分位数P5、P95潜伏期(h)①频数f②累积频数③累计频率(%)④0~212115.2412~587948.1724~4412375.0036~2314689.0248~1215896.3460~516399.3972~1164100.001.由表第(4)、(1)栏可见,M(P50)在24~组段,所以L=24、i=12、fx=44、ΣfL=79。2.把L=24、i=12、fx=44、ΣfL=79代入公式,求M。3.同样方法,可求P5、P95。P5=0+(164×5%-0)=4.7(h)P95=48+(164×95%-146)=57.8(h)应用:1.中位数:常用于描述偏态分布资料的集中位置,反映位置居中的观察值的水平,它和均数、几何均数不同,不是由全部观察值的数量值综合计算出来的,只受居中变量值的影响,不受两端特大值和特小值的影响。因此,当分布的一端或两端无确定数值或资料的分布不清可以求中位数。2.百分位数:A.用于描述数据某一百分位的位置,最常用的是P50,即中位数;也可用多个百分位数的结合来描述一组资料的分布特征,如用P25和P75合用时,反映中间50%观察值的分布情况。B.用于确定参考值范围:WBC的95%参考值范围:P2.5~P97.5过高过低均异常肺活量95%参考值范围:P5过低异常尿铅95%参考值范围:P95过高异常C.用一组PX可较全面地描述总体或样本的分布特征。三、离散趋势的指标离散趋势:用于描述一组数值变量观察值之间参差不齐的程度,即变异程度。极差(Range,R)四分位数间距(Quartile,Q)M(P50)=24+(164/2-79)=24.8(h)12447包括方差(Variance,)标准差(Standarddeviation,S2)变异系数(Coefficientofvariation,CV)(一)极差(Range,简称R)●计算:R=最大值-最小值=Xmax-Xmin●意义:反映样本变量值的全范围。●条件:对变量值的各种分布类型的资料都适用。●优点:简单明了,容易理解,使用方便。●缺点:仅考虑了极大值和极小值,未考虑其它变量的个体差异。●建议:与其他离散指标共同使用。极差的缺点:1.R只考虑最大值和最小值之差,不能反映组内其它观察值的变异度。2.样本例数

1 / 106
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功