1卫生统计学第一节概述1、主要内容:a、卫生统计学的基本原理和方法(研究设计和数据处理中的统计理论和方法)b、健康统计(医学人口统计、疾病统计和生长发育统计)c、卫生服务统计(卫生资源、医疗卫生服务的需求和利用、医疗保健制度和管理中的统计问题)。2、卫生统计工作的步骤:设计、资料的搜集、资料的整理、资料的分析3、医学统计资料主要四个方面:统计报表、报告卡(单)、日常医疗卫生工作记录,专题研究或实验。4、观察单位:是获得数据的最小单位,观察单位是根据研究目的确定的,观察单位可以是人、标本、家庭、国家等。5、变异:是指客观事物的多样性和不确定性。6、变量:观察单位的某种特征,称为变量。a、数值变量(定量变量)b、分类变量(定型变量或字符变量)。7、总体:根据研究目的所确定的同质研究对象的全体。确切的说是性质相同的所有观察单位的某种变量的集合。8、样本:从总体中随机抽取部分观察单位,其变量值就构成样本,通过样本信息来推断总体特征。9、概率:事件发生的可能性大小的量度,通常以符号P表示。10、误差:测量值与真值之差或样本指标和总体指标之差。分为随机误差和系统误差。第二节数值资料的统计描述1、频数分布就是观察值在所取得范围内分布的情况。重要特征:集中趋势和离散趋势。2、频数分布类型:正态分布型频数、正偏态分布型频数,负偏态分布型频数。3、集中趋势指标:算术平均数(均数)、几何均数、中位数。指标使用条件计算公式算术平均数适用于正态或近似正态分布的数值变量资料几何均数①对数正态分布,即数据经过对数变换后呈正态分布的资料;②等比级数资料,即观察值之间呈倍数或近似倍数变化的资料。中位数①非正态分布资料(对数正态分布除外);②频数分布的一端或两端无确切数据的资料③总体分布不清楚的资料。为奇数,为偶数,4、离散型趋势指标:极差、标准差和变异系数指标计算公式主要优缺点极差R=Xmax-Xmin计算简单,便于理解;只考虑最大值与最小值之差异,不能反映组内其它观察值的变异度,不稳定,受样本量影响很大。2离均差平方和反映了各变量值之间的变异情况,但单位是原观察值单位的平方,不易理解,同时又受观察值个数的影响,不利于比较。方差反映了各变量值之间的变异情况,不受观察值个数的影响,但单位是原观察值单位的平方,不易理解。标准差反映了各变量值之间的变异情况,不受观察值个数的影响,单位与原观察值单位相同,是最常用的离散程度指标之一,但在两组合多组资料比较时,常受到计量单位不同和均数相差很大的影响而不能比较和不便于比较。变异系数反映了各变量值之间的变异情况,不受观察值个数的影响,没有单位,用于比较度量衡单位不同或均数相差悬殊的多组资料的变异度。5、正态分布下面积分布规律①标准正态分布时区间(-1,1)或正态分布时区间(μ-1σ,μ+1σ)的面积占总面积的68.27%;②标准正态分布时区间(-1.96,1.96)或正态分布时区间(μ-1.96σ,μ+1.96σ)的面积占总面积的95%;③标准正态分布时区间(-2.58,2.58)或正态分布时区间(μ-2.58σ,μ+2.58σ)的面积占总面积的99%。6、正态分布的应用。a、医学参考值范围b、质量控制c、正态分布是其他一些理论分布的极限形式。第三节总体均数的估计和t检验1、均数的抽样误差:由抽样引起的样本均数与总体均数之差。均数的抽样误差大小用标准误来描述。标准误σX=n。一般不知道总体均数σ,可用样本标准差S来代替:SX=ns。2、标准差与标准误的区别与联系:区别:⑴标准差S(σ):①意义:描述个体观察值变异程度的大小。标准差小,均数对一组观察值得代表性好;②应用:与X结合,用以描述个体观察值的分布范围,常用于医学参考值范围的估计;③与n的关系:n越大,S越趋于稳定;⑵标准误SX(σX):①意义:描述样本均数变异程度及抽样误差的大小。标准误小,用样本均数推断总体均数的可靠性大;②应用于X结合,用以估计总体均数可能出现的范围以及对总体均数作假设检验;③与n的关系:n越大,S越小。联系:①都是描述变异程度的指标;②由SX=ns可知,SX与S正比。n一定时,s越大,SX越大。3、t分布:当X服从均数为μ的正态分布时,统计量nsXt服从自由度为v=n-1的t分布,是小样本总体均数的区间估计及假设检验的理论基础。4、t分布的图形特征:t值得分布于自由度有关。t分布只有一个参数即v。特征:①单峰分布,以0为中心,左右对称;②v越小,t值越分散,曲线的峰部越矮,尾部越高;③随着v逐渐增大,t分布逐渐接近标准正态分布;当v趋向∞时,t分布趋近标准正态分布,故标准正态分布是t分布的特例;④t分布是一簇曲线。5、一般正态分布转化为标准正态分布就是将变量X转变为标准正态变量Z值。Z=(X-X)/S。6、小样本均数可信区间:总体均数μ的双侧(1-α)置信区间为X±tv,α2/SX;单侧(X-tv,αSX,∞)或(-∞,X+tv,αSX)。μ95%的可信区间:X±t0.05,vSX;μ99%的可信区间:X±t0.01,vSX7、大样本均数可信区间估计:μ95%的可信区间:X±1.96SX;μ99%的可信区间:X±2.58SX8、t检验主要用于两组均属的比较,它能够判断进行比较的两个均数的差别是由于抽样误差引起,还是来自不3同总体。9、t检验应用条件:①资料是数值资料②分析目的是对两均数进行比较③样本例数较少时,资料服从正态分布,做两样本均数比较时,要求两总体方差齐。10、样本均数与总体均数比较的t检验:nsXt011、配对设计的t检验:nsdnsdsdtdddd//012、两样本均数比较的u检验,两样本均数比较时,如n1和n2均大于100,可用Z检验。22212121nSnSXXZ第四节方差分析1、方差分析应用:a、两个或多个样本均数的比较b、分离各有关因素并分别估计其效应c、分析两因素或多因素的交互作用d、方差齐性检验2、方差分析包括:a、完全随机设计的方差分析b、随机区组(配伍组)设计资料的方差分析c、均数间的两两比较。3、方差分析表变异来源自由度均方F值总变异∑∑X2ij-CN-1F=MS组间/MS组内组间变异∑(∑Xij)-CK-1SS组间/v组间组内变异SS组内SS总SS组间N-KSS组内/v组内C=(∑∑Xij)2/ni1、方差分析基本条件:a、独立性各样本是相互独立的随机样本b、方差齐性各组实验结果变异程度一致c、正态性各组实验结果都服从正态分布第四节分类资料的统计描述1、常用相对数包括:率、构成比、相对比2、率:率又称频率指标,说明某现象发生的频率或强度,常以100%、1000‰等表示。3、构成比又称构成指标,说明某一事物内部各组成部分所占的比重或分布。常以百分数表示。4、相对比,是A、B两个有关指标之比,说明两者的对比水平,常以倍数或百分数表示,其公式为:相对比=甲指标/乙指标(或100%)5、动态数列常用指标:绝对增减量、发展速度、增减速度、平均发展速度、平均增减速度。6、标化率:在进行几个总率比较时,由于内部构成不同并影响了相互比较的结论时,采用统一的标准对几个总率的内部构成进行矫正后在比较。校正后的总率称标化率或调整率。第六节二项分布及其应用1、二项分布是一种离散型随机变量的分布类型。如果每个观察对象阳性结果的发生概率为π,阴性结果的发生概率为(1-π);而且每个观察对象的结果是相互对立的,那么,重复观察n个人,发生阳性结果的人数X的概率分布为而二项分布,记作B(n,π)。2、二项分布的概率函数P(X)=Cnxπx(1-π)n-x3、二项分布适用条件:①每次实验只有两种互斥的结果;②各次实验互相独立;③发生成功事件的概率恒定。4、分布特征:二项分布的特征由二项分布的参数π以及观察的次数n决定。图形分布特征:二项分布图的高峰在μ=nπ处或附近;π=0.5时,图形对称;π≠0.5时,分布不对称,且对同一n,π离0.5愈远,对称性愈差。对于同一π,随着n的增大,分布趋于对称。当n→∞时,只要π不太靠近0或1(特别是当nπ和n(1-π)均大于5时),二项分布趋于对称。%100单位总数可能发生某现象的观察数发生某现象的观察单位率%100观察单位总数同一事物各组成部分的位数某一组成部分的观察单构成比45、二项分布的均数和标准差:若X服从二项分布B(n,π),则X的总体均数为μ=nπ,总体方差为σ2=nπ(1-π)第七节泊松分布及其应用1、Poisson分布:是一种离散型随机变量的分布类型,是二项分布的特例,用以描述单位时间、空间、面积等的罕见事件发生次数的概率分布。一般记作P(λ),λ是Poisson分布的唯一参数。总体均数为λ=nπ。前提条件:互斥、独立、恒定。2、概率函数为:P(X)=e-λ,X为观察单位内稀有事件的发生次数,e=2.71828。3、分布特性:Poisson分布是非对称的,总体参数λ值越小,分布越偏;随着λ→∞,分布趋于对称,当λ≥20时,Poisson分布资料可按正态分布处理。4、Poisson分布总体均数与总体方差相等,均为λ5、Poisson分布的观察结果可加性,即对于服从Poisson分布的m歌互相独立的随机变量X1、X2…Xm,它们的和也服从Poisson分布,其均数为这个m随机变量的均数之和。6、三种常用分布之间的关系:①二项分布与Poisson分布的关系:当n很大,发生概率π(或1-π)很小,二项分布B(n,π)近似于Poisson分布P(nπ);②二项分布与正态分布的关系:当n较大,π不接近0或1(特别是当nπ和n(1-π)均大于5时),二项分布B(n,π)近似于正态分布N(nπ,nπ(1-π));③Poisson分布与正态分布的关系:当λ≥20时,Poisson分布渐进正态分布N(λ,λ)。7、二项分布与Poisson分布的区别:⑴相同点:都是离散型随机变量的常见分布;⑵区别:a、取值不同。服从二项分布的随机变量有n+1个不同的取值;Poisson分布的随机变量的可能去只有无限多个,即非负整数0,1,2……;b、随机变量的概率不同:二项分布P(X=k)=,Poisson分布P(X=k)=e-λ;c、描述的随机变量不同。二项分布描述的是一次试验只会出现两种对立的结果之一,n次独立重复试验中某种结果出现次数的概率分布。Poisson分布描述的是在单位时间、面积、空间等范围中某种事件发生数的概率分布。第八节卡方检验1、检验用途:常用于分类变量资料的统计推断,主要用途包括:①单样本分布的拟合优度;②比较两个或多个独立样本频率分布;③比较配对设计两样本频率和两频率分布;④推断两个变量或特征之间有无关联性。分为四格表卡方检验、行*列表卡方检验、配对资料卡方检验。2、四格表资料的卡方检验:公式:3、四格表次来哦在下列情况①四格表资料中有任何一个格子的理论数T<1或n<40;②四格表卡方检验,所得P值十分临近检验水准时,可以直接计算其概率做出判断。4、行*列表卡方检验要求:理论频数不宜太小,一般不宜有1/5以上的格子的理论频数小于5,或不宜有一个理论频数小于1,否则可能会产生偏性。如果不满足此要求,处理方法有:①增加样本含量(首选);②结合专业知识考虑是否可以将该格所在行或列与别的行和列合并,要根据样本特性来确定,但会损失信息;③改用R×C表Fisher精确概率法,可以用计算机软件实现。5、配对设计资料的X2检验:公式:第九节非参数统计1、非参数统计使用:a、资料不服从正态分布或分布未知b、只能以严重程度、优劣等级、效果大小、名词先后来综合判断的有序分类资料。2、秩和检验目的:是推断连续型变量资料或有序变量资料的两个独立样本代表的两个总体分布是否有差别。3、方法要点:①将两组数据由小到大同一编秩,以样本列数小者为n1,其秩和为T,查T界值表确定P值;②正态近似法:当n110或n2-n110时,T分布接近均数为n1(N+1)/2,方差为n1n2(N+1)/2的正态分布,可用Z检验。4、注意事项:①编秩中若有相同的数据在同一组则依次编秩;若相同数值在不同组