第一章统计学的基本概念:统计学是一门处理数据中变异性的科学与艺术,内容包括收集、分析、解释和表达数据,目的是求得可靠的结果。统计学的研究对象:有变化的事物或现象。总体:是根据研究目的的确定的同质研究对象的全体,统计学家用总体这个术语来表示大同小异的对象全体。样本:是指从研究总体中抽取少量有代表性的个体。同质:一些个体处于同一总体,就是指它们大同小异,具有同质性。变异:同一总体内的个体间存在差异又是绝对的,这种现象就是Fisher强调的变异。没有同质性就构不成一个总体供人们研究,总体内没有变异性就无需统计学。变量:可分为定性变量、定量变量。定性变量:常见的是分类变量或名义变量,还有一种是有序变量。定量变量(quantitativevariable):也称为数值变量,其变量值是定量的,所获资料为计量资料。即对每一个观察对象用定量的方法测定某项指标量的大小。有度量衡单位。分为离散型变量(只能取整数值)和连续型变量(任何数值)。统计量:由观察资料计算出来的量称为统计量。参数(固定常数):也叫参变量,是一个变量,是总体的统计指标。频率:样本的实际发生率。误差分类(泛指测量值与真值之差):(1)系统误差(特点:一边倒,偏大偏小,人为原因造成)(2)随机测量误差,偶然因素造成(特点:不可避免,有规律的)(3)抽样误差:从某一总体中随机抽取一个样本,所的样本统计量与相应的总体参数往往是不同的。其中包括改变抽样方法、增加样本量n、选择变异程度小的研究指标(特点:有规律性)概率:描述随机事件发生可能大小的量。小概率原理:小概率事件在一次试验中几乎不可能发生,利用该原理对科研资料进行假设检验。P≤0.05或P≤0.01称为小概率事件。统计步骤:统计设计、收集资料、整理资料、分析资料。常用的抽样方法:单纯随机抽样、系统抽样、分层抽样、整群抽样。第二章频数分布表的编制方法:(1)求全距:(极差)(2)定组段数与组距:8~15个组段,组距i=全距/组段数(3)划组段:以一个稍小于或等于最小值的整数作为第一个组段的起点数据。下限:每个组段的起点(最小值)。上限:每个组段的终点(近似最大值)。注:最后一个组段应同时写出上限和下限来。(4)绘制整理表“下限≤x<上限”注:各组段的频数之和应等于总的观察例数。平均数:描述一组同质计量资料的集中趋势;反映一组观察值的平均水平。常用的有:算数平均数、几何均数、中位数算术均数:简称均数,用希腊字母µ表示。适用于服从对称分布的变量,尤其是服从正态分布或近似正态分布的变量。几何均数:用G表示,常用来反映一组含多个数量级数据的集中位置。适用于原始观察值分布不对称,但经对数转换后呈对称分布的变量,常用于等比级数资料或对数正态分布资料。几何均数应用的注意事项:(1)几何均数常用于等比级数资料或对数正态分布资料(2)观察值中不能有0(3)观察值中不能同时有正值和负值。中位数:将一组变量值从小到大按顺序排列,位次居中的那个变量值就是中位数。适用于服从各种分布的变量,特别是偏锋分布的变量、分布末端无确定值的变量等,常用于偏态分布资料。变异:同一总体中不同个体间存在的差异称为变异。变异系数:适用于量纲不同或均数差别较大的变量间变异程度的比较。极差(R):也称全距。样本量接近的同类资料比较时,极差越大意味着数据间变异越大。适用的变量分布类型不限四位数间距:适用于各种类型的连续型变量,特别对服从偏锋分布的变量。方差:方差只取正值。同类资料比较时,方差越大意味着数据间变异越大。适用于服从对称分布的变量,特别对正态分布或近似正态分布的变量。标准差:方差的平方根称为标准差。同类变量比较时,标准差越大意味着观察值间变异程度越大。适用于服从对称分布的变量,特别对正态分布或近似正态分布的变量。标准差的应用:(1)表示变量分布的离散程度。(2)结合均数计算变异系数。(3)结合样本含量计算标准误。(4)结合均数描述正态分布特征。变异系数(CV):适用于量纲不同或均数差别较大的变量间变异程度的比较。统计表的组成:标题、标目、线条、数字、备注。(1)标题:概括说明表的主要内容,注明时间、地点,位于表的上方中央。(2)标目:分横标目和纵标目,横标目说明表中每横行数字的含义,放表右侧,纵标目说明表中每列数字的含义,一般指统计指标,放表右上方。(3)线条:3~4条横线即顶线、底线、标目线、合计线,其余线条均可省去。(4)数字:用阿拉伯数字表示,无数字用“—”表示,为“0”者记作“0”。(5)备注:表中可以有备注。相对数:是由两个有联系的指标之比构成。大致有三种类型:频率、强度和相对比。频率型指标:近似的反映某一事件出现的机会大小,如发病概率、死亡概率。第三章应用相对数时的注意事项:(1)防止概念混淆,正确区分率和比(2)计算相对数时分母应有足够数量(3)正确估计合并率(4)资料的对比应注意可比性①观察对象同质,研究方法相同,观察时间相等,以及地区民族等客观条件一致②其他影响因素在各组的内部构成是否相同(5)对相对数的统计推断死亡率(deathrate)表示某地每1000人中的死亡人数,计算公式如下:‰1000同年年平均人囗数某年死亡总人数死亡率年龄别死亡率(age-specificdeathrate)表示某地某年龄(组)每1000人囗中的死亡数,计算公式如下:‰1000年平均人囗数)组(同年龄死亡人数)组(某年某年龄死亡率)组(某年龄死因别死亡率(causespecificdeathrate)表示某年每10万人中因某种原因(某病)死亡人数,计算公式如下:‰1000同年年平均人囗数同年某病死亡人数某病死亡专率发病率:表示一时期内某人群中新发生某病的频率,通常用于描述病程较短的疾病。计算公式如下:K囗数某人群同时期内平均人例数某人群某时期某病新病率某人群某时期某病发病患病率:又称为现患率,指某时点某人群现患某病的频数。通常用于描述病程较长或发病时间不易明确的疾病的患病情况。患者不论何时发病,不论新旧病例,凡调查时尚未痊愈者均算作一个病例。计算公式如下:K数某年同时期内平均人囗数某地某时期某病患病例率某人群某时点某病患病病死率(causefatality)表示某期间内,某病患者中因某病死亡的频率,计算公式如下:K同群该病的患病数某期间因某病死亡人数某病病死率正态分布:Φ(—1.96)=0.025z取值于(—1.96~1.96),即X取值区间μ±1-96σ内的概率为0.95,X取值在区间μ±2.58σ上的概率为0.99。标准正态分布参数:0,1样本均数的标准误:由个体变异产生的、由于抽样而造成的样本均数与样本均数及样本均数与总体均数之间的差异称为均数的抽样误差。用于表示均数抽样误差的指标叫样本均数的标准差,也称样本均数的标准误。标准误:样本均数的标准差。样本均数的分布特点:(1)各样本均数未必等于总体均数;(2)样本均数之间存在差异;(3)样本均数的分布很有规律,围绕着总体均数,中间多,两边少,左右基本对称,也服从正态分布。标准差与标准误的区别:(1)概念不同:标准差是描述样本中个体值间的变异程度的指标,标准差越小,表示变量值围绕均数的波动越小。标准误是描述样本均数间变异程度的指标,标准误越小,表示样本均数围绕总体均数的波动越小。(2)用途不同:标准差常用于表示变量值对均数波动的大小,当资料呈正态分布时,与均数结合可估计正常值范围,计算变异系数等;标准误常用于表示样本统计量(样本均数,样本率)对总体参数(总体均数,总体率)的波动情况,可估计参数的可信区间,进行假设检验。(3)与例数的关系不同:当样本含量足够大时,标准差趋向稳定。而标准误随例数的增大而减小,甚至趋向于0。若样本含量趋向于总例数,则标准误接近于0。标准差与标准误的联系:二者均为变异指标,如果把总体中各样本均数看成一个变量,则标准误可称为样本均数的标准差。当样本含量不变时,均数的标准误与标准差成正比。两者均可与均数结合运用,但描述的内容各不相同。假设检验的原理:假设检验的基本思想是反证法和小概率的思想。反证法思想:首先提出假设(由于未经检验是否成立,所以称为无效假设),用适当的统计方法确定假设成立的可能性大小,如果可能性小,则认为假设不成立,拒绝它;如果可能性大,还不能认为它不成立小概率思想:是指小概率事件在一次随机试验中认为基本上不会发生概率小于多少算小概率是相对的,在进行统计分析时要事先规定,即检验水准。假设检验的基本步骤:(1)建立检验假设,确定检验水准:假设有两种:一种为检验假设或称无效假设,符号为H0;一种为备择假设,符号为H1。这两种假设都是根据统计推断的目的要求而提出的对总体特征的假设。确定检验水准,亦称为显著性水准,符号为α,是预先给定的概率值。是判定样本指标与总体指标或两样本指标间的差异有无统计学意义的概率水准,在实际工作中,α常取0.05。(2)选择检验方法并计算统计量:要根据所分析资料的类型和统计推断的目的要求选用不同的检验方法。(3)确定P值,作出推断结论:P值是指由H0所规定的总体中做随机抽样,获得等于及大于(或等于及小于)现有统计量的概率。当求得检验统计量的值后,一般可通过特制的统计用表直接查出P值。作出推断结论:当P≤a时,结论为按所取检验水准α拒绝H0,接受H1,差异有统计学意义。如果P>a,结论为按所取检验水准α不拒绝H0,差异无统计学意义。其间的差异是由抽样误差引起的。T检验的应用条件:(1)随机样本(2)来自正态分布总体(3)均数比较时,要求两总体方差相等(方差齐性)。区间估计与假设检验是统计推断的两种方法。可信区间用于说明量的大小即推断总体均数的范围,而假设检验用于推断质的不同即判断两总体均数是否不同。每一种区间估计都可以对应一种假设检验方法。它们之间既相互联系,又有区别。T值的分布与自由度V有关。T分布只有一个参数V。假设检验的两类错误:第Ⅰ类错误:如果实际情况与H0一致,仅仅由于抽样的原因,使得统计量的观察值落到拒绝域,拒绝原本正确的H0,导致推断结论错误。这样的错误称为第Ⅰ类错误。犯第Ⅰ类错误的概率大小为α。第Ⅱ类错误:如果实际情况与H0不一致,也仅仅由于抽样的原因,使得统计量的观察值落到接受域,不能拒绝原本错误的H0,导致了另一种推断错误。这样的错误称为第Ⅱ类错误。犯第Ⅱ类错误的概率为β。实际情况检验结果拒绝H0不拒绝H0H0为真第Ⅰ类错误(α)假阳性(误诊)结论正确(1-α)置信度H0不真结论正确(1-β)检验功效第Ⅱ类错误(β)假阴性(漏诊)方差分析的基本思想:根据资料的设计类型及研究目的,即按变异的不同来源将全部观察值间的总变异分为两部分或多个部分,其自由度也分解为相应的部分,除随机误差外,其余每个部分的变异可由某个因素的作用加以解释。方差分析的应用条件是:(1)各样本是相互独立的随机样本;即任何两个观察值之间均不相关;(2)各样本来自正态总体;(3)各处理组总体方差相等,即方差齐(homogeneityofvariance)。简单地概括为任何观察值Xij都是独立地来自具有等方差的正态总体。方差分析的步骤:(1)建立假设并确定检验水准H0:三个总体均数相等,即μ1=μ2=μ3H1:三个总体均数不等或不全相等α=0.05(2)计算检验统计量F值(3)确定P值并作出推断结论四格表资料的卡方检验目的:两独立样本率差异的比较,即根据两独立样本的频率分布,检验两个样本的总体分布是否相同。处理属性合计阳性阴性1组a(T11)b(T12)a+b(固定值)2组c(T21)d(T22)c+d(固定值)合计a+cb+dn四格表专用公式:(n≧40,T≧5)dbcadcbanbcad22四格表校正公式:当(1≦T<5,n≧)需校正dbcadcbannbcad222四格表资料的卡方检验的注意事项:(1)使用专用公式要求n大于等于40,T大于等于5(2)在n大于等于40时,如果有某个格子出现1小于等于T小于5,需用校正公式(3)当n小于40或T小于1时,用Fish