第一章绪论统计的三大特征:实用性、丰富性、公平性总体(population):是根据研究目的确定的、同质的全部研究对象中所有观察单位某种变量值的集合。同质基础:时间、空间、条件等(1)有限总体(finitepopulation):有限观察单位(2)无限总体(infinitepopulation):很多为无限总体。样本根据随机化原则从总体中抽取的一定数量(samplesize)的个体,称为样本(sample),用样本信息来推断总体特征。从总体中抽取部分个体的过程称为抽样(sampling)。同质(homogeneity)是指影响被研究指标的非实验因素相同。变异(variation,variablility)同质基础上的各观察单位(亦称为个体)之间的差异为变异。如同性别、同年龄、同民族、同地区儿童的身高有高有低,称为身高的变异。参数(parameter)和统计量(statistic)总体的统计指标称为参数。如:总体均数(µ),总体发病率,总体死亡率,等,样本的统计指标称为统计量如:样本均数(x),样本发病率,样本死亡率,等,统计学上用不同的符号表示。误差(error)观察值与实际值的差异,成为误差。分为:过失误差;系统误差;随机测量误差;随机抽样误差;(1)过失误差(mistakenerror):过失所致的误差(不认真,错误判断,记录等原因);(2)系统误差(systematicerror):仪器未校准所致的误差(统一偏高,或偏低);这两类误差可以避免。(3)随机测量误差(randommeasurementerror):不同观察者或同一观察者多次观察值的不相同。这种误差不可避免。(4)抽样误差(samplingerror):总体中存在个体变异,抽样研究中所抽取的样本,只包含总体中一部分个体,因而样本均数(或率)往往不等于总体均数(或率),表现为多次抽样的样本均数或率不同。这种由抽样引起的差异称为抽样误差。抽样误差愈小,用样本推断总体的精确度愈高;反之,其精确度愈低。由于生物的个体变异是客观存在的,因而抽样误差是不可避免的,但抽样误差有一定的规律性。小概率事件定理:“小概率事件一次抽样不可能发生”变量及变量值变量(variable):观察对象的特征或指标。对变量进行取值所采用的工具或标准成为测量尺度(scale)。测量的结果称为变量值(valueofvariable)或观察值(observedvalue,measurements)。随机化(randomization)使总体中的每个个体有均等的机会成为样本观察单位的过程,称为随机化。随机抽样旨在避免人的主观性,让机遇起作用,以反映总体的客观情况。常用:抽签法,随机数目表法,计算器随机数法;单纯随机抽样(simplerandomsampling):总体全部观察单位编号,再用随机数字法或抽签法;整群抽样clustersampling:直接由若干个群组成的总体中随机抽取若干个群,再对被抽取的每个群的全部观察单位加以调查。系统抽样systematicsampling:(间隔抽样,机械抽样)先将总体观察单位按某顺序号分成n个部分,再从第一部分抽第k号观察单位,依次用此相等间隔机械地从每一部分各抽一个观察单位组成样本。分层抽样stratifiedsampling:先按某种特征将总体分为若干组别、类型、区域,再从每一层内随机抽样,组成样本。抽样误差:分层抽样系统抽样单纯随机抽样整群抽样第二章统计资料的收集和整理一、资料的类型根据是否定量划分:(1)计量资料(measurementdata)用定量方法测量每个观察单位的某项指标,所得的数值资料为计量资料,亦称数值变量资料。一般有度量衡单位。常用:平均数,标准差,t检验,方差分析,相关与回归等分析。(2)计数资料(enumerationdata)将观察单位按某种属性或类别分组,然后清点各组的观察单位数,为计数资料(亦称分类变量资料,无序分类资料)。常用:率、构成比、卡方检验等(3)等级资料(rankeddata)将观察单位按某种属性的不同程度分组,所得各组的观察单位数为等级资料,亦称有序分类资料。常用:率、构成比、秩和检验等。三者联系:等级资料与计数资料不同:属性的分组有程度差别,各组大小顺序排列;等级资料与计量资料不同:每个观察单位未确切定量,称为半定量资料。介于计量资料与计数资料之间。计量资料→计数资料→等级资料调查设计和实验设计调查设计一般包括专业设计和统计设计。实验设计(experimentdesign)医学实验的基本要素包括处理因素、受试对象和实验效应三部分。实验设计应遵循对照(空白对照,试验对照,安慰剂对照,配对对照,组间对照)、随机、重复(即样本例数)的原则。频数分布表(frequencydistributiontable)用途:(1)揭示频数的分布特征:两个重要特征:集中趋势(centraltendency):数值高低不等,但中等水平的人数最多。离散趋势(tendencyofdispersion):数值之间参差不齐;逐渐变大(或变小)的人数渐少。向两端分散。第三章计量资料的统计描述集中趋势centraltendency平均数(average):用于描述数值变量资料的集中趋势(平均水平)。特点:简明概括,便于比较。包括:算术平均数,几何平均数,中位数,百分位数1、算术平均数(arithmeticmean)一组变量值之和除以变量值个数所得的商,简称均数。总体均数µ,样本均数x表示。适用条件:资料成正态分布(或近似正态,或对称分布)。计算方法:直接法,加权法均数的两个重要属性:(1)各离均差(各观察值与均数之差)的总和等于零。(2)离均差的平方和小于各个观察值X与任何数a(a不等于均数)之差的平方和。均数是一组观察值理想的代表值。均数的应用:(1)只能在合理分布的基础上,对同质事物求均数才有意义,才能反映事物的特性。(2)均数最适用于对称分布,尤其是正态分布资料。此时,均数位于分布的中央,能反映观察值的集中趋势。2、几何均数geometricmeanG将n个观察值的乘积再开n次方的方根(或各观察值对数值均值的反对数)。适用条件:(1)观察值为非对称分布,差距较大,用算术均数表示其平均水平会受少数特大或特小值影响;(2)数值按大小顺序排列后,各观察值呈倍数关系或近似倍数关系。如:抗体滴度,药物效价等;(3)观察值不能有0;(4)观察值不能同时有正值和负值。几何均数的应用:(1)常用于等比级数资料,滴度,效价,卫生事业平均发展速度,人口几何增长,对数正态分布资料;(2)同一组资料求得的几何均数小于算术均数。3、中位数(median,M):位于中间位置上的数值。把一组观察值,按大小顺序排列,位置居中的变量值(奇数个)或位置居中的两个变量值的均值(偶数个)。是位置指标,以中位数为界,将观察值分为两半,有一半比它大,一般比它小。适用于:(1)资料偏态分布;(2)两端无确定数值;(3)资料分布不清楚;如:潜伏期,毒物测定值等用中位数表示其集中趋势。5、百分位数(percentile,P):位于某个百分位置上的数值。把一组数据从小到大排列,分成100等份,各等份含1%的观察值,处在分割界线上的数值,就是百分位数,Pr表示。百分位数将总体或样本的全部观察值分为两部分,理论上有r%的观察值比它小,有(100-r)%的观察值比它大。如含量为n的样本,P5即表示:理论上有n5%个观察值比P5小,有n95%个观察值比P5大。一般说,分布中部的百分位数相当稳定,具有较好代表性,靠近两端的百分位数,只在样本含量足够大时,才稳定,故,样本量不够大时,不应取太近两端的百分位数。常用的百分位数:5,25,75,95分位数。百分位数常用于确定医学正常值范围(normalrange)。中位数是特定的百分位数。四者的比较:中位数常用于描述偏态分布资料的集中趋势,它反映居中位置的变量值的大小。不受特大,特小值的影响,只受位置居中的观察值的影响,因而不够敏感。而均数,几何均数是由全部观察值综合计算出的,敏感性好。但理论上,中位数等于算术均数。百分位数常用于描述一组资料在某百分位置上的水平和分布特征。多个百分位数结合使用,可更全面地描述总体或样本的分布特征,包括位置大小和变异度。离散趋势tendencyofdispersion常用指标:全距,四分位数间距,方差,标准差,变异系数1、全距(Range):极大与极小值之差。全距大,资料离散程度大,但易受极端值大小的影响。样本量越大,抽到极端值的可能性越大,全距可能会越大。故:全距不宜单独使用。2、四分位数间距(quartileintervalQ):将一组资料分为四等份,上四分位数P75和下四分位数P25之差,叫四分位数间距。意义:Q越大,离散程度越大,通常用于描述偏态分布资料的离散程度。优点:比全距稳定;若资料一端或两端无确切数值,只能选择Q作为离散指标。缺点:未考虑全部观察值,不能全面反映资料离散趋势。3、方差(variance)和标准差(standarddeviationSD)对总体而言,为了克服极差和四分位数间距的缺点,要描述资料的离散趋势,必须考虑到各个观察值,离均差的平方和是最好的指标,意义:方差,标准差越大,变异程度越大。其值越小,观察值的离散度越小,用均数反映平均水平的代表性越好。标准差应用:(1)反映一组观察值的离散程度:数值单位相同:直接比较标准差;数值单位不同:计算变异系数;变异系数(coefficientofvariation,CV)也称离散系数(coefficientofdispersion)标准差与均数之比用百分数表示。公式:常用于比较度量单位不同或均数相差悬殊的资料的变异。同时考虑了均数和标准差,更客观。比如:身高,体重的变异比较(2)估计变量值的频数分布:(3)计算标准误(4)估计医学正常值范围:双侧:均数±1.96倍标准差(95%)单侧:均数±1.645倍标准差(95%)正态分布(normaldistribution)概念:频数分布以均数为中心,左右两侧基本对称,靠近均数两侧频数较多,离均数愈远,频数愈少,形成一个中间多,两侧逐渐减少的对称分布。是一种连续型分布。又称高斯分布.正态分布用N(µ,σ)表示,其位置与均数有关,形状与标准差有关。标准正态分布:为了应用方便,常将式进行变量变换,即:u变换.所得到的新变量u的分布即为标准正态分布。u的含义:变量到均数间的距离相当于标准差的倍数。u变换后,μ=0,σ=1,使原来的正态分布变换为标准正态分布(standardnormaldistribution)亦称u分布。正态分布的特征和分布规律:(1)曲线在x轴的上方,与x轴不相交,当x=μ时,曲线位于最高点。f(u=0)=0.3989(2)曲线关于直线x=μ左右对称。(3)正态分布有两个参数:均数,标准差;标准正态的参数分别为:0,1。(4)正态分布的面积分布有一定规律。正态曲线下面积的分布规律正态曲线下,横轴上一定区间的面积,等于该区间的频数发生的概率(即所有随机事件发生的概率)。正态曲线下面积的分布规律的应用:一、确定医学参考值范围意义:是正常人指标测定值的波动范围,可用于划分正常,或异常。步骤:1、抽样2、控制测量误差3、取单侧或双侧4、选定合适的百分界限5、资料正态性检验6、进行参考值估计补充:常用方法:正态分布法(正态分布),对数正态分布法(对数正态分布或近似正态分布),百分位数法(偏态分布)二、确定概率分布三、质量控制第四章均数的抽样误差和t分布一、均数的抽样误差和标准误均数的抽样误差samplingerrorofmean由于总体中存在个体变异,抽样研究中所抽取的样本,只包含总体中一部分个体,因而样本均数(或率)往往不等于总体均数(或率),样本均数之间也互不相等,这种由抽样引起的差异称为均数的抽样误差。用样本均数的标准差来估计,称标准误(standarderror)。即总体标准差和样本例数的比值,通常以样本标准差作为总体标准差的估计值标准误越大,均