第一章医学统计中的基本概念1、医学统计学是研究医学数据的收集、整理、分析、解释和呈现其结果的一门学科。2、个体:研究的基本观察单位。3、变量:用于观察研究对象的指标。4、观察值:个体变量的数值。5、资料:又称为数据,由变量的观察值构成。变异:个体观察值之间具有的差异。变异和同质是对统计学数据的要求!变异是统计学研究的真正对象!统计学是研究变异规律的科学!同质:个体观察值之间的变异在允许范围内。异质:个体观察值之间的变异超出允许范围。一、总体、抽样、样本、参数、统计量总体:同质的个体所构成的全体研究对象。总体同时具有同质和变异两个特点。有限总体:总体中的个体数量是有限的。无限总体:总体中的个体数量是无限的。样本:从总体中随机抽取的部分个体。样本量:样本所包含的个体数目。参数:刻画总体特征的指标。统计量:刻画样本特征的指标。抽样:从总体中随机抽取部分个体的过程。抽样具有代表性、随机性、可靠性、可比性;原则:代表性:样本能充分反映总体特征。随机性:保证总体中每个个体都有相同的几率被抽样。随机性是代表性的保证;生活中随机性的例子(思考题);计量资料:由连续变量的观察值构成的资料。对每个观察对象的观察指标用定量方法测定其数值大小所得的资料,一般有度量衡单位,例如年龄、身高、血糖。计数资料:由离散变量的观察值构成的资料。先将观察对象的观测指标按性质或类别进行分组,然后计数各组的数目所得的资料,例如性别、患病、血型。等级分组资料:由等级变量的观测值构成的资料。具有计数资料的特征,同时又具有半定量性质的资料,例如细菌培养阳性结果。二、3种设计类型:完全随机设计;配对设计;配伍组设计。三、抽样误差、概率和小概率事件抽样误差:由抽样引起的样本统计量与总体参数之间的差异。抽样误差的原因;抽样误差是不可避免的。概率P:表示某事件发生的可能性大小的度量。小概率事件:统计学上习惯将P≤0.05或P≤0.01的事件称为小概率事件,表示该事件发生的可能性很小。“小概率事件”统计意义(两面性)小概率事件几乎不会发生,或者说可以认为在一次试验中不会发生→统计推断基础(正面:应用);小概率事件偶然会发生,如果发生了→统计推断发生错误(反面:警惕);计量资料计数资料(分类资料)资料等级资料(有序多分类资料)二分类资料无序多分类资料计量资料计数资料(分类资料)资料等级资料(有序多分类资料)二分类资料无序多分类资料二分类资料无序多分类资料第二章集中趋势的统计描述一、统计描述总体和样本具有同质和变异两个特征。集中趋势—同质的统计描述;变异程度—变异的统计描述;统计描述主要通过统计量和统计图表来刻画的频数表和直方图频数表:同时列出观察指标的可能取值区间及其在各区间内出现频数的统计表。直方图:以垂直条段代表频数分布的一种图形,条段的高度代表各组的频数,由纵轴标度;各组的组限由横轴标度,条段的宽度表示组距。频数表和直方图的用途1.作为陈述资料的形式;2.便于观察数据的分布类型;3.便于发现资料中含有的异常值;4.可用各组段的频率作为概率的估计值;二、平均数平均数:描述一组观察值集中趋势或平均水平的统计指标。平均数类型算数均数(均数):线性尺度上的平均水平;几何均数:对数尺度上的平均水平;中位数:顺序尺度上的平均水平;百分位数:顺序尺度上的平均水平。均数的意义和应用均数代表每组观察值的平衡点,也就是重心。常用在对称分布,尤其是正态分布;在偏态分布时,易受极值影响;算术均数算数均数(均数):线性尺度上的平均水平几何均数及应用几何均数:对数尺度上的平均水平;1.几何均数的对数等于各观察值对数的算术均数;2.几何均数主要应用在免疫学(抗体滴度、血清凝聚效价)、微生物学(细菌计数)等领域。观察值一般呈等比或对数正态分布。中位数中位数:将一组观察值从小到大按顺序排列,居中心位置的数值,记为M。中位数的精确计算1.当观察例数n为奇数时,中位数是按顺序排列在第(n+1)/2项的观察值;2.当观察例数n为偶数时,中位数是按顺序排列在第n/2和(n/2)+1项观察值的平均值;百分位数百分位数Px:指在一组数据中找到这样一个数值,全部观察值的x%小于Px,其余(100-x)%大于Px。定量:频数表/图集中趋势+离散程度是否对称变异系数:两均数相差很大,或者不同变量间变异程度的比较定性:发病率、构成比相对数使用注意事项率的标化算术均数几何均数中位数均数尺度线性对数顺序适用对称分布对数正态分布(指数、等比分布)偏态分布统计图类型适用条件条图适用于比较相互独立的统计指标的数值大小圆图、百分比条图描述分类变量各类别所占构成比,后者特别适合多个构成比的比较线图描述某统计量随另一连续性数值变量变化而变化的趋势直方图描述数值变量的频数分布箱式图描述数据的分布特征统计地图描述某指标在地理区域的分布第三章变异程度的统计描述自由度的理解样本方差S2是总体方差σ2的无偏估计。E(S2)=σ2自由度:已知,固定X1,X2,...,Xn-1后,Xn必然确定;所以只有n-1个独立(自由变化)个体。不同类型变异程度指标的比较正态分布及应用正态分布有两个参数和,分别表示均数和标准差主要特征:1.以为中心的对称分布2.钟型曲线3.曲线下面积分布有规律4.两个参数决定位置和变异当μ=0,σ=1时,称为标准正态分布正态分布曲线下面积单侧95%=双侧90%=1.645μ±σ:68%μ±1.96σ:95%μ±2.58σ:99%二、医学参考值范围的制定方法(一)选择一定数量的参照样本;(二)对选定的参照样本进行准确的测定;(三)决定取单侧范围还是双侧范围值;(四)选择适当的百分范围;(五)估计参考值范围的界限;(三)决定取单侧范围还是双侧范围值有些指标过高或过低均属异常(A),故其参考值范围需要分别确定下限和上限,称作双侧参考值范围。有些指标仅在过高(B)或过低时为异常(C),只需确定其上限或下限,称作单侧参考值范围。(四)选择适当的百分范围参考值的百分范围应根据资料的性质和研究目的选择,它与诊断阈值有确定的关系。百分范围的不同将导致不同的假阳性率和假阴性率。(五)估计参考值范围的界限参考值范围估计主要有百分位数法和正态分布法。总结衡量变异程度的指标极差、四分位数间距、方差和标准差、变异系数正态分布的特征和曲线下面积分布规律医学参考值范围的制定方法算术均数几何均数中位数均数尺度线性对数顺序适用对称分布对数正态分布(指数、等比分布)偏态分布特点极差四分位数间距方差和标准差变异系数适用范围所有数据所有数据对称数据对称数据比较无量纲或多组均数相差较大数据特点简单,粗略;不稳定,受极端值影响大相对稳定;未使用所有观察值使用全部信息,应用广泛1)X-(X1-nSS22nS方差n-1是自由度dfX-5-4-3-2-101234596.196.158.258.2%0.99%0.95%3.68第四章抽样误差与假设检验假设检验(基本步骤)1、建立假设和确定检验水准;建立假设(反证法的假设命题)无效假设H0:μd=0备择假设H1:μd≠0确定检验水准α(小概率事件定义)α=0.05或α=0.012.选择检验方法和计算检验统计量;3.确定P值和作出统计推断结论1)计算获得t值的概率P值,并与检验水准α比较。2)若P≤α,小概率事件发生,矛盾,拒绝H0,接受H1;认为μd≠0,即治疗前后血清甘油三酯差异有显著统计学意义。3)若Pα,不能拒绝拒绝H0;认为μd=0,即治疗前后血清甘油三酯差异无显著统计学意义。假设检验(三个基本步骤)1.建立假设和确定检验水准;3.选择检验方法和计算检验统计量;4.确定P值和作出统计推断结论。假设检验的思路1.为了判断两组样本代表的总体之间的差异是由抽样误差还是总体之间本质差别引起的?2.作假设。H0:抽样误差引起的;H1:总体本质差别引起的。3.利用反证法在H0条件下计算样本的统计量。4.利用抽样分布原理,根据样本统计量大小判断抽样结果是否为小概率事件,决定是否拒绝H0。假设检验的基本思想反证法思想小概率事件原理关于α的说明1.检验水准,显著性水平,即定义小概率事件;2.界值是人为确定的,常用0.05,0.01;某些情况下可取0.1,0.001;P0.05,“差异没有显著统计学意义”;P0.05,“差异有显著统计学意义”;P0.01,“差异有极其显著统计学意义”;错误的说法:“有显著差异”;“差异是否显著”由专业来决定,统计学只能给出“差异是否有统计学意义”,即是否有证据表明存在差异。3.界值代表容许犯错的最大概率,是事先确定的,不能随便移动。假设检验的两类错误1.一般反证法能得到绝对矛盾;2.假设检验的矛盾基于“小概率事件原理”—“小概率事件(Pα)在一次试验中是不会发生的”;若小概率事件发生了,则我们犯了经验主义错误;因为小概率事件发生可能性为α,则我们犯经验主义错误的概率为α,这种错误称为Ⅰ型错误。若小概率事件没有发生,接受零假设时,还是有可能犯错误,这时候错误是教条主义,称为Ⅱ型错误。单侧还是双侧检验—研究目的决定第五章t检验t分布特征自由度ν不同,曲线形态不同,t分布是一簇曲线;自由度ν越大,t分布越接近于正态分布;当自由度ν逼近∞时,t分布趋向于标准正态分布;自由度较小时,曲线峰的高度低于标准正态曲线,且曲线峰的宽度也较标准正态分布曲线峰狭,尾部面积大于标准正态曲线尾部面积,而且自由度越小,t分布的这种特征越明显(翘尾低狭峰)。概率、与u值关系标准正态分布中u值大小与尾部面积(概率)有关,以u(单侧)和u/2(双侧)表示;P、自由度与t值关系1.在t分布中,t值与P、的大小有关;2.在t分布中,当自由度一定时P越小,|t|越大;3.在P一定时,自由度越小,|t|越大,大于u值;4.在单侧时(尾部面积取单侧)t界值表示为t,,双侧时表示为t/2,,其意义为单样本t检验原理在H0:=0的假定下,可以认为样本是从已知总体中抽取的,根据t分布的原理,单样本t检验的公式为:自由度=n-1样本来自总体的可能性越大:•样本均数与总体均数差别越大;•样本标准差越小;•样本量越大;单样t检验的应用条件:小样本资料(如n40)且服从正态分布,或大样本资料。单样本t检验——检验步骤1.建立检验假设,确定检验水准H0:0,该地难产儿与一般新生儿平均出生体重相同;H1:0,该地难产儿与一般新生儿平均出生体重不同;0.05或0.01。2.计算检验统计量在μ=μ0成立的前提条件下,计算统计量为:3.确定P值,做出推断结论本例自由度n-135-134,P0.05,表明差异无统计学意义,按0.05水准不拒绝H0,根据现有样本信息,尚不能认为该地难产儿与一般新生儿平均出生体重不同。配对样本均数t检验配对样本均数t检验:简称配对t检验,又称非独立两样本均数t检验,适用于配对设计计量资料均数的比较,其比较目的是检验两相关样本均数所代表的未知总体均数是否有差别。配对设计:是将受试对象按某些重要特征相近的原则配对,每对中的两个个体随机地给予(两种处理中的)一种处理。配对设计概述1.应用配对设计可以减少实验的误差和控制非处理因素,提高统计处理的效率。2.配对设计处理分配方式主要有三种情况:①两个同质受试对象分别接受两种处理,如把同窝、同性别和体重相近的动物配成一对,或把同性别和年龄相近的相同病情病人配成一对;②同一受试对象或同一标本的两个部分,随机分配接受两种不同处理,如例5.2资料;③自身对比(self-contrast)。即将同一受试对象处理(实验或治疗)前后的结果进行比较,如对高血压患者治疗前后、运动员体育运动前后的某一生理指标进行比较。配对样本均数t检验——检验步骤1.建立检验假设,确定检验水准H0:d=0,两种结核菌素的皮肤浸润反应总体平均直径差异为0;H1:d0,两种结核菌素的皮肤浸润反应总体平均直径差异不为0;0