医学统计学复习重点统计设计:调查设计、实验设计第一章绪论1.基本概念:总体——根据研究目的确定,所有同质观察单位某种观察值的全体。样本——总体中抽取的一部分具有代表性的个体组成的集合。参数——刻画总体特征的统计指标。一般用希腊字母表示、、π统计量——刻画样本特征的统计指标。抽取的样本不同,统计量会变化;一般用拉丁字母或英文字母表示X、S、p抽样误差:个体变异所致,抽样研究中样本信息与总体特征间的差异。抽样误差是不可避免的。属于随机误差,无方向性,重复抽样可以呈现一定的规律性。小概率事件P≤0.052.*统计工作的四个步骤:设计、收集资料、整理资料、分析资料。(用工作实例解释)第二章调查研究设计第三章实验研究设计1.调查研究(观察性研究):特点:无人为施加处理因素调查研究的分类:按调查涉及的对象划分:全面调查(普查)、抽样调查、典型调查注意:收集的资料要有可比性*随机抽样方法(做统计推断有意义):单纯随机抽样、系统抽样、分层抽样、整群抽样非随机抽样方法(不能做统计推断,可能有偏差):偶遇抽样、判断抽样、滚雪球抽样等2.实验研究特点:与调查研究最本质的区别:根据研究目的主动施加干预措施实验设计的三个基本要素:受试对象、处理因素、实验效应实验设计的基本原则:对照原则、随机化原则、重复原则第四章定量资料的统计描述第五章定性资料的统计描述1.定量资料(1)定量资料——*频数分布表、直方图、箱式图——判断分布类型——集中位置离散趋势(变异程度)*对称分布(正态分布)X±S均数X标准差S*偏态分布M(P25~P75)中位数M=P50四分位数间距Q=P25~P75对数正态分布几何均数G对数标准差SlgX(2)描述离散趋势的统计指标:极差R=最大值-最小值、四分位数间距Q:常用于描述*偏态分布资料的离散趋势、一端或两端无确切值的资料、分布不明确资料方差(总体、样本S2)&标准差(、S):*正态或近似正态分布变异系数%100XSCV(3)(4)正态分布及其应用:**制定医学参考值范围步骤:判断分布类型——正态分布——*双侧95%参考值范围:X±1.96S、单侧95%参考值范围:下限为X-1.64S、上限为X+1.64S——偏态分布——*双侧95%参考值范围:(百分位数法)P2.5~P97.5单侧95%参考值范围:下限为P5、上限为P952.定性资料*率:指某现象实际发生数与某时间点或某时间段可能发生该现象的观察单位总数之比。用以说明该现象发生的频率或强度。*构成比:即比例,指事物内部某一组成部分观察单位数与同一事物各组成部分的观察单位总数之比。用以说明事物内部各组成部分所占的比重。%100观察单位总数同一事物各组成部分的位数某一组成部分的观察单构成比相对比:简称比,是两个有关联的指标之比值。用以说明一个指标是另一个指标的几倍或几分之几。%)100或(乙指标甲指标相对比应用相对数的注意事项:(1)*计算相对数时分母应有足够的数量(2)*分析时不能以构成比代替率(3)应分别将分子分母求和计算合计率(4)*注意资料的可比性:常用标准化法解决率的可比性问题(5)样本相对数的统计推断(6)某些情况下最好使用绝对数*合计率(平均率、粗率):应将分子和分母分别合计。第六章参数估计1.定量资料:用样本均数X估计总体均数μ。抽样误差:均数的标准误*均数的标准误越大,样本均数的分布越分散,样本均数离总体均数就越远,样本均数与总体均数的差别越大,抽样误差越大;抽样误差越大,由样本均数估计总体均数的可靠性越差。反之亦然。2.定性资料:用样本率p估计总体率π。抽样误差:率的标准误3.参数估计的方法:(1)点估计:抽取一个样本资料后,获得样本统计量;直接用样本统计量作为总体参数的估计值;缺点是没有考虑抽样误差。*(2)区间估计:结合样本统计量和抽样误差,按一定的置信度(1-α)估计包含总体参数的区间范围,该区间称为(1-α)置信区间(CI)总体均数的95%置信区间的含义:从正态总体中重复100次抽样,每次样本含量均为n,每个样本均按计算95%置信区间,则在这100个置信区间中,理论上有95个置信区间包含了总体均数。a)样本均数估计总体均数的方法:*t分布法:*正态分布:样本量足够大时(n>100)。b)率的的置信区间:查表法*正态近似法:样本量足够大时(n>50且np、n(1-p)均≥5)。95%的总体率的置信区间*第七章假设检验1.基本原理:反证法、小概率事件推断2.*假设检验的基本步骤:1.建立检验假设,确定检验水准2.(选择检验方法),计算检验统计量3.确定P值,作出推断结论3.建立检验假设(H0和H1)H0零假设或无效假设——通常为两总体参数相等或服从某分布;H1备择假设——通常为两总体参数不相等或不服从某分布。第八章~第十四章(不含第十章)研究目的资料类型设计类型条件满足条件用不满足条件用差异性分析定量资料(*区分设计类型)样本均数与总体均数的比较(单样本设计)独立性、正态性(相应设计的)t检验单样本设计的符号秩和检验*配对设计独立性、正态性(差值的总体服从分布)配对设计的秩和检验两独立样本均数比较独立性、正态性、△方差齐性(两组标准差超过2倍以上提示方差不齐)**t‘检验、变量变换、(相应设计的)秩和检验完全随机设计(多个独立样本)独立性、正态性、方差齐性(样本来自的总体方差相等)方差分析变量变换、(相应设计的)秩和检验随机区组设计(多个相关样本)计数资料独立样本2×2n≥40,理论数T≥5n≥40,1<T<5,用校正公式卡方检验确切概率法(或者增大样本量)独立样本R×C列联表T不能<1,1<T<5格子数不能超过总格子数的1/5配对设计2×2b+c>40b+c<40,用校正公式等级资料单样本、配对符号秩和检验两独立样本Wilcoxon秩和检验多个独立样本K-WH秩和检验随机区组Friedman秩和检验关联性分析相关(双变量关联性分析)*两定量变量*双变量正态分布简单线性相关(相关系数r)秩相关(相关系数rs)两分类变量卡方检验两等级变量秩相关(等级相关)直线回归分析LINE(线性、独立性、正态性、等方差性)t检验*配对设计:①配对的两个受试对象分别接受两种处理②同一样品用两种方法(或仪器)检验的结果③同一受试对象两个部位的数据。推断目的:两种处理(或方法)的结果有无差别。方差分析总变异:所有观察值与总均值的离均差平方和组间变异:不同处理组样本均数之间的差异。用组间离均差平方和表示。反映的是处理因素所致变异及个体变异和测量误差。组内变异:处理组内每个观察值之间的差异。用组内离均差平方和表示。反映的是个体变异和测量误差。**随机区组设计:是配对设计的扩大可以安排两个因素的作用:•研究因素:处理组间有无差异•区组因素:控制非研究因素(重要的可控的混杂因素)**2检验2检验的基本思想:实际频数用A表示,根据H0确定的理论频数用T表示,则构造的2统计量为1.*独立样本2×2列联表资料的2检验*应用条件:n≥40,理论频数T≥5,n≥40,1<最小T<5,计算校正的2值:2.独立样本R×C列联表资料的2检验*应用条件:理论数不能小于1,理论数在1和5之间的格子数不能超过总格子数的1/5不满足条件时可合并或删除部分信息3.*配对2×2列联表资料的2检验**应用条件:b+c>40,b+c<40,校正公式:秩和检验(不考细节)*应用条件:定量资料不满足参数检验条件*等级资料的统计推断1.符号秩和检验:(1)单一样本与总体中位数比较(2)*配对设计配对设计假设检验步骤:2.成组设计两样本比较:Wilcoxon秩和检验(1)原始数据两样本比较(2)*等级资料两样本比较3.成组设计多个样本比较:K-WH秩和检验(1)原始数据的多个样本比较(2)等级资料的多个样本比较4.多个独立样本间的多重比较:K-WH秩和检验5.随机区组设计的秩和检验:Friedman秩和检验双变量关联性分析1.*直线相关(连续性变量)(两定量变量)*条件:**双变量正态分布。不满足用秩相关。*步骤:绘制散点图,如呈现线性趋势——计算统计指标:相关系数r——对r做假设检验——如P<0.05,解释相关系数的统计学意义2.秩相关(连续型变量或等级变量间)*条件:连续型两变量不满足双变量正态分布。*等级变量(有序变量)相关分析。常用的为Spearman秩相关分析直线回归分析*回归系数b:描述y与x在数量上的依存关系。*解释:b表示x每增加(减)一个单位,y平均改变b个单位*直线回归分析的基本步骤:1.绘制散点图(观察是否有直线趋势、异常点)2.估计回归参数,列出回归方程3.对回归方程进行假设检验4.解释回归系数的统计学意义5.评价回归方程的拟合效果()*