医学统计学1医学统计学重点第一章绪论1.基本概念:总体:根据研究目的确定的性质相同或相近的研究对象的某个变量值的全体。样本:从总体中随机抽取部分个体的某个变量值的集合。总体参数:刻画总体特征的指标,简称参数。是固定不变的常数,一般未知。统计量:刻画样本特征的指标,由样本观察值计算得到,不包含任何未知参数。抽样误差:由随机抽样造成的样本统计量与相应的总体参数之间的差异。频率:若事件A在n次独立重复试验中发生了m次,则称m为频数。称m/n为事件A在n次试验中出现的频率或相对频率。概率:频率所稳定的常数称为概率。统计描述:选用合适统计指标(样本统计量)、统计图、统计表对数据的数量特征及其分布规律进行刻画和描述。统计推断:包括参数估计和假设检验。用样本统计指标(统计量)来推断总体相应指标(参数),称为参数估计。用样本差别或样本与总体差别推断总体之间是否可能存在差别,称为假设检验。2.样本特点:足够的样本含量、可靠性、代表性。3.资料类型:(1)定量资料:又称计量资料、数值变量或尺度资料。是对观察对象测量指标的数值大小所得的资料,观察指标是定量的,表现为数值大小。每个个体都能观察到一个观察指标的数值,有度量衡单位。(2)分类资料:包括无序分类资料(计数资料)和有序分类资料(等级资料)①计数资料:是将观察单位按某种属性或类别分组,清点各组观察单位的个数(频数),由各分组标志及其频数构成。包括二分类资料和多分类资料。二分类:将观察对象按两种对立的属性分类,两类间相互对立,互不相容。多分类:将观察对象按多种互斥的属性分类②等级资料:将观察单位按某种属性的不同程度、档次或等级顺序分组,清点各组观察单位的个数所得的资料。4.统计工作基本步骤:统计设计、资料收集、资料整理、统计分析。医学统计学2第二章实验研究的三要素1.实验设计三要素:被试因素、受试对象、实验效应2.误差分类:随机误差(抽样误差、随机测量误差)、系统误差、过失误差。3.实验设计的三个基本原则:对照原则、随机化分组原则、重复原则。4.实验设计方法有析因设计正交试验设计均匀试验设计交互作用两组:异体配对设计同体配对设计交叉设计无随机同期对照实验设计(单因素两水平)扩展多组:单因素多水平配伍组设计拉丁方设计(两因素多水平)(三因素多水平)配伍组设计:也称随机区组设计,将条件相近的受试对象配伍,每个配伍组中的对象随机分配到各处理组中。析因设计:考察两个或两个以上的处理因素,将各个因素的水平进行全面组合,每个组合下至少有两个以上的观察对象重复测量。一般来讲,应尽可能安排等重复试验,以简化计算,2-3个水平数。优点是全面性和均衡性较好,可同时分析处理因素的效应及因素间的交互作用。拉丁方设计:用于三因素等水平无交互。第三章定量资料的统计描述、参考值范围1.频数表编制过程(了解)(1)找出样本数据的最大值和最小值,计算极差R;(2)分组:确定分组的组距d和组数k;一般n50,5-6组;n在100左右,7-10组;n100,10-15组(3)求频率密度:统计频数,算出频率、频率密度和累积频率;(4)画出直方图。2.频数表和直方图的作用:用于观察个数较多资料的统计描述,可以直观提示资料的分布特征和分布类型。医学统计学33.集中趋势、离散趋势的指标及适用范围(1)集中趋势:x,G,M,Px,M0算术均数:适用于对称分布;不适用于偏态分布和资料中出现极值的资料。几何均数:适用于呈倍数关系的资料或对数正态分布的资料,尤其是正偏态分布。不适用与观察值中有0或正负数值同时出现的资料。中位数:适用于大样本偏态分布或分布情况不明的资料或资料中有不确定数值的资料。百分位数的作用:多个百分位数结合使用,全面描述数据分布的特征;用于确定医学参考值范围(偏态或分布不明的资料)。众数:适用于大样本,较粗糙。(2)离散趋势:极差:优点:简单明了、容易使用。缺点:①只反映最大值和最小值间的差异,不能反映其他观察值的变异程度。②样本容量越大,极差可能越大。③极差的抽样误差大,不稳定。四分位数间距:适用于确定医学参考值范围,与中位数一起描述偏态分布资料变异程度。缺点:类似于极差,利用度低。方差与标准差:与均数一起描述对称分布,特别是正态分布的分布特征。变异系数:适用于:①适用于比较度量衡单位不同资料的变异度。②比较均数相差悬殊的资料的变异度。③衡量实验精密度和稳定性的常用指标。(3)频数分布特征高峰在中间,左右大致对称,称为对称分布。平均数=中位数=众数高峰偏向小值的一侧(左侧),称正偏态分布(亦称右偏态)。平均数中位数众数高峰偏向大值的一侧(左侧),称负偏态分布(亦称左偏态)。平均数中位数众数对称分布正(右)偏态分布负(左)偏态分布医学统计学44.正态分布图形的特点及意义(1)特点:①f(x)关于x=μ对称②x=μ时取得最大值③在x=μ±σ处为拐点,且以x轴为水平渐近线④f(x)大于0⑤P(x=a)=0⑥若f(x)在点x处连续,则F´(x)=f(x)(2)意义:)(xf=1,f(x)在负无穷到正无穷的积分值为1,即曲线下方面积为1。5.μ和σ2的意义μ:位置参数,当σ固定时,μ增大,曲线沿横轴向右移动;μ减小,曲线沿横轴向左移动。σ2:形状参数,当μ固定时,σ越大,曲线越矮胖;σ越小,曲线越高瘦。6.标准化变换z=σμxx~N(μ,σ2)z~N(0,1)F(x)=Ф(σμx)=Ф(z)即P(X≤x)=Ф(σμx)=P(Z≤z)P(axb)=F(b)-F(a)=Ф(σμb)-Ф(σμa)P(σμaσμ-xσμb)=P(σμaZσμb)7.标准正态分布界值规定:界值右侧曲线下方面积等于它的下角标。下角标一致,x轴上方中间面积一致。双侧界值:P(|z|≤z2α)=1-αP(zz2α)=1-2αP(|z|≥z2α)=αP(zz2α)=2α单侧界值:上限:下限:P(zzα)=αP(zz1-α)=1-αP(zzα)=1-αP(zz1-α)=α医学统计学58.正常值范围及意义概念:医学临床中,常将就诊者的某些生理、生化、免疫学指标的测定结果,与排除了对研究指标有影响的疾病和有关因素的大多数“正常人”的相应数值进行比较,以就诊者的测定值是否超出了大多数“正常人”相应指标的波动范围,作为临床诊断的重要参考,又称医学参考值范围。意义:95%的参考值范围含义是指:样本中有95%的个体测定值在所求范围之内。以95%的置信区间来说,意义是:该区间以95%的概率包含了待估计的参数,这种估计的可信度是95%,会冒5%的风险。公式:双侧95%的界限值:x±1.96s单侧95%的上限值:x+1.645s单侧95%的上限值:x-1.645s第四章总体均数的估计、假设检验1.标准误(1)概念:每次样本计算出的x不同,这些x的标准差称为均数的标准误。(2)意义:是衡量样本统计量抽样误差大小的统计指标。(3)与标准差的区别:二者都是描述变异程度的指标,标准差描述个体值的变异,标准误描述统计量的变异。(4)均数标准误的公式:Sx=ns2.置信区间(1)定义:设θ为总体的未知参数,若由样本确定的两个统计量θ1(x1、x2、…、xn)和θ2(x1、x2、…、xn),且θ1θ2,对于预先给定的值α(0α1),若满足P(^θ1^θ2)=1-α,则称随机区间(^θ1,^θ2)为θ的1-α置信区间,其中称为^θ1置信下限,称为^θ2置信上限,1-α称置信度。医学统计学6(2)意义:区间(^θ1,^θ2)包含有参数θ的概率为1-α,不能说θ在(^θ1,^θ2)的概率为1-α。例:可以说(a,b)包含均数μ的概率为95%,不能说μ在(a,b)的概率为95%。(3)公式:单个正态总体均数μ的区间估计①σ已知:双侧:nzx2即xzx2z分布单侧:nzx即xzx②σ未知:双侧:nstx2即xstx2小样本(n≤50)t分布单侧:nstx即xstx双侧:nszx2即xszx2大样本(n50)z分布单侧:nszx即xszx(4)两要素:准确度:由1-α决定,1-α越大,准确度越高。精确度:由区间长度决定。99%置信区间准确度高于95%置信区间。95%置信区间精确度更高。3.抽样分布(1)t分布①定义:来自正态总体的一组样本,x和s分别是样本的均数和标准差。则t=nsx/~t分布,自由度df=n-1,极限分布是标准正态分布。②图形分布特征:以0为中心,左右对称的单峰分布。自由度越大,越高瘦医学统计学7③界值:双侧:P(|t|≤t2α)=1-αP(tt2α)=1-2αP(|t|≥t2α)=αP(tt2α)=2α单侧:上限:下限:P(ttα)=1-αP(tt1-α)=αP(ttα)=αP(tt1-α)=1-α(2)χ2分布①定义:若从均数为μ,标准差σ的正态总体中,每次抽取样本含量为n的样本,计算样本标准差s,则χ2=(n-1)s2/σ2服从自由度df=n-1的χ2分布。②图形分布特征:曲线偏向左边自由度越小曲线越偏③界值:双侧:P(x2x22α)=2αP(x2212x)=1-2αP(x2x22α)=1-2αP(x2212x)=2α单侧:上限:下限:P(x2x2α)=αP(x2x21-α)=1-αP(x2x2α)=1-αP(x2x21-α)=α(3)F分布①定义:如果分别从两个正态总体N(μ1,σ1)和N(μ1,σ1)中随机抽取样本含量n1、n2的两个样本,算出样本均数和方差分别为x1,s21和x2,s22,则22222121//ssF服从df1=n1-1,df2=n2-1的F分布。若χ1、χ2分别服从自由度df1、df2的χ2分布,则F=dfdf222121//~df1df2医学统计学8②图形分布特征曲线偏向左边df1、df2同时增大,曲线趋向于对称③倒数性质:Fdfdf)(),1(2,1=Fdfdf)(2,11④界值:双侧:P(FF2α)=2αP(F21F)=1-2αP(FF2α)=1-2αP(F21F)=2α单侧:上限:下限:P(FFα)=αP(FF1-α)=1-αP(FFα)=1-αP(FF1-α)=α4.假设检验(1)基本思想:反证法、小概率事件原理(2)基本步骤:①建立假设,确定检验水准H0:原假设,差异存在但不显著或差异无统计学意义H1:备择假设,差异显著或差异有统计学意义②在原假设成立条件下,选择统计方法并计算检验统计量。(认为误差由抽样产生)参数检验统计量要求满足:i)在H0成立的条件下,服从特定的抽样分布;ii)必须包含要检验的总体参数;iii)对于给定的样本数据,能计算出该检验统计量的数值。③对于给定的α值做出检验结论,并给以专业解释判断P值:(与界值比较,反查界值表确定范围,软件计算)若Pα,则接受H0,拒绝H1;若Pα,则拒绝H0,接受H1。医学统计学9(3)检验方法:正态性检验、方差齐性检验、t检验(4)两类错误实际情况判断接受H0拒绝H0H0正确正确1-α第一类错误αH0不正确第二类错误β正确1-β①第一类错误又称弃真错误、假阳性错误,第二类错误又称取伪错误、假阴性错误。②P≤α时,拒绝H0,可能犯Ⅰ类错误(α)。此时,P值越小,犯Ⅰ类错误的概率越小,结论越可靠。③Pα时,接受H0,可能犯Ⅱ类错误(β)。此时,虽然β未知,但P值越大,犯Ⅱ类错误的概率越小,结论越可靠。④减少(增加)I型错误,将会增加(减少)II型错误⑤增大n,可以同时降低两类错误。第五章方差分析1.方差分析基本思想目的:根据各个总体的样本观测值,检验各个总体均值间和两两总体均值间是否存在显著性差异。基本思想:根据离差来源的不同,将总离差平方和分解为两部分:由试验的随机因素(误差)引起的组内离差,由因素的作用(即处理水平不同)引起的组间离差。总离差平方和=组内离差平方和+组间离差平方和(SST=SSE+SSA)2.方差分析单因素方差分析、配伍组设计方差分析、析因设计方差分析拉丁方设