第三篇常用推断方法一、讨论题1.某研究选取体重接近的雌体中年大鼠20只,随机分为甲、乙两组,每组10只。乙组每只大鼠接受3mg/kg内毒素,甲组作为对照组,分别测得两组大鼠的肌酐(mg/L)见表3-1,为检验两总体均值之间有无差别,该研究先计算两组差值并进行正态性检验,服从条件后采用配对设计t检验:t=3.540,P=0.006。你是否同意这种统计分析方法?表3-1甲、乙两组大鼠肌酐(mg/L)数据组别12345678910甲组6.23.75.82.73.96.16.77.83.86.9乙组8.56.811.39.49.37.35.87.87.28.2差值2.33.15.56.75.41.2-0.90.03.41.3答:不同意。配对t检验,适用于配对设计的定量数据的两样本均数比较,其比较目的是检验两配对样本均数所代表的未知总体均数是否有差别。本题将大鼠随机分为甲、乙两组,并未进行配对,故应用两独立样本的总体均数比较的假设检验进行统计分析。2.举例说明方差分析的基本思想是什么?总离均差平方和以及自由度如何计算?答:方差分析的基本思想为:根据研究目的和设计类型,将全部观察值的总变异分解为两个或多个部分,各部分的变异可由不同处理因素的影响效应或者误差的效应解释,将各影响因素产生的变异与随机误差变异进行比较,以推断该因素是否存在影响效应。总离均差平方和即每个观察值与总均数的离均差平方和,计算公式为2ijijxx,反映了每个个体观测值与总均数之间的差异。总的自由度为𝑛−1。3.通过配对t检验和两样本均数t检验的数据,讨论并验证t检验和方差分析间存在什么关系?答:配对设计两均数的比较的t检验,可以采用随机区组设计的方差分析,结果完全等价,方差分析的F值与配对t检验的t值存在关系:2Ft;两独立样本均数t检验,可以采用完全随机设计方差分析,结果完全等价,方差分析的F值与t检验存在关系:2Ft。4.多重比较方法SNK法、Dunnett-t法以及Bonferroni法有何不同?同一数据进行多个均数的两两比较,是否存在SNK法、Dunnett-t法以及Bonferroni法结果不一致的情况?答:SNK法应用于各组两两间均进行多重比较,考虑到比较均数跨越的组数,借助q界值表,做推断结论;Dunnett-t法各实验组均与对照组进行比较;Bonferroni法则是通过调整水平,使多重比较的整体犯错误的概率不超过0.05,调整的水平为/m(m为多重比较的次数)。同一数据进行多个均数的两两比较,可能会存在SNK法、Dunnett-t法以及Bonferroni法结果不一致的情况,需结合实际情况慎重下结论,或者进一步增大样本含量,使最终两两比较结果保持稳定。5.某职业病防治院希望了解矽肺不同分期患者的胸部平片密度是否存在差异,收集矽肺患者492例,数据见下表3-2。表3-2不同分期矽肺患者的胸片密度矽肺分期密度合计低中高1期43188142452期196721693期6175578合计50301141492某医生采用R×C交叉表检验,求得统计量,ν=4,P<0.01,认为矽肺不同分期的平片密度不同,且2、3期患者胸片密度比1期患者高。(1)该医生的统计处理是否正确?若否,请分析原因。(2)为了达到本研究目的,宜采用何种统计分析方法?22163.01答:(1)不正确,该资料为双向有序资料,不能用卡方检验。(2)应采用基于秩次的非参数检验。6.某医生对26名前列腺癌患者和20名直肠癌患者病理标本中CEA,Pgp,P53三项指标的阳性率进行差异性检验,结果见表3-3。表3-3两种患者病理标本三项指标的阳性率比较指标疾病2值P值直肠癌前列腺癌CEA阳性21314.39<0.05阴性247P53阳性21150.22>0.05阴性55Pgp阳性7125.10<0.05阴性198其中,CEA阳性率的比较:,P53阳性率的比较:,Pgp阳性率的比较:。请讨论:该医生的统计处理是否正确?若否,请分析原因并加以修正。答:不正确,在对P53阳性率差异性就行检验的时候,表格理论频数出现1T5的情况,故应该采用连续用校正公式计算卡方值(2=0.012,p0.05)。7.什么是非参数检验?与参数检验相比,非参数检验有哪些优点?答:不依赖于总体分布类型,也不对参数进行推断,而是对总体分布进行分析的假设检验方法。与参数检验相比,非参数检验对资料要求低,适用范围广,计算过程相对简单。8.如果资料满足参数检验的要求,为什么不宜采用非参数检验?答:若对符合参数检验的资料采用非参数检验,因为没有充分利用资料提供的信息,会导致信息损失和检验效能下降,从而导致犯第Ⅱ类错误的概率增加。9.单样本和配对资料符号秩和检验的基本思想是什么?答:单样本资料符号秩和检验的基本思想是:首先假设样本所对应的总体中位数与给定的总体中位数相同,H0:M1=M0,然后计算样本中所有数值与给定中位214.3920.2225.10数的差值,正差值表示样本中个体值大于给定中位数,负差值则为样本中个体值小于给定中位数。进而根据所有差值的绝对值进行编秩,将所有正差值的秩相加就得到正差值的秩和R+,同理,所有负差值的秩相加即为负差值的秩和R-。若R+与R-相差悬殊,均远离M0,则有理由拒绝H0。配对数据符号秩和检验的基本思想与单样本符号秩和检验是一致的。配对数据中每个配对数值的差值可以看作是一个单独的样本,给定的总体中位数为0,即推断差值的单样本是否来自给定中位数为0的总体。其余部分则与单样本符号秩和检验并无差别。10.两组独立样本比较的秩和检验,检验假设(0H)是否可以用12表示?为什么?答:不可以,因为是一般用于描述正态分布集中趋势的统计指标,而秩和检验比较的总体分布,而不是某个服从某种特定分布的参数。11.在秩和检验中,若遇到相同的观测值,为什么要取平均秩?答:为保证相同观测值的秩和不变,而且相同数值的秩又不能有差别,因而,这些相同的数值应取相同秩。12.对于评价指标为等级变量时,为什么秩和检验要比参数检验更适合?答:由于等级变量既有分类变量特征,又有定量变量的特征,所有用分类变量的检验方法(如2检验)则无法体现其定量的特性,而采用定量变量的检验方法(如t检验、方差分析)则无法满足这些方法的条件(如非正态分布),而秩和检验不用考虑定量资料的分布情况,又能通过编秩体现其定量的特性,因而最适合等级资料的分析。13.多组独立样本比较的秩和检验的基本思想是什么?答:Kruskal-Wallis检验的基本思想就是用所有观测值的秩代替原始观测值进行单因素方差分析。若所有观测值的总例数为N,秩只能是1到N之间的某个整数(假设没有相同的观测值出现),不管原始观测值是什么,秩的离均差平方和会是一个固定的数值,因此无需组间变异和组内变异两个都用。Kruskal-Wallis检验的检验统计量实质是用秩计算组间变异,当组间变异的数值较大,有理由认为组间存在差异。14.简述直线相关和回归的区别与联系。答:区别:(1)资料要求不同:直线相关要求X、Y服从双变量正态分布;直线回归要求固定X时,反应变量Y服从正态分布且等方差,X可以是精确测量和严格控制的变量,也可以是随机变量。(2)应用目的不同:直线相关说明的是两变量间的密切程度,两变量是平等关系;直线回归说明的是两变量间数量上的依存关系。(3)指标计算不同:r与b的计算公式不同,XYXXYYrlll,XYXXbll。(4)指标取值范围不同:11r,b。(5)指标意义不同:r表示具有直线相关关系的两变量间的相关程度与方向;b表示X每改变一个单位时,Y平均改变b个单位。(6)指标单位不同:r没有单位,b有单位。联系:(1)对于同一组资料若能同时计算b和r,则二者的正负号一致。(2)对于同一资料,r和b的假设检验等价,计算得的t统计量值相等,即rbtt。(3)用回归解释相关:由于决定系数2RSSSS回总,当总平方和固定时,回归平方和越大,2R越接近于1,说明两变量间的相关关系越密切。(4)对于同一资料,相关系数和回归系数间可以相互换算。15.为什么对回归系数的假设检验与相关系数的假设检验是等价的?答:可通过公式推导证明回归系数的假设检验与相关系数的假设检验是等价的:对回归系数的假设检验公式如下:0bbbtS,其中.yxbxxSSl,.2YXSSSn残,XXxylbl,2yy=l-xyxxlSSl残将公式化简为2XYbXXYYXYltlll;对相关系数的假设检验公式如下:0rrrtS其中212rrSn,XYXXYYlrll将公式化简为2XYrXXYYXYltlll;综上所述:rbtt,所以说回归系数的假设检验与相关系数的假设检验是等价的。16.举例说明生存资料的特点及生存资料收集时的注意事项。答:生存资料的特点:(1)生存资料是既考虑生存结局又考虑生存时间的数据。(2)生存时间指从观察起点到终点事件的时间间隔,往往不满足正态分布,且存在删失数据。(3)生存资料通常进行生存分析,可充分利用删失数据所提供的不完全信息。生存资料收集时注意事项:(1)明确观察对象的起止时间。如肿瘤术后疗效,是以术后第二天为开始时间,还是出院日为开始时间?(2)明确观察对象的结局事件。如肿瘤术后疗效,以因肿瘤死亡为结局事件,还是肿瘤出现转移或(和)复发?(3)注意删失数据的随访时间。当这次随访时发生删失,则该观察对象的随访终止时间为上次随访记录的时间。17.生存分析的统计描述指标有哪些?各指标的含义是什么?答:(1)死亡概率与生存概率:死亡概率指某时段开始时存活的个体,在该时段内死亡的可能性。生存概率指某时段开始时存活的个体,到该时段结束时仍存活的可能性。(2)生存率:生存率表示观察对象的生存时间T大于时间t的概率,常用()St表示,即()Pr()StTt。生存函数又称为累积生存率,简称生存率。(3)中位生存时间:生存函数取值为0.5时对应的生存时间称为中位生存时间(mediansurvivaltime),又称中位生存期或半数生存期。它表示有50%的个体可以存活到比更长时间,通常用于描述生存期的平均水平。18.生存数据分析的基本内容是什么?分析方法有哪些?答:基本内容:(1)描述生存时间的分布特点。通过生存时间和生存结局的数据估计平均存活时间及生存率,绘制生存曲线,根据生存曲线分析其生存特点等。例如上例中肾上腺皮质癌研究所绘制的生存率曲线可提供预期治疗价值评估信息。(2)比较生存曲线。通过相应的假设检验方法对不同样本的生存曲线进行比较,以推断各总体的生存状况是否存在差别,比较不同治疗方法预后效果的差异。例如本研究比较手术治疗和药物治疗肾上腺皮质癌患者的生存曲线,以推断两种疗法的效果优劣。(3)分析影响生存状况的因素。通过生存分析模型来探讨影响生存状况的因素,通常以生存时间和结局作为因变量,而将可能的影响因素作为自变量,比如年龄、性别、病理分型、临床分期、治疗方式等。通过拟合生存分析模型,筛选具有统计学意义的生存状况的影响因素。分析方法:(1)生存曲线的估计常用的方法有Kaplan-Meier法和寿命表法。(2)生存曲线的比较常用的方法有log-rank检验。(3)分析影响生存状况的因素的方法有Cox回归模型。二、案例分析题1.研究显示,汉族正常成年男性无名指长度的均数为10.1cm。某医生记录了某地区12名汉族正常男性的无名指长度(cm)资料如下:10.05,10.33,10.49,10.00,9.89,10.15,9.52,10.33,10.16,10.37,10.11,10.27。(1)请求出该地区正常成年男性无名指长度的95%置信区间。(2)请问该地区正常成年男性无名指长度是否大于一般汉族成年男性?答:(1)一般情况下汉族正常成年男性无名指长度服从正态分布,10.14x,0.26s,12n,11v,其95%置信区间为:2,(9.97,10.30)vsxtn根据计算,可推断该地区