常见统计学错误

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

1.随机区组设计不可用成组分析方法例1有5件标本I,II,III,IV,V,每一件均匀分成4份,随机分配给4种处理A,B,C,D,得下表资料,试比较处理间的差别。不恰当做法:视纵向4列为4组数据,进行4组间比较。处理组区组ABCDⅠ0.800.360.170.28Ⅱ0.740.380.420.36Ⅲ0.310.200.380.25Ⅳ0.480.180.440.22Ⅴ0.760.260.280.13多次t检验?!分别作两组比较的t检验,得认为:A与B,A与C,A与D差异具有统计学意义;B与C,B与D,C与D差异无统计学意义。A与BA与CA与DB与CB与DC与Dt值3.302.603.610.960.511.43P值0.020.030.010.370.630.19单因素方差分析?!同时比较A,B,C,D四个处理组均数间的差异,得F=0.55,P=0.59认为:四个处理组均数的差异无统计学意义。为什麽不对?(1)辜负了设计的苦心——随机区组设计!*同一件标本为一个区组;*同一区组内4种处理有较好的可比性。无视区组的存在,组内个体间变异较大,识别差异的能力大大降低。(2)不能翻来覆去比较!*6次t检验会增大第一类错误!设每次t检验犯第一类错误的概率为0.05,则6次t检验中一次不错的概率=(1-0.05)6第一类错误的概率=至少一次出错的概率=1-(1-0.05)6=0.27正确作法:随机区组资料的方差分析将处理间的差别与扣除区组间变异后的随机误差进行比较,识别差异的能力大大提高。本例,处理组间F=8.23,P=0.003差别有统计学意义区组间F=1.21,P=0.36差别无统计学意义2.析因设计不能用单因素方差分析例2收集甲状腺术中正常甲状腺组织做成16份标本,按析因设计随机分为四个处理组。将处理后的标本分别行免疫组化染色,作单位面积HLA-Ⅱ抗原阳性细胞计数。试分析如下数据:第1组(经95%空气和5%CO2培养7天):2.5,2.4,2.6,2.5第2组(经95%空气和5%CO2培养14天):1.8,1.9,1.7,1.8第3组(经95%O2和5%CO2培养7天):2.2,2.3,2.1,2.2第4组(经95%O2和5%CO2培养14天):1.9,1.8,1.7,1.9单因素方差分析?!直接比较四组资料间的差别F=60.00,P=0.00认为:四组间差别具有统计学意义表2析因设计下的实验结果(均数)A因素(培养)B因素(时间)95%空气和5%CO295%O2和5%CO27天2.5(第一组)2.2(第三组)14天1.8(第二组)1.9(第四组)这是典型的两因素2水平的析因设计!i)有负初衷——分析各因素的效应!ii)直接比较四组资料,组间变异大,不敏感!为什麽不对?正确作法:析因设计的方差分析i)主效应:某一因素各水平间的平均差别。A因素的主效应=[(第三组均数+第四组均数)(第一组均数+第二组均数)]/2=[(2.2+1.9)(2.5+1.8)]/2=0.1ii)交互效应:若某因素的单独效应随另一因素水平的变化而有较大变化,则称这两个因素间存在交互效应。AB的交互效应=[(第四组均数第二组均数)(第三组均数第一组均数)]/2=[(1.9-1.8)-(2.2-2.5)]/2=0.2检验iii)A的主效应:F=1.37,P=0.26;B的主效应:F=47.13,P=0.00A与B的交互效应:F=0.03,P=0.87结论:B因素(培养天数)的效应具有统计学意义。检验A的主效应:F=1.37,P=0.26;B的主效应:F=47.13,P=0.00A与B的交互效应:F=0.03,P=0.87结论:B因素(培养天数)的效应具有统计学意义。3.剂量-反应关系不能用单因素方差分析例3有人分析蛇毒因子(CVF)的剂量对血液白细胞噬菌率的影响,得表3的数据,欲讨论剂量-反应关系。组数CVF剂量例数噬菌率(均数)10560.0±17.0210557.0±15.2320554.0±16.6440551.0±17.2580548.0±16.06160545.0±16.4i)单因素方差分析?!F=0.701,P0.5,均数间差别无统计学意义为什麽不对?有负初衷——探讨反应随剂量变化的趋势*由多个剂量组的比较只能得知均数间是否有差异*有差异不等于有剂量反应关系均数关于log(剂量)的回归分析?!为什麽不对?均数做因变量造成假象!*回归方程是否有统计学意义与反应的变异状况有关*以诸个体反应值的均数作回归计算,掩盖变异性,造成假象对数剂量2.52.01.51.0.50.0-.5噬菌率(均数)62605856545250484644回归方程:Y=61.786-6.886log(剂量)决定系数:R2=0.914。正确作法:用个体资料作回归分析回归方程:Y=61.782-6.884log(剂量)决定系数:R2=0.095。回归方程无统计学意义,无剂量反应关系!若反应和剂量间散点图呈曲线状,剂量可作适当变换。对数剂量2.52.01.51.0.50.0-.5噬菌率(原始数据90807060504030204.重复测量资料不能逐个时间点两组比较例4为研究某食物对血清胆固醇浓度的影响,各取7只兔子,分别以正常食物和待研究食物喂养,在实验前、喂养5周、10周后,各取血测量其中胆固醇浓度,其自然对数转换后的数据见表22.1,问血清胆固醇浓度随时间变化的趋势是否受该食物的影响。处理组对照组家兔号实验前5周后10周后家兔号实验前5周后10周后10.7447412.0133412.62134180.3757410.6678410.56994120.9041412.0541411.62844190.9947410.5844410.46124130.3576411.1378412.196741100.5988410.9555410.59884141.0777411.9487412.239241110.7197411.3542411.03244150.5844411.6684410.985041120.1570410.2461410.61304160.9850411.9262412.915641130.8612410.8829410.75704171.0508411.6386411.225541140.8721410.5550410.540041例5某药物有新、旧两种剂型。为了比较这两种剂型的代谢情况,对16例某病患者服药后0、4、8、12小时的血药浓度作了测量,问该药新旧两种剂型的血药浓度-时间曲线的差别是否具有统计学意义。表54个时点的某药新旧剂型血药浓度(Lmol/)编号旧剂型新剂型0小时4小时8小时12小时编号0小时4小时8小时12小时190.53142.1265.5473.28870.5397.38112.1258.50288.43163.1748.9571.77968.4395.27133.1756.903100.01144.7586.0680.011057.3778.4383.1648.34446.32126.3348.9539.5411105.80120.54136.3384.03573.69138.9670.0260.891280.01104.75114.7565.616105.27126.3375.0183.661356.3275.2796.3347.52786.32121.0678.9570.241453.69110.02138.9645.441585.27110.01126.3369.471666.32115.27129.0655.29图22.1两组家兔血清胆固醇的对数随时间的变化3.54.04.55.05.56.06.5实验前5周后10周后胆固醇(mg%)的对数处理组对照组图22.2某药新旧剂型血药浓度随时间的变化30609012015018004812时间(小时)血药浓度(μmol/L)旧剂型新剂型常见的不妥i)对每个时间点,分别计算均数、标准差;将各时间点测量值的均值用线连接,标出“误差”线ii)在各时间点做t检验或Mann-WhitneyU检验图22.3各组家兔血清胆固醇浓度对数的均数与标准差(**表示P0.01)3.54.04.55.05.56.06.5实验前5周后10周后胆固醇(mg%)的对数处理组对照组****图22.1两组家兔血清胆固醇的对数随时间的变化3.54.04.55.05.56.06.5实验前5周后10周后胆固醇(mg%)的对数处理组对照组为什麽不对?(1)连接各时间点测量值均数的方法将掩盖个体曲线位置和形状的特点;(2)各均数所对应的点连起来形成的曲线形状可能与诸个体的曲线形状毫不相干;(3)各时间点相应的标准差是一种误导;(4)上述方法无法体现不同时间点的数据来自同一个体,而每一个体的多次重复测量值间具有相关性。(关键所在)正确做法:1)综合指标法(summarymeasuresapproach)或派生变量法(derivedvariableapproach)采用少数独立的综合指标来概括每个个体多个时间点的测量值;用单变量方法比较各组的差异综合指标(均数)总均数t值dfP值处理组1.793141.528911.230741.755241.079311.942311.305011.5192对照组0.537840.680140.717741.035470.338740.833740.655740.68565.6295120.0001综合指标数据类型综合指标有峰型(1)曲线下面积或均数(2)最大(最小)值(3)达到最大(最小)反应的时间生长型(1)回归系数(2)效应变量的最终值或`改变量(3)效应变量达到某一特定值所需时间、效应变量达到基线的特定倍数所需时间2)重复测量资料的方差分析先做“球形检验”不同时间点上数据之间没有相关性?任何两个时间点之间的相关性都一样?重复测量资料的方差分析!例6对表4资料进行单变量方差分析。处理因素(group):F=31.69,P=0.0001测量时间(time):F=11.93,P=0.0003时间与处理交互效应项(time×group):F=10.57,P=0.0005结果:食物对家兔血清胆固醇有影响;家兔血清胆固醇浓度随时间变化;所研究的食物对血清胆固醇浓度随时间变化的趋势也有影响。5.多维列联表资料不可反复做检验例7某地区呼吸系统疾病的患病率较高,有人怀疑与当地室内点香的习惯有关,经抽样调查,得数据如下A1(呼吸系统疾病)A2(无呼吸系统疾病)年龄B1(点香)B2(不点香)B1(点香)B2(不点香)ORC1(20)33030430401.02C2[20,40)12030220601.09C3[40,60)27060170401.06C4(60)906082581.06合计8101809021980.99合并后作检验?!例数呼吸道疾病无呼吸道疾病点香是1712810902否378180198例数呼吸道疾病无呼吸道疾病年龄2083036047020~43015028040~540330210≥602901501402=0.012P=0.912=75.311P=0.001为什麽不对?i)点香与不点香者患病率不可比!年龄组合并掩盖了:点香(B1)与不点香(B2)者年龄结构不同ii)不同年龄组患病率不可比!点香与不点香者合并掩盖了:不同年龄组中点香与不点香者比例的不同正确作法:对数线性模型或logistic回归i)对数线性模型平等地讨论A,B,C三因素对各格子中频数的影响仅当其他变量的影响与某变量无关时,才可通过合并消除该变量ii)logistic回归反应变量:患病与否,解释变量:点香和年龄交互效应:点香×年龄小结设计类型和变量类别决定分析方法:1.随机区组设计不能用成组分析方法不能用t检验或单因素方差分析要用随机区组设计资料的方差分析2.析因设计不能用单因素方差分析要用析因设计资料的方差分析3.剂量-反应关系不能用单因素方差分析要用原始资料的回归分析反映趋势4

1 / 30
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功