统计学第9次作业郭晓兰微生物学12213641一、计算题为确定老年妇女进行体育锻炼还是增加营养会减缓骨骼损伤,一名研究者用光子吸收法测量了骨骼中无机物含量,对三根骨头主侧和非主侧记录了测量值,结果见教材表11-20。分别用两种桡骨测量结果作为反应变量对其他骨骼测量结果作多重线性回归分析,提出并拟合适当的回归模型,分析残差。教材表11-20骨骼中无机物的含量受试者编号主侧桡骨桡骨主侧肱骨肱骨主侧尺骨尺骨11.1031.0522.1392.2380.8730.87220.8420.8591.8731.7410.5900.74430.9250.8731.8871.8090.7670.71340.8570.7441.7391.5470.7060.67450.7950.8091.7341.7150.5490.65460.7870.7791.5091.4740.7820.57170.9330.8801.6951.6560.7370.80380.7990.8511.7401.7770.6180.68290.9450.8761.8111.7590.8530.777100.9210.9061.9542.0090.8230.765110.7920.8251.6241.6570.6860.668120.8150.7512.2041.8460.6780.546130.7550.7241.5081.4580.6620.595140.8800.8661.7861.8110.8100.819150.9000.8381.9021.6060.7230.677160.7640.7571.7431.7940.5860.541170.7330.7481.8631.8690.6720.752180.9320.8982.0282.0320.8360.805190.8560.7861.3901.3240.5780.610200.8900.9502.1872.0870.7580.718210.6880.5321.6501.3780.5330.482220.9400.8502.3342.2250.7570.731230.4930.6161.0371.2680.5460.615240.8350.7521.5091.4220.6180.664250.9150.9361.9711.8690.8690.868解:1.以主侧桡骨无机物含量为Y变量(因变量);以其他骨骼测量结果为自变量(桡骨无机物含量为1X变量,主侧肱骨为2X变量,肱骨为3X变量,主侧尺骨为4X变量,尺骨为5X变量)来作多重线性回归分析。(1)统计描述、统计推断与变量筛选SPSS步骤:Analyze→Regressionlinear→将Y变量选入Dependents框中,将5个自变量选入Independents框中→Method选“stepwise”→点击下方“statistics”,勾选“Estimates”、“Confidenceintervals”、“Modelfit”、“Collinearitydiagnostics”和“Durbin-Watson”,点击“Continue”→点击“Save”,“PredictedValues”选“Unstandardized”,“Residuals”选“Unstandardized”和“Standardized”,Predictionintervals选“Mean”和“Individual”点击“Continue”→点击下方“Plots”,将ZPRED选入X框;ZRESID选入Y框,StandardizedResidualPlots勾选“Histogram”→Continue→点击OK得出结果。表1回归模型的确定系数与调整确定系数表2回归系数及其假设检验结果表3回归方程方差分析表由SPSS软件分析结果可知:用逐步法来筛选变量,将1X(桡骨)、2X(主侧肱骨)和3X(肱骨)三个自变量引入方程中。方程为321281.0291.0955.0027.0ˆXXXY。回归方程的假设检验:0H:0321;1H:0321不全为、、;05.0由表3可得方差分析979.33F,P<0.05,拒绝0H,接受1H,按05.0水准,可认为多重线性回归方程321281.0291.0955.0027.0ˆXXXY有统计学意义。由表1可得方程的确定系数829.02R,调整确定系数adR2=0.805,其说明了回归方程拟合效果较好。回归系数的假设检验:0H:0i;1H:0i;05.0由表2可得955.0b1,291.02b,281.03b,经过t检验,三者P均小于0.05,拒绝0H,接受1H,按05.0水准,可认为三个总体偏回归系数均不为零。1的95%置信区间为(0.647,1.263);2的95%置信区间为(0.120,0.462);3的95%置信区间为(-0.501,-0.061)。另外根据标准化偏回归系数可比较各个自变量对因变量的影响:1X的标准化偏回归系数为0.895;2X的标准化偏回归系数为0.724;3X的标准化偏回归系数为-0.649;所以可以估计桡骨无机物含量对主侧桡骨无机物含量的影响最大,其次是主侧肱骨,再次是肱骨。(2)前提条件由(1)SPSS软件操作步骤可得出残差的直方图和残差图,如图1与图2图1残差直方图图2残差与反应变量预测值的残差散点图根据残差直方图,可知给定各个自变量的取值时,反应变量Y的取值服从正态分布;Durbin-Watson统计量的值为2.802,取值在0~4之间,所以满足独立性;根据残差图可知散点随机分布在以0e为中心的、在2e到2e的带状区域内,满足线性与方差齐性。所以该题符合作多重线性回归分析。(3)多重共线性由表2的共线性数据可知:方差膨胀因子367.21VIF;2VIF=5.158;3VIF=7.353,其中2VIF和3VIF大于4,所以2X和3X与其他变量之间可能存在着多重共线性关系。用SPSS软件做MatriXs散点图,可初步了解各个变量之间的相关关系。图3矩阵散点图用SPSS对1X、2X和3X三个自变量作正态性检验,步骤如下:Analyze→descriptivestatistic→Explore→将三个变量选入dependentlist→点击下方的“plots”后勾选“Normalityplotswithtests”→点击OK得出结果。由于三组数据均是小样本,选择Shapiro-wilk,即W检验进行正态性检验。由此可知三个变量均服从正态分布,他们之间散点图呈线性趋势,符合Pearson相关分析的条件。用SPSS进行Pearson相关分析,步骤为:Analyze→Correlate→Bivariate→将两个变量选“Variable”方框→“Correlationalcoefficients”勾选“pearson”→点击OK得出结果,如表4:表4:三个变量之间关系1X2X3X1X0.6120.7492X0.6120.8943X0.7490.894采用t检验对相关系数进行检验:P均小于05.0的检验水准,拒绝0H,接受1H,可认为每两变量间线性相关有统计学意义。其中,2X和3X之间的相关为高度相关,即自变量之间存在多重共线性,应采用删除变量或主成分回归方法进行处理。2.以桡骨无机物含量为Y变量(因变量);以其他骨骼测量结果为自变量(主侧桡骨无机物含量为1X变量,主侧肱骨为2X变量,肱骨为3X变量,主侧尺骨为4X变量,尺骨为5X变量)来作多重线性回归分析。(1)统计描述、统计推断与变量筛选用SPSS软件同上操作进行多重线性回归分析,得出表5、表6和表7:表5回归模型的确定系数与调整确定系数表6回归系数及其假设检验结果表7回归方程假设检验(方差分析)由SPSS软件分析结果可知:用逐步法来筛选变量,将1X(主侧桡骨)和5X(尺骨)两个自变量引入方程中。方程为51446.0525.0066.0ˆXXY。回归方程的假设检验:0H:051;1H:051不全为、;05.0由表7可得方差分析029.52F,P<0.05,拒绝0H,接受1H,按05.0水准,可认为多重线性回归方程51446.0525.0066.0ˆXXY有统计学意义。由表5可得方程的确定系数825.02R,调整确定系数adR2=0.810,其说明了回归方程拟合效果较好。回归系数的假设检验:0H:0i;1H:0i;05.0由表2可得525.0b1,446.05b,经过t检验,两者P均小于0.05,拒绝0H,接受1H,按05.0水准,可认为两个总体偏回归系数均不为零。1的95%置信区间为(0.290,0.761);5的95%置信区间为(0.185,0.707)。另外根据标准化偏回归系数可比较各个自变量对因变量的影响:1X的标准化偏回归系数为0.560;5X的标准化偏回归系数为0.430;所以可以估计主侧桡骨无机物含量对桡骨无机物含量的影响最大,尺骨无机物含量对桡骨影响较小。(2)前提条件由用SPSS软件可得出残差的直方图和残差图,如图4与图5图4残差直方图图5残差与反应变量预测值的残差散点图根据残差直方图,可知给定各个自变量的取值时,反应变量Y的取值服从正态分布;Durbin-Watson统计量的值为2.628,取值在0~4之间,所以满足独立性;根据残差图可知散点随机分布在以0e为中心的、在2e到2e的带状区域内,满足线性与方差齐性。所以该题符合作多重线性回归分析。(3)多重共线性由表6的共线性数据可知:方差膨胀因子850.11VIF;850.15VIF,两者都小于4,所以1X和5X之间不存在共线性关系,无需对回归模型再进行处理。二.请阅读:多重线性回归分析自身因素对全膝关节置换术后疗效的影响.pdf,并回答下列问题:1.本文的研究目的是什么?2.单因素的统计分析方法是否合适?3.所选用的多因素分析方法是否恰当?请简述理由。1.答:本文的研究目的是探讨全膝关节置换术后疗效及自身相关因素(即性别、年龄、BMI、病因和术前患膝状况)对疗效的影响。2.答:单因素的统计分析方法不合适,采用单因素统计方法是假定其他因素齐同一致的情况下,考察单一因素对TKA术后疗效的影响,虽然在一定程度上也能说明该因素对TKA术后疗效变化所扮演的角色。然而,在现实生活中仅受单一因素影响的事件是很少见的,特别在医学领域中,某一疾病的病因、发生、发展、治疗效果及转归通常受到多方面复杂因素的影响。3.答:采用多因素分析方法更合理。因为影响TKA术后疗效的因素不止一个,只有全面分析各个因素对其影响程度,才能更好地提高手术质量。就本组资料而言,其采用多重线性回归分析来探讨性别、年龄、BMI、病因和术前患膝状况这5个自变量对术后疗效的影响,它是研究多个因素对某一定量指标的影响,分析多个自变量与一个应变量之间的线性关系的高级统计方法之一,在实际应用中,它较单因素统计方法处理统计资料就更全面、客观。本研究结果表示术前关节功能状况、病因对术后疗效有影响,而年龄、性别、BMI对TKA术后疗效无影响。然而,通过单因素分析表示除BMI组外,其他4组均对术后疗效有影响。通过查阅相关文献与研究,发现通过多因素分析的结果能更加真实地反映本质。