教学对象:高等医学院校预防医学专业学生实验课时:4学时课程类型:专业实验课课程要求:必修每组人数:1人实验目的1.掌握多元回归分析的概念和偏回归系数、复相关系数,校正复相关系数,剩余标准差的意义;2.了解多元回归分析的步骤;3.熟悉多元线性回归方程求法及假设检验的软件操作。课堂知识复习多元线性回归(重点)自变量选择方法(重点)多元线性回归的应用及注意事项多元线性回归模型的一般形式β0常数项βi偏回归系数(partialregressioncoefficient):在其它自变量保持不变时,Xi增加或减少一个单位时Y的平均变化量。e去除m个自变量对Y影响后的随机误差。回归模型简介eXXXYmm22110多元线性回归分析的一般步骤根据样本数据求得模型参数估计值:对回归方程及各Xj作假设检验。mm22110XbXbXbbYˆ多元线性回归模型应用条件Y与X1,X2,,Xm之间具有线性关系;各个Yi间相互独立;e服从均数为0、方差为2的正态分布。回归方程的方差分析(所有回归系数为0)有关评价指标残差标准差:反映了回归方程的精度,其值越小说明回归效果越好。决定系数:说明所有自变量能解释Y变化的百分比。取值(0,1),越接近1模型拟合越好。复相关系数:说明所有自变量与Y间的线性相关程度。即观察值Y与估计值之间的相关程度。校正决定系数:响考虑了自变量个数的影,22RRcYˆ各自变量的假设检验及评价1.偏回归平方和表示模型中含有其它m-1个自变量的条件下该自变量对Y的回归贡献。其值愈大说明相应的自变量愈重要。)()(残回1mn/SS1/XSSF0.050:H,0:Hjjj1j02.t检验法3.标准化回归系数:用来比较各个自变量Xj对Y的影响程度大小;绝对值越大影响越大。jbjjSbt自变量选择方法全局选择法:对自变量各种不同的组合所建立的回归方程进行比较,从全部组合中挑出一个“最优”的回归方程。1.校正决定系数选择法:所谓“最优”回归方程指校正决定系数最大者。2.Cp准则(C即criterion,p为所选模型中变量的个数;Cp接近(p+1)模型为最优)全局选择计算量很大:6个变量,计算26-1=63个方程;10个变量,计算210-1=1023个方程。逐步选择法按选入变量顺序不同分前进法、后退法与逐步回归法,共同特点是每一步只引入或剔除一个自变量Xj。1.前进法(只选不剔)开始方程中无自变量,然后从方程外选取偏回归平方和最大的自变量作F检验以决定是否选入方程,直至无自变量可以引入方程为止。缺点:后续变量的引入可能使先前引入的变量变的不重要。2.后退法(只剔不选)开始方程中包含全部自变量,然后从方程中选取偏回归平方和最小的自变量作F检验以决定是否从方程中剔除,直至无自变量可以从方程中剔除为止。缺点:当某些自变量高度相关时,可能得不出正确结果。3.逐步回归法(先选后剔,双向筛选)开始方程中无自变量,从方程外选取偏回归平方和最大的自变量作F检验以决定是否选入方程;每引一个自变量进入方程后,从方程中选取偏回归平方和最小的自变量作F检验以决定是否从方程中剔除;直至方程外无自变量可引入,方程内无自变量可剔除为止。出出PFF)1pn,1(jXj剔除内剔入入PFF)1pn,1(jXj入选外引α入值定的越小选取自变量标准越严,被选入方程内自变量数越少。α入值越大则反之。小样本:α入=0.05,α出=0.10。大样本:α入=0.10,α出=0.15。α入α出,以免Xj上一步剔除后下一步又被选入多元线性回归的应用影响因素分析估计与预测统计控制多元线性回归应用的注意事项1.指标的数量化(1)自变量为连续型变量:必要时作变换(2)自变量为有序变量:依次赋值,如疗效好中差,可分别赋值3、2、1(3)自变量为二分类:如令男=1,女=0(4)自变量为名义分类:需要采用哑变量(dummyvariables)进行编码2.样本含量观察个体数n与变量个数m的比例一般至少应为:n:m=5~103.统计“最优”与专业的“最优”不同准则、方法得出的“最优”方程不同;不同的引入、剔除标准获得的“最优”方程不同;方程还受数据的正确性、共线性影响4.多重共线性:自变量间存在着线性关系,使一个或几个自变量可以由另外的自变量线性表示时,称为该变量与另外的自变量间存在有共线性.多重共线性的识别与解决办法整个方程决定系数R2高,但各自变量对应的回归系数均不显著。解决共线性的主要方法:筛选自变量用主成分回归岭回归。5.交互作用当某一自变量对应变量的作用大小与另一个自变量的取值有关时,则表示两个变量有交互作用(interaction)。检验两变量间有无交互作用,普遍的做法是在方程中加入它们的乘积项再做检验。如考察X1、X2间的交互作用,可在模型中加入X1X2项。6.残差分析(检验应用条件)SPSS软件操作过程例:某医生测定27名糖尿病病人的血糖Y(mmol/l)、胰岛素X1(u/ml)、总胆固醇X2(mmol/l)、甘油三脂X3(mmol/l)、糖化血红蛋白X4(%),实测数据如下表,试建立血糖与其他四项指标关系的多元线性回归方程。表15-227名糖尿病人的血糖及有关变量的测量结果总胆固醇甘油三酯胰岛素糖化血红蛋白血糖(mmol/L)(mmol/L)(U/ml)(%)(mmol/L)序号iX1X2X3X4Y15.681.904.538.211.223.791.647.326.98.836.023.566.9510.812.3273.841.206.459.610.41.建立数据文件打开SPSSDataEditor窗口,点击VariableView标签,定义要输入的变量血糖Y(mmol/l)、胰岛素X1(u/ml)、总胆固醇X2(mmol/l)、甘油三脂X3(mmol/l)、糖化血红蛋白X4(%),再点击DataView标签,录入数据(见图)DataView窗口内录入数据2.分析步骤Analyze→Regression→Linear…Dependent:yIndependent:x1、x2、x3、x4Statistics…√Estimates:√Confidenceintervals:√Modelfit√DescriptivesContinueOptions…MissingValuesExcludecasepairwiseContinueOK