第八章回归分析第一节Linear过程8.1.1主要功能8.1.2实例操作第二节CurveEstimation过程8.2.1主要功能8.2.2实例操作第三节Logistic过程8.3.1主要功能8.3.2实例操作第四节Probit过程8.4.1主要功能8.4.2实例操作第五节Nonlinear过程8.5.1主要功能8.5.2实例操作回归分析是处理两个及两个以上变量间线性依存关系的统计方法。在医学领域中,此类问题很普遍,如人头发中某种金属元素的含量与血液中该元素的含量有关系,人的体表面积与身高、体重有关系;等等。回归分析就是用于说明这种依存变化的数学关系。第一节Linear过程8.1.1主要功能调用此过程可完成二元或多元的线性回归分析。在多元线性回归分析中,用户还可根据需要,选用不同筛选自变量的方法(如:逐步法、向前法、向后法,等)。返回目录返回全书目录8.1.2实例操作[例8.1]某医师测得10名3岁儿童的身高(cm)、体重(kg)和体表面积(cm2)资料如下。试用多元回归方法确定以身高、体重为自变量,体表面积为应变量的回归方程。儿童编号体表面积(Y)身高(X1)体重(X2)123456789105.3825.2995.3585.2925.6026.0145.8306.1026.0756.41188.087.688.589.087.789.588.890.490.691.211.011.812.012.313.113.714.414.915.216.08.1.2.1数据准备激活数据管理窗口,定义变量名:体表面积为Y,保留3位小数;身高、体重分别为X1、X2,1位小数。输入原始数据,结果如图8.1所示。图8.1原始数据的输入8.1.2.2统计分析激活Statistics菜单选Regression中的Linear...项,弹出LinearRegression对话框(如图8.2示)。从对话框左侧的变量列表中选y,点击钮使之进入Dependent框,选x1、x2,点击钮使之进入Indepentdent(s)框;在Method处下拉菜单,共有5个选项:Enter(全部入选法)、Stepwise(逐步法)、Remove(强制剔除法)、Backward(向后法)、Forward(向前法)。本例选用Enter法。点击OK钮即完成分析。图8.2线性回归分析对话框用户还可点击Statistics...钮选择是否作变量的描述性统计、回归方程应变量的可信区间估计等分析;点击Plots...钮选择是否作变量分布图(本例要求对标准化Y预测值作变量分布图);点击Save...钮选择对回归分析的有关结果是否作保存(本例要求对根据所确定的回归方程求得的未校正Y预测值和标准化Y预测值作保存);点击Options...钮选择变量入选与剔除的α、β值和缺失值的处理方法。8.1.2.3结果解释在结果输出窗口中将看到如下统计数据:****MULTIPLEREGRESSION****ListwiseDeletionofMissingDataEquationNumber1DependentVariable..YBlockNumber1.Method:EnterX1X2Variable(s)EnteredonStepNumber1..X22..X1MultipleR.94964RSquare.90181AdjustedRSquare.87376StandardError.14335AnalysisofVarianceDFSumofSquaresMeanSquareRegression21.32104.66052Residual7.14384.02055F=32.14499SignifF=.0003------------------VariablesintheEquation------------------VariableBSEBBetaTSigTX1.068701.074768.215256.919.3887X2.183756.056816.7576603.234.0144(Constant)-2.8564766.017776-.475.6495EndBlockNumber1Allrequestedvariablesentered.结果显示,本例以X1、X2为自变量,Y为应变量,采用全部入选法建立回归方程。回归方程的复相关系数为0.94964,决定系数(即r2)为0.90181,经方差分析,F=34.14499,P=0.0003,回归方程有效。回归方程为Y=0.0687101X1+0.183756X2-2.856476。本例要求按所建立的回归方程计算Y预测值和标准化Y预测值(所谓标准化Y预测值是指将根据回归方程求得的Y预测值转化成按均数为0、标准差为1的标准正态分布的Y值)并将计算结果保存入原数据库。系统将原始的X1、X2值代入方程求Y值预测值(即库中pre_1栏)和标准化Y预测值(即库中zpr_1栏),详见图8.3。图8.3计算结果的保存本例还要求对标准化Y预测值作变量分布图,系统将绘制的统计图送向ChartCarousel窗口,双击该窗口可见下图显示结果。图8.4对标准化Y预测值所作的正态分布图返回目录返回全书目录第二节CurveEstimation过程8.2.1主要功能调用此过程可完成下列有关曲线拟合的功能:1、Linear:拟合直线方程(实际上与Linear过程的二元直线回归相同,即Y=b0+b1X);2、Quadratic:拟合二次方程(Y=b0+b1X+b2X2);3、Compound:拟合复合曲线模型(Y=b0×b1X);4、Growth:拟合等比级数曲线模型(Y=e(b0+b1X));5、Logarithmic:拟合对数方程(Y=b0+b1lnX)6、Cubic:拟合三次方程(Y=b0+b1X+b2X2+b3X3);7、S:拟合S形曲线(Y=e(b0+b1/X));8、Exponential:拟合指数方程(Y=b0eb1X);9、Inverse:数据按Y=b0+b1/X进行变换;10、Power:拟合乘幂曲线模型(Y=b0Xb1);11、Logistic:拟合Logistic曲线模型(Y=1/(1/u+b0×b1X)。返回目录返回全书目录8.2.2实例操作[例8.2]某地1963年调查得儿童年龄(岁)X与锡克试验阴性率(%)Y的资料如下,试拟合对数曲线。年龄(岁)X锡克试验阴性率(%)Y12345657.176.090.993.096.795.6796.28.2.2.1数据准备激活数据管理窗口,定义变量名:锡克试验阴性率为Y,年龄为X,输入原始数据。8.2.2.2统计分析激活Statistics菜单选Regression中的CurveEstimation...项,弹出CurveEstimation对话框(如图8.5示)。从对话框左侧的变量列表中选y,点击钮使之进入Dependent框,选x,点击钮使之进入Indepentdent(s)框;在Model框内选择所需的曲线模型,本例选择Logarithmic模型(即对数曲线);选Plotmodels项要求绘制曲线拟合图;点击Save...钮,弹出CurveEstimation:Save对话框,选择Predictedvalue项,要求在原始数据库中保存根据对数方程求出的Y预测值,点击Continue钮返回CurveEstimation对话框,再点击OK钮即可。图8.5曲线拟合对话框8.2.2.3结果解释在结果输出窗口中将看到如下统计数据:ndependent:XDependentMthRsqd.f.FSigfb0b1YLOG.913552.32.00161.325920.6704在以X为自变量、Y为应变量,采用对数曲线拟合方法建立的方程,决定系数R2=0.913(接近于1),作拟合优度检验,方差分析表明:F=52.32,P=0.001,拟合度很好,对数方程为:Y=61.3259+20.6704lnX。本例要求绘制曲线拟合图,结果如图8.6所示。图8.6对数曲线拟合情形根据方程Y=61.3259+20.6704lnX,将原始数据X值代入,求得Y预测值(变量名为fit_1)存入数据库中,参见图8.7。图8.7计算结果的保存返回目录返回全书目录第三节Logistic过程8.3.1主要功能调用此过程可完成Logistic回归的运算。所谓Logistic回归,是指应变量为二级计分或二类评定的回归分析,这在医学研究中经常遇到,如:死亡与否(即生、死二类评定)的概率跟病人自身生理状况和所患疾病的严重程度有关;对某种疾病的易感性的概率(患病、不患病二类评定)与个体性别、年龄、免疫水平等有关。此类问题的解决均可借助逻辑回归来完成。特别指出,本节介绍的Logistic过程,应与日常所说的Logistic曲线模型(即S或倒S形曲线)相区别。用户如果要拟合Logistic曲线模型,可调用本章第二节CurveEstimation过程,系统提供11种曲线模型,其中含有Logistic曲线模型(参见上节)。在一般的多元回归中,若以P(概率)为应变量,则方程为P=b0+b1X1+b2X2+…+bkXk,但用该方程计算时,常会出现P1或P0的不合理情形。为此,对P作对数单位转换,即logitP=ln(P/1-P),于是,可得到Logistic回归方程为:eb0+b1X1+b2X2+…+bkXkP=———————————1+eb0+b1X1+b2X2+…+bkXk返回目录返回全书目录8.3.2实例操作[例8.3]某医师研究男性胃癌患者发生术后院内感染的影响因素,资料如下表,请通过Logistic回归统计方法对主要影响因素进行分析。术后感染(有无)Y年龄(岁)X1手术创伤程度(5等级)X2营养状态(3等级)X3术前预防性抗菌(有无)X4白细胞数(×109/L)X5癌肿病理分度(TNM得分总和)X6有有无无无有无有有697257413265585455453113342232113222无无无有有有有无有5.64.49.711.210.47.03.16.67.9964555667无无无无无无596436424850121341121122有无有有有有6.09.18.45.34.612.84686548.3.2.1数据准备激活数据管理窗口,定义变量名:术后感染为Y(字符变量,有输入Y、无输入N),年龄为X1,手术创伤程度为X2,营养状态为X3,术前预防性抗菌为X4(字符变量,有输入Y、无输入N),白细胞数为X5,癌肿病理分度为X6。按要求输入原始数据。8.3.2.2统计分析激活Statistics菜单选Regression中的Logistic...项,弹出LogisticRegression对话框(如图8.8示)。从对话框左侧的变量列表中选y,点击钮使之进入Dependent框,选x1、x2、x3、x4、x5和x6,点击钮使之进入Covariates框;点击Method处的下拉按钮,系统提供7种方法:图8.8逻辑回归对话框1、Enter:所有自变量强制进入回归方程;2、Forward:Conditional:以假定参数为基础作似然比概率检验,向前逐步选择自变量;3、Forward:LR:以最大局部似然为基础作似然比概率检验,向前逐步选择自变量;4、Forward:Wald:作Wald概率统计法,向前逐步选择自变量;5、Backward:Conditional:以假定参数为基础作似然比概率检验,向后逐步选择自变量;6、Backward:LR:以最大局部似然为基础作似然比概率检验,向后逐步选择自变量;7、Backward:Wald:作Wald概率统计法,向后逐步选择自变量。本例选用Forward:Conditional法,以便选择有主要作用的影响因素;点击Options...钮,弹出LogisticRegression:Options对话框,在Display框中选取Atlaststep项,要求只显示最终计算结果,点击Cont