3自变量中有定性变量的回归例1.考虑学生体重(因变量)与身高(自变量、定量变量)的关系时,一般需要把男女学生分开来考虑,因为这一关系很可能因为性别的不同而不同。这些数据储存在SPSS数据文件height.sav中。如果分别考虑男、女生的体重与身高的关系,并假设这一关系为线性的,我们得到(拟合)如下两个简单线性回归方程,括号内为相应系数估计的p-值。女生:w0=-12.446+0.422h0,R2=0.214,(.547)(.002)F=11.165(.002)男生:w1=-37.400+0.645h1,R2=0.434,(.032)(.000)F=42.128(.000)拟合结果表明,男、女生的身高和体重的关系是不同的。问题是:上述身高和体重的关系在不同性别之间的差异显著吗?在上述结果中似乎没有一个合适的量来回答这一问题。在回归模型中引进哑变量(dummyvariable),我们就可以来回答上述问题。哑变量的取值为1和0,用来区分定性变量取某个特定值还是其它值。例1中的变量D就是一个哑变量,哑变量的应用——例1的带有哑变量的回归模型为如下的多元线性回归模型:(变量Dh=D×h)w=b0+b1D+b2h+b3(Dh)+e(1)对于女生,D=0,模型(1)变为w=b0+b2h+e;而男生的模型则为w=(b0+b1)+(b2+b3)h+e。拟合得到如下的回归方程:w=-12.446–24.954D+0.422h+0.223Dh(.534)(.347)(.001)(.166)由拟合结果可以看出,变量D和Dh的系数均不显著。因此可以说,性别对身高和体重关系的影响不显著。但是,由于b0不显著,因此我们需对模型作修改:w=–37.4D+0.346h+0.299Dh(.033)(.000)(.004)此时,变量D和Dh的系数均为显著的。因此我们说,性别对身高和体重关系的影响是显著的。w=–37.4D+0.346h+0.299DhD=0w=0.346hD=1w=–37.4+(0.299+0.346)h男生身高对体重的效应大于女生身高对体重的效应4二项Logistic回归例子在一次住房展销会上,与房地产商签定购房意向书的顾客中,在随后3个月中,只有一部分购买了房屋.购买房屋的顾客记为1,没有购买记为0一、定性因变量的回归方程的意义设因变量y只是取0,1两个值的定性变量,考虑简单线性回归模型:由于,是0—1型贝努利随机变量,则得如下分布根据随机变量的期望值定义,可得二、定性因变量回归的特殊问题1.离散非正态误差项2.零均值异方差性3.回归方程的限制三Logistic回归模型针对0—1型因变量产生的问题,对回归模型应该作两个方面的改进。1.回归函数应该改用限制在区间内的连续曲线,而不能再沿用直线回归方程。2.因变量本身只取0,1两个离散值,不适于直接作为回归模型中的因变量,可以用等于1的比例代替本身作为因变量。ippiixxpbbb110Logit变换)1ln(iiipppLogit发生比Logistic回归模型)](exp[11110ippiixxpbbbippiixxpLogitbbb110回归系数的含义发生比(相对风险)ppodds1为当x1增加1个单位时,)()1()exp(111xoddsxoddsb相对风险的比值基本操作Analyze==》Regression==》BinaryLogisticDependent输入因变量Covariates输入自变量Method:输入自变量筛选策略Enter:强行进入Forward:逐步筛选Backward:向后筛选Select:选择一个变量作为条件变量基本操作Categorical:如果自变量是分类变量生成虚拟变量.CategoricalCovariates:指定分类变量ChangeContrast:选择参照类,最常用为indicator其他操作Option:选择Statisticsandplots:输出统计量和图ClassificatonPlots:绘制因变量实际值与预测分类值的关系图Hosmerlemeshowgoodness-of-fit:输出拟合优度指标Casewiselistingofresiduals:输出各样本数据的非标准化残差,标准化残差Correlationsofestimates:参数估计的相关阵Iterationhistory:最大似然估计的迭代过程CIforexp(B):风险比默认为95%置信区间其他操作Display:显示方法ProbabilityforStepwise:选择逐步回归中自变量进入方程或剔除出方程的显著性水平Classficationcutoff:设置因变量分类分界值MaximumIterations:极大似然估计的最大迭代次数其他操作Save:保存PredictedValues:预测值Probabilities:因变量取1的预测概率值Groupmembership:分类预测值Residuals:残差Influence:COOK距离,杠杆值等实例分析例1:消费行为数据,研究是否购买与性别,年龄,收入水平的关系.性别以男为参照类,收入以低收入为参照类变量选择分别采用(1)强制进入法(2)逐步回归法要求写出Logistic回归方程,解释回归系数的意义逐步回归法主要结果分析1modelsummary表显示了模型拟合优度方面的指标,模型拟合优度不理想2分类表显示了各模型的错判矩阵,第1个模型的总体正确率为62.4%,但对购买人群预测的正确率为0,第2个模型的总体正确率为60.6%,但对购买人群预测的正确率为提高了,第二个模型略好.3回归方程LogitP=-1.11+0.504gender(1)+0.096income(1)+0.761income(2)LogitP|(gender(1)=1)-LogitP|(gender(0))=0.504odds(gender(1)=1)/odds(gender(1)=0)=1.656主要结果分析LogitP=-1.11+0.504gender(1)+0.096income(1)+0.761income(2)LogitP|(income(1)=1,income(1)=0)-LogitP|(income(1)=0,income(1)=0)=0.096odds(中等收入)/odds(低收入)=1.101主要结果分析说明(1)女性的购买发生比是男性的1.656倍(2)中等收入的购买发生比是低等收入的1.101倍,高等收入的购买发生比是低等收入的2.139倍结论:年龄对是否购买该商品无影响,女性及高收入阶层购买可能性大实例分析例2:logist2.sav:某项病因调查工作中,通过病例对照研究,用逐步回归法进行Logistic回归分析,要求对上述主要结果作统计分析,写出Logistic回归方程,解释回归系数意义作业5civil.sav:研究我国民航客运量的变化趋势与成因用逐步回归法选择解释变量,写出最后回归方程,解释回归系数的意义,并作残差分析和多重共线性检测.