冯国双回归家族线性回归Logistic回归Poisson回归负二项回归Weibull回归Cox回归分位数回归Tobit回归…………研究目的比较组间差异寻找危险因素数据分类发展趋势预测…………数据类型/分布线性回归Logistic回归Poisson回归Cox回归Tobit回归Weibull回归Gamma回归…………因变量为连续资料因变量为分类资料因变量为计数资料因变量为生存资料因变量为截取资料服从Weibull分布服从gamma分布应用条件检查线性回归:线性(linearity)可简单通过绘制散点图来观察独立性(independent)通常可根据专业知识来判断正态性(normality)可绘制残差的正态概率图,或对残差进行正态性检验等方差性(equalvariance)可通过绘制残差与因变量预测值的散点图来观察应用条件检查Logistic回归独立性线性:logitP与自变量满足线性有序logistic回归/累积比数logit模型需满足比例优势假定条件(Proportionaloddsassumption)应用条件检查Cox回归需满足等比例风险假定条件(Proportionalhazardsassumption)应用条件检查不满足条件怎么办?线性回归:线性不满足:非线性回归,广义可加模型独立性不满足:多水平模型,空间回归模型正态性不满足:变量变换,非参数回归,分位数回归等方差性不满足:加权最小二乘回归,gamma回归应用条件检查不满足条件怎么办?累积比数logit模型:不满足比例优势假定:偏比例优势模型Cox回归:不满足等比例风险假定:非等比例Cox回归应用条件检查其它常用替代方法:Tobit回归:解决因变量超出某一界限无法测量的问题如:某实验室检测指标,一旦超出1000,便检测不出结果,只能用大于1000表示工资的纳税,低于一定值,没有纳税某问卷调查中,询问去年每周性生活频率(1)完全没有(2)1次(3)1次(4)2-3次(4)3次应用条件检查其它常用替代方法:零膨胀Poisson回归(zero-inflatedPoisson)可用于计数资料中含有大量0值的情形如:吸烟数量,很多人不吸烟,记为0,吸烟的人才开始记录为1、2、3、……应用条件检查其它常用替代方法:竞争风险模型(competingriskmodel)用于生存分析中出现结局以外的其它事件的情形如:观察胃癌发生的影响因素,结局为胃癌发生,但中间可能会出现其它结局,如其它疾病所致的死亡进入分析阶段自变量形式审查:检查自变量与因变量或因变量的变换形式(如logit)之间是否为线性关系010203040506070801357911手足口病发病率月份-0.3-0.2-0.100.10.20.30.401234妊娠次数logitP进入分析阶段关于自变量的形式理论上,回归分析中的自变量可以使任何形式,定量资料和定性资料均可。实际中分析数据时,可结合专业解释角度,对自变量的取值和形式进行适当调整。如logistic回归、Poisson回归等更倾向于自变量以分类的形式进入方程,主要出于解释方便的原因。分析阶段单因素分析是否一定要做单因素分析?(一直有争议)自变量较多时,排除意义不大的变量初步探索每一自变量与因变量的大致关系分析阶段多因素分析寻找所谓的“独立预后”因子多因素分析的变量筛选原则:“少而精”原则,尽量保留所有对因变量有影响的变量,尽可能地剔除掉可有可无的变量分析阶段最常遇到的问题:单因素分析和多因素分析结果差别较大地区、温度对手足口发病率的单因素分析结果ParameterStandardVariableDFEstimateErrortValuePr|t|district112.510837.845841.590.1251temp11.415790.197077.18.0001地区、气温的多因素分析结果ParameterStandardVariableDFEstimateErrortValuePr|t|district113.562883.572623.800.0011temp11.434610.155419.23.0001提示:城市的平均温度高于农村(13.29vs12.56)分析阶段分析阶段变量筛选技术前进法、后退法、逐步法、最优子集法有人称为数据驱动过程(data-drivenprocedure)只要你对数据严刑拷打,它总会招供!分析阶段选择不同的参数检验方法似然比检验得分检验(scoretest)/拉格朗日乘数检验/求导检验Waldχ2检验分析阶段考虑交互效应交互效应的分析应以专业为主!如果交互效应有意义,关注点就不再是变量的主效应,而是变量之间的交互效应回归模型评价通用指标R2——反映自变量对因变量的解释能力,值越大,表示自变量对因变量的解释能力越强校正R2——对决定系数的修正,当加入无意义变量时,该值反而会有所降低AIC——增加了对自由度的“惩罚”,可用于嵌套或非嵌套模型的比较。SC——AIC的一种修正方法,对自由度的“惩罚”力度不同BIC——贝叶斯信息准则,基于似然比的一种指标残差residual——反映了模型预测值与实际值差别的大小,其值越小,表示模型拟合效果越好回归模型评价Logistic回归、Poisson回归等Pearsonχ2——比较预测值和观测值的差别。若χ2值很小,意味着观测值和预测值无“显著差别”,模型很好地拟合了数据。反之,若χ2值很大,统计检验便有“显著差别”,提示拟合了不佳的模型。Deviance——比较饱和模型和现有模型的差别。该值越大,表示现有模型与饱和模型的偏差越大,拟合效果越差。回归诊断1.多重共线性(multi-collinearity)通俗讲即自变量之间存在高度相关诊断指标(多数回归通用):方差扩大因子(VarianceInflationFactor,VIF),指由于共线性所导致的参数估计值的方差增加量,当VIF大于10,通常表示共线性很强容忍度(Tolerance,TOL),方差扩大因子VIF的倒数。当TOL小于0.1,通常表示共线性很强条件指数(conditionindex),最大条件指数即条件数大于10,可能存在共线性;大于30,可能存在严重共线性回归诊断ParameterStandardVarianceVariableDFEstimateErrortValuePr|t|ToleranceInflationIntercept1-19.819639.54699-2.080.0430.0age10.163840.073922.220.03110.913871.09424sbp10.203710.062313.270.00190.499482.00208dbp10.044280.092590.480.63450.503741.98514lwbc16.811493.084822.210.03180.955591.04647Condition------------------------ProportionofVariation------------------------NumberEigenvalueIndexInterceptagesbpdbplwbc14.936481.000000.000246140.000973410.000354120.000440240.0007345220.0295112.934240.000208870.594010.010200.051720.0623230.0237414.419440.006750.000717410.059900.108420.4389440.0056329.619560.030240.019260.929540.699650.0119450.0046532.595680.962550.385040.000002030.139770.48607回归诊断存在多重共线性怎么办(1)根据专业情况,删除其中不重要的变量(2)采用统计学方法处理,如:主成分回归、主成分logistic回归岭回归偏最小二乘回归(partialleastsquareregression)SAS和SPSS中均可实现回归诊断2.异常点离群点(outliners)高杠杆点(highleveragepoints)强影响点(influentialpoints)回归诊断离群点(outliners)主要针对因变量而言,远离其它因变量的值。标准化残差内部学生化残差外部学生化残差通常绝对值大于2,考虑可能是离群点SPSS通常给出标准化残差SAS通常给出两个学生化残差iiiihser-1/iiiiihser-1/)(MSEerii/回归诊断高杠杆点(highleveragepoints)针对自变量而言,远离其它自变量的值。H称为帽子矩阵,对角线元素为hii,度量了第i个观测的影响,反映了第i个观测与所有观测在自变量矩阵X上的平均值之间的距离根据hii值判断,通常大于(k+1)/n(k为自变量个数),提示可能是高杠杆点HYYXXXXXBY')'(ˆ1YHHYYYYe)1(ˆ回归诊断强影响点(influentialpoints)对模型有较大影响,包含或不包含该点可导致模型的参数估计值发生较大改变DFBETA:删除某观测值后对参数估计值的影响标准:大于DFFITS:删除某观测值后对模型拟合的影响标准:大于,k为自变量数)1--)/(1(2knkn2/回归诊断强影响点(influentialpoints)Cook’D:杠杆值和残差的综合度量标准:大于4/(n-k-1),k为自变量个数COVRATIO:杠杆值和残差的综合度量,受残差的影响更大标准:|COVRATIO-1|大于3(k+1)/n回归诊断DependentPredictedStdErrorStdErrorStudentObsVariableValueMeanPredictResidualResidualResidual-2-10121746.0000614.443222.6312131.556845.7912.873||*****|2553.0000613.552919.2172-60.552947.325-1.280|**||3562.0000612.751516.5538-50.751548.321-1.050|**||4563.0000612.751516.5538-49.751548.321-1.030|**||5570.0000612.573416.0357-42.573448.496-0.878|*||6575.0000603.135539.9076-28.135531.881-0.883|*||7581.0000611.505013.7319-30.505049.198-0.620|*||8605.0000611.416013.6156-6.416049.230-0.130|||9607.0000611.326913.5126-4.326949.258-0.0878|||10621.0000611.237913.42349.762149.2830.198|||11624.0000610.614613.201513.385449.3430.271|||12626.0000609.457114.627316.542948.9390.338|||13632.0000608.655816.733323.344248.2590.484|||14640.0000608.833916.204931.166148.4390.643||*|15656.0000608.7448