回归分析思路

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

冯国双回归家族线性回归Logistic回归Poisson回归负二项回归Weibull回归Cox回归分位数回归Tobit回归…………研究目的比较组间差异寻找危险因素数据分类发展趋势预测…………数据类型/分布线性回归Logistic回归Poisson回归Cox回归Tobit回归Weibull回归Gamma回归…………因变量为连续资料因变量为分类资料因变量为计数资料因变量为生存资料因变量为截取资料服从Weibull分布服从gamma分布应用条件检查线性回归:线性(linearity)可简单通过绘制散点图来观察独立性(independent)通常可根据专业知识来判断正态性(normality)可绘制残差的正态概率图,或对残差进行正态性检验等方差性(equalvariance)可通过绘制残差与因变量预测值的散点图来观察应用条件检查Logistic回归独立性线性:logitP与自变量满足线性有序logistic回归/累积比数logit模型需满足比例优势假定条件(Proportionaloddsassumption)应用条件检查Cox回归需满足等比例风险假定条件(Proportionalhazardsassumption)应用条件检查不满足条件怎么办?线性回归:线性不满足:非线性回归,广义可加模型独立性不满足:多水平模型,空间回归模型正态性不满足:变量变换,非参数回归,分位数回归等方差性不满足:加权最小二乘回归,gamma回归应用条件检查不满足条件怎么办?累积比数logit模型:不满足比例优势假定:偏比例优势模型Cox回归:不满足等比例风险假定:非等比例Cox回归应用条件检查其它常用替代方法:Tobit回归:解决因变量超出某一界限无法测量的问题如:某实验室检测指标,一旦超出1000,便检测不出结果,只能用大于1000表示工资的纳税,低于一定值,没有纳税某问卷调查中,询问去年每周性生活频率(1)完全没有(2)1次(3)1次(4)2-3次(4)3次应用条件检查其它常用替代方法:零膨胀Poisson回归(zero-inflatedPoisson)可用于计数资料中含有大量0值的情形如:吸烟数量,很多人不吸烟,记为0,吸烟的人才开始记录为1、2、3、……应用条件检查其它常用替代方法:竞争风险模型(competingriskmodel)用于生存分析中出现结局以外的其它事件的情形如:观察胃癌发生的影响因素,结局为胃癌发生,但中间可能会出现其它结局,如其它疾病所致的死亡进入分析阶段自变量形式审查:检查自变量与因变量或因变量的变换形式(如logit)之间是否为线性关系010203040506070801357911手足口病发病率月份-0.3-0.2-0.100.10.20.30.401234妊娠次数logitP进入分析阶段关于自变量的形式理论上,回归分析中的自变量可以使任何形式,定量资料和定性资料均可。实际中分析数据时,可结合专业解释角度,对自变量的取值和形式进行适当调整。如logistic回归、Poisson回归等更倾向于自变量以分类的形式进入方程,主要出于解释方便的原因。分析阶段单因素分析是否一定要做单因素分析?(一直有争议)自变量较多时,排除意义不大的变量初步探索每一自变量与因变量的大致关系分析阶段多因素分析寻找所谓的“独立预后”因子多因素分析的变量筛选原则:“少而精”原则,尽量保留所有对因变量有影响的变量,尽可能地剔除掉可有可无的变量分析阶段最常遇到的问题:单因素分析和多因素分析结果差别较大地区、温度对手足口发病率的单因素分析结果ParameterStandardVariableDFEstimateErrortValuePr|t|district112.510837.845841.590.1251temp11.415790.197077.18.0001地区、气温的多因素分析结果ParameterStandardVariableDFEstimateErrortValuePr|t|district113.562883.572623.800.0011temp11.434610.155419.23.0001提示:城市的平均温度高于农村(13.29vs12.56)分析阶段分析阶段变量筛选技术前进法、后退法、逐步法、最优子集法有人称为数据驱动过程(data-drivenprocedure)只要你对数据严刑拷打,它总会招供!分析阶段选择不同的参数检验方法似然比检验得分检验(scoretest)/拉格朗日乘数检验/求导检验Waldχ2检验分析阶段考虑交互效应交互效应的分析应以专业为主!如果交互效应有意义,关注点就不再是变量的主效应,而是变量之间的交互效应回归模型评价通用指标R2——反映自变量对因变量的解释能力,值越大,表示自变量对因变量的解释能力越强校正R2——对决定系数的修正,当加入无意义变量时,该值反而会有所降低AIC——增加了对自由度的“惩罚”,可用于嵌套或非嵌套模型的比较。SC——AIC的一种修正方法,对自由度的“惩罚”力度不同BIC——贝叶斯信息准则,基于似然比的一种指标残差residual——反映了模型预测值与实际值差别的大小,其值越小,表示模型拟合效果越好回归模型评价Logistic回归、Poisson回归等Pearsonχ2——比较预测值和观测值的差别。若χ2值很小,意味着观测值和预测值无“显著差别”,模型很好地拟合了数据。反之,若χ2值很大,统计检验便有“显著差别”,提示拟合了不佳的模型。Deviance——比较饱和模型和现有模型的差别。该值越大,表示现有模型与饱和模型的偏差越大,拟合效果越差。回归诊断1.多重共线性(multi-collinearity)通俗讲即自变量之间存在高度相关诊断指标(多数回归通用):方差扩大因子(VarianceInflationFactor,VIF),指由于共线性所导致的参数估计值的方差增加量,当VIF大于10,通常表示共线性很强容忍度(Tolerance,TOL),方差扩大因子VIF的倒数。当TOL小于0.1,通常表示共线性很强条件指数(conditionindex),最大条件指数即条件数大于10,可能存在共线性;大于30,可能存在严重共线性回归诊断ParameterStandardVarianceVariableDFEstimateErrortValuePr|t|ToleranceInflationIntercept1-19.819639.54699-2.080.0430.0age10.163840.073922.220.03110.913871.09424sbp10.203710.062313.270.00190.499482.00208dbp10.044280.092590.480.63450.503741.98514lwbc16.811493.084822.210.03180.955591.04647Condition------------------------ProportionofVariation------------------------NumberEigenvalueIndexInterceptagesbpdbplwbc14.936481.000000.000246140.000973410.000354120.000440240.0007345220.0295112.934240.000208870.594010.010200.051720.0623230.0237414.419440.006750.000717410.059900.108420.4389440.0056329.619560.030240.019260.929540.699650.0119450.0046532.595680.962550.385040.000002030.139770.48607回归诊断存在多重共线性怎么办(1)根据专业情况,删除其中不重要的变量(2)采用统计学方法处理,如:主成分回归、主成分logistic回归岭回归偏最小二乘回归(partialleastsquareregression)SAS和SPSS中均可实现回归诊断2.异常点离群点(outliners)高杠杆点(highleveragepoints)强影响点(influentialpoints)回归诊断离群点(outliners)主要针对因变量而言,远离其它因变量的值。标准化残差内部学生化残差外部学生化残差通常绝对值大于2,考虑可能是离群点SPSS通常给出标准化残差SAS通常给出两个学生化残差iiiihser-1/iiiiihser-1/)(MSEerii/回归诊断高杠杆点(highleveragepoints)针对自变量而言,远离其它自变量的值。H称为帽子矩阵,对角线元素为hii,度量了第i个观测的影响,反映了第i个观测与所有观测在自变量矩阵X上的平均值之间的距离根据hii值判断,通常大于(k+1)/n(k为自变量个数),提示可能是高杠杆点HYYXXXXXBY')'(ˆ1YHHYYYYe)1(ˆ回归诊断强影响点(influentialpoints)对模型有较大影响,包含或不包含该点可导致模型的参数估计值发生较大改变DFBETA:删除某观测值后对参数估计值的影响标准:大于DFFITS:删除某观测值后对模型拟合的影响标准:大于,k为自变量数)1--)/(1(2knkn2/回归诊断强影响点(influentialpoints)Cook’D:杠杆值和残差的综合度量标准:大于4/(n-k-1),k为自变量个数COVRATIO:杠杆值和残差的综合度量,受残差的影响更大标准:|COVRATIO-1|大于3(k+1)/n回归诊断DependentPredictedStdErrorStdErrorStudentObsVariableValueMeanPredictResidualResidualResidual-2-10121746.0000614.443222.6312131.556845.7912.873||*****|2553.0000613.552919.2172-60.552947.325-1.280|**||3562.0000612.751516.5538-50.751548.321-1.050|**||4563.0000612.751516.5538-49.751548.321-1.030|**||5570.0000612.573416.0357-42.573448.496-0.878|*||6575.0000603.135539.9076-28.135531.881-0.883|*||7581.0000611.505013.7319-30.505049.198-0.620|*||8605.0000611.416013.6156-6.416049.230-0.130|||9607.0000611.326913.5126-4.326949.258-0.0878|||10621.0000611.237913.42349.762149.2830.198|||11624.0000610.614613.201513.385449.3430.271|||12626.0000609.457114.627316.542948.9390.338|||13632.0000608.655816.733323.344248.2590.484|||14640.0000608.833916.204931.166148.4390.643||*|15656.0000608.7448

1 / 45
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功