简单线性回归、多重线性回归、Logistic回归、Cox回归卢洁Email:hanyaa800@163.com郑州大学公共卫生学院卫生统计学教研室实习四回归分析回归分析1个因变量Y1个自变量X2个以上自变量XY是数值变量Y是分类型变量两个因变量(结局分类变量+时间)生存分析Cox回归④一元回归SimpleregressionLogistic回归Logisticregression多重回归Multipleregression①②③常用的回归分析中分类:曲线回归线性回归回归分析简单线性:多重线性:logistic回归线性回归iiXXXY....22110kkkkxxxxkkeexXX1101101....1ln22110或110011)-1Ln(-)-1Ln()(LneORORXY只1个X:(简单)多个X:XXeeX0011ln0或Cox回归)...exp()()(22110ppXXXththjjRRln)exp(jjRR实习内容简单回归分析:例10-1(P183,实验10-1)多重回归分析:例11-1(P207,实验11-1)Logistic回归分析:例18-1(P365,实验18-1);例18-3(P366,实验18-3);自选实习内容:Cox回归分析:例19-2(P390,实验19-2,实验19-3)(一)线性回归分析例12-1:试对大气污染一氧化氮(NO)的浓度和汽车流量、气温、气湿、风速等的关系进行回归分析。例:只考虑NO浓度和车流量的关系,问之间是否存在数量依存关系?1.简单线性回归适用条件仅适用于1个因变量x和1个应变量y。要求数据满足线性、独立性、正态性、方差齐性的要求。注意样本中的极端值,必要时可剔除或进行变量变换。简单线性回归(simplelinarregression)线性回归分析的步骤:绘制散点图:1.线性趋势?2.异常值或强影响点?估计回归系数b和常数项a回归方程和回归系数β的假设检验参数估计:总体回归系数β的区间估计回归方程的统计应用方程:方差分析回归系数:t检验法预测和控制、影响因素分析XbYa21)())((XXYYXXbiniii最小二乘估计SPSS电脑实现5.结果及结果输出:回归分析结果:车流量158.0135.0ˆy1.当车流量为0时,空气中NO浓度的预测值是-0.135,(显然这只是个理论值,因为此值不可能为负)2.车流量每增加一个单位,空气中NO深度的预测值增加0.158。3.确定系数R2=65.27%,说明空气中NO浓度总变异的65.27%与车流量有关,说明车流量在空气污染中影响还是很大的。例12-1:试对大气污染一氧化氮(NO)的浓度和汽车流量、气温、气湿、风速等的关系进行回归分析。2.多重线性回归适用条件仅适用于1个应变量y和多个因变量x。要求1个应变量y和该组因变量x间满足线性、独立性、正态性、方差齐性的要求。注意样本中的极端值,必要时可剔除或进行变量变换。多重线性回归(multiplelinarregression)3.多重线性回归分析的基本步骤:估计b0、b1、b2…、bP最小二乘法回归方程和系数β的假设检验列出回归方程,统计应用方差分析和t检验ppXbXbXbbY...ˆ22110预测和控制、影响因素分析关联趋势的图形考察确定变量筛选的方法数据预处理:强影响点用多重共线性模型诊断:残差分析是否适合该模型(Line)建模准备散点图、散点图矩阵、重叠/三维散点图【电脑实现】—多重线性回归分析1.数据录入【Plots】标准化残差标准化预测值1.前提条件和残差分析—模型假设诊断2.多重共线性的问题3.哑变量的设置4.交互作用结果输出:1.多重共线性分析的应用条件诊断:1.线性和方差齐性:残差散点图residualplot模型假设诊断:LINESPSS电脑实现3.线性和方差齐性检验结果—残差散点图:散点均匀分布在以0为中心,与横轴平行的带状区域内,可认为基本满足线性和方差齐性的假定条件。2.正态性:残差图residualplot或正态概率图提示残差满足正态分布3.独立性:应用残差图或Durbin-Watson统计量判断Durbin-Watson统计量的取值一般在0-4之间,如果残差之间相互独立,则取值在2左右,如果取值接近0或4,则提示不满足独立性。SPSS电脑实现ModelSummaryd.808a.653.637.035801.851b.725.698.032640.887c.787.755.0293871.593Model123RRSquareAdjustedRSquareStd.ErroroftheEstimateDurbin-WatsonPredictors:(Constant),车流量(X1)a.Predictors:(Constant),车流量(X1),风速(X4)b.Predictors:(Constant),车流量(X1),风速(X4),气温(X2)c.DependentVariable:NO(Y)d.3.独立性检验:若残差之间相互独立,则取值在2左右。11.3.3多重共线性在进行多重线性回归分析时,除了要满足LINE外,还要求各变量之间不能存在共线性,即各变量之间要相互独立。为此,需要进行共线性诊断;当自变量均为随机变量时,若它们之间高度相关,则称变量间存在多重共线性(multicollinearity);自变量之间不存在多重共线性,即称其互相独立。相关系数Correlation容忍度Torelance方差膨胀因子VIF条件数Conditionindex方差比例Varianceproportions,VP方差相关矩阵VarianceMatrix可用来判断变量之间的独立性、或说多重共线性Correlations1.000.808.017.279-.680.8081.000-.141.395-.568.017-.1411.000-.073.384.279.395-.0731.000-.146-.680-.568.384-.1461.000..000.468.094.000.000..255.028.002.468.255..368.032.094.028.368..247.000.002.032.247.24242424242424242424242424242424242424242424242424NO(Y)车流量(X1)气温(X2)气湿(X3)风速(X4)NO(Y)车流量(X1)气温(X2)气湿(X3)风速(X4)NO(Y)车流量(X1)气温(X2)气湿(X3)风速(X4)PearsonCorrelationSig.(1-tailed)NNO(Y)车流量(X1)气温(X2)气湿(X3)风速(X4)如果两个自变量之间的相关系数超过0.9,则会带来共线性问题,如果在0.8以下,一般不会出现多大问题。共线性诊断——1.两个自变量之间的相关系数2.容忍度Tolerance/方差膨胀因子VIFCoefficientsa-.135.035-3.829.001-.209-.062.158.025.8086.432.000.107.2101.0001.000-.050.049-1.027.316-.151.051.122.027.6234.476.000.065.179.6771.477-.025.011-.325-2.338.029-.048-.003.6771.477-.142.058-2.452.024-.263-.021.116.025.5924.699.000.065.168.6701.493-.035.010-.448-3.316.003-.057-.013.5831.716.004.002.2732.430.025.001.008.8441.185(Constant)车流量(X1)(Constant)车流量(X1)风速(X4)(Constant)车流量(X1)风速(X4)气温(X2)Model123BStd.ErrorUnstandardizedCoefficientsBetaStandardizedCoefficientstSig.LowerBoundUpperBound95%ConfidenceIntervalforBToleranceVIFCollinearityStatisticsDependentVariable:NO(Y)a.容忍度=1/VIF经验表明:VIF大于5或10时,存在严重的共线性;一般要求Tolerance必须大于0.1,或VIF必须小于10。CollinearityDiagnosticsa1.9781.000.01.01.0229.566.99.992.7721.000.00.00.02.2173.574.00.04.48.01115.731.99.96.513.7551.000.00.00.01.00.2194.137.00.03.43.00.01814.367.02.67.54.41.00722.717.97.30.02.58Dimension121231234Model123EigenvalueConditionIndex(Constant)车流量(X1)风速(X4)气温(X2)VarianceProportionsDependentVariable:NO(Y)a.3.条件数conditionindex/方差比例varianceproportions,VP一般地,当条件数大于10,且有两个以上的自变量对应的方差比例大于0.5时,可以认为这些自变量是严重相关的。2.多重线性回归分析的结果输出:决定系数越大,说明构建的回归方程越好⑴Enter:强制引入法未标准化的回归系数及标准误回归系数的t检验标准化的回归系数4321035.0000006.0004.0116.0142.0ˆxxxxyModelSummaryd.808a.653.637.035801.851b.725.698.032640.887c.787.755.0293871.593Model123RRSquareAdjustedRSquareStd.ErroroftheEstimateDurbin-WatsonPredictors:(Constant),车流量(X1)a.Predictors:(Constant),车流量(X1),风速(X4)b.Predictors:(Constant),车流量(X1),风速(X4),气温(X2)c.DependentVariable:NO(Y)d.决定系数越大,说明构建的回归方程越好。⑵STEPWISE:逐步回归方程的决定系数ANOVAd.0531.05341.376.000a.02822.001.08123.0592.02927.623.000b.02221.001.08123.0643.02124.687.000c.01720.001.08123RegressionResidualTotalRegressionResidualTotalRegressionResidualTotalModel123SumofSquaresdfMeanSquareFSig.Predictors:(Constant),车流量(X1)a.Predictors:(Constant),车流量(X1),风速(X4)b.Predictors:(Constant),车流量(X1),风速(X4),气温(X2)c.DependentVariable:NO(Y)d.⑵STEPWISE:逐步回归方程的方差分析表Coefficientsa-.135.035-3.829.001-.209-.062.158.025.8086.432.000.107.210-.050.049-1.027.316-.