第九章双变量回归与相关一、直线回归(linearregression)直线回归分析的步骤散点图、正态性检验利用样本数据建立回归方程回归方程的拟和优度检验回归方程的显著性检验(t检验和F检验)残差分析、预测2二、SPSS17.0软件操作(直线回归)例1见P184例9-1。X:年龄(岁);Y:尿肌酐含量(mmol/24h)。1.绘制散点图散点图XY13.003.5411.003.019.003.096.002.488.002.5610.003.3612.003.187.002.653二、SPSS17.0软件操作(直线回归)例11.绘制散点图简单散点图应变量Y自变量X4二、SPSS17.0软件操作(直线回归)例11.绘制散点图散点图显示:年龄与尿肌酐含量之间有线性相关趋势,因此可以进一步做直线回归与相关5二、SPSS17.0软件操作(直线回归)例12.直线回归分析估计尿肌酐含量(Y)对其年龄(X)的回归方程检验例1数据得到的直线方程是否成立?•H0:=0,即尿肌酐含量与年龄无直线关系;•H1:≠0,即尿肌酐含量与年龄有直线关系。•=0.05。方法一:t检验方法二:F检验bbsbt残差回归MSMSF两种方法等价6二、SPSS17.0软件操作(直线回归)例12.直线回归分析Regression,回归Linear直线7二、SPSS17.0软件操作(直线回归)应变量自变量8相关系数r决定系数R2调整R2SS回归SS残差SS总截距a回归系数bSb标准化回归系数t值P值F=t29•例12.直线回归分析估计尿肌酐含量(Y)对其年龄(X)的回归方程b=0.1392a=1.6617直线回归方程为:XY1392.06617.1ˆ检验例1数据得到的直线方程是否成立?(1)方差分析H0:=0,即尿肌酐含量与年龄无直线关系;H1:≠0,即尿肌酐含量与年龄有直线关系。=0.05。检验统计量:F=20.968确定P值P=0.004结论:按照α=0.05的水准,拒绝H0,可认为尿肌酐含量与年龄之间有直线关系。10(2)t检验H0:=0,即尿肌酐含量与年龄无回归关系;H1:≠0,即尿肌酐含量与年龄有回归关系。=0.05。检验统计量:t=4.579确定P值P=0.004结论:按照α=0.05的水准,拒绝H0,接受H1,可认为尿肌酐含量与年龄之间有直线关系。11二、SPSS17.0软件操作(直线回归)例13.直线回归的预测及置信区间估计给定X=X0,预测Y12二、SPSS17.0软件操作(直线回归)例13.直线回归的预测及置信区间估计Regression,回归Linear直线13二、SPSS17.0软件操作(直线回归)例13.直线回归的预测及置信区间估计保存(产生新变量,保存在当前数据库)统计总体回归系数的置信区间估计14二、SPSS17.0软件操作(直线回归)例13.直线回归的预测及置信区间估计预测值非标准化预测区间Y的均数个体Y值15二、SPSS17.0软件操作(直线回归)例13.直线回归的预测及置信区间估计总体回归系数的95%置信区间残差预测值残差标准差16二、SPSS17.0软件操作(直线回归)X0Y的预测值Y的均数的置信区间的下限及上限个体Y值的容许区间的下限及上限17三、相关(correlation)•直线相关要求两个变量服从双变量正态分布•进行相关分析前,必须先做散点图,初步判断两个变量间是否存在相关趋势,同时进行正态性检验•计算相关系数•种类:简单线性相关系数(Pearson)(如:身高和体重);Spearman相关系数和Kendall相关系数(如:不同年龄段与不同收入段,职称和受教育年份)•相关系数检验18相关分析―Correlate菜单例2P192例9-5对例1数据,计算8名儿童的尿肌酐含量与年龄的相关系数;先用Graphs—Scatter—Simple作散点图(尿肌酐含量为Y轴,年龄为X轴)再用Bivariate过程计算Pearson相关系数对例9-5所得r值,检验尿肌酐含量与年龄是否有直线相关关系?H0:ρ=0,即尿肌酐含量与年龄无直线相关关系;H1:ρ≠0,即尿肌酐含量与年龄有直线相关关系。=0.052021需要进行相关分析的变量,至少需要选入两个计算的相关分析指标简单相关系数等级相关系数一致性相关系数22P值相关系数r对例9-5所得r值,检验尿肌酐含量与年龄是否有直线相关关系?H0:ρ=0,即尿肌酐含量与年龄无直线相关关系;H1:ρ≠0,即尿肌酐含量与年龄有直线相关关系。=0.05。检验统计量:t=4.579确定P值P=0.004结论:按照α=0.05的水准,拒绝H0,接受H1,可认为尿肌酐含量与年龄之间有直线关系。23秩相关的应用条件•不服从双变量正态分布(从原始数据的基本统计描述或散点图中可以看出)•总体分布类型未知•原始数据是用等级表示24例3P197例9-8某省调查了1995-1999年当地居民18类死因的构成以及每种死因导致的潜在工作损失年数WYPLL的构成,结果见表9-3.以死因构成为X,WYPLL构成为Y,作等级相关分析。•H0:ρs=0,即死因的构成与WYPLL的构成无直线相关关系;•H1:ρs≠0,即死因的构成与WYPLL的构成有直线相关关系。=0.05。26P值等级相关系数rs27例3P197例9-8某省调查了1995-1999年当地居民18类死因的构成以及每种死因导致的潜在工作损失年数WYPLL的构成,结果见表9-3.以死因构成为X,WYPLL构成为Y,作等级相关分析。•H0:ρs=0,即死因的构成与WYPLL的构成无直线相关关系;•H1:ρs≠0,即死因的构成与WYPLL的构成有直线相关关系。=0.05。检验统计量:rs=0.905确定P值:P0.001结论:按照α=0.05的水准,拒绝H0,接受H1,可认为当地居民死因的构成和各种死因导致的潜在工作损失年数WYPLL的构成存在正相关关系。28