多重线性回归

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

《医用多元统计分析》辽宁省第十八届教育教学信息化大奖赛参赛作品第八讲多重线性回归多重线性回归多重线性回归是简单线性回归(直线回归)的直接推广,其包含一个因变量和二个或二个以上的自变量。简单线性回归是研究一个因变量(Y)和一个自变量(X)之间数量上相互依存的线性关系。而多重线性回归是研究一个因变量(Y)和多个自变量(Xi)之间数量上相互依存的线性关系。简单线性回归的大部分内容可用于多重回归,因其基本概念是一样的。多重线性回归的主要用途(1)建立一个可反映应变量与自变量关系的多重回归方程;(2)利用多重回归方程,用已知的自变量值去估计未知应变量;(3)分析一个应变量与多个自变量的相关关系;(4)可以进行自变量的筛选。人的体重与身高、胸围血压值与年龄、性别、劳动强度、饮食习惯、吸烟状况、家族史糖尿病人的血糖与胰岛素、糖化血红蛋白、血清总胆固醇、甘油三脂射频治疗仪定向治疗脑肿瘤过程中,脑皮质的毁损半径与辐射的温度、照射的时间多个变量间关系举例多重线性回归回归模型和偏回归系数的检验标准化偏回归系数和决定系数回归分析中的若干问题多重线性回归模型回归模型过程中自变量的筛选多重线性回归的应用一、多重线性回归模型eXXXYmm22110。也称影响后的随机误差,个自变量对是除去变量。的平均改变量每改变一个单位引起因件下,不变的条,表示其它自变量固定称为,,又称为截距;为式中残差偏回归系数常数项YmeYXmiii),2,1(0多重线性回归分析mmXbXbXbbY22110ˆ目的:利用样本数据建立多重线性回归方程估计值。的,是为样本,的估计值,为的估计值;为式中iimibbYY偏回归系数常数项),2,1(ˆ00二、回归模型和偏回归系数的假设检验1.回归模型的假设检验:H0:β1=β1=…=βmH1:β1,β2,…,βm不全等于0=0.05建立回归方程后,须分析应变量Y与这m个自变量之间是否确有线性回归关系,可用方差分析。检验统计量为:1)1/(/mndfmdfmnSSmSSMSMSF剩回剩回剩回,当P0.05时,拒绝H0,回归模型有统计学意义。回归模型的假设检验若拒绝H0,则可分别对每一个偏回归系数βi作统计检验,实质是考察在固定其它变量后,该变量对应变量Y的影响有无统计学意义。常用t检验H0:βi=0,H1:βi≠0,=0.051,)(mndfbSEbtiii2.偏回归系数的假设检验三、标准化偏回归系数和决定系数表示:回归平方和SS回归在总平方和SS总中所占的比例。R2可用来定量评价在Y的总变异中,由M个自变量建立的线性回归方程所能解释的比例。总残总回SSSSSSSSR12102R,R2越接近1,回归方程的拟合越好1.决定系数(determinationcoefficient)2.校正决定系数(Adjusteddeterminationcoefficient)mnnRnSSmnSSMSMSRc)1(1)1(1)1/()1/(1122总残总残-Yˆ响考虑了自变量个数的影,22RRcYiiiSSbb标准化偏回归系数的绝对值越大,说明自变量Xi对应变量Y的影响越大。3.标准化偏回归系数:在比较各自变量对应变量相对贡献大小时,由于各自变量的单位不同,不能直接用偏回归系数的大小作比较,须用标准化偏回归系数。四、回归方程中自变量的筛选多重线性回归方程中并非自变量越多越好逐步回归分析是寻求“较佳”回归方程的一种方法。选择变量的方法:向前引入法(forwardselection)向后剔除法(backwardselection)逐步引入-剔除法(stepwiseselection五、回归分析中的若干问题(1)Y与X1,X2,…Xm间存在线性关系(2)各例观测值Yi相互独立(3)残差服从正态分布且方差齐),0(~2Nei(一)应用条件(二)样本含量观察个体数n与变量个数m的比例一般至少应为:n:m=5~10(三)变量的数量化(1)自变量为连续型变量:必要时作变换(2)自变量为有序变量:依次赋值,如疗效好中差,可分别赋值3、2、1;(3)自变量为二分类:如令男=1,女=0(4)自变量为无序多分类:需要采用哑变量(dummyvariables)进行编码崩漏分型X1X2X3肾虚100肝虚010肝郁001血虚000例如,中医治疗崩漏,分为肾虚、肝虚、肝郁、血虚4型,可以定义3个哑变量X1、X2、X3来标识这4个类别。(四)多重共线性多重共线性:自变量之间存在较强的线性关关系。如果共线性存在,将很难求得较为理想的回归方程。判断多重共线性方法:(1)相关系数r0.9,变量间存在共线性;(2)方差膨胀因子VIF,VIF越大,共线性越严重。六、多重回归分析的应用(1)描述变量间的数量依存关系(2)影响因素分析,控制混杂因素(3)估计与预测(4)为进一步学习其他多元统计分析方法提供基础例8-1研究表明,注射乌头碱可以导致心率失常,且心率失常发生的时间可能与注射速度有关,而预先给予常咯啉可以延缓心率失常发生的时间,且作用大小与用药剂量有关,为探讨这两种药物对心率失常的影响,用大白鼠做受试对象,观察指标为注射乌头碱开始至心率失常发生的时间。考虑到大百鼠的体重也可能与心率失常发生的时间有关,实验收集资料如表。分析乌头碱不同注射速度(X1)、常咯啉的不同剂量(X2)、大鼠体重(X3)3个自变量与应变量延缓心率失常发生时间(Y)的关系。实例8-1编号X1X2X3Y14.880.0823019.125.60.0726015.737.10.0125214.944.90.0722919.052.60.1122020.966.60.1124717.575.20.0723319.285.50.1122221.894.70.0320620.5106.80.0124414.5115.40.0222218.6122.90.2122623.2134.00.0123416.8143.10.1121222.7153.10.1021221.91.建立数据文件在SPSS数据编辑窗,建立数据文件Li8-1.sav。自变量:“x1”,“x2”,“x3”;应变量:“Y”,2.spss操作过程从菜单选择Analyze→Regression→Linear(线性回归)指定Dependent:YIndependent(自变量):X1、X2、X3在Method(方法)框:选择Stepwise(逐步回归)击Statistic按钮:选择Confidenceintervals(置信区间)、击Plots(图形)按钮:指定Y轴:SRESID(学生化残差)X轴:DEPENDNT(应变量)选取:Histonram(直方图)、Normalprobabilitypiot(正态P-P图)模型概述复相关系数R=0.986决定系数R2=0.972校正决定系数Rc2=0.968方差分析表F=209.539P=0.000线性回归模型有统计学意义回归系数表564.01bb0=45.110b2=28.844b3=-0.123标准回归系数682.0564.032bb建立二元线性回归方程32123.0844.28110.45ˆXXY32682.0564.0bb说明对延缓心率失常时间影响的作用大鼠体重大于常咯林剂量。残差直方图残差分布比较均匀,近似正态分布残差P-P图例8-2有学者认为血清中低密度脂蛋白增高和高密度脂蛋白降低是引起动脉硬化的一个重要原因。现测得30名怀疑患有动脉硬化的就诊患者的载脂蛋白A、载脂蛋白B、载脂蛋白E、载脂蛋白C、低密度脂蛋白中的胆固醇、高密度脂蛋白中的胆固醇含量,资料见表8-2。分别建立低、高密度脂蛋白中的胆固醇含量对载脂蛋白A、载脂蛋白B、载脂蛋白E、载脂蛋白C的线性回归方程。实例8-2模型概述复相关系数R=0.773决定系数R2=0.538校正决定系数Rc2=0.503方差分析表F=17.702P=0.000线性回归模型有统计学意义回归系数表564.01bb0=41.841b2=1.254b4=-2.341标准回归系数0.485b0.676b42建立二元线性回归方程32.341X1.254X41.841Yˆ242b0.4850.676b作者:李新李伟单位:辽宁中医药大学联系电话:13898126890《医用多元统计分析》

1 / 38
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功