1第四章回归分析§4.1模型介绍§4.2一个因变量的线性回归模型的参数估计与假设检验§4.3基本回归诊断§4.4处理多元线性回归中自变量共线性的几种方法§4.5多因变量的多元线性回归§4.6广义线性模型介绍2回归分析,谢宇著,社会科学文献出版社,2010年.回归分析内容的参考书3一、一个自变量一个因变量的回归模型§4.1模型介绍案例1表4.1中的数据是检验某种工业用发动机性能的试验数据.在各种不同的速度SPEED(在每分钟转几百转度量)下,测量发动机产生的马力POWER,试建立马力POWER与速度SPEED的关系式.4序号SPEEDPOWER序号SPEEDPOWER序号SPEEDPOWER122.064.03919.058.001710.532.05220.062.471021.063.211813.039.68318.054.941122.064.031915.045.79416.048.841220.059.632017.051.17514.043.731318.052.92119.056.65612.037.481416.048.842221.062.61715.046.851514.042.742323.065.31817.051.171612.036.632424.063.89表4.156一般模型:)(xfy)()|(xfxyE注:x可能是随机变量,也可能是非随机变量.或7一元线性回归模型:xxyE10)|(10xy或8xxyE10ln)|(lnxey102210kkxxxy多项式模型:可化为线性模型的非线性模型:非线性模型:xexyE10)|(9产生的原因许多其他因素的影响度量误差模型不精确引起的误差10210)var()(yxyE最简单的模型为当x也有测量误差时,称为度量误差模型.例如体重和身高的关系树高和树的直径的关系物理成绩与数学成绩的关系高考成绩与平时成绩的关系粮食产量与施肥量的关系210)|var()|(xyxxyE或11),,2,1(,,,niyxnyxii组观测值有用观测表示的模型10212121111~nnnxxxXyyyy令12),0(~~2nnINXy221,0,~方差为均值为相互独立,,nXy或模型为假设检验区间估计参数的最小二乘估计13二、一个因变量多个自变量的回归模型案例2(用电量的例子)房主对空调在自家电量消耗方面的影响是很关注的,因此他记录了21天中每天空调使用的小时数.他还监测了这些天的电表并计算出使用的千瓦(度)数.同时还记录了烘干器每天使用的次数.试建立用电量KWH与空调使用的小时数AC和烘干器每天使用的次数DRYER的经验公式.数据如下表:14KWHACDRYERKWHACDRYERKWHACDRYER351.51668.01627.51634.529412.518512.01665.02827.52436.00172.00786.53572.53948.53658.01335.00796.03777.52657.519313.51758.02336.00表4.215161718案例3(水泥数据)某种水泥在凝固时单位质量所释放的热量为Y卡/克与水泥中下列四种化学成分有关:.,,,13(%);2(%);4(%);3(%);34321243232322321的关系式与组数据,试求出共观测了的成分的成分的成分的成分xxxxYSiOCaOxOFeOAlCaOxSiOCaOxOAlCaOx19x1x2x3x4Y72666078.5129155274.31156820104.3113184787.675263395.91155922109.2371176102.7131224472.5254182293.12147426115.9140233483.81166912113.31068812109.4表4.320一般模型:),,,()|(21kxxxfxyE注:x可能一部分分量是随机变量,另一部分是非随机变量.或),,,(21kxxxfy21多元线性模型:kkxxxyE110)|(或kkxxy11022多项式模型:可化为线性模型的非线性模型:非线性模型:2211221110)|(kkkxxxxxyE)|(22110xxexyE)ln()|(22011xexyEx232110)|var(|xyxxxyEkk),(~||2110110kkkkxxNxyxxxyE若x也是随机的,一般假设x和y联合分布为正态分布.最简单的是线性模型或24),,2,1(,,,,,,,,,2121niyxxxnyxxxiikiik组观测值有用观测表示的线性回归模型knnknkknxxxxxxXyyyy1021122111121111~令25),0(~~2nnINXy221,0,~方差为均值为相互独立,,,nXy模型为或26案例4设发电量Y1,工业总产值Y2与钢材产量x1,水泥产量x2,机械工业总产值x3,棉纱产量x4,机制纸产量x5之间有线性相关关系,表中收集了1949年到1978年共30年的数据.试用reg过程求出Y1,Y2与x1,x2,x3,x4,x5的关系式.27三、多个因变量多个自变量的回归模型pkppkkxxxfyxxxfyxxxfy),,,(),,,(),,,(212212212111280,,0),,(均值为为相互独立的随机向量uuxXyYByxf度量误差模型29pkkpppppkkkkxxxyxxxyxxxy221102222211202211221111011线性回归模型相关其中:,,,21p30),,2,1(,,,,,,,,,,,,,,,21212121niyyyxxxnyyyxxxipiiikiipk组观测值有用观测表示的线性回归模型令111~1221111212222111211nknkknpnnppxxxxxxXyyyyyyyyyY31kpkkppnpnnppB211121100201212222111211),0(~~)1()1(npnpkknpnINBXY模型为321、建立因变量Y与经验公式(回归方程);2、对经验公式的可信度进行检验;判断每个自变量对Y的影响是否显著?3、诊断经验公式是否适合这组数据;4、利用经验公式进行预报、控制及指导生产.kxxx,,,21),,2,1(kixi回归分析是研究一个(或几个)因变量Y与另一些变量的相互依赖关系.具体研究以下几个问题:33思考:回归分析模型与方差分析模型的区别与联系?•数据类型不同•侧重点不同•均为线性模型34案例5(癌症病情缓解是否发生)见SAS帮助系统中logistic的Example1.因变量:remiss:表示癌症是否缓解,缓解取值为1,没有缓解取值为0.自变量(影响癌症治疗效果的因素):cell、smear、infil、li、blast、temp35remisscellsmearinfilliblasttemp1.8.83.661.91.1.99610.90.360.321.40.740.99200.80.880.70.80.1760.982010.870.870.71.0530.98610.90.750.681.30.5290.98010.650.650.60.5190.982…………………010.730.730.70.3980.986表4.4共有27个观测.36kkxxg11)(广义线性模型(GLM)随机部分:响应变量Y,并假定其概率分布(E(Y)=).系统部分:模型中的解释变量.联系函数(linkfunction):g()37Logistic回归模型随机部分:响应变量Y为二分变量,仅取二个值(1或0),并假定等于1的概率为p(x).kkxxxpxpxp11)(1)(log))((logit38§4.2一个因变量的线性回归模型参数估计与假设检验1、如何估计未知参数?2、检验模型是否显著,某些参数是否满足一定的限制?39一、一个自变量一个因变量的线性回归模型1、最小二乘估计2、假设检验3、预测4001212(1,2,,),,,0,iiinyxin模型为相互独立,均值为方差为1、最小二乘估计001122010111ˆˆ(,)()(1)nniiiiiQyx的最小二乘估计为使下式达到最小值的点42(1))(),(121010niiixyQniiiiniiixxyQxyQ1101101100100))((2),(0)1)((2),(43xySSSxxxxxy101ˆˆ)0(ˆ若niiyyniiixyniixxyySyyxxSxxS12112)())(()(解得:其中:44221,0,~方差为均值为相互独立,,,nXy用矩阵表示模型10212121111~nnnxxxXyyyy45(1)式表示为)~()~()(XyXyQ0~~2~2~~~2)(XXyXXXyXyyQ46~~~ˆ~~~~~1yXXXXXyXXX)(可逆,则若称为正规方程xxxyxxxySSSSxy10ˆˆ利用四块求逆公式47niinnxxnxnnxxxxxxXX122121111111~~48niixxnxnnXX12~~xxniiniinSxxnxnxnXX121222)(~~xxxxxxxxSSxSxSxnXX11~~21)(49212101101.2.1,0,()2ˆˆˆˆˆnxyxxyXrkXSSXXXyyx定理4在模型,,相互独立,均值为方差为当时,的最小二乘估计为或()50)ˆ~()ˆ~()~ˆ~()~ˆ~()ˆ~()ˆ~()~ˆ~ˆ~()~ˆ~ˆ~()~()~(XyXyXXXXXyX