统计学(第二版)第8讲多元线性回归1多元线性回归模型2回归方程的拟合优度3显著性检验4多重共线性5利用回归方程进行估计和预测6虚拟自变量的回归统计学(第二版)1多元线性回归模型一.多元回归模型与回归方程二.估计的多元回归方程三.参数的最小二乘估计统计学(第二版)多元回归模型与回归方程统计学(第二版)多元回归模型(multipleregressionmodel)1.一个因变量与两个及两个以上自变量的回归2.描述因变量y如何依赖于自变量x1,x2,…,xp和误差项的方程,称为多元回归模型3.涉及p个自变量的多元回归模型可表示为b0,b1,b2,,bp是参数是被称为误差项的随机变量y是x1,,x2,,xp的线性函数加上误差项包含在y里面但不能被p个自变量的线性关系所解释的变异性ipipiixxxybbbb22110统计学(第二版)多元回归模型(基本假定)1.误差项ε是一个期望值为0的随机变量,即E()=02.对于自变量x1,x2,…,xp的所有值,的方差2都相同3.误差项ε是一个服从正态分布的随机变量,即ε~N(0,2),且相互独立统计学(第二版)多元回归方程(multipleregressionequation)1.描述因变量y的平均值或期望值如何依赖于自变量x1,x2,…,xp的方程2.多元线性回归方程的形式为E(y)=b0+b1x1+b2x2+…+bpxpb1,b2,,bp称为偏回归系数bi表示假定其他变量不变,当xi每变动一个单位时,y的平均变动值统计学(第二版)二元回归方程的直观解释二元线性回归模型bbb22110xxy(观察到的y)22110)(xxyEbbb回归面b0ix1yx2(x1,x2)}统计学(第二版)估计的多元回归方程统计学(第二版)估计的多元回归的方程(estimatedmultipleregressionequation)是估计值是y的估计值pbbbbˆ,,ˆ,ˆ,ˆ210pbbbb,,,,210ppxxxybbbbˆˆˆˆˆ22110pbbbbˆ,,ˆ,ˆ,ˆ210pbbbb,,,,210yˆ1.用样本统计量估计回归方程中的参数时得到的方程2.由最小二乘法求得3.一般形式为统计学(第二版)参数的最小二乘估计统计学(第二版)参数的最小二乘法2.求解各回归参数的标准方程如下),,2,1(00ˆˆ000piQQiiibbbbbb1.使因变量的观察值与估计值之间的离差平方和达到最小来求得。即pbbbbˆ,,ˆ,ˆ,ˆ210统计学(第二版)参数的最小二乘法(例题分析)【例】一家大型商业银行在多个地区设有分行,为弄清楚不良贷款形成的原因,抽取了该银行所属的25家分行2002年的有关业务数据。试建立不良贷款(y)与贷款余额(x1)、累计应收贷款(x2)、贷款项目个数(x3)和固定资产投资额(x4)的线性回归方程,并解释各回归系数的含义用Excel进行回归统计学(第二版)2回归方程的拟合优度一.多重判定系数二.估计标准误差统计学(第二版)多重判定系数统计学(第二版)多重判定系数(multiplecoefficientofdetermination)1.回归平方和占总平方和的比例2.计算公式为3.因变量取值的变差中,能被估计的多元回归方程所解释的比例统计学(第二版)修正多重判定系数(adjustedmultiplecoefficientofdetermination)1.用样本容量n和自变量的个数p去修正R2得到2.计算公式为3.避免增加自变量而高估R24.意义与R2类似5.数值小于R2统计学(第二版)估计标准误差Sy1.对误差项的标准差的一个估计值2.衡量多元回归方的程拟合优度3.计算公式为统计学(第二版)3显著性检验一.线性关系检验二.回归系数检验和推断统计学(第二版)线性关系检验统计学(第二版)线性关系检验1.检验因变量与所有自变量之间的是否显著2.也被称为总体的显著性检验3.检验方法是将回归离差平方和(SSR)同剩余离差平方和(SSE)加以比较,应用F检验来分析二者之间的差别是否显著如果是显著的,因变量与自变量之间存在线性关系如果不显著,因变量与自变量之间不存在线性关系统计学(第二版)线性关系检验1.提出假设H0:b1b2bp=0线性关系不显著H1:b1,b2,,bp至少有一个不等于02.计算检验统计量F3.确定显著性水平和分子自由度p、分母自由度n-p-1找出临界值F4.作出决策:若FF,拒绝H0统计学(第二版)回归系数检验和推断统计学(第二版)回归系数的检验1.对每一个自变量都要单独进行检验2.应用t检验统计量统计学(第二版)回归系数的检验(步骤)1.提出假设H0:bi=0(自变量xi与因变量y没有线性关系)H1:bi0(自变量xi与因变量y有线性关系)2.计算检验的统计量t3.确定显著性水平,并进行决策tt2,拒绝H0;tt2,不拒绝H0统计学(第二版)回归系数的推断(置信区间)回归系数在(1-)%置信水平下的置信区间为ispntibbˆ2)1(ˆ回归系数的抽样标准差统计学(第二版)26例:巴特勒运输公司巴特勒运输公司的主营业务地域为本地,为了建立更好的工作日程表,经理们计划为他们的驾驶员估计日常行驶时间。统计学(第二版)27MilesTraveledNumberofDeliveriesTravelTime(hours)10049.35034.810048.910026.55024.28026.27537.46546.09037.69026.1统计学(第二版)280.02.04.06.08.010.0020406080100120MilestraveledTraveltime统计学(第二版)SUMMARYOUTPUT回归统计MultipleR0.814906RSquare0.664071AdjustedRSquare0.62208标准误差1.001792观测值10方差分析dfSSMSFSignificanceF回归分析115.871315.871315.814580.004080177残差88.0286961.003587总计923.9Coefficients标准误差tStatP-valueLower95%Upper95%下限95.0%上限95.0%Intercept1.2739131.4007450.9094540.389687-1.956211714.504038-1.956214.504038MilesTraveled0.0678260.0170563.9767550.004080.0284956910.1071560.0284960.107156一元回归结果统计学(第二版)回归统计MultipleR0.950678RSquare0.903789AdjustedRSquare0.8763标准误差0.573142观测值10方差分析dfSSMSFSignificanceF回归分析221.6005610.8002832.878370.00027624残差72.2994430.328492总计923.9Coefficients标准误差tStatP-valueLower95%Upper95%Intercept-0.86870.951548-0.912940.391634-3.1187526831.38135MilesTraveled0.0611350.0098886.1823970.0004530.0377520410.084517NumberofDeliveries0.9234250.2211134.1762510.0041570.4005754891.446275二元回归结果统计学(第二版)31回归系数的解释b1=0.0611当送货次数不变时,行驶里程每增加1英里,行驶时间期望的估计值增加0.0611小时。b2=0.9234当行驶里程不变时,送货次数每增加1次,行驶时间期望的估计值增加0.9234小时。DelivMilesy9234.00611.08687.0ˆ统计学(第二版)4多重共线性一.多重共线性及其所产生的问题二.多重共线性的判别三.多重共线性问题的处理统计学(第二版)33例:房屋售价一个房地产经纪人认为房屋的售价可由房屋的面积、卧室的个数和潜在需求人数来预测。他随机选取了100座房屋并收集数据如下:PriceBedroomsHSizedemand124100312903900218300420806600117800312503750........统计学(第二版)回归统计MultipleR0.74833RSquare0.559998AdjustedRSquare0.546248标准误差25022.71观测值100方差分析dfSSMSFSignificanceF回归分析3765017183472550057278240.72694.56894E-17残差9660109046053626135896.4总计991.36611E+11Coefficients标准误差tStatP-valueLower95%Upper95%Intercept37717.5914176.741952.6605262790.0091459576.96263765858.23Bedrooms2306.0816994.192440.3297136650.742335-11577.2920616189.45HSize74.2968152.978579341.4023933250.164023-30.8649232179.4585Demand-4.3637817.0240013-0.2563312120.798244-38.1561842129.42862三元回归结果统计学(第二版)多重共线性及其产生的问题统计学(第二版)多重共线性(multicollinearity)1.回归模型中两个或两个以上的自变量彼此相关2.多重共线性带来的问题有可能会使回归的结果造成混乱,甚至会把分析引入歧途可能对参数估计值的正负号产生影响,特别是各回归系数的正负号有可能同我们与其的正负号相反统计学(第二版)多重共线性的识别统计学(第二版)多重共线性的识别1.检测多重共线性的最简单的一种办法是计算模型中各对自变量之间的相关系数,并对各相关系数进行显著性检验样本相关系数的绝对值大于0.7,即模型中自变量之间显著相关,存在着多重共线性2.如果出现下列情况,暗示存在多重共线性模型中各对自变量之间显著相关。当模型的线性关系检验(F检验)显著时,几乎所有回归系数的t检验却不显著回归系数的正负号与其的相反。统计学(第二版)39PriceBedroomsHSizeLotSizePrice1Bedrooms0.6454111HSize0.7477620.8464541Demand0.7408740.837430.9936151例:房屋售价(变量间相关矩阵)统计学(第二版)多重共线性(问题的处理)将一个或多个相关的自变量从模型中剔除,使保留的自变量尽可能不相关