MultipleLinearRegressionAnalysis一元线性回归模型复习一个自变量X与一个因变量Y作散点图模型形式Y=β0+β1X+ε回归直线模型的F检验,T检验,(P值相同,作用等价)R2决定系数---》相关系数房屋售价•房价Y,受面积X1影响,•还有影响因素吗?•受地域x2(市中心与否),结构x3影响(高层与砖混)汽车销售若公司管理人员要预测来年该公司的汽车销售额y时,影响销售额的因素---广告宣传费x1还有个人可支配收入x2,价格x3研究地区经济增长GDP,受劳动力投入人数x1影响!还有:资本要素X2,科技水平X3的影响多元回归应用•例:财政收入y为因变量。自变量如下:x1工业总产值,x2农业总产值,x3建筑业总产值,x4人口数,x5社会商品零售总额。•例:股票价格Y,自变量为每股收益X1,每股帐面价值X2。•例:失业的时间长度Y(月),自变量有学历x1,年龄x2,工龄X3.多元回归模型(multipleregressionmodel)描述因变量y依赖于自变量x1,x2,…,xk和误差项的方程,称为多元回归模型β0,β1,β2,,βk是参数是被称为误差项的随机变量包含在y里面但不能被k个自变量的线性关系所解释的变异性kkxxxy22110地区GDP就业人员(万人)投资(亿元)北京3663.10858.62169.26天津2447.66419.71039.39河北7098.563389.52477.98山西2456.591469.51100.86内蒙古2150.411005.21174.66辽宁6002.541861.32076.36吉林2522.621044.6969.03黑龙江4430.001622.41166.18多元回归样本数据多元回归模型n1n(k1)(k1)1n1YXβε模型矩阵表示i01i12i2ki,kiiid2iYXXX,~N(0,)i1,2,...,n其中且01111k12212k21nn1nknkY1XXY1XXY1XX多元回归模型基本假定1.误差项ε是一个期望值为0的随机变量,即E()=02.对于自变量x1,x2,…,xk的所有值,的方差2都相同3.误差项ε是一个服从正态分布的随机变量,即ε~N(0,2),且相互独立多元线性回归方程的形式为•E(y)=0+1x1+2x2+…+kxk描述因变量y的平均值或期望值如何依赖于自变量x1,x2,…,xk的方程偏回归系数βi表示假定其他变量不变,当xi每变动一个单位时,y的平均变动值YX1X201122ˆYXX多元回归方程几何意义MultipleRegressionEquation最小二乘估计ppxxYE110)(•最小SSE:2^^11^0^^YYSSExxYppYX1X222110XbXbbYˆYiYix2ix1iThebestfitequation,Y,isfoundbyminimizingthesumofsquarederrors,e2样本观测回归残差示意图Residual=εi=(Yi–Yi)普通最小二乘估计对于随机抽取的n组观测值kjniXYjii,2,1,0,,,2,1),,(如果样本函数的参数估计值已经得到,则有:KikiiiiXXXYˆˆˆˆˆ22110i=1,2…n根据最小二乘原理,参数估计值应该是下列方程组的解0ˆ0ˆ0ˆ0ˆ210QQQQk其中2112)ˆ(niiiniiYYeQ2122110))ˆˆˆˆ((nikikiiiXXXY于是得到关于待估参数估计值的正规方程组:kiikikikiiiiikikiiiiiikikiiikikiiXYXXXXXYXXXXXYXXXXYXXX)ˆˆˆˆ()ˆˆˆˆ()ˆˆˆˆ()ˆˆˆˆ(221102222110112211022110解该(k+1)个方程组成的线性代数方程组,即可得到(k+1)个待估参数的估计值,,,,,jjk012。正规方程组的矩阵形式nknkknkkiikikikiiiikiiYYYXXXXXXXXXXXXXXXXn212111211102112111111ˆˆˆ即YXβX)X(ˆ由于X’X满秩,故有YXXXβ1)(ˆ多元回归方程模型系数由样本数据估计得到i011i22ikkiˆYXXX估计值Estimated(orpredicted)valueofY斜率Estimatedslopecoefficients截距Estimatedintercept用Excel计算得到回归系数馅饼Pie销售量sale,受价格price的影响。还受广告费Advertising的影响馅饼销售Sales=β0+β1(Price)+β2(Advertising)星期销售价格广告费WeekPieSalesPrice($)Advertising($100s)13505.503.324607.503.333508.003.044308.004.553506.803.063807.504.074304.503.084706.403.794507.003.5104905.004.0113407.203.5123007.903.2134405.904.0144505.003.5153007.002.7Multipleregressionequation:多元回归结果RegressionStatisticsMultipleR0.72213RSquare0.52148AdjustedRSquare0.44172StandardError47.46341Observations15ANOVAdfSSMSFSignificanceFRegression229460.02714730.0136.538610.01201Residual1227033.3062252.776Total1456493.333CoefficientsStandardErrortStatP-valueLower95%Upper95%Intercept306.52619114.253892.682850.0199357.58835555.46404Price-24.9750910.83213-2.305650.03979-48.57626-1.37392Advertising74.1309625.967322.854780.0144917.55303130.70888ertising)74.131(Advce)24.975(Pri-306.526Sales多元回归方程ertising)74.131(Advce)24.975(Pri-306.526Salesb1=-24.975:表明每周销售量将减少,价格增加1美元,销售量平均减少24.975个,(假设广告的效果不变)b2=74.131:表明销售量增加,广告费增加100美元,销售平均增加74.131个/周,(假设价格不变)用模型预测预测价格为$5.50,广告费为$350:预测销量为428.62pies428.62(3.5)74.131(5.50)24.975-306.526ertising)74.131(Advce)24.975(Pri-306.526Sales注意:单位百元,$350意味X2=3.5模型的F检验系数的T检验拟合度检验--决定系数误差平方和的分解SST=SSR+SSEniiniiniiyyyyyy121212ˆˆ总平方和(SST){回归平方和(SSR)残差平方和(SSE){{越小越好越大越好反映自变量xi的变化对因变量y取值变化的影响,假设不变反映除xi以外的其他因素对y取值的影响多重判定系数-可决系数-拟合优度(multiplecoefficientofdetermination)1.回归平方和占总平方和的比例2.计算公式为3.因变量取值的变差中,能被多元回归方程所解释的比例RegressionStatisticsMultipleR0.72213RSquare0.52148AdjustedRSquare0.44172StandardError47.46341Observations15ANOVAdfSSMSFSignificanceFRegression229460.02714730.036.538610.01201Residual1227033.3062252.776Total1456493.333CoefficientsStandardErrortStatP-valueLower95%Upper95%Intercept306.52619114.253892.682850.0199357.58835555.46404Price-24.9750910.83213-2.305650.03979-48.57626-1.37392Advertising74.1309625.967322.854780.0144917.55303130.70888.5214856493.329460.0SSTSSRr2销量变化的52.1%,由价格和广告因素解释决定系数•随着自变量个数的不断增加,会使得R2不断增加,因此在作拟合优度检验的判定时,一般采用调整的R2,以消除自变量的个数以及样本量的大小对R2的影响。TSSRSSpnnRTSSRSSTSSESSR111122修正多重判定系数(adjustedmultiplecoefficientofdetermination)1.为避免增加自变量而高估R2,需要用样本量n和自变量的个数k去修正R2得到计算公式为意义与R2类似,数值小于R2目的是惩罚过多使用不重要的自变量。用于比较多个模型RegressionStatisticsMultipleR0.72213RSquare0.52148AdjustedRSquare0.44172StandardError47.46341Observations15ANOVAdfSSMSFSignificanceFRegression229460.02714730.0136.538610.01201Residual1227033.3062252.776Total1456493.333CoefficientsStandardErrortStatP-valueLower95%Upper95%Intercept306.52619114.253892.682850.0199357.58835555.46404Price-24.9750910.83213-2.305650.03979-48.57626-1.37392Advertising74.1309625.967322.854780.0144917.55303130.70888.44172r2adj销量变化的44.2%由价格和广告解释。Adjustedr2回归方程显著性F检验1.提出假设H0:12k=0线性关系不显著H1:1,2,k至少有一个不等于02.计算检验统计量F3.分子自由度k、分母自由度n-k-1得出统计量F,得到检验P值4.作出决策:确定显著性水平和P比较,P拒绝H0利用F统计量进行总体线性显著性检验6.53862252.814730.0MSEMSRFR