第三章多元线性回归模型§3.1多元线性回归模型§3.2多元线性回归模型的参数估计§3.3多元线性回归模型的统计检验§3.4多元线性回归模型的预测§3.5可线性化的多元非线性回归模型§3.6受约束回归§3.1多元线性回归模型一、模型形式二、基本假定一、模型形式注意:(1)解释变量X的个数:k回归系数j的个数:k+1(2)j:偏回归系数,表示了Xj对Y的净影响(3)X的第一个下标j区分变量(j=1,2,……,k)第二个下标i区分观测(i=1,2,……n)1,2,,in011220100...(1)iiikkiikjjiijkjjiijYXXXXXX总体回归函数(PRF)kikiikiiiiXXXXXXYE2211021),,|(样本回归函数(SRF)kikiiiiXXXYˆˆˆˆˆ22110样本回归模型(SRM)ikikiiiieXXXYˆˆˆˆ22110其中:ei称为残差(residuals),可看成是随机误差项i的近似替代。μXβY)1(212221212111111knknnnkkXXXXXXXXXX1)1(210kkβ121nnμ1321nnYYYYY2、于是,总体回归模型可以表示为:总体回归模型的矩阵表示1、总体回归模型表示了n个随机方程,引入如下矩阵记号:1231ˆˆˆˆˆnnYYYYY2、于是,样本回归模型和函数可以表示为:kˆˆˆˆ10βneee21eβXYˆˆeβXYˆ样本回归模型和函数的矩阵表示1、同理,采用如下矩阵记号:二、多元线性回归模型的基本假设►假设1:解释变量是非随机的或固定的,且各X之间互不相关(无多重共线性)。►假设2:随机误差项具有零均值、同方差和无序列相关性:E(i)=0Var(i)=2i=1,2,…,NCov(i,j)=0i≠ji,j=1,2,…,N►假设3:随机误差项与解释变量X之间不相关:Cov(Xji,i)=0i=1,2,…,N►假设4:服从零均值、同方差、零协方差的正态分布i~N(0,2)i=1,2,…,N基本假设的矩阵表示假设1:n(k+1)矩阵X是非随机的,且X的秩=k+1,即X列满秩。假设2:nnEE11)(μμ21121nnnEI22211100)var(),cov(),cov()var(nnn假设4:向量有一多维正态分布,即),(~2I0μN暗含假设假设5:样本容量趋于无穷时,各解释变量的方差趋于有界常数,即n∞时,假设6:回归模型是正确设定的jjjijiQXXnxn22)(11或Qxxn1其中:Q为一非奇异固定矩阵,矩阵x是由各解释变量的离差为元素组成的nk阶矩阵knnkxxxx1111x§3.2多元线性回归模型的参数估计一、普通最小二乘估计二、参数估计量的性质三、样本容量问题参数估计的任务和方法1、估计目标:回归系数βj、随机误差项方差б22、估计方法:OLS、ML或者MM*OLS:普通最小二乘估计*ML:最大似然估计*MM:矩估计一、普通最小二乘估计•基本思想:残差平方和最小•基于取得最小值的条件获得系数估计)残差平方和:2112)ˆ(niiiniiYYeQ2122110))ˆˆˆˆ((nikikiiiXXXY取得最小值的条件:0ˆ0ˆ0ˆ0ˆ210QQQQk正规方程组:kiikikikiiiiikikiiiiiikikiiikikiiXYXXXXXYXXXXXYXXXXYXXX)ˆˆˆˆ()ˆˆˆˆ()ˆˆˆˆ()ˆˆˆˆ(221102222110112211022110解此(k+1)个方程组成的正规方程组,即可求得(k+1)个未知参数βj的估计。最小二乘估计的矩阵表示1、正规方程组的矩阵形式nknkknkkiikikikiiiikiiYYYXXXXXXXXXXXXXXXXn212111211102112111111ˆˆˆYXβX)X(ˆ2、由于X’X满秩(其逆矩阵存在),故有YXXXβ1)(ˆ#OLSE的矩阵估计过程0)ˆ()ˆ(ˆβXYβXYβ0)ˆˆˆˆ(ˆβXXββXYYXβYYβ0)ˆˆˆ2(ˆβXXββXYYYβ0ˆβXXYXYXXXβ1)(ˆβXXYXˆ对称阵)为(nn(2)()(),,(;),,()2121BBBAAaaaAABABnn矩阵有关定理残差平方和的矩阵表示为:2ˆˆ()()iQeeeYXYX#参数估计的实例例3.2.1:在例2.1.1的家庭收入-消费支出例中,53650000215002150010111111)(22121iiinnXXXnXXXXXXXX'39468400156741112121iiinnYXYYYYXXXYX0735.10003.00003.07226.0)(1EXX7770.0172.10339648400156740735.10003.00003.07226.0ˆˆˆ21Eβ误差方差2的估计1、基于OLS下,随机误差项的方差的无偏估计量为注意:分母的形式:n-k-1=n-(k+1)。k:解释变量X的个数;k+1:回归系数的个数2、称为估计标准误或者回归标准误(S.Eofregression)2ˆˆ11ˆ22knkneiee'(1)eenk*最大似然估计*(MaximumLikelihoodEstimate)1、基本原理:样本观测值出现的概率最大。2、似然函数:)ˆ()ˆ(21))ˆˆˆˆ((212122222211022)2(1)2(1),,,(),ˆ(βXYβXYβeeYYYPLnXXXYnnnkikiiin),(~2βXiNYi3、最大似然估计MLE:YXXXβ1)(ˆ参数的MLE与参数的OLSE相同*矩估计*(MomentMethod,MM)1、OLS估计是通过得到一个关于参数估计值的正规方程组YXβX)X(ˆ并对它进行求解而完成的。2、该正规方程组可以从另外一种思路来导出:μXβYμXXβXYXμXXβ(YX)两侧求期望:0XβYX)((E矩条件*矩条件和矩估计量*0)ˆ1βX(YXn3、由此得到正规方程组:YX'βXX'ˆ解此正规方程组即得参数的MM估计量。1、0XβYX)((E称为原总体回归方程的一组矩条件,表明了原总体回归方程所具有的内在特征。2、如果随机抽出原总体的一个样本,估计出的样本回归方程:能够近似代表总体回归方程的话,则应成立:ˆˆYXMM估计量与OLS、ML估计量等价。*关于矩估计*矩方法是工具变量方法(InstrumentalVariables,IV)和广义矩估计方法(GeneralizedMomentMethod,GMM)的基础•在矩方法中关键是利用了:E(X’)=0•如果某个解释变量与随机项相关,只要能找到1个工具变量,仍然可以构成一组矩条件。这就是IV。•如果存在>k+1个变量与随机项不相关,可以构成一组包含>k+1方程的矩条件。这就是GMM。•OLS只是GMM的一个特例二、最小二乘估计量的性质高斯—马尔可夫定理(Gauss-Markovtheorem):在给定经典线性回归的假定下,最小二乘估计量是具有最小方差的线性无偏估计量,即最佳线性无偏估计量(BLUE)。1、线性:CYYXXXβ1)(ˆ其中,C=(X’X)-1X’为一仅与固定的X有关的行向量2、无偏性:βμXXXβμXβXXXYXXXβ11)()())()(())(()ˆ(1EEEE这里利用了假设:E(X’)=03、有效性:其中利用了:YXXXβ1)(ˆμXXXβμXβXXX11)()()(Iμμ2)(E参数估计量的概率分布1、由参数估计量的上述性质和基本假设,易知:))(,(ˆ12XXN•线性性+基本假设→正态分布•无偏性→期望为β•有效性的证明→方差表达式2jˆ(,)jjjNc2、记C=(X’X)-1的第j个主对角元素为Cjj(j=0,1,…,k),则:三、样本容量问题•最小样本容量•满足基本要求的样本容量1、最小样本容量所谓“最小样本容量”,即从最小二乘原理和最大或然原理出发,欲得到参数估计量,不管其质量如何,所要求的样本容量的下限。样本最小容量必须不少于模型中解释变量的数目(包括常数项),即:nk+1因为,无多重共线性要求:秩(X)=k+12、基本样本容量•从统计检验的角度:n30时,Z检验才能应用;n-k8时,t分布较为稳定•一般经验认为:当n30或者至少n3(k+1)时,才能说满足模型估计的基本要求。•模型的良好性质只有在大样本下才能得到理论上的证明§3.3多元线性回归模型的统计检验一、拟合优度检验二、方程显著性检验三、变量显著性检验一、拟合优度检验•目的:测定样本回归函数对样本观测值的拟合紧密程度•指标:R2、Adj(R2)可决系数R2(coefficientofdetermination)TSSRSSTSSESSR120R21,该统计量越接近于1,模型的拟合优度越高。1、定义:2、问题:•在模型中增加一个解释变量,R2往往增大•但是:增加解释变量个数往往得不偿失,不重要的变量不应引入。•增加解释变量使得估计参数增加,从而自由度减小。如果引入的变量对减少残差平方和的作用很小,这将导致误差方差σ2的增大,引起模型精度的降低。•因此:R2需调整。调整的可决系数Adj(R2)(adjustedcoefficientofdetermination)1、调整思路:将残差平方和与总离差平方和分别除以各自的自由度,以剔除变量个数对拟合优度的影响。)1/()1/(12nTSSknRSSR2、自由度:统计量可自由变化的样本观测值的个数,记为dfTSS:df=n-1ESS:df=kRSS:df=n-k-1注意:df(TSS)=df(ESS)+df(RSS)3、定义:#Adj(R2)的作用1、消除拟合优度评价中解释变量的多少对拟合优度的影响2、对于因变量Y相同,而自变量X个数不同的模型,不能用R2直接比较拟合优度,而应使用Adj(R2)。3、可以通过Adj(R2)的增加变化,决定是否引入一个新的解释变量。11)1(122