第二章:一元线性回归模型一、回归分析1.回归分析是研究一个变量关于另一个变量的依赖关系的计算方法和理论。回归分析就是根据样本回归函数,估计总体回归函数。目的:通过后者的已知或者设定值,去估计和预测前者的均值。前者就是解释变量(因变量)后者就是被解释变量(自变量)。总体回归函数;随机干扰项;样本回归函数2.回归模型的基本假设:对模型设定的假设;对解释变量的假设;对随机干扰项的假设3.回归模型的参数估计:参数估计的方法:(1)参数估计的普通最小二乘法:判断标准:被解释变量的估计值与实际观测值之差的平方和最小,即在给定样本观测值之下,选择样本参数估计值使北技师变量的估计值与实际观测值之差的平方最小。原理:样本回归线上的垫与真实观测点之差可正可负,简单求和可能将很大的误差抵消掉,只有平方和才能放映二者在总体上的接近程度。(2)参数估计的最大似然法(3)参数估计的矩估计法4.最小二乘估计量的统计性质:(1)线性性:估计量是实际观测值的线性组合;(2)无偏性“以X的所有样本值为条件,估计量的均值等于总体回归参数真值。(3)有效性:在所有线性无偏估计量中,普通最小二乘估计量具有最小方差。5.回归模型的统计检验:(1)拟合优度检验:含义:检验模型对样本观测值的拟合程度。检验方法:构造一个可以表征拟合程度的指标,在这里称为统计量,它是样本函数。从检验对象计算出该统计量的数值,然后与某一标准进行比较,得出检验结论。6.总离差平方和TSS:反映样本观测值总体离差的大小;回归平方和ESS:反映由模型中解释变量所解释的那部分离差的大小。残差平方和RSS:反映样本观测值与估计值偏离的大小,也是解释变量未解释的那部分离差的大小。TSS-RSS=ESSESS+RSS=TSS;可决系数R²:在离差平方和中,回归平方所占的比重越大,残差平方和所占的比重越小。回归直线与样本点拟合的越好,如果模型与样本观测值完全拟合,则R²=1R²=ESS/TSS7.变量的显著性检验:考察所选择的解释变量是否对被解释变量有显著的线性影响。方法:变量的显著性检验所应用的方法是数理统计学中的假设检验。第三章多元线性回归模型一.多元线性回归模型1.多元线性回归模型的形式一般形式:Y=β0+β1X1+β2X2+……+βkXk+μ,其中k为解释变量的数目,βk称回归系数。总体回归函数的随机表达形式:Y=β0+β1X1+β2X2+……+βkXk非随机表达形式E(Y|X1,X2,X3,…,Xk)=β0+β1X1+β2X2+……+βkXk样本回归函数:Y=β0+β1X1+β2X2+……+βkXk随机表达式:Y=β0+β1X1+β2X2+……+βkXk+e,其中e称为残差或剩余项。2.多元线性回归模型的基本假设二.多元线性回归模型的参数估计1.普通最小二乘估计(1)普通最小二乘估计及其矩阵表达;待估参数估计值的正规方程组:(2)离差形式的普通最小二乘估计;样本回归模型的离差形式(3)随机干扰项μ的方差的普通最小二乘估计2.最大似然估计3.矩估计4.参数估计量的统计性质:线性性:无偏性:有效性:一致性:三.多元线性回归模型的统计检验1.拟合优度检验(1)可决系数与调整的可决系数。可决系数:总离差平方和可分解为回归平方和与残差平方和两部分。回归平方和反映总离差平方和中可由样本回归线解释的部分,它越大,残差平方和越小,表明标明样本回归线与样本观测值的拟合程度越高。R2=ESS/TSS,在应用过程中发现,如果在模型中增加一个解释变量,R2往往增大。这是因为残差平方和往往随着解释变量个数的增加而减少。但是由增加解释变量个数引起的R2的增大与拟合好坏无关,因此在多元回归模型之间比较拟合优度,R2就不是一个合适的指标,必须加以调整。R2为调整的可决系数R2=1-𝑅𝑆𝑆/(𝑛−𝑘−1)𝑇𝑆𝑆/(𝑛−1)其中n-k-1为残差平方和的自由度,n-1为总离差平方和的自由度,调整的可决系数与未经调整的可决系数之间存在如下关系:R2=1-(1-R2)(𝑛−1)(𝑛−𝑘−1)2.方程总体线性的显著性检验(F检验)。(1)方程显著性的F检验:方程显著性的F检验是要检验模型Yi=β0+β1Xi1+β2Xi2+……+βkXik+μi中参数β1,β2,βk是否显著不为零。按照假设检验的原理与程序,原假设与备择假设分别为:H0:β1=0,β2=0,βk=0H1:βj不全为零。根据数理统计学中的知识,在原假设H0成立的条件下,统计量F=𝐸𝑆𝑆/𝑘)𝑅𝑆𝑆/(𝑛−𝑘−1)服从自由度为(k,n-k-1)的F分布。因此给定显著性水平α,查表得到临界值Fα(k,n-k-1),根据样本求出F统计量的数值后,可通过F>Fα(k,n-k-1)来拒绝原假设H0,以判定原方程总体上的线性关系是否显著成立。(2)关于拟合优度检验与方程总体线性的显著性检验关系3.变量的显著性检验(t检验)。(1)t统计量(2)t检验在变量显著性检验中,针对某变量Xj设计的原假设与备择假设为H0:βj=0H1:≠0给定一个显著性水平α,得到临界值t𝛼2(n-k-1),于是根据|t|>t𝛼2(n-k-1)来决定决绝原假设H0第三章多重共线性1.多重共线性。1.多重共线性的含义:对于模型Yi=β0+β1Xi1+β2Xi2+……+βkXik+μi其基本假设之一是解释变量X1,X2,…,Xk是相互独立的。如果某两个或多个解释变量之间出现了相关性,则存在多重共线性。2.多重共线性的后果:完全共线性下参数估计量不存在;近似共线性下普通最小二乘法参数估计量的方差变大;3.参数估计量经济意义不合理。在多元线性回归模型估计中,如果出现参数估计量明显不合理的情况,应该首先怀疑是否存在多重共线性;4.变量的显著性检验和墨香的预测功能失去意义。2.多重共线性的检验:多重共线性变现为解释变量之间是否具有相关关系,所以用于多重共线性的检验方法主要是统计方法,如判定系数法、逐步回归检验法等。多重共线性检验的任务是(1)检验多重共线性是否存在(2)判明存在多重共线性的范围。3.异方差性:对于模型Yi=β0+β1Xi1+β2Xi2+……+βkXik+μi同方差性假设为Var(μi|X1,X2,…,Xk)=σ2,如果出现Var(μi|Xi1,Xi2,…,Xik)=σi2。即对于不同的样本点,随机干扰项的方差不再是常数,而是互不相同,则认为出现了异方差性4.异方差的类型:异方差一般可归结为三种类型:单调递增型,单调递减型,复杂型。一般经验告诉我们,对于采用界面数据做样本的计量经济学问题,由于在不同样本点上解释变量意外的其他因素的差异较大,所以往往存在异方差性。5.异方差性的后果:模型中一旦出现异方差性,如果仍采用普通最小二乘法估计模型参数,会产生一系列不良的后果。(1)参数估计量非有效:当计量经济学模型中出现异方差性时,其普通最小二乘参数估计量仍然具有线性性、无偏性,但不具有有效性。因为在有效性证明中利用了E(μμ’|X)=σ2I;(2)变量的显著性检验失去意义:如果出现异方差性,估计的参数方差出现偏误,t检验失去意义,因为在变量的显著性检验中,构造了t统计量,他是建立在随机干扰项共同的方差σ2不变而正确估计了参数方差的基础之上的。(3)模型的预测失效:导致预测区间偏大或偏小,预测功能失效。6.异方差性的检验。检验思路:异方差性,即现对于不同的样本点,也就是相对于不同的解释变量观测值,随机干扰项具有不同的方差,那么检验异方差性,也就是检验随机干扰项的方差与驾驶变量观测值之间的相关性。检验方法:图示检验法、布罗施帕干检验、怀特检验。怀特检验的全过程:假设回归模型:Yi=β0+β1Xi1+β2Xi2+μi,首先对该模型做OLS回归,并得到残差项的平方ei2,然后做如下辅助回归:ei2=θ0+θ1Xi1+θ2Xi2+θ3Xi12+θ4Xi22+θ5Xi1Xi2+εi要检验的同方差假设为H0:θ1=θ2=θ3=θ4=θ5=07.异方差的修正。加权最小二乘法:加权最小二乘法是对原模型加权,使之变成一个新的不存在异方差性的模型,然后采用最小二乘法估计其参数。加权的基本思想是:在采用普通最小二乘法时,对较小大的残差平方ei2赋予较大的权数,对较大的残差平方ei2赋予较小的权数,以对残差提供的信息的重要程度作一番校正,提高参数估计的精度。第五章时间序列计量经济学模型1.时间序列模型的序列相关性:多元线性回归模型的基本假设之一是模型的随机干扰项相互独立和不相关,如果模型的随机干扰项违背了相互独立的基本假设,称为存在序列相关性。2.序列相关性产生的原因:经济变量固有的惯性;模型设定的偏误;数据的编造。一般经验告诉我们,对于采用时间序列数据做样本的计量经济学问题,由于在不同样本点上解释变量以外的其他因素在时间上的连续性,带来他们对被解释变量的影响的连续性,所以往往存在序列相关性。3.序列相关性的后果:模型中一旦出现异方差性,如果仍采用普通最小二乘法估计模型参数,会产生一系列不良的后果。(1)参数估计量非有效:当计量经济学模型中出现异方差性时,其普通最小二乘参数估计量仍然具有线性性、无偏性,但不具有有效性。因为在有效性证明中利用了E(μμ’|X)=σ2I;(2)变量的显著性检验失去意义:如果出现异方差性,估计的参数方差出现偏误,t检验失去意义,因为在变量的显著性检验中,t统计量是建立在参数方差正确估计基础之上的,这只有单随机干扰项具有同方差性和相互独立性时,才能成立。(3)模型的预测失效:导致预测区间偏大或偏小,预测功能失效。4.序列相关性的检验。序列相关性的检验方法有多种,比如冯诺曼比检验法;回归检验法;DW检验法。这些检验方法的共同思路是:首先采用普通最小二乘法估计模型,以求得残差序列ei。由于残差ei是近似估计量μt的“近似估计量”,因此分析自身的相关性已达到判断随机干扰下是否具有序列相关性的目的。5.DW检验:只能检验一阶自相关,并且对存在滞后被解释变量的模型无法检验。该方法的假设条件:(1)解释变量X非随机。(2)随机干扰项μt为一阶自回归形式:μt=ρμt-1++εt。(3)回归模型中不应含有滞后应变量作为解释变量。(4)回归模型含有截距项。根据样本容量T和解释变量数目k查DW分布表,得到临界值dU和dL,然后按照下列准则考察计算得到DW值,以判断模型的自相关状态。若0<DW<dL,则存在正自相关。若dL<DW<dU,则存不能确定。若dU<DW<4-dU,则无自相关。若4-dU<DW<4-dL,则存不能确定。若4-dL<DW<4,则存在负自相关。DW=2(1-ρ),ρ为一阶自相关模型的参数估计。如果存在完全一阶正相关,则ρ≈1,DW≈0;如果存在完全一阶负相关,则ρ≈-1,DW≈4;如果完全不相关,则ρ≈0,DW≈2。6.拉格朗日乘数(LM)的检验。拉格朗日乘数检验克服了第w检验的缺陷,适合于高阶序列相关,即模型中存在的滞后被解释变量的情形。7.时间序列模型的序列相关性。1.时间序列数据的平稳性:假如某个时间序列是由某一随机过程生成的,即嘉定时间序列的每个数值都从一个概率分布中随机得到,如果满足下列条件:(1)均值与时间t无关的常数;(2)方差与时间t无关的常数;(3)协方差只与时期间隔k有关,与时间t无关的常数。8.白噪声和随机游走:白噪声:简单的随机时间序列{Xt}是一个具有零均值同方差的独立分布序列:Xt=μtμt~N(0,σ2)该序列常被称为是一个白噪声。随机游走:随机游走序列由如下随机过程生成:Xt=Xt-1+μt,这里的μt是一个白噪声。9.平稳性的单位根检验(1)DF检验:随机游走序列Xt=Xt-1+μt是非平稳的,其中μt是白噪声,而该序列可以看成是随机模型Xt=ρXt-1+μt中参数ρ=1的情形。变成差分形式△Xt=(ρ-1)Xt-1+μt=σXt-1+μt从而判断是否有σ=0.一般的检验一个时间序列Xt的平稳性,可通过检验带有截距项的一阶自回归模型Xt=α+ρXt-1+μt中参数ρ是否小于1,或者是检验其等价变形式△Xt=α+σXt-1+μt中