1回归分析与相关分析的联系和区别?回归分析是讨论被解释变量与一个或多个解释变量之间具体依存关系的分析方法。相关分析是讨论变量之间线性相关程度的分析方法。联系:两者都是研究非确定性变量间的统计依赖关系,并能度量线性依赖程度大小。区别:1)研究的目的不同,相关分析着重讨论变量间的关联程度,而回归分析却要进一步探寻变量间具体依赖关系。2)对变量的处理不同,相关分析堆成的处理相互联系的变量,而回归分析必须明确解释变量与被解释变量。2什么是随机干扰项?主要包括哪些因素?和残差的区别?随机干扰项是指总体观测值与回归方程理论值之间的偏差。因素:(1)众多细小因素的影响;(2)未知因素的影响;(3)数据测量误差或残缺;(4)模型形式不完善;(5)变量的内在随机性。随机误差项与残差不同,残差是样本观测值与回归方程理论值之间的偏差。残差项是随机误差项的一个样本估计量。3为什么用可决系数评价拟合优度,而不用残差平方和?可决系数与相关系数的联系和区别?可决系数R*2=ESS/TSS=1-RSS/TSS,含义为由解释变量引起的被解释变量的变化占被解释变量总变化的比重,用来判定回归直线拟合的优劣,该值越大说明拟合得越好,而残差平方和与样本容量关系密切,当样本容量比较小时,残差平方和的值也比较小,尤其是不同样本得到的残差平方和是不能作比较的。此外作为检验统计量的一般应是相对量而不能用绝对量,因而不能使用残差平方和判断模型的拟合优度。4、简述最小二乘估计量的特征及高斯马尔可夫定理。答:(1)线性性,即它是否是另一随机变量的线性函数;(2)无偏性,即它的均值或期望值是否等于总体的真实值;(3)有效性,即它是否在所有线性无偏估计量中具有最小方差。(4)渐近无偏性,即样本容量趋于无穷大时,是否它的均值序列趋于总体真值;(5)一致性,即样本容量趋于无穷大时,它是否依概率收敛于总体的真值;(6)渐近有效性,即样本容量趋于无穷大时,是否它在所有的一致估计量中具有最小的渐近方差。高斯—马尔可夫定理:普通最小二乘估计量具有线性性、无偏性和最小方差性等优良性质,是最佳线性无偏估计。4异方差的后果:1)最小二乘估计不再是有效估计。2)无法确定估计系数的标准误差。3)T检验的可靠性降低。4)增大模型的预测误差。当模型存在异方差时,根据普通最小二乘法估计出的参数估计量仍具有线性特性和无偏性,但不再具有有效性;用于参数显著性的检验统计量,要涉及到参数估计量的标准差,因而参数检验也失去意义。5.序列相关违背了哪些基本假定?其来源有哪些?检验方法有哪些,都适用于何种形式的序列相关检验模型的检验?序列相关违背的基本假定是Cov(ui,uj)=0(i≠j)。序列相关的来源有:经济变量固有的惯性;模型设定的偏误;模型中遗漏了重要的带有自相关的解释变量;数据的“编造”。序列相关的检验有:图示法D-W检验,适用于检验一阶自回归形式的序列相关;回归检验法,适用于各种类型的序列相关检验;拉格朗日乘子检验(LM),适用于高阶序列相关及模型中存在滞后解释变量的情形。6.简述为什么要对参数进行显著性检验?试说明参数显著性检验的过程。答:最小二乘法得到的回归直线是对因变量与自变量关系的一种描述,但它不一定是恰当的描述。一般会用与样本点的接近程度来判别这种描述的优劣,而当获得以上问题的肯定判断之后,还需要确定每一个参数的可靠程度,即参数本身以及对应的变量该不该保留在方程里,这就有必要进行参数的显著性检验。这种检验是确定各个参数是否显著的不等于零。检验分为三个步骤:(1)对总体参数提出假设:H0:β1=0,H2:β1≠0(2)以原假设H0构造t统计量,并由样本计算其值。(3)给定显著性水平α,查t分布表得临界值tα/2(n-2)(4)比较,判断。若|t|tα/2(n-2),则拒绝H0,接受H1,若|t|≤tα/2(n-2),则接受H0,拒绝H1。7.影响预测精度的主要因素是什么?样本容量、模拟的拟合优度8什么是异方差性?举例,检验思路?对于不同的样本点,随机干扰项的方差不再是常数,而且互不相同,则认为出现了异方差性。在现实经济运行中,异方差性经常出现,尤其是采用截面数据做样本的计量经济学问题。例如,工业企业的研究与发展费用指出同企业的销售和利润之间关系的函数模型,个人储蓄量与个人可支配收入之间关系的函数模型等。思路是检验随机干扰项的方差与解释变量观察值的某种函数形式之间是否存在相关性。9.什么是多重共线性?产生多重共线性的原因是什么?多重共线性造成的影响是什么?检验多重共线性的方法是什么?有哪些解决方法?1)对于多元回归线性模型,如果某两个或多个解释变量之间出现了相关性,则称多重共线性。2)原因:经济变量的内在联系,这是产生多重共线性的根本原因。经济变量变化趋势的共同性。在模型中引入滞后变量也容易产生多重共线性。3)影响:增大最小二乘估计量得方差、难以区分每个解释变量的单独影响、检验的可靠度降低、完全共线性下参数估计量不存在4)检验方法:相关系数检验法、辅助回归模型检验、方差膨胀因子检验、特征值检验5)重共线性的解决方法:保留总要的解释变量,去掉次要的或可替代的解释变量。间接剔除重要的解释变量。利用先验信息改变参数的约束形式;变换模型的形式。综合使用时序数据和截面数据。逐步回归法(Frisch综合分析法)主成分回归。1)做OLS回归并获取残差。2)计算d。3)对给定样本大小和给定解释变量个数找出临界dl和du值。4)按决策规则行事。10.DW检验应用条件:1)模型中含有截距项。2)解释变量X是非随机的。3)随机误差项为一阶自相关。4)误差项被假定为正态分布。5)线性回归模型中不应含有滞后内生变量作为解释变量。11.随机解释变量的来源有哪些?随机解释变量有几种情形?分情形说明随机解释变量对最小二乘估计的影响与后果?来源:经济变量的不可控,使得解释变量观测值具有随机性;由于随机干扰项中包括了模型略去的解释变量,而略去的解释变量与模型中的解释变量往往是相关的;模型中含有被解释变量的滞后项,而被解释变量本身就是随机的。三种情形:不同情形下最小二乘估计的影响和后果也不同。解释变量是随机的,但与随机干扰项不相关;这时采用OLS估计得到的参数估计量仍为无偏估计量;解释变量与随机干扰项同期无关、不同期相关;这时采用OLS估计得到的参数估计量是有偏但一致的估计量;解释变量与随机干扰项同期相关;这时采用OLS估计得到的参数估计量仍为有偏且非一致的估计量。12.选择作为工具变量的变量必须满足哪些条件?1)与所替代的随机解释变量高度相关;2)与随机干扰项不相关;3)与模型中其它解释变量不相关,以避免出现多重共线性。13.什么是虚假序列相关?如何避免虚假序列相关?虚假序列相关问题是指模型的序列相关性是由于省略了显著的解释变量而引致的。避免产生虚假序列相关性的措施是在开始时建立一个“一般”的模型,然后逐渐剔除确实不显著的变量。14加权最小二乘法的基本原理:最小二乘法的基本原理是使残差平方和∑et*2为最小,在异方差情况下,总体回归直线对于不同的X(x)t,E(e)t的波动幅度相差很大。随机误差项方差σ(t)*2越小,样本点Y(t)对总体回归直线的偏离程度越低,残差E(e)t的可信度越高(或者说样本点的代表性越强);而σ(t)*2较大的样本点可能会偏离总体回归直线很远,E(e)t的可信度较低(或者说样本点的代表性较弱)。因此,在考虑异方差模型的拟合总误差时,对于不同的E(e)t2应该区别对待。具体做法:对较小的E(e)t2给于充分的重视,即给于较大的权数;对较大的E(e)t2给于充分的重视,即给于较小的权数。更好的使∑et*2反映var(ut)对残差平方和的影响程度,从而改善参数估计的统计性质。15、序列相关性检验的思路:首先采用OLS法估计模型,得到残差作为随机误差项的估计。~ei=Yi-(∧Yi)ols。然后,通过分析这些‘近似估计量’之间的相关性,以判断随机误差项是否具有序列相关性。16、对于人均存款和人均收入的关系式:β为收入的边际储蓄倾向,表示人均收入每增加1美元时人均储蓄的语气平均变化量。2)由于收入为0时,家庭还是会有支出,可预期零收入时的平均储蓄为负,因此α的符合为正。实际的回归式中,β的符合为负,与预期的一致。但截距项的符号为正,与预期不符。这可能是由于模型的错误设定造成的。例如,家庭的人口数可能影响家庭的储蓄行为,省略该变量对截距项的估计产生影响,另一种可能就是线性设定可能不正确。3)拟合优度刻画解释变量对被解释变量变化的解释能力,模型中53、8%的拟合优度表明收入的变化可以解释储蓄中的53、8%的变动。这个拟合优度不高,表明建立的模型需要改进。4)检验单个参数采用t检验,零假设为参数为0,备择假设为参数不为零。双变量情形下,在零假设下t分布的自由度为n-2=36-2=34.由t分布表可知,双侧1%下的临界值位于2.750和2.704之间。斜率项计算的t值为0、067/0.011=6.09;截距项的计算t值为384.105/151.105=2.54可见斜率项计算的t值大于临界值,截距项小于临界值。因此拒绝斜率项为零的假设,但不拒绝截距项为零的假设。17.模型A和B:在模型A中,n=16,k=1,α=5%,查表得dL=1.106,dU=1.371,0<D.W.=0.8252<dL,由此判断此模型中存在正的自相关。在模型B中,n=16,k=2,α=5%,查表得dL=0.982,dU=1.539,dU<D.W.=1.82<4-dU,由此判断此模型中不存在自相关。模型A存在自相关的原因在于实际中当期劳动份额受到前期劳动份额的影响,而模型并未考虑到这一影响因素,因此,其设定形式有误。3、用D.W.可以判断回归方程是否存在自相关,也可以用其进行模型谁大牛股误差的检验,关键在于结合模型的经济意义和经济理论来区分。