1思考与练习1.随机误差项u包括哪些内容?2.一元线性回归模型有哪些基本假定?3.证明公式(2.16)、公式(2.17)。4.理解样本决定系数的含义。5.若我们搜集两个变量的历史资料如下:广告费x12345678销售收入y1014182025283040(1)绘制散点图;(2)x与y之间是否大致呈线性关系?(3)用最小二乘法求出回归方程;(4)求回归标准误差ˆ;(5)给出回归系数的置信度为95%的区间估计;(6)给出回归方程的方差分解表;(7)计算x与y的决定系数;(8)对回归方程进行F检验。6.美国各航空公司业绩的统计数据公布在《华尔街日报1999年年鉴》(TheWallStreetJournalAlmanac1999)上。航班正点到达的比率和每10万名乘客投诉的次数的数据如下。航空公司名称航班正点率(%)投诉率(次/10万名乘客)西南(Southwest)航空公司81.80.21大陆(Continental)航空公司76.60.58西北(Northwest)航空公司76.60.85美国(USAirways)航空公司75.70.68联合(United)航空公司73.80.74美洲(American)航空公司72.20.93德尔塔(Delta)航空公司71.20.72美国西部(Americawest)航空公司70.81.22环球(TWA)航空公司68.51.25资料来源:(美)DavidR.Anderson等《商务与经济统计》,第405页,机械工业出版社。(1)求出描述投诉率是如何依赖航班按时到达正点率的的回归方程,并进行显著性检验。(2)对估计的回归方程的斜率作出解释。(3)如果航班按时到达的正点率为80%,估计每10万名乘客投诉的次数是多少?7.下面是对某个案例分析的EViews输出结果。该案例的回归分析结果是否理想?为什么?DependentVariable:YMethod:LeastSquaresDate:05/28/03Time:10:25Sample:19912000Includedobservations:10VariableCoefficientStd.Errort-StatisticProb.C32.2207633.204780.9703650.3603X0.8009531.2608000.6352730.5430R-squared0.048024Meandependentvar48.40000AdjustedR-squared-0.070973S.D.dependentvar65.10368S.E.ofregression67.37438Akaikeinfocriterion11.435262Sumsquaredresid36314.46Schwarzcriterion11.49578Loglikelihood-55.17632F-statistic0.403572Durbin-Watsonstat2.514737Prob(F-statistic)0.5429891.解:一般说来,随机项u来自以下几个方面:(1)变量的省略。由于人们认识的局限不能穷尽所有的影响因素或由于受时间、费用、数据质量等制约而没有引入模型之中的对被解释变量y有一定影响的自变量。(2)统计误差。数据搜集中由于计量、计算、记录等导致的登记误差;或由样本信息推断总体信息时产生的代表性误差。(3)模型的设定误差。如在模型构造时,非线性关系用线性模型描述了;复杂关系用简单模型描述了;此非线性关系用彼非线性模型描述了等等。(4)偶然性误差。被解释变量还受一些不可控制的众多的、细小的偶然因素的影响。2.解:假定1:E(iuix)=0。即随机项iu的条件数学期望(均值)为零。假定2:22(){[(()]}()iiiiiVaruxEuEuEu2u(i=1,2,…,n)。即对于不同的ix,u具有相同的方差,也就是说各次观测值所受的随机影响的程度相同。假定3:(,){[(()][(()]}0ijiijjCovuuEuEuuEu(i≠j;i=1,2,…,n;j=1,2,…,n)。即在任意两次观测时,,ijuu是相互独立的,不相关的,也就是无序列相关。假定4:(,)iiCovux=0。即解释变量ix与误差项iu同期独立无关。因为如果两者相关,就不可能把x对y的影响和u对y的影响区分开来。假定5:2~(0,)iuuN。即对于给定的ix,iu为服从正态分布的随机变量。3.证明:(1)因为iiiiiiiyxxxxxnyxxxxxynxy))()(1()()(1ˆˆ2210所以:22222222222222222220])(1[])()(2))(()(1[])()(2))(()(1[)())()(1(]))()(1[()ˆ(uiuiiiiuiiiiiiiiiixxxnxxxxxnxxxxxnxxxxxnxxxxxnyVarxxxxxnyxxxxxnVarVar3(2))]ˆ)(ˆ[()]}ˆ(ˆ)][ˆ(ˆ{[)ˆ,ˆ(1100110010EEEECov)ˆ()]ˆ(ˆ[)]}ˆ(ˆ][)ˆ(ˆ{[12111111VarxEExExEyxyE22)(xxσxu所以:2210)()ˆ,ˆ(uσxxxCov4.答:ESS是由回归方程确定的,也就是由自变量x变动引起的,又称为回归平方和;RSS是由x之外的随机项u的波动引起的,又称不可解释平方和。不难看出,回归平方和(可解释平方和)ESS在总平方和TSS中所占比例越大,残差平方和RSS在TSS中所占比重就越小,说明回归的效果就越好,即样本回归线01ˆˆˆiiyx与样本观测值(,)iixy拟合得越好。为此我们把回归平方和占总平方和的比重定义为样本决定系数,记为21ESSRSSRTSSTSS显然201R。2R越接近于1,表示回归直线与样本观测值拟合越好。可见2R可以用来度量回归直线与样本观测值拟合优度。另一方面,若2R大,则解释变量x对被解释变量y的解释程度就高,可以推测总体线性相关关系显著,即总体回归系数1不会同时为零,回归方程显著。反之,可以推测总体线性相关关系不显著,即1与零没有显著差异,回归方程不显著。5.解:(1)利用EXCEl绘制xy散点图,如下所示:散点图010203040500246810广告费销售收入系列1(2)通过xy的散点图,可以明显的看出x与y之间大致呈线性关系。(3)利用最小二乘法可以求出回归方程如下:xy869.3714.5ˆ(4)回归标准误差922.1ˆu4(5)回归系数的置信度为95%的区间:[3.144,4.595](6)回归方程的方差分解表;自由度平方和均方和F值Sig-F回归分析1628.7202628.7202170.27141.25E-05残差622.154763.69246总计7650.875(7)计算x与y的决定系数:966.02R(8)对回归方程进行F检验:因为Sig-f=1.25E-51%,所以通过α=1%的总体显著性检验(F检验)。6.解:(1)描述投诉率是如何依赖航班按时到达正点率的的回归方程及显著性检验如下:674.24,779.0)967.4)(719.5(070.0018.6ˆ2****FRtxy通过进行检验,该回归方程总体线性显著性显著,拟合程度良好,解释变量显著。(2)回归方程的斜率即回归系数0.070表示航班正点率每提高1%,在其他条件不变的情况下,投诉率将平均的减少0.070次(/10万名乘客)。(3)航班按时到达的正点率为80%,即令回归方程中的x=80,此时418.0ˆy。7.解:不理想,从相关的检验数据来看,拟合优度检验R2=0.048024,F=0.403572(Sig-f=0.542989),t=0.635273(P=0.543,一次项回归系数),显然各类检验结果均不理想,说明该模型无论从总体而言还是从单个解释变量而言都是不显著的。思考与练习1.写出多元线性回归模型的一般形式。2.多元线性回归模型的基本假定有哪些?3.写出2u的无偏估计量的计算公式。4.如果一个样本回归方程的样本决定系数为0.98,我们能否判定这个样本回归方程就很理想?5.根据例3.1数据,利用OLS的正规方程组,估计样本回归方程。6.已知我国1990年~1999年的货运量y、工业总产值x1.农业总产值x2资料如下表所示:年份货运量(万吨)工业总产值(亿元)农业总产值(亿元)1990970602239247662.11991985793266258157.019921045899345999084.7199311157714840210995.5199411802737017615750.5199512348109189420340.9199612962009959522353.71997127808711373323788.41998126720011904824541.951999129265012611124519.1要求计算:(1)二元线性回归方程(2)对系数、方程分别进行显著性检验。(3)当工业总产值达到130000亿元,农业总产值达到25000亿元时,货运量能达到多少?(给定置信水平为95%)7.以下是某个案例的方差分解结果,填上所缺数据。ANOVAModel1SumofSquaresdfMeanSquareFSig.Regression42555.4616079.3524.785.002ResidualTotal71776.951a.Predictors:(Constant),X8,X6,X1,X7,X2,X5,X3b.DependentVariable:Y8.以下是某个案例的EViews分析结果。你对分析结果满意吗?为什么?DependentVariable:YMethod:LeastSquaresSample(adjusted):19912000Includedobservations:10afteradjustingendpointsVariableCoefficientStd.Errort-StatisticProb.C4.8267899173660.5236630.6193X10.1783810.3081780.5788270.5838X20.6880300098993779100.0169X3-0226440.156400-1.4235560044R-squared0.852805Meandependentvar41.90000AdjustedR-squared0.779207S.D.dependentvar348783S.E.ofregression16.11137Akaikeinfocriterion8.686101Sumsquaredresid1557.457Schwarzcriterion8.807135Loglikelihood-39.43051F-statistic11.58741Durbin-Watsonstat1.579994Prob(F-statistic)0.006579答案1.解:如果被解释变量(因变量)y与k个解释变量(自变量)1x,2x,…,kx之间有线性相关关系,那么它们之间的多元线性总体回归模型可以表示为01122kkyxxxu其中,012,,,,k是k+1个未知参数,又称为回归系数;u是随机误差项。2.解:多元线性回归模型的基本有:6(1)随机误差项iu的条件期望值为零。即12[|,,]0iiikiEuxxx,(1,2,,in).(2)随机误差项iu的条件方差相同。即212(|,,...,)iiikiuVaruxxx,(1,2,,in).(3)随机误差项iu之间无序列相关。即(,)0ijCovuu,(,