1第3章多元线性回归思考与练习参考答案3.2讨论样本容量n与自变量个数p的关系,它们对模型的参数估计有何影响?答:在多元线性回归模型中,样本容量n与自变量个数p的关系是:np。如果n=p对模型的参数估计会带来很严重的影响。因为:1.在多元线性回归模型中,有p+1个待估参数β,所以样本容量的个数应该大于解释变量的个数,否则参数无法估计。2.解释变量X是确定性变量,要求()1rankpnX,表明设计矩阵X中的自变量列之间不相关,即矩阵X是一个满秩矩阵。若()1rankpX,则解释变量之间线性相关,1()XX是奇异阵,则的估计不稳定。3.3证明随机误差项ε的方差2的无偏估计。证明:22122222111112221111ˆ(),111()()(1)(1)()(1)1ˆ()()1niinnnnniiiiiiiiiiiiiniiSSEeeenpnpnpEeDehhnhnpEEenp3.4一个回归方程的复相关系数R=0.99,样本决定系数R2=0.9801,我们能判断这个回归方程就很理想吗?答:不能断定这个回归方程理想。因为:1.在样本容量较少,变量个数较大时,决定系数的值容易接近1,而此时可能F检验或者关于回归系数的t检验,所建立的回归方1ˆ2pnSSE2程都没能通过。2.样本决定系数和复相关系数接近于1只能说明Y与自变量X1,X2,…,Xp整体上的线性关系成立,而不能判断回归方程和每个自变量是显著的,还需进行F检验和t检验。3.在应用过程中发现,在样本容量一定的情况下,如果在模型中增加解释变量必定使得自由度减少,使得R2往往增大,因此增加解释变量(尤其是不显著的解释变量)个数引起的R2的增大与拟合好坏无关。3.7验证证明:多元线性回归方程模型的一般形式为:01122ppyxxx其经验回归方程式为01122ˆˆˆˆˆppyxxx,又01122ˆˆˆˆppyxxx,故111222ˆˆˆˆ()()()pppyyxxxxxx,中心化后,则有111222ˆˆˆˆ()()()ipppyyxxxxxx,左右同时除以21()nyyiiLyy,令21(),1,2,,njjijjiLxxin,1,2,,jp11221122121122()ˆ()()ˆˆˆppippiiipyyyyyyppyyLxxLLyyxxxxLLLLLLL样本数据标准化的公式为21ˆˆ*,1,2,...,)jjyynjjjiLjpLLXjjij其中:(X3,,1,2,,ijjiijijjyyxxyyxyinLL,1,2,,jp则上式可以记为112211221122ˆˆˆˆˆˆppiiipipyyyyyyiipipLLLyxxxLLLxxx则有ˆˆ,1,2,,jjjjyyLjpL3.10验证决定系数R2与F值之间的关系式:ppnFFR/)1(2证明:2/,/(1)111(1)/1SSRpFSSEnpFSSESSRpnpFSSEpSSRSSRFpFnpRFSSESSTSSRSSEFpnpFnpppSSEnp3.11研究货运总量y(万吨)与工业总产值x1(亿元)、农业总产值x2(亿元)、居民非商品支出x3(亿元)的关系。数据见表3.9(略)。(1)计算出y,x1,x2,x3的相关系数矩阵。SPSS输出如下:4相关系数表1.556.731*.724*.095.016.01810101010.5561.113.398.095.756.25410101010.731*.1131.547.016.756.10110101010.724*.398.5471.018.254.10110101010PearsonCorrelationSig.(2-tailed)NPearsonCorrelationSig.(2-tailed)NPearsonCorrelationSig.(2-tailed)NPearsonCorrelationSig.(2-tailed)Nyx1x2x3yx1x2x3Correlationissignificantatthe0.05level(2-tailed).*.则相关系数矩阵为:1.0000.5560.7310.7240.5561.0000.1130.3980.7310.1131.0000.5470.7240.3980.5471.000r(2)求出y与x1,x2,x3的三元回归方程。Coefficientsa-348.280176.459-1.974.0963.7541.933.3851.942.1007.1012.880.5352.465.04912.44710.569.2771.178.284(Constant)x1x2x3Model1BStd.ErrorUnstandardizedCoefficientsBetaStandardizedCoefficientstSig.DependentVariable:ya.对数据利用SPSS做线性回归,得到回归方程为123ˆ348.383.7547.10112.447yxxx(3)对所求的方程作拟合优度检验。5ModelSummary.898a.806.70823.44188Model1RRSquareAdjustedRSquareStd.ErroroftheEstimatePredictors:(Constant),x3,x1,x2a.由上表可知,调整后的决定系数为0.708,说明回归方程对样本观测值的拟合程度较好。(4)对回归方程作显著性检验;方差分析表b13655.37034551.7908.283.015a3297.1306549.52216952.5009回归残差总和Model1平方和自由度均方FSig.Predictors:(Constant),x3,x1,x2a.DependentVariable:yb.原假设:0:3210HF统计量服从自由度为(3,6)的F分布,给定显著性水平=0.05,查表得76.4)6.3(05.0F,由方查分析表得,F值=8.2834.76,p值=0.015,拒绝原假设0H,由方差分析表可以得到8.283,0.0150.05FP,说明在置信水平为95%下,回归方程显著。(5)对每一个回归系数作显著性检验;回归系数表a-348.280176.459-1.974.0963.7541.933.3851.942.1007.1012.880.5352.465.04912.44710.569.2771.178.284(Constant)x1x2x3Model1BStd.ErrorUnstandardizedCoefficientsBetaStandardizedCoefficientstSig.DependentVariable:ya.做t检验:设原假设为0:0iH,6it统计量服从自由度为n-p-1=6的t分布,给定显著性水平0.05,查得单侧检验临界值为1.943,X1的t值=1.9421.943,处在否定域边缘。X2的t值=2.4651.943。拒绝原假设。由上表可得,在显著性水平0.05时,只有2x的P值0.05,通过检验,即只有2x的回归系数较为显著;其余自变量的P值均大于0.05,即x1,x2的系数均不显著。(6)如果有的回归系数没有通过显著性检验,将其剔除,重新建立回归方程,并作回归方程的显著性检验和回归系数的显著性检验。解:用后退法对数据重新做回归分析,结果如下:Coefficientsa-348.280176.459-1.974.0963.7541.933.3851.942.1007.1012.880.5352.465.04912.44710.569.2771.178.284-459.624153.058-3.003.0204.6761.816.4792.575.0378.9712.468.6763.634.008(Constant)x1x2x3(Constant)x1x2Model12BStd.ErrorUnstandardizedCoefficientsBetaStandardizedCoefficientstSig.DependentVariable:ya.选择模型二,重新建立的回归方程为:12ˆ459.6244.6768.971yxx方差分析表b12893.19926446.60011.117.007a4059.3017579.90016952.5009回归残差Total模型1平方和自由度均方FSig.Predictors:(Constant),农业总产值X2(亿元),工业总产值X1(亿元)a.DependentVariable:货运总量Y(万吨)b.7对新的回归方程做显著性检验:原假设:0:210HF服从自由度为(2,7)的F分布,给定显著性水平=0.05,查表得74.4)7.2(05.0F,由方差分析表得,F值=11.1174.74,p值=0.007,拒绝原假设0H.认为在显著性水平=0.05下,x1,x2整体上对y有显著的线性影响,即回归方程是显著的。对每一个回归系数做显著性检验:做t检验:设原假设为0:10H,1t统计量服从自由度为n-p-1=7的t分布,给定显著性水平0.05,查得单侧检验临界值为1.895,X1的t值=2.5751.895,拒绝原假设。故1显著不为零,自变量X1对因变量y的线性效果显著;同理β2也通过检验。同时从回归系数显著性检验表可知:X1,X2的p值都小于0.05,可认为对x1,x2分别对y都有显著的影响。(7)求出每一个回归系数的置信水平为955D置信区间由回归系数表可以看到,β1置信水平为95%的置信区间[0.381,8.970],β2置信水平为95%的置信区间[3.134,14.808]模型摘要.872a.761.69224.081.76111.11727.007模型1RRSquare调整后的RSquareStd.ErroroftheEstimateRSquareChangeFChangedf1df2Sig.FChange改变统计量Predictors:(Constant),农业总产值X2(亿元),工业总产值X1(亿元)a.8Coefficientsa-348.280176.459-1.974.096-780.06083.5003.7541.933.3851.942.100-.9778.4857.1012.880.5352.465.049.05314.14912.44710.569.2771.178.284-13.41538.310-459.624153.058-3.003.020-821.547-97.7004.6761.816.4792.575.037.3818.9708.9712.468.6763.634.0083.13414.808(Constant)x1x2x3(Constant)x1x2Model12BStd.ErrorUnstandardizedCoefficientsBetaStandardizedCoefficientstSig.LowerBoundUpperBound95%ConfidenceIntervalforBDependentVariable:ya.(8)求标准化回归方程由回归系数表(上表)可得,标准化后的回归方程为:***12ˆ0.4790.676yxx(9)求当x01=75,x02=42,x03=3.1时的y的预测值0ˆy,给定置信水平95%