第六章相关与回归分析思考与练习一、判断题1.产品的单位成本随着产量增加而下降,这种现象属于函数关系。答:错。应是相关关系。单位成本与产量间不存在确定的数值对应关系。2.相关系数为0表明两个变量之间不存在任何关系。答:.错。相关系数为零,只表明两个变量之间不存在线性关系,并不意味着两者间不存在其他类型的关系。3.单纯依靠相关与回归分析,无法判断事物之间存在的因果关系。答:对,因果关系的判断还有赖于实质性科学的理论分析。4.圆的直径越大,其周长也越大,两者之间的关系属于正相关关系。答:错。两者是精确的函数关系。5.总体回归函数中的回归系数是常数,样本回归函数中的回归系数的估计量是随机变量。答:对。6.当抽取的样本不同时,对同一总体回归模型估计的结果也有所不同。答:对。因为,估计量属于随机变量,抽取的样本不同,具体的观察值也不同,尽管使用的公式相同,估计的结果仍然不一样。二、选择题1.变量之间的关系按相关程度分可分为:b、c、da.正相关;b.不相关;c.完全相关;d.不完全相关;2.复相关系数的取值区间为:aa.10R;b.11R;c.1R;d.R13.修正自由度的决定系数a、b、da.22RR;b.有时小于0;c.102R;d.比2R更适合作为衡量回归方程拟合程度的指标4.回归预测误差的大小与下列因素有关:a、b、c、da样本容量;b自变量预测值与自变量样本平均数的离差c自变量预测误差;d随机误差项的方差三、问答题1.请举一实例说明什么是单相关和偏相关?以及它们之间的差别。答:例如夏季冷饮店冰激凌与汽水的消费量,简单地就两者之间的相关关系进行考察,就是一种单相关,考察的结果很可能存在正相关关系,即冰激凌消费越多,汽水消费也越多。然而,如果我们仔细观察,可以发现一般来说,消费者会在两者中选择一种消费,也就是两者之间事实上应该是负相关。两者之间的单相关关系出现正相关是因为背后还有天气等因素的影响,天气越热,两种冷饮的消费量都越多。如果设法将天气等因素固定不变,单纯考察冰激凌与汽水的消费量,则可能出现负相关关系。像这种假定其他影响因素不变专门考察其中两个因素之间的关系就成为偏相关。2.讨论以下几种场合,回归方程ttttuXXY33221中回归系数的经济意义和应取的符号。(1)Yt为商业利润率;X2t为人均销售额;X3t为流通费用率。(2)Yt为粮食销售量;X2t为人口数;X3t为人均收入。(3)Yt为工业总产值;X2t为占用的固定资产;X3t为职工人数。(4)Yt为国内生产总值;X2t为工业总产值;X3t为农业总产值。答:(1)02,03人均销售额越大,企业利润越高,故此商业利润率越高,从而商业利润率与人均销售额呈正相关关系;而流通费用率越高,反映商业企业的经营成本越高,其商业利润率就越低。(2)02,03人口数量越多,对粮食的消费量就越大;人均收入越多,对粮食的购买力就越强,故此这两个变量皆与粮食销售量呈正相关关系。(3)02,03固定资产和职工人数是两大生产要素,数量越多,说明生产要素越密集,工业总产值就越高,所以它们与工业总产值的关系为正相关。(4)01,02,03因为国内生产总值包括三次产业,所以工业总产值、农业总产值和全部的国内生产总值为正相关关系,同时即便某些特殊地区没有工业和农业,仍然有国内生产总值,所以,01。四、计算题1.设销售收入X为自变量,销售成本Y为因变量。现根据某百货公司12个月的有关资料计算出以下数据:(单位:万元)2)(XXt=425053.73;X=647.88;2)(YYt=262855.25;Y=549.8;))((XXYYtt=334229.09(1)拟合简单线性回归方程,并对方程中回归系数的经济意义做出解释。(2)计算决定系数和回归估计的标准误差。(3)对β2进行显著水平为5%的显著性检验。(4)假定明年1月销售收入为800万元,利用拟合的回归方程预测相应的销售成本,并给出置信度为95%的预测区间。解:(1)7863.073.42505309.334229)())((ˆ22XXXXYYttt3720.4088.647*7863.08.549ˆˆ21XY(2)2222)()(]))(([YYXXXXYYrtttt999834.025.262855*73.42505309.33422926340.43)()1(222YYret0889.222neSte(3)0:,0:2120HH003204.073.4250530889.2)(2ˆ2XXSSte4120.245003204.07863.0ˆ22ˆ2ˆSt228.2)10()2(05.02/tntt值远大于临界值2.228,故拒绝零假设,说明2在5%的显著性水平下通过了显著性检验。(4)41.669800*7863.03720.40fY(万元)1429.273.425053)88.647800(12110089.2)()(11222XXXXnSStfef所以,Yf的置信度为95%的预测区间为:3767.241.6690667.1*228.214.696)2(2/fefSntY所以,区间预测为:18.46764.466fY2.对9位青少年的身高Y与体重X进行观测,并已得出以下数据:i13.54Y,9788.22Y2i,i472X,228158iX,803.02iiXY要求:(1)以身高为因变量,体重为自变量,建立线性回归方程;(2)计算残差平方和决定系数;(3)计算身高与体重的相关系数并进行显著性检验;(自由度为7,显著水平为0.05的t分布双侧检验临界值为2.365。)(4)对回归系数2ˆ进行显著性检验。解:(1)2222)())())((ˆtttttttttXXNYXYXNXXXXYY0273.0472*47228158*9472*54.1302.803*90727.09/472*0273.09/54.13ˆˆ21XY(2)决定系数:9723.0)()(]))(([2222YYXXXXYYrtttt残差平方和0722.0)()1(222YYret(3)身高与体重的相关系数:9861.09723.02Rr不同时为零和211210:,0:HH1016.022neSte检验统计量9134.245)(ˆ2222etSXXF)2(2,1NtFNF值远大于临界值2.365,故拒绝零假设,说明回归方程在5%的显著性水平下通过了显著性检验。(4)0:,0:2120HH0005.03404.2220273.0)(2ˆ2XXSSte6.540005.00273.0ˆ22ˆ2ˆSt365.2)7()2(05.02/tntt值远大于临界值2.365,故拒绝零假设,说明2在5%的显著性水平下通过了显著性检验。3.我国2004年部分副省级大中城市的有关资料如下表。城市人均消费支出Y(元/人)人均可支配收入X1(元/人)人均储蓄X2(元/人)沈阳7213892422470.93大连86721037826185.59哈尔滨6896894013402.76南京83501160224994.58武汉7793956419175.46济南84711079815298.77青岛90021108916495.77杭州112131456529083.99宁波112831588223257.83武汉7793956419175.46广州131211688459786.52厦门107391444338261.19资料来源:厦门市统计局网站,其中人均储蓄根据储蓄额与人口数推算。试根据该表的资料,(1)拟合以下形式的消费函数:Yt=β1+β2X1t+β3X2t+Ut(2)计算随机误差项的标准差估计值、修正自由度的决定系数,并对整个回归方程进行显著性检验。(3)假设某一居民家庭人均可支配收入为12,000元,人均储蓄为40000元,试预测其人均消费支出,并给出置信度为95%的预测区间。解:(1)回归分析的EXCEL操作步骤为:步骤一:首先将数据粘贴导入EXCEL数据表中。步骤二:进行回归分析选择“工具”→“数据分析”→“回归”,在该窗口中选定自变量和因变量的数据区域,最后点击“确定”完成操作:得到回归分析的输出结果见下图。因此回归方程为:tttXXY210245.05879.00116.1596(2)随机误差项的标准差估计值为:S=369.3716,修正的决定系数为:9633.02R。不同时为零和、32113210:,0:HHF=145.4606远大于F统计量的临界值4.10,说明回归方程在5%的显著性水平下通过检验。(3)预测点估计值为:158.963140000*0245.012000*5879.00116.1596fC使用EXCEL进行区间估计步骤如下:步骤一:构造工作表步骤二:为方便后续步骤书写公式,定义某些单元格区域的名称首先,定义F6、F7、F8的名称:选定E6:F8区域,然后执行菜单命令“插入”→“名称”→“指定”,在调出的对话框中选中“最左列”,单击“确定”:其次,定义B2:D13的名称:先选定该区域,然后执行然后执行菜单命令“插入”→“名称”→“定义”:调出“定义名称”对话框,输入名称“X”,单击“确定”。最后,采用同样方法,将B15:D15定义为“Xf”,将F2:F4定义为“B”。步骤三:计算点预测值fC在F6中输入公式“=MMULT(Xf,B)”,按回车键即可。步骤四:计算t临界值在F7中输入公式“=TINV(1-0.95,12-3)”,按回车键即可。步骤五:计算预测估计误差的估计值feS在F5中输入公式:“=MMULT(MMULT(Xf,MINVERSE(MMULT(TRANSPOSE(X),X))),TRANSPOSE(Xf))”然后按“Ctrl+Shift+Enter”组合键即可。再计算feS,在F8中输入公式“=369.3716*SQRT(1+F5)”。369.3716为回归估计标准差。步骤六:计算置信区间上下限在F9、F10中分别输入公式“=Cf-t临界值*Sef”和“=Cf+t临界值*Sef”。结果为:最终得出fC的区间预测结果:6108.105767050.8685fC4.设有以下资料(1)试拟合以下总成本函数tttttuXXXY342321(2)根据总成本函数推导出平均成本函数,并描出平均成本函数的图形。(3)试根据以上结果推算总产量为1550时的单位产品平均成本。某企业近年来总成本与产量年份总成本Y产量X年份总成本Y产量X199732900400200386300900199852400600200413900012001999424005002005115700110020006290070020061548001300200174100800200717870014002002100000100020082031001500解:(1)构造EXCEL数据表,并与前面所述的同样步骤进行回归分析,得到相应的回归分析结果(见下页)。得到的回归方程为:320000348.00177.07399.838525.480ttttXXXY(2)求平均成本函数:因为平均成本ty与总成本tY的关系为:tttXYy,所以20000348.00177.07399.838525.480ttttXXXy将产量从1到2,000取值,代入上式,获得2000个平均成本的数据点,描出平均成本函数的图形,见图7-15。平均成本曲线010020030040050060011