第七章相关与回归分析STAT本章重点1、相关关系与回归方程概述;2、相关关系的测定;3、回归方程的拟合;4、回归方程的应用。本章难点1、积差法相关系数的计算;2、总离差平方和及其分解。第七章相关与回归分析STAT第一节相关关系概述一、变量间的相互关系(一)函数关系1、定义:完全确定的(数量)关系。函数是指现象之间是一种严格的确定性的依存关系。表现为某一现象发生变化另一现象也随之发生变化,而且有确定的值与之相对应。[例]计件工资(y)与产量(x)y=f(x)=10x;x0=1件,y0=10元;x1=2件,y1=20元原材料消耗总额(y)与产量(x1)、单位产量消耗(x2)和原材料价格(x3)y=x1·x2·x3。第七章相关与回归分析(二)相关关系1、定义:不完全确定的关系。相关关系是指客观现象之间确实存在的,但数量上不是严格对应的依存关系。在这种关系中,对于某一现象的每一数值,可以有另一现象的若干数值与之相对应。如生育率与人均GDP的关系属于典型的相关关系:人均GDP高的国家,生育率往往较低,但二者没有惟一确定的关系,这是因为除了经济因素外,生育水平还受教育水平、城市化水平以及不易测量的民族风俗、宗教和其他随机因素的共同影响。第七章相关与回归分析STAT[例]身高y与体重x;A:x=60kg、y=170m;B:x=60kg、y=1.72m;C:x=60kg、y=1.68m;D:x=60kg、y=1.65m。(2)表述:y=f(x)+。影响身高的因素:体重、遗传、锻炼、睡眠质量……2、成因(1)某些影响因素尚未被认识;(2)虽已认识但无法测量;(3)测量误差。[例]某种水果2元/斤:购买额y=2x购买量y=4元、x=2斤y=2x+=2×1.9+0.2第七章相关与回归分析STAT3、数量关系的形式(1)单一因果关系;(2)互为因果关系;(3)伴随关系。二、相关关系的种类(一)按相关的程度分1、完全相关:函数关系;2、不相关:没有关系;3、不完全相关。(二)按相关的方向分1、正相关:变量的变动方向一致(同增同减);2、负相关:变量的变动方向相反(一增一减)。第七章相关与回归分析STAT(三)按相关的形式分1、线性相关;2、非线性相关。第七章相关与回归分析STAT(四)按影响因素的多少分1、(简)单相关:只有一个自变量;[例]学习成绩与学习时间;广告费支出与产品销售量;亩产量与施肥量。2、复(多元)相关:两个或两个以上的自变量;[例]经济增长与人口增长、科技水平、自然资源、管理水平等之间的关系;商品销售额与居民收入、商品价格之间的相关关系。3、偏相关:就多个变量测定其中两个变量的相关程度而假定其他变量不变。第七章相关与回归分析•相关关系和函数关系既有区别,又有联系。•有些函数关系往往因为有观察或测量误差以及各种随机因素的干扰等原因,在实际中常常通过相关关系表现出来;•在研究相关关系时,其数量间的规律性了解得越深刻的时候,则相关关系越有可能转化为函数关系或借助函数关系来表现。第七章相关与回归分析STAT第二节线性相关关系的测定[目的]测定变量间的相关方向与密切程度。要判别现象之间有无相关关系,一是定性分析,二是定量分析。一.定性分析定性分析是依据研究者的理论知识、专业知识和实践经验,对客观现象之间是否存在相关关系,以及有何种相关关系做出判断。并可在定性认识的基础上,编制相关表、绘制相关图,以便直观地判断现象之间相关的方向、形态及大致的密切程度。第七章相关与回归分析(一)相关表1、单变量分组相关表:自变量分组且计算次数,因变量只计算平均数。30家同类企业的有关资料产量(件)x企业数平均单位成本(元)y20304050809556516.815.615.014.814.2第七章相关与回归分析STAT2、双变量分组相关表:对自变量与因变量均进行分组。注:自变量X轴;因变量Y轴。(二)相关图:散点图[不足]难以精确反映相关的密切程度。30家同类企业的有关资料产量x(件)单位成本y(元/件)2030405080合计18161514441——32——131—132——1449107合计9556530第七章相关与回归分析STAT二、定量分析–––相关系数※(一)积差法计算公式则的一组样本观察值是设,),(),(YXyxii2222)()())(()()())((yyxxyyxxnyynxxnyyxxr的标准差的协方差的相关系数与为yxyxyxryxxyyxxy,,yyxxxyLLL第七章相关与回归分析STAT(二)协方差xy的作用1、显示x与y之间的相关方向。XYyyxx)(一)(二)(三)(四),(11yx),(nnyx00)()())(()()(ryyxxyyxxxy正相关三一yxxyrnyyxxxy))((第七章相关与回归分析STAT[负相关]XYyyxx)(一)(二)(三)(四),(11yx),(nnyx00)()())(()()(ryyxxyyxxxy负相关四二nyyxxxy))((yxxyr第七章相关与回归分析STAT2、显示x与y之间的相关程度。)()())(()()(yyxxAyyxx图三一密集分布图A散乱分布图BXYPQ偏小偏大))(())((qqppyyxx第七章相关与回归分析STAT[负相关])()())(()()(yyxxAyyxx图四二密集分布图A散乱分布图BXYPQ偏小偏大))(())((qqppyyxx第七章相关与回归分析STAT[不相关]00))((0:xyyyxxxxA图图A图BXYXYxxyy00))((0:xyyyxxyyB图之间无直线相关与yx第七章相关与回归分析STAT[归纳]xy的作用第一、显示x与y之间的相关方向负相关正相关无直线相关000000rrrrxyxyxyyxxy之间的相关程度越低与越小之间的相关程度越高与越大yxyxxyxy第二、显示x与y之间的相关密切程度第七章相关与回归分析STAT(三)x、y的作用1使不同变量的协方差标准化直接对比。yxyxxynyyxxr))((nyyxxyyxxnyyxxyxyxnyyxx))((标准化的协方差nyyxx))((yxyx11第七章相关与回归分析STAT2、使111rrnyyxxryx22nyyxxryx2221yxyxyyxxyyxxn1112yxyyxxn22222)()(1yxyxnyynxxyyxxn1:1022rrr同理可证2122yxyyxxnr221)(ynyy第七章相关与回归分析STAT(四)积差法相关系数的简捷计算公式2222)()())(()()())((yyxxyyxxnyynxxnyyxxryxxynyxxy)())((yxyxyxxyyyxxyxyxxyxynynxnnyxnyxxyyxnynxxnyxynyxxyyyxx))((:结论第七章相关与回归分析STAT[简捷计算公式]222xxxx)2()(222xxxxxx222)(2nxnnxxnxx22)(nxxxx222)()(:结论nyyyy222)()(222xnxnxx第七章相关与回归分析STAT[r的简捷计算式]22)()())((yyxxyyxxryxxynyynxxnyxxy2222)()(nyynxxnnyxxyn2222)()()(2222)()(yynxxnyxxyn2222yyxxyxxyyxyxxy第七章相关与回归分析STAT(五)线性相关的判断准则低度相关微弱相关5.03.03.0rr[例]为了解营业员每人月平均销售额(万元)和利润率(%)之间的关系,特从100家商店中随机抽取10家,得到如下资料,试计算样本相关系数。高度相关显著相关18.08.05.0rr但可能有其他关系无线性关系与,0yxr函数关系有完全线性关系与:1yxr店A1A2A3A4A5A6A7A8A9A10额6581476337%12.610.418.53.08.116.312.36.26.616.8第七章相关与回归分析STAT[例]计算过程。人均销售额x利润率(%)yx2y2xy658147633712.610.418.53.08.116.312.36.26.616.836256411649369949158.76108.16342.259.0065.61265.69151.2938.4443.56282.2475.652.0148.03.032.4114.173.818.619.8117.650110.82941465.00654.9第七章相关与回归分析STAT[解]228.11014651050294108.110509.654102222)()(yyxxnyxxynr987.036.23734401009答:人均销售额与利润率之间存在着高度的正相关关系。10,9.654,1465,294,8.110,5022nxyyxyx第七章相关与回归分析STAT问:若令人均销售额为y,利润率为x,则r的取值是否改变?人均销售额x利润率(%)yx2y2xy658147633712.610.418.53.08.116.312.36.26.616.836256411649369949158.76108.16342.259.0065.61265.69151.2938.4443.56282.2475.652.0148.03.032.4114.173.818.619.8117.650110.82941465.00654.9第七章相关与回归分析(七)相关分析中应注意的问题1.相关系数不能解释两变量间的因果关系相关系数只是表明两个变量间互相影响的程度和方向,它并不能说明两变量间是否有因果关系,以及何为因,何为果,即使是在相关系数非常大时,也并不意味着两变量间具有显著的因果关系。例如,根据一些人的研究,发现抽烟与学习成绩有负相关关系,但不能由此推断是抽烟导致了成绩差。第七章相关与回归分析2.警惕虚假相关导致的错误结论有时两变量之间并不存在相关关系,但却可能出现较高的相关系数。如存在另一个共同影响两变量的因素。有人曾对教师薪金的提高和酒价的上涨作了相关分析,计算得到一个较大的相关系数,这是否表明教师薪金提高导致酒的消费量