第十章相关与回归分析一、基本内容第一节相关与回归分析的基本问题相关的概念与种类、回归的概念与种类、相关分析与回归分析的区别和联系、相关分析与回归分析的作用、相关分析与回归分析的步骤第二节相关关系与一元线性回归分析相关系数测定,建立一元线性回归方程,回归估计标准差•二、学习目的与要求•通过对本章的学习,使同学们明确相关与回归的概念、种类,相关与回归分析的作用,掌握直线相关与简单直线回归分析的原理和计算方法。•三、学习重点与难点•本章学习的重点是直线相关与简单直线回归分析的计算,难点是相关与回归在计算上的联系。•四、授课学时:4-6个学时客观现象总是普遍联系和相互依存的。客观现象之间的数量联系存在着两种不同的类型:函数关系;相关关系。现象的函数关系可以用数学分析的方法去研究,而研究客观现象的相关关系需用统计学中的相关与回归分析方法。第一节相关与回归分析的基本问题•一、相关的概念与种类•二、回归的概念与种类•三、相关分析与回归分析的区别与联系•四、相关分析与回归分析的作用•五、相关分析与回归分析的步骤一、相关的概念与种类•(一)函数关系•函数关系是指现象之间存在严格的依存关系。•(二)相关关系•相关关系是指现象之间存在这非严格、不确定的依存关系。现象间关系相关关系函数关系两现象间的数量按照一定规律一一对应。例如:2rS两现象间的数量存在协变关系,但却不是一一对应的。例如:考虑施肥量与产量之间的关系。相关分析回归分析变量间的关系(函数关系)1.是一一对应的确定关系2.设有两个变量x和y,变量y随变量x一起变化,并完全依赖于x,当变量x取某个数值时,y依确定的关系取相应的值,则称y是x的函数,记为y=f(x),其中x称为自变量,y称为因变量3.各观测点落在一条线上xy变量间的关系(函数关系)函数关系的例子某种商品的销售额(y)与销售量(x)之间的关系可表示为y=px(p为单价)圆的面积(S)与半径之间的关系可表示为S=R2企业的原材料消耗额(y)与产量(x1)、单位产量消耗(x2)、原材料价格(x3)之间的关系可表示为y=x1x2x3变量间的关系(相关关系)1.变量间关系不能用函数关系精确表达2.一个变量的取值不能由另一个变量唯一确定3.当变量x取某个值时,变量y的取值可能有几个4.各观测点分布在直线周围xy变量间的关系(相关关系)相关关系的例子商品的消费量(y)与居民收入(x)之间的关系商品销售额(y)与广告费支出(x)之间的关系粮食亩产量(y)与施肥量(x1)、降雨量(x2)、温度(x3)之间的关系收入水平(y)与受教育程度(x)之间的关系父亲身高(y)与子女身高(x)之间的关系•(三)相关关系种类•1按变量的多少,分单相关和复相关•2按相关形式不同,分线性相关和非线性相关(曲线相关)•3按相关方向不同,分正相关和负相关•4按相关程度的高低,分完全相关、不完全相关和不相关相关关系的图示不相关负线性相关正线性相关非线性相关完全负线性相关完全正线性相关在途人数航程产量零件报废率资金占用量施肥量运转时间商品周转速度正直线相关负直线相关指数曲线相关抛物线相关几种不同的相关关系类型二、回归的概念与种类•(一)回归•英国生物学家兼统计学家高尔顿提出•统计学上的回归分析是指根据大量统计数据,找出变量之间在数量变化方面的规律。(二)回归分析的种类一元回归(简单回归)多元回归(复回归)线性回归非线性回归一元线性回归按自变量的个数分⒈按回归曲线的形态分⒉三、相关分析与回归分析的区别与联系•1联系:均为研究两个或两个以上变量之间关系的方法。•相关分析是回归分析的前提,回归分析是相关分析的继续。无相关就无回归,相关程度越高,回归越好;•相关系数和回归系数方向一致。•2区别:•相关分析中x与y对等,回归分析中x与y要确定自变量和因变量;•相关分析中x、y均为随机变量,回归分析中只有y为随机变量,x为一般变量;•相关分析用于测定现象相关程度和方向,回归分析用回归模型进行预测和控制。四、相关分析与回归分析的作用•1研究经济现象之间的相关形式、相关方向和密切程度,认识其数量变化的规律性。•2对经济现象进行推算和预测,为科学地制定经济政策和管理决策提供科学依据。五、相关分析与回归分析的步骤•1相关关系的定性分析•2确定回归方程•3计算相关系数,对回归方程变量之间的相关性进行显著性检验;•4利用回归方程进行推算和预测;•5对推算和预测作出置信区间估计第二节相关关系与一元线性回归分析判断现象之间有无相关关系时,先据实际情况看是否有相关关系,若有,在定性分析的基础上编制相关表,绘制相关图,最后计算相关系数。一、相关表和相关图相关表是一种统计表,它是直接根据现象之间的原始资料,将一变量的变量值按从小到大(或从大到小)的顺序进行排列,并将另一变量的值与之对应排列形成的表格。相关图又称散点图,它是用直角坐标系的x轴代表自变量,y轴代表因变量,将两个变量间相对应的变量值用坐标点的形式描绘出来,用以表明相关点分布状况的图形。10个大型工业企业销售额(单位:亿元)序号企业销售额X利润额Y12345678910华东电力大庆石油华北电力华中电力武钢上海石化北京燕化齐鲁石化宝钢广东电力11110290856662585148432522242125131812109合计716179408090100110506070201510525YX销售额利润额10个大型工业企业销售额与利润额散点图(亿元)二、回归分析概述指在相关分析的基础上,根据相关关系的数量表达式(回归方程式)与给定的自变量x,揭示因变量y在数量上的平均变化,并求得因变量的预测值的统计分析方法二、一元线性回归方程的确定对于经判断具有线性关系的两个变量y与x,构造一元线性回归模型为:XY为随机误差项为模型参数,与式中:E()=0,总体一元线性回归方程:XYEYˆ一元线性回归方程的几何意义)(YEXXYˆ截距斜率一元线性回归方程的可能形态为正为负为0我们用样本观察值计算a、b,并用其对总体线性回归方程中的参数α、β做出估计,即求样本回归方程,用其对总体线性回归方程进行估计。样本回归直线方程又称一元线性回归方程,其表达式为:ŷ=a+bxXYEYˆ总体一元线性回归方程:样本一元线性回归方程:bxayˆ以样本统计量估计总体参数斜率(回归系数)截距(回归系数)截距a表示在没有自变量x的影响时,其它各种因素对因变量y的影响;回归系数b表明自变量x每变动一个单位,因变量y变动b个单位。(估计的回归方程)(一元线性回归方程)iiiiybxayyyxbxayˆ)(ˆ值应为的实际而变量之间的平均变动关系,变量与是理论模型,表明随机干扰:各种偶然因素、观察误差和其他被忽视因素的影响X对y的线性影响而形成的系统部分,反映两变量的平均变动关系,即本质特征。一元线性回归方程中参数a、b的确定:bxayˆ最小平方法基本数学要求:min)ˆ(0ˆ2yyyy02012min,min)ˆ(22xbxaybxaybabxayyy,有求偏导数,并令其为零、分别对函数中,有由整理得到由两个关于a、b的二元一次方程组成的方程组:2xbxaxyxbnayxbynxbnyaxxyyxxxxnyxxynb222)())(()(进一步整理,有:408090100110506070201510525YX销售额利润额回归直线10个大型工业企业销售额与利润额散点图(亿元)ˆ215022YX10个大型工业企业销售额回归分析计算表(单位:亿元)序号企业销售额X利润额YX2XYY212345678910华东电力大庆石油华北电力华中电力武钢上海石化北京燕化齐鲁石化宝钢广东电力1111029085666258514843252224212513181210912321104048100722543563844336426012304184927752244216017851650806104461248038762548457644162516932414410081合计716179563681394335691521071622017922071656368101797161394310222abnXbYaXXnYXXYnbˆ215022YX•例题见课本P248-249回归系数b与相关系数r的关系:r>0r<0r=0b>0b<0b=0xyyxSSrbSSbr;三、相关系数相关系数是用以反映变量之间相关关系密切程度的统计指标。将反映两变量间线性相关关系的统计指标称为线性相关系数(简称相关系数);将反映两变量间曲线相关关系的统计指标称为非线性相关系数;将反映多元线性相关关系的统计指标称为复相关系数。我们只介绍线性相关系数。____________2222()()()()XYXYXXYYnXXYYSrSSXXnYYnXXYY2222YYnXXnYXXYnr简化公式XY协方差X均方差Y均方差相关系数的计算相关系数取值及其意义1.r的取值范围是[-1,1]2.|r|=1为完全相关–r=1,为完全正相关–r=-1为完全负正相关3.r=0不存在线性相关关系4.-1r0为负相关5.0r1为正相关6.|r|越趋于1表示关系越密切;|r|越趋于0表示关系越不密切相关关系的测度(相关系数取值及其意义)-1.0+1.00-0.5+0.5完全负相关无线性相关完全正相关负相关程度增加r正相关程度增加0r1r1r90r30r30r8030r180r低度线性相关中度线性相关高度线性相关10个大型工业企业销售额相关系数计算表(单位:亿元)序号企业销售额X利润额YX2XYY212345678910华东电力大庆石油华北电力华中电力武钢上海石化北京燕化齐鲁石化宝钢广东电力1111029085666258514843252224212513181210912321104048100722543563844336426012304184927752244216017851650806104461248038762548457644162516932414410081合计71617956368139433569额之间线性高度正相关结果表明销售额与利润83017935691071656368101797161394310222222YYnXXnYXXYnr表8-1我国人均国民收入与人均消费金额数据单位:元年份人均国民收入人均消费金额年份人均国民收入人均消费金额1981198219831984198519861987393.8419.14460.86544.11668.29737.73859.972492672893294064515131988198919901991199219931068.81169.21250.71429.51725.92099.56436907138039471148相关关系的测度(相关系数计算例)【例】在研究我国人均消费水平的问题中,把全国人均消费额记为y,把人均国民收入记为x。我们收集到1981~1993年的样本数据(xi,yi),i=1,2,…,13,数据见表8-1,计算相关系数。相关关系的测度(计算结果)•解:根据样本相关系数的计算公式有•人均国民收入与人均消费金额之间的相关系数为0.9987