第8章相关与回归分析第8章相关与回归分析8.1相关与回归分析的基本概念8.2相关分析8.3一元线性回归学习目标1.相关关系的分析方法2.一元线性回归的基本原理和参数的最小二乘估计3.回归直线的拟合优度4.回归方程的显著性检验5.利用回归方程进行估计和预测6.用Excel进行回归8.1相关与回归分析的基本概念函数关系与相关关系的概念相关关系的种类相关分析与回归分析的区别与联系函数关系1.是一一对应的确定关系2.设有两个变量x和y,变量y随变量x一起变化,并完全依赖于x,则称y是x的函数,记为y=f(x),其中x称为自变量,y称为因变量3.若为线性函数关系,则各观测点落在一条线上,例如,某种商品的销售额y与销售量x之间的关系可表示为y=px(p为单价)xy相关关系(correlation)1.变量间关系不能用函数关系精确表达2.一个变量的取值不能由另一个变量唯一确定3.当变量x取某个值时,变量y的取值可能有几个4.若为线性相关关系,则各观测点分布在直线周围,例如收入水平y与受教育程度x之间的关系。xy相关关系(类型)正相关负相关线性相关非线性相关正相关负相关完全相关不相关相关关系单相关复相关函数关系散点图(scatterdiagram)不相关负线性相关正线性相关非线性相关完全负线性相关完全正线性相关相关与回归分析比较表联系1理论与方法具有一致性2无相关就无回归,相关程度越高,回归越好3相关系数和回归系数方向一致,可以互相推算区别1相关分析中,两个变量地位对等;回归分析中,要区分谁是因变量谁是自变量2相关分析中,x、y均为随机变量,回归分析中,只有y为随机变量3相关分析测定相关程度和方向,回归分析用回归模型进行预测8.2相关分析相关表与相关图简单相关系数等级相关系数相关分析要解决的问题•变量之间是否存在关系?•如果存在关系,它们之间是什么样的关系?•变量之间的关系强度如何?•样本所反映的变量之间的关系能否代表总体变量之间的关系?相关表工人号数12345678910工龄(年)44567889910工资(元)42455060646874728084例工人日工资与工龄的简单相关表相关图----散点图(scatterdiagram)正线性相关相关系数(correlationcoefficient)1.相关系数是度量变量之间相关关系强度的一个指标2.对两个变量之间线性相关强度的度量称为简单相关系数,简称相关系数(狭义)、Pearson相关系数3.若相关系数是根据总体全部数据计算的,称为总体相关系数,记为4.若是根据样本数据计算的,则称为样本相关系数,记为r相关系数(计算公式)总体相关系数的计算公式YXYEXEXYEYVarXVarYXCov)()()()()(),(协方差标准差相关系数(计算公式)样本相关系数的计算公式22)()())((yyxxyyxxr或化简为2222yynxxnyxxynr例产品产量与单位成本相关系数月份产量x单位成本yx^2y^2xyx-E(x)y-E(y)(x-E(X))^2(y-E(y))^2(x-E(x))(y-E(y))127345329146-1.522.254-3237295184216-0.510.251-0.534711650412840.500.2500437395329219-0.520.254-154691647612760.5-20.254-165682546243401.5-32.259-4.5合计2142679302681481005.522-109091.02222yynxxnyxxynr相关系数的性质性质1:r的取值范围是[-1,1]|r|=1,为完全相关r=1,为完全正相关r=-1,为完全负正相关r=0,不存在线性相关关系-1r0,为负相关0r1,为正相关|r|越趋于1表示关系越强;|r|越趋于0表示关系越弱相关系数的性质性质2:r具有对称性。即x与y之间的相关系数和y与x之间的相关系数相等,即rxy=ryx性质3:r数值大小与x和y原点及尺度无关,即改变x和y的数据原点及计量尺度,并不改变r数值大小性质4:仅仅是x与y之间线性关系的一个度量,它不能用于描述非线性关系。这意为着,r=0只表示两个变量之间不存在线性相关关系,并不说明变量之间没有任何关系性质5:r虽然是两个变量之间线性关系的一个度量,却不一定意味着x与y一定有因果关系相关系数的经验解释1.|r|0.8时,可视为两个变量之间高度相关2.0.5|r|≤0.8时,可视为显著相关3.0.3|r|≤0.5时,视为低度相关4.|r|≤0.3时,说明两个变量之间的相关程度极弱,可视为不相关5.上述解释必须建立在对相关系数的显著性进行检验的基础之上相关系数的显著性检验(检验的步骤)1.检验两个变量之间是否存在线性相关关系2.利用样本的相关系数对总体相关系数进行检验3.采用R.A.Fisher提出的t检验4.检验的步骤为提出假设:H0:;H1:0)2(~122ntrnrt计算检验的统计量:确定显著性水平,并作出决策•若tt,拒绝H0•若tt,不拒绝H0相关系数的显著性检验(例题分析)1月至6月产量与单位成本的样本高度负相关,但两个变量总体是否存在线性相关关系呢?需要进行显著性检验。(0.05)1.提出假设:H0:;H1:02.计算检验的统计量3654.49091.01269091.02t3.根据显著性水平=0.05,查t分布表得t(n-2)=2.776由于t=4.3654t(6-2)=2.776,拒绝H0,产量与单位产品成本存在着显著的线性相关关系对于某些变量,如商品的质量,不能用精确的数值去描述,只能用一定的等级来表现,研究这类现象之间的依存关系,一般是采用等级相关法。步骤:先将评判的事物编号,再由每两组人员对每一序号的事物进行打分评级,分别用x、y表示,再计算d,d=x-y。例:设有甲乙两组专业人员对某种商品的10个品牌进行质量比较,问甲乙两组人员的评分是否具有相关性?等级相关系数等级相关系数商品编号评分等级等级差d=x-yd^2甲组乙组甲组x乙组y1849231242667597243726578-1145462109115758066006828245-117908513-24886902200978845411106860810-24合计208788.0)110(*1020*61)1(61222nndr8.3一元线性回归8.3.1一元线性回归模型8.3.2参数的最小二乘估计8.3.3回归直线的拟合优度8.3.4显著性检验8.3.5利用回归方程进行预测什么是回归分析?(Regression)1.从一组样本数据出发,确定变量之间的数学关系式2.对这些关系式的可信程度进行各种统计检验,并从影响某一特定变量的诸多变量中找出哪些变量的影响显著,哪些不显著3.利用所求的关系式,根据一个或几个变量的取值来估计或预测另一个特定变量的取值,并给出这种估计或预测的可靠程度回归模型(regressionmodel)1.回答“变量之间是什么样的关系?”2.方程中运用1个数值型因变量(响应变量)被预测的变量1个或多个数值型或分类型自变量(解释变量)用于预测的变量3.主要用于预测和估计回归模型的类型线性回归非线性回归一元回归线性回归非线性回归多元回归回归模型一元线性回归模型1.描述因变量Y如何依赖于一个自变量X和误差项的线性方程称为一元线性回归模型2.总体回归模型可表示为Yi=b+b1Xi+eiY是X的线性函数加上误差项线性部分反映了由于X的变化而引起的Y的变化误差项e是随机变量反映了除X和Y之间的线性关系之外的随机因素对Y的影响是不能由X和Y之间的线性关系所解释的变异性b0和b1称为模型的参数80100120140160180200220240260家庭消费支出Y55657980102110120135137150607084931071151361371451526574909511012014014015517570809410311613014415216517875859810811813514515717518088113125140160189185115162191共计32546244570767875068510439661211E(Y|X)65778910111312513714916117360个家庭收入X例:一个总体X=X3时的E(Y)X=X2时Y的分布X=X1时Y的分布X=X2时的E(Y)X3=120X2=100X1=80X=X1时的E(Y)b0XYX=X3时Y的分布b0+b1X总体回归函数(populationregressionfunction)E(Y)=b0+b1X描述X取给定值时Y的期望值的轨迹。方程的图示是一条直线,也称总体回归线b0是回归直线在Y轴上的截距,是当X=0时Y的期望值b1是直线的斜率,称为回归系数,表示当X每变动一个单位时,Y的平均变动值固定但是未知样本回归模型3.样本回归模型为2.用样本统计量和代替回归方程中的未知参数和,就得到了样本回归模型0ˆb1ˆb0b1b1.总体回归参数和是未知的,必须利用样本数据去估计0b1biiiexy++10ˆˆˆbb其中:是估计的回归直线在y轴上的截距,是直线的斜率,表示x每变动一个单位时,y的平均变动值。ei为样本残差。0ˆb1ˆb样本回归函数(sampleregressionfunction)YX7080651009012095140110160115180120200140220155240150260YX5580881009012080140118160120180145200135220145240175260iixy10ˆˆˆbb+样本回归线经典线性回归模型:最小二乘法的基本假定1.自变量X是给定的确定变量,非随机,与随机误差项线性无关2.对于所有的X值,ε的方差σ2都相同3.误差项ε是一个服从正态分布的随机变量,且相互独立。即ε~N(0,σ2)独立性意味着对于一个特定的X值,它所对应的ε与其他X值所对应的ε不相关4.误差项ε是一个期望值为0的随机变量,即E(ε)=0。对于一个给定的X值,Y的期望值为E(Y)=b0+b1X最小二乘估计(methodofleastsquares)最小niiiniixyyyQ121012)ˆˆ()ˆ(bb1.德国科学家KarlGauss(1777—1855)提出用最小化图中垂直方向的误差平方和来估计参数2.使因变量的观察值与估计值之间的误差平方和达到最小来求得和的方法。即3.用最小二乘法拟合的直线来代表x与y之间的关系与实际数据的误差比其他任何直线都小0ˆb1ˆbKarlGauss的最小化图xy(xn,yn)(x1,y1)(x2,y2)(xi,yi)ei=yi-yi^xy10ˆˆˆbb+最小二乘法(和的计算公式)根据最小二乘法,可得求解和的公式如下1ˆb0ˆb0ˆb1ˆb估计方程的求法(例题分析)估计方程的求法(例题分析)【例】求不良贷款对贷款余额的回归方程回归方程为:y=-0.8295+0.037895x回归系数=0.037895表示,贷款余额每增加1亿元,不良贷款平均增加0.037895亿元1ˆb^估计标准误差2)ˆ(2nyySyx估计方程的求法(例题分析)不良贷款对贷款余额回归方程的图示不良贷款对贷款余额的回归直线-2024681012140100200300400贷款余额不良贷款判定系数(例题分析