统计学第八章-相关与回归分析

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

第10章相关与回归分析§10.1相关分析的意义和内容§10.2直线相关的测定§10.3一元线性回归分析§10.4利用回归方程进行估计和预测学习目标1.掌握相关系数的分析方法2.掌握一元线性回归的基本原理和参数的最小二乘估计3.了解回归直线的拟合优度的分析4.利用回归方程进行估计和预测§10.1相关分析的意义和内容一.相关关系的概念二.相关关系种类三.相关分析的内容是指变量间的不确定的依存关系。一、相关关系的概念变量间的关系相关关系函数关系(一)函数关系1.是一一对应的确定关系2.设有两个变量x和y,变量y随变量x一起变化,并完全依赖于x,当变量x取某个数值时,y依确定的关系取相应的值,则称y是x的函数,记为y=f(x),其中x称为自变量,y称为因变量3.各观测点落在一条线上xy函数关系(几个例子)函数关系的例子某种商品的销售额(y)与销售量(x)之间的关系可表示为y=px(p为单价)圆的面积(S)与半径之间的关系可表示为S=R2企业的原材料消耗额(y)与产量(x1)、单位产量消耗(x2)、原材料价格(x3)之间的关系可表示为y=x1x2x3(二)相关关系(correlation)1.变量间关系不能用函数关系精确表达2.一个变量的取值不能由另一个变量唯一确定3.当变量x取某个值时,变量y的取值可能有几个4.各观测点分布在一条线周围xy相关关系(几个例子)相关关系的例子父亲身高(y)与子女身高(x)之间的关系收入水平(y)与受教育程度(x)之间的关系粮食亩产量(y)与施肥量(x1)、降雨量(x2)、温度(x3)之间的关系商品的消费量(y)与居民收入(x)之间的关系商品销售额(y)与广告费支出(x)之间的关系二、相关关系种类相关程度完全相关不完全相关不相关相关形式线性相关非线性相关相关方向正相关负相关影响因素多少单相关复相关三、相关分析的内容相关分析:就是研究两个或两个以上变量之间相互关系的统计分析方法。内容:1.确定相关关系的存在、相关方向和存在形式、密切程度(狭义相关分析)2.确定相关关系的数学表达式3.利用建立的模型进行预测和控制(应用)(回归分析)一、散点图二、直线相关的测定——相关系数§10.2相关关系的描述与测定一、散点图(scatterdiagram)不相关负线性相关正线性相关非线性相关完全负线性相关完全正线性相关散点图(例题分析)【例】一家大型商业银行在多个地区设有分行,其业务主要是进行基础设施建设、国家重点项目建设、固定资产投资等项目的贷款。近年来,该银行的贷款额平稳增长,但不良贷款额也有较大比例的提高,这给银行业务的发展带来较大压力。为弄清楚不良贷款形成的原因,希望利用银行业务的有关数据做些定量分析,以便找出控制不良贷款的办法。下面是该银行所属的25家分行2002年的有关业务数据散点图(例题分析)散点图(例题分析)不良贷款与贷款余额的散点图024681012140100200300400贷款余额不良贷款不良贷款与贷款项目个数的散点图02468101214010203040贷款项目个数不良贷款不良贷款与固定资产投资额的散点图02468101214050100150200固定资产投资额不良贷款不良贷款与累计应收贷款的散点图024681012140102030累计应收贷款不良贷款二、直线相关的测定——相关系数(一)相关系数(correlationcoefficient)的概念1.对变量之间线性关系密切程度的度量指标2.若相关系数是根据总体全部数据计算的,称为总体相关系数,记为3.若是根据样本数据计算的,则称为样本相关系数,记为r(二)相关系数的计算和应用用积差法计算样本相关系数的公式为:nyyxxnyyxxrxyxyyxyxxy))(())((协方差相关系数分子和分母的意义1.协方差----xynyyxxxy意义:1.显示与是正相关还是负相关2.显示与相关程度的大小但是协方差是以绝对数表现的均值,其数值受到变量值大小的影响,而且有计量单位,不便于进行比较,因此仍然不完善。相关系数分子和分母的意义2.标准差与yxnyyxxnyyxxryxyx这意味着,X、Y于各自平均值的离差,分别用各自标准差为尺度加以标准化,然后再求标准数量的协方差。标准差的意义:1.使相关系数变为相对数,便于不同资料之间对相关程度进行比较。2.是相关系数的绝对值不超过1。XY123451.01.52.02.53.0XY123451.251.002.003.002.7515)00.275.2)(35()00.225.1)(31(15)20.3)(35()0.20.1)(31(21xyxy资料1资料200.511.522.533.512345xy00.511.522.533.512345xy从图中可见,两项资料的变异情况不同。r1==1r2=0.89相关系数(计算化简公式)化简后的计算公式yxxyLLLyyxxyyxxr22)()())((或化简为2222yynxxnyxxynr相关系数(取值及其意义)1.r的取值范围是[-1,1]2.|r|=1,为完全相关r=1,为完全正相关r=-1,为完全负正相关3.r=0,不存在线性相关关系相关4.-1r0,为负相关5.0r1,为正相关6.|r|越趋于1表示关系越密切;|r|越趋于0表示关系越不密切相关系数(取值及其意义)-1.0+1.00-0.5+0.5完全负相关无线性相关完全正相关负相关程度增加r正相关程度增加-0.8+0.8-0.3-0.3相关系数(例题分析)(三)相关系数的显著性检验(r的抽样分布)1.r的抽样分布随总体相关系数和样本容量的大小而变化当样本数据来自正态总体时,随着n的增大,r的抽样分布趋于正态分布,尤其是在总体相关系数很小或接近0时,趋于正态分布的趋势非常明显。而当远离0时,除非n非常大,否则r的抽样分布呈现一定的偏态。2.当为较大的正值时,r呈现左偏分布;当为较大的负值时,r呈现右偏分布。只有当接近于0,而样本容量n很大时,才能认为r是接近于正态分布的随机变量相关系数的显著性检验(检验的步骤)1.检验两个变量之间是否存在线性相关关系2.等价于对回归系数b1的检验3.采用R.A.Fisher提出的t检验4.检验的步骤为提出假设:H0:;H1:0)2(~122ntrnrt计算检验的统计量:确定显著性水平,并作出决策•若tt,拒绝H0•若tt,不拒绝H0相关系数的显著性检验(例题分析)对不良贷款与贷款余额之间的相关系数进行显著性检(0.05)1.提出假设:H0:;H1:02.计算检验的统计量5344.78436.012258436.02t3.根据显著性水平=0.05,查t分布表得t(n-2)=2.0687由于t=7.5344t(25-2)=2.0687,拒绝H0,不良贷款与贷款余额之间存在着显著的正线性相关关系相关系数的显著性检验(例题分析)各相关系数检验的统计量为检验起来方便,利用变量t与r之间的关系,可以得到以下等式:这就是在显著性水平下所决定的相关系数临界值,该值可通过相关系数的临界值表查得,进而与样本相关系数比较进行检验。例如上例查得:rα=0.396,而r=0.8436rα,所以拒绝原命题,不良贷款与贷款余额之间存在着显著的正线性相关关系。2222tntr§10.3一元线性回归一.什么是回归分析?二.一元线性回归模型三.回归直线的拟合优度一、什么是回归分析?(Regression)1.从一组样本数据出发,确定变量之间的数学关系式,进而确定一个或几个变量(自变量)的变化对另一个特定变量(因变量)的影响程度。2.对这些关系式的可信程度进行各种统计检验,并从影响某一特定变量的诸多变量中找出哪些变量的影响显著,哪些不显著3.利用所求的关系式,根据一个或几个变量的取值来预测或控制另一个特定变量的取值,并给出这种预测或控制的精确程度回归一词是怎么来的??趋向中间高度的回归回归这个术语是由英国著名统计学家FrancisGalton在19世纪末期研究孩子及他们的父母的身高时提出来的。Galton发现身材高的父母,他们的孩子也高。但这些孩子平均起来并不像他们的父母那样高。对于比较矮的父母情形也类似:他们的孩子比较矮,但这些孩子的平均身高要比他们的父母的平均身高高。Galton把这种孩子的身高向中间值靠近的趋势称之为一种回归效应,而他发展的研究两个数值变量的方法称为回归分析。回归分析与相关分析的区别1.相关分析中,变量x变量y处于平等的地位;回归分析中,变量y称为因变量,处在被解释的地位,x称为自变量,用于预测因变量的变化2.相关分析中所涉及的变量x和y都是随机变量;回归分析中,因变量y是随机变量,自变量x可以是随机变量,也可以是非随机的确定变量3.相关分析主要是描述两个变量之间线性关系的密切程度;回归分析不仅可以揭示变量x对变量y的影响大小,还可以由回归方程进行预测和控制回归模型的类型线性回归非线性回归一元回归线性回归非线性回归多元回归回归模型二、一元线性回归模型(一)一元线性回归1.涉及一个自变量的回归2.因变量y与自变量x之间为线性关系被预测或被解释的变量称为因变量(dependentvariable),用y表示用来预测或用来解释因变量的一个或多个变量称为自变量(independentvariable),用x表示3.因变量与自变量之间的关系用一条线性方程来表示(二)一元线性回归模型1.描述因变量y如何依赖于自变量x和误差项的方程称为回归模型2.一元线性回归模型可表示为y=bb1xy是x的线性函数(部分)加上误差项线性部分反映了由于x的变化而引起的y的变化误差项是随机变量反映了除x和y之间的线性关系之外的随机因素对y的影响误差项ε是一个服从正态分布的随机变量,且相互独立。即ε~N(0,σ2)是不能由x和y之间的线性关系所解释的变异性b0和b1称为模型的参数回归方程(regressionequation)1.描述y的平均值或期望值如何依赖于x的方程称为回归方程2.一元线性回归方程的形式如下3.E(y)=b0+b1x方程的图示是一条直线,也称为直线回归方程b0是回归直线在y轴上的截距,是当x=0时y的期望值b1是直线的斜率,称为回归系数,表示当x每变动一个单位时,y的平均变动值估计的回归方程(estimatedregressionequation)3.一元线性回归中估计的回归方程为2.用样本统计量和代替回归方程中的未知参数和,就得到了估计的回归方程0ˆb1ˆb0b1b1.总体回归参数和是未知的,必需利用样本数据去估计0b1bxy10ˆˆˆbb其中:是估计的回归直线在y轴上的截距,是直线的斜率,它表示对于一个给定的x的值,是y的估计值,也表示x每变动一个单位时,y的平均变动值0ˆb1ˆbyˆ(三)最小二乘估计求解回归方程中的参数最小niiiniiixyyy121012)ˆˆ()ˆ(bb1.使因变量的观察值与估计值之间的离差平方和达到最小来求得和的方法。即2.用最小二乘法拟合的直线来代表x与y之间的关系与实际数据的误差比其他任何直线都小0ˆb1ˆb最小二乘估计(图示)xy(xn,yn)(x1,y1)(x2,y2)(xi,yi)}ei=yi-yi^xy10ˆˆˆbb最小二乘法(和的计算公式)根据最小二乘法的要求,可得求解和的公式如下

1 / 60
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功