第十章--相关与回归分析

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

第十章相关与回归分析弗朗西斯﹒高尔顿先生被誉为现代相关和回归的创始人1875年,他利用豌豆试验来确定尺寸的遗传规律。他挑选7组不同尺寸的豌豆,说服他的朋友每一组种植10粒种子,最后把原始的豌豆种子与新长的豌豆种子进行尺寸比较当结果被绘制出来之后,他发现并非每一个子代都与父代一样,相同的是,尺寸小的豌豆会得到更大的子代,而尺寸大的豌豆却得到较小的子代高尔顿将此方法用到人类身上,他将父母和孩子的身高转换成z值,对比父母的身高与他们孩子的身高。他并发现孩子们的z值偏离均值的程度小于父母的偏离程度,即非常矮小的父母倾向于有偏高的孩子;而非常高大的父母则倾向于有偏矮的孩子。它把这叫做对均值的“回归”,这一发现构成了回归分析的基础第一节相关与回归概述一、变量间的关系及分类统计变量之间的关系,存在着两种不同的类型,一种是函数关系,另一种是相关关系函数关系是指变量之间存在着的一种固定的、严格的数量依存关系,即一个变量数值的变动,都会有另一个变量的数值与之完全对应相关关系是指变量之间存在着的一种非确定性的数量依存关系,即一个变量发生数值变化时,另一变量也相应地发生数值变化,但其数值是不固定的太阳和地球的运动就是函数你和你父亲之间就是相关不可能是函数,如是函数,他动一下胳膊,你就要动一下腿二、相关分析的主要内容相关分析是研究两个或两个以上的变量之间相关程度及大小的一种统计方法其主要内容包括:1.确定现象之间是否存在相关关系,以及相关关系呈现的形态2.确定相关关系的密切程度3.相关系数的检验三、回归分析的主要内容回归分析是寻找存在相关关系的变量间的数学表达式,并进行统计推断的一种统计方法主要内容包括:1.进行参数估计。即如何根据样本数据对回归模型的参数进行估计,求出具体的回归方程2.进行显著性检验。即对回归方程、参数估计值进行显著性检验与校正,以便使回归方程或参数更加优良3.进行预测和控制四、相关与回归相关仅判定变量之间是否存在关系(存在性)这关系的大小、正确与否都是回归分析的内容(关系的具体表现)五、回归分析的分类在对回归分析进行分类时,主要有两种分类方式第一,根据变量的数目,可以分类一元回归、多元回归第二,根据自变量与因变量的表现形式,分为线性与非线性所以,回归分析包括四个方向:一元线性回归分析、多元线性回归分析、一元非线性回归分析、多元非线性回归分析我们把一元非线性回归分析和多元非线性回归分析合并为曲线回归分析第二节相关分析一、相关关系的分类1.按相关关系涉及因素的多少单相关与复相关2.按相关关系的表现形式线性相关和非线性相关3.按相关的方向正相关和负相关4.按相关程度来分完全相关、不完全相关和不相关(完全不相关)对立、反义词二、相关关系的度量在进行相关分析时,可通过相关表散点图计算相关系数相关表是根据现象变动样本资料编制出来的反映变量间相关关系的统计表散点图,是利用坐标系,将两变量相对应的变量值用坐标点形式描绘出来的二维数据图三、相关系数相关表与散点图只能粗略的反映变量间相关关系的方向、形式和密切程度,要确切地反映相关关系的密切程度,还需计算相关系数相关系数有很多种形式,常用由卡尔.皮尔逊提出的相关系数1.相关系数的计算相关系数用来度量的两个变量,设为x与y根据总体数据计算的两个变量之间线性相关强度的统计量,叫做总体相关系数,用ρ表示根据样本计算的两个变量之间线性相关强度的统计量,叫做样本相关系数,简称相关系数,用r表示相关系数r的测定方法有两种,第一种称积差法,第二种称简捷法r是ρ的一个估计量,得到ρ是不可能的,需要用r来估计ρ。另外,估计得到的值需要进行检验用积差法计算线性相关系数的公式为:nyynxxnyyxxryxxy222)()())((用简捷法计算相关系数的公式为:2222)()(yynxxnyxxynr在上式中,r称为相关系数,2xy称为协方差;x是变量x的标准差;y是变量y的标准差。可以看到,简捷法是积差法的简化、变形。【例10-1】根据抽样知,某企业销售额与流通费用的相关情况,如表10-1,根据积差法与简捷法分别计算相关系数r。年份(年)销售额(万元)流通费用(万元)19981999200020012002200320042005200610163240741201972463451.83.15.27.710.413.318.821.228.39891.0944.648911160699.8413)()())((222nyynxxnyyxxryxxy9891.0)8.109(19889)1080(24120698.10910809.215899)()(222222yynxxnyxxynr2.相关系数的性质第一、相关系数介于-1到+1之间第二、r具有对称性,x与y的相关系数和y与x的相关系数相等第三、r的数值大小与x和y的原点及尺度无关3.线性相关系数的分类第一、根据r的数值分为正相关、负相关第二、根据r数值,分为完全相关、不完全相关、完全不相关第三、根据r的数值,分为低度相关、中度相关、高度相关四、相关系数显著性检验相关系数是根据样本数据计算出来的,两个不相关的变量,其样本相关系数也可能较高两个相关性很高的变量,其样本相关系数也可能较低要从样本相关系数判断总体是否也具有这样的关系,需要对相关系数进行假设检验在相关系数的显著性检验中,通常不采用正态检验,而采用t分布进行检验。假设检验的步骤与第九章相同,但统计量采用212rnrt,临界值为)2(2nt,其中n为变量值的对数【例10-2】某银行25个月的不良贷款与贷款余额之间的相关系数r为0.8436,在0.05的显著性水平下,检验不良贷款与贷款余额之间的相关系数是否显著提出假设0:0:10HH给定显著性水平α=0.05计算统计量5344.78436.012258436.01222rnrt求临界值0687.2)2(2nt做出决策02)2(Hntt拒绝原假设所以,在0.05的显著性水平下,不良贷款与贷款余额之间高度相关第三节一元线性回归分析一、一元线性回归模型1.回归模型的一般形式对于具有线性关系的两个变量,可以用一个方程来表示它们之间的线性关系描述因变量y如何依赖于自变量x和误差项ε的方程称为回归模型。对于只涉及一个自变量的一元线性回归模型可表示为xy10y叫做因变量或被解释变量,x叫做自变量或解释变量,0表示截距,1表示斜率,10、都被称作总体参数,ε表示误差项,反映除x和y之间的线性关系之外的随机因素对y的影响,是不能由x和y之间的线性关系所解释的变异性。3.回归方程描述因变量y的期望值如何依赖于自变量x的方程称为回归方程。根据对一元线性回归模型的假设,可以得到它的回归方程为xyE10)(4.估计的回归方程如果回归方程中的参数已知,对于一个给定的x值,利用回归方程就能计算出y的期望值用样本统计量代替回归方程中的未知参数,就得到估计的回归方程,简称回归直线xy10ˆˆˆ二、参数估计与预测1.参数的最小二乘法估计对于回归直线,关键在于求解参数常用高斯提出的最小二乘法,也叫做最小平方法,它是使因变量的观察值y与估计值之间的离差平方和达到最小来求解2102)ˆˆ()ˆ(xyyyQyˆ2ˆ2ˆˆ2ˆˆ1010221202xyxxnyQ--+++展开,21010ˆˆyˆˆyxxxxnxyxxnxxn10221ˆˆ)(yyˆ==根据统计,70年代世界制造业总产量与世界制成品总出口量的变化关系如表10-2。求回归直线年度总产量年增长率(%)x总出口量年增长率(%)y19704.08.519714.08.019728.510.519739.515.519743.08.51975-1.0-4.519768.013.519775.05.019785.06.019794.07.003.0)0.50534.10.77(101ˆˆ534.1)0.50(6.334100.770.508.51410)(ˆ102221xyxxnyxxynxy534.103.0ˆ2.利用回归直线进行估计和预测(1)点估计利用估计的回归方程,对于x的某一个特定的值,求出y的一个估计值就是点估计点估计分两种:一个是平均值的点估计,一个是个别值的点估计点估计的条件下,对于同一个特定的,平均值的点估计和个别值的点估计的结果是一样的(2)区间估计利用估计的回归方程,对于x的一个特定值,求出y的一个估计值的区间就是区间估计区间估计有两种:一个是置信区间估计,它是对x的一个给定值,求出y的平均值的估计区间;一个是预测区间估计,它是对x的一个给定值,求出y的一个个别值的估计区间第一、置信区间估计设0x为一个给定值,)(0yE为给定0x时,因变量y的平均值。0100ˆˆˆxy为)(0yE的估计值。不能期望估计值0ˆy精确的等于)(0yE。要用0ˆy推断)(0yE,必须考虑0ˆy的方差。对于给定的0x,用0ˆys表示0ˆy标准差的估计量,公式为220ˆ)()(10xxxxnssey则在1-α置信水平下的置信区间为22020)()(1ˆxxxxnstye第二、预测区间估计为求出预测区间,需要标准差用220)()(11xxxxnsseind表示。在1-α置信水平下预测区间为22020)()(11ˆxxxxnstye【例10-4】某企业从有关资料中发现广告投入和产品销售有较密切的关系。近年该企业广告费和销售额资料见表10-3,若2003年广告费为120万元,请用一元线性回归求2003年产品销售额的置信区间与预测区间(α=0.05)年份广告费x(万元)销售额y(百万元)19941995199619971998199920002001200235526072858095100105182530384144495260xxy57.065.3ˆˆˆ1075.6412057.065.3ˆ0y365.2)7()(25.02tknt43.29.52)ˆ(2nyyse)0199.69,4801.60(2699.475.64743.043.2365.275.64)()(1ˆ22020xxxxnstye3516.475.642459.143.2365.275.64)()(11ˆ22020xxxxnstye)1016.69,3984.60(三、回归直线的拟合优度回归直线在一定程度上描述了变量x与变量y之间的数量关系利用方程,可根据自变量x的取值来估计或预测因变量y的取值,但估计或预测的精度如何将取决于回归直线对观测数据的拟合程度回归直线与各观测点的接近程度称为回归直线对数据的拟合优度常用判定系数、估计标准误差1.判定系数因变量y的取值是不同的,y取值的这种波动称为变差。因变量y取值的变差来源于两个方面:一是由于自变量x的取值不同造成的,二是除x以外的其他因素的影响222)ˆ()ˆ()(yyyyyy2)(yy称为总平方和,记为SST2)ˆ(yy称为回归平方和,记为SSR2)ˆ(yy称为残差平方和,记为SSE。所以,SST=SSR+SSE总平方和可以分解为回归平方和、残差平方和两部分回归平方和SSR反映了y的总变差中,由于x与y之间的线性关系引起的y的变化部分残差平方和SSE反映了除了x对y的线性影响之外的其他因素对y变差的作用,是不能由回归直线来解释的y的变差部分可以看出,回归直线拟合的好坏取决于SSR及SSE的判定系数是指回归平方和占总平方和的比例,用2R表示易知102R02R说明y的变化与

1 / 73
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功