统计学相关与回归分析法

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

第九章相关与回归分析法第九章相关与回归分析法§9.1相关与回归分析概述§9.2简单线性相关分析§9.3简单线性回归分析第一节相关与回归分析概述相关和回归分析是研究事物的相互关系、测定它们联系的紧密程度、揭示其变化的具体形式和规律性的统计方法,是构造各种经济模型、进行结构分析、政策评价、预测和控制的重要工具。⒈一种商品的销售收入与其销售量:销售收入=销售量商品价格PQG⒉家庭收入与恩格尔系数:家庭收入高,则恩格尔系数低。函数关系(确定性关系)相关关系(非确定性关系)比较下面两种现象间的依存关系一、相关关系与相关分析xyxy函数关系相关关系现象间的依存关系大致可以分成两种类型:函数关系指现象间所具有的严格的确定性的依存关系相关关系指客观现象间确实存在,但数量上不是严格对应的依存关系函数关系与相关关系在一定条件下可相互转化:有函数关系的变量间,如果存在测量误差,则可表现为相关关系;对具有相关关系的变量有深刻了解之后,相关关系有可能转化为函数关系。函数关系与相关关系的研究方法研究函数关系用数学分析的方法研究相关关系用相关与回归分析的方法现象之间的相互联系,在许多情况下表现为一定的因果关系,将这些现象数量化则成为变量:其中一个或若干个起着影响作用的变量称为自变量,通常用X表示,它是引起另一现象变化的原因,是可以控制、给定的值;而受自变量影响的变量称为因变量,通常用Y表示,它是自变量变化的结果,是不确定的值。自变量与因变量的定义4.按涉及变量的多少分为相关关系的种类⒉按相关的形式不同分为⒊按相关的方向不同分为直线相关曲线相关负相关正相关⒈按相关的程度不同分为完全相关不完全相关不相关复相关单相关相关分析的概念和内容相关分析研究现象之间是否相关、相关的方向和密切程度的统计分析方法。内容:变量之间是否存在相关关系,如果存在是属于哪种相关关系。变量之间相关的密切程度,如果是线性相关,可通过相关系数来体现。回归分析的概念和内容回归分析用合适的数学模型来近似表达具有相关关系的变量间关系的具体形式。二、回归与回归分析内容:对具有相关关系的变量,建立一个合适的数学模型来近似表达变量之间关系的具体形式。评价所建立模型对实际现象的拟合程度。回归分析的种类⒉按回归方程的形式分为直线回归曲线回归⒈按自变量的个数分为复回归简单回归(一元回归)(多元回归)(非线性回归)有共同的研究对象:现象之间的相关关系;互相补充:相关分析要依靠回归分析表明现象数量相关的具体形式;而回归分析要依靠相关分析来表明现象数量的相关程度。只有变量之间存在着高度相关时,进行回归分析寻求其相关的具体形式才有意义。联系:三、相关分析与回归分析的关系相关分析不必确定自变量和因变量,所涉及的都是随机变量;回归分析事先要确定自变量和因变量,只有因变量为随机变量。内容上:相关分析研究相关的方向和程度,不能指出相关的具体形式,无法从一个变量的变化推测另一个变量的变化;而回归分析研究变量之间相互关系的具体形式,可根据回归模型从已知量估计和预测未知量。方法上:相关分析通过编制相关表、绘制相关图、计算相关系数;回归分析通过建立回归模型。区别:局限性:无法准确地判断客观现象内在联系的有无,及确定何种现象为因,何种现象为果。因此在应用相关和回归分析对客观现象进行研究时,一定要注意把定性分析和定量分析结合起来,在定性分析基础上开展相关和回归的定量分析。定性分析是依据研究者的理论知识和实践经验,对客观现象之间是否存在相关关系,以及何种关系作出判断。定量分析在定性分析的基础上,通过编制相关表、绘制相关图、计算相关系数等方法,来判断现象之间相关的方向、形态及密切程度。相关关系的测定第二节简单线性相关分析简单相关表适用于所观察的样本单位数较少,不需要分组的情况分组相关表适用于所观察的样本单位数较多,需要分组的情况将现象之间的相互关系,用表格的形式来反映。相关表相关表和相关图企业编号月产量(千吨)X生产费用(万元)Y123456781.22.03.13.85.06.17.28.0628680110115132135160八个同类工业企业的月产量与生产费用简单相关表平均每昼夜产量固定资产原值35~4040~4545~5050~5555~6060~6565~70600~65011550~600123500~550213450~5001517400~450224350~4000300~35022223543120(百万元)(吨)YfXf20个同类工业企业固定资产原值与平均每昼夜产量分组相关表正相关负相关曲线相关不相关xyxyxyxy又称散点图,用直角坐标系的x轴代表自变量,y轴代表因变量,将两个变量间相对应的变量值用坐标点的形式描绘出来,用以表明相关点分布状况的图形。相关图在直线相关的条件下,用以反映两变量间线性相关密切程度的统计指标,用r表示)(22222积差法yyxxyyxxnyynxxnyyxxryxxy相关系数(只研究简单相关系数)xyLyxnxyyyxx1))((令xxLxnxxx222)(1)(yyLynyyy222)(1)(yyxxxyLLLr:则2222)()(yynxxnyxxynryxnynxnxyyxyxxy相关系数r的取值范围:-1≤r≤1r0为正相关,r0为负相关;|r|=0表示不存在线性关系;|r|=1表示完全线性相关;0|r|1表示存在不同程度线性相关:|r|0.3为微弱相关(基本无关);0.3≤|r|<0.5为低度相关;0.5≤|r|<0.8为显著相关(中度相关);0.8≤|r|<1.0为高度相关(强相关)。相关系数的取值及其意义图示-1.0+1.00-0.5+0.5完全负相关无线性相关完全正相关负相关程度增加r正相关程度增加序号能源消耗量(十万吨)x工业总产值(亿元)yx2y2xy1234567891011121314151635384042495254596264656869717276242524283231374041404750495148581225144416001764240127042916348138444096422546244761504151845776576625576784102496113691600168116002209250024012601230433648409509601176156816121998236025422560305534003381362134564408合计916625550862617537887下表是16家企业的工业总产值与能源消耗量数据:能源消耗量807060504030工业总产值6050403020【例】计算工业总产值与能源消耗量之间的相关系数。资料()9757.0=625-26175×16916-55086×16625×916-37887×16=)(---=26175=,55086=,37887=,625=,916=,16=22222222∑∑∑∑∑∑∑∑∑∑∑∑yynxxnyxxynryxxyyxn解:已知结论:工业总产值与能源消耗量之间存在高度的正相关关系。回归分析指根据变量之间相关关系的具体形态,建立一个数学方程(回归方程)来描述变量之间关系;对给定的自变量x,揭示因变量y在数量上的平均变化并求得因变量的预测值的统计分析方法。第三节简单线性回归分析一元线性回归模型对于经判断具有显著线性关系的两个变量y与x,构造一元线性回归模型为:XY为随机误差项为模型参数,与式中:假定E()=0,有总体一元线性回归方程:XYEYˆ一元线性回归方程的几何意义)(YEXXYˆ截距斜率一元线性回归方程的可能形态为正为负为0XYEYˆ总体一元线性回归方程:样本一元线性回归方程:bxayˆ以样本统计量估计总体参数斜率(回归系数)截距截距a表示在自变量x为0时,其它各种因素对因变量y的平均影响;回归系数b表明自变量x每变动一个单位,因变量y平均变动b个单位。(估计的回归方程)(一元线性回归方程)iiiiiybxayyyxbxayˆ)(ˆ值应为的实际而变量之间的平均变动关系,变量与是理论模型,表明随机干扰:各种偶然因素、观察误差和其他被忽视因素的影响x对y的线性影响而形成的系统部分,反映两变量的平均变动关系,即本质特征。10名学生的身高与体重散点图4045505560657075158163168173178身高(X)体重(Y)bxayˆxbay残差:e一元线性回归方程中参数a、b的确定:bxayˆ最小平方法基本数学要求:min)ˆ(0ˆ2yyyy02012min,min)ˆ(22xbxaybxaybabxayyy,有求偏导数,并令其为零、分别对函数中,有由整理得到由两个关于a、b的二元一次方程组成的方程组:2xbxaxyxbnayxbynxbnyayxxyLLxxnyxxynbxxxxy222)(解上述方程组得:【分析】因为工业总产值与能源消耗量之间存在高度正相关关系(),所以可以拟合工业总产值对能源消耗量的线性回归方程。9757.0=r【例】建立工业总产值对能源消耗量的线性回归方程资料,55086,37887,625,916,162xxyyxn由计算表知解:设线性回归方程为bxayˆ5142.6169167961.0166257961.091655086166259163788716222xbyaxxnyxxynb即线性回归方程为:xy7961.05142.6ˆ计算结果表明,在其他条件不变时,能源消耗量每增加一个单位(十万吨),工业总产值将增加0.7961个单位(亿元)。估计0xbxayˆyxxy7961.05142.6ˆ对于若x=80(十万吨),则:亿元1738.57807961.05142.6ˆyb与r的关系:r>0r<0r=0b>0b<0b=0xyyxrbbr;10名学生的身高与体重散点图4045505560657075158160162164166168170172174176178身高(X)体重(Y)yyˆyyyyˆyyˆ2)(yySST2)ˆ(yySSE2)ˆ(yySSR误差平方和回归平方和总离差平方和)ˆ()ˆ(yyyyyy22)ˆ()ˆ()(yyyyyy)ˆ)(ˆ(2)ˆ()ˆ(22yyyyyyyy0)()ˆ)(ˆ(exbxebexbabxayyyy222)ˆ()ˆ()(yyyyyyQyyUyyLyyyy222)ˆ(,)ˆ(,)(令QULyy:则总离差平方和的分解:222)/()(nynyyyLSSTyyxyyyyybLLULbxayQSSE2)(总离差平方和回归平方和误差平方和))(()()()()ˆ()(2222222xxnnyxxynbLLLLbxxbxbabxayyUSSRxyxxxxxy102r判定系数取值范围:判定系数222)()ˆ(yyyyLUryy判定系数是评价回归方程拟合优度的指标,可以说明回归方程的代表性大小。判定系数与相关系数的关系2)(rbr的符号22)(yyxxxyyyxyxxxyyyxyyyLLLLLLLLbLLUr判定系数与相关系数

1 / 50
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功