回归分析和相关分析

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

第八章相关与回归分析第一节相关与回归分析的基本概念第二节相关分析第三节一元线性回归分析第四节可化为线性回归的非线性回归模型第五节多元线性回归分析简介2020/1/211=38393第一节相关与回归分析的基本概念一.函数关系和相关关系变量之间的关系可有两大类:确定性关系(函数关系)和不确定性关系(相关关系):确定性关系:变量之间存在确定性依存关系,即当一个或几个变量取一定的值时,另一个变量有确定值与之相对应。不确定性关系:变量之间确实存在数量上依存关系但关系数值并不确定,即当一个或几个相互联系的变量取一定数值时,与之相对应的另一变量的值虽然不确定,但它仍按某种规律在一定的范围内变化。2020/1/212=38337第一节相关与回归分析的基本概念产生相关关系的原因很多,主要有:1.存在计量或观测误差。2.影响变量y取值的因素不止一个变量。3.变量间的关系是通过其他因素反映出来的。2020/1/213=38336第一节相关与回归分析的基本概念二.相关关系的种类1.按相关的程度可分为完全相关、不完全相关和不相关2.按相关的方向可分为正相关和负相关3.按相关的形式可分为线性相关和非线性相关4.按所研究的变量多少可分为单相关、复相关和偏相关2020/1/214=38340第一节相关与回归分析的基本概念三.相关分析与回归分析相关分析和回归分析是研究现象之间相关关系的两种基本方法。相关分析:研究两个或两个以上随机变量之间相关关系密切程度和相关方向的统计分析方法。回归分析:研究某一随机变量(因变量)与其他一个或几个变量(自变量)之间数量变动关系形式的统计分析方法。2020/1/215=38339第二节相关分析一.单相关系数单相关分析是对两个变量之间的相关程度进行分析。单相关系数是在线性相关的条件下用来说明两个变量之间相关关系和相关密切程度的统计分析指标。样本相关系数的定义公式是:niniiiniiixxxyyyxxyyxxSyySSr11221)()())((2020/1/216=38342第二节相关分析2222122212221)()(1))(()(1)()(1)(iiiiiiiiiiiiiniixyiiniiyyiiniixxyynxxnyxyxnrryxnyxyyxxSynyyySxnxxxS的计算公式为:2020/1/217=38341第二节相关分析相关系数的特点:1.r值在-1和+1之间变动;当|r|=1时称x与y完全线性相关;当|r|=0时称x与y无线性相关;当0﹤|r|﹤1时称x与y有一定程度的线性相关;r﹥0时正相关;r﹤0时负相关;2.r是一个无名数,可以比较不同现象相关程度的高低。3.r是对变量之间线性相关关系的度量。r=0只是表明两个变量之间不存在线性关系,但并不意味着不存在其他类型的关系。2020/1/218=38344第二节相关分析一般情况下,通过相关系数判断相关关系密切程度的标准如下:完全相关和时,表明当高度相关和时,认为当显著相关和时,认为当低度相关和时,认为当不相关和时,认为当完全不相关和时,表明当yxryxryxryxryxryxr118.08.05.05.03.03.0002020/1/219=38343第二节相关分析r2称为可决系数,是衡量样本回归直线拟合程度的指标,反映由于相关关系,y的变化可以由x来解释的百分比。相关系数与可决系数虽然有密切的联系,但它们在概念上是有区别的:可决系数是就回归模型而言的,而相关系数是就两个变量而言的;可决系数具有非负性,而相关系数可正可负。2020/1/2110=38346第二节相关分析例1(P119)分析销售额y与推销费x的关系yxyxyxyx1665026961324763456152182143222440320501405821058284853907973376860958221249781402245634563352864839011445203312803932091181602336729581753699221239301352020/1/2111=38345第二节相关分析销售额与推销费散点图020040060080010001200050100150推销费销售额2020/1/2112=38349第二节相关分析例1解:计算结果表明,销售额和推销费之间高度相关,销售额中的70%可以由推销费来解释。70198.0837843536.0)()(30,1055391,6947974179291,11966,21392222222ryynxxnyxyxnrnyxyxyxiiiiiiiiiiiiii2020/1/2113=38348第二节相关分析例我国1990—2003年GDP和税收收入的资料如下:单位:亿元r=0.955248年份GDP税收收入年份GDP税收收入199018547.92821.86199774462.68234.04199121617.82990.17199878345.29262.8199226638.13296.91199982067.510682.58199334634.44255.30200089468.112581.51199446759.45126.88200197314.815301.38199558478.16038.042002105172.317636.45199667884.66909.822003117251.920017.312020/1/2114=38351第二节相关分析0500010000150002000025000020000400006000080000100000120000140000GDP(亿元)税收收入(亿元)2020/1/2115=38350第二节相关分析二.有序数据的相关系数(等级相关系数)对于许多难以用数字准确计量的现象之间的关系难以用单相关系数去衡量,可以用等级相关系数。有序数据是由数据在一个有序名单中的位置值组成。定义Sperman秩相关系数为:其中:di=xi-yi,xi和yi分别是两个变量按大小(或优劣)排位的等级;n是样本容量。等级相关系数的取值区间在-1和1之间。)1(6122nndri2020/1/2116=38354第二节相关分析例3(P121)10个产品销售情况的排序产品去年排名今年排名去年-今年排名饼干类食品13-2游戏绳24-2帽子312假面具422游戏食品56-1气球610-4口哨79-2饰带871旗帜981微型趣味小书10552020/1/2117=38352第三节一元线性回归分析回归分析是根据相关关系的具体形态,选择一个合适的数学模型,来近似地表达变量间的平均变化关系。进行回归分析通常要设定一定的数学模型,在回归分析中,最简单的模型是只有一个因变量和一个自变量的线性回归模型。2020/1/2118=38356第三节一元线性回归分析一.一元线性回归模型的建立设因变量y(通常是随机变量)和一个自变量(非随机变量)X之间有某种相关关系。在x的不全相同的取值点x1,x2,…,xn作为独立观察得到y的个观察值y1,y2,…,yn记为(x1,y1)(x2,y2),…,(xn,yn)。根据这组数据寻求X与Y之间关系。设一元线性回归模型为:yi=a+bxi+ei2020/1/2119=38355第三节一元线性回归分析ei(为误差,统计上称为随机误差)的标准假定:假定1:零均值假定。E(ei)=0,即误差项的期望值为0假定2:同方差假定。Var(ei)=E(ei2)=σ2;即误差项的方差为常数假定3:非自相关性假定。COV(ei,ej)=0;即误差项之间不存在序列相关关系,其协方差为零假定4:自变量是给定的变量,与随机误差项线性无关假定5:随机误差项服从正态分布2020/1/2120=38359第三节一元线性回归分析二.一元线性回归模型的估计(一)回归系数的估计在根据样本资料确定样本回归方程时,一般总是希望Y的估计值从整体来看尽可能地接近其实际观测值,即残差ei的总量越小越好。最小二乘法(oLS估计)就是通过使残差平方和为最小来估计回归系数的一种方法。xbayxbyaxxnyxyxnSSbiiiiiixxxy样本直线回归方程为:22)(2020/1/2121=38357第三节一元线性回归分析例4(P122)观察家庭月收入与月支出之间的关系,随机抽取10个家庭作调查得如下结果,求回归直线。收入(x)支出(y)收入(x)支出(y)6005401500890450450100080070060090075085075075066012508503604202020/1/2122=38362第三节一元线性回归分析X1600140012001000800600400200Y9008007006005004002020/1/2123=38361第三节一元线性回归分析家庭月收入(x)与月支出(y)的散点图020040060080010000500100015002000月收入月支出2020/1/2124=38364第三节一元线性回归分析解例4:xynxbnyxbyaSSbSSSrSSSnyxxyyxxxxyyyxxxyxyyyxx448.0472.296472.296448.095298.0493140,243290,110064010,4745700,80896006102700,6710,836022直线回归方程为:2020/1/2125=38363第三节

1 / 40
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功