统计学10相关与回归分析

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

1第一节基本概念一、函数关系与相关关系函数关系:当一个或几个变量取一定的值时,另一个变量有确定值与之相对应,称为确定性的函数关系。函数关系的特点1.是一一对应的确定关系2.设有两个变量x和y,变量y随变量x一起变化,并完全依赖于x,当变量x取某个数值时,y依确定的关系取相应的值,则称y是x的函数,记为y=f(x),其中x称为自变量,y称为因变量2第一节基本概念一、函数关系与相关关系相关关系:当一个或几个相互联系的变量取一定数值时,与之相对应的另一变量的值虽然不确定,但它仍按某种规律在一定的范围内变化。变量之间的这种关系称为相关关系。相关关系的特点1.变量间关系不能用函数关系精确表达;2.一个变量的取值不能由另一个变量唯一确定;3.当变量x取某个值时,变量y的取值可能有几个。3二、相关关系的种类按相关关系的程度划分完全相关:当一个现象的数量变化完全由另一个现象的数量变化所确定时,称这两种现象间的关系为完全相关。不相关:当两种现象彼此互不影响,其数量变化各自独立时,称为不相关现象。不完全相关:两个现象之间的关系介于相关和不相关之间,称为不完全相关。4二、相关关系的种类按相关形式划分线性相关:当两种相关现象之间的关系大致呈现为线性关系时,称之为线性关关。非线性相关:如果两种相关现象之间,并不表现为直线的关系,而是近似于某种曲线方程的关系,则这种相关关系称为非线性相关。5按相关的方向划分正相关:两个相关现象间,当一个变量的数值增加(或减少)时,另一个变量的数值也随之增加(或减少),即同方向变化。负相关:当一个变量的数值增加(或减少)时,而另一个变量的数值相反地呈减少(或增加)趋势变化,即反方向变化。二、相关关系的种类6按研究的变量划分单相关:两个变量之间的相关,称为单相关复相关:当所研究的是一个变量对两个或两个以上其他变量的相关关系时,称为复相关。偏相关:在某一现象与多种现象相关的场合,假定其他变量不变,专门考察其中两个变量的相关关系称为偏相关。二、相关关系的种类7三、相关分析与回归分析(一)概念:相关分析:就是用一个指标来表明现象间相互依存关系的密切程度。回归分析:是指对具有相关关系的现象,根据其相关关系的具体形态,选择一个合适的数学模型(称为回归方程式),用来近似地表达变量间的平均变化关系的一种统计分析方法。8(二)相关分析与回归分析的区别在相关分析中,不必确定自变量和因变量;而在回归分析中,必须事先确定哪个为自变量,哪个为因变量,而且只能从自变量去推测因变量,而不能从因变量去推断自变量。相关分析不能指出变量间相互关系的具体形式;而回归分析能确切的指出变量之间相互关系的具体形式,它可根据回归模型从已知量估计和预测未知量。相关分析所涉及的变量一般都是随机变量,而回归分析中因变量是随机的,自变量则作为研究时给定的非随机变量。9(三)相关分析与回归分析的联系相关分析和回归分析有着密切的联系,它们不仅具有共同的研究对象,而且在具体应用时,常常必须互相补充。相关分析需要依靠回归分析来表明现象数量相关的具体形式,而回归分析则需要依靠相关分析来表明现象数量变化的相关程度。只有当变量之间存在着高度相关时,进行回归分析寻求其相关的具体形式才有意义。简单说:1、相关分析是回归分析的基础和前提;2、回归分析是相关分析的深入和继续。10第二节线性相关分析定性分析依据研究者的理论知识和实践经验,对客观现象之间是否存在相关关系,以及何种关系作出判断。定量分析在定性分析的基础上,通过编制相关表、绘制相关图、计算相关系数等方法,来判断现象之间相关的方向、形态及密切程度。11一、相关表相关表:将自变量x的数值按照从小到大的顺序,并配合因变量y的数值一一对应而平行排列的表。例:为了研究分析某种劳务产品完成量与其单位产品成本之间的关系,调查30个同类服务公司得到的原始数据如表。完成量(小时)203020204030408080504030208050单位成本(元/小时)181616151615151414151516181414完成量(小时)205020305020504020804020508030单位成本(元/小时)16161816151815141614151614151512整理后完成量(小时)202020202020202020303030303040单位成本(元/小时)151616161618181818151515161614完成量(小时)404040405050505050508080808080单位成本(元/小时)15151516141415151516141414141513二、相关图相关图/散点图:以直角坐标系的横轴代表变量x,纵轴代表变量y,将两个变量间相对应的变量值用坐标点的形式描绘出来,用来反映两变量之间的相关关系的图形。例:广告费(万元)3033334056586572808090年销售收入(百万元)12121213141420222626301402040050100销售收入(百万元)广告费(万元)相关图15三、相关系数(一)相关系数的定义:在线性条件下说明两个变量之间相关关系密切程度的统计分析指标。总体相关系数:相关系数是根据总体全部数据计算的,记为样本相关系数:根据样本数据计算的,记为r)()(),(YVarXVarYXCov)()(),(YVarXVarYXCov22)()())((YYXXYYXXrtttt16(二)相关系数的特点r的取值介于-1与1之间;在大多数情况下,0<|r|<1,即X与Y的样本观测值之间存在着一定的线性关系,当r>0时,X与Y为正相关,当r<0时,X与Y为负相关。|r|的数值愈接近于1,表示x与y直线相关程度愈高;反之,|r|的数值愈接近于0,表示x与y直线相关程度愈低。通常判断的标准是:|r|<0.3称为微弱相关,0.3≤|r|<0.5称为低度相关,0.5≤|r|<0.8称为显著相关,0.8≤|r|<1称为高度相关或强相关。如果|r|=1,则表明X与Y完全线性相关,当r=1时,称为完全正相关,而r=-1时,称为完全负相关。r是对变量之间线性相关关系的度量。r=0只是表明两个变量之间不存在线性关系,它并不意味着X与Y之间不存在其他类型的关系。17(三)相关系数的计算22222)(2)())((yynxxnyxxynyyxxyyxxr18编号人口增长量(千人)x年需求量(十吨)y127416221801203375223420513158667626516979881833019291951161053551143025212372234132361441415710315370212例:下表是有关15个地区某种食物需求量和地区人口增加量的资料。19编号人口增长量(千人)x年需求量(十吨)yx2y2xy合计3626226110676143950396478510.99522261-3950491523626-10676141522613626-647851152222yynxxnyxxynr20(四)相关系数的显著性检验检验两个变量之间是否存在线性相关关系采用t检验检验的步骤为提出假设:H0:;H1:0计算检验的统计量:确定显著性水平,并作出决策若tt,拒绝H0若tt,接受H0)2(~122ntrnrt21例:对前例计算的相关系数进行显著性检验(0.05)1.提出假设:H0:;H1:02.计算检验的统计量3.=0.05,查表得t(n-2)=2.160∵t=48.385t(15-2)=2.160,∴拒绝H0,该种食物需求量和地区人口增加量之间的相关关系显著。385.489950.012159950.02t22第三节一元线性回归一、回归函数总体回归函数:Yt=β0+β1Xt+utut是随机误差项,又称随机干扰项,它是一个特殊的随机变量,反映未列入方程式的其他各种因素对Y的影响。样本回归函数:et称为残差,在概念上,et与总体误差项ut相互对应;n是样本的容量。tteXY10ˆˆ23样本回归函数与总体回归函数区别1.总体回归线是未知的,只有一条。样本回归线是根据样本数据拟合的,每抽取一组样本,便可以拟合一条样本回归线。2.总体回归函数中的β1和β2是未知的参数,表现为常数。而样本回归函数中的是随机变量,其具体数值随所抽取的样本观测值不同而变动。3.总体回归函数中的ut是Yt与未知的总体回归线之间的纵向距离,它是不可直接观测的。而样本回归函数中的et是Yt与样本回归线之间的纵向距离,当根据样本观测值拟合出样本回归线之后,可以计算出et的具体数值。综上所述,样本回归函数是对总体回归函数的近似反应。回归分析的主要任务就是要采用适当的方法,充分利用样本所提供的信息,使得样本回归函数尽可能地接近于真实的总体回归函数。21ˆˆ和24二、最小二乘法拟合回归方程原理:使残差平方和最小加以整理后有:最小值2t10t2tt2tXˆˆYYˆYeQ零,可得求偏导数,并令其等于和对将21ˆˆQ0XˆˆYX20XˆˆY2t10ttt10ttt2t1t0tt10YXXˆXˆYXˆˆntteXY10ˆˆXYt10ˆˆˆ25xynxnyxxnyxxyn110221ˆˆˆ)())((ˆ26例:现以前例的资料配合回归直线,计算如下:编号人口增长量(千人)x年需求量(十吨)y127416221801203375223420513158667626516979881833019291951161053551143025212372234132361441415710315370212275301.03626-10676141522613626-64785115)())((ˆ2221xxnyxxyn5905.221536265301.0-152261ˆˆ10nxny编号人口增长量(千人)x年需求量(十吨)yx2y2xy合计36262261106761439503964785128xxy5301.05905.221ˆ0ˆˆ所以上式中表示人口每增加(或减少)1千人,该种食品的年需求量平均来说增加(或减少)0.5301十吨即5.301吨。1ˆ29三、一元线性回归方程的检验回归模型检验的种类回归方程的拟合程度的评价显著性检验30(一)回归模型检验的种类回归模型的检验包括理论意义检验、一级检验和二级检验。理论意义检验主要涉及参数估计值的符号和取值区间,如果它们与实质性科学的理论以及人们的实践经验不相符,就说明模型不能很好的解释现实的现象。一级检验/统计学检验:它是利用统计学中的抽样理论来检验样本回归方程的可靠性。具体又分为拟合程度评价和显著性检验。二级检验/经济计量学检验:它是对标准线性回归模型的假定条件能否得到满足进行检验。具体包括序列相关检验、异方差性检验、多重共线性检验等。31(二)回归模型的拟合程度的评价所谓拟合程度,是指样本观测值聚集在样本回归线周围的紧密程度。yxˆˆyˆ10yyyyˆyyyˆ32因变量y的取值是不同的,y取值的这种波动称为离差。变差来源于两个方面:由于自变量x的取值不同造成的;除x以外的其他因素(如x对y的非线性影响、测量误差等)的影响。对一个具体的观测值来说,变差的大小可以通过该实际观测值与其均值之

1 / 54
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功