第五章相关与回归分析060120180X2468YPDFcreatedwithpdfFactoryProtrialversion第一节概述三、回归分析的内容一、变量间相互关系二、相关关系的种类PDFcreatedwithpdfFactoryProtrialversion一、变量间相互关系(一)函数关系1、定义:完全确定的(数量)关系。某一(组)变量与另一变量间存在着一一对应的关系。[例]:计件工资(y)与产量(x)Þy=f(x)=10x;x0=1件,y0=10元;x1=2件,y1=20元原材料消耗总额(y)与产量(x1)、单位产量消耗(x2)和原材料价格(x3)Þy=x1·x2·x3。PDFcreatedwithpdfFactoryProtrialversion(二)相关关系1、定义:不完全确定的关系。某一(组)变量与另一变量间有关系但并非一一对应。[例]:身高y与体重x;A:x=60kg、y=170m;B:x=60kg、y=1.72m;C:x=60kg、y=1.68m;D:x=60kg、y=1.65m。表述:y=f(x)+e。影响身高的因素:体重、遗传、锻炼、睡眠质量……PDFcreatedwithpdfFactoryProtrialversion这些变量间都存在着十分密切的关系,但不能由一个或几个变量的值精确地求出另一个变量的值。像这样一类关系在生物界中是大量存在的,统计学中把这些变量间的关系称为相关关系,把存在相关关系的变量称为相关变量。相关变量间的关系一般分为两种:一种是因果关系,即一个变量的变化受另一个或几个变量的影响。另一种是平行关系,它们互为因果或共同受到另外因素的影响。PDFcreatedwithpdfFactoryProtrialversion统计学上采用回归分析(regressionanalysis)研究呈因果关系的相关变量间的关系。表示原因的变量称为自变量,表示结果的变量称为因变量(响应变量)。研究“一因一果”,即一个自变量与一个因变量的回归分析称为一元回归分析;研究“多因一果”,即多个自变量与一个因变量的回归分析称为多元回归分析。一元回归分析又分为线性回归分析与非线性回归分析两种;多元回归分析又分为多元线性回归分析与多元非线性回归分析两种。PDFcreatedwithpdfFactoryProtrialversion统计学上采用相关分析(correlationanalysis)研究呈平行关系的相关变量之间的关系。对两个变量间的直线关系进行相关分析称为简单相关分析(也叫直线相关分析)。对多个变量进行相关分析时,研究一个变量与多个变量间的线性相关称为复相关分析;研究其余变量保持不变的情况下两个变量间的线性相关称为偏相关分析。PDFcreatedwithpdfFactoryProtrialversion这两类关系在某些情况下又可以相互转化。一种情况,随着对问题研究的深入,变量之间的相关关系可能转化为确定性的关系;另一种情况,由于测量误差等原因,确定关系也常以相关关系的形式表现出来。回归分析方法是处理变量之间相关关系的有力工具,它不仅提供建立变量间关系的数学表达式——经验公式,而且利用概率统计知识进行了分析讨论,从而判断经验公式的正确性。PDFcreatedwithpdfFactoryProtrialversion、成因(1)某些影响因素尚未被认识;(2)虽已认识但无法测量;(3)测量误差。[例]某种水果2元/斤:购买额®y=2x¬购买量y=4元、x=2斤®y=2x+e=2×1.9+0.23、数量关系的形式(1)单一因果关系;(2)互为因果关系;(3)伴随关系。PDFcreatedwithpdfFactoryProtrialversion二、相关关系的种类(一)按相关的程度分1、完全相关:函数关系;2、不相关:没有关系;3、不完全相关。(二)按相关的方向分1、正相关:变量的变动方向一致(同增同减同增同减);2、负相关:变量的变动方向相反(一增一减一增一减)。PDFcreatedwithpdfFactoryProtrialversion(三)按相关的形式分1、线性相关;2、非线性相关。••••••••••••••••••••••••••••••PDFcreatedwithpdfFactoryProtrialversion(四)按影响因素的多少分1、单(简)相关:只有一个自变量;[例]学习成绩与学习时间;血压与年龄;亩产量与施肥量。2、复(多元)相关:两个或两个以上的自变量;[例]经济增长与人口增长、科技水平、自然资源、管理水平等之间的关系;体重与身高、胖瘦之间的关系。3、偏相关:就多个变量测定其中两个变量的相关程度而假定其他变量不变。PDFcreatedwithpdfFactoryProtrialversion三、回归分析的内容回归分析主要解决以下几方面的问题:(1)确定几个特定变量之间是否存在相关关系,如果存在相关关系,确定它们之间合适的数学表达式,并对它的可信度做统计检验。(2)进行因素分析,确定因素的主次以及因素之间的相互关系。(也即判断变量是否有显著影响)(3)根据一个或几个变量的值,预报或控制另一个变量的取值,并且要知道这种预报或控制的精确度等。PDFcreatedwithpdfFactoryProtrialversion三、利用Excel求解回归方程二、一元线性回归的数学模型一、一元线性回归要解决的问题第二节一元线性回归方程求解显著性检验预报与控制PDFcreatedwithpdfFactoryProtrialversion一元线性回归就是寻求两个变量间的线性统计元回归分析,若其相关关系的统计规律性呈线性关系则称为一元线性回归分析。要解决的问题有:(1)求变量x与y之间的回归直线方程。(2)判断变量x和y之间是否确为线性关系。(3)根据一个变量的值,预测或控制另一变量的取值。一、一元线性回归要解决的问题PDFcreatedwithpdfFactoryProtrialversion假设从总体中抽取几个单元组成样本,样本各单元在自变量X与自变量Y的各观察值(xi,yi)(i=1,2,…,n)。将这n对观察值点绘在直角坐标纸上,成一散点图。二、一元线性回归的数学模型PDFcreatedwithpdfFactoryProtrialversion从散点图可以看出:①两个变量间有关或无关;若有关,两个变量间关系类型,是直线型还是曲线型;②两个变量间直线关系的性质(是正相关还是负相关)和程度(是相关密切还是不密切);散点图直观地、定性地表示了两个变量之间的关系。为了探讨它们之间的规律性,还必须根据观测值将其内在关系定量地表达出来。PDFcreatedwithpdfFactoryProtrialversion(因变量)与x(自变量)间的关系是直线关系,根据n对观测值所描出的散点图,如图(b)和图(e)所示。由于因变量y的实际观测值总是带有随机误差,因而因变量y的实际观测值yi可用自变量x的实际观测值xi表示为:该式即为一元线性回归的数学模型。iiixyeba++=((ii=1,2,=1,2,……,,nn))PDFcreatedwithpdfFactoryProtrialversion、y直角坐标平面上可以作出无数条直线,我们把所有直线中最接近散点图中全部散点的直线用来表示x与y的直线关系,这条直线称为回归直线。我们可以根据样本资料去估计a、b,从而得到直线回归方程。a、b是α、β的估计值。根据样本资料求得回归方程的系数,通常采用的方法是最小二乘法。bxay+=ˆPDFcreatedwithpdfFactoryProtrialversion条基本假设:(1)正态分布;(2)线性相关;(3)相互独立;(4)等方差。PDFcreatedwithpdfFactoryProtrialversion三、用Excel求解回归方程对回归方程做统计分析,进行F检验,并对回归系数作t检验根据样本资料作散点图,计算回归截距a,回归系数b,建立直线回归方程。只在研究的范围,进行预测和控制。一般不要轻易外延。方程求解显著性检验预测与控制PDFcreatedwithpdfFactoryProtrialversion在这里,我们不再详细讲述如何利用最小二乘法获得回归方程的回归系数,我们重点讲述如何利用Excel来求得回归方程的回归系数,以及相应的显著性检验、相关关系等。例:用银盐法测定食品中的砷时,吸光度y与砷含量x之间有一定的相关关系,数据如下:975310x(砷含量,mg)0.3990.3060.2110.1450.0410.000y(吸光度)654321试验号PDFcreatedwithpdfFactoryProtrialversion操作步骤:1、输入数据。PDFcreatedwithpdfFactoryProtrialversion操作步骤:2、选择工具菜单中的数据分析选项。PDFcreatedwithpdfFactoryProtrialversion操作步骤:3、选择回归选项后,确定。选择相关的选项。PDFcreatedwithpdfFactoryProtrialversion主要选项的含义如下:Y值输入区域,在此输入对因变量数据区域,该区域必须由单列数据组成;X值输入区域,在此输入对自变量数据区域,自变量的个数最多为16;标志:选中表示数据区域的第一行为标志行,不选中,系统会给出默认的标志;置信度,如果需要在汇总输出表中包含附加的置信度信息,则选中此复选框,然后在右侧的编辑框中,输入所要使用的置信度,95%为默认值;常数为零,如果要强制回归线通过原点,则选中此复选框;PDFcreatedwithpdfFactoryProtrialversion主要选项的含义如下:输出区域,在此输入对输出表左上角单元格的引用。汇总输出表至少需要有七列的宽度,包含的内容有anova表、系数、y估计值的标准误差、r2值、观察值个数,以及系数的标准误差;新工作表,单击此选项,可在当前工作簿中插入新工作表,并由新工作表的A1单元格开始粘贴计算结果,如果需要给新工作表命名,则在右侧的编辑框中键入名称;新工作簿,单击此选项,可创建一新工作簿,并在新工作簿中的新工作表中粘贴计算结果;PDFcreatedwithpdfFactoryProtrialversion主要选项的含义如下:残差,如果需要以残差输出表的形