变量间的相关关系2011.2.15知识回顾在现实生活中,有些量与量之间有着明确的函数关系.但是,在现实生活中还有一些量不满足函数关系.eg:eg:两个变量之间的相关关系两个变量间存在着某种关系,带有不确定性(随机性),不能用函数关系精确地表达出来,我们说这两个变量具有相关关系.相关关系—当自变量取值一定,因变量的取值带有一定的随机性(非确定性关系)函数关系---函数关系指的是自变量和因变量之间的关系是相互唯一确定的.注:相关关系和函数关系的异同点相同点:两者均是指两个变量间的关系不同点:函数关系是一种确定关系,相关关系是一种非确定的关系。对相关关系的理解下列两变量中具有相关关系的是()A角度和它的余弦值B正方形的边长和面积C成人的身高和视力D身高和体重D练习那么,该如何判断两个变量是否具有相关关系呢?思考:散点图说明:3).如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系.1).如果所有的样本点都落在某一函数曲线上,就用该函数来描述变量之间的关系,即变量之间具有函数关系.2).如果所有的样本点都落在某一函数曲线附近,变量之间就有相关关系。散点图:用来判断两个变量是否具有相关关系.散点图线性相关非线性相关不相关回归直线如何求回归方程呢?•1、设方程•y=bx+a•2、计算(1)画出散点图;(2)求线形回归方程;(3)如果某天的气温是-3OC,请预测这天小卖部可能会买出热茶多少杯.从散点图可以看出两个变量是线性相关的.解:(1)画散点图列表某种产品的广告费支出x与销售额y(单位:百万元)之间有如下对应数据:练习x24568y3040605070(1)画出散点图;(2)求线形回归方程;(3)预测当广告费支出为7(百万元)时的销售额.小结求样本数据的线性回归方程,可按下列步骤进行:第一步,计算平均数,xy1niiixy21niix第二步,求和,1122211()(),()nniiiiiinniiiixxyyxynxybaybxxxxnx第三步,计算第四步,写出回归方程abxy2.回归方程被样本数据惟一确定,各样本点大致分布在回归直线附近.对同一个总体,不同的样本数据对应不同的回归直线,所以回归直线也具有随机性.3.对于任意一组样本数据,利用上述公式都可以求得“回归方程”,如果这组数据不具有线性相关关系,即不存在回归直线,那么所得的“回归方程”是没有实际意义的.因此,对一组样本数据,应先作散点图,在具有线性相关关系的前提下再求回归方程.第一章统计案例1.1回归分析的基本思想及其初步应用知识回顾问题3:对于具有相关关系的两个变量用什么方法来刻画它们之间的关系呢?回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法.其步骤:作散点图求回归直线方程利用方程进行预报.用统计方法解决问题的基本步骤:提出问题收集数据分析整理数据进行预测或决策新课讲授例1从某大学中随机选取8名女大学生,其身高和体重数据如下表所示:编号12345678身高/cm165165157170175165155170体重/kg4857505464614359求根据女大学生的身高预报体重的回归方程,并预报一名身高为172cm的女大学生的体重.一、教学例题010203040506070150155160165170175180身高/cm体重/kg解:(1)作出散点图例1从某大学中随机选取8名女大学生,其身高和体重数据如下表所示:编号12345678身高/cm165165157170175165155170体重/kg4857505464614359求根据女大学生的身高预报体重的回归方程,并预报一名身高为172cm的女大学生的体重.解:(2)求出线性回归方程例1从某大学中随机选取8名女大学生,其身高和体重数据如下表所示:编号12345678身高/cm165165157170175165155170体重/kg4857505464614359求根据女大学生的身高预报体重的回归方程,并预报一名身高为172cm的女大学生的体重.i116548272257920216557272259045315750246497850417054289009180517564306251120061656127225100657155432402566658170592890010030合计132243621877471955ixiy2ixiiyx25.16511iinxnx5.5411iinyny849.02211xnxyxnyxbiiniiin712.85xbya于是得到线性回归方程712.85849.0xy称为样本点的中心),(yx最小二乘估计下的线性回归方程:ˆˆˆybxa解:(3)利用线性回归方程进行预报例1从某大学中随机选取8名女大学生,其身高和体重数据如下表所示:编号12345678身高/cm165165157170175165155170体重/kg4857505464614359求根据女大学生的身高预报体重的回归方程,并预报一名身高为172cm的女大学生的体重.712.85849.0xy所以,对于身高为172cm的女大学生,由线性回归方程可以预报其体重为)(316.60712.85172849.0kgy问题:身高为172cm的女大学生的体重一定是60.316kg吗?如果不是,你能解释一下原因吗?不一定,60.316kg是身高为172cm的女大学的平均体重的估计值,而不一定是某位身高为172cm的女大学生的真实体重,但一般可以认为她的体重在60.316kg左右。010203040506070150155160165170175180身高/cm体重/kg解:(1)作出散点图例1从某大学中随机选取8名女大学生,其身高和体重数据如下表所示:编号12345678身高/cm165165157170175165155170体重/kg4857505464614359求根据女大学生的身高预报体重的回归方程,并预报一名身高为172cm的女大学生的体重.2、线性回归模型与一次函数模型的不同eabxyabxy线性回归模型与一次函数的不同之处是增加了随机误差e因变量y的值由自变量x和随机误差e共同确定.其中随机误差e中包含体重不能由身高的线性函数解释的所有部分.当随机误差e恒等于0时,线性回归模型就变成一次函数模型.因此,一次函数模型是线性回归模型的特殊形式,线性回归模型是一次函数模型的一般形式.解释变量x(身高)随机误差e预报变量y(体重)随机误差e产生的原因是什么?列表y2i40057611561444250040964096列表y2i40057611561444250040964096列表y2i400576115614442500409640963、随机误差e产生的原因①忽略了某些因素的影响影响因变量y的因素不只自变量x,可能还包括其他许多因素(例如:在描述身高和体重关系的模型中,体重不仅受身高的影响,还会受遗传基因、饮食习惯、生长环境等其他因素影响),它们的影响都体现在e中.②观测误差由于测量工具等原因,导致因变量y的观测值产生误差(例如:一个人的体重是确定的数,不同的秤可能会得到不同的观测值,与真值之间存在误差),这样的误差也包含在在e中.③用线性回归模型近似真实模型所引起的误差(真实模型是客观存在的,通常我们并不知道真实模型到底是什么.例如:没有人知道身高和体重之间的真正关系是什么,现在只能利用线性回归方程来近似这种关系),这种由模型近似所引起的误差也包含在在e中.以上三项误差越小,说明回归模型的拟合效果越好.思考:在总效应(总偏差平方和)中有多少来自解释变量,有多少来自随机变量呢?数据点和它在回归直线上相应位置的差异是随机误差的效应.iiiyyeˆˆ)ˆ(iiyy记作叫残差在研究两个变量间的关系时,首先要根据散点图来粗略的判断他们是否线性相关,是否可以用线性回归模型来拟合数据,然后可以通过残差来判断模型拟合的效果,判断原始数据中是否存在可疑数据,把这个工作称为残差分析.neee,...,,21残差分析残差分析是回归诊断的一种方法.最简单的残差分析是通过观测残差图,以发现观测数据中可能出现的错误以及所选用的回归模型是否恰当.利用残差图进行残差分析的具体步骤:①计算每组观测数据的残差.即残差=观测值–预测值.②画残差图.残差图的纵坐标为残差,横坐标通常可以是观测样本的编号、自变量、或因变量的预测值,残差图是一种散点图.③分析残差图.残差图中残差点比较均匀地落在水平的带状区域中,说明选用的回归模型比较合适.这样的带状区域的宽度越窄,说明模型拟合精度越高,回归方程的预报精度越高.④找异常值根据残差图,观察是否存在残差特别大的点,即远离横坐标轴较远的点,如果存在远离横坐标轴的点,就要研究它出现的原因,如是数据采集和录入中发生了错误,如果有错误,改正后重新利用线性回归模型拟合数据.),...,2,1(niyyeiii(1)寻找异常点,就是残差特别大的点,考察相应的样本数据是否有错;(2)分析残差图可以发现模型选择是否适合.残差分析可以帮助我们解决以下两个问题:例如:下表给出了女大学生身高和体重的原始数据以及相应的残差数据编号12345678身高/cm165165157170175165155170体重/kg4857505464614359残差-6.7332.6272.419-4.6181.1376.627-2.8830.382),...,2,1(niyyeiii①计算每组观测数据的残差即残差=观测值–预测值.8编号残差123456789106420-2-4-6-8②画残差图预报时需要注意的问题:①样本数据来自哪个总体的,预报是也仅适用这个总体;②模型的时效性;③建立模型时自变量的取值范围决定了预报时模型的适用范围,通常不能超出太多;④在回归模型中,因变量的值不能由自变量的值完全确定.建立回归模型的基本步骤:1.确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量;2.画出散点图,观察变量之间的关系(如是否存在线性关系等);3.由经验确定回归方程的类型4.按一定规则估计回归方程中的参数5.得出结果分析残差图是否有异常,若存在异常,则检查数据是否有误,或模型是否合适等.选变量画散点图选模型估计参数分析与预测新课讲授由例1知,预报变量(体重)的值受解释变量(身高)和随机误差的影响.假设身高和随机误差的不同不会影响体重,那么所有人的体重将相同.在体重不受任何变量影响的假设下,设8名女大学生的体重都是他们的平均体重54.5kg.编号12345678身高/cm165165157170175165155170体重/kg54.554.554.554.554.554.554.554.5020406080150155160165170175180身高/cm体重/kg散点图020406080150155160165170175180身高/cm体重/kg解释变量+随机误差的组合效应思考:我们用什么来刻画回归的效果呢?相关指数R2=1-21)(niyyiniiiyy12)ˆ(显然,R2的值越大,说明残差平方和越小,也就是说模型的拟合效果越好.在线性回归模型中,R2表示解释变量对预报变量变化的贡献率.R2越接近1,表示回归的效果越好(因为R2越接近1,表示解释变量和预报变量之间的线性相关性越强).来源平方和比例解释变量225.63964﹪随机误差128.36136﹪总计354100﹪如果某组数据可能采取几种不同回归方程进行回归分析,则可以通过比较R2的值来作出选择,即选择R2大的值的模型作为这组数据的模型.分析:既可分别求出两种模型下的总偏差平方和、残差平方和、回归平方和,也可分别求出两种模型下的相关指数,然后再进行比较,从而得出结论.84.5%>82%,所以模型(1)的拟合效果较好例:关于x、y有如下数据x24568y30406