第二节一元线性回归分析本节主要内容:回归是分析变量之间关系类型的方法,按照变量之间的关系,回归分析分为:线性回归分析和非线性回归分析。本节研究的是线性回归,即如何通过统计模型反映两个变量之间的线性依存关系。回归分析的主要内容:1.从样本数据出发,确定变量之间的数学关系式;2.估计回归模型参数;3.对确定的关系式进行各种统计检验,并从影响某一特定变量的诸多变量中找出影响显著的变量。一、一元线性回归模型:一元线性模型是指两个变量x、y之间的直线因果关系。理论回归模型:理论回归模型中的参数是未知的,但是在观察中我们通常用样本观察值估计参数值,通常用分别表示的估计值,即称回归估计模型:回归估计模型:二、模型参数估计:用最小二乘法估计:【例3】实测某地四周岁至十一岁女孩的七个年龄组的平均身高(单位:厘米)如下表所示某地女孩身高的实测数据建立身高与年龄的线性回归方程。根据上面公式求出b0=80.84,b1=4.68.三.回归系数的含义(2)回归方程中的两个回归系数,其中b0为回归直线的启动值,在相关图上变现为x=0时,纵轴上的一个点,称为y截距;b1是回归直线的斜率,它是自变量(x)每变动一个单位量时,因变量(y)的平均变化量。(3)回归系数b1的取值有正负号。如果b1为正值,则表示两个变量为正相关关系,如果b1为负值,则表示两个变量为负相关关系。[例题·判断题]回归系数b的符号与相关系数r的符号,可以相同也可以不同。()答案:错误解析:回归系数b的符号与相关系数r的符号是相同的[例题·判断题]在回归直线yc=a+bx,b0,则x与y之间的相关系数()a.r=0b.r=1c.0r1d.-1r0答案:d解析:b0,则x与y之间的相关系数为负即-1r0[例题·单选题]回归系数和相关系数的符号是一致的,其符号均可用来判断现象()a.线性相关还是非线性相关b.正相关还是负相关c.完全相关还是不完全相关d.单相关还是复相关答案:b解析:回归系数和相关系数的符号是一致的,其符号均可用来判断现象正相关还是负相关四.回归方程的评价与检验:当我们得到一个实际问题的经验回归方程后,还不能马上就进行分析与预测等应用,在应用之前还需要运用统计方法对回归方程进行评价与检验。进行评价与检验主要是基于以下理由:第一,在利用样本数据估计回归模型时,首先是假设变量y与x之间存在着线性关系,但这种假设是否存在需要进行检验;第二,估计的回归方程是否真正描述了变量y与x之间的统计规律性,y的变化是否通过模型中的解释变量去解释需要进行检验等。一般进行检验的内容有:1.经济意义的检验:利用相关的经济学原理及我们所积累的丰富的经验,对所估计的回归方程的回归系数进行分析与判断,看其能否得到合理的解释。2.回归方程的统计检验:包括回归方程的显著性检验(f检验)和对回归系数的检验(t检验)。(1)线性回归方程的显著性检验——f检验线性回归方程的显著性检验即方差分析检验法,它是对所有参数感兴趣的一种显著性检验。其检验步骤为:第一步:提出假设。原假设备择假设第二步:构造f统计量在h0成立的条件下,有:第二自由度为n-2,其中n为样本容量。(2)回归系数的显著性检验——t检验回归系数的显著性检验是检验解释变量x对因变量y的影响是否显著。首先:提出假设。原假设备择假设如果h0成立,则因变量y对解释变量x之间并没有真正的线性关系,即x的变化对y并没有显著的线性影响。其次:计算检验统计量t,并得出对应的概率值(伴随概率)。检验统计量:(为回归系数的标准差)最后:根据伴随概率进行判断:如果伴随概率(sig.值)小于我们事先确定的显著性水平时,拒绝原假设,接受备择假设,即解释变量x对y的线性效果显著。否则,不能拒绝原假设,认为x对y的线性效果不显著。一元线性回归分析时,由于只有一个解释变量,因此t检验与f检验的结果是一致的。3.回归方程的评价——拟合程度分析:拟合程度是指估计的回归方程是否很接近因变量,即估计的精确度。而估计的精确度如何取决于回归方程对观测数据的拟合程度。最常用的指标就是——判定系数。1.判定系数判定系数是用来说明回归方程对观测数据拟合程度的一个度量值,以一元线性回归方程为例,若各观测值数据(xi,yi)在坐标系上形成的散点都落在一条直线上,那么这条直线就是对数据的完全拟合,直线充分代表了各个点,此时,用x估计y是没有误差的。各观测点越是紧密围绕直线,说明直线对观测数据的拟合程度越好,判定系数越高,反之则越差,判定系数越小。总变差平方和=回归平方和+残差平方和判定系数的取值范围在【0,1】,=1时,拟合是完全的,即所有观测值都在直线上。若x与y无关,x完全无助于解释y的变差,此时,则=0.可见,越接近于1,表明回归平方和占总变差平方和的比重越大,回归直线与各观测点越接近,回归直线的拟合程度就越好。反之,越接近0,回归直线的拟合程度越差。2.估计标准误差估计标准误差是残差平方和的均方根,用表示。其计算公式为:从实际意义看,反映了用估计的回归方程预测因变量y时预测误差的大小,越小,说明根据回归方程进行预测也就越准确;若各观测点全部落在直线上,则=0,此时用自变量来预测因变量是没有误差的。可见也从另一个角度说明了回归直线的拟合程度。[例题·单选题]评价回归直线方程拟合优度如何的指标有()a.回归系数bb.直线截距ac.判定系数r2d.相关系数r答案:c[例题·单选题]关于估计标准误差,下列说法正确的是()a.估计标准误差数值越大,说明回归直线的代表性越大b.估计标准误差数值越大,说明回归直线的代表性越小c.估计标准误差数值越大,说明回归直线的实用价值越大d.估计标准误差数值越大,说明回归直线的实用价值越小答案:b解析:估计标准误差是残差平方和的均方根,用表示。其计算公式为。从实际意义看,反映了用估计的回归方程预测因变量y时预测误差的大小,越小,说明根据回归方程进行预测也就越准确[例题·单选题]估计标准误差的作用是表明()a.回归方程的代表性b.样本的变异程度c.估计值与实际值的平均误差d.样本指标的代表性e.总体的变异程度答案:ac