PROBABILITYTHEORYANDMATHEMATICALSTATISTICS概率论与数理统计第九章回归分析•一元线性回归•多元线性回归一元线性回归1.回归的含义2.两个变量的直线关系3.一元线性回归模型4.最小二乘估计及统计性质5.回归方程的显著性检验和回归系数的置信区间6.预测与控制1.回归的含义在含有变量的系统中,考察一些变量对另一些变量的作用是必要的。它们之间可能存在一种简单的函数关系,也可能存在一种非常复杂的函数关系。这是确定性关系。然而,更常见的是,有些变量之间的关系是非确定性的关系,这种关系无法用一个精确的数学式子来表示。例如1、合金的强度与合金中碳的含量有密切的关系,但是不能由碳的含量精确知道这些合金的强度,这是因为合金的强度还受到许多其它因素及一些无法控制的随机因素的影响。2、在气候、土质、水利、种子和栽培技术等条件基本相同时,水稻亩产量y与施肥量x有密切关系,但是施肥量相同,亩产量不一定相同.3、某种日用品的销售量与当地人口有关,一般人口越多销售量越大,但是人口与销售量之间并无确定的数值对应关系。变量之间的这种关系称为相关关系或称为统计依赖关系。对这种关系我们也期望用某种类型的数学方程式来描述,并在某些限制下,用方程式通过一些已知的变量之值去预测另一些变量之值。如用施肥量的值x去预测亩产量y的值。在这里,我们首先要区分两种主要类型的变量。一种变量相当于通常函数关系中的自变量,对这样的变量能够赋予一个需要的值(如室内的温度、施肥量)或者能够取到一个可观测但不能人为控制的值(如室外的温度),这种变量称为自变量,或称预报变量。预报变量的变化能波及另一些变量(如水稻亩产量),这样的变量称为因变量,或称响应变量。人们通常感兴趣的问题是预报变量的变化对响应变量的取值有什么样的影响。预报变量与响应变量之间的区别并无明显的界线,往往与考虑的问题有关。然而,在实际问题中,两种变量是容易区分的。例如,前面所说的水稻亩产量y与施肥量x,显然,x是预报变量而y是响应变量。回归分析正是研究预报变量之变动对响应变量之变动的影响程度,其目的在于根据已知预报变量的变化来估计或预测响应变量的变化情况。“回归(regression)”名称的由来:回归名称的由来要归功于英国统计学F.高尔顿(F.Galton:1822~1911),他把这种统计分析方法应用于研究生物学的遗传问题,指出生物后代有回复或回归到其上代原有特性的倾向。高尔顿和他的学生、现代统计学的奠基者之一K.皮尔逊(K.Pearson:1856~1936)在研究父母身高与其子女身高的遗传问题时,在观察了1078对夫妇后,以每对夫妇的平均身高作为x,取他们的一个成年儿子的身高为y,将结果绘成散点图后发现成一条直线。计算出回归方程为ˆ33.730.516yx子代的身高有向平均值靠拢的趋向,因此,他用“回归”一词来描述子代身高与父代身高的这种关系。这种趋势说明父母平均身高x每增加一个单位,其成年儿子的平均身高增加0.516个单位。该结果表明:1.高个子父亲确实有生高个子儿子的趋势。2.子代人的身高有回归到同龄人平均身高的趋势。3.此例形象的说明了生物学物种的稳定性。具体地说,回归的内容包括:如何确定响应变量与预报变量之间的回归模型;如何根据样本观测数据估计并检验回归模型及未知参数;从众多的预报变量中,判断哪些变量对响应变量的影响是显著的,哪些变量的影响是不显著的;根据预报变量的已知值或给定值来估计和预测响应变量的平均值并给出预测精度。2.两个变量的直线关系在大量的试验工作中,人们都希望弄清楚一个变量的变化对另一个变量有什么样的影响。有时候,两个变量之间的关系恰好是直线关系。例如,当一条简单电路的电阻R保持不变时,电流I的变化与电压V的变化就是直线关系,这由欧姆定律I=V/R便知。假如不懂欧姆定律,由V的变化和I的观测值,可凭经验获得这种关系:即当R固定时,观测值I相对于V的变化可以得到一条过原点的近似直线(如图)。虽然他们是确切的直线关系,但在测量过程中可能会出现误差,因此描点作图时观测点也就不会恰好落在一条直线上。然而,在利用V来预测I的值时,应该利用这条过原点的直线。(a)有时,即使不考虑误差,某种关系也不是精确的直线关系,不过这时考虑直线关系仍有很大意义。例如,假设要考虑某一地区成年男子的身高(cm)和体重(kg)的关系时,描出点对(x,y)=(身高,体重)便得到图象。注意对已知的身高,其对应的体重观测点有一范围,反之亦然。这种量的变化,部分地是由于测量误差引起的,但主要还是由各人之间的差异所引起的。因此,不能指望实际身高和体重之间存在唯一的关系。但可以注意到,随着身高观测值的增加,对应体重观测值的平均值也在增加,这种对于给定的身高观测值所得的体重观测平均值的轨迹称为体重对于身高的回归曲线,记为y=f(x).身高对体重的回归曲线也同样存在,记为x=g(y).假设这两条曲线均为直线(一般情况下可能不是),则这两条直线一般说来是不相同的。如图所示的两条直线。现在,假设有了每个人身高的记录,但不知道他们各自的体重,该如何将他们估计出来?我们利用体重对身高的回归曲线,可以得到各个给定身高所对应的体重平均观测值,人们就用这个值去估计体重。(b)有时,我们明明知道两个变量之间不是直线关系,但若限制在某个范围内时仍作为直线关系来处理,是很有实用价值的。如图所示的响应关系:响应关系在0≤x≤10时,显然不是直线关系。但如果只对o≤x≤5内的关系感兴趣,就可以看作是直线关系。当然这种关系不适合0≤x≤5以外的场合。这一点在作预报时应值得注意,就是说,利用直线关系对0≤x≤5以外的点作出的预报是不可靠的。预报变量不止一个时,也有类似的情况值得注意.象前面那样(x,y)=(身高,体重)的一对随机变量服从某个二维分布。但这里,我们要讨论的是,响应变量y为随机变量,预报变量为非随机变量的情况。描述y与x关系的方程称为回归方程。E(y|x)=f(X)的图形称为回归曲线。当E(y|x)=f(X)为直线时,称为回归直线.3.一元线性回归模型我们先看一个实例为研究温度对某个化学过程的生产量的影响,收集到如下数据(规范化形式):将表中各对数据描在坐标平面上得图数据和拟合直线这样的图称为观测数据的散点图。从图上可以看出,随着温度x的升高,某化学过程的生产量y的平均值也在增加,它们大致成一直线关系,但各点不完全在一条直线上,这是由于y还受到其它一些随机因素的影响。x是可控的(或者虽然不可控,但可观测)的非随机变量,这就是前面所说的自变量或称预报变量。ε随着每个观测值y变化,是不可观测的随机变量,是许多不可控制或不了解的随机因素的总和,且满足y是可观测的随机变量,即前面所称的因变量或称响应变量,显然有注:y的方差与ε的方差相同.一般地,称由确定的模型为一元线性回归模型.于是可以写出注:我们说一个模型是线性的,是指它关于参数是线性的。模型中预报变量的最高次幂称为该模型的阶。例如4.最小二乘估计及统计性质则有记最小二乘法拟合的直线于是有正规方程由正规方程解得为了便于计算,人们常用下列记号和等式的各种变形:这时例为了研究某一化学反应过程中温度x对产品得率Y的影响.测得数据如下:为了研究这些数据所蕴藏的规律性,为横坐标,得率iy作为纵坐标,在xoy坐标系中作散点图将温度ix作45515461667074788589100110120130140150160170180190温度Cxi得率iy%从图易见,虽然这些点是散乱的,某条直线附近,但大体上散布在即该化学反应过程中温度与产品从图易见,虽然这些点是散乱的,某条直线附近,但大体上散布在即该化学反应过程中温度与产品得率之间大致成线性关系,由于测试过程中随机因素影响的结果,这些点与直线的偏离是过程中产品的得率与温度的数据可假设有如下结构形式:10,,2,1,10ixyiii其中i是测试误差,它反映了变量之间的不确定关系.故化学反应解为了方便,列故x而xxLiixiy2ix2iyiiyx1234567891010011012013014015016017018019014504551546166707478858967310000121001440016900196002250025600289003240036100218500202526012916372143564900547660847225792147225450056106480793092401050011840132601530016910101570出如右计算表格.y1450101,145673101,3.672101210xxii解xxxLy,145,3.672101210xxiiiixiy2ix2iyiiyx1234567891010011012013014015016017018019014504551546166707478858967310000121001440016900196002250025600289003240036100218500202526012916372143564900547660847225792147225450056106480793092401050011840132601530016910101570解xxxLy,145,3.672101210xxii2)145(10218500,8250iixiy2ix2iyiiyx1234567891010011012013014015016017018019014504551546166707478858967310000121001440016900196002250025600289003240036100218500202526012916372143564900547660847225792147225450056106480793092401050011840132601530016910101570yxyxLiiixy101013.6714510101570,3985解xxxLy,145,3.67,8250iixiy2ix2iyiiyx1234567891010011012013014015016017018019014504551546166707478858967310000121001440016900196002250025600289003240036100218500202526012916372143564900547660847225792147225450056106480793092401050011840132601530016910101570xyL,3985解xxxLy,145,3.67,8250iixiy2ix2iyiiyx1234567891010011012013014015016017018019014504551546166707478858967310000121001440016900196002250025600289003240036100218500202526012916372143564900547660847225792147225450056106480793092401050011840132601530016910101570xyL,3985从而1ˆ0ˆ,483.0483.01453.67,735.2xxxyLL825039801ˆxy解xxxLy,145,3.67,8250iixiy2ix2iyiiyx12345678910100110120130140150160170180190145045515461667074788589673100001210014400169001960022500256002890032400361002185002025260129163721435649005