多元回归分析

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

多元回归分析指导老师:XXX授课人:XXXPage2目录引言多元线性回归模型残差分析自变量的选择与逐步回归多元多重回归显著性检验及回归模型的推断7.1引言一、回归分析基本概念回归分析是一种通过一组预测变量(自变量)来预测一个或多个响应变量(因变量)的统计方法。在数量分析中,经常会看到变量与变量之间存在着一定的联系。要了解变量之间如何发生相互影响的,就需要利用相关分析和回归分析。二、回归分析与相关分析的区别相关分析和回归分析都是研究变量间关系的统计学课题。在应用中,两种分析方法经常相互结合和渗透,但它们研究的侧重点和应用面不同。在回归分析中,变量y称为因变量,处于被解释的特殊地位;而在相关分析中,变量y与变量x处于平等的地位,研究变量y与变量x的密切程度和研究变量x与变量y的密切程度是一样的。在回归分析中,因变量y是随机变量,自变量x可以是随机变量,也可以是非随机的确定变量;而在相关分析中,变量x和变量y都是随机变量。相关分析是测定变量之间的关系密切程度,所使用的工具是相关系数;而回归分析则是侧重于考察变量之间的数量变化规律,并通过一定的数学表达式来描述变量之间的关系,进而确定一个或者几个变量的变化对另一个特定变量的影响程度。三、回归分析研究的主要内容具体地说,回归分析主要解决以下几方面的问题:1、通过分析大量的样本数据,确定变量之间的数学关系式。2、对所确定的数学关系式的可信程度进行各种统计检验,并区分出对某一特定变量影响较为显著的变量和影响不显著的变量。3、利用所确定的数学关系式,根据一个或几个变量的值来预测或控制另一个特定变量的取值,并给出这种预测或控制的精确度。如果按研究方法来划分,回归分析研究的大致范围如下:回归分析线性回归一元线性回归多元线性回归多元多重回归回归诊断如何从数据推断回归模型基本假设的合理性当基本假设不成立时如何对数据进行修正判断回归方程拟合的效果选择回归函数的形式回归变量的选择自变量选择的标准逐步回归分析方法参数估计方法的改进岭回归主成分回归偏最小二乘法非线性回归一元非线性回归分段回归多元非线性回归含有定性变量的回归自变量含定性变量的情况因变量是定性变量的情况7.2多元线性回归模型011ppyxx其中是个未知参数,是不可观测的随机误差,且通常假定.我们称(7.1)为多元线性回归模型。称为被解释变量(因变量),为解释变量(自变量).01,,,p1p2~N0(,)y(1,2,,)ixip称011()ppEyxx为理论回归方程.对于一个实际问题,要建立多元回归方程,首先要估计出7.2.1多元线性模型的一般形式及其假定一、多元线性模型的一般形式设是一个可观测的随机变量,它受到个非随机因素,和随机因素的影响,若与有如下线性关系:yp12,,...,pxxx2,...,pxx1xy(7.1)未知参数,为此我们要进行次独立观测,得到组样本数据,,它们满足式(7.1),即有01,,,pnn12(,,,;)iiipixxxy1,2,,in1011121211201212222201122ppppnnnpnpnyxxxyxxxyxxx(7.2)写成矩阵形式为YX其中,(7.3)12(,,,)TnYyyy01(,,,)Tp12(,,,)Tn111212122212111ppnnnpxxxxxxXxxx矩阵是一阶矩阵,称为回归设计矩阵或资料矩阵。X(1)npX二、多元线性回归模型的基本假定为了方便地进行模型的参数估计,对回归方程(7.2)式有如下一些基本假定。1、解释变量是确定性变量,不是随机变量,而且要求。12,,,pxxx()1rankXpn2、随机误差项具有0均值和等方差(高斯-马尔柯夫条件),即2()0,1,2,...,,cov(,)0,iijEinijij3、在正态假定下,,其中为阶单位矩阵。2~(0,)nnNInIn由假定知,2~(,)nnYNXI一、回归参数的普通最小二乘估计7.2.2参数估计01(,,,)Tp即对21ˆ()()nTTiiQYXYX2011221()niiipipiyxxx利用微积分的极值法,得0112210112211011221ˆˆˆˆ2()0ˆˆˆˆ2()0ˆˆˆˆ2()0niiipipiniiipipiiniiipipipiyxxxyxxxxyxxxx我们选择,要使误差平方和达到最小,这里是的最小二乘估计。上述方程经整理后,得到矩阵形式表示的正规方程组ˆ(0,1,,)iip(0,1,,)iipˆ()0TXYX当存在时,即得回归参数的最小二乘估计为1()TXX1ˆ()TTXXXY称为经验回归方程。01122ˆˆˆˆˆppYxxx(7.4)(3)残差平方和;二、误差方差的估计21、设为的拟合值(估计值),其中ˆˆYXHYY1()TTHXXXX,此时残差向量,ˆˆ()nYYIHY(1)与都是阶对称幂等矩阵;HnIHn(2),,;ˆ0TXˆˆ0TYˆˆˆˆ()TTTTTTYYYSXYYXYSE(4)满足以下结论:ˆˆ()TTnIH()0nIHX2、误差项方差的一个无偏估计为2221111ˆˆˆˆ111nTiiSSEnpnpnp三、离差平方和的分解分别记,11niiyyn总离差平方和,21()niiyySST回归平方和,21ˆ()niiySySR残差平方和,21ˆ()niiiyySSE则有。SSTSSRSSE思考:试用MLE估计参数和,并讨论与OLSE的区别和联系。27.2.3参数估计量的性质1、为的线性无偏估计,且ˆ21ˆˆ()()()TDVarXX2、2ˆˆ()0,()()ECovIH3、(Gauss-Markov定理)在假定ˆˆ(,)CovO4、2(),()nEYXDYI时,的任一线性函数的最小方差线性无偏估计(BLUE)为TˆT,其中为维向量,为的最小二乘估计。1pˆ注:(1)取常数向量的第个分量为1,其余分量为0,这时G-M定理表明,为的BLUE。jˆjj(2)可能存在的非线性函数,作为的无偏估计,比最小二乘估计更好。12,...,nyyyTˆT(3)可能存在的有偏估计量,在某种意义(例如均方误差最小)下比较最小二乘估计更好。TˆT5、当时,则:2~(,)nnYNXI(1),21ˆ(,())TNXX(2)与独立;SSEˆ(3)22(1)SSEnp7.3显著性检验及回归模型的推断利用前述方法确定线性回归方程是否有意义,还有待于显著性检验.下面分别介绍回归方程显著性的检验和回归系数的检验,同时介绍衡量回归拟合程度的拟合优度检验。7.3.1回归方程显著性的检验看自变量从整体上对随机变量是否有明显的影响,即检验假设:12,,...,pxxx0121:0:0,1至少有某个piHHip如果被接受,则表明与之间不存在线性关系,为了说明如何进行检验,我们首先建立方差分析表7.1。0H12,,...,pxxxy方差来源自由度平方和均方F值P值回归残差总和表7.1方差分析pSSRp1npSSRSSE1n(1)SSEnpSST(1)SSRpSSEnp()值PFF值P为了检验回归方程的显著性,由7.2.3性质5得,可以构造统计量(1)SSRpFSSEnpF给定显著性水平后,由样本值可以算出,0F当时,拒绝;0(,1)FFpnp0H当时,接受。0(,1)FFpnp0H或利用P值法(P-Value)作检验:对于给定的显著性水平,若,则拒绝;反之则接受。p0H0H7.3.2回归系数的显著性检验为了回归方程中剔除那些对影响不显著的自变量,我们必须对每一个自变量做考察。检验的影响是否显著等价与检验假设y由7.2.3性质5知(1,2,...,)ixip01:0:0iiHH21ˆ(,())TNXX若记阶方阵,,则有1p1()()TijXXc,0,1,2,...,ijp2ˆ(,),0,1,2,...,iiiiNcip而22(1)SSEnp据此可以构造统计量tˆˆiiiitc其中221111ˆˆˆ()111nniiiiiSSEyynpnpnp是回归标准差。当原假设成立时,有0Hˆ(1)ˆiiiittnpc给定显著水平,查出双侧检验的临界值。2(1)tnp当,我们拒绝,认为对因变量线2(1)ittnp0Hixy性效果显著;反之则接受。0H的置信度为的置信区间为i122ˆˆˆˆ(,)iiiiiitctc7.3.3因变量的预测001020(1,,,,)Tpxxxx设要预测的所对应的因变量的,则0y由得,的置信度为00100ˆ(1)ˆ1()TTyytnpxXXx0y1的预测区间为1100000022ˆˆˆˆ(1)1(),(1)1()TTTTytnpxXXxytnpxXXx在总离差平方和中,若回归平方和占的比例越大,则说明拟合效果越好.于是,就用回归平方和与总离差平方和的比例作为评判一个模型拟合优度的标准,称为样本决定系数(coefficientofdetermination)(或称为复相关系数),记为。7.3.4拟合优度2R2R由的意义看来,其值越接近于1,意味着模型的拟合优度越高。倾向:要想模型拟合效果好,就得尽可能多引进自变量1222111ˆ()()niiiniiyyyySSRSSERSSTSST引入自由度的修正的复相关系数,记为2R2(1)1(1)SSEnpRSSTn7.3.5中心化和标准化在多元线性回归分析中,因为涉及到多个自变量,其数据的数量级往往有很大差异,或设计矩阵的列向量近似线性相关时,都会产生舍入误差,进而使计算结果不理想。为此,我们可以先将数据进行中心化和标准化处理,然后再建立回归方程。X1、数据的中心化处理方法是:记、为各个自变量与因变量的样本中心值,令jxy,1,2,,;1,2,,ijijjxxxinjp,1,2,,iiyyyin如果利用没有中心化处理之前的数据建立的多元回归方程为01122ˆˆˆˆˆppyxxx那么经过中心化处理的数据建立的回归方程即为1122ˆˆˆˆppyxxx注:平移变换只改变截距,不改变斜率思考:此时怎样求出常数项估计值0ˆ(7.5)2、数据的标准化处理公式是:21,1,2,,;1,2,,()ijjijnijjixxxinjpxx21,1,2,,()iiniiyyyinyy标准化的数据建立的回归方程记为1122ˆˆˆˆppyxxx(7.6)易知(7.5)与(7.6)的系数之间存在如下关系式2121()ˆˆ,1,2,,()nijjijjniixxjpyy7.4残差分析在7.2.1中我们做了回归模型的线性假定、误差的正态性和同方差性假定等,而实际问题中所得的数据是否符合这些假定,还有待于检验.在本节中,将要解决两个问题:一是,验证这些假定是否得到满足,给出相应的诊断检验方法;二是,如果假定不满足,我们应该采取什么样的方法以克服假定不满足所带来的问题。7.4.1回归函数线

1 / 47
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功