7回归分析

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

CollegeofManagementLinearRegressionAnalysis线性回归分析Chapter7CollegeofManagement主要内容SimpleLinearRegressionAnalysis简单线性回归分析MultipleLinearRegressionAnalysis多元线性回归分析DiscussionabouttheModelAssumptions关于模型假定条件的讨论(模型的适宜性评价)CollegeofManagementSimpleLinearRegressionAnalysis简单线性回归分析•TheScatterDiagram散点图SimpleLinearRegressionModel简单线性回归模型TheLeastSquaresMethod最小二乘法TestingforSignificance显著性检验•HypothesisTestandIntervalEstimationofRegressionParameters回归参数的假设检验和区间估计Prediction预测ResidualAnalysis残差分析CollegeofManagement变量之间的关系:函数关系:确定性关系统计关系:非确定性关系,相关关系销售收入与广告费用身高与体重CollegeofManagement回归分析是研究一个因变量与一个或几个自变量之间相互关系的统计分析方法。回归分析研究的主要内容有:建立相关模型;检验变量之间的相关程度(检验相关模型的显著性);应用相关模型进行估计和预测等。CollegeofManagementTheSimpleLinearRegressionAnalysis简单线性回归分析设随机变量y与一个非随机变量x之间存在着某种相关关系。对于x的取定的一组不完全相同的值x1,x2,…xn,作独立试验得到n对观察结果(x1,y1),(x2,y2),…,(xn,yn)其中yi是x=xi处对随机变量y观察的结果。这n对观察结果就是一个容量为n的样本。CollegeofManagement将n对观察结果作为直角坐标平面上点的坐标,并将这些点画在直角坐标平面上,这样得到的图称为散点图。TheScatterDiagram散点图CollegeofManagementExample:CollegeofManagementCollegeofManagement各种相关关系正相关负相关非线性相关不相关CollegeofManagement一元线性回归模型y=a+bx+εyi=a+bxi+其中εi是服从N(0,σ2)分布的随机变量,a和b是未知参数,称为回归参数,a,b和σ2都不依赖于x一元线性回归方程其中是参数a和b的估计。SimpleLinearRegressionModel简单线性回归模型CollegeofManagement模型假定•随机误差项εi具有零均值和同方差E(εi)=0D(εi)=2,•随机误差项εi相互独立,不存在序列相关Cov(εi,εj)=0•随机误差项服从正态分布εi~N(0,σ2)•自变量是确定性变量•因变量与自变量之间存在显著的线性关系CollegeofManagement模型基本特征(1)由于yi=(a+bxi)+εi,其中(a+bxi)为常量项(不是随机变量),εi是随机变量,因此yi也是随机变量。(2)E(yi)=E(a+bxi+εi)=E(a+bxi)+E(εi)=a+bxi。(3)D(yi)=D(a+bxi+εi)=D(εi)=σ2。(4)因为Cov(εi,εj)=0,Cov(yi,yj)=0。(5)yi-E(yi)=yi-(a+bxi)=εi。以上特征表明,yi是一个随机变量,它来自于N(a+bxi,σ2)分布,对于不同的i,yi的均值随xi的不同而不同,但方差不随i变化(同方差假设)。CollegeofManagement我们称E(y)为随机变量y的理论值,yi为y的对应于xi的观察值,考虑:TheLeastSquaresMethod最小二乘法CollegeofManagementa和b的最小二乘估计就是使Q达到最小的a和b,记为,即方程的解,上述方程称为正规方程组。CollegeofManagement解方程组,得到参数a,b的最小二乘估计:其中由此得到回归方程CollegeofManagement回归参数的最小二乘估计具有如下的统计特性:(1)线性性:和都是yi的线性组合;(2)无偏性:E()=a,E()=b;(3)方差最小性:a和b的最小二乘估计、分别是a、b的所有线性无偏估计量中方差最小的。CollegeofManagementEstimationofσ2σ2的估计总偏差平方和的自由度为n-1,误差平方和的自由度为n-2,回归平方和的自由度为1,总偏差平方和的分解:ST=SE+SR。CollegeofManagement平均误差平方和平均回归平方和σ2的一个无偏估计^CollegeofManagementCoefficientofDetermination判定系数γ2是可通过x与y的相关关系解释的偏差占总偏差的比重0≤γ2≤1,γ2越大拟合程度越高,γ2=1时,无偏差地拟合了yi;γ2越小,拟合程度越低γ2=0时,对yi没有拟合能力。CollegeofManagementCorrelationCoefficient相关系数相关系数γ不但反映了y和x之间的线性相关密切程度,而且反映了y和x之间的相关方向。γ0,y和x之间呈一定程度的正相关关系;γ0,y和x之间呈一定程度的负相关关系。同时,γ与同号。niniiiniiiyyxxyyxx112212)()())((或bˆCollegeofManagementF检验法:采用的统计量为。当为真时,F~F(1,n-2)。对于给定的显著性水平a,若FFa(1,n-2),则应拒绝H0,即认为线性回归效果显著;若FFa(1,n-2),则接受H0,认为线性回归效果不显著。TestingforSignificance回归效果的显著性检验CollegeofManagement方差分析表(ANOVATable)误差来源自由度平方和S均方和MSF回归R1SRMSRMSR/MSE误差En-2SEMSE总和Tn-1STCollegeofManagementt检验法:若采用统计量,其中,则当H0:b=0为真时,t~t(n-2)。对于给定的显著性水平a,时,拒绝时,接受H0。CollegeofManagement(1)回归系数b的假设检验:已知对于b的最小二乘估计,其中。检验假设H0:b=0,H1:b≠0的检验统计量为。对于给定的显著性水平a,如果,则拒绝原假设;否则接受原假设。HypothesisTestandIntervalEstimationofRegressionParameters回归参数的假设检验和区间估计CollegeofManagement(2)回归参数a的置信区间:回归参数a的置信度为100(1-a)%的置信区间为:回归参数b的置信度为100(1-a)%的置信区间为:CollegeofManagement多数统计软件在做线性回归分析时,会同时给出的值,我们一般把分析结果记为:CollegeofManagementPrediction预测对于任一给定的x=x0,y0的点估计可由回归方程计算:。大样本时,y0的置信度为100(1-a)%的置信区间为:CollegeofManagement小样本时,y0的置信度为100(1-a)%的置信区间为:CollegeofManagementResidualAnalysis残差分析目的检验线性评价违反假设程度残差的图分析标准化残差CollegeofManagementResidualAnalysisforLinearity线性的残差分析非线性线性XeeXCollegeofManagement多元线性回归分析是研究一个因变量y与多个自变量x1,x2,…,xp之间相关关系的统计分析方法。设我们对于x1,x2,…,xp的取定的n组不完全相同的值,作独立试验得到n组观察结果(x1i,x2i,…,xpi,yi),i=1,2,…,n其中,yi是在(x1i,x2i,…xpi)处对随机变量y观察的结果。这组结果就是一个容量为n的样本。TheMultipleLinierRegressionAnalysis多元线性回归分析CollegeofManagement多元线性回归模型:yi=b0+b1x1i+…+bpxpi+εi,i=1,2,…,n,其中yi是因变量的第i个观察值,xji是第j个自变量的第i个取值,b0,b1,…,bp是回归参数,εi是随机变量。CollegeofManagement(1)随机误差项εi具有零均值和同方差,即E(εi)=0,i=1,2,…,n,D(εi)=σ2,i=1,2,…,n。(2)随机误差项在不同样本点之间是相互独立的,不存在序列关系,即Cov(εi,εj)=0,i≠j,i,j=1,2,…,n。ModelAssumptions模型假定CollegeofManagement(3)随机误差项εi应服从正态分布,即εi~N(0,σ2).(4)自变量x1,x2,…,xp是确定性变量,且它们之间是不相关的。(5)因变量与自变量x1,x2,…,xp之间存在着显著的线性相关关系,即模型是线性的。CollegeofManagement由这些假设知,可将模型写成如下的矩阵形式:可简记为:Y=Xb+εCollegeofManagement这时ε表示为矩阵形式,即:ε~N(0,σ2In)。其中N(0,σ2In)代表均值向量为0,方差与协方差矩阵为σ2In的n维正态随机向量的分布。CollegeofManagement与简单线性回归参数的最小二乘估计类似,多元线性回归参数的最小二乘估计是使达到最小的,即TheLeastSquaresMethod最小二乘法CollegeofManagement正规方程组为:由此解得多元线性回归模型的最小二乘估计为与简单线性回归参数的最小二乘估计类似,多元线性回归参数也具有线性性,无偏性,以及最小方差性等统计特性。CollegeofManagement的估计,复可决系数总偏差平方和,自由度是n-1;误差平方和自由度为n-p-1回归平方和,自由度为p。CollegeofManagement总偏差平方和:ST=SE+ST。平均误差平方和:MSE=SE/n-p-1平均回归平方和:MSR=SR/p。CollegeofManagement复可决系数是可以用y与x1,…,xp的相关关系解释的偏差占总偏差的比重,反映了由于使用回归方程预测yi而使总偏差平方和减少的程度。很明显,,且R2接近于1,说明线性拟合程度越高;特别是R2=1时,越接近于0,线性拟合程度越低,特别是R2=0时,没有拟和能力.CollegeofManagement修正的复可决系数反映模型拟合程度时,有时比复可决系数更合理些的定义是:CollegeofManagement(1)全检验(F检验):需要检验的假设是:H0:b1=b2=…=bp=0,H1:b1,…,bp不全为零若拒绝H0,即认为b1,…,bp中至少有一个不为零,说明线性回归模型有意义,否则,认为b1,…,bp全为零,即y与x1,…,xp之间不存在显著线性相关关系,说明线性回归模型无意义,这个检验称为全检验。TestingforSignificance显著性检验CollegeofManagement检验上述假设的统计量。当H0为真时,F~F(p,n-p-1)。对于给定的显著性水平a,若FFa(p,n-p-1),则应拒绝H0,即认为线性回归效果显著;若FFa(p,n-p-1),则接受H0,认为线性回归效果不显著。CollegeofManagement误差来源自由度平方和S均方和MSF回归RpSRMSRMSR/MSE误差En-p-1SEMSE总和Tn-1ST方差分析表Col

1 / 72
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功