应用回归分析AppliedRegressionAnalysis•2017.09本课程授课与考核方式学科总成绩平时成绩(20%)课堂考勤(50%)平时作业(50%)阶段考核(30%)实践考核(40%)期中考试(60%)期末成绩(50%)实践考核(40%)笔试(60%)讲授为主,结合习题作业、上机作业第1章回归分析概述第2章一元线性回归第3章多元线性回归第4章违背基本假定的情况第5章自变量选择与逐步回归第6章多重共线性的情形及其处理第7章岭回归第8章主成分回归与偏最小二乘第9章非线性回归第10章含定性变量的回归模型目录Contents01回归分析概述ChapterIntroduction:RegressionAnalysis1.1变量间的统计关系1.2回归方程与回归名称的由来1.3回归分析的主要内容及其一般模型1.4建立实际问题回归模型的过程1.5回归分析应用与发展述评本章主要内容:回归分析处理的是变量与变量间的关系用完全确切的函数形式表示不能用完全确切的函数形式表示,但在平均意义下有一定的定量关系表达式变量之间的关系确定性关系不确定性关系或:相关关系即:函数关系1.1变量间的统计关系1.函数关系(确定性关系)商品的销售额y与销售量x之间的关系y=px圆的面积与半径之间的关系S=R2原材料消耗额y与产量(x1)、单位产量消耗(x2)、原材料价格(x3)之间的关系y=x1x2x3线性关系)x(fy=),,,(21pxxxfy1.1变量间的统计关系图1.1函数关系图y=1000x01000200030004000500060000123456x(万辆)y(万元)这说明:变量x与y之间存在确定性关系【例】保险公司承保汽车,每辆汽车保费收入1000元,设承保总收入为y,承保汽车辆数为x:1.1变量间的统计关系商品的消费量(y)与居民收入(x)之间的关系(楼房、汽车等)商品销售额(y)与广告费支出(x)之间的关系粮食亩产量(y)与施肥量(x)之间的关系2.相关关系(变量间有密切关系,但不能用完全确定的函数形式表示)消费习惯、价格高低、对其他商品的喜好等消费习惯、价格高低、对该商品的喜好等降雨量、田间管理、自然灾害等1.1变量间的统计关系图1.2y与x非确定性关系图xy特点:各对应点并不完全落在直线上!y与x的关系不能完全确定的函数形式给出在推断统计中,我们把上述变量间具有密切关联而又不能由某一个或某一些变量唯一确定另外一个变量的关系,称为变量间的统计关系或相关关系。对变量间统计依赖关系的考察主要是通过相关分析(correlationanalysis)回归分析(regressionanalysis)来完成的。正相关线性相关不相关相关系数:统计依赖关系负相关11XY有因果关系回归分析正相关无因果关系相关分析非线性相关不相关负相关Correlationanalysis主要研究变量间线性相关的密切程度,Regressionanalysis不仅可以揭示变量x对变量y的影响大小,还可以利用回归方程进行预测和控制!注意Attention①不线性相关并不意味着不相关。②有相关关系并不意味着一定有因果关系。③Correlationanalysis对称地对待任何(两个)变量,两个变量都被看作是随机的。Regressionanalysis对变量的处理方法存在不对称性,即区分因变量(被解释变量)是随机变量和自变量(解释变量)是非随机的确定变量。1.2回归方程与回归名称的由来英国统计学家F.Galton和他的学生、现代统计学的奠基者之一K.Pearson在研究父母身高与其子女身高的遗传问题时,观察了1078对夫妇,xy516.073.33ˆ成年儿子身高父母平均身高Francis.Galton(1822-1911)Karl.Pearson(1856—1936)当给定x的值,y作为随机变量,它的取值不能确定,只能通过一定的概率分布来描述。)()()(nnyxyxyx,,....,,,,2211利用样本观测值建立函数关系。将样本观测点描绘在直角坐标系中,根据样本点的分布特点,确定大致的函数关系:理论回归方程经验线性回归方程给定x时y的条件期望)x|y(E)x(f=(1.1)xβα)x|y(E+=(1.2)xy(1.3)回归常数回归系数α回归分析的一般形式:ε)x,x,x(fyp+=21,随机误差项主要包括下列因素:在解释变量中被忽略的因素的影响;变量观测值的观测误差的影响;模型关系的设定误差的影响;其他随机因素的影响。回归函数y=β0+β1x1+β2x2+…+βpxp+ε随机误差线性回归模型应满足以下基本假设:自变量是非随机变量,它们的观测值是常数。pxxx,...,,21ipiixxx,...,,21等方差及不相关的假定条件:njijijiniEjii,,2,1,,0,),cov(,,2,1,0)(2相互独立niN,...,,),0(~212正态分布的假定条件:方差相等随机变量不相关样本量的个数要多于解释变量的个数,即pnGauss-Markov条件1.4建立实际问题回归模型的过程收集整理数据经济因素分析经济变量控制经济决策预测实际问题构造理论模型估计模型参数模型运用Y修改N设置指标变量模型检验样本散点图的形状时间序列数据&横截面数据t检验F检验最小二乘估计最大似然估计01020304ADDYOURTITLEHEREADDYOURTITLEHEREADDYOURTITLEHEREADDYOURTITLEHERE