第10章10.1回归分析概述10.2一元线性回归10.3多元线性回归10.4引入虚拟变量进行回归3为确定变量之间的联系,用一些变量的变化说明另一个变量的变化,并进一步对另一个变量的取值进行预测,这就是回归分析。回归分析研究的是变量之间的相互关系,但这种关系不仅是相关关系,而且是因果关系。因此回归分析要明确区分因变量与自变量。如年龄对收入的影响。因变量(dependentvariable):要说明其变化的、对其进行预测的变量。自变量(independentvariable):用以说明或预测因变量的变量01122kkybbxbxbxe回归模型一元回归非线性线性多元回归非线性线性6两个定距变量的回归是用函数y=f(x)来分析的。我们最常用的是一元回归方程y=a+bx。其中x为自变量,y为因变量,a为截距,b为回归系数。常量:a为x等于零时,y的平均估计量。回归部分:它刻画因变量y的取值中,由因变量y与自变量x的线性关系所决定的部分,即可以直接由x估计的部分。b为回归系数,也是回归线的斜率。残差:估计值ŷ和每一个实测值之间的差称为残差。残差表示因变量y除了自变量x以外的其他所有未进入模型或未知但可能与y有关的随机和非随机因素共同引起的变异,即不能由x估计的部分。最小二乘原理即残差的平方和最小。第一步:考察因变量的正态性。例:根据数据“儿童.sav”,建立回归模型,考察儿童对电视的接触时间与儿童的知识量之间是否有因果关系。第二步:考察因变量与自变量的线性关系。添加回归趋势线的方法:双击图形,进入图表编辑窗口下的Elements——FitLineatTotal选中Linear第三步:进行回归分析。因变量自变量Pearson相关系数回归方程的确定系数R2:表示自变量能解释因变量变化的46.8%。进入模型的自变量确定系数R2是测定回归直线拟合优度的重要指标。总变差(TSS)是估计时所产生的误差平方和回归变差(RSS)是和之间产生的变差平方和。剩余变差是和之间产生的变差平方和。yy2()TSSyy^yy^2()RSSyyy^y^2()ESSyyTSS=RSS+ESS21RSSESSRTSSTSS对回归模型的显著性检验回归平方和RSS残差平方和ESS如果p值小于0.05,说明R2在统计上是显著的,即有足够的把握认为总体的回归斜率不为0。通常只关心回归方程的斜率在统计上是不是显著的,而不关心截距的值以及它的显著性水平。主要因为:斜率b不仅表达了线性关系的方向,也表达了线性关系的强度,这也是对解释因变量最有用的信息。截距a对解释因变量y的变化起不到任何作用。从实际应用的角度来说,截距是在x=0时y的取值,这是一种特殊的情况,一般不加以考虑。截距a只表示直线在坐标平面中的起点,如果把所有回归系数都进行标准化,这时直线是过原点的,即截距为0。所以,通常不关心截距a的值是否显著。即使不显著,也保留在方程中。回归系数如果p值小于0.05,说明该自变量的回归系数在统计上是显著的,即有足够的把握认为b不为0。常数项即a自变量的回归系数即b建立回归方程:y=1.935+0.021x其中y表示儿童的知识量评分x表示儿童接触电视的时间。15将一元线性回归进行推广,引入多个自变量,以利用更多的信息来解释因变量的变化,即可得多元线性回归方程01122kkybbxbxbxeb0,b1,b2,,bk是参数,称为偏回归系数bi表示假定其他变量不变,当xi每变动一个单位时,y的平均平均变动值e是被称为误差项的随机变量,说明了包含在y里面但不能被k个自变量的线性关系所解释的变异性y是x1,,x2,,xk的线性函数加上误差项e例:某面向年轻人制作肖像的公司计划在国内开设几家分店,收集了目前已设分店的销售数据(y,万元)以及分店所在城市的16岁以下人数(X1,万人)、人均可支配收入(X2,万元)数据见“销售收入.sav”,试建立多元线性回归模型。第一步:考察因变量与自变量的线性关系从散点图矩阵可以看出,销售收入与年轻人人数、人均可支配收入呈线性关系。第二步:考察因变量的正态性在因变量的正态性不理想的情况下,回归方程可以体现因变量与自变量的因果关系,不能用于预测因变量。第三步:根据设想建立回归方程:y=b0+b1×·x1+b2×x2进行多元回归,回归——线性选入回归方程中的自变量选入回归方程中的因变量本例采用强制纳入回归模型的方法。多元回归常使用调整的确定系数R2:此时说明x1和x2两个自变量能共同解释90.7%的因变量的变化。对回归模型的显著性检验如果p值小于0.05,说明至少一个自变量的回归系数不为0,所建立的回归模型有统计意义。回归系数如果p值小于0.05,说明该自变量的回归系数在统计上是显著的,即有足够的把握认为b不为0。自变量的回归系数建立回归方程:y=-6.886+1.455x1+0.009x2标准化回归系数表明年轻人人数对销售收入的影响更大。强制回归法:所有自变量强制纳入回归模型向前回归法:将自变量按顺序选入回归模型。首先选入的是与因变量有最大相关性的自变量,同时必须满足选入条件,然后再考虑下一个自变量。向后回归法:与向前法相反。首先将所有变量纳入模型,然后按顺序移除,最先移除的是与因变量相关性最小的自变量,直至方程中没有满足移除条件的变量。逐步回归法:将向前回归与向后回归结合起来。每向模型引入一个新变量,均要考察原来在模型中的自变量是否还有统计意义,是否可以被剔除。较合理。移除法:建立回归模型前设立条件,根据条件删除自变量。25以上所列回归分析,其因变量和自变量都为定距变量或定比变量,即数量型的变量;而在社会科学的研究中,会大量地涉及到名义型的变量即定类变量。如性别、职业、学历等;对于定类变量,可以引入虚拟变量来进行回归分析。虚拟变量都是0、1变量,1代表属于该类别,即“是”;0代表不属于该类别,即“否”。0、1变量的均值含义为属于该类别的样本占总样本的比例,因此可以进行回归。当定类变量有k个类型时,需设置k-1个虚拟变量。剩下的1个为参照类。当k-1个虚拟变量都取值为0时,该样本就属于参照类。例:将数据“社团.sav”中的sex、grade转换为虚拟变量。原变量编码值代表的类别虚拟变量的赋值sex=1男(参照类)sex=2女xusex=1,else=0grade=1本科新生(参照类)grade=2其他高年级本科生xugrade1=1,else=0grade=3硕士研究生xugrade2=1,else=0grade=4博士研究生xugrade3=1,else=0用recode命令建立新的虚拟变量。转换后,增加了4个虚拟变量以参加社团活动的时间为因变量,以新建的四个虚拟变量为自变量,进行回归分析。设想的回归方程为:time=b0+b1·xusex+b2·xugrade1+b3·xugrade2+b4·xugrade3四个虚拟变量全部纳入回归方程调整的确定系数R2:四个虚拟变量共同解释了93.9%的因变量变化。对回归模型的显著性检验说明:回归方程的参数在总总体水平上是显著的,即有足够的把握认为总体的回归斜率不为0。建立回归方程:Time=23.87-1.63xusex-1.96xugrade1-17.35xugrade2-18.77xugrade3自变量的回归系数p值小于0.05,说明该自变量的回归系数在统计上是显著的,即有足够的把握认为b不为0。ExcludedVariablesd-.387a-6.780.000-.476.980.326a5.193.000.383.894-.814a-35.731.000-.944.869-.086b-3.790.000-.290.814-.084b-3.392.001-.262.683-.088c-3.686.000-.284.682是否为女生是否为高年级本科生是否为硕士研究生是否为女生是否为高年级本科生是否为高年级本科生Model123BetaIntSig.PartialCorrelationToleranceCollinearityStatisticsPredictorsintheModel:(Constant),是否为博士研究生a.PredictorsintheModel:(Constant),是否为博士研究生,是否为硕士研究生b.PredictorsintheModel:(Constant),是否为博士研究生,是否为硕士研究生,是否为女生c.DependentVariable:参与社团活动的时间d.所有自变量的p值均小于0.05,因此没有剔除自变量,全部纳入回归方程。回归方程的含义:Time=23.87-1.63xusex-1.96xugrade1-17.35xugrade2-18.77xugrade3就性别而言,男生是参照类女生比男生每周参加社团活动的时间少1.63小时;就年级而言,大一新生是参照类其他高年级本科生比大一新生每周参加社团活动的时间少1.96小时;硕士研究生比大一新生少17.35小时;博士研究生比大一新生少18.77小时。1、针对数据“千人成本.sav”建立回归方程,分析电视机拥有率对千人成本的影响。2、针对数据“人均食品支出.sav”建立回归方程,分析影响人均食品支出的主要因素。3、针对数据“公司改革.sav”建立回归方程,分析影响公司改革进度的主要因素。