3 虚拟变量与方差分析

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

营销研究方法----数量分析方法周影辉博士zyhmaths@163.com中山大学管理学院市场学系1问题引入•例6.•在表2-7给出了一些女性曾生子女数的数据,同时也给出了她们的年龄,受教育程度和居住地。•如果我们想知道女性的年龄(AGE),文化程度(EDU,5个级别)及居住地(AREA,城市和农村)对其曾生子女数的影响,怎样建模?关键是文化程度和居住地2表2-7CEBAGEEDUAREA1203112242224321255112851……3•社会科学研究中,有许多分类变量,如民族,文化程度,性别,公司类型,品牌等•它们也可以被包含在线性回归模型中,用以解释因变量的变化•在将它们引入回归模型之前,必须先将它们转化为虚拟变量(哑变量)。为什么?4•因为分类变量的各类根本没有定量关系,不能像间距变量的情形那样,分析变化一个单位时,的平均变化•如男(0)-----女(1)•但我们可以以类为单位,分析各类对的影响5xyy虚拟变量的建立•设是有个分类的分类变量,在数据处理时以不同编码值代表案例所属的类型•用个取值为0和1的虚拟(dummy)变量分别代表各个类的属性•当案例属于一个虚拟变量所代表的类时,这个虚拟变量就取1,否则取0•分类变量:有问题吗?6xkkxkDDDk2121•这个虚拟变量线性相关,违背了最小二乘回归的条件。怎样解决?•取消一个虚拟变量,即对有个分类的变量用个虚拟变量编码。有没有信息损失,为什么?•称不设虚拟变量明确表示的类为参照类7kk1k•例6.(续)•文化程度(EDU)有5类,分别为(1)文盲或半文盲(2)小学(3)初中(4)高中(5)大学•5类需4个虚拟变量,取(1)为参照类,则虚拟变量取值规则如下80,13EDU0,12EDU01EDU32iiiDEDEDEDEDE其他其他所有,4,3,2,1,iDEi•地区(AREA)有两类,分别为(1)城市和(2)农村,只用一个虚拟变量DU就可以了。取农村为参照类,编码规则为•根据原变量值建立虚拟变量的工作可以用SPSS数据转换功能来完成•SPSSShow!902,11DUAREADUAREA•用表2-7的数据建立如下回归方程•回归结果如下•方程的为0.96,各变量的回归系数均在0.05水平显著10DUbDEbDEbDEbDEbAGEbbBEC65544332210ˆ)41(DUDEDEDEDEAGEBEC49.057.158.131.113.1068.041.1ˆ)42(54322R虚拟变量回归系数的意义•当两个分类变量都属于参照类时,所有虚拟变量都取值0,回归方程(41)可以简化为•上式为参照类女性的曾生子女数对年龄的回归直线,为直线的截距,为直线的斜率(表示?)11AGEbbBEC10ˆ)43(1b0b•当受教育程度为小学,居住地为农村时,方程为•(44)是(43)的平行线,但截距增加了,因此是小学文化程度女性比文盲半文盲女性在相同的年龄和居住地条件下曾生子女数多的部分12210ˆ)44(bAGEbbBEC2b2b•表示各类别的虚拟变量的回归系数表示该类别与参照类均值之差,因此它又称为差别截距•回归方程(42)各系数的解释?13jb•如何衡量各个变量(组)作用的大小?•用偏确定系数。分别做不含有(作为一组,代表EDU),AGE和DU的线性回归,然后根据(23)式,可得表2-8145432,,,DEDEDEDE表2-815)(498.0087.0913.0,)(701.0147.0853.0,)(749.0174.0826.0,956.0,,1222AREAEDUAGEEDUDUAGEAGEDUEDUDUEDUAGERRR偏方程所含变量•如果只关心AGE和AREA对CEB的影响,我们可以做CEB对AGE和AREA的回归•为什么不建立两个线性回归模型,分别对城乡女性拟合她们曾生子女数与其年龄的回归直线?•分别估计和用虚拟变量回归将他们合并一起估计有何差别?16•多元回归比简单回归的优越性:只有将各方面的变量放在同一模型中,才能在控制其他自变量的情况下对各自自变量的边际作用进行考察和检验•统计控制17与单因素方差分析的关系•如果一个回归分析中只有虚拟变量,并且这些虚拟变量都代表某一个原变量的不同类别,那么这一回归的整体检验等价于单因素方差分析(one-wayanalysisofvariance,1-wayANOVA)•如只纳入代表EDU的四个虚拟变量的回归回归方程的显著性检验F=10.079•SPSSShow!方差分析v.s.回归分析185432383.25.25.15.4ˆDEDEDEDEBEC•在只有一方面的虚拟变量的回归方程中,由于没有其他变量,各回归系数的表现十分单纯,回归常数项就是参照类案例的平均值•本例中即为两个文盲、半文盲案例的CEB值4和5的平均值•其他教育水平类的平均值则通过参照类平均值加上相应差值来表现,如大学……•这一方程完美再现了样本按教育程度分类的类平均值190by5.40bjb与双因素方差分析的关系•如果一个回归分析中只有两个因素形成的虚拟变量,那么这一回归分析等价于双因素方差分析(2-wayANOVA)•如例6中将代表教育程度和城乡的所有虚拟变量纳入回归中•严格来说,它是只考虑了主效应的双因素方差分析,它没有考虑教育程度和城乡两个因素之间的交互作用(Interaction)•如何在回归中纳入交互作用呢?20•交互作用用两个因素的各项虚拟变量相乘得到•如例6中,EDU与AREA的交互作用为•SPSSShow---Howtogettheseinteractionterms?方差分析v.s.回归分析?21DUDEDUDEii•含交互作用的回归方程为•将交互作用包含在内的饱和双因素方差模型,能够完美再现各交互分类的组平均值•常数项仍然是参照类的平均值,这时的参照类是交互参照类,即两个因素的所有虚拟变量都取0时的类•本例中的交互参照类为农村文盲半文盲女性,样本中这一类只有一例,其平均值直接为这一例的CEB值22DUDEDUDEDUDEDUDEDUDEDEDEDEBEC5432543233.05.10.01135.35.225ˆ•其他交互类的平均值也可以由上述回归方程计算出来•对于城市小学水平的女性,有其他所有代表主效应和交互效应的虚拟变量的值都为0,算得该交互类的平均值为•2311,122DUDEDUDE和31125ˆ22DUDEDUDEBEC•在交互效应比较小,或者出于简化模型的目的,在模型中不考虑交互项•例6的双因素分析的简化模型为•常数项仍为参照类的CEB平均值的估计,由于没有考虑交互项的影响,估计出现了误差(4.73v.s.5),但同样可以通过其他各系数计算任一交互类的估计值•城市小学水平出现了偏差24DUDEDEDEDEBEC47.088.291.25.258.173.4ˆ543268.247.058.173.4ˆ2DUDEBEC•由于没有考虑交互作用,各交互类的估计就会出现估计误差,这是简化的代价•但是回归分析对所有案例估计误差之和等于0。为什么?25•考虑了所有交互作用的模型称为饱和模型•当有K个因素时,饱和模型中不仅有二阶交互项,而且还有三阶,四阶直至K阶所有因素组合的各阶交互项。•当因素很多时,一般不再采用虚拟变量回归,而是直接用SPSS中的方差分析来做26协方差分析•如果一个回归分析中不仅有虚拟变量,而且还有其他间距测度变量,那么这一回归等价于协方差分析(AnalysisofCovariance,ANCOVA)。间距测度变量在协方差分析中称为协变量(Covariate)•例6中,AGE是间距测度变量,和是虚拟变量275432,,,DEDEDEDEDU•模型(41)中没有考虑因素之间的交互效应•由于控制了(引入了)协变量AGE,使得所有类别平均值中都不含有年龄的影响,常数项成了抽象的无年龄的“农村文盲、半文盲女性”的平均生育数(为什么)•CEB被分解为AGE,EDU和AREA三个独立因素的影响(认为交互效应为0)28•多元回归中的控制,就是通过统计方法将所有案例中这三个方面的影响剥离开,而常数项是剥离以后参照组的平均生育水平•控制年龄后,参照组的平均生育水平降低了很多。现实中不存在没有年龄的女性,所以在估计一个女性的生育水平时,必须给定一个年龄。年龄的边际贡献和实际贡献在这个例子中都很大29•在这个例子中,年龄只是一个控制变量,不是分析的焦点。通常我们关注的是社会科学中的抽象变量(生育,教育,城乡)之间的关系和差异•选择不同的参照类对结果是否有影响?那些结果受影响,那些不受影响?30含虚拟变量的回归分析的检验•在回归分析中采用虚拟变量,无论是对整个模型的显著性检验(F检验),还是对回归系数的显著性检验(t检验),与一般回归分析完全一样•对于虚拟变量,由于取值只能是0和1,所以检验的只是该变量取值为1的类别的平均值是否与参照类的平均值有显著差别31•在其他条件相同的情况下,如何对同一因素的不同类进行比较?如小学和大学•其他条件相同的情况下,同一因素不同类的平均值之差为。相应的假设检验为•检验统计量为(服从)32jibbjijiBBHBBH::10)()(jibbjisbbt1knt小结•在因素数目较少,各因素的类别较少且可以忽略交互效应时,较适宜用回归方法进行方差分析•回归方法同时解决了方差分析,计算各类平均值与参照类平均值之差,并对其显著性进行了检验•但在因素数目较多,类别较多,而且不能忽略交互效应时,直接用SPSS的方差分析模块比较方便,它不需建立虚拟变量,还可以按照用户要求规定各阶交互项33其他分类变量编码方法•用于事后比较(即根据抽样调查的观测数据来进行分析)的编码:虚拟编码和效应编码•用于事先设计好的比较方案(即观测数据是通过可控制的试验研究取得的)的编码:正交编码和非正交编码34•效应编码反映各类与总平均值之间的差距•一个分类变量如果包括k类,则需要k-1个效应变量。•习惯选第一类或最后一类不设立单独变量,他们可通过其他效应变量表示35•用分别表示文盲半文盲,小学,初中和高中,不对“大学”单独设立效应变量,对教育水平的效应编码如下364321,,,EEEEEEEE1)(50,1)(20,1)(121iiiEEEDUEEEEEDUEEEEEDU所有大学其他小学其他文盲•效应编码赋值规则如下:•对于k-1个效应变量,当案例属于该效应变量代表的类别时,效应变量赋值1;当案例不属于该效应变量代表的类别时,效应变量赋值0•当案例属于不设立效应变量的一类时,所有效应变量赋值为-137•对于“大学”为不设立效应变量的类,CEB对教育因素效应变量的回归方程为•回归方程的显著性检验F=10.079,与采用虚拟编码的回归方程一致•系数的解释?•各类平均值与采用虚拟编码的结果是否一致?38432187.053.047.097.153.2ˆEEEEEEEEBEC•无论用虚拟编码还是效应编码,无论选哪个类为参照类或不设立独立效应变量,对应模型的和回归模型的F检验是完全相同的•只不过各个系数的解释不一样•数学推导说明虚拟编码和效应编码的意义392R作业21.对于例6中提供的背景和表2-7中给出的数据,采用效应变量完成简化的(无交互效应)和饱和的(含交互效应)的双因素方差分析模型分析,并解释的意义注:取“EDU=5”和“AREA=2”分别为不设立效应变量的类,用分别表示文盲半文盲,小学,初中和高中的效应4010,bb4321,,,EEEEEEEE2.在第1题的基础上,完成双因素和加上间距测度变量AGE的协方差分析(不考虑因素的交互效应)3.在第1和第2题的基础上,从拟合优度,回归模型的显著性检验,类平均值(只考虑小学文化程度的城市女性)的角度与采用虚拟变量的回归模型的结果进行比较41

1 / 41
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功