第八章(虚拟变量回归).

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

计量经济学Econometrics2014-2015-1任课教师:范国斌第八章虚拟变量回归很多研究认为,影响商品房价格的因素有多个方面,例如:1.成本费用因素:包括土地、建筑物建造成本、其他费用;2.房地产供求因素:包括住房需求量、房地产开发量等;3.经济因素:包括宏观经济状况、物价状况、居民收入状况等;4.人口因素:包括人口密度、家庭结构等;5.社会因素:包括社会治安、城市化水平、消费心理等;6.行政(政策)因素:包括土地与住房制度、房地产价格政策等;7.区域因素:包括所处地段的市政基础设施、交通状况等;8.个别因素:包括朝向、结构、材料、功能设计、施工质量等;9.房地产投机因素:投机者在房地产市场中的投机活动;10.自然因素:包括自然环境、地质、地形、地势及气候等。(资料来源:徐静;武乐杰,房地产价格影响因素的解释结构模型分析,金融经济,2009年10期)2引子1影响房地产价格的复杂因素3在影响房地产价格的众多因素中,有定量的因素:成本因素、房地产供求因素、经济因素、人口因素等;也有定性的因素:社会因素、行政因素、区位因素、个别因素、投机因素、自然因素等。在研究房地产价格影响机理时,需要分析那些不易量化的定性因素对房地产价格是否真的有显著影响。能否把定性的因素也引入计量经济模型中呢?怎样才能在模型中有效地表示这些定性因素的作用呢?引子2男女大学生的消费真的有差异吗?当代大学生在消费结构呈现出多元化趋势。大学生除了日常生活费开支以外,还有人际交往、网络通讯、书报、衣着、化妆品、电脑、旅游、食品、学习用品、各种考证等消费。不同性别大学生的消费结构有所不同,专科生、本科生、研究生的消费结构更有差异。不同年级之间,男女同学之间,消费水平、消费结构、消费方式上都存在着差异。(注:来源于新华网等:共青团中央、全国学联共同发布的《2004中国大学生消费与生活形态研究报告》)为了研究男女大学生、不同层次大学生、不同年级大学生的消费结构是否有差异,需要将这些定性的因素引入计量模型,怎样才能在模型中有效地表示这类定性因素的作用呢?4第一节虚拟变量一、什么是虚拟变量5数量变量与属性变量可用数量表现的连续变量只表明属性的不连续变量属性变量:不能精确计量的说明某种属性或状态的定性变量,如性别、民族、战争、政治事件◆本身是定性的二分类变量(非此即彼)◆本来是连续变量也可转换为定性变量(如上线/不上线)虚拟变量:人工构造的取值为0和1的作为属性变量代表的变量称虚拟变量,一般常用D(dummy)表示D=0表示某种属性或状态不出现或不存在D=1表示某种属性或状态出现或存在虚拟变量的作用●作为属性因素的代表,如性别●作为某些非精确计量的数量因素的代表,如受教育程度(高中及以下、专科、本科及以上)●作为某些偶然因素或政策因素的代表,如伊拉克战争、“911事件”、四川汶川大地震●时间序列分析中作为季节(月份)的代表●分段回归——研究斜率、截距的变动●比较两个回归模型的差异●虚拟被解释变量模型:被解释变量本身是定性变量6二、虚拟变量模型虚拟变量模型:包含有虚拟变量的模型称虚拟变量模型三种类型:1、解释变量中只包含虚拟变量作用:假定其他因素都不变,只研究某种定性因素在某定量变量上是否表现出显著差异2、解释变量中既含定量变量,又含虚拟变量作用:研究定量变量和虚拟变量同时对被解释变量的影响3、虚拟被解释变量模型:被解释变量本身取值为0或1作用:对某社会经济现象进行“是”与“否”判断研究(离散选择模型)7三、虚拟变量的设置规则1、虚拟变量取值虚拟变量D取值为0,还是取值为1,要根据研究的目的去决定D取值为0的类型—基础类型,作为比较的基准D取值为1的类型—与基础类型相比较的类型例如:D=0如果是女性(基础类型)D=1如果是男性(比较类型)D=0为“911事件”以前(基础类型)D=1为“911事件”以后(比较类型)D=0不是大学毕业生(基础类型)D=1是大学毕业生(比较类型)89虚拟变量的设置规则和取值均为0的类型—基础类型:是比较的基准,代表了基准组(西部地区)的截距或分别取值为1的类型—是与基础类型比较的类型01122iiiiiYDDXu和为差异截距系数102为东部地区为中部地区为其他为其他11D10D21D20D1D1D2D2D又如,研究东、中、西部地区收入X与消费支出Y的关系:0iiiYXu11D时01iiiYXu21D时02iiiYXu虚拟变量的设置原则虚拟变量的个数须按以下原则确定:每一定性变量所需的虚拟变量个数要比该定性变量的类别数少1,即如果有m个属性类别,只在模型中引入m-1个虚拟变量。011tD其他春季012tD其他夏季013tD其他秋季例子:已知冷饮的销售量Y除受k种定量变量Xk的影响外,还受春、夏、秋、冬四季变化的影响,要考察该四季的影响,只需引入三个虚拟变量即可:则冷饮销售量的模型为:在上述模型中,若再引入第四个虚拟变量ttttktkttDDDXXY332211110014tD其他冬季则冷饮销售模型变为:tttttktkttDDDDXXY44332211110其矩阵形式为:μαβD)(X,Y如果只取六个观测值,其中春季与夏季取了两次,秋、冬各取到一次观测值,则式中的:显然,(X,D)中的第1列可表示成后4列的线性组合,从而(X,D)不满秩,参数无法唯一求出。这就是所谓的“虚拟变量陷阱”,应避免。000110010110001010010010100011)(616515414313212111kkkkkkXXXXXXXXXXXXDX,k10β4321α使用虚拟变量需注意的问题虚拟变量陷阱:若定性变量有m个类别,则引入m个虚拟变量将会产生完全多重共线性问题,避免方法:只引入(m-1)个虚拟变量引入m个虚拟变量但去掉截距项哪种方法更好:包含截距项更方便,可以很容易地检验某个组与基准组之间是否存在显著差异以及差异程度。14(1)在有截距的模型中如果模型中每个定性因素有m个相互排斥的类型,模型中只能引入m-1个虚拟变量,否则会出现完全多重共线性例如:一个定性因素有三种类型,若设三个虚拟变量若;若,等等。显然此时,而截距对应的变量为1,再次生成了截距项,则导致了完全的多重共线性12310,0DDD则21310,0DDD则1231DDD0112233iiiiiiYDDDXu01231DDD2、避免落入“虚拟变量陷阱”15模型为此时虽然有,若,若,且,但因为没有截距项,不会出现完全的多重共线性。注意:此时等参数不再是差异截距系数,而分别是相应类型的截距。112233iiiiiiYDDDXu12310,0DDD则21310,0DDD则31210,0DDD则123,,1231,0,0DDD时1iiiYXu2131,0,0DDD时2iiiYXu3121,0,0DDD时3iiiYXu(2)若模型中无截距项1231DDD第二节虚拟解释变量回归定性变量作为解释变量,可以影响模型的截距,也可以影响模型的斜率,还可以同时影响截距和斜率只使截距变动只使斜率变动使截距与斜率都变动一、用虚拟变量表示不同截矩的回归——加法类型虚拟变量以加法方式引入模型的作用:改变模型中截距,可分为各种情况去设置虚拟变量16虚拟变量的引入iiiiXDXYE10)0,|(企业男职工的平均薪金为:iiiiXDXYE120)()1,|(企业职工薪金模型中性别虚拟变量的引入采取了加法方式。1、加法方式iiiiDXY210企业女职工的平均薪金为:在该模型中,如果仍假定E(i)=0,则几何意义:假定20,则两个函数有相同的斜率,但有不同的截距。意即,男女职工平均薪金对教龄的变化率是一样的,但两者的平均薪金水平相差2。可以通过传统的回归检验,对2的统计显著性进行检验,以判断企业男女职工的平均薪金水平是否有显著差异。年薪Y男职工女职工工龄X02又例:在横截面数据基础上,考虑个人保健支出对个人收入和教育水平的回归。教育水平考虑三个层次:高中以下,高中,大学及其以上011D其他高中012D其他大学及其以上模型可设定如下:iiiDDXY231210这时需要引入两个虚拟变量:在E(i)=0的初始假定下,高中以下、高中、大学及其以上教育水平下个人保健支出的函数:高中以下:iiiXDDXYE1021)0,0,|(高中:iiiXDDXYE12021)()0,1,|(大学及其以上:iiiXDDXYE13021)()1,0,|(假定32,其几何意义:大学教育保健高中教育支出低于中学教育收入还可将多个虚拟变量引入模型中以考察多种“定性”因素的影响。如在上述职工薪金的例中,再引入代表学历的虚拟变量D2:iiiDDXY231210012D本科及以上学历本科以下学历职工薪金的回归模型可设计为:•女职工本科以下学历的平均薪金:iiiXDDXYE13021)()1,0,|(•女职工本科以上学历的平均薪金:iiiXDDXYE132021)()1,1,|(iiiXDDXYE1021)0,0,|(iiiXDDXYE12021)()0,1,|(于是,不同性别、不同学历职工的平均薪金分别为:•男职工本科以下学历的平均薪金:•男职工本科以上学历的平均薪金:231.解释变量只有一个分为两种类型的定性变量无定量变量的回归这种模型又称方差分析模型其中:Y为公立学校教师工资,D=0为农村学校;D=1为城镇学校分析条件期望:基础类型:比较类型:为差异截距系数,通过对系数的t检验:可检验在其他因素不变的条件下,城乡教师的工资是否有显著差别iiiYDu(0)iEYD(1)iEYD232、解释变量包含一个定量变量和一个分为两种类型的定性变量的回归例如:Y为服装消费X为收入,D=0为男性D=1为女性分析条件期望:基础类型:比较类型:为差异截距系数对系数的t检验:可检验定性因素对截距是否有显著影响注意:●应服从基本假定●这里一个定性变量具有两种类型,只使用了一个虚拟变量(为什么?)iiiiuXDY10iiiXDXYE0)0,(iiiXDXYE)()1,(101iu1243、解释变量包含一个定量变量和一个两种以上类型的定性变量的回归类型:高中以下、高中毕业、大学毕业及以上——三种类型模型例如——年工资——工龄=1只是高中毕业=1大学毕业及以上=0其他=0其他基础类型:(高中以下)比较类型:(高中)(大学及以上)差异截距系数为和问题:如果还要区分“专科”“本科”、“硕士”、“博士”应怎么办?iiiXDDXYE021)0,0,(01122iiiiiYDDXu12iiiXDDXYE)()0,1,(1021iiiXDDXYE)()1,0,(2021iYiX1D1D2D2D25注意:●应服从基本假定●一个定性变量有三种类型,使用了两个虚拟变量,和代表的是同一个定性变量的两种不同类型●两个差异截距系数和表示的都是与基础类型的差异●一个定性变量有多种类型时,虚拟变量可同时取值为0,但不能同时取值为1,因同一定性变量的各类型间“非此即彼”2iu1D2D1264、解释变量包含一个定量变量和两个定性变量模型这里的和代表的是两个不同的定性变量,各分为

1 / 54
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功