1第7章含有定性信息的多元回归分析:二值(或虚拟)变量在前面几章中,我们的多元回归模型中的因变量和自变量都具有定量的含义。就像小时工资率、受教育年数、大学平均成绩、空气污染量、企业销售水平和被拘捕次数等。在每种情况下,变量的大小都传递了有用的信息。在经验研究中,我们还必须在回归模型中考虑定性因素。一个人的性别或种族、一个企业所属的产业(制造业、零售业等)和一个城市在美国所处的地理位置(南、北、西等)都可以被认为是定性因素。本章的绝大部分内容都在探讨定性自变量。我们在第7.1节介绍了描述定性信息之后,又在第7.2、7.3和7.4节中说明了,如何在多元回归模型中很容易地包含定性的解释变量。这几节几乎涵盖了定性自变量用于横截面数据回归分析的所有流行方法。我们在第7.5节讨论了定性因变量的一种特殊情况,即二值因变量。这种情形下的多元回归模型具有一个有趣的含义,并被称为线性概率模型。尽管有些计量经济学家对线性概率模型多有中伤,但其简洁性还是使之在许多经验研究中有用武之地。虽然我们在第7.5节将指出其缺陷,但在经验研究中,这些缺陷常常都是次要的。7.1对定性信息的描述定性信息通常以二值信息的形式出现:一个人是男还是女;一个人有还是没有一台个人计算机;一家企业向其一类特定的雇员提供还是不提供退休金方案;一个州实行或不实行死刑。在所有这些例子中,有关信息可通过定义一个二值变量(binaryvariable)或一个0-1变量来刻画。在计量经济学中,对二值变量最常见的称呼是虚拟变量(dummyvariable),尽管这个名称并不是特别形象。在定义一个虚拟变量时,我们必须决定赋予哪个事件的值为1和哪个事件的值为0。比如,在一项对个人工资决定的研究中,我们可能定义female为一个虚拟变量,并对女性取值1,而对男性取值0。这种情形中的变量名称就是取值1的事件。通过定义male在一个人为男性时取值1并在一个人为女性时取值0,也能刻画同样的信息。这两种情况都比使用gender更好,因为这个名称没有指出虚拟变量何时取值1:gender=1对应于男性还是女性?虽然怎样称呼变量对得到回归结果而言并不重要,但它总有助于选择那些使方程和阐述都更清晰的变量。表7.1WAGE1.RAW中的局部数据列表个人编号wageeducexperfemalemarried13.101121023.2412221133.001120046.008440155.301270152511.56165015263.5014510问题7.1假设在一项比较民主党和共和党候选人之间选举结果的研究中,你想标明每个候选人所在的党派。在这种情形中,名称party是二值变量的一个明智选择吗?更好的名称是什么?2假设我们在工资的例子中已选择了female来表示性别。此外,我们还定义了一个二值变量married,并在一个人已婚时取值1,而在其他情况下取值0。表7.1给出了可能得到的一个数据集的部分列表。我们看到,第1个人为女性并且未婚,第2个人为女性并且已婚,第3个人为男性并且未婚,等等。我们为什么要用数值0和1来描述定性信息呢?在某种意义上,这些值是任意的:用任意两个不同的数值都是一样的。使用0-1变量来刻画定性信息的真正好处,像我们将看到的那样,在于它导致回归模型中的参数有十分自然的解释。7.2只有一个虚拟自变量我们如何在回归模型中引入二值信息呢?在只有一个虚拟解释变量的最简单情形中,我们只在方程中增加一个虚拟变量作为自变量。比如,考虑如下决定小时工资的简单模型:.100ueducfemalewage(7.1)我们用0表示female的参数,以强调虚拟变量参数的含义;以后,无论如何,我们还是使用最方便的符号。在模型(7.1)中,只有两个被观测因素影响工资:性别和受教育水平。由于对女性female=1,而对男性female=0,所以参数0具有如下含义:给定同等受教育程度(和同样的误差项u),0是女性与男性之间在小时工资上的差异。因此,系数0决定了是否对女人存在歧视:如果00,那么在其他因素的相同水平下,女人总体上挣得要比男人少。用期望的术语来讲,如果我们假定了零条件均值假定E(ufemale,educ)=0,那么0=E(wagefemale=1,educ)E(wagefemale=0,educ).由于female=1对应于女性和female=0对应于男性,所以我们可以更简单地把这个模型写成0=E(wagefemale,educ)E(wagemale,educ).(7.2)这里的关键在于,在两个预期中,受教育水平是相同的;差值0只是由于性别所致。这种情况可以在图上描绘成男性与女性之间的截距迁移(interceptshift)。在图7.1中,给出了00的情形,从而男人比女人每小时都多挣一个固定的数量。这个差距与受教育水平无关,这就解释了为什么女人和男人的工资-受教育变化关系是平行的。图7.1.100ueducfemalewage在00情况下的图示3这里,你可能想知道为什么我们没有在(7.1)中还包括一个虚拟变量male,它对男性取值1和对女性取值0。原因在于,这样做是多余的。在(7.1)中,男性线的截距是0,女性线的截距是0+0。由于只有两组数据,所以我们只需要两个不同的截距。这意味着,除了0之外,我们只需要一个虚拟变量;我们已经选择了针对女性的虚拟变量。由于female+male=1意味着male是female的一个完全线性函数,所以使用两个虚拟变量将导致完全多重共线性。包括两个性别的虚拟变量是所谓虚拟变量陷阱(dummyvariabletrap)中最简单的例子,当使用过多的虚拟变量来描述一定组数的数据时,就会掉进这种虚拟变量陷阱。我们以后还要讨论这个问题。在(7.1)中,我们已经选择了男性为基组(basegroup)或基准组(benchmarkgroup),即与之进行比较的那一组。这就是为什么0表示了男性的截距,而0为女性与男性之间在截距上的差异。通过将模型写成ueducmalewage100,我们就能选择女性为基组,其中女性的截距是0,而男性的截距是0+0;这意味着0=0+0和0+0=0。在任何一个实际应用中,我们如何选择基组都不重要,但重要的是,要保持基组不变。有些研究者喜欢将模型中的总截距去掉,而将每一组的虚拟变量都包括进来。那么,这里的方程就是ueducfemalemalewage100,其中男人的截距是0,女人的截距是0。在这种情形下,因为没有总截距,所以不存在虚拟变量陷阱。但由于检验截距的差值更困难,而且对不含截距项的回归怎样计算R平方没有一个一致同意的方法,所以这个表达式很少有人使用。因此,我们将总是引进一个总的截距项作为基组的截距。当解释变量更多时并没有什么大的改变。取男性那一组为基组,除了控制受教育水平之外,还控制工作经历和现职任期的一个模型是.exp32100utenureereducfemalewage(7.3)如果educ、exper和tenure都是相关的生产力特征,那么男人与女人之间没有差别的虚拟假设是H0:0=0。对立假设是,对女人存在歧视H1:00。我们怎样才能对工资歧视进行实际检验呢?回答很简单:完全像从前那样用OLS来估计模型,并使用通常的t统计量。当某些自变量被定义为虚拟变量时,在OLS的操作和统计理论方面都没有任何改变。迄今为止,唯一的改变是我们对虚拟变量系数的解释。例7.1小时工资方程利用WAGE1.RAW中的数据,我们估计模型(7.3)。目前,我们还是使用wage而不是log(wage)作为因变量:tenureereducfemalegeaw141.0exp025.0572.081.157.1ˆ(0.72)(0.26)(0.049)(0.012)(0.021)(7.4)n=526,R2=0.364.4负的截距(这里是男人组的截距)不是很有意义,因为样本中没有一个人具有接近于零年的educ、exper和tenure。female的系数则很有意思,因为它度量的是;在给定相同水平的educ、exper和tenure的情况下,一个女人和一个男人之间每小时在工资上的平均差距。如果我们找到受教育水平、工作经历和现职任期相同的一个女人和一个男人,那么平均来看,女人每小时比男人要少挣1.81美元。(要记住,这可是用1976年的工资水平来度量的呀!)重要的是记住,由于我们已经进行了多元回归并控制了educ、exper和tenure,所以这1.81美元的工资差距不能由男人和女人之间在受教育水平、工作经历和现职任期水平上的平均差距来解释。我们可以断定,这1.81美元的差别,是由于性别或我们在回归中没有控制的与性别相关的因素所导致的。将方程(7.4)中female的系数,与把所有其他解释变量都从方程中去掉时所得到的系数估计值相比,是颇有意义的:femalegeaw51.210.7ˆ(0.21)(0.30)(7.5)n=526,R2=0.116.(7.5)中的系数具有一个简单的解释。这个截距就是样本中男人的平均工资(令female=0),所以男人平均每小时挣7.10美元。female的系数为女人和男人之间平均工资的差距。因此,样本中女人的平均工资是7.102.51=4.59,或每小时4.59美元。(顺便提一下,样本中有274个男人和252个女人。)方程(7.5)为男人和女人这两组之间进行均值比较检验提供了一个简单的方法。估计差别2.51的t统计量8.37在统计上是十分显著的(当然2.51在经济上也相当大)。一般而言,对一个常数和一个虚拟变量进行简单回归,是比较两组均值的直接方法。要通常的t统计量生效,我们还必须假定同方差性,这就意味着,对男人和对女人而言,工资的总体方程是相同的。由于方程(7.5)没有控制受教育水平、工作经历和现职任期上的差异,而且总体上说,在这个样本中,女人的受教育水平、工作经历和现职任期比男人要低些,所以估计出来的男女工资差异比(7.4)要大。方程(7.4)给出了性别工资差距在其他条件不变情况下更可靠的估计值;它仍显示出一个很大的差别。在许多情形下,虚拟自变量都反映了个人或其他经济单位的选择(而不是诸如性别等预先决定的变量)。对于这种情形,因果关系的问题再度成为一个核心议题。在下面这个例子中,我们想知道,是否拥有个人计算机将导致更高的大学平均成绩。例7.2拥有计算机对大学GPA的影响为了决定拥有计算机对大学平均成绩的影响,我们估计了模型,2100uACThsGPAPCcolGPA其中虚拟变量在学生拥有一台计算机时取值1,而在其他情况下都取值0。出于各种原因,拥有PC对colGPA可能具有影响。一个学生的工作在计算机上完成的质量可能会更高一些,而且还因为不必在计算机房等待而节省了时间。当然,如果一个学生拥有一台PC,他或她也可能会更热衷于电脑游戏或在网上冲浪,所以0并不明显为正。变量hsGPA(高中时的GPA)和ACT(能力测验分数)都是控制变量:能力越强的学生(用高中GPA和ACT分数来度量),越可能拥有一台计算机。我们控制这些因素是因为,我们想知道,如果我们随即抽取一个学生并给他一台个人计算机,那么拥有这台计算机对其colGPA的平均影响。利用GPA1.RAW中的数据,我们得到ACThsGPAPCGPAlco0087.0447.0157.026.1ˆ5(0.33)(0.057)(0.094)(0.0105)(7.6)n=141,R2=0.219.这个方程意味着,一个拥有一台PC的学生,预计其GPA比一名条件相当但没有一台PC的学生要高出0.16分(记住,colGPA和hsGPA都是以四分制度量的)。这个影响也是十分显著的,其tPC=0.157/0.572.75。如果我们从方程中去掉hsGPA和ACT会怎么样呢?显然,由于ACT