应用回归分析厦门大学经济学院郭鹏辉年第五章定序回归案例介绍描述性分析定序回归模型参数估计与统计推断多变量逻辑回归模型选择预测与评估简单分析报告程序及注释厦门大学经济学院5.22011教学目的厦门大学经济学院5.32011通过一个研究消费者偏好的实际案例,详细介绍logit和probit这两种重要的定序回归模型。通过本章学习,能够了解:什么情况下使用logit或probit定序回归;定序回归分析的基本统计学理论;相关理论在统计学软件R中的应用;相应的统计分析报告的撰写。本章所涉及的概念:定序数据、logit定序回归、probit定序回归。第一节案例介绍厦门大学经济学院5.42011在这一章中,我们将介绍另外一种非连续型变量的回归方法。这种新的数据类型就是定序数据(ordinaldata)。厦门大学经济学院5.52011我们作一个简单的比较:情形1:1=1岁,2=2岁,3=3岁;情形2:1=红色,2=黄色,3=蓝色;情形3:1=不喜欢,2=无所谓,3=喜欢。上述三种不同的情形,其数据代码都是1、2、3。第一种情形下,代码代表了小孩的年龄,这里的1、2、3是有具体的数值意义的,可作代数运算,即2岁-1岁=1岁,说明2岁的孩子比1岁的孩子大1岁。但是,第二种情形下,不能作代数运算,其数据类型是没有任何数值意义的。类似地,情形3中的数据类型也没有数值意义。什么是定序数据?厦门大学经济学院5.62011那么,情形2和情形3的数据类型又有什么不一样的呢?对于情形2,我们完全可以打乱顺序而不会造成任何混乱。但是对于情形3,打乱顺序则会造成数据分析的混乱。由此可见,情形3中的数据有两个特征:1、没有数值意义;2、有顺序意义。我们称这样的数据类型为定序数据。厦门大学经济学院5.72011下面我们用一个关于手机的市场调研的实际案例来详细讲解定序回归的方法。我们的数据来源是对北京大学光华管理学院的MBA学生和高级经理培训班的学员的调查。基于我们的调查结果并作适当的数据清理,最后共获得来自148个调查对象的1451个有效观测值。为了演示的方便,我们将本案例中所涉及的变量名罗列如表5-1所示。厦门大学经济学院5.82011表5-1变量说明由此可见,本案例共涉及六个离散型协变量和一个连续型协变量,根据这七个自变量的不同取值,我们构造12种不同的功能组合,如表5-2所示。变量类型变量含义变量名变量水平因变量对该产品的偏好程度score1=根本不喜欢;2=比较不喜欢;3=一般喜欢;4=比较喜欢;5=非常喜欢自变量手机品牌W1共四种(诺基亚、摩托罗拉、三星、波导)有无数码相机W2共两种(有、无)能否收看电视W3共两种(能、不能)有无手写笔W4共两种(有、无)电话本能否多条记录W5共两种(能、不能)有无MP3W6共两种(有、无)游戏数目W7连续型厦门大学经济学院5.92011表5-2手机功能组合品牌数码相机能否收看电视手写笔电话本能否多条记录MP3游戏数目诺基亚无不能无能有3有不能有不能有5无能有不能无7波导有能无能无3无不能无不能有5有不能有能有7摩托罗拉无能有能无3有能无不能无5无不能无能无7三星有不能有不能无3无能有不能有5有能无能有7厦门大学经济学院5.102011从第一张表中可以看到,因变量是离散型的变量,而且是定序变量。而从第二张表中可以看到,自变量是各种组合中所涉及的七个因素,既有连续型数据,也有离散型数据。这一章将上一章的离散型因变量的变量水平数由两个扩展为多个,这时对因变量的分析和处理以及对自变量的回归过程也将更加复杂。因为这里不仅仅是分类的问题,而且还涉及顺序的问题。对定序变量的回归也是广义线性回归的一种,我们也可以像上一章那样将非线性的概率问题最终转化为线性问题来加以解决。接下来,我们将在上一章的基础上继续介绍因变量为定序变量的logit回归。第二节描述性分析按照惯例,我们首先对数据予以描述性分析,以获得对数据的初步认识,在R中编程如下:rm(list=ls())a=read.csv(D:/PracticalBusinessDataAnalysis/case/CH5/ceilphone.csv)attach(a)a[c(1:5),]结果如下:scoreW1W2W3W4W5W6W713Nokia00011324Nokia10101534Nokia01100744Bird11010353Bird000015厦门大学经济学院5.112011厦门大学经济学院5.122011从上面的数据第一行可以看到,一位被调查者对某一款手机作了评估。该手机品牌为诺基亚,无数码相机,不能收看电视,没有手写笔,但是其电话本支持多条记录,有MP3功能,游戏的数目为3。对于这样一款手机,该调查者对其一般喜欢(score=3)。从上面数据的第二行,可知另外一位被调查者对另外一款手机产品也作了评估。该手机品牌还是诺基亚,有数码相机,不能收看电视,有手写笔,但是其电话本不支持多条记录,有MP3功能,游戏的数目为5。对于这样一款手机,该调查者对其比较喜欢(score=4)。厦门大学经济学院5.132011我们先简单描述一下消费者打分(score)和不同品牌之间的关系。在R中,可以做列联表如下:xtabs(~score+W1)W1scoreBirdMotorolaNokiaSamsung137243426280645366398138132133410910811696528303544从中可以看到,在所有得分为1或2的品牌中,频数最高的是波导,其频数分别为37和80;在得分为3的品牌中,摩托罗拉频数最高,为138;在得分为4厦门大学经济学院5.142011的品牌中,诺基亚频数最高,为116;在得分为5的品牌中,三星频数最高,为44。由此可见,国产品牌在与国际品牌的对比中具有较大的优势,而在国际品牌中,摩托罗拉偏向大众化路线,而诺基亚偏向中高端市场。下面我们再对消费者打分和手机有无数码相机功能之间的关系予以分析,如图5-1所示。plot(c(1,5),c(0,1),type=n,xlab=score,ylab=Percentage,main=DigitalCamera)points(c(1:5),tapply(W2,score,mean),type=b)厦门大学经济学院5.152011图5-1消费者打分和有无数码相机之间关系图123450.00.20.40.60.81.0DigitalCamerascorePercentage厦门大学经济学院5.162011从总体上来讲,可以看到一个明显的上升趋势。具体地说,得分越高的手机,具有数码相机功能的比率越高,特别是在比较不喜欢(score=2)到比较喜欢(score=4)之间。这说明有无数码相机功能在当时是一个界定人们对其打分是否高于平均水平的重要属性。我们再对其他几个定性因素作类似分析(如图5-2所示):厦门大学经济学院5.172011图5-2消费者打分和其他功能之间的关系图123450.00.8TelevisionscorePercentage123450.00.8HandWrittenPadscorePercentage123450.00.8MultipleEntryPhonebookscorePercentage123450.00.8MP3scorePercentage厦门大学经济学院5.182011大家可以看到,能否收看电视(W3)以及电话本能否支持多条记录(W5)同消费者打分高度正相关。而有无手写笔(W4)和能否支持MP3功能(W6)在我们的样本中似乎并没有受到很大的青睐。最后,我们再简单地描述一下消费者打分和游戏个数(W7)之间的相互关系。考虑做列联表如下:W7score35712567292711137931691871454155111163564964从中很难看出明显趋势。虽然我们不能就此断定游戏个数同人们对手机的打分没有关系,但是我们可以猜测即使相关,那么关系也不会很大。第三节定序回归模型在我们详细介绍定序回归模型以前,先回答一个问题,即为什么不可以用普通线性模型,例如:请注意,这显然是不可以的。因为等号的右边是一个具有数值意义的实数,而等号的左边是一个只有顺序意义的变量。此外,我们也不可以用0-1变量回归模型,因为0-1变量模型要求因变量有且仅有两个不同的取值(0-1),但是本案例所涉及的因变量有五个不同的取值(1-5)。所以,我们必须建立一个特殊的专门用于定序数据的模型,这就是下面要讲的定序回归模型。厦门大学经济学院5.192011077scoreW当我们评价某产品组合时,首先根据该产品的特征形成一个对于该产品的喜好程度,并记为Z,其为连续的。但遗憾的是,喜好程度是一个看不见、摸不着的隐变量,那么,这个隐含的喜好程度是如何形成消费者打分的呢?我们假设在人们的心理活动中有一定的判断标准,或者叫做阈值(记为ck)。当喜好程度落在某两个相邻的阈值之间时,我们就会给出一定的消费者打分。具体地说:厦门大学经济学院5.202011112233441如果Zc2如果cZcscore=3如果cZc4如果cZc5如果cZ下面再考虑,解释性变量是如何影响消费者打分的呢?我们可以非常合理地假设,所有解释性变量都是通过影响喜好程度来影响消费者打分的。请注意,Z是一个取任意值的连续型变量,因此我们完全可以用普通线性回归模型来刻画Z和解释性变量(如W7)之间的关系,即:现实中我们并不知道Z的具体取值。那么,上面这个线性模型对我们有什么用处呢?根据这个模型以及游戏数目(W7),可以判断消费者打分不超过k的可能性为:厦门大学经济学院5.212011077ZW(14)k其中,ck就是前面所提到的阈值,,而是的分布函数。如果我们可以对的具体形式予以合理的假设,那么我们就获得了一个关于定序变量的回归模型,即:请注意,这个新的模型设定中没有任何地方涉及那么看不见、摸不着的消费者喜好程度Z,因此可以进行数据估计,其具体估计方法我们在下一节讨论。厦门大学经济学院5.22201107077()()(7){()7}(7)kkkkPscorekPzcPWcPcWFW0kkc()()FtPt()Ft7()(7)kPscorekFW在这里,我们首先需要注意到该模型与0-1回归模型形式的异同。由于定序数据可能的取值个数大于2,因此我们有好几个不同的截距。以本案例为例,隐变量共有五种不同的取值可能(score=1,2,3,4,5),因此,总共有四个不同的截距,且它们之间也有顺序:。但是,我们的斜率只有一个,即。对于很多实际问题,我们最关心的是解释性变量和因变量之间的关系,而对截距项的兴趣不大。下面,我们再回答一个问题,那就是:的具体函数形式应该如何假设才合理?同0-1变量回归一样,有两个“方便”的选择,那就厦门大学经济学院5.232011()Ftk12347是标准正态分布与逻辑分布。它们分别对应于probit定序回归和logit定序回归。如果我们假设是标准正态分布函数,那么模型形式为:相应地,如果我们假设其是逻辑分布函数,则为:这两种模型还可以表述为:同0-1变量回归一样,probit定序回归和logit定序回归谁较好至今没有定论。但它们都是非常有用的统计方法,而且结果往往极其相似。厦门大学经济学院5.242011()Ft7()(7)kPscorekW77exp(7)()1exp(7)kkWPscorekW177{()}7log{()}7kkPscorekWitPscorekW第四节参数估计与统计推断接下来,我们要回答几个重要的理论问题。那就是:对于定序变量回归模型,我们应该如何作参数估计?如何作统计推断?由于