泊松回归

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

应用回归分析厦门大学经济学院郭鹏辉年厦门大学经济学院6.22011案例介绍数据描述泊松回归参数估计与统计推断模型选择与预测简单分析报告程序及注释第六章泊松回归厦门大学经济学院6.32011通过一个客户关系管理的实际案例,详细介绍泊松回归这种重要的计数回归模型。它主要处理因变量为计数数据的情形。通过本章学习,能够了解:什么情况下使用泊松回归;泊松回归分析的基本统计学理论;相关理论在统计学软件R中的应用;相应的统计分析报告的撰写。本章涉及的概念:计数数据、泊松回归。教学目的厦门大学经济学院6.42011前一章我们讨论了定序数据,下面我们将其与另外一种数据类型比较一下。具体地说,我们考虑某位顾客在某月内光顾超市的次数,可能是1次、2次、3次等。请注意,这个记录顾客光顾次数的1、2、3同记录消费者喜好程度的1、2、3有没有差别呢?显然,前者是有数值意义的。那么,我们能否用普通线性回归的方法来研究顾客光顾超市的次数呢?答案是否定的。原因是,虽然顾客光顾超市的次数是一个具有数值意义的变量,但是它不是连续的。请注意,顾客光顾超市的次数是一个衡量顾客活跃程度、度量客户价值的重要指标。因此,超市经理非常希望知道什么样的顾客光第一节案例介绍厦门大学经济学院6.52011顾超市会频繁一些,而什么样的顾客较少光顾超市。由于我们感兴趣的数据是一个关于“次数”的记录,因此,我们称此类数据为计数数据。具体地说,我们的数据来源于我国北方某城市处于垄断地位的一家超市,数据包含了该超市一部分会员的详细消费记录。我们以某年某月为基准月份(第0月),因此,可以将前一个月记为第-1月,以此类推。我们的因变量是一个会员在基准月份光顾该超市的次数,因此是一个典型的计数数据。超市经理感兴趣的问题是能否从这些会员前三个月的消费记录中找出什么规律,以便于判断超市的众多会员中哪些人在这个厦门大学经济学院6.62011月还会光顾超市以及大约会光顾多少次。为此,我们整理了每一个会员前三个月的每月光顾次数以及每月的消费金额。如果客户在某月没有光顾超市,那么将他的消费金额记为0。这是不是一种最好的处理方法呢?不大可能。但是为了简单起见,我们暂时接受这种数据处理方法。最后,我们得到的数据共包含了3995个有效样本,而对于相关变量的详细解释如表6-1所示。厦门大学经济学院6.72011表6-1变量说明变量名称作用实际意义freq0因变量第0月光顾超市的频数freq1自变量第-1月光顾超市的频数freq2自变量第-2月光顾超市的频数freq3自变量第-3月光顾超市的频数exp1自变量第-1月的消费金额exp2自变量第-2月的消费金额exp3自变量第-3月的消费金额厦门大学经济学院6.82011按照惯例,我们首先对数据予以描述性分析,以获得对数据的初步认识,形成待检验的结论并指导我们进行下一步的数据分析。我们首先读入数据并展示如下:rm(list=ls())a=read.csv(D:/PracticalBusinessDataAnalysis/case/CH6/crm.csv)attach(a)a[c(1:5),]exp3exp2exp1freq3freq2freq1freq0145.40.001000279.69.80220330.00.00000040.00.00000052.10.001002第二节数据描述厦门大学经济学院6.92011从以上数据的第一行可以看到,有这样一名超市会员,他在第-3月光顾超市一次并消费45.4元。除此以外,该顾客没有再次光顾该超市。因此,不奇怪他在第0月也没有光顾超市。从以上数据的第二行可以看到,有另外一名超市会员,他分别在第-2月和第-3月关顾超市2次,消费金额分别为79.6元和9.8元。因此,这是一个相对活跃的客户,还客户在第0月光顾超市3次。我们再对数据描述如下:厦门大学经济学院6.102011Mean=sapply(a[,1:6],mean)Min=sapply(a[,1:6],min)Median=sapply(a[,1:6],median)Max=sapply(a[,1:6],max)SD=sapply(a[,1:6],sd)round(cbind(Mean,Min,Median,Max,SD),3)MeanMinMedianMaxSDexp316.48300184.924.919exp29.24100159.116.621exp17.91700151.016.151freq31.1610014.01.713freq21.1770012.01.738freq10.8440013.01.403厦门大学经济学院6.112011从中可以看到,按平均水平来说(以算术平均计),每个月每个会员光顾该超市大约1次,消费金额为5-20元。但这只是一个最基本的描述,我们无法从中看出各个解释性变量同因变量之间的关系。下面,我们首先通过盒状图(如图6-1)对第-1月的光顾频数(freq1)简要分析如下:boxplot(freq1~freq0,xlab=freq0,ylab=freq1)类似地,我们通过盒状图(如图6-2)对第-1月的消费金额(exp1)分析如下:boxplot(exp1~freq0,xlab=freq0,ylab=exp1)厦门大学经济学院6.122011图6-1第-1月光顾频数盒状图02468100246810freq0freq1厦门大学经济学院6.132011图6-2第-1月消费金额盒状图0246810050100150freq0exp1厦门大学经济学院6.142011从图6-1可以看到一个明显的趋势,那就是:第0月光顾频数高的顾客,其第-1月光顾频数(以中位数计)也较高。这暗示我们,消费者在第-1月的光顾次数可能是一个对其当月的光顾次数有显著影响的重要变量。从图6-2可以看到一个大概的趋势,那就是:第0月光顾频数高的顾客,其第-1月消费金额(以中位数计)也较高。这暗示我们,消费者在第-1月的消费金额也可能是一个对第0月光顾次数具有预测能力的变量。但是,由于其变化趋势没有第-1月的光顾频数那样明显,因此,我们可以猜测第-1月消费金额的预测能力有限。为了便于比较,我们对所有解释性变量做类似的分析并展示如下:厦门大学经济学院6.152011从图6-1可以看到一个明显的趋势,那就是:第0月光顾频数高的顾客,其第-1月光顾频数(以中位数计)也较高。这暗示我们,消费者在第-1月的光顾次数可能是一个对其当月的光顾次数有显著影响的重要变量。从图6-2可以看到一个大概的趋势,那就是:第0月光顾频数高的顾客,其第-1月消费金额(以中位数计)也较高。这暗示我们,消费者在第-1月的消费金额也可能是一个对第0月光顾次数具有预测能力的变量。但是,由于其变化趋势没有第-1月的光顾频数那样明显,因此,我们可以猜测第-1月消费金额的预测能力有限。为了便于比较,我们对所有解释性变量做类似的分析并展示如下:厦门大学经济学院6.162011par(mfrow=c(2,3))boxplot(freq1~freq0,xlab=freq0,ylab=freq1,main=第-1月)boxplot(freq2~freq0,xlab=freq0,ylab=freq2,main=第-2月)boxplot(freq3~freq0,xlab=freq0,ylab=freq3,main=第-3月)boxplot(exp1~freq0,xlab=freq0,ylab=exp1,main=第-1月)boxplot(exp2~freq0,xlab=freq0,ylab=exp2,main=第-2月)boxplot(exp3~freq0,xlab=freq0,ylab=exp3,main=第-3月)par(mfrow=c(1,1))厦门大学经济学院6.172011图6-3所有解释性变量盒状图04804812第-1月freq0freq104804812第-2月freq0freq204804812第-3月freq0freq3048050100第-1月freq0exp1048050100第-2月freq0exp2048050150第-3月freq0exp3厦门大学经济学院6.182011从图6-3可以看到,第0月光顾频数高的顾客在第-2月和第-3月的光顾频数也高,但这种趋势在第0月的光顾频数较高时并不稳定。这表明,第-2月和第-3月的光顾频数可能对第0月的光顾频数有一定的预测能力,但预测能力有限。第0月光顾频数高的顾客在第-2月和第-3月的消费金额也较高。第-2月的趋势和第-1月类似,而第-3月的趋势要强于第-1月和第-2月,但这种趋势在第0月的光顾频数较高时也不稳定。这表明,第-2月和第-3月的消费金额可能对第0月的光顾频数有一定的预测能力,但其预测能力也比较弱。厦门大学经济学院6.192011在介绍泊松回归之前,我们首先要说明为什么需要泊松回归。也就是说,为什么我们前面所讲的线性回归、0-1回归以及定序回归都不能够分析计数数据。0-1变量回归和定序回归不能够分析是因为这两种回归模型处理的都是没有数值意义的数据。但是,计数数据确实是有数值意义的。因此,我们需要一种能够处理具有数值意义数据的回归模型。那么,为什么线性回归模型不可以呢?如果我们采用普通的线性回归模型,那么形式如下:虽然等号左右两边都是具有数值意义的实数,但是右边可以是小数,而左边却是非负的整数。故线性模型不适用。第三节泊松回归01234560123exp1exp2exp3freqfreqfreqfreq厦门大学经济学院6.202011那么,我们应该怎样回归计数数据呢?首先考虑一个高度简化的情形,那就是:先暂时不考虑协变量的影响,单纯考虑计数数据应该如何拟合。换句话说,有什么样的统计分布可以描述顾客每月光顾超市的次数?请注意,顾客光顾超市的次数和他两次光顾之间的时间间隔是高度相关的。如果一个客户两次光顾之间的时间间隔很短,那么他每月的光顾次数自然就高,反之亦然。因此,从统计学上描述每月顾客光顾超市的次数等同于描述该顾客两次光顾之间的时间间隔。假设该顾客的行为是非常稳定的,那么,我们对他的行为能够做出合理的假设:第一,假设他在任何相等的时间间隔内的平均光顾次数是一样的。厦门大学经济学院6.212011第二,任给的两次等待时间是互相独立的。第三,给定一个时间起点并经过了一段时间以后,我们发现该顾客还没有光顾超市。那么,会不会是因为我们已经等待了一段时间,所以我们就预期该顾客会很快到来呢?答案是否定的。换句话说,无论超市已经等待了多长时间,只要顾客没有光顾,那么超市预期的未来等待时间不会有任何改变。以上三个假设都是很强的,有合理的一面,但显然也有牵强的一面。而这正是我们研究计数数据的一个很好的出发点。下面我们就从这三个假设出发寻找满足这三个假设的统计分布。奇妙的是,我们可以证明同时满足这三个假设的统计分布只有一个,那就是泊松分布。厦门大学经济学院6.222011根据泊松分布,我们知道顾客某月光顾超市k次的概率为:其中,是顾客平均每月光顾超市的次数。请注意,虽然某月光顾超市的实际次数k是整数,但是平均每月光顾超市的次数却完全可以是小数。大家可以比较一下,如果我们想要确定一个正态分布,必须知道均值和方差,总共两个参数。但是,泊松分布只需要知道一个参数就可以了。这进一步告诉我们,与其研究某些协变量同泊松型因变量的关系,不如研究协变量同之间的关系。而且,同原始因变量freq0相比,更容易建模,因为是连续的。那么,我们可否直接考虑线性模型呢?(0)exp{}!kPfreqkk(0)Efreq厦门大学经济学院6.232011例如:请注意,由于取正数,而等号右边可以为负数,因此,简单的线性模型不能满足要求。这提示我们需将进行某种变换,使得变换后可以取任意值,这里

1 / 46
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功