第一部分SPSS数据分析基础第1章数据分析方法论简介1.1三种数据分析方法论所有的数据分析工作都需要在一定的方法论指导下才能正确进行。随着社会的进步,科学技术的发展,统计学的应用已经渗透到人们工作和生活的各个环节,但不同领域所需要的方法论体系有所差别,这些方法论体系大致可分为如下3种:严格设计支持下的统计方法论。半试验研究支持下的统计方法论。偏智能化、自动化分析的数据挖掘应用方法论。IBMSPSSStatistics作为全球最为出色的统计软件之一,在功能上完全支持上述3种方法论体系,并满足绝大多数情况下的统计分析需求,Modeler则倾向于数据挖掘方法论的具体实现需求。由于对方法论的理解比对分析方法体系的掌握更为重要,因此本章首先对此进行扼要介绍。用户在遇到实际分析需求时,需要首先判断在各自所属的领域中哪种方法论更为合适,并有针对性地加以学习和研究。1.1.1严格设计支持下的统计方法论严格设计支持下的统计方法论也称为经典统计方法论,它之所以经典,不仅因为其发展较早,而且可使研究者在整个研究体系中尽量掌控一切,具体特征如下:这类研究都具有非常严密的研究设计,并且严格遵循七大步骤,即试验设计、数据收集、数据获取、数据准备、数据分析、结果报告和模型发布。七大步骤中以试验设计步骤最为关键,它直接影响整个研究的成败。在此类研究项目中,试验设计中会充分考虑需要控制的影响因素,并采用多种设计方案来对非研究因素的作用加以控制,比如配伍、完全随机抽样、随机分组等。数据在设计完毕后开始采集,整个试验过程会在尽量理想的情况下进行,从而在试验及数据获取过程中对无关因素的作用加以严格控制。例如在毒理学实验中可以对小白鼠的种系、周龄、生活环境、进食等做出非常严格的设定。原始数据往往需要从头采集,数据质量完全取决于试验过程是否严格依从设计要求,以及试验设计本身是否合理等因素。当然,这也意味着每个原始数据的成本都非常高。4在分析方法上,最终采用的统计模型应当基于相应的试验设计所定制的分析模型。由于在试验设计和试验实施过程中已经对非研究因素的影响做了充分考虑和控制,因此而在很多情况下往往可以只利用非常简单的统计方法(如t检验、卡方检验等)来得到最终结论。各种复杂高深的统计模型不是没有用武之地,但它们不是至关重要的工具。此类统计方法论的应用在实验室研究、临床试验等领域最为常见,所使用的分析方法常常是单因素分析方法,或者针对一些复杂设计使用一般线性模型(方差分析模型)的定制框架。1.1.2半试验研究支持下的统计方法论经典统计分析方法论对整个流程的控制和干预非常严格,但这在许多情况下是无法满足的,因此往往退而求其次,形成了所谓半实验研究支持下的统计分析方法论,其具体特征如下:研究设计具有明显的向实际情况妥协的特征,所谓七大步骤可能不被严格遵循,例如在数据存在的情况下,数据收集过程就会被省略。总体而言,七大步骤中从数据准备开始的后三步的重要性比经典统计分析方法论高。研究设计可能无法做到理想化,例如抽样与分组的完全随机性,试验组及对照组干预措施的严格控制都可能无法严格满足。举个最典型的例子,药物研究中理想状况应当设立安慰剂对照组,但是如果是治疗恶性肿瘤的药物,又怎么忍心让肿瘤病人吃安慰剂呢?此时往往设定标准治疗药物对照组,甚至在一些极端情形下不设对照组。虽然这样做在统计设计上并不理想,但更符合医疗道德的要求。整个数据采集过程难以做到理想化,举一个简单的例子,定点调查(CentralLocationTest)是市场研究常用的样本采集方式,严格地说,调查地点、调查时间,甚至当天的天气都可能会对样本的代表性以及数据结果产生影响,但它们最终只能凭借访问者的责任心和运气来尽量加以保证,而从设计本身是很难控制的。部分数据可能先于研究设计而存在,整个研究中需要在这些数据的基础上补充所需的其他部分信息。另一方面,这些数据可能不完全满足分析需求,但这种缺陷却无法得到修正。例如,利用全国各省的经济和人口数据进行省级综合发展程度排序,可以考虑使用因子分析来做,因子分析原则上要求至少有50个案例才能保证结果比较稳健,但全国只有34个省级行政区,难道为了这个统计分析再请有关部门弄出十几个新的省市来吗?这显然是不切实际的。在分析方法上,由于试验设计难以做到完美,因此各种潜在影响因素的作用可能并不明确,需要以各种可能的影响因素中进行筛选和探索。可能用到的统计方法颇为繁杂,从简单的统计描述到复杂的广义线性模型都可能用到,因此对影响因素的筛选成为很多分析项目的重点任务之一。事实上,很多复杂的多因素分析模5第1章数据分析方法论简介型就是在这类研究的实际分析需求刺激下产生并蓬勃发展的。但无论如何,可以使用的方法仍然以经典统计分析方法为主。此类统计方法论的应用范围目前最广泛,在社会学、经济学研究中特别常见。1.1.3偏智能化、自动化分析的数据挖掘应用方法论此类分析方法论是随着近年来计算机技术的飞速发展而诞生的,一方面数据库技术使得许多行业出现了业务系统,有了自动积累的海量业务数据库,相应地诞生了大批新的分析需求,但其数据量却使传统方法很难有效满足。另一方面,人工智能和计算能力的发展也催生了一批全新的分析方法,例如Bootstrap(自助法)、Bayes(贝叶斯)方法与MCMC(马氏链蒙特卡罗)方法、神经网络、遗传算法、树模型与随机森林等,它们赋予了分析人员全新的能力。在这些因素的相互作用下,一种新的分析方法论——数据挖掘方法论应运而生了。一般认为,数据挖掘是近年来由计算机人工智能、统计学和数据仓库技术交叉发展而来的一种新的方法体系,它通过采用各种自动或半自动化的分析技术,从海量数据中发现有意义的行为和规则,迅速找到大量资料间的关联与趋势。其最大的特点是自动化、智能化,即充分利用计算机人工智能技术,自动/半自动地分析数据间的复杂联系,探寻一种独特的、通过其他方法可能难以发现的模式,以便快速发现有价值的信息。整个分析框架是动态、可更新的,并且在分析结果的验证上提供了许多新的思路。一位博士师兄在20世纪末向我们介绍数据挖掘方法体系的时候,曾经用一句很精辟的话对其出身进行了总结:一部分是新的,一部分是旧的,一部分是借的。和前两种较为传统的分析方法论相比,数据挖掘方法论的特点可归纳为:完全以商业应用需求为导向。可认为传统方法论和数据挖掘方法论的最大区别在于:前者需要方法体系/逻辑正确,然后慢工出细活。后者由于需要处理的数据量大、时间要求高,只需要结果正确,分析方法的理论正确性并不重要,算法细节也可以是灰箱甚至黑箱。正所谓无论白猫还是黑猫,只要抓住老鼠就是好猫。数据挖掘所需要解决的问题往往具有很强的时间要求,例如消费者在网上购物时,页面上往往会出现“购买此商品的顾客也同时购买”之类的推荐栏目。其中的商品就是利用快速的数据挖掘算法筛选出来的。虽然这类分析的准确率能高一些最好,但是相比之下,网站更愿意选择2秒钟就能反馈给浏览者的弱关联算法,而不是采用10分钟才能计算出准确结果的强关联算法,因为买家等不起!分析流程出现了很大的变化,不再是线性的七大步骤,而是周而复始的循环结构,且非常强调前期的商业理解,以及后期的模型发布与应用。在几种常见的数据挖掘方法论中,以CRISP-DM最具代表性。6由于数据往往来源于业务系统,比如超市的POS机,银行的ATM机、电信公司的业务数据库,因此数据采集过程是全自动的,完全先于整个研究项目而存在。这也意味着这些数据根本不是为数据分析准备的,因而难以做到理想化。例如在对POS机数据进行分析时,如果知道购物者的年龄、性别、家庭收入状况等,将可以得到更有价值的分析结果,但即使关联了会员卡数据,这些背景资料也几乎是不可能补全的,更不用说还存在退休的父母拿着子女的会员卡去购物这种常见的情况了。由于业务系统的数据会动态增加,因此几乎不可能考虑另行加以人工收集希望补足的数据,而只能看菜吃饭,否则整个项目将永无止境,失去其实际价值。在分析方法上,由于极端强调商业应用,因此分析方法的选择其实并不重要,往往采取多种方法并行,从中择优的分析思路。例如,对于一个客户流失预测项目,完全可以同时采用判别分析、Logistic回归、神经网络、支持向量机(SVM)、Bayes分析、树模型等多种方法平行分析,然后采用投票或者优选的方式得到最终的预测模型及结果。在完全以满足商业需求为目标的背景之下,很多被认为非常经典和基础的统计方法,比如参数估计和常规的假设检验等方法在数据挖掘中反而不一定被用到。另一方面,由于海量数据库、动态增量、平行分析等特点的存在,意味着数据挖掘中非常强调自动化,即使在项目期间会有很多人脑的智力投入,但最终项目结束时提交的一定是自动化的业务流,即以硅脑代替人脑,软件代码代替人工操作。最后,能否满足商业需求,或者说模型是否能够在业务系统中得到真正的发布和应用,则是判断整个数据挖掘项目是否成功的唯一标准,这一点和传统方法论有非常鲜明的区别。1.2CRISP-DM方法论介绍1.2.1概述商用数据挖掘是一个从商业中来到商业中去的过程,如图1.1所示。分析师或客户首先提出一个商业问题,然后在企业或者组织中需要结合三方面的资源——高质量的数据、业务知识和数据挖掘软件进行数据挖掘,从而从大量数据中获取有业务价值的洞察力,继而将这些业务洞察力以某种形式嵌入到业务流程中,从而达到业务目标的实现。例如销售收入或者利润的提高,成本的下降,运行效率的提升等。在这个过程中,尽管数据挖掘的各种算法是数据挖掘过程的核心步骤,但是并不是全部,为了保证数据挖掘项目的成功实施,还有很多决定性因素,例如商业问题如何界定、数据如何选取、生成的模型如何嵌入到现有的业务流程中等问题都将直接影响数据挖掘是否能够取得商业上的成功。7第1章数据分析方法论简介结合三方面资源进行数据挖掘业务问题数据业务知识数据挖掘软件业务洞察力业务目标实现图1.1数据挖掘应用过程逻辑图为了使数据挖掘过程更加标准化,产生了很多指导数据挖掘过程的方法论,CRISP-DM就是其中的优秀代表。CRISP-DM是CRossIndustryStandardProcessforDataMining(跨行业数据挖掘标准流程)的字母缩写,整个方法论的概貌如图1.2所示,它将整个数据挖掘过程分解为商业理解、数据理解、数据准备、建立模型、模型评估和结果部署6个步骤。该方法论认为:数据挖掘过程是循环往复的探索过程,6个步骤在实践中并不是按照直线顺序进行,而是在实际项目中经常会回到前面的步骤。例如在数据理解阶段发现现有的数据无法解决商业理解阶段提出的商业问题时,就需要回到商业理解阶段重新调整和界定商业问题;到了建立模型阶段发现数据无法满足建模的要求,则可能要重新回到数据准备过程;到了模型评估阶段,当发现建模效果不理想的时候,也可能需要重新回到商业理解阶段审视商业问题的界定是否合理,是否需要做些调整。商业理解数据理解数据准备建立模型模型评估结果部署数据图1.2CRISP-DM数据挖掘方法论的6个步骤8图1.3是在CRISP-DM方法论中,各个阶段的任务与输出的参考模型,其中粗体字部分是各个阶段要完成的任务,普通宋体字部分是完成这些任务应有的输出内容。在进行实际的数据挖掘过程中,分析师不一定需要对每个任务和输出都做书面记录,但是应该对这些内容予以充分关注,从而保证项目成功完成。商业理解数据理解数据准备建立模型模型评估结果部署确定商业目标背景商业目标商业成功标准形势评估资源需求、假设和约束风险和应急方案术语成本与收益确定数据挖掘目标数据挖掘目标数据挖掘成功标准项目实施计划项目计划工具和技术的初步评估数据的初步采集数据初步采集报告数据描述数据描述报告数据探索性分析数据探索分析报告验证数据质量数据质量报告选择数据数据进入/剔除的逻辑与标准数据清洗数据清洗报告数据构建衍生变量生成新的记录整合数据数据合并数据格式化重整数据数据集数据集描述选择建模技术模型技术模型要求与假设生成检验设计检验设计建立模型模型参数设置模型描述评估模型模型评估修正模型参数设置评估结果从商业成