数据挖掘技术方案中国国际商业机器有限公司01/20056/25/2020目录1.数据挖掘及实施方法学..................................................................................................................31.1什么是数据挖掘.....................................................................................................................31.2与数据挖掘相关的新事物.....................................................................................................41.3技术类别.................................................................................................................................51.3.1发现挖掘.........................................................................................................................61.3.2预测挖掘.........................................................................................................................61.1.数据挖掘的不同运用.............................................................................................................71.4数据挖掘实施过程及方法学..................................................................................................81.4.1第一步:定义业务问题.................................................................................................91.4.2第二步:定义使用的数据模型...................................................................................111.4.3第三步:数据追源和预加工.......................................................................................131.4.4第四步:评估数据模型...............................................................................................151.4.5第五步:选择数据挖掘技术.......................................................................................161.4.6第六步:解释结果.......................................................................................................171.4.7第七步:部署结果.......................................................................................................171.5需要的技能...........................................................................................................................181.6工作量要求...........................................................................................................................192.IBM数据挖掘工具.......................................................................................................................202.1.INTELLIGENTMINER产品.....................................................................................................202.2.数据挖掘工具(IBMINTELLIGENTMINERFORDATA)......................................................212.3.DB2UDB数据挖掘组件.....................................................................................................232.3.1.DB2IntelligentMinerScoring......................................................................................242.3.2.DB2IntelligentMinerModeling...................................................................................252.3.3.DB2IntelligentMinerVisualization..............................................................................256/25/20201.数据挖掘及实施方法学作为商业智能总体结构的一部分,数据挖掘是可提供给您的一项主要的应用。您可能已经用过一系列可提供给您日常所需的信息分析和报告的工具。那为什么数据挖掘会与一般的数据分析和您所用的其他业务报告工具有所不同呢?在这一章里我们将向您描述数据挖掘所涉及的内容,以及利用数据挖掘所提供的工具和技术可完成的工作。了解数据挖掘可完成的工作可以帮助您发现可提出的业务问题的种类,以及您将如何迈出挖掘自身业务的第一步。为了能在这一方面给您提供帮助,我们研发了一种通用的数据挖掘方法,可作为您的一种基本工具。这种通用的方法将在后面的几章里进行说明,并介绍如何适用于提出特殊的零售业务问题。1.1什么是数据挖掘数据挖掘被很多人视为一种哲学体系,或者是数学体系的一个分支,而不是商业问题的一个实际解决方案。对此您可以从对它的各种解释来看出,例如:“数据挖掘是通过自动化或半自动化程序对关于以前未知的、有趣的、可理解的相关性进行的数据探测和分析。”或者“数据挖掘是从数据中对于固有的、以前未知的潜在有效信息非平凡提取。”虽然以上描述都有一定的道理,但在此我们将着眼于数据挖掘的实用问题,并说明如何让数据挖掘应用于您的零售业。我们尤其想向您介绍一下要想成功挖掘自身业务以及可用于完成零售业绩所必须做的工作。虽然数据挖掘自身是一门学科,但它是在近十年才出现的,而且它的起源可以追溯到20世纪50年代人工智能的早期发展阶段。在这段时期,模式识别的发展和以推理为基础的规律提供了数据挖掘的奠基石。从这段时间开始,虽然数据挖掘尚未被命名,但我们现在所用的许多技术已经被连续使用,并基本上用于特殊的应用。随着关系数据库的出现及商业组织获取和存储更大的数据量的能力的提高,一系列被用于特殊应用的技术已能适用于商业环境并带来商业利6/25/2020润。数据挖掘一词因此而产生,指这些被用于大容量数据的不同的特殊技术。在图3-1里介绍了在过去40年的发展情况。图3-1数据挖掘技术发展历史用于数据挖掘的一些技术在计算中是非常复杂的,为了发现在大型数据集中存在的模式,必须进行一系列的计算。在过去的10年中,大型商业数据库(特别是数据仓库)的应用增长、对数据的理解和解释的需要以及低价计算机的可靠性带来了数据挖掘广泛的商业应用。1.2与数据挖掘相关的新事物数据挖掘是指从您所收集数据中发现与业务有关的新事物。您可能会认为您已经利用常规的数据技术在研究数据库。事实上您通常所做的是在提出一个关于业务问题的假设,并且试图通过寻找支持的或者矛盾的数据来证明或否定这一假设。例如,设想作为一个零售商,您认为从乡镇来的客户光顾您城里大型商店的次数少于其他客户,但当他们一旦光顾就会进行大量采购。为了回答这类问题您可以做一个简单的数据库问题公式,例如,您的各家分店、他们所在的区域、销售额、客户,然后将这些必要信息(每个客户每次光顾的平均花费)进行处理,来证明这个假设。然而,这个答案可能只对于少数在周末进行大量购物的乡镇客户来讲是正确的。与此同时,乡镇客户(可能是往返者)也许已在周末光顾过商店,并完全像其他客户一样花费。在这种情况下,您最开始的假设便证明乡镇客户与城里的购物者没有区别。数据挖掘可在提出假设的初期当您还不知道存在什么样的客户行为模式时作为一6/25/2020种可选的方法。如果您想简单地提出这个问题---我的客户所购买的是什么与他们从哪来之间的关系是什么(我们有时用相关性这个词)?在这种情况下,您将通过数据挖掘运算法则来说明所有的不同的客户类别。这应当包括乡镇的、周末购物的客户。数据挖掘在您未提出特殊问题时便给出了这个答案。这两种方法的区别将在图3-2中加以总结。图3-2数据挖掘与信息发现那么如何获得数据挖掘可提出的业务问题的类别呢?这通常是一个复杂的问题,但这也是我们写这本书的原因。为了在此方面提供帮助,我们采用一个可广泛适用于各种业务问题的通用方法,在下面几章里我们将介绍如何应用它来解决业务问题。数据挖掘技术正如前面介绍的,近年来从大的数据集中探究和抽取信息的很多技术已经得到发展。当数据挖掘被命名时,很多这样的技术被简单地归类在这一名下,这导致了一些数据挖掘内容的混淆。在这一节里我们将清除这些混淆。1.3技术类别总体来讲,数据挖掘技术刻在广义上分为两类:发现挖掘6/25/2020预测挖掘1.3.1发现挖掘发现挖掘可广泛适用于在您的数据内未知任何存在模式的情况下寻找模式的各种技术。下面有关于发现挖掘技术的一个例子。聚类聚类是指在根据数据记录相似情况归类的一系列技术。例如,一个数据记录可能由您的每一个客户的描述组成。在这种情况下,聚类将相似客户分在一组,同时将由此产生的不同客户组之间的差别最大化。通过这个例子我们可以看出有很多不同的聚类技术,每种技术都有自己从数据中发现类聚的方法。关联分析关联分析描述了在数据记录中决定关联的全部技术。最广为人知的关联分析是购物篮分析。在这种情况下,数据记录是在同一交易中所购买的物品,因为这一技术衍生于超级市场数