第五章数据挖掘

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

5.1.1数据挖掘技术的由来数据爆炸但知识贫乏支持数据挖掘技术的基础数据挖掘逐渐演变的过程5.1.1数据挖掘技术的由来数据挖掘数据库越来越大有价值的知识可怕的数据支持数据挖掘技术的基础更大,更便宜的存储器--磁盘密度以飞速增长--存储器价格飞快下降更快,更便宜的信息处理器--分析更多的数据--适应更多复杂的模型--引起更多查询技术--激起更强的可视化技术数据挖掘处理技术--数理统计--人工智能--机器学习数据挖掘的逐渐演化的过程机器学习数据库中的知识发现KDD数据挖掘5.1.2数据挖掘的定义技术上的定义及含义数据挖掘(DataMining)就是从大量的、不完全的、模糊的、随机的实际应用数据中,提取隐含在其中的、事先不知道的但又是潜在有用的信息和知识的过程。5.1.2数据挖掘的定义商业角度的定义数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。定义为:按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知或验证已知的规律性,并进一步将其模型化的先进有效的方法。5.1.2数据挖掘的定义数据挖掘与传统分析方法的区别数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的信息应具有先前未知,有效和可实用三个特征.5.1.3数据挖掘的功能自动预测趋势和行为数据挖掘自动在大型数据库中寻找预测性信息,以往需要进行大量手工分析的问题如今可以迅速直接由数据本身得出结论。5.1.3数据挖掘的功能关联分析关联是某种事物发生时其他事物会发生的这样一种联系。关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库中数据的关联函数,即使知道也是不确定的,因此关联分析生成的规则带有可信度。5.1.3数据挖掘的功能分类按照分析对象的属性、特征,建立不同的组类来描述事物。例如:银行部门根据以前的数据将客户分成了不同的类别,现在就可以根据这些来区分新申请贷款的客户,以采取相应的贷款方案。5.1.3数据挖掘的功能聚类聚类是把一组个体按照相似性归成若干类别,即“物以类聚”。它的目的是使得属于同一类别的个体之间的距离尽可能的小,而不同类别上的个体间的距离尽可能的大。5.1.3数据挖掘的功能概念描述概念描述就是对某类对象的内涵进行描述,并概括这类对象的有关特征。概念描述分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者描述不同类对象之间的区别。5.1.3数据挖掘的功能偏差检测数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义。偏差包括很多潜在的知识,如分类中的反常实例、不满足规则的特例、观测结果与模型预测值的偏差、量值随时间的变化等。偏差检测的基本方法是,寻找观测结果与参照值之间有意义的差别。5.1.4数据挖掘应用数据挖掘所能解决的典型商业问题包括:客户群体划分背景分析交叉销售客户流失性分析客户信用记分欺诈发现等等。5.2数据挖掘的技术统计方法:回归分析(多元回归、自回归等)、判别分析(贝叶斯判别、费歇尔判别、非参数判别等)、聚类分析(系统聚类、动态聚类等)、探索性分析(主元分析法、相关分析法等)、以及模糊集、粗糙集、支持向量机等机器学习方法:归纳学习方法(决策树、规则归纳等)、基于范例的推理、遗传算法、贝叶斯信念网络等。神经网络方法:前向神经网络、自组织神经网络等。数据库方法:基于可视化的多维数据分析或OLAP方法,面向属性的归纳方法。5.2.1常用数据挖掘方法决策树决策树提供了一种展示类似在什么条件下会得到什么值这类规则的方法。数据挖掘中决策树是一种经常要用到的技术,可以用以分析数据,同样也可用来作预测。常用的算法有CHAID、CART、Quest等决策树图5.2.1常用数据挖掘方法人工神经网络神经网络用来解决大复杂度问题。神经网络可以很容易的解决具有上百个参数的问题。神经网络常用于两类问题:分类和回归。人工神经网络5.2.1常用数据挖掘方法规则推导规则推导,从统计意义上对数据中的“如果-那么”规则进行寻找和推导,得到关联规则。关联规则挖掘发现大量数据中项集之间有趣的关联或相关联系。5.2.1常用数据挖掘方法可视化技术用图表等方式把数据特征用直观地表述出来,如直方图等,这其中运用的许多描述统计的方法。可视化技术面对的一个难题是高维数据的可视化。5.2.2其他数据挖掘技术统计分析方法,在数据库字段项之间存在两种关系:函数关系和相关关系,对它们的分析可采用回归分析、相关分析、主成分分析等方法。模糊论方法,利用模糊集合理论,对实际问题进行模糊判断、模糊决策、模糊模式识别、模糊簇聚分析。5.2.3数据挖掘的流程确定业务对象数据准备数据挖掘结果分析和知识同化5.2.3数据挖掘的流程数据挖掘过程工作量数据挖掘需要的人员业务分析人员:要求精通业务,能够解释业务对象,并根据各业务对象确定出用于数据定义和挖掘算法的业务需求。数据分析人员:精通数据分析技术,并对统计学有较熟练的掌握,有能力把业务需求转化为数据挖掘的各步操作,并为每步操作选择合适的技术。数据管理人员:精通数据管理技术,并从数据库或数据仓库中收集数据。5.1.5数据挖掘未来研究方向发现语言的形式化描述寻求数据挖掘过程中的可视化方法研究在网络环境下的数据挖掘技术加强对各种非结构化数据的开采处理的数据将会涉及到更多的数据类型5.3数据挖掘在CRM中的应用5.3.1从客户生命周期角度分析数据挖掘的应用5.3.2从行业角度分析数据挖掘技术的应用5.3.1从客户生命周期角度客户生命周期分析在客户生命周期的过程中,各个不同的阶段包含了许多重要的事件。数据挖掘技术可以应用于客户生命周期的各个阶段。不同客户生命周期阶段出现的数据数据挖掘将提高企业客户关系管理能力,包括争取新的客户,让已有的客户创造更多的利润、保持住有价值的客户等等。客户生命周期分析不同客户生命周期阶段出现的数据5.3.2从行业角度分析CRM中数据挖掘应用的深度和广度针对行业的不同而有所不同,特别是针对与客户交流频繁、客户支持要求高的行业,如银行、证券、保险、电信、税务、零售、旅游、航空、医疗保健等。5.3.2从行业角度分析零售业CRM中的数据挖掘:(1)使用多特征数据立方体进行销售、客户、产品、时间和地区的多维分析;(2)使用多维分析和关联分析进行促销活动的有效性分析;(3)序列模式挖掘可用于客户忠诚分(4)利用关联分析挖掘关联信息进行购买推荐和商品参照。5.3.2从行业角度分析电信业CRM中的数据挖掘:①电信数据的多维分析有助于识别和比较数据通信情况、系统负载、资源使用、用户组行为、利润等;②通过多维分析、聚类分析和孤立点分析进行盗用模式分析和异常模式识别;③通过多维关联和序列模式分析进行电信服务组合和个性化服务;④电信数据分析中可视化工具的使用。5.3.2从行业角度分析金融业CRM中的数据挖掘①为多维数据分析和数据挖掘设计和构造数据仓库;②特征选择和属性相关性计算有助于贷款偿还预测和客户信用政策分析;③分类和聚类的方法可用于客户群体的识别和目标市场的分析;④通过数据可视化、链接分析、分类、聚类分析、孤立点分析、序列分析等分析工具帮助进行洗黑钱和其他金融犯罪的侦破。5.4数据挖掘在CRM中的应用问题定义数据预处理数据挖掘模型检验5.4.1数据挖掘应用实施过程5.4.2数据挖掘软件——PolyAnalystPolyAnalyst数据挖掘软件是一套由MegaputerIntelligenceInc开发的软件。拥有大量数据挖掘(DataMining)方法,对数据分析十分有用。PolyAnalyst具有集成的GUI环境。PolyAnalyst是一个多策略的数据挖掘解决方案,能够处理大多数数字、类型、布尔型的变量。5.4.2数据挖掘软件——PolyAnalystPolyAnalyst提供下列功能:数据访问、数据操纵和清洗、机器学习、可视化和报表。PolyAnalyst支持完整数据挖掘,功能包括分类、聚类、预测、关联,支持微软数据仓库通讯接口OLEDB,能透过SQL查询数据仓库内数据。PolyAnalyst应用广泛。已超过300个客户选用进行自动知识发现,为公司解决因难的问题和作出商业上的决定。5.4.3问题定义企业为进行新产品宣传推广,要给潜在的客户进行电话推销,或者发邮件给对该产品可能有兴趣的客户。无论是通过电话、邮件、传真或是面对面接触,进行直销的企业必须为每一位它要接触的客户消耗成本。而大多数情况下,客户都是对其没有响应。如果客户响应率很低,企业就会发现她在客户接触中花掉太多的成本。如果有什么办法可以通过在进行直销之前预测哪些客户可能会对推销有兴趣从而提高客户响应率的话,这将大大提高直销企业的利润。5.4.3问题定义数据挖掘可提供这种预测能力。企业在过去营销过程中积累了大量的历史数据,而且可以获得大量的相关客户的公众信息,以及这些客户在以往销售过程中的反应情况。利用PolyAnalyst对商业数据进行分析,可以得到客户接触响应的预测模型。企业直销就不再是对每一位客户或是随机对客户进行,而是针对预测得到高可能性的客户,这必将降低直销成本。5.4.4实验数据准备实验数据中有900条不同预期客户的特征信息,对于每个目标客户,数据提供如下特征信息:某一特定办公地点的员工数(Local_Emp)整个企业的员工数(Ttl_Emp)某一特定办公地点的年销售额(Local_Sale)整个企业的销售额(Ttl_Sale)该企业是否有海外业务(International_Flag)标志企业每年用于广告的费用的符号(Ad_Spending)该企业是运作地点(New_Location)企业是国有还是私营(Owner)所属工业类型细分类别(Pri_Ind_Type)和大类(Pri_Ind_Cat)公司经营的年份(Age)。这些都不与该企业是否购买推销产品做出回应有明显的直接关系,但通过PolyAnalyst可以发现它们之间的内在联系。(1)打开新建项目。首先打开PolyAnalyst,在菜单中选择Project/New或单击createproject按钮,创建新的项目5.4.5数据预处理——导入数据(1)在导入向导窗口选择Flatfile单选按钮,单击Next进入选择源文件窗口,单击sourcefilename后面的Browse按钮。选择dmarket.csv文件,地址为光驱盘符实验数据/dmarket.csv,单击Finish按钮,进入项目编辑对话框。5.4.5数据预处理——编辑项目①属性Pri_Ind_Type初始为数值型,需要将其设置为类别类型。单击Pri_Ind_Type属性的Type列,在下拉式列表中选择Category。②按照第一步的将Age,Local_Emp,Ttl_Emp,Ttl_Sale,和Local_Sale属性的类型转别为integer类型,因为它们仅包含整型值。③将Buyer_Cat的类型转变为Yes/No。5.4.5数据预处理——更改属性类型•在PolyAnalyst中可以通过创建规则来提高数据分析效果。当地销售(Local_Sale),总销售(Ttl_Sale),当地员工数(Local_Emp),和总员工数(Ttl_Emp)会因公司规模的不同而各不相同。这些指标是用来描述企业规模的,但它们受到其他重要因素的影响,如企业产量、分支机构数、边际利润等。因此,通过利用公司规模的度量值和一些比率老反映其他特征的数据集将更好的描述一个企业。比率数据将企业规模的影响剔除掉,留下一些其他的企业特征。如当地销售/当地员工数反映员工的效率。这些比率在PolyAnalyst中可以作为规则创建。(1)在菜单中选择CreateObject/|CreateRule5.4.5数据预处理——创建规则•创建规则5.4.5数据预处理——创建规则Emp_Sale比率是按员工总数平均的销售额,它反映了公司员工的生产效率。•将创建

1 / 59
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功