2.1.1数据挖掘技术的出现随着信息技术的高速发展,数据库应用的规模、范围和深度空前发展,数据的应用日益普及。人类积累的数据量正在以指数速度迅速增长。目前的数据库系统可以高效地实现数据的录入、查询、统计等功能,但无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势,缺乏挖掘数据背后隐藏的知识的手段。这样,在“数据过剩”和“信息爆炸”的同时,人们又感到“信息贫乏”和“数据关在牢笼中”,人类正被信息淹没,却饥渴于有用信息的提取。面临浩渺无际的数据海洋,人们迫切需要一种自动地和智能地将待处理的数据转化为有用的信息和知识的方法,从而达到为决策服务的目的。在这种情况下,数据挖掘(DataMining)应运而生。1989年8月,在美国底特律举行的第十一界国际联合人工智能学术会议上首次出现了“数据库中的知识发现”(KDD:KnowledgeDiscoveryinDatabase)一词。随着KDD在学术界和工业界的影响越来越大,国际KDD组委会于1995年把专题讨论会更名为国际会议,迄今为止,由美国人工智能协会主办的KDD国际研讨会已经召开了17次,规模由原来的专题讨论会发展到国际学术大会,人数由二三十人到超过千人,论文收录数量也迅速增加,研究重点也从发现方法逐渐转向系统应用直到转向大规模综合系统的开发,并且注重多种发现策略和技术的集成,以及多种学科之间的相互渗透。其他内容的专题会议也把数据挖掘和知识发现列为议题之一,成为当前学术界的一大热点。需要强调的是,数据挖掘(DM)和知识发现(KDD)技术它虽然起步比较晚,但发展步伐很快,从目前国内外的研究与应用来看,可谓是如火如荼,越来越显示出强大的生命力。2.1.2数据挖掘的定义及步骤简单地说,数据挖掘是从大量数据中提取或“挖掘”知识。其实数据挖掘更正确的命名为“从数据中挖掘知识”,不幸的是这有点长。“知识挖掘”是一个短语,可能不能反映从大量数据中挖掘。毕竟,挖掘是个生动的术语,它抓住了从大量、未加工的材料中发现少量“金块”这一过程。这样,这种用词不当但携带了“数据”和“挖掘”,成了流行的选择。还有一些术语,具有和数据挖掘类似但稍有不同的含义,如“数据库中知识挖掘”、“知识提取”、“数据/模式分析”、“数据数据准备→数据挖掘→结果解释和评价。2.1.3数据挖掘技术的未来数据挖掘的前景被人们普遍看好。国际知名调查机构IT研究与顾问咨询公司GartnerGroup在高级技术调查报告中,将数据挖掘和人工智能列为“未来三到五年内将对工业产生深远影响的五大关键技术”之首,还将并行处理体系和数据挖掘列为未来五年内投资焦点的十大新兴技术前两位。Gartner的调查报告预计:到2010年,数据挖掘在相关市场的应用将从2002年少于5%增加到超过80%。美国银行家协会预测数据仓库和数据挖掘技术在美国商业银行的应用增长是14.9%。数据挖掘的研究和应用必将受到学术界和实业界越来越多的重视。中国计算机报通过面谈、电子邮件、电话等方式进行题目为“2004年哪些IT产品技术将受到用户青睐?”的调查,采访了政府部门行业企业等60家重点单位的信息部门主管,包括20家国家部委及其直属局如劳动和社会保障部、农业部、铁道部、教育部等部门的信息主管,以及石化、汽车、电力、能源、教育、医疗、保险、制造等行业的40家重点企业的信息部门主管,如中国石化、一汽集团、长安汽车等。50%的被采访者表示正在或将要开展数据挖掘应用。当谈及为何关注数据挖掘时,大多数采访者表示主要是为了辅助分析决策。2.2常用的数据挖掘技术及方法概述在数据挖掘的处理过程中,数据挖掘的技术最为关键。数据挖掘技术层出不穷,种类较多,常用的主要有关联规则技术、神经网络技术、决策树技术、分类与聚类技术、多层次数据汇总归纳技术、覆盖正例排斥反例技术、粗集技术、公式发现技术、统计分析技术、模糊论技术、可视化技术、遗传算法技术、机器学习方法、序列模式分析方法等。本文案例中建立的是客户分类模型,所以笔者在此主要介绍一下分类技术。分类(Classification)是常见的数据挖掘任务之一,分类就是假定数据库中的每个对象属于一个预先给定的类,从而将数据库中的数据分配到给定的类中。因此,分类工作首先要有一个清晰定义的类,还要有一系列已分类的实例。分类过程实际上是建立某种模型,然后将其用于对未分类数据进行分类。数据挖掘中常用的分类方法有:决策树,神经网络,Logistic回归。鉴于本文采用的方法,这里主要介绍Logistic回归和决策树。3.1.1精确营销的产生精确营销(Precisionmarketing)就是在对客户精细分定位的基础上,依托现代信息技术手段建立个性化的顾客沟通服务体系,实现企业可度量的低成本扩张之路。精确营销最早是以邮购、目录销售的形式出现的。有一些厂商,或因产品适合寄送,或因通路建立费时费力,或因竞争压力,或因地域广大,或因产品冷门等,采用了直邮广告,提供邮购,以达成销售。由于受到了邮购行业的刺激,一些没有中间商(批发、零售)的行业,如出版业及金融业也开始采用这种方式进行销售工作。在这种背景下,世界直效行销创始人莱斯特.伟门于1999年提出了精确营销的概念。莱斯特.伟门对精确营销的定义是:改变以往的行销渠道及方法,以生产厂商的客户和销售商为中心,通过电子媒介、电话访问、邮寄、国际互联网等方式,建立客户、销售商资料库。然后通过科学分析,确定可能购买的消费者,从而引导生产厂商改变销售策略,为其制定出一套可操作性强的销售推广方案,同时为生产厂商提供客户、销售商的追踪服务。莱斯特.伟门给出了精确营销最为原始的方法,但是精确营销在它以后的发展中,随着行业应用空间的拓展,开始有了更为新鲜而泛化的内涵。因此本文对精确营销给出一个具有广泛适用性的定义:精确营销是以科学管理为基础,以消费者洞察为手段,恰当而贴切地对市场进行细分,并采取精耕细作式的营销操作方式,将市场做深做透,进而获得预期效益。3.1.2精确营销的目的精确营销的主要目的就是降低营销成本,提高营销效率,发现不同客户需求差异,进行针对性较强的组合营销。那么,发现客户的不同需求和不同消费倾向仅仅依靠传统方法是无法在客户海量信息中完成的,必须依靠数据挖掘技术,利用数据仓库、联机事务分析等手段,利用聚类法、关联分析法、决策树法,以及神经网络法等发现和预测客户消费倾向,找到客户消费规律,协助制定营销策略。具体来说精确营销就是要达到以下目的。1、了解消费者需求随着市场竞争的加剧,企业过去的生存空间将变得异常拥挤,同时,消费者需求不断变化,都需要企业去开辟产品及服务的新空间,去创造新的价值。价值创造构成企业战略的目标,而科学的客户细分就将成为实现战略目标的指南针,对消费者需求差异的理解和满足就显得十分关键。2、节约营销成本当大众广告和促销活动盛行的时候,很多营销经理都感到迷茫,“有一半的广告费用我不知道浪费在哪里”。当消费者不再容易被蛊惑的时候,企业就不能再依靠地毯式的轰炸来攫取市场,这样只能收效甚微。面对激烈的竞争环境和挑剔的消费者,企业要想生存就必须考虑成本收益。3、资源合理利用信息技术正经历着天翻地覆的变化,数据挖掘技术、大容量存储技术、非结构化和半结构化查询技术以及已经普及的网络技术的广泛应用,使得关系营销、网络营销、数据库营销在技术上成为现实。借助众多的技术手段,企业则可以真正了解到消费者所需要的产品、服务,并最大限度满足其需求。3.1.3精确营销的过程1、整合客户信息将分散在企业内部各个IT系统中的数据,以及企业外部数据(如市场调查、第三方数据等)分类后,以客户ID为关键字进行抽取、转换并装载(ETL)到一个集中的数据库中,作为进行全面客户研究和分析的基础,并为下一步进行数据挖掘所需的目标数据集设计提供可用的数据源。2、了解客户需求形成客户群后,对客户群的描述直接影响到营销活动的策划和执行,因此我们还需要对客户做进一步的了解和刻画。3、筛选目标客户企业从客户战略和当前营销工作重点出发筛选出目标客户群;根据目标客户群的营销活动目标,设计针对该客户群的营销活动创意(包括产品组合的选择以及渠道的选择等内容),制订产品组合定价,并对其可能造成的影响进行评估,根据评估结果挑选出最佳创意,然后形成最终营销方案。4、执行营销活动按照营销活动计划,执行相关的市场营销活动。5、评估营销效果基于营销活动执行过程中收集到的数据,对营销活动的执行、渠道、产品和广告的有效性进行评估,寻找需要改进和优化的关键点,总结和获取在执行期间得到的相关经验和教训,为下一阶段的营销活动打下良好的基础。3.2基于数据挖掘技术的精确营销精确营销就是在对客户精确细分定位的基础上,依托现代信息技术手段建立个性化的顾客沟通服务体系,实现企业的利润最大化。可以看出,精确营销的基础是客户细分类聚,但是,做到科学地对客户细分,必须在掌握大量客户信息基础上,对这些信息内涵的客户特征进行类聚挖掘,发现不同客户群体的不同消费特征,制定不同营销策略,做到精细的“有的放矢”,这就是基于数据挖掘的精确营销。其基本过程如下。3.2.1客户数据收集与整理将经过预处理准确的客户数据收集和存储到一条逻辑记录中,该过程是实现客户细分和理解的必要条件,这项工作分为两个步骤:1、建立客户数据库将分散在企业内部各个IT系统中的数据,以及企业外部数据(如市场调查数据、第三方数据等)分类后,以客户ID为关键字进行抽取、转换并装载到一个集中的数据库中,作为进行全面客户研究和分析的基础,为下一步进行数据挖掘所需的目标数据集提供可用的数据源。2、生成目标数据集一般来说,日常的运营数据的组织形式都是没有固定主题的,因此就需要将所有与客户相关的所有历史数据根据挖掘任务的不同,选择不同主题,并将相关数据有机地整合为一个整体,形成数据集。例如以客户为主题的所有用户的记录集合就称为以客户为主题目标数据集。目标数据集的记录是由许多个字段组成,每个字段都反映了客户数据的某个方面的信息。在对目标数据集记录的字段名、字段的数据来源、字段的逻辑进行设计后,通过各种工具将原始数据转化为目标数据集。同理,根据分析需求的不同,可以生成不同主题的数据集(例如:产品集、价格集、满意度集等),从而构成数据挖掘的基础。3.2.2通过数据挖掘理解客户需求1、客户类聚客户类聚就是把客户分成一个个具有某些相同特征的群体,在每个群体内部,客户的特征非常相似,而在群体与群体之间,客户的特征非常不相似。有了这样的客户类聚,企业就可以对每个客户群有效地管理并采取相应的营销手段,提供符合这个客户群特征的产品或服务,从而起到类似于“GPS”的精确营销作用。2、通过数据分析理解客户形成客户群后,对客户群的描述直接影响到营销活动的策划和执行,因此我们还需要对客户的特征做进一步的了解和剖析。这些剖析可以有基本特征的剖析,也可以根据不同的专题的深入刻画(例如产品的关联度),有时还需要加入外部信息进行丰富。针对专题的剖析应根据主题情况而变,最终形成的客户群特征描述,把很多枯燥无味的数据变成活生生的客户的特性体现,以帮助市场营销人员更好地理解客户群。由于客户本身是不断变化的,因此客户群的构成和特征也是动态的,我们需要以灵活动态的指导思想理解客户群,才能得到正确的结论。一般来说,企业应根据客户关系生命周期进行不同阶段的客户类聚和理解,在生成客户营销策略后,需要对客户进行再次的细分和类聚,以满足设计产品、价格、渠道和广告等策略。这个时候,就需要其他的数据模式和维度,例如设计广告策略,可能就需要以媒体习惯对客户群进行再次的划分,形成电视维、广播维、杂志维等;设计产品策略,就需要根据客户群的消费特征进行划分,形成基本功能维、包装维、送货安装维等。3.2.3营销方案设计与实施企业从客户营销策略和当前营销工作重点出发,筛选出适合自身的目标客户群。根据目标客户群的营销活动目标,可以采用头脑风暴法、专家访谈法,结合以往的营销经验,设计针对该客户群的营销活动创意(包括产品组合的选择以及渠道的选择等内容),制定产品组合定价,并对其可能造成的影响进行评估,根据评估结果挑