数据挖掘技术对电子商务平台的作用———以京东为例的数据挖掘应用分析作者:史俊禺班级:12计1指导老师:郑琪完成时间:2015.1.3第一章绪论1.1背景资料分析………………………………………………………………………………31.2数据挖掘应用对电子商务领域的意义……………………………………………………41.3数据挖掘过程………………………………………………………………………………41.4数据挖掘主要方法…………………………………………………………………………51.5数据挖掘系统体系结构……………………………………………………………………71.6数据挖掘在电子商务中的应用流程………………………………………………………8第二章以京东为例的数据挖掘应用分析2.1数据挖掘在电子商务中的应用分析——客户获得………………………………………92.11客户获得的定义………………………………………………………………………92.12数据挖掘可以对客户获得产生的作用………………………………………………92.13客户获得的步骤………………………………………………………………………92.2数据挖掘在电子商务中的应用分析——客户流失预测…………………………………112.21客户细分的定义……………………………………………………………………112.22客户流失预测步骤…………………………………………………………………132.3数据挖掘在电子商务中的应用分析——客户消费特征…………………………………142.31客户消费特征定义及背景…………………………………………………………142.32京东建立客户消费特征的过程……………………………………………………142.33RSS技术在电子商务平台的应用…………………………………………………162.34建立客户消费特征之后可应用的数据模块………………………………………17结语……………………………………………………………………………………………18摘要:在电子商务平台日益发展的今天,数据分析作为一种科学的手段,可以起到规范市场、节约成本、保护在线交易安全,而数据挖掘这门技术可以从大量繁杂数据中提取有用的信息,并发现特定的规律,为商家对客户的需求信息和行为预测提供可能性。本篇报告是作者在对数据挖掘课本学习的前提下,以京东商城为例,从互联网上搜集各类数据并进行分析,从客户获得、客户流失预测、客户消费特征这三个方面进行分析,最后归纳出数据挖掘在电子商务应用上的必然性和重要性。第一章绪论1.1背景资料分析电子商务是指个人或企业通过Internet网络,采用数字化电子方式进行商务数据交换和开展商务业务活动。电子商务的发展促使公司内部收集了大量的数据,并且迫切需要将这些数据转换成有用的信息和知识,为公司创造更多潜在的利润。数据挖掘(DataMining),又称数据库中的知识发现(KnowledgeDiscoveryinDatabase,KDD),是从大量的、不完全的、有噪声的、模糊的和随机的数据中,提取隐含在其中的、人们事先不知道的,但又是潜在有用的信息和知识的过程。数据挖掘涉及的科学领域和方法很多,其核心技术经历了数十年的发展其中包括统计,近邻,聚类,决策树,神经网络和规则等1.2数据挖掘应用对电子商务领域的意义⑴数据挖掘有助于发现电子商务业务发展的趋势,帮助电子商务企业做出正确的决策,使企业处于更有利的竞争位置。商业电子化的趋势不仅为客户提供了便利的交易方式和广泛的选择,同时也为商家提供了更加深入地了解客户需求信息和购物行为特征的可能性。数据挖掘技术作为电子商务的重要应用技术之一,将为正确的商业决策提供强有力的支持和可靠的保证,是电子商务不可缺少的重要工具。⑵数据挖掘有助于客户关系管理,特别是对电子商务客户关系管理起着决定性的作用。数据挖掘主要是找寻隐藏在数据中的信息,例如发现趋势、特征及相关性的过程,也就是从数据中发掘出信息或知识。以此对客户需求进行深入分析以满足企业对个体细分市场的客户关系管理需求。从发现客户到客户分类再到客户管理,数据挖掘通过各种针对性技术为企业客户关系管理提供了强有力的保证。将数据挖掘技术应用于客户关系管理,能够帮助企业深入理解客户,得到更加准确的客户模型,从而改进营销决策和客户服务。⑶数据挖掘可以促进电子商务平台的发展,加强企业电子商务平台应用的普及度。采用数据挖掘技术将电子商务中丰富的数据源信息进行有效组织利用对电子商务的具有巨大的应用价值。同时数据挖掘对于电子商务平台信息的挖掘分析可以帮助检验电子商务平台的性能,促进电子商务平台的智能化,帮助企业打造更具可操作性及吸引力的消费平台,为消费者提供更便利的消费环境。⑷数据挖掘有利于企业资源优化,合理分配资源以实现资源价值最大化。数据挖掘进行有效的统计分析挖掘,可以指导营销的组织和分配,让企业在市场竞争中处于有利位置抢占先机。通过数据挖掘可以发现消费者的消费特性,从而帮助制定个性化服务,极大地吸引顾客,既避免资源浪费,又为企业带来巨大的价值。1.3数据挖掘过程挖掘数据过程可以分为3个步骤:数据预处理、模式发现、模式分析。A.数据预处理实际系统中的数据一般都具有不完全性、冗余性和模糊性。因此,数据挖掘一般不对原始数据进行挖掘,要通过预处理提供准确、简洁的数据。预处理主要完成以下工作:包括合并数据,将多个文件或多个数据库中的数据进行合并处理;选择数据,提取出适合分析的数据集合;数据清洗、过滤,剔除一些无关记录,将文件、图形、图像及多媒体等文件转换成可便于数据挖掘的格式等。B.模式发现模式发现阶段就是利用挖掘算法挖掘出有效的、新颖的、潜在的、有用的以及最终可以理解的信息和知识。可用于Web的挖掘技术有路径选择、关联分析、分类规则、聚类分析、序列分析、依赖性建模等等。C.模式分析模式分析是从模式发现阶段获得的模式、规则中过滤掉不感兴趣的规则和模式。通过技术手段,对得到的模式进行数据分析,得出有意义的结论。常用的技术手段有:关联规则、分类、聚类、序列模式等。1.4数据挖掘主要方法a.数据统计方法使用这些方法一般首先建立一个数据模型或统计模型,然后根据这种模型提取有关的知识。例如,可由训练数据建立一个Bayesian网,然后,根据该网的一些参数及联系权重提取出相关的知识。b.关联规则方法关联规则是描述数据之间存在关系的规则,形式为“A1∧A2∧⋯An→B1∧B2∧⋯Bn”。一般分为两个步骤:第一步,求出大数据项集。第二步,用大数据项集产生关联规则数据库一组。运用关联规则的数据项往往存在某种潜在关联关系的规则。一找出所有类似的关联规则,对于企业确定生产销售、产品分类设计、市场分析等多方面是有价值的。c.人工神经网络方法人工神经网络是由大量的简单神经元,通过极其丰富和完善的连接而构成的自适应非线性动态系统,并具有分布存储、联想记忆、大规模并行处理、自组织、自学习、自适应等功能。人工神经网络是一种有效地预测模型,在聚类分析、奇异点分析、特征提取中可以得到。通过模拟人的神经元功能,经过输入层、隐藏层、输出层等,对数据进行调整、计算,最后得到结果,用于分类和回归。d.决策树方法决策树算法是目前应用最广泛的归纳推理算法之一,是一种逼近离散值函数的方法。它是以实例为基础的归纳学习算法,通常用来形成分类器和预测模型,着眼于从一组无次序、无规则的事例中推理出决策树表示形成的分类规则。它采用自顶向下的递归方式,在决策树的内部结点进行属性值的比较并根据不同的属性值判断从该结点向下的分支,最后在决策树的叶结点得到结论。因此从根到叶结点的一条路径就对应着一条合取规则,而整棵决策树就对应着一组析取表达式规则。决策树可能是现在最流行的有指导数据挖掘结构。e.聚类方法聚类分析是对群体及成员进行分类的递归过程。一个簇是一组数据对象的集合,在同一簇的对象彼此类似,而不同簇中的对象彼此相异。将一组物理或抽象对象分组成为由类似对象组成的多个簇的过程被称为聚类。聚类是将数据对象分组成为多个类或簇,在同一个簇中的对象具有较高的相似度,而不同簇中的对象差别较大。f.可视化技术数据与结果被转化和表达成可视化形式,如图形、图像等,使用户对数据的剖析更清楚。1.5数据挖掘系统体系结构(见下图)1.6数据挖掘在电子商务中的应用流程(见下图)第二章以京东为例的数据挖掘应用分析2.1数据挖掘在电子商务中的应用分析——客户获得2.11客户获得的定义客户获得是指企业在吸引潜在客户转变为实际购买者这一过程中所运用的策略和方法。客户获得的最佳值取决于企业保留客户的能力、客户重复购买的频次以及与保留客户相比获得客户的相对机遇。2.12数据挖掘可以对客户获得产生的作用由于现代线上交易的特点,即:客户数量庞大,需求多种多样,特征分类较多,用传统方式如问卷调查等已经不能全面科学的对客户获得产生作用,而利用数据挖掘可以根据客户的市场活动数据,在一定时间内分析其历史数据,总结出一个预测模型,从而可以针对不同的客户、不同的需求提供个性化服务信息,如广告投放、喜好预测等,来锁定重点客户,其中典型的方法有统计方法的贝叶斯分类、机器学习的判定树归纳分类、神经网络的后向传播分类等。2.13客户获得的步骤1.建立关系阶段。是卖方确立客户,买卖双方建立互信的阶段,买方对你的产品和服务并没有真正的使用经验。这个阶段是客户营销中最为关键的,也是需要消耗最多资源的。以京东为例:截止今年4月份,京东商城已经有4千万注册用户,2014年3、4月份订单量达到每月40万。【数据来源:驱动之家】建立关系的方法如增加广告投入、seo优化、优惠信息提示等2.稳定关系阶段。与客户关系进入稳定期以后,工作重点和关键就发生了转移,这个时候工作重点应该放在防止意外情况发生和积极进行危机管理。进入稳定阶段以后,沟通在客户管理中起着非常重要的作用。3.加强关系阶段。随着买卖双方信任和了解的加固,卖方应该对自己满足客户的能力进一步地加强和要求,应该更加深入分析客户的需求潜力。这也是增加销售内容和加固关系的最佳时期。在加强阶段要和客户建立一个互利互惠的关系。以京东为例:注:图片来源—《客户客户关系的建立与维护》(第3版)同时,京东还建立了积分制度,由购买商品和评价商品获得,此处不再赘述规则。优点:层次清晰,关键客户明确,会员制度提高客户忠诚度,积分制度的补充很充分。缺点:等级划分过多,会员的优惠有水分无法刺激客户的升级欲望,等级升级制度如五钻过于苛刻2.2数据挖掘在电子商务中的应用分析——客户流失预测2.21客户流失定义及背景由于企业各种营销手段的实施而导致客户和企业中止合作的现象就是客户流失而在互联网购物高度发展的今天,流失率不再是购物平台生存的决定性因素,而如何使用独特的销售手段和对客户购买行为的分析以及访问量和站内搜索量保持并增加客户数量成为各大购物平台竞争的主要目标。传统的客户流失预测采用时间阈值法和RFM法,但效果不佳,自1994年DavidCSchmittlein等人提出的SMC模型,可以科学的预测客户流失问题,这是首个真正意义上的客户行为预测模型。而在数据挖掘技术中对客户行为的预测,多采用回归分析、决策树和神经网络。近两年,SVM,贝叶斯网络,粗糙集等也被用于客户流失预测建模。本段着重介绍最常规的两种方法:决策树和贝叶斯分类。决策树决策树是一种流行的分类算法,具有学习快速块、分类准确率高、分类结果表现直观等特点。决策树的构造包括两个阶段:通过训练集生成决策树;对生成的决策树进行剪枝。应用决策树对新样本进行分类时,从树根节点开始对样本进行测试,根据测试结果确定下一个节点,直至到达也节点,叶节点所属类别就是新节点的预测类别。决策树算法有ID3,C4.5,C5.0,CART等。由于基于C4.5算法的决策树有良好的性能并且能够自动产生分类规则,应用C4.5算法对保险客户基本信息进行了分类,分析出了客户流失的特征,通过此模型,保险公司提高了客户挽留率。Kitayama通过基于决策树的方法对