★★★文档资源★★★内容摘要:数据挖掘技术在经济中的应用是信息决策、经济管理等领域的前沿研究方向之一。企业决策离不开销售预测,传统的预测系统已远远不能满足要求。针对传统预测系统存在的问题,详细探讨了应用数据挖掘技术的相关内容,并设计了面向销售预测的数据挖掘一般结构框架。关键词:决策销售预测数据挖掘随着市场经济的发展和经济的全球化,企业面临着越来越残酷的市场竞争。企业要想赢得竞争、赢得客户,就必须在最快的时间内,以最低的成本将产品提供给客户,这使得进行正确及时的产品销售预测及由此产生的可靠的决策,成为现代企业成功的关键要素。由此,一些销售预测系统也应运而生。可是,随着计算机技术、网络技术、通讯技术和Internet技术的发展和各个业务操作流程的自动化,企业产生了数以几十或上百GB的销售历史数据,面对这些海量数据,传统的预测系统越来越不适应新的预测要求,主要表现在:大量的历史数据处于脱机状态,变成了“数据坟墓”。预测涉及海量数据的处理,传统的方法无法满足运行效率、计算性能、准确率及存储空间的要求。预测所需的数据含有大量不完整(缺少属性值或仅包含聚集数据)、含噪声(错误或存在偏离期望的孤立点值)、不一致的内容(来源于多个数据源或编码存在差异),导致预测陷入混乱。传统的数据库技术在预测知识的表达、综合和推理方面能力比较薄弱,难以满足日益提高的预测要求。在这种情况下,一个新的研究领域——数据挖掘DM(DataMining)的出现引起了学术界和产业界的广泛关注。进行销售预测数据挖掘前的数据准备问题数据挖掘一般包括数据准备、数据挖掘和结果的解释与评价三个阶段。数据挖掘结果的质量与被挖掘数据质量息息相关。数据准备就是对被挖掘数据进行定义、处理和表示,使它适应于特定的数据挖掘方法。数据准备是数据挖掘过程中的第一个重要步骤,在整个数据挖掘过程中起着举足轻重的作用。它包括以下几个步骤:数据清洗一般来说,销售历史数据来源于异质操作数据库。这些异质操作数据库中的数据并不都是正确的,常常不可避免地存在着不完整、不一致、不精确和重复的数据,这些数据统称为“脏数据”。脏数据能使挖掘过程陷入混乱,导致不可靠的输出。数据清洗通过填写空缺的值,平滑噪声,识别、删除点,解决不一致来“清洗”数据。它可以在数据装入数据仓库之前进行,也可以在装入之后进行。数据清洗技术一般可分为基于规则的方法、可视化方法和统计学法方法。基于规则的方法根据字段定义域的元知识、约束和与其它字段的关系对该字段的每一数据项进行评估;可视化方法以图形方式显示数据集的有效轮廓,从而很容易辨别脏数据;统计学法方法通过统计技术填补丢失的数据和更正错误的数据。数据集成与变换在进行销售预测数据挖掘时常常需要将多个数据存储合并,并转换成适合挖掘的形式。在销售历史数据中,我们常常会发现代表同一概念的属性在不同的数据库含有不同的名字,这将会导致不一致和冗余,而含有大量不一致和冗余数据会降低数据挖掘过程的性能或使之陷入混乱。将数据集成与变换将减少或避免这种情况,提高数据挖掘的精度与速度。数据集成要考虑实体识别问题、相关性分析问题、数值冲突检测与处理问题等。实体识别问题即如何将来自多个信息源的实体匹配;相关分析问题即通过相关性分析来检测数据冗余;数值冲突检测与处理问题即通过对元组级冗余检测,消除数据语义上的异种性。而数据变换涉及到平滑、聚集、数据概化、规范化、属性构造等,通过这些处理将数据转换成适合于挖掘的形式。数据归约当选择用于数据分析的数据集过大,在海量数据上进行复杂的数据分析和挖掘将需要很长时间,使得这种数据挖掘不现实、不可行。而数据归约技术可以“压缩”数据集,得到其“归约”表示,它小的多,但仍接近于保持原数据的完整性,使得在归约后的数据集上进行挖掘更有效。其策略包含数据立方体聚集、维归约、数据压缩、数值压缩、离散化和概念分层等,这些涉及到了多特征方、压缩搜索空间的启发式算法、小波变换、主要成分分析PCA、回归和对数线性模型、****索引树、离散化技术等。目前这个领域仍然是一个非常活跃的研究领域。面向销售预测的数据挖掘工具目前可用于销售预测的数据挖掘工具主要是一些统计分析方法,如时间序列分析、线性回归模型分析、非线性回归模型分析、灰色系统模型分析、马尔可夫分析法等,它是目前最成熟的数据挖掘技术。然而,一方面由于产品的需求往往是由许多因素综合决定的,传统的统计分析方法往往只是考虑了其中的一部分,而且影响需求的各种因素之间往往存在着各种错综复杂的相互作用,依传统方法建立的简单模型无法表达这种相互作用;另一方面,由于庞大的销售数据集的性质往往非常复杂,且非线性、持续性及噪音普遍存在,因此需要一种不同于传统的新的理论和方法去解决数据挖掘中的问题。而神经网络作为一种非线性自适应动力学系统,具有通过自学习提取信息的内部特征的优点,非常适合解决销售数据中的数据挖掘问题。自从1987年Lapedes和Farber首先应用神经网络进行预测以来,神经网络已成为一种非常有前途的预测方法,近年来已成为经济预测、管理决策、数据挖掘领域研究的热点。神经网络可很好地胜任数据挖掘技术,它通过模拟人脑反复学习技术来工作的。对给出的样本数据,神经网络通过类似人类记忆过程的方式学习数据中的统计规律,归纳出能描述样本特征的数据模型,然后用已学会的数据模型分类新给出的数据。用神经网络挖掘知识时,分析者首先找出一组变量,这些变量中需要有导致实例结果的因素。神经网络通过反复学习,找出变量与结果的函数关系,再用这一函数对新数据分类、预测、评价等处理。目前已有一些神经网络模型已很好地运用于销售预测,分析、预测销售的未来波动等,表现出良好的运用前景。销售预测的数据挖掘结构框架为克服传统预测系统的缺陷,将数据挖掘技术应用到销售预测中来。我们设计的基于数据挖掘的销售预测支持系统由人机交互系统、知识库、数据库(或数据仓库)、数据挖掘工具、模型管理系统、知识库管理系统和分析解释系统等部分组成。其结构框架如图1所示。其中,数据挖掘工具通过数据库API访问数据库或数据仓库,并执行销售预测的各种挖掘任务。面向销售预测的数据挖掘过程在利用数据挖掘技术进行销售预测时,现有的数据挖掘工具能自动完成许多工作,但挖掘过程中每一步应特别小心,否则会推导出错误的结论。数据挖掘并不一定遵循特定的过程,但一般的步骤包含以下几个方面:在进行数据挖掘工作前,要清楚地知道数据挖掘的目标。事先明确挖掘的业务目标,确定达到目标的评价方法,这将大大减少挖掘工作的难度和工作量。选择数据。这些数据可能是数据仓库或数据集市,也可能是各个联机事务处理系统中的数据。数据预处理。这个过程可以改进销售数据质量,从而有助于提高其后的挖掘过程的精度和性能。高质量的销售决策必然依赖于高质量的数据,检测数据异常、尽快调整数据,并归约待分析的数据,将在决策过程得到高回报。在开始挖掘工作前,需要具体每一个细节,确定哪些想法需要验证,哪些方面需要用工具从数据中得出假设。构造数据挖掘模型。通常,先用随机数作种子把数据分为两部分:训练集和测试集,用于构造和评估模型。用数据挖掘工具去测试数据质量,比较各种工具输出的结果,从而精确地构造出模型。验证结论。确定结论是否正确和符合业务要求,如果挖掘的结果有错误就要寻找错误的原因,并对数据重新挖掘,重新构造模型。信息处理技术的飞速发展,加上人们孜孜不倦地对销售预测效果的追求,使得数据挖掘技术在销售预测中应用成为一个非常自然的选择。数据挖掘作为一种新的技术,它可以对销售数据进行深层次的分析,采掘到隐含在数据中的有用信息,发现和把握新的市场机会,为企业的管理决策提供科学的依据。数据挖掘技术对销售预测技术带来的挑战,无疑将推动销售预测的发展。参考资料:1.WilliamJ.Stanton,RosannSpiro,江明华总校译,销售队伍管理[M],北京:北京大学出版社,2002.12.黄逢谷,市场预测方法与案例[M],上海:立信会计出版社,1996.43.胡玉立,企业预测与决策[M],北京:中国时代经济出版社,1995.34.JiaweiHan,MichelineKamber,范明、孟小峰等译,DataMining:ConceptsandTechniques[M],北京:机械工业出版社,2001