SQL_Server_XXXX_BI数据挖掘案例(库存预测)

整理文档很辛苦,赏杯茶钱您下走!

免费阅读已结束,点击下载阅读编辑剩下 ...

阅读已结束,您可以下载文档离线阅读编辑

资源描述

背景知识向顾客提供大量产品的国内和国际零售商都面临着共同的挑战:确保其众多的商店具有适当的产品库存级别。确定适当的库存级别问题需要在以下两种竞争成本间进行权衡。1.高级别库存的存储成本。这些成本指零售商为安全的实际空间、额外的供应商购买以及在所有零售商店中与维持高级别产品库存相关的分配所支付的代价。2.丧失销售的成本。如果顾客进入商店,想要购买某种特定的产品,但由于该产品已脱销而无法供货,就形成了这些成本。面对这种进退两难的情况,零售商通常有两种选择。零售商可以保持高库存,而承担高库存成本;或者保持低库存成本,而承担在顾客需要购买时由于没有产品而丧失销售机会的风险。权衡这些竞争成本的最佳方式是构建预测模型来确保每个连锁商店都具有适当的库存级别。过去零售商依靠供应链软件、内部分析软件甚至直觉来预测库存需求。随着竞争压力的一天天增大,很多零售商(从主要财务主管到库存管理员)都开始致力于找到一些更准确的方法来预测其连锁商店应保有的库存。预测分析是一种解决方案。它能够准确预测哪些商店位置应该保持哪些产品。本文介绍如何使用Microsoft(R)SQLServer(TM)2005中的AnalysisServices以及SQLServer数据仓库,采用数据挖掘技术为产品存储决策提供准确及时的信息。此处介绍的方法用于在商店/产品级别上提供脱销预测。对于某种特定产品,SQLServer2005AnalysisServices用于构建数据挖掘模型,该模型为每个连锁商店提供脱销预测。此方法使零售商能够有效地权衡与存储产品库存相关的竞争成本。返回页首关于ProjectREALProjectREAL致力于找出创建基于SQLServer2005的商业智能(BI)应用程序的最佳方法。在ProjectREAL中,我们通过创建基于真实客户方案的引用实现来进行。这意味着将客户数据引入内部,并使用这些数据来解决各个客户在部署过程中将会面临的相同问题。这些问题包括:•架构设计-关系架构和AnalysisServices中使用的架构。•数据提取、转换和加载(ETL)过程的实现。•客户前端系统的设计与部署,以便进行报告和交互式分析。•生产系统的规模大小调整。•对运行中的系统的管理与维护,包括对数据的增量式更新。通过分析真实的部署情况,我们可以全面了解如何使用SQLServerBI工具实现BI系统。我们的目标是致力于解决可能希望分析大型数据集的公司在其实际部署中遇到的所有问题。本文概述了至今已为ProjectREAL执行的数据挖掘工作。很多其他文章介绍了已经完成的工作和在其他领域学过的课程。要查找最新的信息,请访问ProjectREAL网站()。返回页首数据仓库说明在ProjectREAL中,构建的数据仓库用于为在全国拥有数百家商店的零售商的数百万种产品汇总销售数据。用于构建脱销预测模型的相关数据集有:•以商店级别、产品(项)级别、天级别合计的销售量事实数据。具体地说,是为已经销售的每种产品、零售商的每个连锁商店存储每日销售量。•以商店级别、产品(项)级别、天级别合计的库存事实数据。具体地说,这是每种产品、每天、零售商的每个连锁商店的产品在库存中的天数。•由产品名、说明、零售价和产品类别层次结构组成的产品(项)信息。•由商店说明、商店分类(例如,指定是大型商店还是小型商店的指标)、商店分区、商店区域、商店地区、城市、邮政编码、省/自治区、货架空间线性尺寸和其他商店信息组成的商店信息。•日期信息(日期维度),它将事实数据级日期标识符映射到相应的财务周、财务月、财务季、财务年和其他日期信息。具有一个清晰、最新的数据仓库可以为所有商业智能应用程序利用此有用的信息资产提供可靠的基础。在此特殊的构建脱销模型的任务中,数据仓库简化了构建数据集模型的过程。返回页首数据挖掘方法和构建数据集模型根据在ProjectREAL中将数据挖掘技术应用于不同零售销售量预测和构建脱销模型问题所获得的经验,我们提出了通过两个阶段来构建模型,这一过程提高了准确预测的可能性。构建模型过程的第I阶段是基于合计销售量模式对零售商的连锁商店进行分类。构建了质量商店分类模型后,在构造模型过程的第II阶段,这些分类用于使商店/产品级别上的脱销预测更加准确。通过使用SQLServer2005AnalysisServices中的数据挖掘技术可以高效并有效解决这两个阶段。本部分提供了整个脱销预测过程的详细信息,该过程从用于构建数据集模型的过程说明开始。然后对评估使用SQLServer2005AnalysisServices构建的数据挖掘模型的方法进行了讨论。构建脱销预测模型的过程构建脱销模型分为两个阶段。第I阶段是将具有相似合计销售量模式的连锁商店进行分类。对具有相似合计销售量模式的商店进行分类的过程称为“商店分类”。通过使用SQLServer2005AnalysisServices中附带的Microsoft分类算法完成商店分类,从而将具有相似合计销售量模式的商店进行分类。将Microsoft分类算法应用于由合计销售量模式组成的数据集时,该Microsoft分类算法尝试通过以下方式对商店进行分类:属于同一分类的商店比属于不同分类的商店更加相似。构建数据集模型基于从数据仓库派生的合计销售量数据。因此,用于对商店进行分类的“相似性”测度是按照此合计销售量数据计算而来的。然后,我们使用第I阶段生成的分类模型在第II阶段构建更准确的脱销预测模型。这允许预测算法(例如Microsoft决策树或Microsoft神经网络)使用分类结果来提高预测准确性。实质上,要优化特定商店s的特定产品p的预测,在确定商店s的p是否脱销时,SQLServer2005中的预测算法可能使用相似商店s中同一产品p的销售量事实数据,这样可以提高预测的准确性。为产品p构建脱销预测模型的高级步骤使用SQLServer2005AnalysisServices构建最佳预测模型的两阶段过程由以下高级步骤组成。将在以下的部分详细介绍这些步骤。1.使用数据仓库产品信息(维度)部分中的产品层次结构确定产品p的产品类别c(p)。我们假定连锁商店中同一类别的产品具有相似的合计销售量模式。因此,产品结构层次用于标识特定产品p的相似产品集c(p)。另外,产品分类方法可用于基于连锁商店的销售量通过对产品进行分类来确定与p产品相似的数据驱动分类。2.为商店分类准备构建数据集Dcluster模型来捕获类别为c(p)(在步骤1中已确定)的商店级属性和销售量。3.将Microsoft分类算法应用于数据集Dcluster,以便获得k个分类(组)的商店,这些商店在类别c(p)的商店级属性和销售量上相似。4.对于在步骤3中获得的每个分类,l=1,…,k:i使S(l)成为商店集,该商店集属于分类l。注意,对于类别c(p),这些商店具有相似的类别级合计销售量。ii创建数据集DOOS(p,S(l)),它由S(l)中每个商店s的历史和当前每周销售量合计以及每周销售量合计变化组成。另外,还包括布尔标志,用于指明产品p在未来一周和未来两周是否脱销。iii将SQLServer2005AnalysisServices中的构建预测模型算法(例如Microsoft决策树或Microsoft神经网络)应用于数据集DOOS(p,S(l))。将历史和当前每周销售量合计作为输入属性,将一周和两周脱销布尔标志作为输出或仅预测属性。这将使SQLServer2005AnalysisServices生成这样的模型:该模型将其输入用作历史和当前每周销售量以及每周销售量变化,然后进行布尔标志的预测,该标记指明产品p将在未来一周和未来两周内是否脱销。在接下来的两部分中将更加详细地介绍数据准备和构建模型步骤。在ProjectREAL环境中,零售商为Barnes&Noble。ProjectREAL(引用实现、端到端、大规模和大量用户的缩写词)是MicrosoftCorporation、ApolloDataTechnologies和其他中坚技术合作伙伴(包括UNISYS、EMC2、ProClarity、Panorama、ScalabilityExperts和Intellinet)协作的成果,目的在于创建BI系统的可引用的实现。使用Barnes&Noble提供的可信企业数据,ProjectREAL合作者能够发现创建BI应用程序的最佳方法,这些BI应用程序基于MicrosoftSQLServer2005。此完整系统通过以一种全面的方式分析大型数据集从而解决所有客户操作难题。注意以下五个产品(书),这五个产品属于同一类别(ChapterBooks)。•CaptainUnderpants&TheInvasionoftheIncrediblyNaughtyCafeteriaLadiesfromOuterSpace(CaptainUnderpantsSeries)•JunieBJonesIsaGraduationGirl•Dinosaurs:ANonfictionCompaniontoDinosaursBeforeDark(MagicTreeHouseResearchGuideSeries#1)•CityintheClouds(SecretsofDroonSeries#4)•TwistersandOtherTerribleStorms(MagicTreeHouseResearchGuideSeries)第I阶段:商店分类注意,商店分类的目标是获得具有相似销售量模式的商店组,着重于产品p所属的类别c(p)中产品的销售量。第I阶段首先构建将用于商店分类的数据集。为了将对活动零售销售量和库存数据仓库的计算影响降低到最低程度,我们建议您创建独立的SQL数据库来存储数据集,这些数据集用于使用SQLServer2005AnalysisServices构建模型。商店分类数据集构建用于商店分类的数据集由2004年1月到2004年12月这段时间内的商店级合计销售量组成。该数据集由具有关键字StoreID的单个表组成。StoreID是整数,用于唯一标识每个连锁商店。由于商店分类任务的目标是根据合计销售量模式的相似性将商店进行分类,因此我们与零售商合作以便标识对此练习有用的一组合计销售量属性。用于构建模型的这组属性的类型和信息内容通常会影响生成的输出模型。标识用于构建模型的一组属性时,我们发现与对基本业务过程有深刻理解的利益关系人合作会有好处。另外,根据在直接零售过程中已经完成的工作,我们能够建议可能有用的属性。对于每个商店,基于数据仓库中的事实数据对属性进行合计。这些销售级合计如下。有关所有用于商店分类问题的商店级属性的详细说明,请参见附录A。•产品(书)p所属的类别[在以前的部分中称为c(p)]的特定类别的派生属性。它们是:•CategoryAverageWeeklyModeled:特定商店中预期每周要出售的某类别的书的估计数量。•CategoryAverageWeeklyOnHand:特定商店中某类别的每周可售(库存)平均值。•CategoryAverageWeeklyOnOrder:特定商店中某类别的每周预定书平均数。•CategoryFractionHolidaySales:特定商店中来自类别为c(p)的书的节假日总销售量部分。注意,节假日销售量是在2004年11月15日到2004年12月末之间所销售的书。•CategoryFractionSales:特定商店中来自类别为c(p)的书的非节假日总销售量部分。注意,非节假日销售量是在2004年1月1日到2004年11月14日之间所销售的书。•CategoryHolidayDiscountAmount:特定的商店的节假日期间,类别为c(p)的折扣书总数。•CategoryHolidayMarkdownAmount:特定的商店的节假日期间,类别为c(p)的减价书总数。•CategoryHolidayMemberDisco

1 / 28
下载文档,编辑使用

©2015-2020 m.777doc.com 三七文档.

备案号:鲁ICP备2024069028号-1 客服联系 QQ:2149211541

×
保存成功