库存补单及销量预测摘要本文针对商品销量预测及商家补单的运营操作,使商家在满足一定的社会效益和获得最大经济效益的前提下,采用层次聚类和灰色预测分析,建立了灰色系统模型,从而预测未来一月的销量,通过建立基于动态神经网络的时间序列分析预测未来5天各种商品的销量。基于货物样本的随机分布,采用随机变量,给出上新量的置信区间和理想的补单策略,分别得出:上新量与延期比的范围分布情况,不同季度商品的上新量与延期比的分布,提供了关于商家采集购置数据的合理化建议和商家进行补单的较好策略,并给出模型的改进意见。针对问题一,通过查阅相关资料并结合附件一,收集相关商品不同时期的销售量,用Excel处理数据,得出相关矩阵并结合MATLAB给出轮廓值分布图,研究商品的分类类别。分别采用层次聚类与动态聚类进行相关研究,得出较适宜的分类情况,确保各指标能够准确的反映商品的销售情况;最后确定灰色预测模型对未来销量进行预测。利用处理的数据对动态神经网络进行训练得到较为准确的各种商品在未来几天的销量。针对问题二,分别研究商品样本数与商品上新量之间的关系和商品样本数与商品延期比之间的关系,并结合相关直方图进行分析得出以上关系满足正态分布;最后利用统计学中的Q-Q图,建立相关模型,对上新量的分布范围以及置信区间直接进行求解。针对问题三,做出每个季度中商品样本与上新量及延期比之间的关系,观察样本分布直方图,利用整体分布相关性质,同问题二中方法一样对分布范围以及总体置信区间进行求解。针对问题四,整合前三问的求解结果,得出对未来销量的趋势,结合各个季度的上新量与延期比的分布范围与置信区间,并且根据商品的使用性质以及客户群体的实际购买意愿,为商家有效谋划。最后,写一篇短文,给出具体的补单政策建议,从而提高商品的转化率以及销售数据。关键字:动态神经网络灰色预测时间序列分析K-means均值法一、问题重述1.1问题背景在电商行业中经常会出现补单的情况,其原因是买家突然增加了新的需求量,有时也因为商品品质异常不能满足客户的需求。为了合理的解决补单问题,商家须考虑到以下两个方面:第一是补单对现金流的占用。如果对补单情况预测过于乐观,货物成本会对商家产生不少的压力,还会导致的巨大资金流的占用,这对于许多电商都是一个头疼的问题。第二是补单对库存的影响,商品最终的销量是取决于客户对于补单的需求量,一旦我们对补单情况估计过于乐观,则会导致大量货物积压,货物滞销又会带来仓储问题,更重要的是还需要考虑清仓问题,清仓问题即是通过各种营销手段以更低的成本来销售商品,这时不仅会导致资金流移动慢,还会导致企业利润降低、资源浪费、拉低品牌溢价等一系列问题。为了避免这两种情况的发生,我们采取科学合理的补单预测是十分重要的。1.2问题提出1)请根据附件一中的销量数据建立一个销量预测的数学模型,要求至少能够比较精确地预测未来五天的货物销量大小;2)请根据附件二分析货物的上新量和延期比的分布情况,并给出分布范围及置信区间;3)请根据附件二中的数据进一步分析各个季度货物的上新量和延期比的分布情况,并给出分布范围及置信区间;4)请根据上述分析结果,制定合理的补单策略,写出具体操作流程。1二、问题分析买家增加需求量而追加订单的情况称之为补单,有时补单也指商品品质不能满足客户而导致的追单。此外,商家补单的同时需考虑对资金流的影响以及对库存的影响。问题一:题目要求通过附件一的数据对未来五天的销量进行预测,本文采用K-means均值法对销量数据进行聚类分析,由于附件一所给的货号以及日期数据过于庞大,本文通过Excel表格对数据进行矩阵化处理,将其转化为货物(行)—日期(列)的一个矩阵,并采取手肘法和轮廓系数法综合来确定k值,最后再建立GM(1,1)模型对未来五天数据进行预测。针对未来每天每种商品的销量预测,通过建立的矩阵以每种商品的历史销量作为训练对象,建立每种商品的动态神经网络,通过网络的时序分析对每种商品的销量做出预测问题二:题目要求通过附件二的数据来探寻上新量和延期比与货物种类的关系。首先将附件二中延期比和上新量两类数据分别与货物种类进行对比,建立了两个Excel数据表格,再把Excel表格导入SPSS来查看其分布情况,根据得到的直方图,初步猜测其符合正态分布。再通过SPSS对其进行正态性检验,发现其显著性为0.20.05,因而满足正态分布,故原猜测正确。问题三:题目要求通过附件二的数据来探寻第一、二、三季度的上新量和延期比与货物种类之间的关系。首先从附件二中抽取第一、二、三季度的上新量和延期比数据并建立Excel表格并对表格数据进行升序处理。为了便于观察上新量和延期比的分布情况,我们将升序后的数据划分为几个等区间长度的区间。通过观察发现,大部分的数据集中在前几个区间,于是再对前几个区间进行细划分,最终得到的几个不等的区间,再用MATLAB中作出直方图,根据直方图猜测满足正态分布。为了验证猜想,对样本数据进行正态检验并作出Q—Q图,得到的显著性均大于0.05,故原猜想证实。问题四:题目要求通过分析前三问的结果给予商家补单的一些合理建议。首先,对前三问的结果进行整合,根据第一问的销量预测,很好的预测出未来五天的销量,再结合上新量和延期比的误差分析以及附件二中各个季度的销售数据,综合确定补单的数量,以期达到增加商品利润和转化率的目的2三、模型假设1.假设客户的需求不会骤减或骤升。2.假设客户的需求不会发生过大的变化。3.假设题目所给的数据准确无误。4.假设未来时间无其他因素影响商品销量。四、符号说明符号含义y(t)t时刻网络输出1五、模型的建立和求解5.1问题一的模型建立与求解5.1.1问题分析在附件一中,数据量冗余,不同种类的货物可能由于季节性差异以及商品属性造成供不应求或供过于求的局面,若商家未预测到市场行情,则或多或少会造成一定的损失。因此在对数据处理时,利用不同产品在不同的月份的销售量,将标定的数据进行相关离散化处理,根据不同产品的交易特征做出聚类轮廓图,进行聚类的方法采用,首先采用轮廓值分布,确定最佳分类类别,采用层次聚类与动态聚类,综合比较两种聚类的差异性,利用灰色预测分析选取具有代表性的一类进行相关预测,将其定量研究,得到连续几个时间段内的商品销售趋势。简化时序分析难度,同时提高对特征统计量的估计精度,进而预测未来五天货物销量。针对问题一附件中提供的各种商品在一些时间段的销量信息,需要建立较为准确的模型能够精准预测未来五天的各种商品的销量。首先,需要对数据进行预处理和挖掘,建立各种商品在各个时间段内的销量矩阵。其次,从矩阵中抽出各种商品随时间变化的销量向量,以该向量为训练对象,使用动态神经网络的NAR(只有因变量,无自变量的时间序列)模型对其进行训练和测试。最后,使用训练好的神经网络对未来五天各种商品的销量做出预测。5.1.2数据预处理根据附件一提供的各种商品销量数据,使用Excel以商品名为横轴,时间为纵轴建立486×333的矩阵,矩阵反应各种商品在各个时间的销量信息,具体见附件一处理.xlsx。利用MATLAB中的randperm函数随机抽取3中商品的销量向量,通过图形可视化来粗略判断其销量趋势,随机抽取的商品销量趋势图如下所示:2图1-1:随机抽取的商品销量趋势图从图中可以看到商品的销量具有明显的非线性趋势,且具有季节性。利用MATLAB中的tonndata函数对矩阵每一列数据转换为标准神经网络单元数组形式。5.1.3K-means聚类分析与GM(1,1)模型大大1.K—means法聚类(1)做出问题的平均轮廓值与分类数的关系图并考虑K-means聚类先用轮廓值对K-Means方法得到的聚类结果进行评价,并据此确定最佳的类别数。此外,对于聚类的执行选择由K-Means方法来实现,是因为该算法的适应范围最广。K-Means算法的一般步骤如下;①从n个数据对象任意选择k个对象作为初始聚类中心②循环③到④直到每个聚类不再发生变化③根据每个聚类对象的均值(中心对象),计算每个对象与这些中心对象的距离,并根据最小距离重新对相应对象进行划分。④重新计算每个(有变化)聚类的均值(中心对象),直到聚类中心不再变化。这种划分使得下式最小其中为各类的中心。现在先以商品在每个月的销量为研究对象,生成货号月份表,来确定最佳类21ijkijjxwExmjm3别。确定最佳分类数后就可以同时使用常用的集中聚类方法对该问题进行聚类,然后比较哪种算法对该问题更合适,同时还可以比较各算法对该问题是否具有很好的一致性。运行程序,就可以得到该问题的平均轮廓值与分类数的关系图和类别在2-21类时每类的轮廓值分布图。对于聚类问题,我们一方面希望聚类的数量比较适中,另一方面也希望每个样品的轮廓值尽量高。因此观察下列轮廓图可知,类别为16-21类时分级效果明显,其余类别图案分级较不明显。所以综合以上分析,对于这个问题,最佳的类别数选为20比较合适。聚类方法都有一定的随机性,所以每次执行的程序会有一些差异,但总体趋势是一致的。图1-2轮廓值与聚类类别数的关系图1-3类别为2—5时每类的轮廓值分布图4图1-4类别为6-9类时每类的轮廓值分布图图1-5类别为10-13类时每类的轮廓值分布图图1-6类别为14-17类时每类的轮廓值分布图5图1-7类别为18-21类时每类的轮廓值分布图综合上图轮廓图,选为20类时,每类包含的样本个数如下表所示表1-1不同类别对应的样本数类别1234567891011121314151617181920样本个数8411911221911718127218169311(2).聚类分析距离:对样品进行聚类时,“靠近”往往由某种距离来刻画。若每个样品有个指标,故每个样品可以看成维空间中的一个点,个样品就组成维空间中的个点,样品与指标构成一个矩阵,此时就可以用距离来度量样品之间的接近程度。令表示第个样品的第个指标,表示第个样品与第个样品之间的距离,最常见最直观的计算距离的方法是:明考斯基距离()ppnpnijxijijdijMinkowski6当时,即为绝对距离当时,即为欧氏距离当时称为切比雪夫距离。当各变量的测量值相差悬殊时,为了计算的准确性,需先将数据标准化,然后用标准化后的数据进行计算。系统聚类,将个样品各自看成一类,然后规定样品之间的距离和类与类之间的距离。开始,因每个样品自成一类,类与类之间的距离与样品之间的距离是相等的,选择距离最小的一对并成一个新类,计算新类与其他类的距离,再将距离最近的两类合并,这样每次少一类,直值所有的样品都成一类为止,最终完成养分的分类。计算类与类之间的距离主要有:a.最短距离法:设分别为一类,则最短距离的计算公式为:此时将类与类合并为类,则任意的类和的距离公式为依次下去,最终完成对样品的分类。b.最长距离法:1/1qpqijikjkkdxx1q11pijikjkkdxx2q1/2212pijikjkkdxxq1max||ijikjkkpdxxnqGpGrG(,)min{,}kjlpqDpqdjGlGpGqGrGkGrG2,,,minmin{min,min}min{,}ikjrikjpikjqkrijijijkpkqXGXGXGXGXGXGDdddDD(,)max{,}kjlpqDpqdjGlG7将类与类合并为类,则任意的类和的距离公式为c.类平均法:将类与类合并为类,则任意的类和的距离公式为d.重心法:将类与类合并为类,则任意的类和的距离公式为采用系统聚类中的离差平均和法,得出如下聚类图表图1-8系统聚类图pGqGrGkGrG2,,,maxmax{max,max}max{,}ikjrikjpikjqkrijijijkpkqXGXGXGXGXGXGDdddDD1(,)pqGijiGjGGpqdLKpGqGrGkGrG22222211()ikjrikjpikjppqkrijijijkpkqXGXGXGXGXGXGkrkrrrnnDd