C题-晋钢,王睿伯,李慧霸-二等奖1售后服务数据的处理和预测问题假设1、轿车生产出来后,当月就开始销售2、一批轿车生产出来以后,每个月的销售量是均匀的问题分析根据题目中对于“千车故障数”的描述,数据表中的每一行数据,表示了某批次的轿车在卖出若干个月内出现故障的比例,以第一行数据为例:使用月数1211109876543210生产月份制表时销售量千车故障数020124574.884.884.884.484.074.073.662.442.441.221.220.410.41这批轿车在卖出的12个月内,每千辆车有4.88辆出现故障。为了运算简便,我们希望求得每月故障车辆数。这样的运算很简单,只需将相邻两个月的“千车故障数”相减,然后除以1000再乘以销售量即可,结果如下:使用月数1211109876543210生产月份制表时销售量每月故障车辆数02012457000.9831.00701.0072.99802.99801.99001.007我们发现这样一个问题:如这批轿车在第10个月的时候有0.983辆出现故障,可是,这批已销售出的2457辆轿车中应该有一部分的使用月数还不到10个月。也就是说,这里的0.983是一个绝对量,它并不能反映全部2457辆轿车在第10个月的故障情况。因此,我们认定这样的统计量是不合理数据,需要对这些数据进行修正,方法如下:生产月份为0201的这批轿车,截止到制表日期2004年4月1日为止,共销售出2457辆,基于我们的假设1、2,销售时间从2002年1月到2004年3月,共27个月,每月销售了2457/27=91辆。考察使用月数为10的千车故障数4.88,计算可得,这批轿车售出后第10个月内出现故障的轿车有9828.02457100048.488.4=×−辆。不过,销售出去的这批轿车中,很多轿车的使用月数还不到10个月,满足这个条件的轿车是在2003年6月之后售出的,它们使用时间最长的也只有9个月,一共有819919=×辆。因此,在第10个月出现故障的轿车比例应该为0006.081924579828.0=−,由此推算出全部2457辆轿车在第10个月出现故障的应该有4742.10006.02457=×辆,这是我们修正后的结果。类似的方法,可以求出不同使用月数的修正后的故障车辆数,与原数据表中计算出来的结果对比如下:C题-晋钢,王睿伯,李慧霸-二等奖2使用月数1211109876543210生产月份每月故障车辆数0201原结果000.9831.00701.0072.99802.99801.99001.0070201修正结果001.4741.43201.2953.67903.37202.06701.007这样,就可以求得修正后的“千车故障数”如下表:使用月数1211109876543210生产月份制表时销售量20124575.83075.83075.83075.23074.64814.64814.12092.62372.62371.25121.25120.410.4120216706.98556.98556.01056.01056.01056.01054.45054.45053.74143.06322.4241.8020315805.53834.41334.41334.41334.41334.41333.57122.78372.78371.35190.656300204370418.80415.81314.88711.86311.0539.14767.70766.34344.72342.56341.38520.540205380647.16743.14237.56934.11930.48527.8424.99923.32518.8717.05313.6038.933.94206291054.68449.88444.20138.97236.81932.78627.10724.88119.84515.86213.5969.284.47207161499.97893.46880.46766.36255.36149.78144.57337.26331.90127.56122.76513.013.722081985104.695.64990.60982.35569.77163.57152.77141.35830.64521.75113.9187.561.512092671149.44145141.03132.5118.27100.4986.26574.06556.52144.96728.22411.231.872102107165.92159.82152.35150.45136.79118.15100.3579.31759.842.13623.4511.392.852111399127.02127.02123.55119106.85100.7785.29670.10951.42342.7426.53412.873.57212403142.05142.05122.18116.51111.55102.7398.76677.10857.25448.09833.9157.447.443016450155.03155.03154.1151.78148.11139.98127.58112.9291.58172.00646.59922.023.723022522177.71177.71177.71177.71173.09168.33160.7145.89119.2590.99865.08625.381.59303290070.97970.97970.97970.97970.24367.04863.11657.13649.97334.47916.551.03304112722.77422.77422.77422.77422.77419.7418.40514.8598.47452.66030581816.47516.47516.47516.47514.23814.23814.23811.2448.561.2230611996.426.426.426.426.426.425.371.670307183115.1115.1115.1115.1114.310.797.10.5530817546.48716.48716.48716.48714.96711.71030921630.99670.99670.99670.99670.460.46310238900000311243400003121171000先来考虑水平方向的数据,它们表示的是一个批次的轿车故障情况,并且是按月累加的,这可以转化成该批次轿车的寿命数据,由于只有部分轿车出现故障,其它轿车还在使用中,所以这些数据是右截尾的寿命数据。依据[3]中的判别方法,这里的数据服从威布尔分布,可以利用最小二乘法来估计寿命分布函数的参数,这样就可以进行横向数C题-晋钢,王睿伯,李慧霸-二等奖3据的预测了。至于垂直方向的数据,随着批次的变化起伏,而批次对于千车故障数的影响是由许多随机因素决定的,例如工厂的原材料来源变化、生产人员变动等等,这些因素的随机行很强,因此我们把这样的看成随机序列,对于随机序列的建模和预测现在有很多不同的方法,在这里我们采用时间序列的方法对垂直方向上的数据进行建模和预测。模型建立与求解一、水平方向数据预测根据问题分析,轿车寿命服从威布尔分布。而轿车在销售之前就有故障的情况出现,因此需要采用三参数的威布尔分布函数作为概率密度函数:mtmetmtf)(1)()(ηδηδη−−−−=累积失效分布函数(寿命分布函数)为:mtetF)(1)(ηδ−−−=式中m为形状参数η为尺度参数δ为位置参数修正过的“千车故障数”除以1000就是累积失效概率。对于给定的时间、数据点对),(iixt,其与分布函数的残差为:mimitiitiiexxextF)()()1(1)(ηδηδ−−−−−−=−−=−此函数比较难于处理,需要变形以便后续的最小二乘拟合。将上式最右端两项分别取对数,由于ln函数的单调性,此做法不影响残差的相对大小,得到结果如下:imiimiitxtxtxemi−−−=−+−=−+−⇒−−11ln)()1ln()()1ln(ln)(ηδηδηδ出于同样的目的,再次对上式两项分别取对数,得到:iiimixmtmxt−−−−=−−−⇒11lnlnln)ln(11lnln)ln(ηδηδ最后基于同样依据,我们将各个参数分离到不同项,以利于后续的求偏导数:C题-晋钢,王睿伯,李慧霸-二等奖4⇒iixmt−−−−11lnln1ln)ln(ηδ下面可得到残差平方和:∑=−−−−=niiixmtQ12]11lnln1ln)[ln(ηδ然后联立求解方程组⎪⎪⎪⎩⎪⎪⎪⎨⎧=∂∂=∂∂=∂∂000mQQQηδ可以得到三参数威布尔分布参数的最小二乘估计。如果销售前的千台故障数为0,则使用两参数的威布尔分布来作为寿命分布函数。这样,对于水平方向的每一行数据,都能得到一组威布尔分布参数(寿命的分布参数),以第一行数据为例,解得参数00863.6,1799.89,88955.2−===δηm。因此,对应的寿命分布函数为88955.2)1799.8900863.6(1)(+−−=tetF下图为寿命分布的曲线图:024681012012345678910使用月数千车故障数可以看出,在第一年内,千车故障数呈上升的趋势,下图为寿命分布在10年内的曲线C题-晋钢,王睿伯,李慧霸-二等奖5图:02040608010012001002003004005006007008009001000使用月数千车故障数可以看出,在第10年的时候,千车故障率已经达到940左右,也就是基本上坏得差不多了。如果不考虑垂直方向数据的影响,我们现在就可以对0205批次使用月数18时的千车故障数进行预测了,首先根据0205批次的水平方向数据求出威布尔分布参数为26441.6,455.613,800391.0−===δηm,然后求出1707.59)18(=F,图形如下:C题-晋钢,王睿伯,李慧霸-二等奖602468101214161820010203040506070使用月数千车故障数同样的方法,可以预测得出0306批次使用月数9时的千车故障数为10.8188。不过,预测0310批次使用月数12时的千车故障数是不现实的,因为该批次的水平方向数据太少了,只有5个而且均为0,这说明仅凭水平方向数据进行预测有时是无法实施的。因此,我们考虑从垂直方向上来预测数据。二、垂直方向数据预测垂直方向的数据可以看成千车故障数相关于生产日期的时间序列,这是一个很典型的随机序列。我们采用时间序列方法对垂直方向数据进行分析,依据[6],首先需要考察数据的平稳性,对使用月数5的这列数据进行分析,计算它们的自相关系数和偏相关系数,结果如下图:-1.0-0.50.00.51.00.04.89.514.319.0步长千车故障数的自相关系数-1.0-0.50.00.51.00.04.89.514.319.0步长千车故障数的偏相关系数C题-晋钢,王睿伯,李慧霸-二等奖7图中的横坐标是相关系数的步长。可以看出,这是一个非平稳的时间序列,因此需要采用ARIMA(p,d,q)模型来进行处理,为了表示方便,引进符号B,称B为后移算子,B满足1−=ttuBu,设pϕϕϕ,,,21及qθθθ,,,21为实数,记qqqpppBBBBBBBBθθθθϕϕϕϕ−−−−=−−−−=2212211)(1)(ARIMA(p,d,q)模型公式可以表示如下:tqtdpaBXBB)()1)((θϕ=−其中d为差分阶数,tX为时间序列,ta表示白噪声序列,具体的描述可以参照[6],此处不再赘述。为了求解模型,我们采用Box-Jenkins方法,该方法大致有以下三个步骤:1.系统参数的辨识。利用数据及其自相关系数和偏相关系数来估计参数d,p,q2.估计。使用极大似然估计等方法来确定pϕϕϕ,,,21和qθθθ,,,21的值。3.检验。通过残差的自相关系数来判断该模型是否适合对这组数据进行建模,如果不适合的话,重