网络购物分析【摘要】本题是对网购问题的分析,由于商场旨在追求利益的最大化,因此对商品聚类分析、找出利益最高的组合,为商家呈现出最好的营销方式,是本题主旨。同时由于本题数据繁杂庞多,其结果也与数据有着直观和密切的联系,所以对于数据的处理极其准确程度也显得尤为重要。(本题所给数据皆真实有效)。对于问题一,求其商品之间的关联程度,即指如果买一副镜框,一般情况下也要买一副镜片,此时可认为镜片和镜框的关联度很高。故解决此问题可以运用聚类的方法和概率论知识相结合的办法,建立相应的模型,找出关联度很高的组合,即为所求的的结果。对于问题二,利用穷举法以及第一问的模型,便可以找出同时被频繁购买的商品的组合,便可以据此进行第三问的求解,所以第二问是一个承接的作用。对于问题三,在问题二的基础上得出促销方案。故需知道各种组合的利益,运用最优解法,结合购买的次数最多以及商品的价格较高两个因素,找出各种组合中的利益最大的组合,促销在此基础上进行。例如:在最大利益的组合中,有一利益最小的商品,则可以对此商品进行打折,以此达到薄利多销的营销策略。经过市场调查,可以得到使其利润最大的打折率f(i),,那么f(i)便是我们的促销打折率,以此便可制定促销方案。与此,也可运用其他的策略。问题一,问题二结果如下表所示:问题一结果:组合商品编号数目关联度V3686822860.07732872V3685293290.076986159V9565384131200.005608505V368937829413720.00003998问题二结果:组合商品编号数目V368529329V368829307V368489682122V36893782941372问题三结果:一种商品:最高获利382255.74元,商品编号为368。二种商品组合:最高获利189487.55元,商品编号为(368529)。三种商品组合:最高获利76468元,商品编号为(V368829529)。四种商品组合:最高获利737.6688元,商品编号为(V489438956722)。【关键词】0,1变量,关联度,聚类分析,穷举法,最优解法,促销,spss软件,matlab软件。一、问题重述网店老板经常关心的问题是顾客的购物习惯,即什么商品组或集合顾客会在一次购物时同时购买。他们可以把这些“同类商品”相互关联在网页内,以便于顾客浏览商品,引导顾客消费,进而增加销量。已知某购物网站一段时期所有顾客购买物品的清单和相应商品的利润,需要我们给网店老板一个合理的顾客购物习惯分析报告,并提供一个促销计划的初步方案。问题1试建立一种数学模型,该模型能定量表达网站中多种商品间的关联关系的密切程度。数据见附件1.问题2根据在问题1中建立的模型,分析出哪些商品是最频繁被同时购买的,并且找到的最频繁被同时购买的商品数量越多越好。例如:如果商品1、商品2、商品3,商品4在4625个购物记录中同时出现了200次,则可以认为这三个商品同时频繁出现了200次,商品数量是4。问题3附件2给出了这999中商品的对应的利润,根据在问题1、问题2中建立的模型,给出一种初步的促销方案,使购物网站的效益进一步增大。二、问题分析本题旨在为商家做出商品分析报告,提出合理的建议,达到利益最大化的目标。由于本题问题层层递进,而且数据量庞大,问题所问与初始数据密切相关,故数据的处理显得至关重要。对此,将matlab与spss,excel等软件相结合,便可对原始数据进行处理以得到更为直观的数据。问题一运用聚类分析和概率相结合的办法。现将原始数据转换为0,1变量,所谓0,1变量,即指把商品编号和人数组成二维表,若某人买了某编号的商品,则在此对应的位置标1,反之为0。这样便得到利于计算和直观反映的数据。此过程由spss和matlab进行,具体详见模型解答过程。在0,1变量的基础上,对商品进行各种组合,若某人买了一种组合中的全部商品,即对应的0,1变量皆为1,则重新标记为1,反之则为0。以之求和,便可得到购买数量最多的组合,再用其模型求得其关联度。问题二在问题一的基础上求解,利用穷举法和问题一中的结果,可将频繁购买的组合求出来。问题三利用最优解法,把各种组合中的最大利益求出来,在其组合中找出利益最小的商品,则此种商品为需要打折促销的商品,再根据f(i)决定促销策略。同时也根据问题二的结果,列出需要放在一起进行广告的商品组合数,至此则此题已完全解决。三、模型假设1.对于问题三中,各个商品利润保持不变。2.表格中的数据能真实反映当地消费者购物情况。3.短时期内商品销售不会变化,即种类数目不会有太大的变化。4.关于商品的关联度,如果买一种商品的同时买另一种商品,则就说明它们有关联度,如眼镜框和镜片,排除无意间同时购买的因素,如面包和衣服等,故此题中的同时购买即认为全为有关系的,即是有关联度的。5.题中的打折率f(i)可以从现实中得到,以至于促销策略可以实行。6.不存在打破这种商品购买格局的因素。7.商场是追求利润的最大化,由于数据众多,故提取单笔购买数量从大到小排列的5%作为数据样本。对实际结果分析没多大的影响。四、符号说明Ni表示i商品购买的频率;Nj表示j商品购买的频率;kN表示k商品购买的频率;lN表示l商品购买的频率;ijN表示i和j商品同时购买的频率;ijN表示打折后i和j商品同时购买的频率;ijkN表示i,j,k商品同时购买的频率;ijklN表示i,j,k,l商品同时购买的频率;ijR表示i,j商品的关联度;ijkR表示i,j,k商品的关联度;ijklR表示i,j,k,l商品的关联度;T表示商品的总利润;m表示购买的人数;n表示商品的数目;gi表示购买商品i的利润;d(i,j)表示第i人是否购买了第j种商品,用0,1表示买与不买,d为0,1的矩阵;f(i)表示打折率;Z表示促销前销售量;Z’表示促销后的销售量。五、模型的建立对于此题的模型,为求其关联度,我们运用概率方面的知识:P(A/B)=P(AB)/P(B)P(B/A)=P(AB)/P(A)则有:P(A/B)*P(B/A)=P(AB)/P(B)*P(AB)/P(A);故此联系上面的公式,我们可以得到以下模型:2*ijijijNRNN其中:Ni表示i商品购买的频率;Nj表示j商品购买的频率;ijN表示i和j商品同时购买的频率;ijR表示i,j商品的关联度。这样便是两个商品的模型。三个商品和四个商品等的以此类推:3**ijkijkijkNRNNN4***ijklijklijklNRNNNN……对于第二题的模型,则在第一题基础上,求出ijN,ijkN,ijklN中最大的几组,便是可以得到结果。第三题模型:在第二组求出的最大的ijN,ijkN,ijklN中,求其组合中的最大利益:T1=Ni*gi;T2=ijN*(gi+gj);T3=ijkN*(gi+gj+gk);T4=ijklN*(gi+gj+gk+gl);其中T1,T2,T3,T4分别为一个商品,两个商品组合,三个商品组合,四个商品组合的最大利润。在促销过程中,设商品i在组合ijN中利润最小,则对其打折,打折率为f(i),打折前销售量为Z,打折后销售量为Z’,购买i,j的人数为ijN,则其利润为:T=ijN*(gi+gj*f(i))则多获益:t=ijN*(gi+gj*f(i))-ijN*(gi+gj)这样以此类推,三种组合,四种组合皆为如此。六、模型求解问题一:首先将消费记录数据用spss进行整理,然后用matlab求其0,1矩阵,其程序如附录中程序一。d(i,j)=1第i人买了第j种商品0第i人没买第j种商品然后求和46251(,)idij,求得各种商品的购买量,根据假设取其前50种,结果如下:(V368表示商品编号,第二列数字为购买量)V3681314V8291079V5291070V510944V419927V217909V489868V438833V956824V914809V766807V682805V692802V937781V205768V722744V720741V883730V145676V362676V895669V897667V283660V8658V177647V480641V752636V966635V470633V71632V541622V204621V140620V12616V538616V775614V890611V120609V413607V450607V354606V676595V55592V694586V401581V597568V72553V236552V110549V161548然后对这五十种商品进行处理,任意进行组合,例如,对于i和j号商品,若某人同时买了,则记为1,反之为0。然后对4625名顾客求和,得到i和j商品共同购买的数目ijN,再用公式2*ijijijNRNN,此过程用matlab做,其程序如附件中的程序2,取其前最高关联度的十组,得到结果如下:组合商品编号数目关联度V3686822860.07732872V3685293290.076986159V5296922510.07341576V3684892890.073228577V3688293070.066475244V3682172800.065638223V3689372580.0648624V8296922360.064361802V5294382370.063018478V3687202460.062152219对于三种商品的组合,类似两种组合的处理办法,使用公式3**ijkijkijkNRNNN,利用matlab,其程序见附件程序3。取其前最高关联度的四组,得到如下结果:组合商品编号数目关联度V9565384131200.005608505V3684896821220.001977737V3685292171010.00080616V3688295291000.000659173对于四种商品的组合,类似三种组合的处理办法,使用公式4***ijklijklijklNRNNNN,利用matlab,其程序见附件程序4。取其前最高关联度的二组,得到如下结果:组合商品编号数目关联度V368937829413720.00003998V489438956722470.00001101问题二:根据问题一得到的中间结果,得到组合为两种,三种,四种的最高销售量的组合,其销售量和商品编号如下:1.两种组合:组合商品编号数目利润V368529329189487.55V368829307147249.48V36848928985578.3332V36868228690164.074V36821728082913.264V36841926683858.894V36893725876398.6504V368510256100071.4242.三种组合:组合商品编号数目利润V36848968212239097.0716V95653841312057274.68V36852921710158697.0388V368829529100764683.四种组合:组合商品编号数目利润V36893782941372673.5788V48943895672247737.6688问题三:在第二组求出的较大的ijN,ijkN,ijklN中,求其组合中的最大利益:T1=Ni*gi;T2=ijN*(gi+gj);T3=ijkN*(gi+gj+gk);T4=ijklN*(gi+gj+gk+gl);得到结果如下:MaxT1=382255.74,说明368号商品获利最高。MaxT2=189487.55,说明其组合为368号商品和529号商品在两种商品的组合中获利最高;MaxT3=76468,说明其组合为368号商品和829号商品以及529号商品在三种商品的组合中获利最高;MaxT4=737.6688,说明其组合为489号商品和438商品和956号商品以及722号商品在四种商品的组合中获利最高。在促销中盈利如下:两种组合:其中529号商品盈利少,对其打折,设打折率为f(529)