1婴幼儿奶粉销售因素研究摘要婴幼儿奶粉安全问题一直是社会关注的焦点,妈宝们面对五花八门的奶粉不知所措,不知如何抉择。本文采用统计分析、文本挖掘、插值和拟合、灰关联度分析方法研究奶粉问题,以评价量为因变量,研究各个变量和评价量的关系。基于研究成果,最后给商家和妈宝提供合理可行的参考建议。对于问题一,分别对团购价和评价量进行单变量分布分析,通过求中位数、平均数和偏度系数等,然后单独分析这两个变量。得到团购价的平均值为367元,这体现了奶粉团购价的大众价格。随着奶粉价格升高导致奶粉的评价量少,说明大众选择奶粉会考虑自己的经济条件和承受能力。对于问题二,我们分两个部分研究。第一考虑的是非数据的变量(比如品牌、奶源场地和适用年龄等等),通过SPSS绘出各个变量和评价量的直方图,然后根据直方图进行深层次的原因分析,并提出合理的建议。第二考虑的是数据的变量,如团购价、商品毛重和评价量的关系,利用插值和拟合的方法进行分析。对于问题三,面对非数据的变量难以处理的问题,通过数据挖掘中的有关文字挖掘技巧处理文本,将文字语言转化为合理的数据,便于下文研究。之后通过灰色系统中灰色关联分析法研究问题三,得到10个变量和评价量的关联度,得到影响评价量的重要因素,10个变量对评价量的影响程度前三分别是商品毛重、商品品牌和团购价,这与事实不谋而合,说明大众先考虑奶粉重量,然后考虑品牌和价格。对于问题四,结合前面三问的处理结果,我们给商家和妈宝提供合理建议。对于商家来说,首先,考虑的是商品市场,商品品牌最受欢迎的是箱装奶粉、爱尔兰和美素,奶粉最好是盒装,重量在3.7kg左右,国外奶粉比国产奶粉更受欢迎,奶源场地以爱尔兰和荷兰为主最受欢迎。其次,完善适合不同年龄段的奶粉产品结构,满足普通大众与富人的奶粉需求,这是生产商的主要任务,即调节产品比例结构。对于妈宝选择奶粉来说,根据自家孩子情况尽量选择海外知名度高的奶粉,保持购买价格在100-200元和500-600之间,以盒装和箔装为主。关键词:统计分析插值和拟合数据挖掘文本挖掘灰色系统灰色关联度分析2一、问题重述婴幼儿奶粉一直是社会关注的热点,尤其是影响恶劣的毒奶粉事件之后,在选择奶粉的问题上,妈妈们也越来越谨慎。随着互联网的发展,老百姓买到的奶粉不再仅是国产品牌,跨境电商和海淘引入了大量外国品牌,使得奶粉品牌的竞争异常激烈。最终结果就是宝妈们在面对五花八门的奶粉时常常是“傻傻分不清”。我们在某电商平台收集了846条销售信息,由于商家对销售量保密,无法得到精确的销售量信息,但评价量可以从一个侧面反映顾客对产品的关注度。对所给数据进行以下方面的分析,希望你的分析将不仅仅有益于商家,更有益于宝妈们为宝贝选择适合自己的奶粉。1.选取你认为重要的变量,进行单变量的分布分析;2.以评价量为因变量,分析其它变量和评价量之间的关系;3.以评价量为因变量,研究影响评价量的重要因素;4.根据你的分析,分别给商家和宝妈们提出你的建议。二、问题分析针对问题一,需要我们自选变量进行分析,我们选取了团购价和评价量作为指标进行统计分析。通过MATLAB计算出平均值、方差和骗度系数等统计量,然后根据计算结果分别分析团购价和评价量。团购价的平均值反应整体奶粉的价格,可以当做适合大众接受的价格,从直方图可以看出价格越高,评价量越少,即购买人群越少,正确反应出价值规律。针对问题二,对非数据和数据变量进行分析。对于那些没有数据的变量,我们通过MATLAB画直方图进行直观分析,探究影响评价量深层次的原因,并给出合理的参考意见。对于有数据的变量,即商品毛重和团购价,采用插值和拟合的数学方法进行分析,得到了较好的效果。针对问题三,研究其他变量对评价量的影响程度,和灰关联度不谋而合。因此,我们采用灰色系统中灰色关联度分析法研究各个变量对评价量的影响程度,得到它们的影响大学的排序,影响程度前三的分别为商品毛重、商品品牌和商品团购价,这和大众购买商品考虑的因素具有相同的原因,即考虑量入为出和品牌效应。总得说来,灰色关联度分析能够较好解决此类问题。针对问题四,需要我们对商家和妈宝提供合理的参考意见。基于以上研究成果,从市场需求量和产品结构两个方面为商家出谋划策,占领消费市场,把握产品结构将会促进商家提高盈利率。对于妈宝来说,既要考虑自身情况,又要权衡奶粉的性价比,从品牌效应、场地和价格等方面提出合理化建议,以供她们参考。三、问题假设31.假设奶粉数据来源真实可信,具有很好的代表性;2.假设不存在商家乱刷评价量的情况;3.分析一种变量对评价量的影响,其他变量保持不变;4.假设评价量可以作为奶粉品质好坏的标准。四、符号说明 ( )三次样条插值函数 影响值 权值函数 ( )频率 特征 训练文本总数 文本数 贡献值 贡献值 ( )关联系数 分辨系数 关联度五、问题一5.1问题一的分析选取重要的几个指标,比如团购价和评价量这两个指标,通过MATLAB画出图形,计算每个指标的均值、众数、和中位数,根据计算结果分析指标。显然它们的均值、众数、和中位数具有代表意义,然后对比分析给出一般性的结论。5.1.1问题一的求解由数据和常人购买奶粉选择,我们认为较为重要的是价格、用户评价量。而由MATLAB程序可以得知团购价均值和用户评价均值分别为367、15800,它们的中位数分别为254、330.5,标准差分别为377、72870,极差分别为2590、683010,偏度系数分别为2.7268、6.4942,峰度系数分别为11.6080、48.9692。同样可以得出统计直方图为:4图5.1.1团购价和评价量的直方图由数据看出,奶粉价格的平均价格为367元,而根据直方图可以看出奶粉价格主要集中在1000以下,价格超过1000的只有少数一部分。评价量主要集中在100000以下,而评价量高的奶粉评价的人数更少,说明人们更多的是选择更多人买的奶粉。同样根据价格的走向发现随着价格的增长,评价量就越少,这也说明在现今奶粉产家依旧会考虑到大部分民众的承受能力。六、问题二6.1问题二的分析以评价量为因变量,探究其他变量和评价量的关系,需要处理两个方面的问题。第一,如何探究非数据(如商品名称、奶源产地和国产或进口等)对评价量的影响,我们准备通过MATLAB绘出以评价量为因变量的直方图;第二,探究商品毛重、段位和团购价等与评价量的关系,拟采用插值和拟合的方法进行分析求解,研究其变化规律。6.2问题二的模型建立与求解6.2.1非数据变量与评价量的关系采用控制变量的方法,控制某些量,使其固定不变,改变某一个变量,看所研究的评价量和该变量之间的关系。1.商品品牌与评价量的关系从统计数据来看,奶粉品牌83种,考虑主要的奶粉品牌,其他只出现一种010002000300005010015020025030035040045002468x10501002003004005006007008009005的合为一类。同一品牌的奶粉评价量求平均值,只出现一次的奶粉品牌总体求评价量的平均值。通过matlab我们得到商品品牌和评价量的关系,如直方图6.2.1(1)所示:图6.2.1(1)不同商品品牌与评价量的关系从图6.2.1(1)可以直观看出,排名前三的是箱装奶粉、爱他美和美素这三个品牌。很多消费者都有从众心理,选择著名的奶粉,这可能某些品牌的奶粉品质好、质量一流,深受大众喜爱和推崇。2.奶源场地与评价量的关系奶源场地共有11种,分别是爱尔兰、澳洲、新西兰、荷兰等11各场地,各个奶源场地受地理环境、生产水平、牧场、奶牛等因素影响,生产出来的奶粉品质必然会有差异。通过SPSS我们得到奶源场地与评价量的关系,如图6.2.1(2)所示:图6.2.1(2)不同奶源场地与评价量的关系图通过对图6.2.1(2)分析,我们可知奶源场地在爱尔兰的奶粉评价量最高,其次是荷兰,最低的是法国。再看奶源场地在中国大陆的情况,平均评价量排名较为靠后,说明国产奶粉在大陆市场不太受欢迎,这可能受前几年“毒奶6粉”风波的影响,导致国产奶粉品牌口碑不太好。3.国产或进口与评价量的关系从所给数据来看,只有国产和进口这两大类别,如图6.2.1(3)所示:图6.2.1(3)国产或进口与评价量的关系图分析图6.2.1(3),国产奶粉的平均评价量没有进口多,在某种程度上来说,国产奶粉在国际市场没有国外做得好。一方面要反思自己内部的原因,另一方面借鉴国外先进的管理经验,不断提高国产奶粉的质量,打造属于中国的大品牌,既要在国内站稳脚,又要占领国外市场,蜚声中外,提升国产品牌的国际知名度。4适用年龄与评价量的关系一般来说,奶粉的适用人群是0到6岁的孩童,如图6.2.1(4)所示:图6.2.1(4)适用年龄与评价量的关系图奶粉的适用人群的不同年龄段评价量的饼状图如下:7图6.2.1(5)不同年龄段评价量的饼状图从直方图可以看出,平均评价量由大到小排序依次为1-3岁、3-6岁、0.5-1岁、0-0.5岁、6岁以上。年龄在1-3岁和3-6岁的平均评价量最大,6岁以上最小,说明年龄在1-3岁和3-6岁的市场需求最大,年龄在6岁以上市场需求最小。所以奶粉生产商需要考虑年龄比率问题,不同年龄段的奶粉需求是不一样的。生厂商在1-3岁、0.5-1岁、0-0.5岁中所生产的奶粉商品比例约为:46.8:24.47:19.86:8.63:0.24。5.包装单位与评价量的关系如图6.2.1(6)所示:图6.2.1(6)不同包装单位与评价量的关系图通过上图可知,盒装奶粉最受欢迎,袋装奶粉不受欢迎。不同的包装单位主要受不同消费者喜好影响,有的喜欢袋装,有的喜欢盒装等等,但总的来说,盒装奶粉得到消费者偏爱,桶装和箔装也受到消费者青睐。因此,奶粉生产商需要迎合消费者的心理需求,选择奶粉包装单位时有讲究。6.配方与评价量的关系大体分为三类,如图6.2.1(7)所示:8图6.2.1(7)不同配方与评价量的关系图不同配方对评价量影响大小从大到小排序依次为:常规配方奶粉特殊配方奶粉有机奶粉。消费者一般接受常规配方奶粉,不太接受有机奶粉,也就是说对于创新的奶粉品牌市场受欢迎程度较小。7.段位与评价量的关系段位和婴儿年龄有关,如图6.2.1(8)所示:图6.2.1(8)不同段位与评价量的关系一般奶粉分为三个段位,一段的适合0-6个月的宝宝,二段适合6-12个月的宝宝,三段适合12个月以上的宝宝。从图中可以看出,3段和4段的奶粉受欢迎,即12个月以上的宝宝,大部分母亲就开始考虑用奶粉喂养孩子,这与我们适用年龄分析的结果相似。根据这个特点,商家可以有针对的对这些人群投放广告,提高销售量。6.2.2数据变量与评价量的关系1.数据插值假定给定的 个数据点( , ),( , ),⋯,( , )的观测值都是准确的,为了寻求它们所反映的关系,求解一条严格通过数据点的曲线,用它来进行分析和预测,这种方法通常称为插值法。在这类问题中,选取一条何种类型的曲线作为插值函数是求解的关键所在。由于多项式曲线是函数曲线中较为简单的曲9线,因此,我们首先考虑选取多项式函数作为插值函数来进行求解——多项式插值。(1)多项式插值事实上,对于已知的的 个数据点( , ),( , ),⋯,( , ),总可以唯一确定一条 −1次多项式曲线 = + +⋯+ =∑ 。因为 个数据点都在曲线上,所以有⎩⎨⎧ + +⋯+ = + +⋯+ = ⋮ + +⋯+ = (1)即 1 ⋯ 1 ⋯ ⋮1⋮ ⋮⋯ ⋮ = ⋮ (2)令 = 1 ⋯ 1 ⋯ ⋮1⋮ ⋮⋯ , = ⋮ , = ⋮ 于是所求的多项式系数为方程 = 的解。由于系数矩阵的转置 为范德蒙矩阵,即| |= =∏ − ≠0,从而,根据克拉默法则知,方程组 = 有唯一的一组解 =( ,