第13章酸奶饮料新产品口味测试研究案例为了争夺奶制品市场,某企业研制了两种新口味的酸奶饮料,希望能够扩大自身的市场份额。为了验证新产品是否比市场上的现有产品受消费者欢迎,需要在全国不同城市请不同的消费者对新产品进行品尝,进行打分记录,并进行相关分析,以便确定新产品是否可以批量生产。13.1案例背景该企业委托某市场研究公司在全国范围内选取4个城市,在每个城市采用街访的方式对消费者进行调查,随机品尝10种样品中的一种,并给出口味的评价(9分制)。13.1.1研究项目概况13.1.2分析思路与商业理解13.1.1研究项目概况具体研究概况如下。访谈城市:上海、北京、广州和成都。样品品牌:世*、伊*、子*、卡*、三*、中*、海*、香*、试制品1和试制品2。分析目的:在这10种样品中更受消费者欢迎的是哪几种?消费者的口味倾向在这4个城市之间有无差异?预期目标:这两种试制品的口味评分应当不低于另外8种已面市的产品。如果能够从中筛选出最优的一种则最为理想。13.1.2分析思路与商业理解在有针对性的研究设计框架之下,本项目的数据分析任务很明确。本研究所关心的结果变量为口味评分,取值为1~9,由于范围较宽,因此可以按照连续性变量加以分析(最好列出频数表以确认实际取值范围)。由于该评分是从每一位受访者询问而来,因此研究中的基本观察单位就是人,除评分外,还记录了他们所品尝的品牌,8个竞争品牌和两种试制品,构成了多组比较的结构。分析目的就是考察这10组受访者的平均口味评分有无差异。如果按照均数比较的方式考虑,则基本上应当考虑方差分析,因为这里是10组均数的比较,两两比较需要进行45次,因此不宜采用两两T检验;否则得到的结论可能不准确(因放大一类错误而得到假阳性的比较结果)。除主要影响因素外,本例中还需要考虑城市因素的影响。在进行品牌之间均数的比较时,还应当去除城市的影响:如果城市和品牌之间不存在交互作用,则直接在模型中控制城市的影响即可;反之,如果两者之间存在交互作用,则可能需要分城市进行品牌的比较。下面就按此思路进行分析。13.2数据理解首先应当了解分析所用的数据是否和试验设计框架一致,这可以用交叉表过程来完成。13.2.1数据与设计框架一致性检查13.2.2平均值的列表描述13.2.3平均值的图形描述13.2数据理解13.2.1数据与设计框架一致性检查选择菜单栏中的【分析】∣【描述统计】∣【交叉表】∣【卡方】命令,弹出对话框。输出结果如下表所示。从表格中可以淸楚地看到,每个城市x品牌单元格内都有30〜60例样本,不存在突单元格,因此整个研究设计是平衡的,符合普通方差分析模型的要求。13.2数据理解13.2.2平均值的列表描述下面考虑对各因素不同水平的口味测试评分均值进行考察,由于是分组描述,可以有两种实现方式:一种是首先按照各因素的不同水平进行样本拆分,然后对拆分后的样本进行描述;第二种则是直接采用均值过程来完成此任务,此处采用后一种方式进行分析,如右图所示。由于城市、样品品牌是并列选入自变量列表的同一层而不是不同层,因此平均值将分别按照城市和品牌进行计算,结果如下表所示。13.2数据理解13.2.3平均值的图形描述对于各组的均数,一般可以使用箱图、条图等图形工具来考察。通常情况下箱图是首选工具,但由于口味评分为9分制,取值类别太少,釆用箱图的呈现效果不佳,因此这里改用带误差线的条图来呈现,如下图所示。13.2数据理解13.2.3平均值的图形描述右图所反映的信息和下表接近,但是更为直观,可见子*和制品1的口味评分位列前茅,且各组的离散程度相差不大。13.3不同品牌的评分差异分析首先考察一下不同品牌之间的评分是否存在差异,该问题可归纳为一般线性模型框架下的方差分析。在进行分析时,为了避免城市这一因素对结果造成影响,考虑对每个城市的样本数据分别进行分析,相应数据的拆分既可以通过选择个案来实现,也可以通过拆分文件来实现,这里我们釆用效率更高的后者,如下图所示。13.3不同品牌的评分差异分析13.3.1单因素方差分析模型简介1.模型结构以本数据的背景为例,每-位受访者的口味测试评分Yij可以表达为如下形式:ijiijY其中,Yij代表第i个品牌组中第j位受访者的评分。显然,在此表达式中μi表示某个品牌组的平均评分,j的取值范围为1〜10,分别代图10种品牌;而εij表示第i组的第j位受访者的随机误差,反映的是因各种原因导致的该受访者的实际评分和该组平均评分之间的差异。13.3不同品牌的评分差异分析13.3.1单因素方差分析模型简介2.模型检验方差分析模型中的检验可以分为总模型检验和各因素检验。对于总模型,所检验的假设如下。•H0:模型中涉及因素的实际影响均为0,即除常数项外,任何参数ɑi、βj…均等于0。•H1:模型参数中至少有一个参数不等于0。对于每一个因素所进行的检验,相应的假设如下。•H0:对任意的i取值,都有ɑi=0。•H1:至少有一个ɑi不等于0。13.3不同品牌的评分差异分析13.3.1单因素方差分析模型简介3.单因素方差分析模型的应用条件统计学中也许有成千上万的方法,但没有哪种方法是放之四海而皆准的,自然这里方差分析也不例外。一般而言,要应用方差分析,数据应当满足以下几个条件,或者说以下的假设应当成立。•观察对象来自所研究因素的各个水平之下的独立随机抽样。•每个水平下的因变量应当服从正态分布。•各水平下的总体具有相同的方差。上述三点一般会被简单地概括为独立性、正态性和方差齐性,而在具体考察适用条件时,应当以模型残差来进行考察。13.3不同品牌的评分差异分析13.3.2品牌作用的总体检验在SPSS中,实现单因素方差分析的方法很多,常用的是【比较均值】子菜单素ANOVA过程。但本案例中,样品品牌为字符串变量,无法在单因素ANOVA对话框(见下图)中使用。为了能够和模型架构的介绍内容相对照,我们使用功能更为强大的【一般线性模型】∣【单变量】过程,这和后面的多因素方差分析中的分析过程一致,以便大家学习。13.3.3组间两两比较13.3不同品牌的评分差异分析1.具体操作上面的结果表明品牌间是有差异的,但究竟是哪些品牌之间有差异呢?为了进一步回答此问题,在方差分析后需要使用两两比较方法作进一步分析。这里采用比较常见的SNK法进行两两比较,操作步骤如下。step01打开【单变量:实测平均值的事后多重比较】对话框。step02在【下列各项的事后检验】列表框中选入brand。step03【假定等方差】选项组:选中S-N-K复选框,如右图所示。step04单击【确定】按钮,输出结果。13.3.3组间两两比较13.3不同品牌的评分差异分析2.常见两两比较方法的特点在本例的分析中,我们使用的两两比较方法是常用的S-N-K法,实际上在SPSS中提供的两两比较方法有20余种。3.如何选择两两比较方法如何在如此之多的两两比较方法中选出合适的方法是一个令人头痛的问題。由S-N-K法的结果阅读非常方便,以前国内外都以S-N-K法最为常用,但根据近年来的研究发现,当两两比较的次数极多时,该方法的假阳性非常高,因此当比较次数较多时(例如本例中对10组作两两比较,则比较次数会有45次),对用S-N-K法得到的有统计学意义的结论要谨慎一些。13.3.4方差齐性检验13.3不同品牌的评分差异分析前面曾经提到过,方差分析模型也有独立性、正态性、方差齐性等要求。对于独立性,一般从研究设计或者数据背景就可以进行大致评估;正态性可以在选项中要求绘制残差图来考察,不过对单因素方差分析模型而言,残差分析的实际价值不大;真正比较重要的是方差齐性的要求,在单变量GLM过程的选项中,可以要求进行方差齐性检验(也称Levene检验),从而用检验结果来考察模型是否满足方差齐性的要求13.4两因素方差分析模型上面分4个城市分别考察了品牌的影响,可以发现在每个城市中品牌之间的差异并不完全一致,那么就整体而言品牌之间有无差异呢?对同一个项目而言,将所有信息整合起来得到一个综合的结果是非常必要的,虽然最简单的做法是忽略城市区别,将样本直接综合起来进行单因素方差分析,但这样做显然过于粗糙。下面将进一步研究同时考虑城市和品牌两个因素的方差分析模型。13.4.1两因素方差分析模型简介13.4.2拟合包括交互项的饱和模型13.4.3拟合只包含主效应的模型13.4.4组间两两比较13.4.5随机因素分析13.4两因素方差分析模型13.4.1两因素方差分析模型简介1.多因素方差分析模型的结构前面已经介绍了单因素方差分析模型的基本结构,在多因素方差分析模型中,其原理没有任何变化,只是模型中考虑的因素更多而已。下面以两因素方差分析模型为例进行介绍,其公式为ijkjiijkY其中,αi、βj分别表示A因素i水平和B因素j水平的附加效应,εijk仍为随机误差变量。更复杂的是考虑交互作用的情形,模型如下:ijkjijiijkY其中,αi、βj分别表示A因素i水平和B因素j水平的附加效应。αiβj则为两者的交互效应。13.4两因素方差分析模型13.4.1两因素方差分析模型简介2.方差分析模型的检验方差分析模型中的检验可分为总模型的检验和各因素的检验。对于总模型,所检验的假设如下。•H0:模型中所涉及因素的实际影响均为0,即除常数项外,对于任何参数αi、βj…均等于0。•H0:模型参数中至少有一个参数不等0。而对每个因素所进行的检验,相应的假设如下。H0:对任意的i取值,都有αi=0。H1:至少有一个αi不等于0。在具体检验方法上,方差分析的基本思想是变异分解,即将样本的总变异分解为若干部分,除一部分代表随机误差的作用外,其余每个部分的变异分别代表某个影响因素的作用(或交互作用),通过比较可能由某因素所致的变异与随机误差的大小,再借助F分布做出推断,即可了解该因素对结果变量的影响是否存在。13.4两因素方差分析模型13.4.1两因素方差分析模型简介3.方差分析模型的常用术语了解了方差分析模型的基本结构后,现在来学习方差分析中的常用术语。•因素(Factor)与水平(Level)•单元(Cell)•元素(Element)•均衡(Balance)•协变量(Covariates)•交互作用(Interaction)13.4.2拟合包括交互项的饱和模型13.4两因素方差分析模型右表就是结果中最为重要的方差分析表。可见,在其中进行了多个检验,依次解释如下。第一行的校正模型,是对所用方差分析模型的检验,其原假设为模型中所有的影响因素均无作用,即城市间、品牌间均无差异,两者的交互作用均不存在。该检验的P值远小于0.05,因此所用的模型有统计学意义,以上所提到的影响因素中至少有一个是有差异的,具体是谁有差异则需要阅读后面的分析结果。第二行是对模型中常数项是否等于0进行的检验,显然它在本次分析中没有实际意义,忽略即可。第三、四行分别是对城市间、品牌间差异进行的检验,可见两者均有统计学意义。第五行是对城市和品牌的交互作用进行检验,可见P值为0.263,无统计学意义。13.4.3拟合只包含主效应的模型13.4两因素方差分析模型由于在本次分析中发现两个因素的交互作用无统计学意义,为了使模型更为简洁,需要在模型中将其删除,具体操作在模型子对话框中实现,如右图所示。新的分析结果如下表所示。13.4.4组间两两比较13.4两因素方差分析模型现在通过分析,已经得知城市间、品牌间的评分是有差异的,为了能够回答究竟是哪些城市、品牌间有所不同,下面用SNK法进行两两比较。相应的分析结果如下表所示。13.4.5随机因素分析在本例中,将品牌和城市均设定为固定因素,对品牌而言,研究者只希望比较10种样品中哪个更受欢迎,没有任何问题。但是对城市而言,如果研究者只希望分析4个城市间的口味评分有无差异,则以上分析结果是正确的;但是如果实际目的是通过这4个城市来推断全国所有同类城市的口味评分有无差异,则这里涉及将结果外推到未出现在样本中的其他城市的问题,它就应当是一个随机因素。换言之,这里的分析结果只能说在这4个城市间是有效的,