葡萄酒质量的综合评价分析模型中国海洋大学罗聃徐兴成谭萍指导教师高翔【摘要】近年来,我国掀起了一场葡萄酒热,对葡萄酒的需求与日俱增,特别是随着食品科学技术的发展,人们不再满足传统感官评价葡萄酒的水平,如何运用数据资料定量研究葡萄酒的品质,加快建立葡萄酒市场指标规则成为人们关注的焦点。本文主要研究了葡萄酒的品质与葡萄酒自身以及酿酒葡萄的理化指标的关系,给出了基于葡萄酒自身的理化指标以及酿酒葡萄的理化指标与芳香物质的定量综合评价模型。首先基于两组评酒员对同一批葡萄酒的评价分数数据,采用假设检验中的t检验法建立评估两组数据差异的模型,得到了两组评酒员的评分存在显著差异的结论,并通过对两组数据进行方差分析,以判别结果具有的稳定性作为标准,得到第二组比较可靠。接下来我们结合酿酒葡萄的理化指标和可信组评酒员的打分所刻画的葡萄酒的质量对酿酒葡萄进行分级,用聚类分析的方法将红,白葡萄酒和酿酒葡萄各分成了5类,然后对分好的葡萄类所酿造的葡萄酒进行统计,得到各类葡萄所对应的级别。更进一步,我们分析了酿酒葡萄和葡萄酒的理化指标之间的联系,运用主成分分析的方法,从酿酒葡萄的30个指标中提取出了12个主要成分,进而通过逐步回归的方法建立起酿酒葡萄和葡萄酒的理化指标联系的模型。最后我们将提取葡萄及葡萄酒的理化指标与芳香物质中的主成分,利用逐步回归的方法考察理化指标与芳香物质对葡萄酒质量的影响程度,通过对芳香物质对葡萄酒质量影响比重得到芳香物质对葡萄酒的质量有30%以上的影响比重(白葡萄的芳香物质对白葡萄酒的质量影响相对更大),故而不能完全用酿酒葡萄和葡萄酒的理化指标评价葡萄酒的质量。关键词:假设检验聚类分析主成分分析逐步回归一、问题重述1.1问题背景葡萄酒是由新鲜葡萄或葡萄汁经过酒精发酵而得到的一种含酒精饮料。葡萄酒质量是其外观、香气、口感、整体的综合表现。一方面,酒中的糖、酸、矿物质和酚类化合物,都具有各自独特的风味,它们组成了葡萄酒的酒体;另一方面,酒中大量的挥发性物质,包括醇、脂、醛、碳氢化合物等,都具有不同浓度、不同愉悦程度的香气,葡萄1酒最终的质量则是葡萄酒中各种成分协调平衡的结果。1.2问题提出随着葡萄酒产业逐渐升温,为了获得质量更好的葡萄酒,对酿酒葡萄及葡萄酒的研究也越加深入。现在流行的做法是通过聘请一批有资质的评酒员进行品评,但是这种感官评价的主观性总是带给我们模糊的印象。正如我们所知的,酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系,葡萄酒和酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量。如何充分利用这些理化指标定量研究葡萄酒的质量成了炙手可热的研究问题。二、问题分析题目为我们提供了感官评价指标,葡萄和葡萄酒的各种理化指标和芳香物质的信息。本文的关键就是通过分析处理已给的数据,建立数学模型来研究葡萄酒质量的确立。为此,我们要依次达到题目给出的以下几个目标:2.1两组评价结果差异性和可信性研究问题一给出了两组评酒员对同一批葡萄酒的评价分数,本文采用假设检验中的t检验法建立评估两组数据差异的模型,研究两组评价员的评价结果是否存在差异,判断是否能接受它们有显著性差异的假设。若判断的结果是这两组数据存在差异,我们就进入第二步,可靠性研究。我们分别对两组数据求方差,方差小的那组说明波动比较小,评酒员的评定比较稳定,数据比较可靠。2.2酿酒葡萄的分级首先,我们我们利用第一题的结果,用置信区间法对可信组的原始数据进行处理,降低评酒员之间的差异,提高酒样品之间的差异【1】;利用处理后的数据(总分)对葡萄酒进行分级;然后,用初步处理后的酿酒葡萄的理化指标对葡萄进行聚类分析,将葡萄分成了若干类;分析每类葡萄对应的葡萄酒大都属于哪一级别,从而得出葡萄的级别;最后,分析每一级葡萄理化指标的特点,建立起葡萄指标识别葡萄级别的模型帮助果农更好地利用好葡萄酿好酒。2.3酿酒葡萄与葡萄酒理化指标的联系问题三要求研究葡萄与葡萄酒理化指标之间的联系,我们先对于葡萄的30个理化指标进行主成分分析法,得到葡萄一些具有代表性的理化指标。然后我们建立葡萄的理化指标与葡萄酒的7个理化指标之间的多元线性回归方程,得到了酿酒葡萄与葡萄酒理化指标之间的定量联系。2.4理化指标对葡萄酒质量的影响及论证问题四要求研究酿酒葡萄与葡萄酒的理化指标对葡萄酒质量的影响,以及是否能完2全用酿酒葡萄和葡萄酒的理化指标评价葡萄酒的质量。我们将提取葡萄及葡萄酒的理化指标与芳香物质中的主成分,利用逐步回归的方法考察理化指标与芳香物质对葡萄酒质量的影响程度,通过对芳香物质对葡萄酒质量影响比重得到芳香物质对葡萄酒的质量有30%以上的影响比重(白葡萄的芳香物质对白葡萄酒的质量影响相对更大),故而不能完全用酿酒葡萄和葡萄酒的理化指标评价葡萄酒的质量。三、问题假设1、同种葡萄酒在一组评酒员下的得分成正态分布。2、一种葡萄对应酿制一种葡萄酒。3、葡萄的成分充分转换成葡萄酒里的成分,不存在意外的浪费和挥发。4、假设葡萄和葡萄酒芳香物质中没有检测到的成分不存在于该样本中,数据处理前将其置为零。四、符号说明这里只列出主要模型的全局参数,其他局部参数见文中。(1)iJ第i个红葡萄酒样品(2)iJ第i个白葡萄酒样品1T第一组评酒员全体2T第一组评酒员全体(1)iA酿酒红葡萄样本(2)iA酿酒白葡萄样本五、建模的建立与求解5.1模型一:基于t检验建立差异评估模型我们采用假设性检验验证是否能接受两组评酒员评价结果无差异的假设。然后用方差分析两组评酒员组内数据的波动,认为较平稳的一组数据比较可靠。5.1.1数据预处理我们在整理数据的时候发现几个比较显著的异常数据:1)第一组红酒数据—样品20—色调—品酒员4号数据缺失;2)第一组白酒数据—样品3—持久性—品酒员7号数据明显有问题,怀疑是多敲了一个7;3)第一组白酒数据—样品8—口感分析—浓度—品酒员2号数据明显异常。因为随机样本在均值附近振荡,所以我们选用均值来代替异常数据以求误差最小。35.1.2基于成对数据的t检验【2】1)模型的建立:将两组评酒员分别看作两个整体1T、2T,对每个红葡萄酒样品(1)iJ(1,2,,27)i(白葡萄酒样品(2)iJ(1,2,,28)i)进行感官评价,1T对每个红葡萄酒样品(1)iJ的评价结果通过组内每一位品酒员的评分(1)ijx(1,2,,10)j的均值10(1)(1)1110iijjxx来刻画,同样2T对每个红葡萄酒样品(1)iJ的评价结果用均值10(1)1110iijjyy来刻画,从而得到两组评酒员对每种样品酒的评价结果,建立两组评酒员对红葡萄酒的评价结果见表1。红葡萄酒样品1234567891011121314第一组评分62.780.380.468.673.372.271.572.381.574.270.153.974.673第二组评分68.17474.671.272.166.365.36678.268.861.668.368.872.6D-5.46.35.8-2.61.25.96.26.33.35.48.5-14.45.80.4红葡萄酒样品15161718192021222324252627第一组评分58.774.979.359.978.678.677.177.285.67869.273.873第二组评分65.769.974.565.472.675.872.271.677.171.568.27271.5D-754.8-5.562.84.95.68.56.511.81.5表1红葡萄酒的评价结果表中的数据是成对的,即对同一酒样品(1)iJ得到一对数据。可知一对与另一对数据之间差异是由各种因素,如葡萄酒的外观、香气、口感、材料成分等因素引起的。由于各酒样品(1)iJ(1,2,,27)i的特性有广泛的差异,就不能将第一组评酒员1T对27种红葡萄酒的评价结果看成是同分布随机变量的观测值。因而表中第一行不能看成是一个样本的样本值,同样第二组的数据也不能看成是同一个样本的样本值,而同一对中两个数据是同分布随机变量的观测值,他们的差异是由于两组品酒员的水平引起的。为鉴定他们的评价结果有无显著性差异,可使用基于成对数据的逐对比较法。以红葡萄样品为例,有27对相互独立的评价结果:11222727(,),(,),,(,)XYXYXY,令111222272727,,,DXYDXYDXY,则1227,,,DDD相互独立。由于1227,,,DDD是由同一因素所引起的,可认为它们服从同一分布。现假设2(,)iDDDN,1,2,,27i。就是说1227,,,DDD构成正态总体2(,)DDN的一个样本,其中2,DD未知。基于这一样本检验假设:01:0,:0DDHH(1)分别记1227,,,DDD的样本均值和样本方差的观测值为d,2Ds。对1227,,,DDD进行单个均值的t检验,检验问题的拒绝域为(显著水平为):2(1)Ddttnsn.(2)当t的值不落在拒绝域内,接受0H,认为两组品酒员的评价结果没有显著差异,否则两组品酒员的评价结果有显著性差异。4对白葡萄酒的处理同红葡萄。2)模型的求解:现以红葡萄酒为例求解,首先,作出同一酒样品(1)iJ(1,2,,27)i分别由两组品酒员1T、2T得到的评价结果之差,列于表1的第三行。根据建立的模型需检验假设01:0,:0DDHH.我们取=0.02,则20.01(26)(26)2.4786tt,通过查表即知拒绝域为2.4786Ddtsn由观测值得2.5407d,227.7883Ds,2.54072.50442.47865.271427t.现t的值落在拒绝域内,故接受1H;同样对白葡萄酒进行成对数据的t检验,得白葡萄酒观测值之差的均值2.5214d,224.9124Ds,2.52142.62492.47274.991228t,故认为两组品酒员的评价结果有显著性差异。5.1.3可信度定量分析1)模型的建立:记第一组10位品酒员对红葡萄酒样品(1)iJ(1,2,,27)i的评分为(1)ija(1,2,,10)j,10(1)(1)1110iijjaa,10(1)(1)2(1)2111()10iijijsaa(3)其中,(1)ia表示第一组品酒员对红葡萄酒样品(1)iJ的评分均值,(1)21is表示(1)iJ的评分方差;同样,第二组对红葡萄酒样品(1)iJ的评分均值和方差分别为10(1)(1)1110iijjcc,10(1)(1)2(1)2211()10iijijscc(4)从而对每一组品酒员得到一个评分方差向量(1)2(1)2(1)2(1)211112127(,,,)Ssss(1)2(1)2(1)2(1)222122227(,,,)Ssss同理可求得白葡萄酒的(2)21S,(2)22S。再对(1)21S和(1)22S中的元素分别求和得到方差和,用方差和对比得到对于同一批红葡萄两组不同的评价水平。方差和小的稳定性好,相对来说比另一组的评价结果是更可信的。2)模型的求解:运用excel软件进行求解,容易得到(1)21S,(1)22S,(2)21S,(2)22S,具体附录一对红葡萄酒而言:(1)21S元素的和为1409.3,(1)22S元素的和为821.1。对白葡萄而言:(2)21S元素的和为3183.1,(2)22S元素的和为1388.5。不管是红葡萄酒还是白葡萄酒,第一组的方差和总是远远大于第一组。为了更直观的看到这个结果,下图即为两组评酒员对两种葡萄酒的方差图像,可以直观的看到第二组的波动程度比第一组的小,第二组更可信。5图1两组品酒员对红、白葡萄酒的评分方差图5.2模型二:基于聚类分析建立酿酒葡萄分级模型我们根据可信组评酒员给每种酒样品的打分来确定葡萄酒的质量;再用聚类分析对酿酒葡萄进行分类,对每类的葡萄酿造的葡萄酒进行统计,对应地得到这类葡萄所对应的级别。5.2.1葡萄酒的分级1)置信区间法置信区间法【2】能有效的降低评酒员之间的差异,提高酒样品之间的差异【1】,虽然我们