1葡萄酒的评价模型海军航空工程学院(烟台)史成巍许志鹏王鑫指导教师司守奎专家点评:本文格式基本规范,表达较清晰。解决问题一方法适当,结论正确;问题二以相关系数筛选出与葡萄酒质量相关性较大的理化指标与葡萄酒质量一起作为评估葡萄质量的评价指标,进行聚类分析,思路简明,结论较合理。问题三进行理化指标的相关性分析,切入准确,但对结果的说明不够充分。不足之处是在问题二到问题四中没有充分考虑芳香类物质的使用,问题四中对如何判定“葡萄和葡萄酒的理化指标是否能用来评价葡萄酒”时方法略有不妥,导致结论不当。点评人:济南大学数学科学学院许振宇副教授摘要:本文主要针对葡萄酒的评价问题建立了相关数学模型。在对两组评酒员的评价是否存在显著性差异的问题中,首先验证了两组评酒员的评价结果服从正态分布,并通过方差分析法对两组评酒员的评价结果进行了分析,发现两组评酒员对于红葡萄酒和白葡萄酒的评价结果均存在显著性差异,由于第二组评酒员的评分方差更小,故评价结果均衡度更好,其结果可信度更大。在对酿酒葡萄进行分级的问题中,首先以相关系数衡量葡萄理化指标与葡萄酒质量的相似性程度,然后筛选出与葡萄酒质量相关性较大的理化指标与葡萄酒质量一起作为评估葡萄质量的评价指标,利用筛选出的评价指标对酿酒葡萄进行聚类分析,将红葡萄和白葡萄均分成了四类。最后以每类中对应葡萄酒质量评分的均值作为该类葡萄的分数,从而定出四类的级别,以对应国家葡萄酒的四级分类标准。在分析酿酒葡萄与葡萄酒的理化指标间的联系问题中,本文采用偏最小二乘回归分析法对指标间的联系进行了分析计算,发现葡萄酒中的某些理化指标与葡萄的某些理化指标存在较强的相关性,比如白葡萄中的总糖和还原糖对白葡萄酒中顺式白藜芦醇苷和顺式白藜芦醇以及反式白藜芦醇的影响较大。在判断葡萄与葡萄酒的理化指标与葡萄酒的质量间关系的问题中,首先对葡萄和葡萄酒的理化指标与葡萄酒的质量进行了相关性分析,发现某些理化指标与葡萄酒的质量相关性很大。然后筛选出这些相关性较大的指标,用偏最小二乘回归分析法进一步定量分析了这些指标与葡萄酒质量的关系,建立了葡萄酒质量的评价模型,经过检验,利用建立的评价模型对葡萄酒评价结果与专家组的评价结果误差普遍小于5%,这同时论证了用葡萄和葡萄酒的理化指标对葡萄酒进行评价是基本可行的。关键字:显著性检验;聚类分析;偏最小二乘回归分析法21问题的重述确定葡萄酒质量时一般是通过聘请一批有资质的评酒员进行品评。每个评酒员在对葡萄酒进行品尝后对其分类指标打分,然后求和得到其总分,从而确定葡萄酒的质量。酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系,葡萄酒和酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量。建立数学模型讨论下列问题:(1)分析两组评酒员的评价结果有无显著性差异,哪一组结果更可信?(2)根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级。(3)分析酿酒葡萄与葡萄酒的理化指标之间的联系。(4)分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,并论证能否用葡萄和葡萄酒的理化指标来评价葡萄酒的质量?2问题的分析对于问题(1),两组评酒员分别对27种红葡萄酒和28种白葡萄酒进行了评价,通常情况下,评价结果一般服从正态分布,所以首先应当对评价数据进行2拟合检验法[1],然后利用方差分析对两组评酒员的评价结果进行显著性分析。一个较好的评价组应是本着客观的原则进行评价,因此评价结果通常较为均匀,据此,可以分别计算出各组评酒员评价结果的方差,方差越大表明组内成员的评价差异越大,可信度就越低。对于问题(2),题目要求根据酿酒葡萄的理化指标和葡萄酒的质量对酿酒葡萄进行分级,首先就必须从这些指标中找到与酿酒葡萄分级有关的指标。考虑到酿酒葡萄的用途是酿制葡萄酒,因此葡萄酒的质量可以作为衡量酿酒葡萄质量的重要指标。而那些与葡萄酒质量相似性程度较大的酿酒葡萄理化指标也应作为酿酒葡萄的评估价指标。采用计算相关系数的方法计算两者间相似性程度,选定合适的相关系数为界线即得出酿酒葡萄质量评价指标。在酿酒葡萄质量指标确认后,采取聚类分析的方法对酿酒葡萄进行分类。分类后,各类中葡萄酿制葡萄酒的质量得分即作为各类分数,从而分出酿酒葡萄的级别。对于问题(3),要求对葡萄与葡萄酒的理化指标的联系进行分析,葡萄的二级理化指标有50多种,葡萄酒的理化指标有15种左右,并且各个指标间可能存在较大的关3联度,研究两组多重相关变量间的关系问题,可以考虑用偏最小二乘回归分析法。对于问题(4),首先利用问题(2)中相关性分析法和聚类分析法,筛选出与葡萄酒质量关联度较大的一些关键指标。经过去除掉对葡萄酒质量影响较小的指标,不仅可以简化计算,而且在实际研究中,工作人员只需测量这些关键指标即可,减少了工作量。然后利用偏最小二乘回归分析法,分析筛选后的指标与葡萄酒质量的函数关系,进而得到对葡萄酒质量的评价模型。为检验所建评价模型的准确性,可以考虑将样本数据分成两部分,一部分数据用于分析计算评价模型,然后利用另一部分数据对模型进行检验。如果说误差较小,则说明所建评价模型较为满意,同时也论证了用理化指标对葡萄酒的质量进行评价的可行性。3模型的假设(1)酿酒葡萄的酿造水平与酿造环境相同;(2)酿制同一种酒使用的葡萄是相同的;4符号说明kija:第一组评酒员中第i个评酒员对第j种红葡萄酒的第k个理化指标的评分;ija:第一组评酒员中第i个评酒员对第j种红葡萄酒的总评分;jV1:第一组评酒员对第j种红葡萄酒评价结果的方差;ijr:第i个指标与第j个指标间的相关系数。5模型的建立与求解5.1两组评酒员评价结果的差异分析5.1.1数据的处理与准备根据题意,共有两组评酒员,每组有十个成员,每个评酒员在评价任意一种酒时,均考虑了四项一级指标和十项二级指标,每种酒的评价满分为100分,其中各个指标所占分值如表1所示。为方便计,将各个二级指标按照表1中从左至右的顺序依次编为1—10号。表1各指标所占分值一级指标外观分析香气分析口感分析整体二级指标澄清度色调纯正度浓度质量纯正度浓度持久性质量整体分值51068166882211记kija,ija分别表示第一组评酒员中第i个评酒员,对第j种红葡萄酒第k个二级指标的评分和对第j种红葡萄酒的总评分,kijb,ijb分别表示第二组评酒员中第i个评酒员,对第j种红葡萄酒第k个二级指标的评分和对第j种红葡萄酒的总评分,10,,2,1i,27,,2,1j,10,,2,1k,则有.,101101∑∑kkijijkkijijbbaa假设把每一组所有评酒员对第j种红葡萄酒的平均评分,作为该组对该种红葡萄酒的最终评分,分别用jA,jB表示第一组和第二组对第j种红葡萄酒的最终评分,427,,2,1j则.27,,2,1,101,101101101jbBaAiijjiijj∑同样,记kijf,ijf分别表示第一组评酒员中第i个评酒员,对第j种白葡萄酒第k个二级项指标的评分和第j种白葡萄酒的总评分,kijg,ijg分别表示第二组评酒员中第i个评酒员,对第j种白葡萄酒第k个二级指标的评分和第j种白葡萄酒的总评分,10,,2,1,ki,28,,2,1j。则.,101101∑∑kkijijkkijijggff分别用jF,jG表示第一组和第二组对第j种白葡萄酒的最终评分,28,,2,1j。则.101,101101101∑iijjiijjgGfF现以第1号红葡萄酒为例,分析两组评酒员评价结果的分布情况。20个评酒员对第1号酒的评分依次为70,79,91,68,97,82,69,80,81,76,68,71,80,52,53,76,71,73,70,67。以10分为间距,统计落入各个区间数据的个数,结果见表2.表2评分结果分布统计区间50—5960—6970—7980—8990—100个数24842可以看出,20个评酒员对1号红葡萄酒的评分结果呈现出两头少中间多的分布。下面利用2拟合检验法[1]检验评价结果是否服从正态分布(取显著性水平05.0)。原假设0H:样本服从正态分布),(2N。计算参数及2的极大似然估计值分别是2011201ˆiia,201212)ˆ(201iia.计算出落入5个区间的频率依次为0.1,0.2,0.4,0.2,0.1.经过查卡方分布表,49.9205.0,而49.917.92,所以接受原假设,即20个评酒员对1号红葡萄酒样品的评分可视为服从正态分布。类似地,其他54种酒的评价结果经检验均服从正态分布。5.1.2两组评价结果分析计算出两组评酒员对各种酒的评分情况,见图1.5第一组评酒员评分第二组评酒员评分葡萄样品评分红葡萄酒白葡萄酒图1两组最终评分均值通过图1总结出,两组评酒员对于55种酒的评分走势大致相同,但对于红葡萄酒的评价,第一组的评分普遍高于第二组;对于白葡萄酒的评价,第一组的评分普遍低于第二组。针对第j种酒,两组评酒员的评分标准可能不同,主观性较大。为检验两组评酒员的评价结果是否存在显著性差异,可进一步对两组评价结果进行t检验[1]。以红葡萄酒为例,第一组的十个评酒员对第j种红葡萄酒的评分构成样本101)(ija,10,,2,1i,第二组的十个评酒员对第j种酒的评分作为构成101)(ijb,10,,2,1i。两个样本的容量为10,自由度为9。两样本的均值分别记作jj21,,标准差分别记作jjss21,,则10122210121110121011.55,,2,1,)(91,)(91,101,101ijijjijijjiijjiijjjbsasba两样本总自由度为18,合并的标准差js,.2)()(2221jjjsss进一步计算相应的jt,.||521jjjjst提出假设0H:两个样本差异不显著。备择假设1H:两个样本差异显著。通常显著水平05.0,即置信概率为95%。经过查t分布表知,自由度为18时,10.205.0t。故当10.2jt时,接受原假设0H,表明两组评酒员对第j种红葡萄酒的评价结果差异不显著;故当10.2jt时,拒绝原假设0H,表明两组评酒员对第j种红葡萄酒的评价结果差异显著。6经过上述计算,两组评酒员对27中红葡酒和28种白葡萄酒的评价差异结果如表3所示(其中,1表示两组评价结果不显著差异,0表示显著差异)。表3各种酒的评价差异性红葡萄酒白葡萄酒酒类显著性酒类显著性酒类显著性酒类评分101501115021160201603117131170401804018051190501916020060200702117021080220802209123190231100241100240110251111251121260121260130270130271140140280两组评酒员对于55种酒的评价,总计有37种存在显著性差异,占总数的67.3%。其中红葡萄酒17种,占红葡萄酒总数的63.0%,白葡萄酒20种,占白葡萄酒总数的71.4%,差异性略高于红葡萄酒。因此,两组评酒员对于这些酒的评价普遍存在显著性差异,为了得到更为准确客观的评价结果,必须分别对各组评酒员的评价结果进一步分析,比较两组评价的可靠性。一个好的评价组在评价某种酒时,每一个成员应当本着客观性的评价原则对酒的各项指标进行评分,尽量避免主观影响。因此好的评价组对于同一种酒的评价结果通常更为均衡,不会出现高分和低分居多,而中等分数偏少的现象。所以,组员评价结果的均衡度在很大程度上表征了该评价组评价结果的可信度,而表现均衡度大小的数据就是评价样本的方差,方差越大,均衡度越小,评价组的可信度越低,反之亦然。对于第j种红葡萄酒,第一组的十个评酒员对第j种红葡萄酒的评分构成样本101)(ija,10,,2,1i,第二组的十个评酒员对第j种酒的评分作为构成101)(ijb,10,,2,1i。记两