葡萄酒评价模型的设计与求解黄亚坤,韩磊,王梦瑶(安徽师范大学数学计算机科学学院,安徽,芜湖,241000)关键词:T检验;改进K均匀聚类分析;模拟退火;广义回归神经网络摘要:针对葡萄酒质量评价的多样性和复杂性等问题,围绕评酒员评价的差异性、酿酒葡萄的分级、理化指标对葡萄酒质量的影响分别建立模型,并对结果进行了详细的分析。首先采用置信区间法降低同一酒样的变异系数,按照其方差贡献率进行综合评分,在此基础上,通过组内评价指标变异度的检验,进行二次方差检验两组评分结果的可信度;对于葡萄酒的分类,利用数据挖掘提取方法,得出主成分,为了改进K均值聚类算法的局限性,提高聚类的有效性;最后考虑多维变量之间的关系,提出了基于广义神经网络模型,研究酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响程度。并通过实际数据进行仿真,结果显示了提出的模型具有一定的合理性和有效性。中图分类号:O235文献标识码:A文章编号:(2013)04ThedesignandsolutionofwineevaluationmodelHuangYakun,HanLei,WangYang.(SchoolofMathematics&ComputerScience,AnhuiNormalUniversity,Wuhu241000,China)Keywords:Tinspect;ImprovedKuniformclusteringanalysis;Simulatedannealing;GeneralizedregressionneuralnetworkAbstract:Inthispaper,weaimattheissueofqualityassessment,andcenterontheSignificantdifferenceofthetastingmembers’evaluationresultsandreliability、classificationofwinegrape、thecontactbetweenthephysicalandchemicalindicatorsofthewinegrapeandwine、theeffectandevaluationofthephysicalandchemicalindicatorsofthewinegrapeandwinetothequalityoftheportwine,buildmodelsrespectivelyanddoadetailedanalysisoftheresult.Firstlyweusingtheconfidenceintervalmethodtoreducethecoefficientofvariationofthesamewinesample,inaccordancewithitsvariancecontributionrateofthecompositescore,onthisbasis,wedothesecondvariancetesttwosetsofratingsresultscrediblebygroupevaluationvariabilityinspection;Totheclassificationofwine,ourdataminingextractionmethodobtainedtheprincipalcomponents,inordertoimprovethelimitationsoftheK-meansclusteringalgorithm,toimprovetheeffectivenessoftheclusteringsimulatedannealing;Finally,weconsidertherelationshipbetweenthemulti-dimensionalvariables,weproposetrainingrelevantsampledatabasedongeneralizedneuralnetworkmodeltostudytheimpactofthephysicalandchemicalindicatorsofthequalityofthewineinthewinegrapeandwine;simulationandactualdata,theresultsshowthattheproposedmodelhasarationalityandeffectiveness.1问题背景目前,葡萄酒质量的鉴别主要靠感官分析和理化指标分析的方法进行评价[1],如确定葡萄酒质量时一般是通过聘请一批有资质的评酒员进行品评。每个评酒员在对葡萄酒进行品尝后对其分类指标打分,然后求和得到其总分,从而确定葡萄酒的质量。酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系,葡萄酒和酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量。在此基础上,本文针对网上搜索的相关葡萄酒和酿酒葡萄的成分数据。从数学建模角度,讨论以下问题:一、分析两组不同评酒员的评价结果有无显著性差异;二、根据酿酒葡萄的理化指标和葡萄酒的质量对酿酒葡萄进行分级;三、研究酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响。2模型假设与符号说明针对特定的背景,为了更好的进行问题说明,给出以下假设和相关符号说明(1)两组评酒员在对酒样进行评价的过程中不存在明显偏好,评价总体较客观;(2)葡萄酒的质量客观上与酿酒葡萄的好坏直接有直接关系,主观上与评酒员的评分有直接关系;照片尺寸为20mm*30mm;最好不用红色背景(3)从制酒过程中,假设葡萄酒的理化指标对酿酒葡萄的理化指标具有一定的依赖关系。相关符号说明:xC:样本X的变异度向量yC:样本Y的变异度向量t:t检验变量12u,u,....,unU{}:等级划分模型的因素集:样本的协方差矩阵1U,1V:第一对典型变量3问题分析葡萄酒已成为人们生活中常见的饮品,如何确定葡萄酒质量逐渐成为人们讨论的热点。酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系,葡萄酒和酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量。本文旨在对相关真实数据的分析基础上,分析感官分析在评酒师之间的差异性与可信性;同时从多元统计分析的角度分析葡萄酒的质量与酿酒葡萄自身等的理化性质之间的关系;在此之上,从感官分析和理化指标分析角度,给出一个合理的评判葡萄酒的质量体系。针对问题一,采用置信区间法降低同一酒样的变异系数,然后对酒样多种指标评分进行主成分分析,按照其方差贡献率进行综合评分;针对两组评酒员的评分结果是否可信问题,采用组内评价指标变异度的检验,进行二次方差检验两组评分结果的可信度。问题二,我们进行对二级指标进行主成分分析,同时利用数据挖掘方法进行数据特征提取,将该数据与其他相应理化指标进行合并后做主成分分析得出8个主成分。K均值聚类算法其自身存在的多种局限性,采用模拟退火思想K均匀聚类方法做出了改进,具有并行性和渐近收敛性,提高聚类的有效性。问题三采用一般的非线性回归无法处理多维变量之间的关系,提出基于广义神经网络模型对数据的70%样本数据进行训练,研究酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响程度;并通过30%样本数据进行测试,论证了用葡萄和葡萄酒的理化指标来评价葡萄酒质量的影响程度的合理性。4模型的建立和求解4.1模型一4.1.1模型的准备两组评酒员在实践中,由于多种因素的共同作用,成员间存在异质性[2]。由文献[3]可知,对数据的标准化法提高了同一酒样的变异系数,真实反映样品间的差异。本文对搜集的数据采用置信区间法处理。置信区间法处理方法为:通过计算所有品酒员对用一酒样的平均值为iw,标准差为j,则存在品酒员i对酒样j评价的置信区间为ijw。其中,iw是酒样j的平均值,j是酒样j的标准差。对原始数据的处理过程为:若品酒员i对酒样j的评价ij在其置信区间范围内就可以使用;反之将对数据做以下逐步调整至ijW,使对同一酒样的评价值都处于ijw范围内,即: ,() ,()ijjijijijjijwwj(1)4.1.2模型的建立通过上述分析,针对分析两组评酒员的评价结果的差异比较,分别对不同葡萄酒进行差异检验,给出如下模型:(1)两组评价结果的差异性分析通过两组评酒员对酒样的综合评分矩阵分别对不同葡萄酒的评价进行差异检验。我们采用配对实验的t检验[4]进行分析。设两个总体为11(,)pNu,22(,)pNu现抽取两个样本:()12(,,...,)',1,2,...,aaaapXXXXan12(,,...,)',1,2,...,aaapaYYYYam对假设01:0,:0ZZHuHu进行检验。1)针对nm的情形令()()(),1,2,...,,iiiZXYin()11niiZZXYn假设0H成立时,构造检验统计量为:(0.05/,)zZZZuZttnmSS其中,ZZSSn22()1ZZZnSn2)针对nm的情形在此,不妨设nm,同理令()()() ,1,2,...,iiiZXYin11ZXYmn假设0H成立时,构造检验统计量为:(0.05/,)zZZZuZttnmSS(2)其中,ZZSSn22()1ZZZnnSmn若t值小于其边界临界值,则接受零假设,认为两组实验之间无显著性差异。若t值大于其边界临界值,则拒绝零假设,认为两组实验之间有显著性差异。(2)可信性分析根据上述处理得到的数据,我们采用综合均值和标准差来对每组评判进行可信度的分析。设两个总体为11(,)pNu,22(,)pNu。现分别从两个总体中抽取一个样本:()12(,,...,)',1,2,...,aaaapXXXXan12(,,...,)',1,2,...,aaapaYYYYam若分析两组数据的可信度,由于同一酒样十位评酒员的评分具有离散性的,因此需从每组内的变异向量入手。设:x,xS分别为样本一的均值向量和方差向量,x,xS分别为样本二的均值向量和方差向量。则按照变异度的定义,,XY两个样本的变异度向量分别可以表示为:,yxxySSccxy若xycc,说明样本一内部变异程度相对越稳定,样本一判断的可信度相对较高;若xycc,说明样本二内部变异程度相对越稳定,样本二判断的可信度相对较高。4.1.3模型求解与结果分析(1)根据上述建立的方差假设检验模型,结合数据处理后所得到的综合评分矩阵通过十个品酒员对每一酒样的分数评估,算出评价均值向量与评价标准差向量。令:cab建立假设、确定检验水准:01:0:00.05ccHuHu将数值带入检验统计量t:cccCuCtSS其中,由于我们分白酒、红酒两种情况做差异性分析,所以根据可以利用四个综合得分矩阵进行两组配对比较实验,带入数据计算出两个t统计量指标的值。通过对处理后的数据进行求解得出:11.7841t,21.7805t查t界值表可知, (0.05/26,26)1.706,(0.05/27,27)1.703tt实验通过未通过零假设检验,则得出结论:不同种类酿酒葡萄的评价结果均显示出两组评分间的显著性差异。(2)可信性分析求解基于上述的方法,对上述中的均值向量与评分标准差向量求解得出差异性指标向量,下面以两组对红酒的评价为例做出相关分析解释。05101520253024681012141618NumberAveragevaluesFirstgroupSecondgroup图1.两组葡萄酒的检验结果均值05101520253000.511.522.53NumberValuesFirst:标准差First:变异性Second:标准差Second:变异性图2.两组葡萄酒的特征值针对上述数据求解得出红色葡萄酒第一组的变异性指标为:0.02624xc,第二组为0.02570yc;对于白色葡萄酒第一组的变异性指标为:0.041162xc,0.03066yc。4.2模型二4.2.1模型的准备为了