1基于多元统计分析的葡萄质量评价分级张加勇,冯婷婷,王祥玉,巩梦洁,张晓华(信阳师范学院华锐学院数学与计算机科学系河南信阳464000)摘要:本文研究的是葡萄质量评价和分级问题。首先对第一组品酒员和第二组品酒员对27个红葡萄酒样品的打分均值做均值检验和双正态总体方差检验,得出两组打分均值无显著性差异,而方差有显著性差异,且第二组方差较小,因而结果更可信。对28个白葡萄酒样品做类似处理,得到同样结果,从而可知第二组品酒员的打分结果更可信。然后对白葡萄样品的30个理化指标做主成分分析,提取出10个主成分,把它们和第二组品酒员的打分均值放在一起做R型聚类分析,提取出一些代表性指标,根据这些指标再对28个白葡萄样品做Q型聚类分析和主成分综合评价,综合上述结果,得出这些白葡萄分为四级比较合适。对红葡萄样品做类似处理得出这些红葡萄分为五级比较合适。关键词:均值检验;方差检验;聚类分析;主成分综合评价中图分类号:O221.1文献标识码:A文章编号:1671—6132(2011)03—0013—05BasedonmultivariatestatisticalanalysisofthegrapequalityevaluationclassificationZHANGJia-yong,FENGTing-ting,WANGXiang-yu,GONGMeng-jie,ZHANGXiao-hua(Departmentofmathematicsandcomputerscience,huaruicollege,Xinyangnormaluniversityxinyang464000,china)Abstract:Thispaperstudiesthegrapequalityevaluationandclassificationproblem.First,thefirstgroupPinJiuYuanandthesecondgrouptoPinJiuYuan27redwinesamplesofscoringaveragedomeaninspectionanddoublenormalpopulationvariancetest,itisconcludedthatthemeanscoretwogroupshadnosignificantsexdifference,andvariancehavesignificantdifference,andthesecondformuladifferenceissmall,thustheresultmorereliable.28awhitewinesamplesforsimilartreatment,getthesameresults,soastoknowthesecondgroupofPinJiuYuanscoreresultsmorereliable.Thendialoguegrapesamples30physicalandchemicalindexfamilycompositionanalysis,theextracted10maincomposition,putthemandthesecondgroupofPinJiuYuanscoringaveragetogetherdoRtypeclusteringanalysis,theextractedsomerepresentativeindex,accordingtotheseindexagainto28whitegrapesampledoQtypeclusteranalysisandprincipalcomponentcomprehensiveevaluation,comprehensivetheaboveresults,itisconcludedthatthesewhitegrapeisdividedintofourmoreappropriate.Theredgrapesampledosimilarprocessingconcludedthattheseredgrapeisdividedintoacategoryfivemoreappropriate.Keywords:averageexamination;Varianceexamination;Clusteringanalysis;Principalcomponentcomprehensiveevaluation收稿日期:2012-09-28*.通讯联系人:张加勇E-mail:zh_jiayong2007@163.com作者简介:张加勇(1980-),男,河南南阳人,讲师,研究生,主要从事小波分析和数学建模研究20问题重述确定葡萄酒质量时一般是通过聘请一批有资质的评酒员进行品评。每个评酒员在对葡萄酒进行品尝后对其分类指标打分,然后求和得到其总分,从而确定葡萄酒的质量。酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系,葡萄酒和酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量。本文根据附件1,2中提供的数据建立数学模型讨论下列问题:(1).分析附件1中两组评酒员的评价结果有无显著性差异,哪一组结果更可信?(2).根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级。1模型假设(1)附件中给出的数据是准确可信的;(2)品酒员对葡萄酒的打分均值服从相互独立的正态分布;(3)二级指标忽略不计,只考虑一级指标对葡萄质量的的影响2符号说明m2:第二组品酒员对红葡萄酒的打分均值m4:第二组品酒员对白葡萄酒的打分均值xi:白葡萄样品理化指标的10个主成分,i=1,2,…10yi:红葡萄样品理化指标的8个主成分,i=1,2,…83问题的分析和求解3.1问题(1)的分析和求解问题(1)要求分析附件1中两组评酒员的评价结果有无显著性差异,哪一组结果更可信。首先利用MATLAB编程分别求出第一组十个品酒员和第二组品酒员对27个红葡萄酒样品打分的平均分m1,m2,假设样本m1,m2分别服从相互独立的正态分布221122(,),(,)NNmsms,然后利用MATLAB中的ttest2和vartest2命令对它们做均值检验和方差检验。程序如下:hfjy.m%本程序为对红葡萄酒样品的评分显著性检验clc%先求第一组品酒员对27个红葡萄酒样品打分的平均分m1a=xlsread('hptj1');a(91,3)=2;b=[];c=[];fork=1:10:261b=sum(a(k:k+9,:));c=[c;b];end3c;ind=[252771011201624191864132217123812523152692114];fork=1:27d(ind(k),:)=c(k,:);endd1=d;m1=mean(d1');%下面求第二组品酒员对27个红葡萄酒样品打分的平均分m2a1=load('hptj2.txt');size(a1);b=[];c1=[];fork=1:10:261b=sum(a1(k:k+9,:));c1=[c1;b];endc1;ind1=[102337116171820121115272619146254529212422813];fork=1:27d2(ind1(k),:)=c1(k,:);endd2;m2=mean(d2');h=ttest2(m1,m2,0.05)%检验两组得分均值是否有显著性差异[h1,p1]=vartest2(m1,m2,0.05,'right')%检验两组得分方差是否有显著性差异程序运行结果为:h=0,这说明两组得分均值无显著性差异,h1=1,p1=0.0013075,这说明两组得分方差有显著性差异,且第二组得分方差较小,结果比较可信。对28个白葡萄酒样品做类似处理,利用MATLAB编程bfjy.m(见附录程序1),可得结果为:h=0,h2=1,p2=0.0062295以上结果说明:第一组品酒员和第二组品酒员对28个白葡萄酒样品打分的平均分也没有显著性差异,但是,方差有显著性差异,且第二组方差较小,结果比较可信。综上所述知:第二组品酒员的打分结果比较可信。下面我们将用第二组品酒员的打分结果作为葡萄酒质量的度量值。3.2问题(2)的分析和求解问题(2)要求根据酿酒葡萄的理化指标和葡萄酒的质量对这些葡萄酒样品进行分级。这次我们先对白葡萄酒和白葡萄样品进行处理。考虑到白葡萄样品的理化指标较多,一级指标有30个,另外还有一些二级指标,不便于处理,因此,我们首先对做了几次测试的一级指标值取其平均值作为指标值,并忽略其二级指标,然后利用SPSS软件对30个一级指标做主成分分析,提取其10个主成分x1,x2,…x10,然后再加上第二组品酒员对28个白葡萄酒样品打分的平均值m4,求出这些指标间的相关系数,结果如表1:表1:白葡萄理化指标主成分和葡萄酒质量的相关系数表Table1:whitegrapephysicochemicalindexprincipalcomponentsandqualityofwinerelatedcoefficienttable410.8299050.8852590.8348070.9737910.267756-0.581470.913498-0.667730.23321-0.073180.82990510.8781010.7553380.8965990.063043-0.512850.96643-0.56990.5233950.093730.8852590.87810110.9717060.921780.509266-0.834590.874676-0.876530.1217060.1599490.8348070.7553380.97170610.8566510.68349-0.92690.759955-0.95581-0.080550.17910.9737910.8965990.921780.85665110.247777-0.617480.958488-0.692110.3191970.0211180.2677560.0630430.5092660.683490.2477771-0.878640.052962-0.84444-0.718990.246924-0.58147-0.51285-0.83459-0.9269-0.61748-0.878641-0.483050.9865090.355601-0.306450.9134980.966430.8746760.7599550.9584880.052962-0.483051-0.551210.5362290.012837-0.66773-0.5699-0.87653-0.95581-0.69211-0.844440.986509-0.5512110.334497-0.264840.233210.5233950.121706-0.080550.319197-0.718990.3556010.5362290.3344971-0.12089-0.073180.093730.1599490.17910.0211180.246924-0.306450.012837-0.26484-0.120891可以看出某些指标之间存在较强的相关性,因此考虑从这些指标中选取一些具有代表性的指标进行聚类分析。对上述11个指标做R型聚类分析,首先对每个变量的数据分别进行标准化处理,变量间相近性度量采用相关系数,类间相似性度量的计算选用类平均法。聚类树形图如下:791015283461100.20.40.60.811.21.4指标聚类树形图图1:指标聚类树形图Figure1:indexclusteringtree从图1可以看出,x1,x2,x3,x4,x5,x8相关性较强,最先被归为一类,将11个指标分为6类,从中选定6个具有代表性的指标x3,x6,x7,x8,x10,m4对28个白葡萄样品进行Q型聚类分析,结果为:划分成3类的结果如下:第1类的有14212327第2类的有124567891011121315161718192022242526