葡萄酒的评价摘要本文通过聘请一批有资历的评酒员对葡萄酒的质量进行评价,从而得出不同组别、不同样品葡萄酒的质量。然后分析酿酒葡萄与葡萄酒质量的理化指标对葡萄质量的影响,以及它们之间的联系。对于问题1,我们采用了单因素方差分析和t检验对评判两组评酒员的评价结果进行了显著性检验。对于问题2,我们首先对酿酒葡萄的理化指标进行主成分分析,得出各个样品的综合得分;然后,根据附表1中品酒员对各个样品的综合评分对葡萄酒进行模糊综合评判处理,得出各葡萄酒样品质量的模糊评判分数;再据有关资料提供的酿酒葡萄与葡萄酒的权重系数进行综合处理,得出酿酒葡萄的分级情况为:对于问题3,我们先采用灰色关联度分析得出了酿酒葡萄理化指标X1与葡萄酒的理化指标(X2)的关联度,比较了各理化指标的关联程度大小;然后再采用一元多项式回归得出X1与X2的具体函数关系为:对于问题4,我们先用残差分析剔除了一些异常数据后,再对有关数据进行处理,逐个分析了酿酒葡萄对葡萄洒质量、葡萄酒对葡萄洒质量的单因素影响,再采用多元线性回归得出了酿酒葡萄、葡萄酒的理化指标对葡萄酒质量的综合影响。我们得出:单因素影响:综合因素影响:关键词:t检验、主成分分析、Matlab编程、灰色关联度分析、一、问题重述1.1、问题背景:葡萄酒是一种健康饮料,口味独特,酒精含量又低,深受大家的欢迎。然而确定葡萄酒质量时一般是通过聘请一批有资质的评酒员进行品评。每个评酒员在对葡萄酒进行品尝后对其分类指标打分,然后求和得到其总分,从而确定葡萄酒的质量。酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系,葡萄酒和酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量。因此,确定酿酒葡萄和葡萄酒的质量之间的关系是非常必要的。1.2需要解决的问题:1.分析附件1中两组评酒员的评价结果有无显著性差异,哪一组结果更可信?2.根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级。3.分析酿酒葡萄与葡萄酒的理化指标之间的联系。4.分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,并论证能否用葡萄和葡萄酒的理化指标来评价葡萄酒的质量?二、问题分析题目要求根据葡萄酒和酿酒葡萄检测的理化指标来反映葡萄酒和葡萄的质量。2.1问题一的分析:问题一要求我们根据附件1中两组评酒员的评价结果,判断哪一个更为可信。首先,本文采用了Excel统计原理求出每一个组每一个样品的总平均分,然后用单因素方差分析不同组别的同类葡萄,得出F比,然后进行比较得出两组评酒员的评价结果有无显著性差别。然后,用t检验进一步证明。根据上面所得出的数据求出均值差的置信水平为0.95的置信区间。然后,根据置信水平,评判哪一组结果更可信。2.2问题二的分析:对问题二,对问题2要求我们根据酿酒葡萄的理化指标和葡萄酒的质量对酿酒葡萄进行分级。本文采用了主成分分析法,根据附件2葡萄和葡萄酒的理化指标表,选取一级指标,有多次测量数据则取其平均值。运用Matlab编程,计算得到主成分的个数,以及主成分的得分,再对它们求和得出每一个样品的综合得分。接着,运用Excel统计原理求出每种葡萄酒样品的质量的总平均分,根据统计原理得出它们权重关系。然后求出每个样品在两种因素下的总得分,再根据得分情况对酿酒葡萄分级。2.3问题三的分析:对问题三,采用主成分分析法求出葡萄酒的理化指标的主成分得分。然后,求出每个样品的总得分。采用灰色关联度分析酿酒葡萄与葡萄酒的理化指标的关联度。最后,采用一元多项式回归求出两者的具体函数关系,并得出置信区间。2.4问题四的分析:对问题四,采用一元线性分析分别得出酿酒葡萄和葡萄酒的理化指标与葡萄酒质量的函数关系。然后,采用多元线性分析得出酿酒葡萄和葡萄酒的理化指标与葡萄酒质量的函数关系,期间采用了残差分析,剔除不可置信点。三、模型假设1.假设二级指标对一级指标的影响不大;2.四、符号说明1.p:指标变量的个数;2.rij:(i,j=1,2,…,p):为原变量的xi与xj之间的相关系数;3.R:实对称矩阵;4.iz:主成分),,2,1(pi;5.i:特征值;6.ie:特征向量;7.ijl:主成分载荷;8.U:因素集;9.V:评语集;10.A:权重集;11.I:单位矩阵;五、模型的建立与求解(一)对于问题一:分析附件1中两组评酒员的评价结果的显著性差异,判断哪组更可信。首先用采用excell统计学原理求出每一组每个样品的总得分。然后采用单因素试验的方差分析分析两组评酒员的评价结果有无显著差异。再采用t检验进一步验证。根据得出的数据求均值差的置信水平为0.95的置信区间。第一种方法:采用方差分析一般地为了考虑因素A是否对试验指标有影响,我们在因素的不同水平A1、A2,…,Ar下进行试验,如果在每一水平Ai下,进行了ni次观察,从而得到ni个数据,把因素每一水平下的试验指标看成一个随机变量,则这ni个数据就是的一个容量为ni的样本的值。现在我们要研究的是这r个总体是否具有相同的分布,或r个样本()是否来自同一个总体。检验假设(=0.05);0H:10987654321,1H:10987654321不全相等,通过计算因素平法和AS、误差平法和ES、总和TS、自由度。再通过matlab可以得到均方、F比的值,从而可以确定有无显著的差异,其得出的表格及图像如下方差来源平法和自由度均方F比因素误差ASESS-1n-sAS=1sSAF=EASS总和TSn-1ES=snSE经查表得05.0F(9,10)=3.022.87故各因素存在显著差异。同理可以得出两组评酒员对其他样品的得分有无显著差异,经过多次应用matlab得到数据可以看出基本上无显著差异。这里TS=2711012jiijx-2702T(T=271101jiijx),AS=2712.jjjnT-nT2,ES=TS-AS,然后再算出其置信区间,通过置信区间看哪一组更可信。2(方差)=AS/(n-s),321,,代表均值。321,,代表总平均,均值差的估计:025.0t(n-s),025.0t(n-s))11(ijEnnS第二种方法:采用t检验法当总体呈正态分布,如果总体标准差未知,而且样本容量n30,那么这时一切可能的样本平均数与总体平均数的离差统计量呈t分布。t检验是用t分布理论来推论差异发生的概率,从而比较两个平均数的差异是否显著。相关样本平均数差异的显著性检验,用于检验匹配而成的两组被试获得的数据或同组被试在不同条件下所获得的数据的差异性,这两种情况组成的样本即为相关样本。相关样本的t检验公式为:1212122221XXXXXXtn。在这里,1X,2X分别为两样本平均数;12X,22X分别为两样本方差;为相关样本的相关系数。第一步建立原假设∶1X=2X;第二步计算t值,根据表(9)的数据我们可以计算出t=0.58第三步判断根据自由度26,查t值表05.0)26(t1.7058,01.0)26(t2.4786.由于实际计算出来的t=0.582.4786=01.0)26(t,则p0.99,故原假设成立。结论为:两次测验成绩无显著地差异。2.对于问题二:主成分分析的计算步骤:1计算相关系数矩阵pppppprrrrrrrrrR212222111211其中,rij(i,j=1,2,…,p)为原变量的xi与xj之间的相关系数,其计算公式为nknkjkjikinkjkjikiijxxxxxxxxr11221)()())((因为R是实对称矩阵(即rij=rji),所以只需计算上三角元素或下三角元素即可。2计算特征值与特征向量首先解特征方程0RI,求出特征值,并使其按大小顺序排列,即0,21p;然后分别求出对应于特征值i的特征向量),,2,1(piei。这里要求ie=1,即112pjije,其中ije表示向量ie的第j个分量,即ie为单位向量。3计算主成分贡献率及累计贡献率主成分iz的贡献率为),,2,1(1pipkki累计贡献率为),,2,1(11pipkkikk5.确定主成分个数:一般取累计贡献率达85—95%的特征值m,,,21所对应的第一、第二,…,第m(m≤p)个主成分。6.计算主成分载荷其计算公式为),,2,1,(),(pjiexzplijijiij(3)7.得到各主成分的载荷以后,可按照下式计算各主成分的得分pmpmmmppppxlxlxlzxlxlxlzxlxlxlz22112222121212121111............(4)模型的求解:本文在Matlab软件中通过编程来实现主成分分析。计算结果如下:特征值贡献率累计贡献率6.93830.216820.216825.05880.158090.374914.29980.134370.509282.67360.0835510.592832.0080.0627510.655581.97720.0617870.717371.57710.0492840.766651.3670.0427180.809371.1130.0347810.844150.91760.0286750.872830.825130.0257850.898610.662330.0206980.919310.521250.0162890.93560.442340.0138230.949420.383480.0119840.961410.292790.009150.970560.256780.0080250.978580.221970.0069370.985520.145620.0045510.990070.0984250.0030760.993140.0801060.0025030.995650.0577420.0018040.997450.0454740.0014210.998870.0177320.0005540.999430.0130830.0004090.999840.005260.00016413.13E-169.79E-181由表可得前十个成分的累计贡献率达到87.283%,即前十个主成分包含了原来四个指标的87.283%的信息。可以确定主成分的个数为10较合理。主成分载荷表z1z2z3z4z5x1-0.372180.5583-0.07523-0.350660.23639x2-0.63121-0.393990.35325-0.20983-0.17873x30.13676-0.372820.17201-0.017130.55541x4-0.82821-0.06111-0.008220.22165-0.10492x5-0.372750.193790.35515-0.25619-0.30696x6-0.309590.373560.106950.54711-0.11055x7-0.252480.273030.327280.42068-0.37237x8-0.313390.047645-0.218790.63267-0.25323x9-0.40404-0.140940.11470.658020.042719x10-0.77426-0.373860.19957-0.197240.05431x11-0.88146-0.12751-0.02433-0.233230.035451x12-0.77788-0.13683-0.139670.072020.20776x13-0.75233-0.2484-0.01644-0.279040.012686x140.0265540.145190.8542-0.031330.2339x15-0.560440.0562180.0842020.23460.16316x16-0.23740.75421-0.28133-0.23542-0.09