2012国赛数学建模A题葡萄酒论文

a8281912
2 ℃
2020-05-21

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

葡萄酒的评价一、摘要对于问题一，考虑到分数间不存在相关性，样本量偏小，需要对两组数据进行比较分析，我们采用了非参数检验中的Wilcoxon符号秩检验，评判结果均有显著性差异。在此情况下，比较同组内十名品酒员对同一样品酒给出的总分的方差，再令得到的多组方差取平均，无论红葡萄酒和白葡萄酒，都是第一组方差较大，故第二组的评分较为可信。另外由于所给数据大量且复杂，需预先对数据进行预处理，排除明显错误数据，用组内均值替代缺失数据。对于问题二，先用SPSS对芳香物质和香气指标总分进行简单相关分析，筛选芳香物质中与香气评分相关性较大的成分。将保留的芳香物质和葡萄的理化指标与葡萄的质量进行逐步回归分析，得到回归方程。在得到结果后，我们也检验了数据满足逐步回归分析的条件。最后将不同组葡萄的指标系数代入，根据分数值对葡萄分级，最终红、白葡萄酒都被分为六级。对于问题三，我组首先对葡萄酒与酿酒葡萄当中相同的指标进行了简单相关性检验，得出其中大部分指标是强相关的，但是有一些指标（例如白酒的色素）是不相关的。为了对这些指标进行进一步的分析，我组对含有二级指标的指标组进行了典型相关性分析，分析多个指标与多个指标间的关系。而像酒总黄酮这类的单独指标，则进行了逐步线性回归，探究与所有可能有联系的指标间的联系。对于问题四，我组以品酒员测定的指标等级为依据，希望通过逐步线性回归与Topsis排序的方法归纳出葡萄酒和葡萄理化指标间的数量关系，进而还原出品酒员所评定的等级。但是在具体实践过后，两种方法的分级都与品酒员的分级有较大的误差，故认定不能直接通过理化指标去确定葡萄酒的等级。关键词：葡萄酒质量符号秩检验主成分分析逐步回归主成分分析二、问题重述确定葡萄酒质量时一般是通过聘请一批有资质的评酒员进行品评。每个评酒员在对葡萄酒进行品尝后对其分类指标打分，然后求和得到其总分，从而确定葡萄酒的质量。酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系，葡萄酒和酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量。附件1给出了某一年份一些葡萄酒的评价结果，附件2和附件3分别给出了该年份这些葡萄酒的和酿酒葡萄的成分数据。请尝试建立数学模型讨论下列问题：1.分析附件1中两组评酒员的评价结果有无显著性差异，哪一组结果更可信？2.根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级。3.分析酿酒葡萄与葡萄酒的理化指标之间的联系。4．分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响，并论证能否用葡萄和葡萄酒的理化指标来评价葡萄酒的质量？三、问题分析3.1问题一的分析两组品酒员分别对于白葡萄酒和红葡萄酒给出了包括外观，口感，香气，平衡四项大指标的评价，可将每个方面的评分相加作为总分确定葡萄酒的质量。对于同一葡萄酒样品，不同的品酒员给出的分值存在个体差异，考虑到分数间不存在相关性，样本量偏小，且需要对两组数据进行比较分析，我们采用了非参数检验中的Wilcoxon符号秩和检验评判结果有无显著性差异。由于所给数据大量且复杂，需预先对数据进行预处理，排除明显错误数据，用组内均值替代缺失数据。要评价哪组的评价结果更可信，主要是检验组内各个品酒员的评分是否相对集中，可以通过计算方差的方法，比较得到哪组数据波动小，则可信度高。3.2问题二的分析首先，我们分析芳香物质对葡萄酒质量的相关性。采用SPSS的简单相关系数分析，分别化简保留8个红葡萄和6个白葡萄中芳香物质。然后，对理化指标中多组测试结果取均值作为该理化指标的唯一数据，同时考虑到二级指标比一级指标分类更细致，可以得到更精确的分析结果，我们以二级指标代替一级指标。我们以品酒员给出样品酒的总分作为葡萄酒质量的衡定。将简化好的理化指标与葡萄酒总分输入SPSS软件，进行逐步回归分析，得到理化指标与葡萄酒质量的线性回归方程。将各个理化指标代入方程，计算得各个总分，对分数进行分级，即可得到酿酒葡萄的等级。3.3问题三的分析要分析葡萄酒和酿酒葡萄之间的联系，我们发现它们有共同的指标，故首先对葡萄酒与酿酒葡萄当中相同的指标进行了简单相关性检验，得出其中大部分指标是强相关的，但是有一些指标（例如白酒的色素）是不相关的。为了对这些指标进行进一步的分析，我们对含有二级指标的指标组进行了典型相关性分析，分析多个指标与多个指标间的关系。而像酒总黄酮这类的单独指标，则进行了逐步线性回归，探究与所有可能有联系的指标间的联系。3.4问题四的分析我们以品酒员测定的指标等级为依据，希望通过逐步线性回归与Topsis排序的方法归纳出葡萄酒和葡萄理化指标间的数量关系，进而还原出品酒员所评定的等级。但是在具体实践过后，两种方法的分级都与品酒员的分级有较大的误差，故认定不能直接通过理化指标去确定葡萄酒的等级。四、模型假设1.假设所有的葡萄酒酿造工艺相同；2.假设一级指标包括二级指标，部分二级指标可以按一定标准进行取舍；3.假设各处理条件下的葡萄和葡萄酒样本是相互独立的；4.评酒员对葡萄酒样品的评分是客观的，不含任何自己的主观意见。5.假设葡萄中存在的而葡萄酒中不存在的理化指标也会影响葡萄酒的质量；6.假设附件中给出的葡萄和葡萄酒理化指标都准确可靠。五、符号说明六、模型的建立和求解6.1模型一的建立和求解6.1.1数据的预处理（1）检验数据的正确性及改正两组品酒员分别对27组红葡萄酒和28组白葡萄酒进行了多指标的评判。根据每个指标的规定最高分，我们发现第一组品酒员7对于白葡萄酒3号的持久性评分值77大于最优值8，故判断此数据有误。考虑让数据最不偏离正确的结果，我们对该项目的其余9位品酒员的分数取平均值得到分数6.1分，将错误数据修正为6.1分。（2）空缺数据的填补第一组品酒员4对于红葡萄酒20号的色调评分值缺失，对该项目的其余9位品酒员的分数取平均值得分数6.2分，将空白数据填充为6.2分。预处理后数据中，第一组、第二组各有10名评酒员对27种红葡萄酒样品和28中白葡萄酒样品分别作了评价，故将每位评酒员对每种酒样品的各项评分求和得到总分，然后将同组中每种酒样品的10个总分取平均值，从而得到第一组对27种红葡萄酒样品、28种白葡萄酒样品的综合平均评分，和第二组对27种红葡萄酒样品、28种白葡萄酒样品的综合平均评分。评分结果如下：红葡萄酒评价均值红葡萄酒评价方差白葡萄酒评价均值白葡萄酒评价方差第一组第二组第一组第二组第一组第二组第一组第二组样品162.768.192.981.8788277.992.22225.878样品280.37439.78916.22274.275.8201.06749.067样品380.474.645.82230.71178.275.6365.122142.489样品468.671.2108.64441.28979.476.944.71142.1样品573.372.162.01113.6567181.5126.44426.278样品672.266.359.73321.12268.475.5162.71122.722样品771.565.3103.6162.67877.574.239.16742.178样品872.36644.01165.11171.472.3183.631.122样品981.578.232.94425.73372.980.492.767106.267样品1074.268.830.436.17874.379.8212.67870.4样品1170.161.670.76738.04472.371.4177.12287.822样品1253.968.379.65625.12263.372.4115.789140.044编号符号说明1is样品酒的分数方差2Xi葡萄的相关理化指标3Yi葡萄的相关理化指标样品1374.668.844.93315.28965.973.9170.76746.767样品147372.63023.1567277.1114.22215.878样品1558.765.785.56741.34472.478.4131.654.044样品1674.969.918.120.17467.317882.233样品1779.374.588.0119.16778.880.3144.17838.456样品1859.965.447.21150.26773.176.7156.54430.233样品1978.672.647.37855.15672.276.446.426.044样品2078.675.826.04439.06777.876.664.450.044样品2177.172.2116.135.51176.479.2172.71164.4样品2277.271.650.62224.2677179.4138.66753.6样品2385.677.132.48924.76775.977.443.65611.6样品247871.574.88910.72273.376.1111.12238.544样品2569.268.264.62243.73377.179.533.878106.5样品2673.87231.28941.55681.374.372.9102.9样品277371.549.77820.564.877144.435.566样品2881.379.680.45625.378表6.1两组葡萄酒评分的均值和方差6.1.2基于威尔科克森符号秩检验的显著性差异分析在威尔科克符号秩检验中，它把观测值和零假设的中心位置之差的绝对值的秩分别按照不同的符号相加作为其检验统计量。适用于T检验中的成对比较，但并不要求成对数据之差di服从正态分布，只要求对称分布即可。检验成对观测数据之差是否来自均值为0的总体（产生数据的总体是否具有相同的均值）。要判断两组评酒员的评价结果有无显著性差异，就应该构造统计量，检验两组评分的差异。若不在置信区间内，则认为评分差异性显著。基于本题的背景，两组的差异体现在了对样本酒的排名差异上。因为本题属于食品评价中的感官评价问题，所以可以结合感官评价中的排序检验与非参数检验中的符号秩检验，对两者的显著性进行评价。下面采用Wilcoxon符号秩检验的方法作显著性分析，以红葡萄酒为例进行说明。为了比较红葡萄酒样品的两组评分结果是否有显著性差异，作出假设检验为：H0：两组评分结果没有显著性差异；H1：两组评分结果有显著性差异。正负符号检验和威尔科克森符号秩检验，都可看作是就成对观察值而进行的参数方式的T检验的代用品，非参数检验具有无需对总体分布作假定的优点，而就成对观察值作的参数方式的T检验，必须假定有关的差别总体服从正态分布。该方法具体步骤如下：(1)对i=1,...,n，计算∣Xi-M0∣，它们代表这些样本点到M0的距离。(2)把上面的n个绝对值排序，并找出它们的n个秩，如果它们有相同的样本点，每个点取平均秩。(3)令W+等于Xi-M00的∣Xi-M0∣的秩的和，而W-等于Xi-M00的∣Xi-M0∣的秩的和。(4)对双边检验H0：M=M0=H1：M≠M0，在零假设下，W+和W-应差不多。因而，当其中之一很小时，应怀疑零假设。在此，取检验统计量W=min（W+,W-）。(5)根据得到的W值，利用统计软件或查Wilcoxon符号秩检验的分布表以得到在零假设下的p值。如果n很大要用正态近似：得到一个与W有关的正态随机变量Z的值，再用软件或查正态分布表得到p值。(6)如果p值较小（比如小于或等于给定的显著性水平，譬如0.05）则可以拒绝零假设。如果p值较大则没有充分的证据来拒绝零假设，但不意味着接受零假设。先求出每对数据的差值D，按差值绝对值|D|由小到大排列并给秩R，从秩1开始到秩27，样本数目27n，在给秩时，遇到相等的|D|时，使用平均秩，如表中酒样品3和酒样品13具有相同的绝对差值5.8，因而平分秩16和秩17，各为秩16.5。当绝对差值的秩值R给出后，将R分成正、负差值的两个部分秩值R+和R-，最后求符号秩和TR，TR由于样本数目为27个，T+和T-的最小可能值为0，而最大可能值为1+2+…n=(n+1)n/2。此处使用SPSS