2012年数学建模国赛一等奖

e想8道
1 ℃
2020-02-15

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

1葡萄酒的评价摘要本文运用多种相关分析、综合评价和线性回归等方法解决了葡萄酒质量的评价问题。对于问题一，首先通过单样本K-S检验等方法确定了各葡萄酒样本评分数据的概率分布，从而确定了显著性差异模型的建立，接着考虑两组评分数据的配对关系约束，引入Wilcoxon符号秩检验法来进行显著性差异的假设检验。结果显示对于红、白葡萄酒，两个品酒组的评价结果均存在显著性差异。最后利用秩相关分析，引入肯德尔和谐系数法评定评酒组的评分信度，评价结果显示对于红葡萄酒，第一组品酒员的品尝得分更为可信，而对于白葡萄酒则是第二组品酒员在可信度方面占优。问题二，运用主成分分析法进行指标遴选，构建酿酒葡萄质量的综合评价指标体系，并利用该指标体系建立基于综合评价的酿酒葡萄分级模型，对酿酒葡萄进行分级。结果发现样本葡萄大多集中在二、三级，红葡萄样本中样本23质量最优，为特级葡萄；样本12质量相对欠缺，属六级葡萄。问题三中，采用研究两组变量之间相关关系的多元统计方法——典型相关分析，识别并量化两组变量——酿酒葡萄与葡萄酒的理化指标——之间的关系。分析结果如下：第一，增大酿酒葡萄果皮的含量对葡萄酒中DPPH半抑制体积含量的增加有重要影响；第二，酿酒葡萄中的苹果酸不仅能促发酵，还能给对红葡萄酒起主要呈色作用的花色苷和对花色苷起中等辅色作用的单宁物质起保护作用，使得红葡萄酒呈色亮丽；第三，在葡萄总黄酮消除自由基的抗氧化作用和总酚保护清除自由基的共同作用下，酿酒葡萄中的DPPH自由基转化为葡萄酒中的DPPH半抑制体积。对于问题四，首先在问题三分析酿酒葡萄与葡萄酒的理化指标间联系的基础上，在保留葡萄酒指标的前提下，剔除酿酒葡萄指标中某些认为可以被用于表示对应葡萄酒指标的部分。接着，利用筛选后的指标建立多元线性回归模型，探究酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响。经检验样本组的线性回归模型评价值与评分值的显著性差异检验，用葡萄和葡萄酒的理化指标来评价葡萄酒的质量是可行的。本文综合秩相关分析评价、基于层次分析法的综合评价、典型相关分析、多元线性回归等模型，结合MATLAB、SPSS、SAS和EXCEL等软件，对葡萄酒质量的评价问题进行了多角度的分析，并给出了利用理化指标评价葡萄酒质量的模型。在文章的最后对模型的适用范围做出了推广，在实际应用中有较大的参考价值。关键词：秩相关主成分分析层次分析综合评价典型相关分析多元线性回归2一、问题重述确定葡萄酒质量时一般是通过聘请一批有资质的评酒员进行品评。每个评酒员在对葡萄酒进行品尝后对其分类指标打分，然后求和得到其总分，从而确定葡萄酒的质量。酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系，葡萄酒和酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量。附件1给出了某一年份一些葡萄酒的评价结果，附件2和附件3分别给出了该年份这些葡萄酒的和酿酒葡萄的成分数据。请尝试建立数学模型讨论下列问题：1.分析附件1中两组评酒员的评价结果有无显著性差异，哪一组结果更可信？2.根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级。3.分析酿酒葡萄与葡萄酒的理化指标之间的联系。4．分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响，并论证能否用葡萄和葡萄酒的理化指标来评价葡萄酒的质量？二、问题分析2.1问题一的分析问题一要求比较两组评价结果的是否存在差异，并建立合理的评价模型以判断两组结果在可信程度方面的优劣。首先，我们从问题分析可以得出品酒员对葡萄酒样本的品尝评分是属于感官评价，具有较大的主观性。因此，我们先从问题所给的数据入手，分析四组品酒结果中对不同样本打分分布。依靠葡萄酒样本评分的概率分布，建立显著性差异模型。由于品酒员间存在评价尺度、评价位置和评价方向等方面的差异，不同组别的品酒员对同一酒样的评价结果存在着差异。此时不适用参数检验的方法，而只能用非参数统计方法来处理。对主观评分结果合理性的评价，仅仅局限于评分之间表面的数值关系是不够的。因此，考虑采取秩相关分析法建立评价模型，将评分结果的具体数值部分予以丢弃，只保留各评分秩大小关系的信息，以给出数据中最稳固、最一般的关系，度量整体评分结果在可信度方面的优劣。2.2问题二的分析酿酒葡萄，是指以酿造葡萄酒为主要生产目的的葡萄品种[1]。问题二要求分析确定合理的评价指标体系，并运用该评价指标体系对酿酒葡萄进行分级。显而易见，该问题要求我们建立一个评价模型。评价体系主要包含两方面指标：第一个方面是葡萄酒的质量。这包括外观、香气、口感、整体四方面的评分。外观包括澄清度和色调，香气包括纯正度、浓度和质量，口感则通过纯正度、浓度、持久性和质量体现。第二个方面酿酒葡萄自身的理化指标。如附加二中的葡萄总黄酮、总酚、单宁、果皮质量等27个指标。对于这27个酿酒葡萄自身的理化指标，根据多个样本得到的数据分析出其内在的关系，将相关性显著的指标合并，则可以使得计算简单。那么由以上的分析可以构建综合评价指标体系，建立模型进行多指标综合评价.基于综合评价的结果，即可对酿酒葡萄进行分级。2.3问题三的分析问题三中，题目要求分析酿酒葡萄与葡萄酒的理化指标之间的联系。酿酒葡萄和葡萄酒分别存在多个理化指标，若采用简单相关分析的方法，只是孤立考虑了单个X与单个Y间的相关，而没有考虑X、Y变量组内部各变量间的相关。酿酒葡萄经发酵酿成葡3萄酒的化学过程，使得两组变量间有许多简单相关系数，使问题显得复杂，难以从整体描述。因此，考虑采用研究两组变量之间相关关系的多元统计方法——典型相关分析，识别并量化酿酒葡萄与葡萄酒的理化指标两组变量之间的关系，考虑两组变量的线性组合，并研究它们之间的相关系数,puv。2.4问题四的分析问题四中，需要我们通过酿酒葡萄和葡萄酒的理化指标，得到对葡萄酒的质量的评价，并论证是否可行。因此，首先考虑在问题三的基础上，针对酿酒葡萄与葡萄酒理化指标之间的联系和它们与葡萄酒质量之间的相关性进行指标的筛选。随后，期望建立一个线性回归模型，通过该模型来得到对葡萄酒质量的评价。由于要论证能否用葡萄和葡萄酒的理化指标来评价葡萄酒的质量，初步认为在建立线性回归模型时对样本进行随机遴选，选中的样本作为示例样本组建立线性回归方程，未选中的样本作为检验样本组对模型的可行性进行验证。三、模型假设1.假设各样本能真实客观地反映酿酒葡萄与葡萄酒的情况；2.葡萄酒的质量只与酿酒葡萄的好坏有关，忽略酿造过程中的温度、湿度、人为干扰等其他因素的影响；3.不考虑理化性质的二级指标；4.每组评酒员的打分不受上个酒样品的影响，即各评分数据间独立；四、符号说明序号符号符号说明1.m品酒员个数2.n样本数3.j样本序数4.i指标序数5.iir第i个指标与第i个指标的相关系数6.p一级评价指标中的指标序数7.q二级评价指标中的指标序数8.y酿酒葡萄质量综合评价值9.B每一酿酒葡萄样本所在级别10.X酿酒葡萄理化指标11.Y葡萄酒的理化指标12.线性回归系数13.V典型变量14.W解释变量4五、模型建立与求解5.1问题一的模型建立与求解问题一要求分析两组评酒员的评价结果有无显著性差异，并判断两组结果在可信程度方面的优劣。我们认为由以下三个步骤组成：步骤一：葡萄酒样本评分概率分布的确定，其目的是确定显著性差异模型的类型；步骤二：两组评酒员评价结果的显著性差异模型的建立，主要通过Wilcoxon符号秩检验法进行显著性差异的假设检验；步骤三：建立秩相关分析评价模型，并通过该模型判断两组品酒员评价结果在可信度方面的优劣。5.1.1数据的预处理经过对数据的查找，我们发现部分原始数据存在异常，另外有些类型数据存在缺失，在此我们将其正常化处理。（1）缺失数据的处理对于数据中存在的缺失现象，本文采用均值替换法对这种缺失数据进行处理。均值替换法就是将该项目剔除异常数据后取整剩余数据的平均值来替换异常或缺失数据的方法，即：10*1,11,2,,109mkkkmxxm其中，*mx为缺失值。由于不同品酒师对同一样本相同项目的打分值差别不大，所以认为采用均值替换法来处理缺失数据是可行的。以“酒样品20”色调数据为例进行修补，得到修正后的数据如下表所示。表1红葡萄酒样品20色调数据修补品酒员1号2号3号4号5号6号7号8号9号10号修补前664---668668修补后6646668668注：表中“---”代表数据缺失（2）异常数据的修正原始数据中，有的数据明显比两侧的数据过大或过小，显然是不合理数据。例如，第一组白葡萄酒品尝评分的数据中，可能由于手工输入的误差，品酒员7对样品3持久性评分的数据相对于相邻各品酒员的评分发生了明显的突变现象。这种数据异常有可能对数据挖掘的结果产生不利影响。表2第一组白葡萄酒品尝评分样本3持久性数值异常品酒员1号2号3号4号5号6号7号8号9号10号持久性75756777567对于类似的异常数据采取“先剔除，后替换”的策略，对异常数据进行修正。5.1.2各葡萄酒样本评分数据概率分布的确定对两组品酒员差异性评价的假设检验一般要求数据符合正态分布。统计规律表明，正态分布有极其广泛的实际背景，生产与科学实验中很多随机变量的概率分布都可以近似地用正态分布来描述[2]。因此，对葡萄酒质量的评分进行正态性检验有助于我们分析得出该评分是否科学、合理。5首先，计算针对每一个样本10个品酒员的评分均值，即1011,2,,101,2,,1010mnmxxmn其次，利用SPSS统计软件中的P-P图和单样本K-S检验，对数据集两组品酒员分别对红、白葡萄酒品尝得到的四组评价结果（见附录8.1.2）进行了正态分布检验，若样点在正态分布P-P图上呈直线散布，则被检验数据基本上成一条直线[3]。图1第一组红葡萄酒评价结果的正态P-P图和K-S检验结果从图1可以看出第一组（其余三组见附录8.1-图8.1）数据的散点分别近似为一条直线，且与对角线大致重叠；双边检验结果0.5250.05p。因此可以认为品酒员对葡萄酒的评分服从正态分布。5.1.3两组评价结果的显著性差异评价上述检验显示各类葡萄酒得分情况属于正态总体，为了进一步说明品酒员评分的科学性以及两个评分组评分的可信度，需要检查两组给出的评分是否有显著性差异，即对数据进行显著性检验。两配对样本非参数检验一般用于同一研究对象分别给予两种不同处理的效果比较[4]。因为两组品酒员分别对同一样本组进行评分，故两组数据为配对数据。对于两组配对数据的检验，需要引入适用于T检验中的成对比较，但并不要求成对数据之差iD服从正态分布，只要求对称分布即可[5]的Wilcoxon符号秩检验法，用来决定两个样本是否来自相同的或相等的总体。其检验步骤（以红葡萄为例）如下：Step1.提出假设：0H：两组品酒员对酒样本的评价结果是相同的；1H：两组品酒员对酒样本的评价结果是不同的。Step2.选定显著性水平0.05，1227nnStep3.根据样本值计算成对观测数据之差iD，并将iD的绝对值按大小顺序编上等级。最小的数据等级为1，第二小的数据等级为2，以此类推（若有数据相等的情形，则取这几个数据排序的平均值作为其等级）（见附录8.1.3）。Step4.等级编号完成后恢复正负号，分别求出正等级之和T和负等级之和T，选择T和T中较小的一个作为威尔科克森检验统计量T。Step5.统计量T的均值和方差分别为ET和DT，确定检验统计量0,1TEtzNDt近似服从于标准正态分布。6Step6.查正态分布表可得/20.05/21.96zz的值，确定0H的拒绝域为141.9612124nnTTEtzDtnnn根据样本值计算的检验统计量的观测值142.531.9612124nnTTEtzDtnnn所以应拒绝0H，即在显著性水平0.05下，认为两个品酒组对红葡萄酒的评价结果是不同的，即存在显著性差异。类似地，对于两个品酒组白葡萄酒的