2012高教社杯全国大学生数学建模竞赛承诺书我们仔细阅读了中国大学生数学建模竞赛的竞赛规则.我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括、电子、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题。我们知道,抄袭别人的成果是违反竞赛规则的,如果引用别人的成果或其他公开的资料(包括网上查到的资料),必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。我们重承诺,严格遵守竞赛规则,以保证竞赛的公正、公平性。如有违反竞赛规则的行为,我们将受到严肃处理。我们授权全国大学生数学建模竞赛组委会,可将我们的论文以任何形式进行公开展示(包括进行网上公示,在书籍、期刊和其他媒体进行正式或非正式发表等)。我们参赛选择的题号是(从A/B/C/D中选择一项填写):A我们的参赛报名号为(如果赛区设置报名号的话):所属学校(请填写完整的全名):参赛队员(打印并签名):1.2.3.指导教师或指导教师组负责人(打印并签名):日期:2012年9月10日赛区评阅编号(由赛区组委会评阅前进行编号):2012高教社杯全国大学生数学建模竞赛编号专用页赛区评阅编号(由赛区组委会评阅前进行编号):赛区评阅记录(可供赛区评阅时使用):评阅人评分备注全国统一编号(由赛区组委会送交全国前编号):全国评阅编号(由全国组委会评阅前进行编号):葡萄酒的评价摘要本文以酿酒葡萄和葡萄酒为对象,根据酿酒葡萄的理化指标和葡萄酒的质量对酿酒葡萄进行了分级,建立了酿酒葡萄与葡萄酒理化指标间的联系,并就酿酒葡萄与葡萄酒理化指标对葡萄酒质量的影响进行了分析讨论。针对问题一,首先用EXCEL软件分别对红白葡萄酒的两组评价结果进行处理,得到其打分分数的平均值,然后考虑到本题确定的两个独立样本的分布形态不确定,所以选用非参数检验中的Mann-WhitneyU检验和Kolmogorov-Smirnov检验方法对评价结果进行显著性分析,发现两组评酒员的评价结果有显著性差异,最后分别对两组评分数据求标准差并进行比较,确定出第二组评酒员的评价结果可信度高。针对问题二,我们用聚类分析和主成分分析两种方法对葡萄样品进行分类,并比较两种方法的优劣性。首先用SPSS软件中的聚类分析法对葡萄样品进行分类,结果将葡萄分为四类,然后用主成分分析法简化酿酒葡萄的理化指标,并求出简化后理化指标的权重,得出葡萄样品的综合排名,对其进行排序,用建立好的评级指标可以将样品分为如下四类:等级红葡萄白葡萄最佳8,10,141,13良好2,3,5,263,5,6,10,15,16,17,20,21,24,27中等1,6,9,13,17,19,21,23,24,272,4,7,8,9,11,12,14,18,19,22,23,25,28差4,7,11,12,15,16,20,22,25,2826最后通过对两种方法的比较,得出主成分分析法为较优方法。针对问题三,首先根据问题二中主成分分析法的结果对酿酒葡萄的指标进行简化,将问题转化为一个多元函数的求解问题,然后分别对酿酒葡萄中的指标和葡萄酒理化指标进行相关性分析,得出指标间的相关性关系,将问题转化为求解超定方程组的解,最后利用最小二乘法建立了酿酒葡萄与葡萄酒理化指标间的关系式。针对问题四,首先把评酒员对酒样品的评分作为葡萄酒质量的评价,用相关性分析方法求出酿酒葡萄和葡萄酒的理化指标与葡萄酒质量之间的相关性,然后再把芳香度作为葡萄酒质量的评价,求出理化指标与葡萄酒质量之间的相关性,对比这两种方法的结果可以得出结论:在一定程度上不能用葡萄和葡萄酒的理化指标来评价葡萄酒的质量。关键词:非参数检验聚类分析法主成分分析法相关性分析一问题重述确定葡萄酒质量时一般是通过聘请一批有资质的评酒员进行品评。每个评酒员在对葡萄酒进行品尝后对其分类指标打分,然后求和得到其总分,从而确定葡萄酒的质量。酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系,葡萄酒和酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量。附件1给出了某一年份一些葡萄酒的评价结果,附件2和附件3分别给出了该年份这些葡萄酒的和酿酒葡萄的成分数据。请尝试建立数学模型讨论下列问题:1.分析附件1中两组评酒员的评价结果有无显著性差异,哪一组结果更可信?2.根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级。3.分析酿酒葡萄与葡萄酒的理化指标之间的联系。4.分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,并论证能否用葡萄和葡萄酒的理化指标来评价葡萄酒的质量?二问题分析对于问题一,要想得到差异的显著性,首先就要处理数据得到两组评价结果的平均值,但考虑到两个独立样本的分布形态不确定,所以用非参数检验法更加准确。针对这个问题,我们采用最常用的两种方法:Mann-WhitneyU检验和Kolmogorov-Smirnov检验来判断是否有显著性差异。对于可信度,考虑到标准差是反应一组数据离散程度最常用的一种量化形式,是表示精确度的重要指标,可以反映组个体间的离散程度,所以采用标准差值的大小来衡量测量结果的可信度。对于问题二,我们可以用聚类分析对葡萄样品进行分类,也可以用主成分分析求出主要的影响指标及其权重,进而对样品进行排序并分类。最后通过对比两种方法的优劣性得出较优方法,从而得到葡萄的质量分级。对于问题三,由于酿酒葡萄的指标很多,所以首先应该对酿酒葡萄的指标进行简化将问题转化为一个多对多的模型,然后分别对酿酒葡萄中的指标和葡萄酒理化指标进行相关性分析,得出指标间的相关性关系,将问题转化为求解超定方程组的解,最后可以利用最小二乘法建立酿酒葡萄与葡萄酒理化指标间的联系。对于问题四,首先根据问题三的结果可以将酿酒葡萄和葡萄酒的理化指标进行进一步的简化,然后把评酒员对酒样品的评分作为葡萄酒质量的评价,用SPSS软件中的相关性分析方法求出酿酒葡萄和葡萄酒的理化指标与葡萄酒质量之间的相关性,就可以得出他们之间的影响程度,然后再把芳香度作为葡萄酒质量的评价,求出理化指标与葡萄酒质量之间的相关性,对比这两种方法的结果来论证能否用葡萄和葡萄酒的理化指标来评价葡萄酒的质量。三模型假设1.假设酿酒葡萄和葡萄酒是一一对应的关系;2.假设葡萄酿酒过程中的卫生指标符合规定,本题不予以考虑;3.假设评酒员在评分时不受其他主观因素的影响;4.假设酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系;5.假设两组评酒员都是随机选取的;6.为了便于问题解决,假设酿酒葡萄和葡萄酒的理化指标属于线性关系;7.芳香物质是葡萄酒质量的重要指标,文中将芳香物质摩尔总和用于评价葡萄酒质量。四符号说明符号名称符号意义P双侧显著性水平显著水平xF理论葡萄酒累积频数分布xFnn次观测的随机样本的经验分布函数D检验统计量F综合主成分值ix红葡萄酒的理化指标iy红葡萄的指标ix白葡萄酒的理化指标iy白葡萄的指标五模型的建立与求解5.1问题一求解本文首先分析了影响评酒员对葡萄酒进行评价的相关因素,发现他们是从外观、香气和口感等方面来对白葡萄酒和红葡萄酒的各样本进行打分的,为了综合这些因素,能够更好地比较出两组评分结果的差异性与可信度,需要对附件1的数据进行处理,这里我们分别求出第一组和第二组评酒员对白葡萄酒和红葡萄酒打分分数的平均值。处理的数据见表1.1.1,表1.1.2,表1.1.3,表1.1.4:表1.1.1:第一组红酒各样品分数平均值样品123456789平均值62.780.380.468.673.372.271.572.381.5样品101112131415161718平均值74.270.153.974.67358.774.979.359.9样品192021222324252627平均值78.679.877.177.285.67869.273.873表1.1.2:第二组红酒各样品分数平均值样品123456789平均值68.17474.671.272.166.365.36678.2样品101112131415161718平均值68.861.668.368.872.665.769.974.565.4样品192021222324252627平均值72.675.872.271.677.171.568.27571.5表1.1.3:第一组白酒各样品分数平均值样品1234567平均值8274.278.379.47168.477.5样品891011121314平均值71.472.974.372.363.365.972样品15161718192021平均值72.47478.873.172.277.876.4样品22232425262728平均值7175.973.377.181.364.881.3表1.1.4:第二组白酒各样品分数平均值样品1234567平均值77.975.875.676.981.575.574.2样品891011121314平均值72.380.479.871.472.473.977.1样品15161718192021平均值78.467.380.376.776.476.679.2样品22232425262728平均值79.477.476.179.574.37779.6根据不同组评酒员针对不同品种和样本葡萄酒的打分情况,可以将这两组的打分情况看作两个独立的样本。这样就将问题转化为求两独立样本的参数检验问题。利用T检验方法可以得到两个总体是否存在显著性差异,但T检验方法要求两个独立样本来自的总体服从正态分布,甚至对两个总体的方差也要求相等或者已知。所以我们利用两独立样本的非参数检验过程对两个总体的分布是否存在显著性差异进行检验。由于非参数检验的方法比较多,这里主要运用Mann-WhitneyU检验和Kolmogorov-Smirnov检验两种方法,并给出不同检验的相关结果。1.Mann-WhitneyU检验Mann-WhitneyU检验可用于检验两独立样本是否来自于同一总体,它是最常用的两独立的非参数检验方法,该检验方法的零假设是这种检验方法是利用两独立样本的秩的比较得到的。它的检验步骤为:(1)提出假设0H:两样本来自于无显著差异的总体:1H两样本来自于有显著差异的总体(2)计算相应检验统计量值或P值(3)作出判断若P,接受0H,认为两个样本无显著性差异;否则,拒绝0H,认为两个样本有显著性差异(P值为双侧显著性水平,05.0)。分别将表1.1.1和表1.1.3、表1.1.2和表1.1.4的数据导入SPSS软件运用Mann-WhitneyU检验得到红葡萄酒和白葡萄酒的秩和检验统计量,如表1.1.5和表1.1.6所示:表1.1.5:红葡萄酒检验的秩和检验统计量秩gN秩均值秩和sur1.002732.69882.502.002722.31602.50总数54表1.1.6:白葡萄酒检验的秩和检验统计量从表1.1.5和表1.1.6可以看出,两种葡萄酒的P值均小于0.05,所以拒绝0H,认为两个样本即两组评价结果有显著性差异。2.Kolmogorov-Smirnov(K-S)检验Kolmogorov-Smirnov检验用于检验一组样本观测结果的经验分布同某一指定的检验统计量bsurMann-WhitneyU224.500WilcoxonW602.500Z-2.422渐近显著性(双侧).015MonteCarlo显著性(双侧)显著性.000a95%置信区间下限.000上限.105MonteCarlo显著性(单侧)显著性.000a95%置信区间下限.000上限.105秩gN秩均值秩和sur1.002823.79666.002.002833.21930.00总数56检验统计量asurMann-WhitneyU260.000WilcoxonW666.000Z-2.渐近显著性(双侧).a.分组变量:g理论分布之间是否一致。K-S检验的基本思路为:将顺序分类数据的理论积累频率分布同观测的经验累积频率分布加以比较,求出它们最大的偏离值,然后再给定的显著性水平上检验这种偏离值是否是偶然出现的。设理论葡萄酒累积频数分布为)(xF,n次观测的随机样本的经验分布函数)(xFn