2012高教社杯全国大学生数学建模竞赛承诺书我们仔细阅读了中国大学生数学建模竞赛的竞赛规则.我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题。我们知道,抄袭别人的成果是违反竞赛规则的,如果引用别人的成果或其他公开的资料(包括网上查到的资料),必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。我们郑重承诺,严格遵守竞赛规则,以保证竞赛的公正、公平性。如有违反竞赛规则的行为,我们将受到严肃处理。我们授权全国大学生数学建模竞赛组委会,可将我们的论文以任何形式进行公开展示(包括进行网上公示,在书籍、期刊和其他媒体进行正式或非正式发表等)。我们参赛选择的题号是(从A/B/C/D中选择一项填写):A我们的参赛报名号为(如果赛区设置报名号的话):所属学校(请填写完整的全名):参赛队员(打印并签名):1.2.3.指导教师或指导教师组负责人(打印并签名):日期:2012年9月日赛区评阅编号(由赛区组委会评阅前进行编号):2012高教社杯全国大学生数学建模竞赛编号专用页赛区评阅编号(由赛区组委会评阅前进行编号):赛区评阅记录(可供赛区评阅时使用):评阅人评分备注全国统一编号(由赛区组委会送交全国前编号):全国评阅编号(由全国组委会评阅前进行编号):1葡萄酒的评价摘要葡萄拥有很高的营养价值,含有多种氨基酸、蛋白质和维生素,而以葡萄为原料的葡萄酒也蕴藏了多种营养物质,而且这些物质都是人体必须补充和吸收的营养品。目前,已知的葡萄酒中含有的对人体有益的成分大约就有600种。葡萄酒的营养价值由此也得到了广泛的认可,可以说葡萄酒是一个良好的滋补品。本文通过对葡萄酒的评价,以及酿酒葡萄和葡萄酒的理化指标之间的关系进行讨论分析。对不同的酿酒葡萄进行了分类,并更深入讨论两者的理化指标是否影响葡萄酒质量。对于本题,我们主要采用SPSS软件对模型进行求解。针对问题一,首先我们将附件1中数据在Excel中进行处理;其次,我们在SPSS中,采用T检验,分别分析出两组评酒品红、白葡萄酒的评价结果有无差异性。最后,我们通过T检验,在SPSS中可其相应的标准差,通过比较标准差来确定哪个组更可靠。针对问题二,我们分别对两组葡萄进行分类。在这里我们采用聚类分析法,在SPSS中实现对酿酒葡萄的分类。针对问题三,首先,我们利用SPSS计算出酿酒葡萄与葡萄酒的理化指标的相关系数。由于葡萄的理化指标较多,通过整理数据,在Excel中得到某个葡萄酒的理化指标与若干个酿酒葡萄的理化指标的相关系数,并且规定相关系数大于等于0.6表示两者相关性显著;最后,在SPSS中分别求出回归方程。针对问题四,首先利用SPSS分别计算出葡萄酒的理化指标与葡萄酒质量的相关系数、葡萄的理化指标与葡萄酒质量的相关系数。然后通过分析其相关系数,分析葡萄和葡萄酒的理化指标对葡萄酒质量的影响。关键词:SPSST检验聚类分析法相关系数回归分析原理相关分析原理偏相关系数EXCEL判别分析2一、问题重述确定葡萄酒质量时一般是通过聘请一批有资质的评酒员进行品评。每个评酒员在对葡萄酒进行品尝后对其分类指标打分,然后求和得到其总分,从而确定葡萄酒的质量。酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系,葡萄酒和酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量。附件1给出了某一年份一些葡萄酒的评价结果,附件2和附件3分别给出了该年份这些葡萄酒的和酿酒葡萄的成分数据。请尝试建立数学模型讨论下列问题:1.分析附件1中两组评酒员的评价结果有无显著性差异,哪一组结果更可信?2.根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级。3.分析酿酒葡萄与葡萄酒的理化指标之间的联系。4.分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,并论证能否用葡萄和葡萄酒的理化指标来评价葡萄酒的质量?二、问题分析2.1针对问题一,我们将它分成两个问题去解决1、针对问题一中的两组评酒员的评价结果有无显著性差异,我们在SPSS中利用T检验去判断。在这之前,我们对附录1中数据进行处理,利用excel分别求出两组评酒员分别对红葡萄酒和白葡萄酒的评价结果的平均值。2、针对问题一中选择哪组结果更加可靠,我们利用SPSS求出两组葡萄酒评价结果的平均值的标准差,通过对比两组相应葡萄酒评价结果的平均值的标准差,从而确定出第几组的结果更可靠。2.2针对问题二首先我们将附录2和附录3中的一些数据进行了处理(例如:求平均值),然后通过聚类分析的原理,在SPSS实现对酿酒葡萄的分类。2.3针对问题三,我们分两个问题去解决1、针对问题中分析酿酒葡萄与葡萄酒理化指标之间的联系,我们先计算酿酒葡萄和葡萄酒理化指标之间的相关系数,通过SPSS实现。由于酿酒葡萄的理化指标远远多于葡萄酒的理化指标,通过整理数据,在excel中得到一个葡萄酒的理化指标与多个酿酒葡萄的理化指标之间的相关系数的数据。规定两者的相关系数大于0.6(酿酒红葡萄与红葡萄酒的理化指标)时,认为两者的相关性显著。从而筛选出与葡萄酒理化指标相关性显著的酿酒葡萄的理化指标。2、针对问题中分析酿酒葡萄与葡萄酒理化指标之间的联系,最后我们利用上面整理好的数据,采用回归分析原理,在SPSS中得到酿酒葡萄与葡萄酒的理化指标之间的联系。2.4针对问题四首先我们知道,葡萄酒的理化指标若理想,葡萄酒的质量就较高;但葡萄的理化指标理想,葡萄酒的质量不一定高。因此我们在SPSS中,运用相关分析,分别计算出葡萄酒的理化指标与葡萄酒质量的相关系数、葡萄的理化指标与葡萄酒质量的相关系数。然后通过对相关系数的比较,分析葡萄和葡萄酒的理化指标对葡萄酒质量的影响。从而论证葡萄和葡萄酒的理化指标能否评价葡萄就的质量。三、基本假设1、假设制作葡萄酒的工艺是一样且稳定的;32、假设两组评酒员是随机分配的;3、假设评酒员对每种葡萄酒的评价结果是大致符合正态分布的;4、假设酿造葡萄酒的环境是相同的;5、假设酿酒葡萄与葡萄酒中的芳香物质主要成分是:低醇、酯类、苯等,其余成份忽略;6、假设不考虑多种葡萄可制成一种酒,只考虑一种葡萄制成一种酒;7、假设只考虑红葡萄制成红葡萄酒,白葡萄制成白葡萄酒,忽略去皮红葡萄可酿制白葡萄酒;8、假设酿酒葡萄中存在的而葡萄酒中不存在的理化指标也会影响葡萄酒的质量;9、假设质量高的葡萄酒一定由质量好的酿酒葡萄制成,但是质量好的酿酒葡萄不一定能酿制成质量高的葡萄酒;10、假设本文所引用的数据、资料均真实可靠。四、符号说明xi1——第一组每种红葡萄酒的平均得分yi1——第二组每种红葡萄酒的平均得分xi2——第一组每种白葡萄酒的平均得分yi2——第二组每种白葡萄酒的平均得分x1-y1——两组红葡萄酒平均数之差x2-y2——两组白葡萄酒平均数之差rzxy,——是控制了z条件下,x,y之间的偏相关系数rzzxz21,——是控制了z1,z2条件下,x,y之间的偏相关系数rxy——是变量x,y之间的简单相关系数(零阶相关系数)rxz,ryz——分别是变量x,z之间和y,z之间的简单相关系数r——特定的偏相关系数n——观测值个数k——控制变量个数n-k-2——自由度五、模型建立与求解5.1两组评酒员的评价结果有无显著性差异,选择哪一组更可靠5.1.1两组评酒员的评价结果有无显著性差异——配对样本的T检验1.1配对样本T检验的概念若实验设计是将条件、性质相同或相近的两个供试单元配成一对,并设有多个配对,然后对每一个配对的两个供试单元分别随机的基于不同处理,这样的实验叫做配对实验。它的特点是配成对子的两个试验单元的非处理条件尽量4一致,不同对子的试验单元之间的非处理条件允许有差异,每一个对子就是试验处理的一个重复。SPSS配对样本的T检验主要解决来自配对样本数据的两个总体均值有否显著差异的问题。所谓配对样本,通常是指对同一观察对象在使用某种新方法的有效性。配对样本的T检验对数据的要求:(1)是抽取样本数据的两个总体必须服从正态分布。(2)两个样本的样本容量相同。1.2建立模型:1.基本数学原理:成对样本的均值比较t检验,假设这两个样本之间的均值差异为零,用于检验的统计量为:t=)1(/])([)(1212nnnyxniniiiiiyxyx(式中,n-1为自由度,n为数据对数)2.建立检验假设:0:,0:10ddHH(其中d为均值差异)其假设的意义为,当差异为零时,可以认为某种试验方法无效;反之,当差异不为零,可以认为某种试验方法在发生作用或有效。1.3模型求解:(1)在SPSS中对两组红葡萄酒质量的平均值运行配对样本的T检验,得到如下图一所示:5图一对表中的分析结论表明:两个样本平均数分别为73.056、70.515,相关系数为0.700,T检验的临界值为2.458。我们可以得到检验结论为:拒绝原假设H0,即可认为两组评酒员对红葡萄酒的评价结果有显著性差异。(2)用同样的方法对两组白葡萄酒质量的平均值运行配对样本的T检验,如图二所示,我们得到的检验结果是:两组评酒员对白葡萄酒的评价结果有显著性差异。6图二综合(1)、(2)我们得到的结果是:两组评酒员的评价结果有显著性差异。5.1.2结果可靠性的选则通过对5.1.1的解答,我们可以清楚的看到第一组、第二组红葡萄酒质量的平均值的标准差分别是:7.3426、3.9780。第一组、第二组白葡萄酒质量的平均值的标准差分别是:5.201、3.1709。通过比较我们得到的结果是:第二组评酒员的评价结果更可信。5.2根据酿酒葡萄的理化指标和葡萄酒的质量对酿酒葡萄进行分级——聚类分析-分层聚类-凝聚法1.聚类分析的概念聚类分析是根据事物本身的特性研究个体分类的方法。在这里我们采用分层聚类中的凝聚法,即聚类开始把参与聚类的每个个体视为一类,根据两类之间的距离或相似性逐步合并,直到合并为一个大类为止。2.建立模型:(1)将所要分析的数据转变为矩阵:aaaaaaaaanpnnpp212222111211............(其中aij表示样品i的第j个指标)(2)写出样品间的距离矩阵D1(欧氏距离为例)d(aaji,)=pkaajkik12)(ai=(ai1,,aip)’aj=(aj1,,ajp)’(3)将每一个样品看作一个类,即为:G1,G2,……Gn,观察比较),(GGjiD哪个最小,将GGji,聚为一类,计算新类与其余各类7之间的距离,得到新距离矩阵D2。(4)依此类推,最终将样品G1,G2,……Gn分出类来。3.模型求解:(1)对酿酒红葡萄进行分类:在SPSS中运行聚类分析的程序,得到如下图表:ClusterMembershipCase4Clusters1:葡萄样品112:葡萄样品213:葡萄样品324:葡萄样品435:葡萄样品536:葡萄样品637:葡萄样品738:葡萄样品819:葡萄样品9110:葡萄样品10311:葡萄样品11412:葡萄样品12313:葡萄样品13314:葡萄样品14315:葡萄样品15316:葡萄样品16317:葡萄样品17318:葡萄样品18319:葡萄样品19320:葡萄样品20321:葡萄样品21222:葡萄样品22323:葡萄样品23124:葡萄样品24325:葡萄样品25326:葡萄样品26327:葡萄样品2738聚类分析图示(一)9聚类分析图示(二)根据图表内容,将酿酒红葡萄分为4类:(2)对酿酒白葡萄进行分类:同3(1),在SPSS中运行程序,得到如下图表(详见附录一):ClusterMembershipCase4Clusters1:葡萄样品112:葡萄样品21103:葡萄样品314:葡萄样品415:葡萄样品516:葡萄样品617:葡萄样品718:葡萄样品829:葡萄样品9110:葡萄样品10311:葡萄样品11112:葡萄样品12413:葡萄样品13314:葡萄样品14415:葡萄样品15116:葡萄样品16217:葡萄样品17118:葡萄样品18119:葡萄样品19220:葡萄样品20