2012高教社杯全国大学生数学建模竞赛承诺书我们仔细阅读了中国大学生数学建模竞赛的竞赛规则.我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题。我们知道,抄袭别人的成果是违反竞赛规则的,如果引用别人的成果或其他公开的资料(包括网上查到的资料),必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。我们郑重承诺,严格遵守竞赛规则,以保证竞赛的公正、公平性。如有违反竞赛规则的行为,我们将受到严肃处理。我们参赛选择的题号是(从A/B/C/D中选择一项填写):A我们的参赛报名号为(如果赛区设置报名号的话):所属学校(请填写完整的全名):沈阳航空航天大学参赛队员(打印并签名):1.李航2.陈雪松3.宋鹏指导教师或指导教师组负责人(打印并签名):吴玉斌日期:2012年9月10日赛区评阅编号(由赛区组委会评阅前进行编号):2012高教社杯全国大学生数学建模竞赛编号专用页赛区评阅编号(由赛区组委会评阅前进行编号):赛区评阅记录(可供赛区评阅时使用):评阅人评分备注全国统一编号(由赛区组委会送交全国前编号):全国评阅编号(由全国组委会评阅前进行编号):1葡萄酒的评价摘要在葡萄成熟的季节,面对着丰收的景象我们对葡萄酒的评价产生了浓厚的兴趣,对于提出的问题,我们应用了:t检验、主成分分析法、聚类分析、曲线拟合与线性回归。针对问题一,我们应用了数理统计的假设检验——t检验,将数据进行配对处理,利用SPSS软件可以快速求出相应的t值和sig.值,判断是否存在显著性差异。我们利用了方差、标准差来判定两组评酒员的可信度,有清晰的表图为依据。最后得出两组评酒员的评价结果存在显著性差异,并且第二组可信度更高。针对问题二,由于影响酿酒葡萄质量的变量因素过多,我们应用了主成分分析法通过降维技术把多个变量化为少数几个主成分,这些主成分能够放映原始变量大部分信息,这样更容易抓住事情的主要矛盾,使问题简化,得到相应因素的评分。对这些评分通过聚类分析按照相似程度分为三个等级。针对问题三,我们利用了问题二中的总分数据,通过matlab和SPSS软件的计算,我们得到了大量可利用的数据与图表,通过对这些图表的分析可以得到酿酒葡萄与葡萄酒之间的关系,再利用回归曲线分析得到R方值,进一步完善酿酒葡萄与葡萄酒理化指标之间的联系。针对问题四,利用问题二中的数据,采用曲线拟合的方法,将葡萄的质量和葡萄酒的理化指标分别与葡萄酒的质量(葡萄酒理化指标得分+葡萄酒感官指标得分)利用matlab进行拟合,将得到的拟合图和公式进行分析,得到相应的结论。最后,我们结合模型分析的结果,对现有的葡萄酒评价方法提出了建议,并对我们的模型进行客观地分析,并进行了推广。关键词:配对样本t检验;主成分分析法;聚类分析;matlab、SPSS2一.问题重述与提出1.1问题的重述确定葡萄酒质量时一般是通过聘请一批有资质的评酒员进行品评。每个评酒员在对葡萄酒进行品尝后对其分类指标打分,然后求和得到其总分,从而确定葡萄酒的质量。酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系,葡萄酒和酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量。讨论之间的联系,来更好探究以下问题:1.2问题的提出1.分析附件1中两组评酒员的评价结果有无显著性差异,哪一组结果更可信?2.根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级。3.分析酿酒葡萄与葡萄酒的理化指标之间的联系。4.分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,并论证能否用葡萄和葡萄酒的理化指标来评价葡萄酒的质量?二.问题分析2.1问题一的分析对于问题一,数据量大,因此需要将两组评酒员的评分进行整理,一种酒样需要两组人员评判,因为样本并非独立,且需要评定结果是否有显著性差异,所以使用配对样本t检验。为了判断可信度的情况,需要判断两组评分值的波动性大小再通过,所以利用各组评分的方差、标准差判断来哪一组的评价更可信。2.2问题二的分析在问题二中需要对酿酒葡萄进行分级,因此需要将数据进行归类分析。附录二中所给的影响变量的因素数据过多,需要建立主成分分析法模型对数据降维,把多个变量化为少数几个主成分,这样可以简化问题,再应用聚类分析的方法将问题划分为几个等级,得到所求的结果。2.3问题三的分析针对问题三,可以利用在问题二中所得的数据,利用matlab与SPSS软件进行处理,可以得到相应的图表,利用图表对结果进行分析,继而对酿酒葡萄与葡萄酒的理化指标之间的联系进行分析。2.4问题四的分析为了分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量是否有影响,本问题需要利用第二问中所得到的数据进行分析,利用曲线拟合的方法,得到相应的图表,通过这3些图表分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,讨论其中的重要关系。三.模型假设1.问题中所给的数据具有一定的事实依据,能够反映客观的事实,值得相信。2.假设葡萄周围的环境因素不影响其本身的性质。3.假设所有的理化指标在任何情况下不会改变。4.忽略其他的不必要因素,减少数据的误差,增加数据的可靠性。四.符号说明符号说明12,XX对酒评价的平均数Y随机变量c样品(酒、葡萄)序号d指标种类序号ija指标值~ija标准化指标R相关系数矩阵特征值特征向量iy第i个主成分jb为jy的信息贡献率pa为py的贡献率Z综合得分聚类数目ijd到聚类中心距离4五.模型建立与求解5.1问题一模型的建立与求解配对样本t检验是针对配对数据的t检验。其检验方法是首先求出没对样本的差值,然后比较样本差值的均值和总体均值0之间的关系。如果两组数据没有差别,那么其样本差值均值应该在0附近波动。否则认为两组数是有差别的。这种方法本质就是在对配对样本的差值同总体均值0做单样本t检验,通过对题目的分析和数据的整理,恰好符合此检验,因此我们应用了配对样本t检验。配对样本t检验模型建立的步骤:两组人员对每种红葡萄酒评价的平均分数12,XX服从正态分布211(,)N,222(,)N,分别从这两总体中抽取样本相互配对如表一,检验1和2是否有显著差异。①引进一个新的随机变量12YXX对赢得样本值为12(,,)nyyy,其中,12(1,2,,)iiiyxxin检验的问题就转化为单样本t检验问题,即转化为检验Y的均值是否与样本0有显著差异。②建立0假设0:0YH③t统计量~(1)1yyttnsn④利用SPSS软件可以快速求出对应的t值和sig(双侧)值。⑤对数据进行判断:若.sig值显著水平0.05,则拒接零假设,即认为两总体均值存在显著差异;若.sig值显著水平0.05,则不能拒接零假设,即认为两总体均值不存在显著差异;两组评酒人员对每种白葡萄酒评价的显著性差异的判断同上。:表一葡萄酒品尝的平均值一组红二组红一组红二组红一组白二组白一组白二组白62.768.158.765.78277.972.478.480.37474.969.974.275.87467.380.474.679.374.578.375.678.880.368.671.259.965.479.476.973.176.773.372.178.672.67181.572.276.472.266.378.675.868.475.577.876.671.565.377.172.277.574.276.479.272.36677.271.671.472.37179.4581.578.285.677.172.980.475.977.474.268.87871.574.379.873.376.170.161.669.268.272.371.477.179.553.968.373.87263.372.481.374.374.668.87371.565.973.964.8777372.67277.181.379.6利用SPSS软件对数据处理之后得出如下结果:通过对红酒的计算和统计得到如下三个表格:表二红酒配对样品统计量配对样本统计量均值N标准差均值的标准误对11组红酒平均打分73.056277.34261.41312组红酒平均打分70.515273.9780.7656表三红酒配对样品相关系数配对样本相关系数N相关系数Sig.对11组红酒平均打分&2组红酒平均打分27.700.000表三是配对样品的相关性分析结果。其相关系数为0.700,对应的显著水平sig.近似于0,小于0.05,即认为两组评酒人员对红酒的评价相关性显著。表四红酒配对样本检验配对样本检验配对差分tdfSig.(双侧)均值标准差均值的标准误差分的95%置信区间下限上限对11组红酒平均打分-2组红酒平均打分2.54075.37191.0338.41574.66582.45826.021表四显示的是配对样本t检验结果。其显著水平sig.(双侧)的值小于0.05,6即认为两组评酒员对于红葡萄酒的评价的得分值有着显著的差别。通过对白酒的计算和统计得到如下三个表格:表五白酒配对样品统计量配对样本统计量均值N标准差均值的标准误对1一组白酒平均打分74.0107284.80404.90788二组白酒平均打分76.5321283.17094.59925表六白酒配对本品相关系数配对样本相关系数N相关系数Sig.对1一组白酒平均打分&二组白酒平均打分28.240.220对表六配对样品相关性分析结果。相关系数为0.240,对应的显著性水平sig.为0.220,大于0.05,所以两组评酒人的相关性不显著。表七白酒配对样品检验配对样本检验配对差分tdfSig.(双侧)均值标准差均值的标准误差分的95%置信区间下限上限对1一组白酒平均打分-二组白酒平均打分-2.521435.08282.96056-4.49234-.55052-2.62527.014表其所是配对样品t检验结果。其显著性水平sig.(双侧)取值明显小于0.05,所以认为两组评酒员对于白葡萄酒的评价结果有着显著性差异。对于两组人员可信度的判断,我们将表中每组评酒员对于每一种酒的评价分别求出其方差和标准差,以此来进行进一步的判断。方差和标准差的求解得到如下表和图:7表八两组人员对于两组就评价的方差、标准差一组红二组红一组白二组白方差标准差方差标准差方差标准差方差标准差183.619.1473.698.58839.1123.294.83235.815.9814.63.82180.9613.4544.166.65341.246.4227.645.2659.817.73128.2411.32497.249.8637.166.140.246.3437.896.16555.817.4712.293.51113.810.6723.654.86653.767.3319.014.36146.4412.120.454.52793.259.6656.417.5135.255.9437.966.16839.616.2958.67.66165.2412.8528.015.29929.655.4523.164.8183.499.1495.649.781027.365.2332.565.71191.4113.8463.367.961163.697.9834.245.85159.4112.6379.048.891271.698.4722.614.75104.2110.21126.0411.231340.446.3613.763.71153.6912.442.096.491432.45.6920.844.57102.810.1414.293.781577.018.7837.216.1118.4410.8848.646.971616.294.0418.094.25160.212.6674.018.61779.218.98.252.87129.7611.3934.615.881842.496.5245.246.73140.8911.8727.215.221942.646.5349.647.0541.766.4623.44