文献阅读2016.02.22-2016.02.251文章名称:基于质谱与支持向量机的清香型白酒等级判别作者:程平言,范文来,徐岩单位:江南大学摘要:文中以牛栏山酒为例,研究清香型白酒质量等级鉴别方法。运用顶空固相微萃取质谱(HS-SPME-MS)技术获取三类不同等级的57个牛栏山酒样质荷比m/z55~191范围内的离子丰度值数据,分别进行偏最小二乘回归分析(PLS)和主成分回归分析(PCR),其中PLS模型的预测结果明显优于PCR。同时PLS与PCR模型的回归系数用于选择重要特征离子,其中PLS与PCR回归系数法分别选择了12和10个离子,用选择的离子变量构建支持向量机(SVM)模型,模型对测试集的预测准确率分别为80%和86.7%,其中PCR回归系数法选择的特征离子为m/z71、103、104、106、127、149、161、179、183和184。思路:偏最小二乘回归分析(PLS)酒样——检测数据——主成分回归分析(PCR)提取重要特征例子——构建支持向量机(SVM)模型——三种模型对比2文章名称:基于质谱与化学计量学的浓香型白酒等级鉴别作者:程平言,范文来,徐岩单位:江南大学摘要:不同等级白酒的鉴别对控制白酒质量和保护消费者权益有重要意义,运用顶空固相微萃取质谱(HSSPME-MS)技术获取3个不同等级的120个洋河大曲酒样质荷比m/z55~191范围内的离子丰度值数据,结合偏最小二乘-判别分析和逐步线性判别分析法筛选出14个重要特征离子,且交叉验证的预测准确率达100%;然后将筛选出的14个特征离子作网络输入层,酒样的不同等级做网络输出层,构建神经网络等级鉴别模型,其在±0.3的误差范围内,预测准确率达100%,实现了白酒等级的数字化鉴别。思路:偏最小二乘回归分析(PLS)酒样——检测数据——逐步线性判别(SLDA)提取重要特征例子——构建神经网络(BP)模型3文章名称:基于质谱与化学计量学的白酒原产地鉴定作者:程平言,范文来,徐岩单位:江南大学摘要:不同白酒原产地的鉴定对控制白酒质量和保护消费者利益有重要意义。采用顶空固相微萃取与质谱联用技术获取不同香型和产地的131个白酒酒样在M/Z55~191范围内的离子丰度数据,结合偏最小二乘-判别分析和逐步线性判别分析法筛选出27个重要特征离子,交叉验证的原产地预测准确率达99.2%;然后用筛选出的27个特征离子构建反向传播(BP)神经网络模型和支持向量机(SVM)模型,其原产地预测准确率分别达96.2%和97.7%。其中BP网络的最优参数组合为传递函数logsig、训练函数trainlm、隐藏层神经元数8;而SVM的最优核参数g和惩罚因子c值分别为2和0.125,从参数优化过程及原产地预测准确率可看出,SVM模型对原产地的鉴定效果明显优于BP网络模型思路:偏最小二乘回归分析(PLS)酒样——检测数据——逐步线性判别(SLDA)神经网络(BP)模型提取重要特征例子——支持向量机(SVM)模型4文章名称:利用HS-SPME/GC/MS分析浓香型窖池挥发物质作者:RongqingZhou单位:四川大学利用HS-SPME/GC/MS研究浓香型白酒窖池中窖泥,糟醅,黄水的挥发性物质,对比窖池的不同位置(窖面,窖中,窖底)和不同窖龄(2年,10年,40年)。思路:主成分分析(PCA)酒样——检测数据——偏最小二乘回归分析(PLS)结论:利用HS-SPME/GC/MS对挥发性物质进行检测,利用PCA和PLS可以对不同位置进行区分,但是对不同窖龄区分不明显。微生物菌群结构对风味物质影响很大。文献阅读2016.02.26-2016.03.251基于香气成分组成的大曲类别鉴别方法作者:林琳,罗汝叶,杨婧,陈良强,杨帆,汪地强,王莉单位:贵州茅台股份有限公司摘要:以高温大曲为研究对象,以开发建立顶空固相微萃取结合气相色谱质谱联用技术分析大曲香气物质组成的方法为基础构建大曲分类识别模型,实现了不同类别高温大曲的有效区分。思路:经感官评价分类的高温大曲——HS-SPME-GC/MS检测香气成分——大曲样品香气成分的分析——建立大曲类别鉴别模型结论:本研究以高温大曲(生产用曲、出仓黄曲及出仓白曲)为研究对象,在开发建立了顶空固相微萃取结合气相色谱质谱联用技术分析大曲香气成分方法的基础上构建大曲识别模型,实现了不同类别高温大曲的有效区分问题:参考文献没有插入2特香型白酒酿造工艺分析作者:章肇敏,吴生文单位:四特酒有限责任公司特香型:“浓头酱尾清中间”、“三香具备尤不靠”工艺介绍:3基于数据挖掘的葡萄酒质量识别_林翠香作者:林翠香许青松单位:中南大学第三章:常用数据挖掘方法理论概述3.1分类与回归什么是回归分析?回归分析是一种预测性的建模技术,它研究的是因变量(目标)和自变量(预测器)之间的关系。这种技术通常用于预测分析,时间序列模型以及发现变量之间的因果关系。例如,司机的鲁莽驾驶与道路交通事故数量之间的关系,最好的研究方法就是回归。1.它表明自变量和因变量之间的显著关系;2.它表明多个自变量对一个因变量的影响强度。3.1.1多元线性回归Y=Kx+bY=ax+bx2+…(1)自变量对因变量必须有显著的影响,并呈密切的线性相关;(2)自变量与因变量之间的线性相关必须是真实的,而不是形式上的;(3)自变量之间应具有一定的互斥性,即自变量之间的相关程度不应高于自变量与因变量之因的相关程度;(4)自变量应具有完整的统计数据,其预测值容易确定。3.1.2主成分回归主成分分析,是考察多个变量间相关性一种多元统计方法,研究如何通过少数几个主成分来揭示多个变量间的内部结构,即从原始变量中导出少数几个主成分,使它们尽可能多地保留原始变量的信息,且彼此间互不相关.通常数学上的处理就是将原来P个指标作线性组合,作为新的综合指标。得到一个多元线性回归方程。3.1.3判别回归在分类确定的条件下,根据某一研究对象的各种特征值判别其类型归属问题。即当得到一个新的样品数据,要确定该样品属于已知类型中哪一类。(分类问题,和聚类分析的区别是分类条件确定)建立判别函数(逐步判别法)——判别样本属于哪组(Fisher判别)——验证(交互验证)举例:1医学实践中根据各种化验结果,疾病症状等判断病人患有什么疾病。2体育人才选拔根据运动员的体形,运动成绩,生理指标,心理素质判断是否继续培养3.1.4支持向量机支持向量机(SVM,supportvectormachine)是基于统计学习理论的一种机器学习方法,通过寻求结构化风险最小来提高学习机泛化能力,实现经验风险和置信范围的最小化,从而达到在统计样本量较少的情况下,能获得良好统计规律。线性可分:线性不可分(映射到高维空间):SVM应用于文本分类,图像分类,生物序列分析和生物数据挖掘,手写字符识别等领域Link分类回归树Link分类和聚类的区别:分类就是按照某种标准给对象贴标签,再根据标签来区分归类。聚类是指事先没有“标签”而通过某种成团分析找出事物之间存在聚集性原因的过程。区别是,分类是事先定义好类别,类别数不变。分类器需要由人工标注的分类训练语料训练得到,属于有指导学习范畴。聚类则没有事先预定的类别,类别数不确定。聚类不需要人工标注和预先训练分类器,类别在聚类过程中自动生成。分类适合类别或分类体系已经确定的场合,比如按照国图分类法分类图书;聚类则适合不存在分类体系、类别数不确定的场合,一般作为某些应用的前端,比如多文档文摘、搜索引擎结果后聚类等。分类的目的是学会一个分类函数或分类模型(也常常称作分类器),该模型能把数据库中的数据项映射到给定类别中的某一个类中。要构造分类器,需要有一个训练样本数据集作为输入。训练集由一组数据库记录或元组构成,每个元组是一个由有关字段(又称属性或特征)值组成的特征向量,此外,训练样本还有一个类别标记。一个具体样本的形式可表示为:(v1,v2,...,vn;c);其中vi表示字段值,c表示类别。分类器的构造方法有统计方法、机器学习方法、神经网络方法等等。聚类(clustering)是指根据“物以类聚”原理,将本身没有类别的样本聚集成不同的组,这样的一组数据对象的集合叫做簇,并且对每一个这样的簇进行描述的过程。它的目的是使得属于同一个簇的样本之间应该彼此相似,而不同簇的样本应该足够不相似。与分类规则不同,进行聚类前并不知道将要划分成几个组和什么样的组,也不知道根据哪些空间区分规则来定义组。其目的旨在发现空间实体的属性间的函数关系,挖掘的知识用以属性名为变量的数学方程来表示。常见的聚类算法包括:K-均值聚类算法、K-中心点聚类算法等3.1.5.1分类回归树的构建3.1.5.2分类回归树的修剪3.1.5.3分类回归树的评估3.1.6随机森林随机森林指的是利用多棵树对样本进行训练并预测的一种分类器1.用N来表示训练例子的个数,M表示变量的数目。2.我们会被告知一个数m,被用来决定当在一个节点上做决定时,会使用到多少个变量。m应小于M3.从N个训练案例中以可重复取样的方式,取样N次,形成一组训练集(即bootstrap取样)。并使用这棵树来对剩余预测其类别,并评估其误差。4.对于每一个节点,随机选择m个基于此点上的变量。根据这m个变量,计算其最佳的分割方式。5.每棵树都会完整成长而不会剪枝(Pruning)(这有可能在建完一棵正常树状分类器后会被采用)。3.1.6.1随机森林算法3.1.6.2变量重要性计算3.2异常样本的诊断3.2.1杠杆值诊断法3.2.2PCA与HotellingT23.2.3半数重采样法(RHM)第四章葡萄酒质量识别建模与异常样本诊断4.1数据处理与基本分析4.1.1数据说明及预处理4.1.2数据基本分析4.1.2.1相关性分析4.1.2.2不同质量葡萄酒比较分析4.2葡萄酒质量识别建模与分析4.2.1探索性建模4.2.1.1多元回归模型4.2.1.2主成分回归4.2.1.3判别分析4.2.1.4支持向量机4.2.1.5分类回归树4.2.1.6结果比较分析4.3检测进口酒的异常样本4.4异常样本的检测辅助低质量葡萄酒识别4中国白酒中长期发展趋势与研究重点之管见作者:孙宝国单位:北京工商大学摘要:随着中国食品产业的飞速发展,中国白酒现代化势在必行。要实现中国白酒价格亲民、香型创新、关注健康、技术创新、国际化发展,首先要解决白酒酿造过程中的一系列技术问题。在制曲、用曲、糖化发酵、风味和酒体设计、酿酒专用粮食等方面可能出现一系列颠覆性技术,酿酒微生物代谢产物及其菌种库、不同香型白酒自动控温控湿发酵技术、白酒风味物质分析及其数据库、白酒中功能物质和有害物质的调控、白酒标准现代化等将是中国白酒未来研究和发展的重点.制曲:强化大曲自然接种向纯培养发展块状曲向粉状曲发展用曲:单一曲向多曲混用发展糖化发酵:不锈钢发酵槽自动控温控湿车间液态发酵风味和酒体设计:多元化仪器辅助设计白酒产业未来的研究重点酿酒微生物及菌种库:筛选和培育白酒功能菌自动控温控湿发酵白酒风味物质数据库白酒中健康因子及有害物质的调控有益的物质(健康因子)白酒中有害物质的生成机理和控制方法5白酒陈化机理的研究与应用作者:乔华张生万单位:山西大学摘要:白酒本无色,但是老酒容易微黄,酱香型白酒尤其如此。因为酒在陶瓷瓮中贮存越久溶出的金属离子越多,故酒色越黄。颜色越深的酒,其中金属离子的含量越大,着色越深。