玉米品质鉴定

牛巴牧师
1 ℃
2020-02-16

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

第1页玉米营养品质的快速鉴定摘要：光谱检测法作为玉米营养品质含量的快速分析方法，首先需要根据常规生化检测数据结合光谱响应数据完成合理的定标与矫正，建立合适的数据分析模型。在进行光谱检测时，由于光谱波长区间大、波长取值点较多，对快速分析带来了不便。首先，本文采用R型聚类的方法，将区间内所有波长分成5类，采用相关性分析，从中筛选出5个代表波长作为研究对象。其次利用多元线性回归的方法，对代表波长的响应数据和蛋白质含量进行回归分析，得出蛋白质含量与光谱响应数据之间的关系，建立了蛋白质含量的光谱分析模型。结合F检验、残差数据分析等方法得出所建立的模型可信的结论。然后，给出以残差平方和为指标的模型评价体系，并讨论了模型的适用范围。其次，对剩余26个样本的蛋白质含量进行了预测。最后，针对多输入多输出的问题，本文采用BP神经网络模型，对样本数据进行学习与训练，在对第81-100个样本进行检验并符合要求之后，建立了三种营养成分的快速检测模型。然后分别对26个样本的蛋白质含量、纤维素含量和脂肪含量进行了预测。关键词：聚类分析；多元回归；BP神经网络第2页1问题重述玉米是生态农业的关键农作物之一，玉米中富含蛋白质、纤维素、脂肪、水溶性多糖和糖醇类等多种生理活性物质。玉米的营养品质是指玉米中所含的各种营养成分（蛋白、纤维素、脂肪等）。为了实行优质玉米的培养，需要实现玉米营养品质的快速鉴定。玉米营养品质的鉴定需要对主要营养成分的含量进行检测。光谱检测法是能够检测物质成分含量的快速分析方法，它可以根据物质的光谱响应特征来鉴别物质并确定化学组成和相对含量，具有测定时间短、非破坏性、多指标同时测定等优点，能够实现在线、实时、原位的定量分析与监测。光谱检测分析首先需要根据常规生化检测数据结合光谱响应数据完成合理的定标与矫正过程，建立合适的数据分析模型，进而实现对物质成分的快速检测。准备126个玉米样品，经过物理方法加工为粉末状。采用Fourier近红外光谱分析仪采集光谱数据，同一样品对不同频率的光产生不同的响应，光波长变化范围为10000~40001cm（其中1cm为光波长单位），得到所有样品的光谱响应数据。为完成光谱建模实现快速检测，采用常规生化方法检测前100个玉米样品的蛋白、纤维素和脂肪的成分含量值。现需要结合测定的数据建立数学模型解决下列问题：1、根据前100个样品的光谱响应数据和蛋白含量的生化检测值，建立单一成分的光谱分析模型；拟定模型评价指标，并讨论模型的适用范围。2、根据所建立的数学模型，估算其余26个玉米样品（编号101~126）的蛋白含量。3、结合玉米的光谱响应数据和蛋白质、纤维素、脂肪三种营养成分的生化检测值，设计合理的玉米营养品质快速检测方案建立数学模型；进一步利用模型估算其余26个玉米样品中蛋白质、纤维素、脂肪三种营养成分含量。2问题分析问题一的分析：光谱检测可以根据物质的光谱响应特征来鉴别物质并确定化学组成和相对含量。现已知100个样品的光谱响应数据和蛋白质的生化检测含量，建立光谱分析模型，就是根据常规生化检测数据结合光谱响应数据完成合理的定标与矫正。由于不同样品的蛋白质、纤维素、脂肪等营养成分含量的不同，导致不同样品对于不同频率光谱的响应数据也不同。对于一种样品，其蛋白质元素含量与光谱响应数据存在一定的关系，本问就是要通过已知的100个样品的数据，确定两者之间的关系。通过对已知数据的分析知，样品对不同波长的响应特征与蛋白质含量是多对一的关系，本文采用多元线性回归分析建立光谱分析模型，明确了两者的关系函数。同一样品对不同波长的响应有390组数据，这组数据维数过大，为了方便模型的建立与求解，在实际操作过程中，可选取有代表意义，可以更多的体现蛋白质含量和光谱响应数据关系的波长来进行建模。本文采用聚类分析的方法筛选出具有代表意义的波长数据，然后建立多元回归分析模型，求解出蛋白质含量和光谱响应数据之间的关系，即光谱分析模型。最后以误差平方和为评价指标，并对线性回归模型的适用范围进行了分析。问题二的分析：本问要根据上一问所建立的光谱分析模型，估算剩余样品的蛋白质含量。将剩余样品的光谱响应数据带入上一问求解得到的线性回归方程，第3页可得到剩余样品的蛋白质含量。问题三的分析：本问要设计合理的玉米营养品质快速检测方案建立数学模型，就是根据前100个样品的光谱响应数据和蛋白质、纤维素、脂肪三种营养成分含量，建立两者之间的关系。这是一个多输入多输出的模型，本文采用BP神经网络，通过网络不断地学习，使实际输出与期望尽可能地相近，即使网络输出层的误差平方和达到最小，从而建立玉米营养品质快速检测方案模型。最后本文利用上述检测模型，对其余26种样品的蛋白质、纤维素、脂肪三种营养成分含量进行了预测。3模型假设与符号说明3.1模型假设（1）在整个光谱检测过程中，不存在人为和外部环境因素的干扰；（2）假设10000-40001cm为测定玉米中蛋白质、脂肪、纤维素含量的有效波段；（3）假设蛋白质、脂肪、纤维素含量的检测之间没有相互影响。3.2符号说明ijx第i个玉米样品的第j个波长指标变量的响应数据；ijx中心化变换后的响应数据；jkr两变量jx与kx的样本相关系数；j变量jx的回归系数；iy第i个样品的蛋白质含量实测数据；ˆiy第i个样品的蛋白质含量估计数据；Q误差平方和；U回归平方和；R称为复相关系数；ijw表示隐含层第i个节点到输入层第j个节点之间的权值；i表示隐含层第i个节点的阈值；()x表示隐含层的激励函数；kiw表示输出层第k个节点到隐含层第i个节点之间的权值；ka表示输出层第k个节点的阈值；第4页()x表示输出层的激励函数；ko表示输出层第k个节点的输出；pE每一个样本p的二次型误差准则函数为。4基于聚类分析和多元回归的光谱分析模型4.1聚类分析模型聚类分析，亦称群分析或点群分析，它是研究多要素事物分类问题的数量方法。其基本原理是，根据样本自身的属性，用数学方法按照某些相似性或差异性指标，定量地确定样本之间的亲疏关系，并按这种亲疏关系程度对样本进行聚类。常见的聚类分析方法有系统聚类法、动态聚类法和模糊聚类法等。对样本进行分类称为Q型聚类分析，对指标进行分类称为R型聚类分析。本文采用R型聚类分析对波长变量进行聚类[1]。通过对样品的光谱响应数据进行分析，发现样品对于不同波长的相应数据有390个，波长变量维数太多，且波长变量间的相关度较高，给系统分析与建模带来了很大的不便。若要对样品的光谱响应数据与蛋白质含量进行多元线性回归，就要求样品数量应大于变量个数，而已知蛋白质含量的样品只有100个，远小于波长变量的维数，因此需要对波长变量进行筛选，选出具有代表意义的波长来进行回归分析。本文采用R型聚类分析，通过研究变量的相似系数，按照变量的相似关系把它们聚合成若干类，进而找出影响系统的主要因素，选取每一类中具有代表意义的波长。4.1.1数据的标准化处理已知共有100个玉米样品，每个样品测得了390个波长变量的响应数据，原始数据矩阵为：11121,39021222,390100,1100,2100,390xxxxxxXxxx（1）其中，ijx（1,2,,100i，1,2,,390j）为第i个玉米样品的第j个波长指标变量的响应数据。由于样本数据矩阵由多个指标组成，样品对于不同指标的响应数据可能存在量纲和数量级不同的问题，为了消除两者的影响，需要先进行数据变换处理。本文采用标准化变换对数据进行处理，其处理方法如下。首先对每个变量进行中心化变换，然后用该变量的标准差进行标准化，即有：ijjijjxxs，1,2,,100i，1,2,,390j（2）第5页其中，1001100ijijx，1002111001jijjisx。4.1.2指标变量相似程度的测量计算研究变量的亲疏程度或相似程度的数量指标通常有两种：一种是相似系数，性质越接近的变量或样品，其取值越接近于1或-1，而彼此无关的变量或样品的相似系数则越接近于0，相似的归为一类，不相似的归为不同类。另一种是距离，它将每个样品看成p维空间的一个点，100个样品组成p维空间的100个点。用各点之间的距离来衡量各指标变量之间的相似程度（或靠近程度）。距离近的点归为一类，距离远的点属于不同的类。对于变量之间的聚类（R型）常用相似系数来测度变量之间的亲疏程度，而对于样品之间的聚类分析（Q型），则常用距离来测度样品之间的亲疏程度。本文对指标变量进行R型聚类分析，采用相关系数研究变量的相似程度。对于变量jx和kx，可以用两变量jx与kx的样本相关系数jkr作为它们的相似性度量。1001110010022211ijjikkijkijjikkiixxxxrxxxx，（3）ijx表示第i个玉米样品对第j个近红外光波长的响应数据，jx的值是矩阵X的一个列向量，jx表示jx向量的均值。jkr越接近1，表示jx与kx越相关或相似。jkr越接近0，表示jx与kx的相似性越弱。4.1.3系统聚类法正如样品之间的距离可以有不同的定义方法一样，类与类之间的距离也有各种定义。例如可以定义类与类之间的距离为两类之间最近样品的距离，或者定义为两类之间最远样品的距离，也可以定义为两类重心之间的距离等。类与类之间用不同的方法定义距离，就产生了不同的系统聚类方法。常用的系统聚类方法有，最短距离法、最长聚类法、中间距离法、重心法、类平均法、可变类平均法、可变法和离差平方和法。本问选择了类平均法聚类，该方法度量类1G和2G的距离为：1212121,,ijijxGxGDGGdxxnn，（4）它等于1G，2G中两样本点距离的平均，1n，2n分别为1G，2G中的样本点个数。第6页其中,1ijijdxxr。系统聚类法是聚类分析方法中使用最多的方法。其基本思想是：相似系数大的变量先聚为一类，相似系数小的后聚成类，此过程一直进行下去，每个样品总能聚到合适的类中。它包括如下步骤：（1）将每个变量独自聚成一类，构造390个类；（2）根据所确定的变量的相似系数公式，计算390个变量两两间的相似系数，构造相似系数矩阵，记为R。（3）把相似系数最大的两类归为一新类，其它变量仍各自聚为一类，共聚成（390-1）类。（4）计算新类与当前各类的相似系数，将相似系数最大的两个类进一步聚成一类，共聚成（390-2）类。以上步骤一直进行下去，最后将所有的样品（或变量）聚成一类。（5）画聚类谱系图。（6）决定类的个数及各类包含的变量，并对得到的分类做出解释。4.1.4聚类分析模型的求解根据上述模型，利用MATLAB软件编程对波长变量进行聚类分析。首先，对附件1中玉米样品对于不同波长的光谱响应数据进行标准化处理，然后求出各波长变量的相似系数矩阵，由于矩阵维数过于庞大，本文就不在正文中给出。通过观察各变量的相似系数矩阵发现，某些矩阵元素非常接近1，说明某些指标变量之间确实存在很强的相关性，因此本文从这些指标变量中选取几个有代表性的变量进行聚类分析。对指标变量进行R型聚类分析，变量间相似性度量采用相关系数，类间相似性度量的计算采用类平均法。依据系统聚类法的方法，对390个波长变量进行聚类，其部分变量聚类图如图1所示。图1部分变量聚类图第7页通过对聚类图的分析，以及为了方便下文的多元回归，本文将波长变量分为5类。其结果如表1所示。表1聚类结果类别变量第一类123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107108109110111112113114115116117118119120