21.利用主成分分析计算方法定量描述卷烟内在质量稳定性的初步探索石怀彬,甘学文,陈晶波,王瑞,惠康进(南京卷烟厂技术中心,南京市建邺区梦都路30号210019;)摘要:本采通过近红外技术与化学计量学相结合探索卷烟产品质量稳定性的定量描述方法。利用主成分分析(PCA)法对原始谱图进行数据降维,排除众多化学信息共存中相互重叠的信息。对卷烟样品的近红外光谱图(NIRs)进行PCA特征抽提,用主成分得分代替烟叶样品的NIRs,根据主成分空间下的马氏距离空间分布情况实现不同类产品的有效识别,讨论了分类方法、光谱预处理技术、主成分个数等对计算结果的影响。通过计算不同批次同类样品各类中心间的马氏距离进行产品质量稳定性分析,并提出用类内平均距离与类间平均距离等定量计算结果表征产品质量稳定性的定量描述方法。关键词:近红外光谱,主成分分析,马氏距离,卷烟产品质量稳定性StudyofthequalitativestabilityofcigaretteproductsbyprincipalcomponentanalysismethodShiHuibin,GanXuewen,ChenJingbo,WangRui,HuiKangjin(1TechnologyandScienceCenterofNanjingCigaretteFactory,Nanjing210019,China)AbstractInthispaper,theprimaryresearchresultswerepresentedtoevaluatethequalitativestabilityofcigaretteproductsbynear-infraredspectroscopycoupledwithchemicalmetrologytechniques.TherawspectrawastransformedtocompresstheoriginaldataandthecharactersoftheNIRspectrawereselected.Thus,cigarettesampleswerediscriminatedbyMahalanobisdistanceunderprincipalcomponents’spacebyreplacingtherawNIRswiththecorrespondingprincipalscores.Theclassingmethods,pre-processingperformanceandthenumberofprincipalcomponentswerediscussedfortheinfluencetotheresults.ThecigaretteproductstabilitywasevaluatedbycalculatingMahalanobisdistancesofdifferentgroupsofthesameclasses,andaquantitativedescriptionmethodwasproposedtoidentifythecigaretteproductstabilityaccordingtotheaverageMahalanobisdistancesinaclassorbetweendifferentclasses.Keywordsnear-infraredspectroscopy,principalcomponentsanalysis,Mahalanobisdistance,qualitativestabilityofcigaretteproducts烟草化学成分的分析在烟草科研与生产中占有十分重要的地位。但是传统的化学分析方法操作繁琐,周期长、耗费大、污染严重,近红外(Nearinfrared,NIR)光谱分析技术无需复杂的样品前处理即可获得样品内部结构信息,具有“操作简单”、“应用广泛”、“绿色分析”等特点,己广泛用于农业、石油、化工、医药等行业[1-3]。近年来,近红外技术在我国烟草行业的发展很快,但绝大部分研究主要集中在烟草常规化学成份的快速测试和应用方面[4-10],而用于卷烟产品质量稳定性的分析、评价等方面研究很少[11-13]。长期以来,卷烟产品内在质量表征主要通过感官评吸的方法,缺乏直观形象的定量描述方法。随着产品市场竞争的日趋激烈及工业企业生产自动化程度的日益提高,产品质量的稳定性及控制日趋凸显,迫切需要快速、高效、简便的分析方法用于产品质量稳定性的评价与控制。近红外光谱研究的不断深入及相应硬件、软件的发展为质量稳定性的定量描述提供了可能,本文介绍了近红外光谱用于卷烟产品质量稳定性分析的初步研究结果。1原理[14]主成分分析是将原变量进行转换,用原变量的线性组合生成少数的新变量,以排除众多化学信息共存中相互重叠的信息,而将数据降维。新变量应尽可能多地表征原变量的数据结构特征而尽量少丢失信息,且相互正交。对于某一样品的光谱图,主成分就是p个波长上的光谱信息(变量)X1,X2,…Xp的一些特殊组合,在几何上,这些组合是将X1,X2,…Xp构成的坐标系旋转产生的新坐标系,新坐标轴代表了具有昀大变差的方向。记向量X′=(X1,X2,…,Xp),其协方差阵为∑,λ1≥λ2,≥……≥λp≥0为协方差阵的特征值,新变量由原变量的线性组合:Z1=L1′X=L11X1+L21X2+……+Lp1XpZ2=L2′X=L21X1+L22X2+……+Lp2Xp……Zp=Lp′X=Lp1X1+Lp1X2+……+LppXp寻找主成分就是确定Z1,Z2,……Zp,使它们相互正交,且方差D(Zi)=Li′∑Li(i=1,2,…..,p)达到昀大。对于多个样品而言,设为n个样品在p个波长上的光谱信息阵,则构造样本主成分即是从样品信息阵出发构造原各波长点处光谱信息变量的不相关的线性组合,并具有昀大的样本方差。采集我厂不同牌号卷烟成品的近红外谱图,利用主成分分析(PCA)法对卷烟样品的NIRs进行特征抽提,用主成分得分代替烟叶样品的NIRs,根据主成分空间下的马氏距离空间分布情况对不同产品进行聚类,通过计算样品与各类中心的马氏距离进行样品类别判定,通过计算不同批次同类样品各类中心间的马氏距离进行产品质量稳定性分析。根据主成分得分向量描述的样本i到j类中的马氏距离为:样本i到j类中的马氏距离为:其中:m---主成分个数;T---主成分载荷;---校正集样品平均得分矩阵;λ1,λ2,……λm为样本光谱协方差阵的特征值2实验2.1仪器与材料美国Nicolet公司Antaris傅立叶变换近红外光谱仪,积分球漫反射采样系统,φ4.8cm旋转样品石英杯,Result光谱采集软件,TQ6.2数据分析软件。我厂4个牌号成品烟样品150个2.2实验方法将样品烟丝在低于40℃烘12h,磨成粉,过40目筛。取适量烟末,放入样品杯中进行NIR扫描,分辨率设定为8cm-1,光谱范围3800—10000cm-1,扫描次数72。3结果与讨论3.1原始光谱两种不同卷烟样品(每种5个)的NIR光谱见图1。从图中可见,同类样品的近红外吸收曲线非常相似,两类样品的近红外谱图差异明显比类内差异大,但吸收特征基本上一致。由于卷烟样品成分复杂,每个吸收峰都可能是若干个不同基频的倍频和合频的组合,没有锐峰和基线分离的谱峰,大量的是重叠谱峰和肩峰,其谱带的归属难以确定,无法直接采用特征吸收峰加以区分。因此,有必要采用合适的化学计量学方法来提取不同卷烟产品的近红外光谱特征信息。图1两种不同卷烟样品的NIR光谱3.2主成分分析两个牌号样品的NIR光谱经PCA分析进行特征抽提,根据主成分向量空间下的马氏距离空间分布对不同产品进行聚类的结果见图2--5。图2错误的分类方法对聚类结果的影响(图2上:正确分类;图2下:将一类中某一样品指定为二类)147图3光谱预处理方法的影响图3上:标准归一化变换(StandardNormalVariate,SNV)光谱;图3下:原始光谱图4主成分个数对计算结果的影响(图4上:m=4;图4下:m=10)图5我厂主导品牌部分卷烟分类计算结果马氏距离判别分析属于监督模式识别方法,对训练集样品的正确分类是给出合理计算结果的关键。若训练集样品分类错误,则类内样品明显离散,并在马氏距离的计算结果中出现指定类别与计算类别不相符合的可疑提示(图2)。光谱预处理技术广泛用于近红外定量分析[15,16],常见的预处理方法包括有基线校正(baselinecorrection)、去卷积(deconvolution)、一阶微分或二阶微分(derivative)、归一化(normalize)、小波变换(wavetransform)等,在定性分析中,实验表明,适当的光谱预处理方法亦有助于降低背景噪声的影响,提取样品真实的NIR信息,从而提高预测结果的精度(图3)。图4反映了主成分个数对计算结果的影响。定量分析研究结果表明,主成分数太少,信息量不足,不能有效反映样品被测组分光谱特征的变化;主成分数太多,则可能引入噪声,实验中常根据预测残差平方和(predictionresidualerrorsunofsquare,PRESS)确定昀佳主成分数。在定性分析中,商业软件不能像定量分析一样根据交叉验证结果提供昀佳主成分数,主成分数的确定主要靠实验摸索。除此之外,仪器操作条件、光谱范围及计算方法等都会对计算结果产生影响,这些需要研究人员进行不断的摸索和总结。作者对实验条件和计算方法进行初步优化后,将我厂主导品牌的部分卷烟进行聚类,取得了较好的结果(见图5)。3.3质量稳定性分析在以上工作的基础上,对我厂某产品四次配方调整中不同批次的取样进行NIR分析,结果见图6(左上角:另一产品参比,右下角:4次配方调整样品)。由图6可见,与参比产品相比,实验样品的NIRs主成分特征向量以每次为配方调整为一类集中在一个较小的区域,表明样品质量具有较好的稳定性。类内马氏距离及类间马氏距离的定量计算结果见表1,前者主要反映同一配方下加工条件对产品质量稳定性的影响,即生产过程的稳定性;后者则反映了配方调整对产品质量稳定性的影响。计算结果表明类内马氏距离平均值低于类间马氏距离,说明产品批内质量差异低于批间质量差异。图6四次配方调整中样品的NIRs聚类分析(左上角:另一产品作参比,右下角:实验样品)表1四次配方调整样品(B1、B2、B3、B4、)类内马氏距离及类间马氏距离的定量计算结果类内马氏距离类间马氏距离类别B1B2B3B4B1-B2B1-B3B1-B40.98841.12520.64410.80361.89413.2732.47810.86810.75960.96191.05681.3053.48173.59380.86320.70760.91040.63531.69393.57463.4851.09960.57611.10170.61911.79553.41273.45061.02720.52490.840.40031.61333.70643.13910.50980.81970.91310.67071.64263.23023.36321.05740.38840.97321.01912.08933.33283.26671.17350.69720.4041.12342.28063.30892.97230.83021.30140.88260.63711.76973.01052.5856马氏距离值0.89711.04660.83140.8012.0553.50592.9539平均值0.931450.794670.846240.776641.81393.383673.128833.4讨论化学计量学是建立在多学科基础上的横向学科。近年来,人工神经网络、遗传算法、小波分析、模拟退火等新的计算方法相继出现,在环境科学、过程分析、材料科学等领域获得了广泛的应用。就模式识别而言,大致分为有管理识别与无管理识别两类,前者如Fisher判别、Bayes判别、逐步判别、学习机械(learningmachine,LM)、K-临近值(