偏最小二乘法(PLS)是光谱多元定量校正最常用的一种方法,已被广泛应用于近红外、红外、拉曼、核磁和质谱等波谱定量模型的建立,几乎成为光谱分析中建立线性定量校正模型的通用方法〔1,2〕。近年来,随着PLS方法在光谱分析尤其是分子光谱如近红外、红外和拉曼中应用的深入开展,PLS方法还被用来解决模式识别、定量校正模型适用性判断以及异常样本检测等定性分析问题。由于PLS方法同时从光谱阵和浓度阵中提取载荷和得分,克服主成分分析(PCA)方法没有利用浓度阵的缺点,可有效降维,并消除光谱间可能存在的复共线关系,因此取得令人非常满意的定性分析结果〔3~5〕。本文主要介绍PLS方法在光谱定性分析方面的原理及应用实例。偏最小二乘方法(PLS-PartialLeastSquares))是近年来发展起来的一种新的多元统计分析法,现已成功地应用于分析化学,如紫外光谱、气相色谱和电分析化学等等。该种方法,在化合物结构-活性/性质相关性研究中是一种非常有用的手段。如美国Tripos公司用于化合物三维构效关系研究的CoMFA(ComparativeMolecularFieldAnalysis)方法,其中,数据统计处理部分主要是PLS。在PLS方法中用的是替潜变量,其数学基础是主成分分析。替潜变量的个数一般少于原自变量的个数,所以PLS特别适用于自变量的个数多于试样个数的情况。在此种情况下,亦可运用主成分回归方法,但不能够运用一般的多元回归分析,因为一般多元回归分析要求试样的个数必须多于自变量的个数。§§6.3.1基本原理6.3偏最小二乘(PLS)为了叙述上的方便,我们首先引进“因子”的概念。一个因子为原来变量的线性组合,所以矩阵的某一主成分即为一因子,而某矩阵的诸主成分是彼此相互正交的,但因子不一定,因为一因子可由某一成分经坐标旋转而得。在主成分回归中,第一步,在矩阵X的本征矢量或因子数测试中,所处理的仅为X矩阵,而对于矩阵Y中信息并未考虑。事实上,Y中亦可能包含非有用的信息。所以很自然的一种想法是,在矩阵X因子的测试中应同时考虑矩阵Y的作用。偏最小二乘正是基于这种思想的一种回归方法。偏最小二乘和主成分分析很相似,其差别在于用于描述变量Y中因子的同时也用于描述变量X。为了实现这一点,在数学上是以矩阵Y的列去计算矩阵X的因子,与此同时,矩阵Y的因子则由矩阵X的列去预测。其数学模型为:此处,T和U的矩阵元分别为X和Y的得分,而P和Q的矩阵元分别为X和Y的装载,E和F分别为运用偏最小二乘模型法去拟合X和Y所引进的误差。T=XP(主成分分析)TP’=XPP’PP’=IX=TP’(因子分析)在理想的情况下,X中误差的来源和Y中的误差的来源完全相同,即影响X与Y的因素相同。但实际上,X中误差与Y中误差并不相关,因而t≠u,但当两个矩阵同时用于确定因子时,则X和Y的因子具有如下关系:u=bt+e式中b所表征的即为u和t间的内在关系。EPTXFQUY为了使因子T既可描述X矩阵,同时又可描述Y矩阵,则需采取折衷方案,即将T进行坐标旋转。显然,坐标旋转后的T因子对于X矩阵的表达已不再是最优的状况。如假设X矩阵和Y矩阵均为6*3,即行为6,列为3。在列空间,X和Y矩阵的行分别示于图6.1(上部)。PLS第一个因子(t和u)方向在各自的空间均可解释试样的最大偏差。若PLS模型是正确的,将t对u作图则可得一线性关系。事实上,PLS要将各自空间中的因子进行折衷以增加t对u的相关性(图6.1下部)。由于这种折衷才可使所得数学模型较好地同时描述X和Y。在行空间,情况与列空间类同。如有矩阵(见§6.2):1241576917621896821326310215275X2863129334572Y数据的预处理为:每列减去相应列的平均值(mean-centered),PLS所得结果为:将t对u作图(图6.2)可显示出二者的线性关系,其斜率b=0.53。图6.2矩阵X的因子t对矩阵Y的因子u作图对于未知试样的预测,要应用X和Y的得分模型及相关性bi。若有L个因子,则bl为表达第l个因子相关性的系数,其步骤为:由未知试样的测定值x末通过校正模型(式(6.4)计算出t末,进而由(式6.6)及bl可计算未知试样的得分矢量u末,最后由校正模型(式6.5)得未知试样含量。8.157.45.20t10010uEPTXu=bt+eFQUY