多元数据模型回归与分析2一、实验数据分析由实验数据回归模型,得到模型参数前,对数据自变量间的线性相关性进行检验,是发现回归模型应用的可靠性和准确性受限制的有效方法。因自变量间的线性相关性,使得无法区分它们对因变量的作用;回归模型参数时会遇到几乎是奇异的数据矩阵,这样的模型参数有很大的不确定性(95%的参数置信度范围宽)。例:回归二氧化硫的催化氧化速率方程:装有载铂氧化铝催化剂颗粒的微分固定床反应器中,测定二氧化硫的催化氧化速率。总压为790mmHg时,记录流体相的组成分压,有下表所示的速率结果,通过这些数据求取二氧化硫的催化氧化速率方程。3二氧化硫的催化氧化速率r分压(atm)mol/g.hSO3SO2O20.020.04280.02550.1860.040.03310.03530.1900.060.02720.04090.1930.080.02360.04430.1950.100.02140.04640.1960.120.02010.04760.197表8-2二氧化硫的催化氧化速率4两种模型的非线性回归1、一般的指数速率方程形式cObSOaSOPPkPr223(8.2.1)k=0.517±113.3;a=-1.98±7.02;b=-0.216±4.556;c=6.078±124.7拟合结果:参数的95%置信度太宽,模型参数不可靠。2、根据原子氧的吸附机理,得到的速率方程式(Smith,ChemicalEngineeringKinetics,3rdEd.,1981,McGraw-Hill,P.374)212/1)(3322SOSOKOSOBPAPPPr(8.2.2)K=73,为反应平衡常数A=0.1017±0.0958;B=16.02±4.33拟合结果:与方程(8.2.1)相比,方程参数的置信度有了显著改善。5对速率方程的进一步分析如果把方程(8.2.2)改写为:2/122233)(OSOSOSOPPBPArKP(8.2.3)将模型参数代入计算并以方程左边为横坐标、右边为纵坐标作图。0.0200.0300.040PSO30.1850.1900.1950.200PO2-0.10.00.10.2RHSofEq.(8.2.3)LineardependenceofPso3andPo2RHSofEq.(8.2.3)结果并不是斜率为-1的直线。说明表所给的速率数据没有足够的信息来表明速率方程中的逆反应贡献。如将SO3分压对O2分压作图,这两分压间有近似线性关系。所以方程(8.2.1)的置信区间范围大。6二、回归模型的选择(1)例:水饱和蒸汽压的模型回归水的蒸汽压数据选用的温度范围为0~120℃三参数的Antoine方程:四参数的Riedel回归方程:五参数回归方程(参考Thek-Stiel的蒸汽压预测方程提出):)/(lnCTBAP6ln/lnDTTCTBAPTETDCTTBAPln//ln2(8.2.4)(8.2.5)(8.2.6)7水饱和蒸汽压的模型回归结果参数Antoine方程改进Thek-Stiel方程A18.5587.5132B-3973.2-10.449C-39.9832.8683D-.064796E-6.8475R20.99999981.0表8-3水饱和蒸汽压的方程拟合结果拟合度十分接近1,表明拟合是成功的,但实际上用Antoine方程来拟合回归得到的结果不理想,说明仅从拟合度上来判断结果的好坏是不够的。为什么呢?Model:lnP=A+B/(T+C)y=(18.55832)+(-3973.1923)/(x+(-39.983344))T,KLnP12345678280300320340360380WatervaporfittingwithAntoineEq.8因变量与残差关系图)ln()ln(,,calciobsiiPP残差定义:(8.2.7)考察模型参数估计方法的两个基本假设:参数估计的误差相互不相关联,是随机的。估计误差符合正态分布。检查模型适合体系数据程度的最有效方法之一是对因变量与残差作图,观察其分布情况。9Antoine方程拟合的残差残差虽然很小,但其分布不是随机的。残差的分布同正态分布相比,有较大的差距。两方面的结果充分说明了拟合回归的Antoine方程还不能充分反映蒸汽压与温度间的关系,造成残差间存在关联。采用Riedel方程拟合得到的也是类似的结果。lnPResidualValues-0.003-0.002-0.0010.0000.0010.0020.00312345678ResidualfromAntoineEqfitExpectedNormalFrequencyDistribution:ResidualsNoofobs02468101214161820222426-0.003-0.003-0.002-0.002-0.001-5.000e-40.0005.000e-40.0010.0020.0020.0030.0030.00410改进Thek-Stiel方程方程的拟合结果拟合误差比Antoine方程小了近一个数量级,而且残差分布是随机分布的。误差分布基本符合正态分布。改进Thek-Stiel方程方程描述水饱和蒸汽压的合适模型。lnPvPrResidualValues-7e-4-5e-4-3e-4-1e-41e-43e-45e-4-11-10-9-8-7-6-5-4Eq.(8.2.6)fitFrequencyDistribution:ResidualsNoofobs01020304050607080-7e-4-6e-4-5e-4-4e-4-3e-4-2e-4-1e-401e-42e-43e-44e-4Eq.(6)fitExpectedNormal11二、回归模型的选择(2)前面说明了模型参数较少时会出现拟合残差的分布不是随机的,而是呈现某种分布,相互关联。在模型回归拟合数据的过程中,如模型参数过多会出现什么情况?如何判断回归拟合模型中有过多的参数呢?12丙烷在氢型丝光沸石上的吸附平衡例:选用不同吸附方程拟合丙烷在氢型丝光沸石体系303K的吸附平衡数据。目标:说明如何对模型拟合结果进行统计分析,确定模型拟合的好坏、模型参数的可靠性和准确性,从而进行拟合模型的选择。P,kPaq,mmol/gP,kPaq,mmol/gP,kPaq,mmol/gP,kPaq,mmol/g0.100.091.080.4812.670.81115.891.140.140.121.470.5116.700.85140.071.170.220.181.510.5324.810.90158.901.190.330.242.270.5934.280.95176.761.200.410.303.220.6443.850.98193.371.220.490.314.720.6954.621.02206.811.240.570.365.060.7065.791.040.770.417.390.7573.191.060.990.4410.260.7994.661.09表8-4303K时丙烷在氢型丝光沸石上的吸附平衡数据13具有代表性的、也是适用性较广的模型1、Lanmuir(L)双参数方程:2、Freundlich(F)双参数方程:nnaPaPm1(8.2.8)3、BET双参数方程:4、Langmuir-Freundlich(LF)三参数方程:5、三参数方程:6、Toth三参数方程:7、扩展的LF方程(五参数):8、(14)式的特殊形式(四参数):naPbnncxxxcxm()()11xPP/0nnaPaPmbb1Pbc111exp()nnm/nnPbPmcc()/1nnaPdcPaPcPmbebe1nnaPbcbdPaPcPmbdbd()11(8.2.9)(8.2.10)(8.2.11)(8.2.12)(8.2.13)(8.2.14)(8.2.15)14各模型的计算结果Eq.(8)Eq.(9)Eq.(10)Eq.(11)Eq.(12)Eq.(13)Eq.(14)Eq.(15)nm1.0840.051/0.9760.0250.4380.0534.62317.221.5350.2570.7580.0880.7690.068a0.5530.1310.4460.034/1.3820.107//1.3290.4961.4270.144b/0.200.018/0.4940.0620.6781.6580.5490.0760.9420.1070.9750.058c//812.1116.3/20.9652.650.3410.0591.9071.5930.0170.003d//////0.0240.0480.9120.046e//////1.6380.586/s29.09010-27.72110-25.13410-23.79910-22.9933.15410-21.04810-28.68610-3R20.987900.991270.996140.997950.998580.998590.999860.99990表8-5吸附等温线关联的参数值、方差和回归系数从表中可看出,方程(8→14)拟合方差逐渐减少,回归系数更接近1(方程(12)是通过压力数据来拟合的,故拟合方差和其它方程的结果不是在同一数量级上)。由方程(14)的五参数形式改进的方程(15)式获得的结果最好,实验数据点几乎完全落在方程(15)式的曲线上(见下图)。15方程(13)和方程(15)的拟合结果0.11.010.0100.0p,kPa0.00.51.0n,mmol/gExp.dataTothEq.(13)Eq.(15)方程(15)式获得的结果最好,实验数据点几乎完全落在方程(15)式的曲线上。16判断模型参数是否过少的依据通过对方程(13)和五参数方程(15)的残差进行分析,方程(13)因参数过少,吸附量的计算误差与实验吸附量之间存在着某种分布。方程(15)计算误差在零的两边是随机分布的,看不出规律性。因此,拟合计算误差有无规律性的分布是判断模型参数是否过少的依据。因此,拟合计算误差有无规律性的分布是判断模型参数是否过少的依据。PredictedversusResidualValuesn,mmol/gResidualValues-0.08-0.06-0.04-0.020.000.020.040.060.00.20.40.60.81.01.21.4PredictedversusResidualValuesn,mmol/gResidualValues-0.020-0.015-0.010-0.0050.0000.0050.0100.0150.0200.00.20.40.60.81.01.21.4方程(13)的拟合误差方程(15)的拟合误差17判断模型参数是否过多的依据Eq.(14)Eq.(15)nm0.7580.0880.7690.068a1.3290.4961.4270.144b0.9420.1070.9750.058c1.9071.5930.0170.003d0.0240.0480.9120.046e1.6380.586/s21.04810-28.68610-3R20.999860.99990在方程(14)的计算结果中,有些参数95%的置信度较大,说明这些参数之间有联系,不是独立的。而对于方程(14)的五参数形式,即方程(15),其所有参数的95%置信度都较小。事实上,方程(15)就是据此分析对吸附平衡理论作进一步研究而获得的。因此,拟合参数95%的置信度是否较大是判断模型参数是否过多的依据。18回归模型的选择总结模型参数较少时会出现拟合残差的分布不是随机的,而是呈现某种分布,相互关联。残差的分布偏离正态分布较远。