化学物质爆炸下限定量构效关系研究研究意义QSPR基本原理和基本研究步骤研究概况本论文研究工作模型预测结果比较分析及结论主要内容爆炸下限是物质爆炸危险性的重要评价参数,但实际工业的爆炸下限数据库空白很多,传统的实验方式无法保证所获结果的可靠性、准确性、一致性,而且往往测量昂贵且费时。运用定量构效关系(QSPR)预测的方法既能够方便迅速获得爆炸下限数据,而且能保证结果的可靠性,还能通过已有的预测模型获得新物质的爆炸下限值,同时能得到分子结构中影响爆炸下限的主要因素。研究意义英文全称为:QuantitativeStructure-propertyRelationship,QSPR中文简称定量构效关系两条基本假设:分子性质的变化依赖于其结构的变化;分子的结构可以用反映分子结构特征的各种参数来描述,即化合物的性质可以用化学结构的函数来表示。QSPR基本原理QSPR基本原理可见,QSPR方法是一个不完全归纳法的分析过程:由已知的结构性质样本出发先建立模型,再利用所建立的模型对新样本进行预测。图1QSPR基本原理所需要仅仅是分子的结构信息及目标性质的实验数据,通过对计算出来的分子的各种结构参数和实验性质进行统计分析,建立分子的结构参数和所研究的性质之间的定量关系,达到预测的目的。QSPR基本原理QSPR基本步骤数据的获得和整理(DIPPR)预测模型的建立(HM,B-MLR,SVM)模型的检验(R2,AARD(%),RMSE,Q2ext)分子结构的输入和优化(Hyperchem8.0)分子描述符的计算(Codessa)分子描述符的选择(HM,B-MLR)图2QSPR研究的基本步骤QSPR基本步骤分子描述符的计算分子描述符:即分子结构参数,是一个分子的数学表征,可以以数学的方式表示了每一个分子的特征,包含了分子的各种结构信息。描述符计算其实就是把分子结构转换为数值信息的过程主要有六种:组成描述符,几何描述符,拓扑描述符,静电描述符,量子化学描述符,热力学描述符QSPR基本步骤分子描述符的选择增加计算复杂性,偶然相关,不稳健,自相关造成内部冗余关键问题:从大量的描述符中选择出与目标性质最紧密相关的参数,最好是用尽可能少的变量来表征尽可能多的结构信息。常用筛选方法:启发式方法(HM),逐步回归法,遗传算法,变量最优子集回归法,神经网络法,模拟退火法等。QSPR基本步骤预测模型的建立训练集和测试集的划分训练集用于建立预测模型,测试集用于测试所建立的模型的预测能力。建模方法(线性关系,非线性关系)判别分析,主成分分析,因子分析,线性回归,主成分回归分析,偏最小二乘法,人工神经网络,遗传算法,支持向量机以及投影寻踪回归等。本次研究建模采用线性回归方法里的启发式回归(HM)和最佳多元线性回归以及非线性方法里的支持向量机(SVM)。QSPR基本步骤模型的检验内检验:通过训练集检验模型的建模能力(拟合能力和稳健能力);外检验:通过测试集检验模型的预测能力,即用已建立的训练模型来预测未参与模型训练的物质的性质。“留一法”交互验证(LOO-CV)RMSE,AARD泛化能力及预测精度;F检验值、t检验值模型的显著性问题(公式见论文第9页)。20022200iiiiyyyyRyyyy2021211trainingiilootrainingiiiyyQyy20212()11testiiexttestiitriyyQyy研究概况爆炸下限预测模型研究概况与燃烧热、化学计量浓度等关联,人工神经网络方法(临界温度、临界压力等)基团贡献法预测方法研究概况基团贡献法,经验公式法,QSPR不足优势目前预测理化性质的趋势本论文研究工作拟对113种烃类物质进行定量构效关系研究,建立烃类物质的爆炸下限预测模型,并探究影响物质爆炸下限性质的主要结构因素。主要研究内容有:分别用QSPR的三种建模方法建立预测模型计算各参数,评价模型效果(R2、RMSE、AARD、Q2ext)比较分析三个预测模型探究分子结构中影响爆炸下限的主要因素模型预测HM模B-MLR模型SVM模型线性建模及分子描述符计算在CODESSA软件中完成,而SVM的建模及相关计算在MATLAB软件中完成。最后在MATLAB软件中计算各个模型的R2、AARD、Q2loo、Q2ext,RMSE,并将三个预测模型进行比较讨论分析。HM模型启发式回归(HM)方法筛选描述符原则:1)不是每个化合物都有的参数;2)对所有化合物来说,数值变化比较小的描述符;3)在一个参数相关方程中,F检验值小于1.0的参数;4)t检验值小于某一定义值的描述符。HM模型具有4个描述符的集合为最佳描述符集,其所对应的模型即为最佳模型图3HM方法筛选最佳描述符集HM模型表2HM方法的分子描述符筛选结果信息表3HM模型中的分子描述符统计学参数HM模型所得训练模型:LFL=1.4230+0.0218×X1-0.3074×X2-0.02085×X3-0.01227×X4内部检验:R2=0.9773Q2loo=0.9773AARD=4.3483%RMSE=0.05F=902.61n=89稳健性、拟合能力及精度均较好图4HM方法的训练模型的预测值和实验值的比较图5HM模型对测试集所得预测值与实验值的比较HM模型HM预测模型效果令人满意外部检验:R2=0.9534,AARD=4.4828%,RMSE=0.0685,Q2ext=0.9564预测能力、泛化能力、预测精度均较好B-MLR模型B-MLR筛选描述符原则:1)对剩余的描述符做相关分析,搜取所有计算出的正交描述符i,j2)用这些描述符与性质关联得到二元线性方程,筛选出Nc(=400)个方程(有较大判定系数)进行进一步的回归分析;3)向方程中加入非共线描述符k成为三参数模型,如果三参数模型的F值小于最佳的两参数模型的F值,两参数模型为最后结果,反之,保存最佳三参数模型(最大判定系数)并用于下一步计算;4)向方程中再次加入非共线性描述符,类似于第三步,把得到的(n+1)参数模型F值与最佳的两参数模型的F值比较。B-MLR模型图6B-MLR方法筛选最佳描述符集具有4个描述符的集合为最佳描述符集,其所对应的模型即为最佳模型表5B-MLR模型中的分子描述符统计学参数B-MLR模型表4B-MLR方法的分子描述符筛选结果信息B-MLR模型所得训练模型:LFL=1.4565-0.3145×Y1+6.5291×Y2-0.02048×Y3-0.002037×Y4内部检验:R2=0.9777Q2loo=0.9777AARD=4.3437%RMSE=0.0496F=919.04n=89稳健性、拟合能力及精度均较好图7B-MLR方法的训练模型的预测值和实验值的比较B-MLR模型外部检验:R2=0.9522,AARD=4.5851%,RMSE=0.0696,Q2ext=0.9549预测能力、泛化能力、预测精度均较好B-MLR预测模型效果令人满意图8B-MLR模型对测试集所得预测值与实验值的比较SVM模型重要参数:核函数的类型、惩罚常数C、ε-不敏感损失函数中ε、核函数宽度参数γ及它们的组合。本次研究中支持向量机分析主要采用改进的svm加强工具箱结合MATLAB2009来运行,以B-MLR方法所选择的4个分子描述符作为输入参数。选择RBF径向基函数作为核函数,烃类物质的爆炸下限数据先经过[0,1]范围的归一化处理,采用格点搜索的方法选择最佳的参数组合。SVM模型最优参数为:惩罚系数C=22.6274,核函数的宽度γ=0.0032725,ε-不敏感损失函数ε=0.125训练模型:R2=0.9782,Q2loo=0.9782,AARD=3.8031%,RMSE=0.0490,n=89测试集外部验证:R2=0.9559,AARD=4.6680%,RMSE=0.0696,Q2ext=0.9549。图9SVM训练模型的预测值与实验值的比较图10SVM模型对测试集所得预测值与实验值的比较结果比较分析表6三种方法模型的各评价参数比较结论三种模型效果均较优,都具有较好的稳定性和预测能力,可以用于烃类物质的爆炸下限的预测。综合比较,SVM模型效果最佳,这说明了烃类物质的爆炸下限与其分子结构间可能存在非线性关系。影响烃类爆炸下限的主要因素:分子能量、热容量、分子间静电作用、分子化学键及质量等方面的结构特点。