化学键参数-数据挖掘方法及其应用陆文聪上海大学理学院化学系1.原子参数-模式识别方法陈念贻:原子参数-模式识别方法是一种半经验方法,它要求用能描述有关物系的原子参数集张成多维空间,将已知物系的知识记于其中,然后用模式识别方法总结出数学模型,进而用以预报未知物系的性质。1.1原子参数-模式识别方法原子参数有关原子的电负性、半径、价电子数及其函数等模式识别方法主成分、Fisher判别法、球形映照、超多面体投影、最佳投影等1.2原子参数-模式识别方法应用举例(1)二元合金的晶型识别(2)三元合金相的形成判据图1:二元合金的NaZn13晶型的模式识别(I区是NaZn13晶型的形成区)例1:二元合金的晶型识别例2:含Ag三元合金的形成条件6图2:含Ag三元合金的模式识别(O)形成三元合金;(-)非三元合金Y=-0.40R1–0.19R2–0.22V1+0.092V2+0.66X1–0.533X2+1.420.62.化学键参数-数据挖掘方法化学键参数包括原子参数、分子参数;实验参数、理论参数(量子化学参数、分子拓扑指数、分子连接性参数)数据挖掘方法包括模式识别法、人工神经网络法、支持向量机法、集成学习法等2.1常用化学键参数——量子化学程序计算参数能量参数HOMO、LUMO、总能量、键能几何参数键长、键角电性参数电荷分布、Mulliken布居疏水参数2.2常用数据挖掘方法DataMiningTechniquesSupportVectorMachineVisualizationEnsemblelearningArtificialNeuralNetworkGeneticAlgorithmsDecisionTreesRoughSetBayesnetPatternRecognition2.2.1支持向量机方法的几个主要优点和局限性优点:结构风险最小,全局最优既能定性又能定量建模和预报巧妙地运用核函数,解决了“高维”和“非线性”数据处理问题变量数可以大于样本数,成功地解决了过拟合的控制问题,提高了预报能力局限性:核函数及其参数的选取和优化工作计算量大小样本集的统计意义2.2.2集成学习方法的几个主要优点和局限性优点:AdaBoost侧重错分点,Bagging侧重平均化模型个体可以用弱学习器,避免过拟集成模型更加精确,稳定性更好局限性:可选模型及其排列组合太多,模型个体的选取尚无理论指导。2.3化学键参数-数据挖掘方法应用举例(1)复氯化物的钙钛矿结构的识别(2)二元半导体禁带宽度的预报例1复氯化物的钙钛矿结构图3:复氯化物的钙钛矿结构的最佳投影识别图“1”:钙钛矿结构“2”:其它结构化学键参数:离子半径、电负性、容许因子t(几何效应参数)、Dq(配位场效应对中心离子影响的能量差)例2:二元半导体禁带宽度预报图4二元半导体禁带宽度预报(数据挖掘方法:支持向量机回归;特征参数:价电子数、质子数、电负性、电荷半径比)012345012345R=0.96predictedEg(eV)experimentalEg(eV)Fig.6ExperimentalEgvspredictedEgofternarycompoundsemiconductorswithtrainedSVRmodel例3:ABO3型钙钛矿离子导体导电性能研究量子化学参数P/LP/L定义为钙钛矿内部八面体结构上O-O键平均电荷布居数与O-O键长的比值。O-OoflengthO-Opopulationcharge/LP-0.07-0.06-0.05-0.04-0.03-0.02-0.01-14-12-10-8-6-4-2PrGaO3CaTiO3LaGaO3La0.9Sr0.1GaO2.95La0.9Sr0.1Ga0.8Mg0.2O2.85SrTiO3BaZrO3P/LLn(S/cm-1)BaZr0.9In0.1O2.95SrTi0.9Al0.1O2.95BaIn0.9Ca0.1O2.45图5:掺杂与纯钙钛矿导电能力Ln(σ)与P/L之间的关系例3:ABO3型钙钛矿离子导体导电性能研究用泛化能力较好的SVR(支持向量回归)模型总结了117个钙钛矿型离子导体的Ln(σ)与其化学键参数之间的定量关系,为寻找更优异的钙钛矿型氧离子导体提供了线索。例3:ABO3型钙钛矿离子导体导电性能研究18ThankyouWelcometoShanghaiUniversityEmail:wclu@shu.edu.cncellphone:15921033252