结构解析专家系统ESESOC主要内容•结构解析专家系统概述•拓扑结构穷举生成•立体异构的穷举生成1.结构解析专家系统ESESOC概述专家系统是一个智能计算机程序系统,其内部含有大量的某个领域专家水平的知识与经验,能够利用人类专家的知识和解决问题的方法来处理该领域问题。近年来,专家系统在化学领域的应用主要集中在:(1)谱图解析和有机化合物结构的阐明;(2)分离科学;(3)实验方案的最优设计;(4)工业生产的流程控制;(5)计算机辅助合成路径方案选择等。世界上第一个专家系统诞生于化学领域,即DENDRAL系统,于1965年在美国斯坦福大学开始研制,该系统利用低分辨质谱和核磁共振波谱来进行有机化合物的结构解析。长春应化所的许禄等人的研究室在国家自然科学基金的资助下,自1987年起在CLAC—13C—NMR数据库系统的基础上进行有机化合物的结构解析专家系统的研究,开发了计算机自动解析专家系统ESESOCI(ExpertSystemfortheElucidationoftheStructuresofOrganicCompounds)。ESESOC系统经历了ESESOC-I与ESESOC-II,ESESOC—I系统只能用于含C,H,O有机化合物结构解析,而ESESOC—II能用于含多种杂原子的有机化合物结构的解析。ESESOC系统包括3个部分:光谱知识库及其解析系统,结构产生器和结构验证系统。其结构解析过程为:①从分子式或光谱数据出发推导出与之相一致的子结构约束条件即化合物结构碎片等,②在其约束下用结构产生器穷举生成所有的结构异构体,即候选化合物,③最后进行结构的确证并进行结构输出。结构产生器是结构解析专家系统的核心部分,一个结构产生器应满足4个要求:(l)穷举性;(2)非冗余性;(3)有效性(避免出现产生小分子的分支从得不到整体结构);(4)能接受各种约束条件。ESESOC系统的结构生成过程分为三步进行,即利用组合算法先穷举出结构基元向量,之后从结构基元向量穷举产生结构片段向量,并得到结构片段集,然后由结构片段集对接得到整体结构。接下来将以ESESOC的结构产生器为例来介绍结构穷举生成算法。2.拓扑结构穷举生成2.1结构基元和结构片段把有机化合物结构的最基本单位的元素组成称为结构基元,即把所有的氢原子都分配到非氢原子上.在ESESOC系统中,对含有C、H、O、N、P、Si、F、Cl、Br、I等十一种元素的有机化合物共22种结构基元。1CH32CH23CH4C5OH6O7SH8S9NH210NH11N12PH213PH14P15SiH316SiH217SiH18Si19F20Cl21Br22I表2-122种结构基元结构片段是由结构基元衍生而来的,首先要列举出结构基元上的所有可能带有的键属性,如对CH2有:CH2=,-CH2-,然后把CH3-,O=等部分只具有单一自由键的单原子基团组合到含多个自由键的基团上,ESESOC系统中对上述11种元素共有109个结构片段(见右图及下一张)。1-CH2-38O=C=75ArS2CH3CH2-39S=C=76-S(→O)-3CH2=40NH=C=77CH3S(→O)-4>CH-41N-=N+=C=78ArS(→O)5CH3CH<42C-≡N-79-S(→O)2-6(CH3)2CH-43HO-80CH3S(→O)2-7-CH=44-O-81PH2-8CH3CH=45CH3O-82PH2(→O)-9(a)ArCH46ArO83-PH-10-CH=O47NH2-84CH3PH-11-CH=S48-NH-85-PH(→O)-12-CH=NH49CH3NH-86CH3PH(→O)-13N-=N+=CH-50ArNH87>P-14>C<51>N-88CH3P<15CH3C52CH3N<89(CH3)2P-16(CH3)2C<53(CH3)2N-90>P(→O)-17(CH3)3C-54-N=91CH3P(→O)<18>C=55CH3N=92(CH3)2P(→O)-表2-219CH3C56O=N-93>P(→S)-20(CH3)2C=57S=N-94CH3P(→S)<21>C=O58(O←)S=N-95(CH3)2P(→S)-22>C=S59NH=N-96-SiH323>C=NH60N-=N+=N-97-SiH2-24>C(=N+=N-)61ArN98CH3SiH2-25CH3C(=O)-62>N(→O)-99-SiH<26CH3C(=S)-63CH3N(→O)<100CH3SiH<27CH3C(=NH)-64(CH3)2N(→O)-101(CH3)2SiH-28CH3C(=N+=N-)-65-N(→O)=102>Si<29(b)ArC-66CH3N(→O)=103CH3Si30CH3ArC67O=N(→O)-104(CH3)2Si<31(c)ArC68S=N(→O)-105(CH3)3Si-32-C≡69NH=N(→O)-106F-33CH3C≡70N-=N+=N(→O)-107Cl-34CH≡C-71ArNO108Br-35N≡C-72HS-109I-36N(→O)≡C-73-S-37=C=74CH3S-表2-22.2从分子式到结构片段集2.2.1结构基元向量的穷举生成ESESOC共有22个结构基元,若用ni表示序号为i的结构基元的个数,则称向量N(n1,n2···,n22)为结构基元向量,结构基元向量求法步骤如下:①将H分组,即把H分配到非一价元素上。②将各组原子分得的氢原子划分到本组各个原子上。③结构基元向量的穷举生成。2.2.2结构片段向量的穷举生成在ESESOC系统中共有109个结构片段,若以li(i=1,2,…,109)表示序号为i的结构片段的个数,则向量L(l1,l2,…l109)就是结构片段向量。由结构基元向量穷举生成结构片段向量可分为二步进行:①由于表2-2中1-CH2-,2CH3CH2-,3CH2=三个结构片段个数和应等于n2(即CH2的个数),所以NCH=l1+l2+l3;再计算NC=l14+l15+l16+···+l42;NCH=n3-l34,所以NCH=l4+l5+l6+···+l13;NN=n9-2×l13-2×l24-2×l28-l35-l36-2×l41-l42,所以NN=l51+l52+···+l71;如此依次将所得到的基元向量的数目分解为结构片段向量数目之和。②考虑所有的109种结构片段,便可得穷举的结构片段向量。由结构片段向量中的所有元素构成了结构片段集,要做如下测试:1.单键、双键、叁键必须成对出现;2.结构片段集里的所有结构片段自由价(再与其他原子结合的能力)之和要大于等于2n—2,n为结构片段数目。3.有芳环结构片段的应符合4n+2规则。4.其他的匹配检查如子结构约束条件。下面以C6H8N2O为例说明结构基元和结构片段向量的穷举生成过程:结构基元向量的穷举生成:①分别把8个H分配给C、N、O,共生成45种分配方式,但由于和O结合的H原子应小于等于O原子数、与N结合的小于等于N的数目乘以2,与C结合的的小于等于C数乘3,所以只剩下10种。即:C原子分配的H数N原子分配的H数O原子分配的H数第1种800第2种710第3种620第4种530第5种440第6种701第7种611第8种521第9种431第10种341表2-3②以上面的第三个结果(620)为例,将C分到的6个H原子分配到每个C上,不考虑化学因素生成11种分配方式,由于每个C上最多有3个H,所以只剩下7种:对N做同样的处理,则有NH2、N和NH、NH两种情况。对O只有O一种情况。333232222221.2.3.4.5.6.7.CHCHCCCCCHCHCHCCCCHCHCHCHCCCHCHCHCCCCHCHCHCHCCCHCHCHCHCHCCHCHCHCHCHCH③组合上述三个结果,得7×2×1=14个结构基元向量(下表)。NO.CH3CH2CHCOHOSHSNH2NHNPH2PHPSiH3SiH2SiHSiFClBrI120040100101000000000002200401000200000000000031113010010100000000000411130100020000000000005103201001010000000000061032010002000000000000703030100101000000000008030301000200000000000090222010010100000000000100222010002000000000000110141010010100000000000120141010002000000000000130060010010100000000000140060010002000000000000表2-4④对剩余的9组重复②③的过程,则可得全部的结构基元向量。结构片段向量的穷举生成:以(C6H6)(N2H2)(O)产生的14个结构基元向量中的最后一个(n3=6,n6=1,n10=2,即6个CH,一个O,二个NH)为例:①先把n3=6分解为l4,l5,···l13,其中l5(CH3CH),l6((CH3)2CH—),l8(CH3CH=),l11(—CH=S),l13(N—=N+=CH—)为0;其中l10(CH=O)小于等于n6(O)=1;l12(—CH=NH)小于等于n10(—CH=O)=2;n6(—O—)—l10分解为l44(—O—),l45(CH3O—),l46(ArO—)而l45=0;把n10—l12分解为l48(—NH—),l49(CH3NH—),l50(ArNH),而l49=0。②组合上面分解的结果,可得由该结构基元向量产生的所有结构片段向量(见下表,只列出非零值)序号非零元素1l4=6l44=1l48=22l4=6l44=1l48=1l50=13l4=6l44=1l50=24l4=6l46=1l48=25l4=6l46=1l48=1l50=16l4=6l46=1l50=27l4=5l7=1l44=1l48=28l4=5l7=1l44=1l48=1l50=19l4=5l7=1l44=1l50=210l4=5l7=1l46=1l48=211l4=5l7=1l46=1l48=1l50=112l4=5l7=1l46=1l50=213l4=4l7=2l44=1l48=214l4=4l7=2l44=1l48=1l50=1······表2-5部分结构片段向量对表2-5中的第一个结果进行测试,l4=6,即有6个CH-,自由价为3×6=18,l44=1,有1个-O-,自由价为1×2,l48=2,有2个-NH-,自由价为2×2,所以总自由价6×3+2×2+1×2=22,而2n-2=2×(6+1+2)–2=16,所以2216,通过测试可进入结构对接过程。再看第二个结果,其中l50=1,即有1个ArNH,且只有这一个芳香原子,故与4n+2规则相违背,应舍去.再看第七个结果,l7=1,即有一个–CH=,而总含双键的结构片段数目为应为偶数,应舍去。下图是表2-5中的结构片段向量经过测试后所剩的结构片段集,是最终符合要求的结构片段。l4=6,l44=1,l48=2;l4=4,l7=2,l44=1,l48=2;l4=2,l7=4,l44=1,l48=2;…………2.3整体结构穷举生成法——连接矩阵填充法由结构片段生成整体结构算法的基本策略是采用深度优先算法去搜索结构生成树,从方法上大体可分为:子结构直接扩展法和连接矩阵填充法两大类,ESESOC-I系统的结构生成算法即是子结构扩展法,可采用的比较的方法来消除结构生成树扩展过程中的不同分支间的冗余对接,但由于树扩展的中间结果的信息量非常巨大,除了一些较小的分子外是无法实现的,因而在ESESOC-II中采用填充连接矩阵法。2.3.1键性连接矩阵ESESOC-II中结构生成系统中使用键性连接矩阵表示化合物的结构,如图,其中各矩阵元的意义:0,不成键;1,单键;2,双键;3,叁键;9,芳香键。在键性连接矩阵中各