LogP,LogD对有机化合物的QSAR的研究摘要:自从20世纪60年代QSAR/QSPR研究兴起以来,人们研究有机化合物的脂水分配系数和溶解度的计算方法已经有近半个世纪.目前存在众多方法用于计算有机化合物的脂水分配系数和溶解度.相对而言,脂水分配系数的计算方法更为成熟一些,应用范围更广,效果也更好.关键词:脂水分配系数;logP/logD;QSAR1.基本概念1.1脂水分配系数的定义有机化合物的脂水分配系数(P)通常是指化合物在正辛醇和水两相间的分配系数,以其对数值来表示其大小,标记为其中Coct和Cw分别为化合物在正辛醇和水两相间达到平衡时的浓度.logP在许多QSAR研究中都是用于衡量有机化合物疏水性的重要参数.当今各大制药公司都已经将logP列为活性化合物必测的标准参数之一.通常P给出的是中性化合物在两相间的分配系数.对于可电离的化合物,情况则变得相当复杂,这时使用分配率D(distributionrate)来表示溶质在两相间总的分配系数.例如,对于可电离的溶质HA可有:其中[HA],[A-]分别代表溶质的中性状态和离子状态的浓度.D是与溶质的酸碱解离常数pKa以及溶液的pH值相关的参数.假设溶质HA是仅在水相电离的一元酸,则有:然而,如果溶质分子含有不止一个电离中心而且在正辛醇相中也是可以电离的,此时溶质在溶液中的存在形式就变得相当复杂,像公式(4)这样的简单关系就已经不再成立.对于含多个可电离基团的复杂溶质分子,D的具体表达式可描述为:这里表示溶质在溶液中的第i种离子形式,根据电离平衡关系,其在两相间的浓度与溶液pH值以及可电离基团的pKa都密切相关.1.2、QSAR研究的兴起有机化合物的定量结构一活性相关(QuantitativeStructure—ActivityRelationship)最初是作为定量药物设计的一个研究分支领域而发展起来的。早在l9世纪,人们对化学结构有了初步口识后,就有人设法建立化合物的生物活性与结构的关系。后来发现,当时归纳的所谓通用规则并不存在。到了20世纪初,人们普遍认为化合物的生物效应主要取决于它们的物理性质,如溶解度、表面张力、分配系数等Hansch(1962)和Free—Wilson(1964)运用统计方法并借助计算机建立起结构——活性关系表达式标志着QSAR时代的开始,从此成为一个相当活跃的前沿领域。QSAR之所以有如此令人振奋的发展,一方面是化学品评价的需要。据美国化学文摘(CA)统计,化学物质已达近千万种.而且已有约十万种化学物质进入了人类环境。那么这些进入人类环境的化学物质中,哪些对环境中的生物和人类有危害,危害的程度如何.怎样控制和减少危害都需要对这些化学物质进行理化性质和生物活性实验。但是,据估计仅每个化学物质的急性皮肤毒性、双周吸入毒性和二年饮食毒性三个指标的测试费用即达2900―5000万美元。所以,要对所有化合物进行毒理学、生态学的全面测试,财力上不可能,人力上也无法傲到。必须找到一种行之有效的方法进行定量计算或近似估计,QSAR则可做到这一点。2.现有主要的logP计算方法简介脂水分配系数的概念最早是由Hansch和Fujita提出的,同时他们也发展出了第一种logP计算方法.随后Rekker等提出了第一种片段加合法模型.Broto等进一步完善了Rekker模型中的片段划分策略,发展出第一种原子加合法模型.一直以来研究者们对改进和发展新的logP预测方法有着浓厚的兴趣,更多的logP预测模型相继出现,方法的准确度也不断提高.现有的logP预测方法主要可以分成两大类:片段加合法和基于描述符的方法.2.1片段加合法在过去几十年里,许多基于片段加合法的logP计算模型相继被提出,有些还实现了商业化.目前国际上比较流行的此类方法主要有:,,,,,,,以及各种方法的基本信息总结于表2中.这些方法的主要区别在于片段划分规则以及矫正项的设计.2.1.1CLOGPCLOGP是由Hansch和Leo最早发展起来的一种预测化合物logP的模型,也是目前应用最广泛的logP预测方法之一.在CLOGP模型中最基本片段的贡献值是由一些具有logP精确实验值的简单化合物(如甲烷等)推导而来的.然后其余片段的贡献值在前面的基础上由复杂化合物的logP实验数据推导而来.最值得注意的是此方法在定义片段的规则中使用了“孤立碳原子”的概念.这里一个孤立碳原子是指不与杂原子相连的碳原子,或者与杂原子相连,但是不是通过双键或叁键相连的碳原子.在较早期的CLOGP版本中使用了200种类型的片段和25种矫正项.从最早被Chou和Jurs推广应用到后来商业化的几十年中,CLOGP在学术界以及工业界得到了广泛的使用,一直以来被作为有机化合物脂水分配系数计算方法的标准.2.1.2ACD/LogPACD/LogP由ACD/Labs公司研发,也是目前最常用的计算有机化合物logP值的商业软件之一.ACD/LogP算法考虑基本原子类型、特征结构片段以及加入不同片段之间的相互作用矫正项.ACD/LogP所使用的片段分类规则与CLOGP有所不同,定义的特征结构片段超过1200个.分子内相互作用矫正项依据相互作用的末端基团类型及相互作用体系的片段长度和类别进行划分,包括超过2400对基团的相互作用.以上每一项的贡献值通过对ACD/Labs内部数据库(18400个化合物)的logP实验值进行统计分析获得.ACD/LogP的计算方法可用下述方程表示:其中fi表示提问分子第i种片段的贡献,Qj表示提问分子第j种特殊片段的贡献,,和分别表示提问分子被k个数目的脂肪类、乙烯基类和芳香类原子分隔的第i种和第j种片段的相互作用矫正项贡献值.ACD/LogP的基本计算步骤如下:(1)结构分割和计算f值,缺失的片段使用原子加合法计算;(2)计算值,没有相互作用的片段使用类似于Hammett方程的方式计算;(3)加合所有f和值.目前ACD/Labs还发展了计算可电离化合物logD值的功能,但是其具体算法未见公开报道.2.1.3KOWWINKOWWIN是由Meylan和Howard发展的基于原子类型和特征片段加合法估算有机化合物logP值的模型.模型中使用的13062个化合物的logP实验数据中有9500个来自CLOGP方法所使用训练集中较为可靠的数据.这些数据划分为一个训练集,包含2473个简单的有机分子;另一部分作为测试集,包含10589个简单、中等以及复杂的分子.在建立KOWWIN模型的过程中,使用两步多元线性回归分析来给出片段以及矫正项的贡献值.首先不考虑矫正项,仅采用简单化合物作为训练集通过回归分析得出每种特征片段的贡献值.其后再使用包含复杂化合物的训练集,在前一步结果的基础上,以仅由特征片段的贡献值估算的logP值与实验值的差值进行回归分析,得出每种矫正项的贡献值.目前最新版本的KOWWIN方法使用150种原子类型和特征片段以及250种矫正项.模型可表达为:其中分别是提问分子中第k种原子或片段对logP的贡献值和数目;Fj,Nj分别是提问分子中第j种矫正项对logP的贡献值和出现次数.0.229是多元线性回归得出的常数.最近Meylan等提出一种改进策略.他们在KOWWIN方法中应用了“experimentalvalueadjusted(EVA)”算法,其基本思想是:对于提问分子,可以使用一个logP实验值已知的类似物作为参考分子.但是由于在他们的方法中参考分子必须由用户自己指定,使用起来很不方便.2.2基于描述符的方法当溶质分子在正辛醇和水两相间平衡时,根据热力学循环可以得出以下关系式:上式中代表溶质分子在两相之间迁移的自由能变化,和分别表示溶质在正辛醇相及水相中的溶剂化能.理论预测在溶液中的自由能变化相当难,因此一般都是从形成这一过程的物理化学影响因素归纳出一些描述符来经验地估算logP.自Rogers等提出第一个基于描述符的logP计算模型至今,此类方法已有多种见诸报道,见表三,使用的描述符主要包括经验描述符、拓扑描述符以及代表分子3D结构的描述符.根据描述符的来源,这些方法又可分为多种类型.2.2.1BLOGP早期出现的一种基于描述符的方法是Bodor等发展的BLOGP方法.这种方法使用原子部分电荷、偶极矩和描述分子大小的参数等作为描述符.该种方法在建立模型时首先需要优化训练集中化合物的三维结构,然后再使用AM1法计算各描述符的取值,最后采用线性回归方法来获得每个描述符对脂水分配系数的贡献值.其早期报道的结果仅适用于含有C、H、O、N原子的化合物,具体的计算公式如下:其中各描述符分别为:S表示分子的表面积;O为分子椭圆度;是指烷烃指示变量(分子为烷烃数值为1,否则为0);MW为分子量;D为偶极矩估算值QON是分子中氮氧原子电荷绝对值的加合;QN是所有N原子上电荷平方和的均方根;QO是所有O原子上电荷平方和的均方根.该模型样本数n为118费舍指数F为115,实验值与预测值之间的相关系数r为0.9388,标准误差SE为0.296,自由度dof大小为104.与片段加合法相比,此种方法使用的描述符数量大大减少.但是BLOGP方法的计算效果不是很好,可以适用的化合物非常有限.另外,BLOG方法所采用的计算公式物理意义不明确,为了提高统计结果引入了非线性项,这种做法并不值得推荐2.2.2MLOGP在目前计算logP的方法中有一系列方法是基于分子结构的拓扑描述符.使用拓扑描述符的一大优点是计算速度快,对于处理较大的数据集非常有效.MLOGP是较早出现的此类方法,由Moriguch等提出.在MLOGP模型中亲脂基团数目(CX,分子中碳原子和卤素原子的总数)和亲水基团数(NO分子中所有氮氧原子数之和)是两个最基本的描述符.单独使用CX和NO描述符就可使所研究的1230个化合物中73%的估算值处于可信范围内.此外再结合其它11个矫正项,估算值的可信范围可覆盖达91%.这些参数描述邻位作用、分子不饱和度、两性特征以及其他官能团信息.MLOGP模型的具体计算公式如下:其中参数PRX用来描述氮氧原子的邻近效应;UB为不饱和键总数;HB描述分子内氢键的影响;POL为芳环上的极性取代基数目;AMP描述分子的两性特征;ALK为描述烷烃、烯烃、环烷烃或环烯烃的参数;RNG描述分子中所含的环结构;QN为关于季胺的参数;NO2为分子中所含硝基的数目;NCS为硫氰基和异硫氰基的数目;BLM描述分子中存在的β-内酰胺结构.该模型采用的样本数n为1230,结果显示实验值与预测值之间的相关系数r为0.952,标准偏差s为0.411,费舍指数F0(13,1216)达到900.4,表示在MLOGP研究范围内,使用公式(17)计算logP有相当高的精度.MLOGP方法也可用于估算有机化合物的水溶解度,目前此方法已被应用于某些软件的ADMET性质计算模块中.2.2.3SLIPPER考虑到分子尺度和氢键强度对分子logP的重要性,Raevsky等发展的SLIPPER方法使用极化率琢和氢键受体强度移Ca两个描述符来估算2850个简单化合物的logP值,基本计算方法如下:但是使用以上公式计算多官能团化合物时碰到了问题,主要是分子间相互作用存在影响.于是Raevsky等使用结构相似的化合物的有关信息来矫正logP,即:这里N表示相似邻近化合物数目,和分别是第j个类似化合物的logP实验值、极化率和氢键受体强度总和.发展该模型所使用的训练集包括10937个已知logP实验值的化合物.SLIPPER同时也采用了类似的方法可以用于估算溶解度logS.2.2.4ALOGPSALOGPS方法由Tetko等提出,是目前基于描述符的logP计算方法中的代表工作.该方法使用电子状态拓扑指数作为描述符.电子状态拓扑指数考虑原子的价层电子状态和化学拓扑环境,已被成功地用于建立研究有机化合物的物理化学性质以及生物活性等多种QSAR模型.自从第一个ALOGPS模型在1999年提出以来,该方法已经进行了多次改进.第一个ALOGPS模型建立时使用了32种原子类型的描述符,使用了345种类药化合