第十章结构信息的采掘与QSARChapter10.StructuralDataMiningandQSAR10.1如何采掘结构与物性数据10.1.1QSAR中常用的结构参数10.1.2结构参数的理论计算方法10.1.3Internet上的结构化学信息资源10.2定量构效关系(QSAR)研究简介10.2.1多元线性回归(MLR)10.2.2模式识别方法10.2.3人工神经网络(ANN)10.2.43D-QSAR研究简介Contents第十章目录关键词超连接QSAR结构参数拓扑特征几何特征电子特征理化特征谱图特征原子电荷搜索引擎化学资源导航系统化学结构数据库Rasmol多元线性回归Hansch方程疏水效应π电子效应σ立体效应Es模式空间原始数据矩阵生物活性指标协方差矩阵相关矩阵监督模式识别无监督模式识别主成份分析(PCA)非线性映射(NLM)聚类分析谱系图人工神经网络(ANN)网络结构3D-QSAR静电场立体场结构与性能的关系是结构化学的重要内容,也是化学中一个带有根本性的基础理论问题.我国著名化学家徐光宪院士在2002年提出了“21世纪的四大化学难题”,其中第二个就是如何建立结构和性能的定量关系,认为这是解决分子设计和实用问题的关键.这方面的内容涉及多种学科,如化学信息学、计算量子化学、化学计量学等,所以,本课程只作一些扼要的介绍.10.1如何采掘结构与物性数据认识到化合物的性质与其结构相关并可借数学来描述是19世纪后期的事.20世纪40年代,Hammett提出线性自由能关系,开定量构效关系(quantitativestructure-activityrelationship,QSAR)研究之先河.但真正推动构效关系研究大规模开展的是Hansch等人在20世纪60年代对药物分子QSAR的创造性研究.众所周知,药物研发的费用惊人.近年来国际上统计:研制成功一种新药,平均需要花费10~12年时间,耗资2.0亿~3.5亿美元,且费用以每年20%的速度递增.究其原因,主要是缺乏深入的理论指导.目前,世界药物市场的年销售额约3000亿美元,计算机辅助药物设计(CADD)自然就成为国际上十分活跃的研究领域,其基础是计算化学和计算生物学.20世纪70年代,Kowalski和Bender用20个结构参数对200个化合物(其中87个有抗癌活性)进行分类,正确率达90%左右;Chu等用51个变量来识别188个药物的抗癌活性,并对24个未知化合物进行预报,成功率达83%~92%.Ohtaka研究治偏头痛新药lomerizine,Praha和Kuchar等人研究治风湿性关节炎新药flobufen,都是利用经典QSAR的成功实例.农药研究也有一些成功的实例.其中很有代表性的一例是:科学家从海洋生物异足索沙蚕及马陆中分离出结构简单而毒性极大的沙蚕毒素后,式田制药厂经过构效关系研究,终于从几百种类似物中发现了对哺乳动物几乎无毒性的高效广谱农药Padan.1972年年产量达15000吨,占日本杀虫剂总消耗量的20%,且大量出口.NSSNSCONH2SCONH2沙蚕毒素Padan顾名思义,构效关系(或构性关系)研究是用某些数学方法将结构参数与活性(或物性)数据关联起来:结构参数物性QSAR/QSPR合成应用物性结构这种关系可以看做是下列循环中的一部分:构效关系研究既使用演绎法,也使用归纳法.这是两种不同的科学研究方法,但并不是相互排斥的关系,而是相辅相成的.两种方法常常交替使用.例如,用演绎法计算各个分子的结构参数,再用归纳法探索和总结分子结构与性质之间的关系,进而对新化合物的性质作出预报.拓扑特征反映了分子中原子及化学键的类型、数目以及它们在二维平面上的连接关系,描述拓扑特征常常使用基于拓扑矩阵的拓扑指数.半个多世纪来,已经提出了100多种拓扑指数,在QSAR研究中用的较多的有分子连接性指数、Randic分枝指数等.结构参数也称为变量、特征或描述符.常用的特征大体可分为以下几类:10.1.1QSAR中常用的结构参数几何特征分子的几何特征可以看作是由分子三维模型派生出来的,例如分子体积,分子表面积和分子立体参数等.电子特征计算这类参数往往是量子化学最好的用武之地.所以,电子特征多半是量子化学参数.例如:分子轨道的本征值(包括HOMO能级与LUMO能级)、原子电荷、偶极矩、极化度、超离域度、键级、电负性、电荷-半径比,等等.理化特征可用物质的物理化学参数来描述,如疏水参数、熔点、沸点、蒸气压、溶解度等.谱图特征例如,化合物在13C-NMR谱上的化学位移δ,质谱上的质荷比m/e,红外、紫外光谱上的吸收峰波数,等等.例如,某类物质的无机化学组成及有机化学组成,某些元素含量的比值等.化学组成结构参数可以用仪器测量或理论计算获得.首先简单介绍结构参数的理论计算方法.目前的计算化学程序可以计算出分子的大部分拓扑特征、电子特征、几何特征和谱图特征;有的程序还包含某些经验性的计算方法,可以计算理化特征.10.1.2结构参数的理论计算方法拓扑指数的手工计算很繁琐,所以发展了一些计算程序.例如,TOPIX就是一个这样的小型程序,从这个界面就可以看出,它能计算多种拓扑指数。有些计算化学程序可以计算分子的体积、表面积等几何参数,例如HyperChem.只要进入菜单ComputeQSARProperties…,从下列对话框选择即可:Gaussian98W如前所述,计算电子参数是量子化学最好的用武之地,可用的程序非常多。例如,Gaussian03(或98W)程序具有多种复杂的计算功能.原子电荷用颜色显示用数值显示有的软件可以计算某些物理化学参数。例如,下图是用HyperChem计算的Aspirin的疏水参数LogP:许多软件能够计算化合物的某些光谱、波谱数据或谱图,如IR、Raman、UV、ESR、NMR等.下图是用HyperChem计算的乙醇振动光谱:有些软件,如Cerius2,还能给出X射线衍射谱(XRD)的模拟谱图:020040060080010001200140016001800200019001945197019751980198519902000我们已进入21世纪这样一个信息时代,化学又是一门具有海量信息的学科.据美国化学文摘社(CAS)2002年美国东区时间12月4日的数据,共登记了20,690,052种有机和无机物质,24,037,773种序列(各种异构体).Internet为化学工作者开展研究和相关领域合作提供了前所未有的机会,本节扼要介绍网上结构信息资源.各年代己知化合物数目(万种)10.1.3Internet上的结构化学信息资源郑重声明:本书引用的各种网页,均已注明网址,网页版权完全属于各自网站所有.引用目的仅用于教育,以便于向学生介绍和推荐,点击画面即可访问.若有的网站不愿意被介绍和推荐,请与编著者联系,我们将在本书修订时从中删去.通用资源搜索引擎与化学资源导航系统Internet是一个信息海洋,如果没有一种有力手段,查询信息无异于大海捞针.这种手段就是使用搜索引擎(searchengine),只要你给出主题词,即可迅速在千万计的网页中找到所需信息.目前,化学家可用的搜索引擎大致有两类:一类是通用资源搜索引擎,另一类是针对化学学科或某个相关主题系统收集而成的Internet化学资源导航系统。通用资源搜索引擎通用资源搜索引擎很多,多数已为人们熟知.例如,被广为使用的Yahoo,其化学资源在/science/chemistry著名的搜索引擎还有:Google百度://等等.Google化学资源导航系统化学资源导航系统也很多,仅举数例:国内有影响的化学资源导航系统有中国科学院化工冶金研究所计算化学开放实验室在联合国教科文组织UNESCO支持下建立的ChIN的Web主页.中国科学院计算机化学开放实验室与中国科学院上海有机化学研究所的网页的化学网站导航也提供了许多链接.国外提供化学资源链接或查询的网站更多,例如,从美国加州大学洛杉矶分校(UCLA)化学和生物化学系网站提供的链接,可以很快找到大量的化学信息.中国科学院化工冶金研究所计算化学开放实验室化学信息资源导航系统ChIN(新版本)它注重收集:1.主要工具及基本信息:化学数据库“ChemicalDatabases”化学软件“ChemicalSoftware”化学会议信息“MeetingListinChemistry”化学类机构与学术团体信息“ChemicalOrganization”化学讨论组介绍与加入方法“IntroductiontoChemicaiMeetingList”专利信息和网上免费专利信息查询“PatentServicesandInformationonInternet”图书信息“Books”2.化学在Internet上的最新应用:化学类电子杂志“ElectronicJournalsinChemistry”化学类电子会议“ElectronicConferencesofChemistry”化学品及其生产厂商在线目录“ChemicalManufacturesandSuppliers”重要的化学科技与新闻“ImportantNews”中国科学院计算机化学开放实验室中国科学院上海有机化学研究所美国加州大学洛杉矶分校(UCLA)化学和生物化学系从该网站提供的链接,可以很快找到大量的化学信息.在化学信息数据库中,化学结构数据库占有很大的比例.如果熟悉这些网站或数据库,不必使用搜索引擎就可直接链接.本节摘要介绍,以供参考.化学结构数据库美国国家标准与技术研究院(NIST)开发:ChemistryWebBook包含6500多种有机和无机化合物的热化学数据;9800多种反应的热化学数据;8700多种化合物的IR谱;12600多种化合物的MS谱;400多种化合物的UV/Vis谱;4100多种化合物的电子与振动光谱;600多种化合物的双原子分子光谱数据;16000多种化合物的离子能数据,等等.印第安那大学分子结构中心晶体结构和分子图来源中国科学院计算机化学开放实验室曼彻斯特大学-结构化学部实验室主要内容为计算化学与分子模型维也纳大学-理论化学学院辛辛那提大学-OBR计算机辅助分子设计中心国际晶体学联合会剑桥晶体结构数据中心剑桥晶体结构数据中心(CCDC)设在剑桥大学化学实验室.其中的核心数据库——剑桥结构数据库(CSD),提供180000种有机与金属有机化合物方面的晶体结构数据,每个条目由1D、2D、3Dinformation组成.布鲁克海文蛋白质数据库蛋白质、DNA、RNA、病毒、碳水化合物等生物大分子的3D结构数据库,含原子坐标、一级序列与二级