药物及生物活性小分子发现与分子设计3124SwissTargetPredictionDDI-CPISEPPA2.0ProTox5总结与展望SwissTargetPrediction映射活性小分子的目标分子可以预测潜在机理和副作用——用于生物活性小分子靶点预测生物活性小分子连接到蛋白或者大尺寸目标分子来调节生物活性:SwissTargetPrediction——用于生物活性小分子靶点预测•特点:–结合2D和3D相似性测量;–预测可针对五个不同生命体;–数据集包括280381个小分子与2686个目标相互作用,其中66%的目标是人类的;•3D相似性计算:•18维特征实数向量:–每个分子通过ChemAxonmolconvert工具生成20个同分异构体;–超过20个时,选择能量最低的构象;不足20个时,则选择全部构象;•Manhattan距离:–构象x和y特征的曼哈顿距离计算公式:–最终的3D相似值计算公式:–dij是20×20组里最小曼哈顿距离,所以s’1是其中最大值。ijd1811/1s'1SwissTargetPrediction——用于生物活性小分子靶点预测•2D相似性计算:•指纹描述分子:–分子指纹是一个多“位(bit)”的编码,每一位代表着某种预定义的子结构;–如果该子结构在某分子中存在;其分子指纹的对应位就是1,否则就是0;•谷本(Tanimoto)系数定量:–Tanimoto系数介于[0,1]之间;–如果A和B完全相同,交集等于并集,值为1;如果没有任何关联,交集为空,值为0;–对于分子指纹进行按位计算。FP3分子指纹Tanimoto系数公式s’2=SwissTargetPrediction——用于生物活性小分子靶点预测序号结构名称………………7(=S)thioaldehyde8C(=)thioketone9=N()imine10C()=()hydrazone11C()=()C(=)()Semicarbazone………………•结合3D和2D相似性得到预测分数:–3D相似阈值:s’10.65;2D相似阈值:s’20.3–正则化:s1=(s’1-0.65)/(1-0.65),s2=(s’2-0.3)/(1-0.3)–靶点预测分数(逻辑回归):f(s1,s2)=(1+exp[-a0-a1s1-a2s2])-1SwissTargetPrediction——用于生物活性小分子靶点预测Numberofheavyatomsa0a1a2=10-3.2624131746.3228547796.56839400211-3.725351535.0954835426.41758994112-3.8379458324.9121606626.66216258713-4.1651451175.4346988276.38604761514-4.0981548845.0717288735.88015397915-4.3291058824.8566110165.7806274916-4.3154107024.486022735.75747331517-4.7482601054.8210089536.427766956……………………•Precision(精确度)-预测分数曲线:–该服务器中的所有分子根据分子尺寸进行分组,每组有一个随机组成的1000个分子的子集用来评价精确度;–采用留一交叉验证法:通过和其他配体分子比较,每个分子进行预测;–靶点的精确度曲线:真阳性个数/同一组所有分子的预测目标分子个数;–根据曲线将目标分数映射到可能性值。可能性仅仅是基于交叉验证得到的结果,并不代表真实的预测正确可能性SwissTargetPrediction——用于生物活性小分子靶点预测•交叉验证:–在给定的建模样本中,拿出大部分样本进行建模型,留小部分样本用刚建立的模型进行预报,并求这小部分样本的预报误差;–K折交叉验证:初始采样分割成K个子样本,一个单独的子样本被保留作为验证模型的数据,其他K-1个样本用来训练,交叉验证重复K次,10折交叉验证最为常用;–留一验证:只使用原本样本中的一项来当做验证资料,而剩余的则留下来当做训练资料SwissTargetPrediction——用于生物活性小分子靶点预测ProstaglandinG/Hsynthase前列腺素合成酶Estrogenreceptor雌激素接收体Chlorotrianisene妇女因雌激素缺乏所引起的症状男性前列腺增生抑制尿酸转运蛋白重吸收Microtubule-associatedproteintau微管相关蛋白Muscleblind-likeprotein盲肌蛋白LesinuradSelexipagCannabinoidreceptor大麻素受体Adenosinereceptor腺苷受体PGI2(前列环素)激动剂•目的:–药物-药物相互作用(DDIs)可能导致严重的副作用,一些DDIs和药物-蛋白相互作用有关,因此分析药物-蛋白相互作用组(CPI)结构来预测DDIs是有价值的;•创新点:–根据上传分子的CPI构象,预测DDIs;–不集中在单一药物-蛋白相互作用,而是考虑了对于所有目标分子•优势:–同时预测PK(药代动力学)蛋白和PD(药效动力学)蛋白导致的DDIs;–预测模型的生物学原理简单;–交叉验证和独立验证中预测精度高,AUC达到0.85;–错误的配体-蛋白复合物偶联能被该预测方法最小化;——根据药物-蛋白相互作用组预测药物联合作用DDI-CPI•ROC曲线和P-R曲线:–ROC曲线:以真阳性率为纵坐标,假阳性率(1-特异度)为横坐标;–P-R曲线:以精确度为纵坐标,召回率(真阳性率)为横坐标;–根据曲线位置或曲线下面积(AUC)进行比较。预测10合计实际1TruePositive(TP)FalseNegative(FN)ActualPositive(TP+FN)0FalsePositive(FP)TrueNegative(TN)ActualNegative(FP+TN)合计PredictedPositive(TP+FP)PredictedNegative(FN+TN)TP+FP+FN+TN真阳性率(召回率):TPR=TP/(TP+FN)被正确判定的正例占总的正例的比重假阳性率(1-特异度):FPR=FP/(FP+TN)被错误判定的负例占总的负例的比重真阴性率(特异度):TNR=TN/(FP+TN)衡量类别0的判定能力精确度:Precision=TP/(TP+FP)被判定的正例中真正的正例样本的比重——根据药物-蛋白相互作用组预测药物联合作用DDI-CPI•逻辑回归模型:——根据药物-蛋白相互作用组预测药物联合作用DDI-CPISigmoid函数表示取1的概率θ的求解理论依据:极大似然估计;方法:梯度下降法三个步骤循环更新θ•Version1.0→Version2.0•改进:–采用逻辑回归模型代替先前的简单相加模型;–在集聚系数和倾向系数外,添加了ASA(可及表面积)和综合氨基酸指数。•优点:–相较SEPPA1.0,在灵敏度相同的情况下,SEPPA2.0假阳性率显著下降。–PEPITO,SEPPA1.0,DiscoTope-2,B-pred和Bpredictor五种服务器与SEPPA2.0进行比较,SEPPA2.0平衡精度最高,AUC值最高。Bpredictor和Epitopa只能在给定阈值显示最佳效果。–SEPPA2.0在平衡灵敏度和特异性、降低假阳性率的同时保证较高的预测精度。——用于蛋白抗原空间表位预测SEPPA2.0(a).抗原表位预测的结果页(b).抗原残基的抗原性预测——分数(c).比较SEPPA图解和相关表位区域•目的:–为了减少实验成本和之后药物开发失败的风险,使用计算机模拟药物毒性具有强大优势;•创新点:–分析已知半数致死量(LD50)化合物的2D相似性和有毒碎片识别•优势:–预测方法快速;–每个季度数据更新、服务器升级简单快速;–外部数据集检验表明ProTox比其它毒性预测性能更好——计算机模拟啮齿动物口服毒性ProTox用交叉验证检验ProTox相对TOPKATR的性能。整体命中率和单独ProTox命中率毒性分类,FP24(橘色),ECFP4指纹(黄色)和TOPKATR(蓝色)。对于FP24和ECFP4分别用0.7和0.5的Tanimoto相似性阈值。•药物预测可以减少实验成本;•预测方法主要是相似性的识别,非常依赖于已知药物的特性,但是耗时非常短;•在预测非常新的药物时结果较差,可以结合分子动力学模拟进行预测,对于已知性质要求低,但运算速度非常慢。总结与展望谢谢