题目:In Silico Prediction and Insights Into the Structural Basis of Drug Induced Nephrotoxicity

期刊 | 日期:05 January 2022

DOI: 10.3389/fphar.2021.793332

简括:建立机器学习模型的经典流程,值得注意的是包括化合物特征提取,模型建立/评价都是在online chemical database and modeling environment (OCHEM)平台完成的。文章建立的模型也上传到该平台中:https://ochem.eu/article/140251

1、收集数据

1.1 标签数据

如下,最终收集到565个药物(287, 278)

(1)阳性数据,即肾毒性药物,收集自SIDER数据库:drugs with nephrotoxicity related ADRs with frequency ≥0.1%

(2)阴性数据,即无肾毒性药物参考2019年Zhang等预测模型所使用的阴性药物;

(3)筛选不合适的药物:去重、混合物主要成分、salt → parent form

1.2 特征数据

基于OCHEM平台,计算8种分子描述符(molecular descriptors)

  • Chemaxon descriptors (Chemaxon, 499 descriptors)
  • Fragmentor
  • GSFrag descriptors (GSFrag, 1,138 descriptors)
  • MORDRED descriptors (MORDRED, 1826 descriptors),
  • PyDescriptor (1,624 descriptors),
  • QNPR descriptors (QNPR)
  • RDKit descriptors (RDKit)
  • alvaDesc descriptors (5,666 descriptors)

对于深度学习模型,直接使用SMILES字符串作为每个化合物输入

2、训练模型

2.1 模型算法

(1)5种机器学习模型

  • associative neural network (ASNN)
  • support vector machine (SVM)
  • C4.5 decision tree
  • random forest (RFR)
  • extreme gradient boosting (XGBoost)

(2)5种深度学习模型

  • convolutional neural network fingerprint (CNF)
  • transformer convolutional neural network (TRANSNN)
  • TEXTCNN algorithm available from DeepChem (TEXTCNN)
  • Graph Isomorphism Network (GIN)
  • edge attention based multirelational graph convolutional networks (EAGCNG)

2.3 评价指标

AUC

total accuracy(Q)

sensitivity(SE)

specificity(SP)

enrichment factor(EF)

Matthews correlation coefficient(MCC)

2.2 数据集划分

(1)如下划分出训练集与验证集:

image-20230210191836660

(2)经降维分析,发现两组数据分布均匀。

image-20230210192015700

2.3 训练模型

  • 使用训练集,经5折交叉验证训练出40个机器学习模型(5×8)与5个深度学习模型
  • 基于Q>0.7, AUC>0.8发现3个最优模型:2个ML(XGBoost_QNPR, RFR_QNPR)与1个DL(CNF)
  • 使用上述3个Top模型进行consensus modeling,即3个模型预测结果的均值,性能有较大提示。

2.4 验证模型

  • 对上述3个Top模型以及consensus模型进行测试集验证,发现还是consensus模型较优。
image-20230210193027168 image-20230210193147751