王领教授课题组开发基于基序图的化学语言大模型用于分子毒性识别
发布人:谭晓慧    发布时间:2024-07-22    浏览次数:203

近日,我院王领教授课题组在Journal of Hazardous Materials(IF=12.2)期刊上发表题为“3MTox: A motif-level graph-based multi-view chemical language model for toxicity identification with deep interpretation”的研究论文,2022级硕士生朱莹莹为论文的第一作者,王领教授为通讯作者。

毒性识别在维护人类健康方面发挥着关键作用,因为它可以提醒人类注意长期接触各种化合物可能造成的危害。确定毒性的实验方法耗时长、成本高,而计算方法则为早期识别毒性提供了另一种选择。例如,一些经典的机器学习(ML)和 深度学习(DL)方法在毒性预测方面表现出色。然而,这些方法也存在一些缺陷,如过度依赖人工特征、容易过度拟合等。提出具有卓越预测性能的新型模型仍然是一项紧迫的任务。

在本研究中,我们提出了一种基于基序图的多视图预训练语言模型,即3MTox模型,用于毒性识别。3MTox模型以来自变换器的双向编码器表示(BERT)为骨干框架,以基序图为输入。大量实验结果表明,我们的3MTox模型在毒性基准数据集上取得了最先进的性能,并优于所考虑的基线模型。此外,该模型的可解释性实验证明它能快速、准确地识别给定分子中的毒性位点,有助于分子毒性状态的确定和相关分析。综上所述,我们认为3MTox模型有望成为目前最有前途的毒性识别工具之一。

图1. 基序图的定义、获取和初始化

我们直接使用来源于实验室先前研究中的预训练分子语料库(∼145万)。分子图中的键和环被定义为基序,以控制其词汇量的大小和多样性。每个分子中的键和环被提取出来,去除重复的键和环,形成最终的基序库(图1a)。基序被定义为新的节点,基序之间的键被定义为新的边,构成基序水平的分子图。此外,我们还添加了一个全局虚拟节点,以收集整个图的信息(图1b)。我们使用原子特征和键特征来初始化基序的表示。  

图2. 3MTox算法的框架

3MTox模型的框架如图2所示,图的左半部分说明了算法的预训练阶段。在这一阶段,用于预训练的分子语料库中的每个分子都会被转换成一个基序图(motif-level graph),并设计了一个多视图任务作为模型的预训练策略,其中包括一个对比学习任务和一个掩码基序预测任务。右半部分则展示了算法的微调阶段。在这一阶段,我们将编码器从预训练模型中移出,并添加两层全连接神经网络(称为预测头),再根据不同下游任务对模型进行微调。

我们全面比较了3MTox与基线模型在毒性识别方面的性能,基线模型包括CML模型、图神经网络以及一些经典的预训练模型。为科学评估模型的性能,我们使用随机和骨架两种数据拆分方式。在随机拆分部分,3MTox模型在Tox21、ToxCast和ClinTox上的平均AUC值最高,在SIDER数据集上的性能排名第二(图3a)。此外,3MTox模型在四个毒性数据集上的整体表现也是最好的,AUC为0.804(图3b)。在骨架拆分部分,3MTox模型在ToxCast和 ClinTox上取得了最佳性能,在Tox21和 SIDER数据集上的性能排名第二(图3c)。此外,它的整体性能也是最好的,AUC为0.748(图3d)。


图3. 3MTox与基线模型在毒性数据集上的性能比较


图4. 3MTox的消融实验研究结果

为了证明预训练提高了3MTox模型在毒性预测方面的准确性,以及对比学习模块、掩码预测模块和掩蔽率对模型性能的影响,我们进行了一系列消融实验。图4a详细比较了预训练模型和未预训练模型的结果,在相同的超参数设置下,预训练的3MTox模型在所有毒性基准数据集上的表现都优于未预训练的模型。图 4b 显示了无对比学习模型(w/o CL)、无掩码预测模型(w/o MP)和3MTox模型在四个毒性数据集上的性能比较,可以明显看出,多视图任务比单视图任务的整体表现更好。图3c展示的是掩蔽率分别为0.0、0.15和0.30条件下模型的性能,我们发现掩蔽率为0.15的模型整体表现最佳。上述结果表明,预训练有助于3MTox模型从基序图中提取有效的分子表征,而对比学习模块和掩码基序预测模块在训练过程中学到的信息可以互补,从而帮助模型学习到更丰富的化学信息。  

图5. 基于可视化的分子表征分析

我们使用经典的降维方法t-SNE来可视化分子表征的高维向量。图5显示,从非预处理模型中得到的分子表征分布是混乱的,而经过预训练的 3MTox模型则成功地将聚集在一起的有毒分子和无毒分子分开并正确预测。这些结果表明,预训练可以提高模型的性能,然后模型可以从分子结构中学习到重要的化学信息。


图6. 基序相似性分析

我们以ClinTox数据集中的一个有毒分子为例,构建了基序相似性矩阵热图,用于基序聚类分析。如图6a所示,热图中红色的深浅表示基序对之间相似性的高低,数据代表相似性得分。我们发现基序1与基序 11和13的相似性最高,分别代表羰基和羟胺基。这两个基团在形成氨基酸的生化反应中必不可少。重要的是,涉及氨基酸类似物的许多生化反应也是毒性机制的关键途径。通过比较全局基团与其他基团(即构成分子的子结构)的相似性,经过预训练的3MTox模型可以准确定位到分子特定的毒性位点。

图7. 分子相似度排序分析


图8.分子的注意力权重分析


为了进一步研究3MTox模型获得的分子表征所包含的语义信息,我们计算查询分子与其他分子的相似性得分并对分子进行排序。我们使用 ClinTox数据集的测试集(149个分子)来分析分子表征的相似性,以一个有毒分子为例,经过计算相似性得分和排序得到的3个分子,具有相似的结构和相同的毒性状态。无毒分子也得到了类似的分析结果。分子表征相似性排序的实验结果表明,我们的3MTox模型可以到学习包含语义化学信息的分子表征。

了解分子结构与性质之间的关系有助于分析和优化分子,将分子的注意力权重可视化是最常用的方法之一。我们选择三个有毒分子和三个无毒分子,我们发现毒性分子中的羟胺基团、卤素和硫原子受到了更多的关注,羰基和胺是产生氨基酸的生化反应所必需的,而涉及氨基酸类似物的许多生化反应是毒性机理的关键途径。而卤素和硫原子通常会产生高活性的正碳离子。无毒分子中也包含一些酰胺基团、羰基和胺结构,不过,这些结构位于中间位置,周围附着稳定的原子,分子中也缺少可产生活性基团的硫原子或卤素原子。活性位点的缺失自然阻止了分子发生化学反应以产生进一步的毒性,这也与分子的毒性状态相一致。这些结果表明,3MTox模型可以合理分配注意力权重,准确识别分子中的毒性位点,从而预测其毒性。这对于早期筛选功能分子,尤其是药物非常重要。

总而言之,3MTox作为一种开箱即用、有效且可解释的计算工具,可用于分子毒性预测相关的任务。作者期望3MTox作为强大的深度学习工具,可以帮助化学家识别分子中特定的毒性位点,从而设计出具有预期特性或功能的分子。

上述研究结果得到广东省自然科学基金(2023B1515020042)和国家自然科学基金(81973241)的支持。

原文链接:https://doi.org/10.1016/j.jhazmat.2024.135114

代码链接:https://github.com/idrugLab/3MTox


温馨提示×
生物科学与工程学院院务公开信息敬请登录学校统一门户“本单位动态”栏查看。谢谢!
统一门户 >>