Nat. Commun. | 识别药物靶点的贝叶斯机器学习方法

网友投稿 782 2022-05-29

1

研究背景

药物研发是一个耗费大量金钱和时间的过程,从实验室中的小分子到获得批准的药物平均需要花费15年时间和26亿美元,其中的瓶颈之一是确证候选分子的靶标。通过计算的方法能够大大的减少药物靶点识别所需的工作和资源。传统的识别靶标的方法需要大量的已知信息以及较高的计算能力等。除了传统的方法,也有新的计算方法使用治疗后基因表达变化和副作用等数据来预测药物的新机制。然而,大多数的方法所用到的数据类型过于单一,容易受到数据特定噪声的影响,实用性和准确性也有待提高。最近,有越来越多的方法试图在基于相似性或数据驱动的框架内集成多种不同的数据类型。然而,这些方法存在一些局限性:

使用给定化合物的已知靶标作为输入,限制了对未知化合物的预测能力。

经常使用基于基因的相似性特征,这种方法倾向于发现与已知药物靶点关联紧密的基因,不利于发现不同类型的靶标(基因)。

除化合物结构之外,大多数模型仅集成一个或两个数据类型。

许多依赖复杂数据类型的集成算法很难适应新的信息源。

大多数人只在少数药物上评估了他们的方法(<500钟),没有经过广泛的实验验证。

图1 联合多种数据类型预测共享靶标药物对的方法原理图

2

方法

2.1

数据集

生长抑制数据

文中使用来自National Cancer Institute's Development Therapeutics Program(NCI-DTP)的生长抑制数据。从cellminer.com(1.6.2版本)下载。

Nat. Commun. | 识别药物靶点的贝叶斯机器学习方法

基因表达数据

所有治疗后基因表达数据均来自Broad Connectivity Map (CMap)项目。从Broad CMap Portal下载。

不良反应

副作用从SIDER数据库下载。使用MedDRA(16.1版)字典对每种副作用进行分类。

生物测定/化学结构

所有生物测定结果和化学结构均从PubChem下载,并根据每个小分子的PubChem Compound Identification(CID)进行组织。

已知药物靶标

从DrugBank数据库中提取所有已知药物靶标(4.1版)。

2.2

计算和实验

计算相似性分数

生长抑制数据,对每一对药物计算pearson相关系数;基因表达和化学基因组适应度评分,使用pearson相关系数来衡量两种药物的相似程度;生物测定,根据Pubchem提供的数据,所有生物测定均分为阳性或阴性。jaccard指数是根据两种药物共有的阳性化验次数计算出来的。要求每个药物对至少在一个类似的试验中进行了测试,以计算相似度评分;化学结构,为每个药物提取同分异构的SMILES,并使用atom-pair方法计算了两种化合物之间基于DICE系数的结构相似性;不良反应,使用SIDER2数据库,提取出每种药物的“preferred term”副作用。然后计算每个药物对共有的副作用的jaccard指数。

计算相似类型之间的相关性

图2 密度图显示了不同的相似度评分如何相互关联,用较暗的区域表示较高的密度。

总似然比

对于每个数据类型,BANDIT计算一个似然比,总似然比(TLR)可以表示为个各个似然比的乘积。总似然比(TLR)与两种药物在给定的信息源中共享给定靶标的几率成正比;

测试已知靶标的药物

利用五折交叉验证生成ROC曲线并计算AUROC的值。结果表明BANDIT是针对药物开发的新颖且有效的筛选和靶标预测平台,有望对当前的工作产生积极影响。

与现有的药物靶点预测方法

对比几个现有的药物靶点预测研究,进一步证明了BANDIT的性能更优(具体对比结果可见原文Supplementary Table 4)。

复制激酶实验性筛选

首先在Peterson等人的数据库中分离出被分为BANDIT孤儿小分子的激酶。对于每种孤儿激酶抑制剂,使用BANDIT来预测共享的靶标药物;共享靶标药物的每个已知激酶靶标被归类为孤儿抑制剂的一个潜在激酶靶标。

图3 BANDIT可以复制实验激酶实验性筛选的结果

特定靶标投票

测试到的每个孤儿小分子的投票最高的靶点为预测的一个新的特异性靶点;

图4 用于预测特定靶点交互的BANDIT投票原理图

新型抗微管小分子的鉴定

图5 基于作用机制的已知的微管抑制剂簇

药物机制聚类

对于每个药物对,将它们之间的TLR转换为用于估计任何两种药物之间的亲密度的距离度量。接下来,分离了所有已知至少存在于三个BANDIT数据集中抑制微管的药物。以BANDIT距离度量为输入,使用谱系聚类R方法和基于平均值的聚类方法创建了所有已知MTIs的层次聚类;

药物领域集群

使用与创建MTI网络相同的协议,创建了一个包含所有已知靶点的药物网络,每个边缘代表一个预测的共享靶点交互作用,以及与交互作用强度相对应的边缘权重。使用KEGG药物数据库和DrugBank,根据ATC代码对每种药物进行了注释,并对每种药物进行了相应的着色。特别分离出三个集群,分别为:(1)帕金森氏症药物的β受体阻滞剂,(2)抗逆转录病毒药和他汀类药物,以及(3)阿片类药物和微管抑制剂。

除此之外还利用生物实验进行了微管成像/测试,量化微管的影响,对耐药细胞系的处理,ONC201-DRD2相互作用的表征。

3

结果

综合多种类型数据的方法能够提高预测的准确性

图6 不同数据类型集的AUROC对比图

BANDIT精确地预测了特定靶标的相互作用

图7 BANDIT获得特定靶标的两种建议的操作方案示意图

新型微管靶向化合物的发现

4

总结

参考资料

Madhukar N S, Khade P K, Huang L, et al. A Bayesian machine learning approach for drug target identification using diverse data types[J]. Nature communications, 2019, 10(1): 1-14.

NAT 机器学习

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:Swagger整合Oauth2
下一篇:Python 数据库之初识数据库
相关文章