Nat. Commun. | 识别药物靶点的贝叶斯机器学习方法
657
2022-05-30
本期介绍2019年3月发表在Nature Communications的研究工作,该工作由哈佛医学院、东北大学和Dana-Farber癌症研究所等机构的研究人员完成。药物组合能够增加治疗功效和降低毒性,在治疗多种复杂疾病中起重要作用。然而,识别和验证有效组合的能力受到药物组合爆炸增长的限制,由大量药物对和剂量组合驱动。本文提出了一种基于网络的方法来识别特定疾病的临床有效药物组合。
1. 背景简介
组合治疗使用多种药物以改善临床效果相较于单一疗法具有多个优点:它提供了更高的功效或通过降低个体剂量,它可以减少不良反应的风险。因此,联合疗法被广泛应用于多种复杂疾病的治疗中,从高血压到癌症和传染病。然而,同时提供高临床疗效和低毒性的药物组合的系统鉴定通常由直觉和经验而不是既定原则驱动。因此,迫切需要新的方法来促进多组分疗法的发现。
一种方法是成对药物组合的系统性高通量测试,然而,它面临着一个组合挑战:对于1000种FDA批准的药物,有499,500种可能的成对组合,应该在大约3000次测试人类疾病和多剂量的组合。因此,我们甚至不能粗略地探索具有潜在积极临床结果的大量可能组合。可以肯定,一些基于机器学习的“黑盒子”模式已经发展到预测药物的组合,提供精度略有增长的随机猜测。然而,我们缺乏预测的机制驱动的,基于网络医学的方法来预测有效的药物组合。
基于网络的方法已经提供了一个有前途的框架,以确定新的见解,以加速药物发现,帮助量化疾病和药物间的关系。这些方法学的进步提出了超越“单药、单靶标”范式的可能性,并探索了旨在同时调节同一疾病模块中的多种疾病蛋白质所提供的“多种药物、多种靶标”的可能性,同时最小化毒性型材。在这项研究中,我们量化了人类蛋白质-蛋白质相互作用组中药物靶标和疾病蛋白质之间的关系,从而形成了一种合理的,基于网络的药物组合设计策略。
2. 方法
2.1 构建人类蛋白质-蛋白质相互作用组
组建了15个常用数据库,重点关注高品质蛋白质-蛋白质相互作用(PPI)和五种证据:(1)通过高通量酵母双杂交(Y2H)筛选系统测试的二元,物理PPI,结合两种公开测试的二元PPIs高质量的Y2H数据集和一个未发表的数据集; (2)文献策划的PPIs通过亲和纯化,亲和纯化质谱(AP-MS),Y2H和文献衍生的低通量实验鉴定; (3)来自蛋白质三维结构的二元,物理PPI; (4)通过文献衍生的低通量和高通量实验的激酶-底物相互作用;(5)通过文献衍生的低通量实验发送信号网络。基于GeneCards及其Entrez ID将蛋白质编码基因定位到其官方基因符号。计算推断的根植于进化分析,基因表达数据和代谢关联的相互作用被排除在外。
2.2 建立药物-靶标网络
从6种常用数据(DrugBank、PharmGKB、ChEMBL、TTD、BindingDB、IUPHAR/BPS)收集了FDA批准或临床研究药物的高质量药物-靶标相互作用,并使用报告的结合亲和力数据定义了物理药物-靶标相互作用:抑制常数/效力(K i)、解离常数(K d)、中值有效浓度(EC50)或中值抑制浓度(IC 50)≤10μM。从这些数据库中提取与药物相关的生物活性数据后,仅保留符合以下四个标准的药物-靶标相互作用:(i)结合亲和力,包括K i,K d,IC 50或EC 50,每个≤10μM;(ii)蛋白质可以用独特的UniProt登录号表示;(iii)在UniProt数据库中将蛋白质标记为“已审核”;(iv)蛋白质来自智人(Homo sapiens)。
2.3 收集最佳的配对药物组合
本研究中通过汇总来自多个数据源的临床数据来关注成对药物组合。在组合每种药物需要具有实验证实靶标信息。每种药物的化合物名称由MeSH和UMLS词汇表标准化,并进一步从DrugBank数据库转换为DrugBank ID,删除重复的药物对。
2.4 收集不良的药物-药物相互作用
汇编了来自DrugBank数据库的临床报告的药物不良反应(DDIs)数据。这里专注于药物相互作用,其中每种药物都有经过实验验证的靶标信息。每种药物的化合物名称由MeSH和UMLS词汇表标准化,并进一步从DrugBank数据库转换至DrugBank ID 。
2.4 药物对的化学相似性分析
从DrugBank数据库下载化学结构信息(SMILES格式),使用Open Babel计算了每种药物的MACCS指纹图谱,并计算药物-药物对的Tanimoto系数(T)。
2.5 蛋白质序列相似性分析
从UniProt数据库下载了Homo sapiens中药物靶标(蛋白质)的经典蛋白质序列。使用Smith-Waterman算法计算了两个药物靶标的蛋白质序列相似性。Smith-Waterman算法通过比较所有可能长度的片段并优化相似性度量来执行局部序列比对,以确定药物靶标的两串蛋白质规范序列之间的相似区域。
2.6 基因共表达分析
从GTEx V6版本下载了32个组织的RNA-seq数据(RPKM值)。对于每种组织将超过80%样本中RPKM≥1的基因视为组织表达基因。为了测量与药物治疗疾病相关的药物靶标编码基因的共表达程度,研究人员计算了Pearson相关系数(PCC(a ,b)对于跨越32个人组织的每对药物靶标编码基因a和b,通过F-统计学得到相应的P值。为了降低共表达分析的噪音将PCC(a,b)定位到人蛋白质-蛋白质相互作用组网络中以构建共表达的蛋白质-蛋白质相互作用组网络。通过对所有靶标对a和b上平均PCC(a,b)来计算与两种药物A和B相关的药物靶标编码基因的共表达相似性。
2.7 GO相似性分析
所有药物靶标编码基因的GO注释均从http://www.geneontology.org/网站下载。研究人员使用了三种类型的实验验证或文献衍生的证据:生物过程(BP)、分子函数(MF)和细胞成分(CC),排除了计算推断的注释。GO注释的语义比较提供了计算基因和基因产物之间相似性的定量方法。
2.8 临床相似性分析
来自药物解剖治疗化学(ATC)分类系统代码的药物对的临床相似性通常用于预测新的药物靶标。本研究中使用的所有FDA批准药物的ATC代码均从DrugBank数据库下载。药物A和B的第k级药物临床相似性(Sk)通过如下的ATC代码定义。
2.9 与靶标集重叠方法的比较
将引入的基于网络的药物分离与仅基于共享靶标的重叠测量进行了比较,而不使用PPI网络。研究人员检查了两种量化药物A和药物B的靶标组之间重叠的方法。
2.10 基于网络的药物分离
基于网络的药物对A和B的分离通过Eq。研究人员考虑两个药物靶标组之间的路径长度的四个其他不同距离测量:(a)最接近的测量,表示药物A的靶标与药物A的最近靶标之间的平均最短路径长度;(b)最短的措施,代表所有药物靶标的平均最短路径长度;(c)核心测量,通过指数惩罚降低较长路径的权重;(d)中心指标,代表药物靶标中具有最大亲密度的所有药物靶标中的最短路径长度。
2.11 收集疾病关联基因
整合了来自8种不同资源的疾病基因注释数据,并排除了重复的条目。研究人员使用基因Entrez ID、染色体位置和来自NCBI数据库的官方基因符号来注释所有蛋白质编码基因。每个心血管事件都由MeSH和UMLS词汇表定义。这项研究中为4种类型的心血管事件构建疾病相关基因:心律失常、心力衰竭、心肌梗塞和高血压/高血压。
2.12 效能评估
使用接受者操作特征曲线(ROC)曲线下的面积(AUC)来评估网络接近度与随机药物对区分FDA批准或实验验证的成对组合的程度。研究人员将不同网络邻近度处的真阳性率和假阳性率计算为阈值以说明ROC曲线。由于阴性药物对通常不会在文献或公开数据库中报告,研究人员使用所有未知药物对作为阴性样本。此外,选择相同部分的未知药物对作为阳性样本来控制大小不平衡,重复此过程100次并报告平均AUC值以比较不同方法的性能。
3. 结果
3.1 基于网络的药物-药物关系的邻近度量
基于网络的药物组合方法是有效的,研究人员需要确定两个药物-靶标模块之间的拓扑关系也反映了生物学和药理学关系。发现人体相互作用组中药物-药物对靶点的网络接近度与化学、生物学功能和临床相似性相关,优于靶标-重叠方法。
3.2 药物-药物-疾病组合的网络配置
为了解这些药物-药物-疾病配置中哪一种具有最大的临床疗效,研究人员关注高血压和癌症,这两种疾病具有大量经FDA批准的成对药物组合。研究人员发现六种药物-药物-疾病配置中的四种没有显示共同治疗癌症或高血压的统计学显着趋势。换句话说,如果组合中的至少一种药物不能定位于疾病模块的附近,则该组合不具有比单一疗法更大的治疗效果。研究人员第一个主要发现:对于具有治疗效果的药物对,两种药物靶标模块必须与疾病模块重叠。这一发现强调了在寻找治疗上有益的组合时,需要检查药物靶标和疾病蛋白质之间的网络关系。第二个发现是重叠暴露,即当药物-靶标模块彼此重叠以及与疾病模块重叠时,在单一疗法中治疗疾病没有统计学上显着的效果。第三个关键发现是,只有与疾病模块具有互补暴露关系的药物对显示出对药物组合疗法具有统计学显着效力。
3.3 基于网络的高血压药物组合揭示
预测有效药物组合促使研究人员使用高血压数据作为验证集用于基于网络的新药物组合预测。这种预测建立在两种既定的网络方法的基础上:(a)两种药物的靶标之间基于网络的分离;(b)疾病模块和两个药物靶标模块之间的网络接近度。
4. 讨论
联合疗法在治疗复杂疾病方面提供了广泛的文献记载。研究人员证明了基于网络的方法识别药物-靶标模块相对于疾病模块的相对网络配置可以帮助优先考虑潜在有效的成对药物组合用于高血压和癌症。基于组的方法在比较效力和不良相互作用方面提供了治疗组合的网络级视图。研究人员的关键发现是只有当药物组合遵循与疾病模块的特定网络拓扑关系时才具有治疗效果,
研究结果表明,有效药物组合的发现受益于基于网络的合理药物组合筛选,通过人类相互作用组中的网络接近来探索药物-靶标模块和疾病模块之间的关系。如果广泛应用开发的网络工具可以帮助开发针对多种复杂疾病的新颖的有效的联合疗法。
Code availability
https://github.com/emreg00/toolbox
Data availability
https://ccsb.dana-farber.org/interactome-data.html
参考资料
Cheng F, Kovács I A, Barabási A L. Network-based prediction of drug combinations[J]. Nature communications, 2019, 10(1): 1197.
NAT 网络
版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。