AI提高药物发现效率 | ML,Supercomputers and Big Data-伙伴云

AI提高药物发现效率 | ML,Supercomputers and Big Data

网友投稿 673 2025-04-04

摘要

药物研发成本的增加和投资回报率的降低对制药行业构成了巨大的威胁。新兴技术有可能大幅提高药物研发和制造的效率。人工智能（AI）被认为是一种令人难以置信的工具，可以增强医疗保健的多个方面，特别是药物发现。越来越多的制药公司正在投资人工智能。尽管最初持怀疑态度，但医疗人工智能市场据称到2020年将增长到80亿美元，主要受到药物发现应用的推动。

从本质上讲，人工智能由新颖的机器学习算法、计算能力的进步以及不断增加的临床前和临床数据提供支持。机器学习公司的数量激增，专门为制药公司提供服务，包括疾病靶标识别、化合物筛选、从头药物设计、临床疗效，毒性和ADME预测。这些工具现在比以往任何时候都更强大，不仅因为算法设计的进步，还因为可以访问大型超级计算机和基于GPU的新型AI加速器。甚至难以捉摸的量子计算机也开始用于人工智能驱动的药物研发。但是，获取良好的数据是关键，公共和私营公司越来越多地努力汇总和协调可用于药物研发的数据。随着先进研究工具（例如，下一代测序）、医疗保健数字化以及新兴的物联网基础设施的出现，这变得越来越重要。

为了提高药物发现效率和增加药物管线，许多制药公司已经与机器学习、计算和大数据公司合作。例如，强生公司正在进入临床试验IIb阶段的药物由BenevolentAI重新调整。然而，重要的是要了解不同AI系统的优点和缺点，因为它们通常针对特定目的进行优化。投资正确的技术是关键，通过投资一系列不同的系统，制药公司不仅能够将AI用于的大部分的药物研发和从药物发现到临床试验，而且还能找到针对复杂疾病的颠覆性新疗法。

介绍

药物研发变得越来越低效，主要归因于较大的平均研发成本，低临床试验药物成功率和低ROI，医疗支出减少和对罕见疾病的关注。大约15-20％的研发成本处于发现阶段。因此，减少药物发现的成本和时间以及提高临床试验成功率是必要的。

使用计算机模拟进行药物研发，也称为计算机筛选、设计和测试，有可能降低成本并提高药物管线的成功率。然而，这个想法并不新鲜。自90年代以来，已使用如同源模建、分子对接、定量构效关系和分子动力学模拟的方法。但是现代预测分析工具的出现使得计算机技术的力量呈指数级增长。AI常被用作流行语来描述不同的预测分析工具，例如预测建模、机器学习和数据挖掘。

越来越多的制药公司投资于人工智能，以加强疾病靶标识别、化合物筛选、从头药物设计和效力/毒性预测。目前，医疗保健人工智能市场估值约为70亿美元，预计将以惊人的复合年增长率53％增长，到2022年达到80亿美元。药物发现应用占据了该市场的最大部分(超过35％)。其他应用可以在医学图像、诊断、治疗方案和医院工作流程中找到。

这些预测工具的性能依赖于三个关键组件：算法（核心基础设施），计算能力（发动机）和数据（燃料）。除了相互交叉以外，这三个方面都取得了快速进展，从而产生了前所未有的强大工具，可用于了解复杂疾病和发现先进的治疗方法。

机器学习

巨大的计算能力和大量数据不足以进行预测建模。要在强大的计算机中处理所有数据，算法是必要的。算法越复杂，分析能力越好。由于人工智能革命，算法正在快速发展。其核心在于机器学习 - 一种用于发现数据集模式的极其强大的工具。机器学习的前沿是深度学习，它使用复杂的分层人工神经网络。深度学习非常适合药物发现，因为它具有前所未有的从原始未处理数据、大型或小型数据集中提取关键特征的能力。因此，这对于识别新的疾病靶标，产生新的关联和预测药物结果是非常有利的。机器学习算法有不同的“学习”方式：监督、无监督或强化。无监督机器学习可以在医学和生物学研究数据中找到可用于识别新疾病靶标的隐藏模式。通过建模和量子化学的强化机器学习，可以实现虚拟筛选和从头药物设计。使用现有的药物和临床试验数据，监督学习可用于提高药效，毒性和ADME预测。因此，通过利用正确的AI算法，大部分药物开发可以通过计算机进行，从而节省成本并降低风险。

机器学习（ML）：人工智能的一个子集，专注于计算机程序，可以教会自己在暴露于新数据时成长和变化。这种学习或“绩效的逐步提高”可以通过任务训练（监督学习），没有反馈（无监督学习）或性能反馈（强化学习）来实现。因此导致了复杂算法的创建和发展，这些算法对于人类自身发展而言过于复杂。

人工神经网络（ANN）：一种信息处理算法，可以极大地提高机器学习性能。这种数据处理方法的灵感来自于生物神经系统如何处理信息。通常，这由节点（或人工神经元）网络组成，这些节点堆叠在不同的层中并一起工作以处理输入，相互调制并生成输出。调制由算法本身发生，以产生最佳输出。虽然这些算法可以在台式计算机上运行，但超级计算机和AI加速器可以增加它们的潜力。

深度学习（DL）： ANN的子集仅存在了几年，并且在技术上以节点的多个“隐藏层”为特征。这种层次结构使算法能够基于更简单的下层在更高层中创建更复杂的模式和概念，就像人类视觉的工作方式一样。由于能够通过多个非线性变换对数据中的高级抽象特征进行建模，因此它可以指数级地加速机器学习性能。

迄今为止最先进的机器学习系统之一是Google的 DeepMind。在技术方面，它使用卷积神经网络上的深度学习和一种无模型强化学习的形式。实际上，这意味着没有提供预定义的环境/数据模型。该算法教会自己面对数据以及如何使用它。谷歌最强大的AI，AlphaGo Zero，已经教会了自己如何在最复杂的棋盘游戏中击败人类大师。谷歌已使用AlphaGo Zero来学习如何预测蛋白质折叠。

越来越多的AI公司为药物开发提供特定的解决方案。此列表概述了最值得注意的内容及其提供的服务：

Atomwise

What：预测小分子的生物活性

How：卷积神经网络（AtomNetTM）进行分子建模

Partners：AbbVie，默克

BenevolentAI

What：产生更好的靶标选择，设计新分子和优化化合物

How：深度学习从临床试验数据到学术论文挖掘和分析生物医学信息

Partners：强生公司

Berg

What：患者特异性的精确医学解决方案，以预测药物疗效和毒性

How：深度学习评估患者适应性 - 生物学数据

Partners：AstraZeneca，Sanofi

Exscientia

What：小分子药物设计和效力，选择性和ADME的预评估

How：机器学习使用各种实验、结构和临床数据库

Partners：GlaxoSmithKline（针对10种疾病相关目标的小分子），Sanofi（代谢性疾病的小分子），Sumitomo Dainippon Pharma（针对两种GPCR受体的小分子），Evotec合作伙伴关系，包括拜耳，赛诺菲，罗氏/基因泰克，强生公司和UCB（用于免疫肿瘤治疗的小分子）

Insilico Medicine

What：药物发现和再利用、生物标志物鉴定和临床试验设计

How：生成对抗网络来评估大量的多组学数据

Partners：GlaxoSmithKline（生物目标和途径）。

AI提高药物发现效率 | ML,Supercomputers and Big Data

Numerate

What：小分子药物的发现和优化，包括活性和毒性预测

How：可以同时使用小型和大型数据库的机器学习（商业秘密）

Partners：Boehringer Ingelheim（传染病的主要负责人），Merck（心血管疾病的主要负责人），Servier（心血管疾病的小分子调节剂设计目标），Takeda（肿瘤学，胃肠病学和中枢神经系统疾病的主要负责人）

Recursion Pharmaceuticals

What：用于靶标发现和活性/毒性预测的细胞疾病模型

How：深深度学习来分析内部实验生物学数据

Partners：武田，赛诺菲

twoXAR

What：发现、筛选和优先考虑候选药物

How：机器学习与基因表达测量，蛋白质相互作用网络和临床记录

Partners：斯坦福大学亚洲肝脏中心，Santen

其他有价值的包括（1）Roche / Genentech和GNS Healthcare（癌症药物靶标），（2）加速GlaxoSmithKline医学机会治疗（ATOM）联盟（从药物目标到患者就绪治疗不到一年），（3）Deep Genomics，Johnson＆Johnson Innovation的创业公司（用于操纵细胞生物学和治疗疾病的反义寡核苷酸），以及（4）Turbine，Bayer Open Innovation的初创公司（癌症生物学的分子模型，用于更好的生物标记）。

超级计算机

算法需要一个平台才能运行。虽然简单的机器学习算法可以在台式计算机上运行，但更强大的处理器可以执行更复杂的算法并处理更大的数据集，在频谱的最远端是令人难以置信的数字运算机，称为超级计算机，它可以大规模提升机器学习算法的功能。

计算能力不断提高，从而不断加速预测建模和人工智能的深度。据预测，2018年计算性能将达到1 exaFLOPS（每秒10亿亿次计算）。这种计算水平被认为是人类大脑的处理能力，并且可以实现令人难以置信的强大功能，数据分析和预测建模。

目前，中国的神威·太湖之光是最强的超级计算机，拥有惊人的93 petaFLOPS。它在石油勘探，生命科学，天气预报，工业设计和药物研究方面具有商业应用，但消耗大量15,371千瓦的电力。更著名的IBM Watson是一个由90台超级计算机组成的集群，即IBM Power 750，可以产生80 teraFLOPS的处理能力。IBM通过将沃森开放给商业应用程序，包括医疗保健和生命科学，推动了这一趋势。从药物发现到临床开发和疾病诊断。例如，辉瑞公司正在加速其与IBM Watson进行药物发现的免疫肿瘤学研究。IBM目前最强大的超级计算机是Sequoia（Blue Gene / Q），运行速度为20 petaFLOPS。

Nvidia通过引入新的计算模型完全改变了这种模式，这些模型大大加速了人工智能和高性能计算（HPC）。导致他们的股票在去年飙升了81.3％。他们采用异构计算，使用多个GPU作为协处理器，作为快速动作节点。2017年，Nvidia发布了其Volta处理器，该处理器使用所谓的张量微体系结构，也被谷歌的AlphaGo Zero使用，该处理器针对深度学习进行了优化。这种微体系结构用于他们的消费者GPU“Titan V”，它在经典基准测试中提供大约15 teraFLOPS，在张量基准测试上提供120 teraFLOPS。而功耗低于600 W。Nvidia还将他们的Volta处理器用于他们的GPU云，他们的数据中心GPU'Tesla V100'和他们的桌面AI超级计算机'DGX-1'。凭借新的张量核心，DGX-1系统可提供惊人的960 teraFLOPS，据说可以极大地促进机器学习。BenevolentAI已经使用先前版本的DGX-1（170 teraFLOPS）作为他们的判断增强认知系统TM，使计算机药物发现比以往更快更有效。

计算的下一个前沿是量子计算。目前公司之间存在竞赛，以生产稳定且适用于应用的系统。量子计算机使用单个粒子或量子位来编码信息。这使得能够在具有低功耗的小型设备中实现指数计算能力。例如，一个只有50个量子比特的系统理论上可以胜过当前的超级计算机。然而，保持量子比特稳定是一项重大的工程挑战。

大数据

所有这些超级计算机和深度学习算法都只是倾注于其中的数据“智能”。通常不是关于谁拥有最好的算法或最强大的处理器，而是关于谁有权访问最佳数据。真实的现代机器学习算法可以分析非结构化数据，例如PubMed上同行评审的生命科学文章的大量数据库。

我们生活在所谓的“信息爆炸”时代。仅在过去两年中就创造了90％的数据，我们目前每天产生大约2.5艾字节或2.5×1018字节。然而，大部分数据是分散的，不可访问的和未经证实的。不同的私人和公共组织专注于聚合数据，以便更有效地使用它。具体而言，对于药物发现，有许多可以开采的公共数据库，通常可分为3类：

分子生物学数据库：用于识别疾病靶标，包括组学数据（基因组学，转录组学，蛋白质组学，代谢组学），分子相互作用，功能获得和丧失，以及显微镜图像。数据库：dbSNP，dbVar，COSMIC，1000 Genomes Project，TCGA，Gene Expression Omnibus，ArrayExpress，Cancer Genome Atlas，GTEx Portal，Encode，Human Protein Atlas，Human Proteome Map，Cancer Cell Line Encyclopaedia，Project Achilles等。

结构-功能数据库创建新的药物线索，包括分子结构，药物-靶标相互作用和结构-功能关系。数据库：LINCS，连通图，ChEMBL，PubChem等

临床试验数据库用于预测药物反应，包括药物疗效，毒性和ADME。数据库：Cancer Therapeutics Response Portal，ImmPort，ClinicalTrials.gov，PharmaGKB等。

还有许多私营公司在数据聚合和结构上货币化。这些公司通常使用机器学习来挖掘和管理数据。例如，Innoplexus和NuMedii都利用分子、生物和临床数据库来提供可用于药物发现的注释、策划和标准化数据。其他公司正在应对来自下一代测序的数据激增。需要做出更多努力来集中和协调各种生物和医学研究机构所产生的大量数据。在这方面，欧盟的Corbel等共享服务正处于领先地位。

有许多患者数据可用，例如保险数据、公共卫生数据、移动健康数据、患者报告数据、组学数据、EHR数据、家庭数据和环境数据。这些数据不仅可以洞察疾病和治疗，还可以支持新的医疗保健模式，如基于结果的模式和面向患者的服务。数据挖掘通常是必要的，因为大约80％的医疗保健数据是非结构化的。然而，主要问题之一是数据保护和隐私。例如，谷歌DeepMind与英国国家健康服务（NHS）就获取肾功能衰竭数据达成的协议导致了由于隐私法问题引起的强烈反对。像IQVIA这样的公司通过使用强有力的隐私和安全措施来解决这个问题。IQVIA从药房供应商和EHR系统购买和管理数据。

随着物联网（IoT）的出现，患者特定数据的数量将以加速的速度增长。虽然数据挖掘将具有挑战性，但这可以使人们更好地了解健康和疾病。物联网健康解决方案，如临床级生物识别传感器，家用监视器和健身可穿戴设备，将增加可用于预测新疾病靶标和重新利用药物的大量数据。例如，Proteus Digital Health在药片上使用可摄入的传感器，不仅可以追踪依从性，还可以追踪症状。Quantus和MC10等公司生产临床级可穿戴生物识别传感器，可跟踪各种生命体征。

结论

近年来人们对人工智能能否兑现其提高药物开发效率的承诺持怀疑态度。现在公平地说，使用这些计算工具确实存在令人难以置信的疾病靶标识别、化合物筛选、从头药物设计和临床预测的潜力。这不仅体现在技术提供商数量的增加，而且还包括制药行业的大量采用和测试。值得注意的是，BenevolentAI和Johnson＆Johnson正在通过机器学习进入IIb期临床试验，服用一种可以改善帕金森病嗜睡状态的药物。虽然许多其他制药和生物技术公司已经开始与几家人工智能公司合作，旨在通过机器学习和超级计算的进步获利，但公司投资正确的机器学习技术非常重要。每种算法都有其优点和缺点，并且通常针对特定目的进行优化。随着超级计算机创新，新型基于GPU的AI加速器和难以捉摸的量子计算的不断增加的计算能力，AI对药物开发的影响只会增加。此外，我们只处于数据时代的开端。随着越来越多的数据从先进的研究（如新一代测序）、医疗保健数字化和物联网涌入，随着时间的推移将获得更多的见解。

Dr Jeroen Verheyen

Dr Michal Wlodarski

参考：

https://www.camin.com/ai-for-drug-discovery

AI 机器学习

深度学习实战》—1.3　关于MXNet">《MXNet深度学习实战》—1.3　关于MXNet

673 2025-04-04

为 AI 从业者/研究生/研究员专门定制的全网唯一高端 AI 训练营

673 2025-04-04

深度学习的故障诊断算法">深度残差收缩网络：一种深度学习的故障诊断算法

673 2025-04-04

AI提高药物发现效率 | ML,Supercomputers and Big Data

深度学习实战》—1.3　关于MXNet">《MXNet深度学习实战》—1.3　关于MXNet

为 AI 从业者/研究生/研究员专门定制的全网唯一高端 AI 训练营

深度学习的故障诊断算法">深度残差收缩网络：一种深度学习的故障诊断算法

推荐文章

企业生产管理是什么，企业生产管理软件

进盘点进销存软件排行榜前十名

进销存系统哪个简单好用？进销存系统优点

工厂生产管理（工厂生产管理流程及制度）

生产管理软件，机械制造业生产管理，制造业生产过程管理软件

进销存软件和ERP有什么区别？进销存与erp软件理解

进销存如何进行库存管理

如何利用excel制作销售订单管理系统？

数据库订单管理系统有哪些功能？数据库订单管理系统怎么设计？

什么是数据库管理系统？

最近发表

热评文章

零代码开发是什么？2022低代码平台排行榜">零代码开发是什么？2022低代码平台排行榜

进销存库存管理 系统（智慧进销存）">智能进销存库存管理系统（智慧进销存）

在线文档哪家强？8款在线文档编辑软件推荐">在线文档哪家强？8款在线文档编辑软件推荐

WPS2016怎么绘制简单的价格表?

系统的功能有哪些？餐饮服务系统的构成及工作程序">连锁餐饮管理系统的功能有哪些？餐饮服务系统的构成及工

什么是在线文档？怎么发在线文档

友情链接

AI提高药物发现效率 | ML,Supercomputers and Big Data

微信扫一扫：分享

深度学习实战》—1.3 关于MXNet">《MXNet深度学习实战》—1.3 关于MXNet

深度学习的故障诊断算法">深度残差收缩网络：一种深度学习的故障诊断算法

推荐文章

最近发表

热评文章

零代码开发是什么？2022低代码平台排行榜">零代码开发是什么？2022低代码平台排行榜

进销存库存管理系统（智慧进销存）">智能进销存库存管理系统（智慧进销存）

在线文档哪家强？8款在线文档编辑软件推荐">在线文档哪家强？8款在线文档编辑软件推荐

系统的功能有哪些？餐饮服务系统的构成及工作程序">连锁餐饮管理系统的功能有哪些？餐饮服务系统的构成及工

友情链接

深度学习实战》—1.3　关于MXNet">《MXNet深度学习实战》—1.3　关于MXNet