怎么新建可以统计的表格(统计表怎么添加表格)
759
2022-05-29
摘要
人工神经网络的兴衰在计算机科学和计算化学的科学文献中都有详细记载。然而近二十年后,我们现在看到了对深度学习兴趣的复兴,这是一种基于多层神经网络的机器学习算法。在过去的几年里,我们看到了深度学习在许多领域的变革性影响,尤其是在语音识别和计算机视觉领域,在这些领域的大多数专家从业人员现在经常避开之前建立的有利于深度的模型学习模型。在这篇综述中,我们对深层神经网络理论及其独特性质进行了介绍性概述,将它们与化学信息学中使用的传统机器学习算法区分开来。通过概述深度神经网络的各种新兴应用,我们强调它的普遍性和广泛的适用性,以应对该领域的各种挑战,包括定量结构活性关系,虚拟筛选,蛋白质结构预测,量子化学,材料设计和财产预测。在回顾深度神经网络的表现时,我们观察到在不同的研究课题中,针对非神经网络最先进的模型的一致表现优异,而基于深度神经网络的模型通常超出了各自任务的“玻璃天花板”预期。加上用于训练深度神经网络的GPU加速计算的成熟度以及用于训练这些网络的化学数据的指数增长,我们预计深度学习算法将成为计算化学的宝贵工具。
介绍
深度学习是AlphaGo开发过程中使用的关键算法,AlphaGo是由Google开发的Go-playing程序,在2016年击败了顶级人类玩家。 在棋盘游戏中击败人类玩家的计算机程序的发展并不新鲜; IBM的棋牌电脑Deep Blue在二十年前的1996年击败了顶级棋手。不过,值得注意的是Go可以说是世界上最复杂的棋盘游戏之一。 在19 *19板上玩,大约有10170个法律职位可以玩。 与Go的复杂性相比,据估计Lipinski虚拟化学空间可能只包含1060个化合物。
深度学习是一种机器学习算法,与计算化学中各种应用中已经使用的算法不同,从计算机辅助药物设计到材料性质预测。其中一些更高调的成果包括2012年默克活动预测挑战,其中 一个深层的神经网络不仅赢得了比赛,而且超越了默克的内部基线模型,但是在他们的团队中没有一名化学家或生物学家的情况下这样做。 在一个不同的研究团队的不断取得的成功中,深度学习模型在2014年NIH发布的Tox21毒性预测挑战中取得了最高的地位。在最近的这些例子中,深度学习模型在预测活性和毒性方面的异常出色的表现来源于独特的特点,区别于传统机器学习算法的深度学习。
对于那些不熟悉机器学习算法复杂性的人,我们将重点介绍一些主要差异-传统(浅层)机器学习和深度学习之间。机器学习算法最简单的例子就是无所不在的最小二乘线性回归。在线性回归中,模型的基本性质是已知的(在这种情况下是线性的),而输入(也称为模型的特征)彼此是线性独立的。通过变换原始数据(即平方,取对数等)可以将额外的复杂性添加到线性回归中。随着更多这些非线性项被添加,回归模型的表现力增加。这个描述突出了传统(浅)机器学习的三个特点。首先,这些功能由领域专家提供。在一个被称为特征提取和/或工程的过程中,应用了各种变换和逼近,这可以从第一原理出发,或者可能是众所周知的近似,甚至是受过教育的猜测。其次,浅层学习是模板匹配。它不会学习问题的表示,它只会学习如何精确地平衡一组输入要素以产生输出。第三,它的表达能力随着项的数量(即要拟合的参数)而增长,但如果非线性变换选择得不好,它可能需要指数多项。 例如,简单的幂级数展开将需要大量的项(和参数)来适应具有大量振荡的函数。
图1. a)具有一个隐藏层的传统前馈人工神经网络(ANN)的示意图。 每个表示为圆圈的神经元接受一系列n个输入值,并将其映射到使用非线性函数的输出,并将隐含层的所有神经元应用于偏置项(即输入为零时的神经网络输出)。 b)深度神经网络(DNN)与人工神经网络的不同之处在于具有多个(n> 3)隐藏层,如示意图所示,为简单起见,这里省略了偏差项
目前开发的绝大多数深度学习算法都是基于人工神经网络的,为了本次审查的目的,我们将专注于深度神经网络。在本综述的前半部分,我们将提供深入学习的简要非技术性介绍,从人工神经网络的基本背景开始,并突出介绍在过去十年中使深度神经网络成为可能的关键技术发展。此外,我们将重点关注深度学习与计算化学中使用的传统机器学习算法的不同之处,以及深度学习正在进行的复兴与20世纪80年代的人工神经网络模型如何不同,后者可能被视为其“父”算法。在接下来的半年回顾中,我们将对计算化学领域的深度学习应用的最新发展进行调查,我们将根据现有的机器学习模型来检验其性能,以及为该领域做出贡献的未来前景。这篇评论主要是为了作为计算化学家的介绍入口,这些计算化学家希望从应用的角度探索或整合深度学习模型在他们的研究中,并且将提供对现有文献综述的更多参考资料,以涵盖更深层次的技术方面学习神经网络结构和优化。
深度学习101
人工神经网络(ANN)是大多数深度学习算法的基础,它是一类受生物神经网络启发的机器学习算法,用于通过将大量输入转换为目标输出来估计或近似函数。 1a)中,人工神经网络由一系列层构成,每层包含许多“神经元”。每个神经元接受来自前一层的输入值,并将其映射到非线性函数上。该函数的输出用作ANN中下一层的输入,直到它到达最后一层,输出对应于要预测的目标。此外,可调参数,每个神经元函数的“权重”(或系数)在构建该模型时进行调整,以最小化预测值的误差,这一过程称为“训练”神经网络。形象地说,人工神经网络中的这些神经元的集合模仿神经元在生物系统中的工作方式,因此其名称为人工神经网络。
在反向传播过程中,使用称为梯度下降的算法来在生成相应输出时查找由各个神经元引起的误差表面中的最小值。 从概念上讲,梯度下降与经典分子动力学模拟中使用的最速下降算法没有区别。 主要区别在于迭代地最小化能量函数并更新每个步骤的原子坐标,迭代地使ANN的目标输出的误差函数最小化并且每步更新神经元的权重,在ANN文献中,这也被称为“迭代”。 训练集中的数据可以迭代多次,并将数据完整地传递为“epoch”。
反向传播的一个关键问题是随着信号通过每个隐藏层,误差信号逐渐变得更加分散。 这是因为信号发生了在模型更深处,越来越多的神经元和权重与给定的误差相关联。 直到最近,这使得很难有效地训练许多层; 超过几层的任何东西都需要很长时间才能收敛到过度拟合的高可能性,特别是对于最接近输出的层。 此外,非线性变换函数(如S形)具有有限的动态范围,因此误差信号在通过多个层时趋于衰减,这通常称为“消失梯度问题”。
自1986年以来,已经开发了几种关键算法,包括无监督预训练,纠正线性函数和dropout,以改进人工神经网络的训练过程,解决消失梯度问题,并减少过拟合人工神经网络特别容易受到影响。也许是训练深度神经网络(DNN)的最大障碍,是渐近问题的消失,因为它实际上限制了神经网络的深度。预训练,由Hinton等人发现。在2006年是一种快速,贪婪的算法,它使用无监督的分层方法一次训练DNN一层。预训练阶段完成后,将使用更细微的微调过程(例如随机梯度下降)来训练模型。使用预训练方法,模型在反向传播开始之前就已经学会了这些特征,从而减轻了消失梯度问题。 2011年出现了另一种解决方案,Bengio及其同事证明整流线性激活(ReLU)函数完全避开了消失梯度问题。 ReLU的一阶导数恰好为1或0,通常可以确保误差信号能够反向传播而不会消失或爆炸。 (图2)。
图2. a)S形和 b)整流线性(ReLU)函数(蓝色)及其相应的一阶导数(红色)的图。 与sigmoidal函数不同,其中的导数根据x的值而变化,在ReLU函数中,一阶导数为0或1。[Color figure can be viewed at wileyonlinelibrary. com]
总结了人工神经网络及其相关算法的主要发展情况后,我们注意到它并不全面。除了迄今为止讨论的传统的前馈DNN(图1b)之外,更近期的发展包括替代架构,特别是卷积神经网络(图3a),递归神经网络(图3b),和自动编码器(图3c),这些在计算机视觉和自然语言处理应用中都非常成功。关于各种DNN体系结构的技术讨论,虽然对深入学习文献有深刻理解,但超出了本文的讨论范围,因此,我们向读者推荐以下出版物总结这一研究课题。现在,应该明显看到,ANN本身不是一项新发明。事实上,人工神经网络的数学算法是由McCulloch和Pitts在1943年开发的,实际上可训练的人工神经网络可追溯到1986年,与Rumelhart,Hinton和Williams等人发明神经网络的后向传播一致。更深层次的神经网络超越了几个隐藏层(图1b),只有在最近几年更新的算法发展才能实现。因此,DNN不仅仅是上个世纪人工神经网络的重塑品牌,它又如何更好比已经成功用于各种化学信息学应用的传统机器学习算法?
图3. a)卷积神经网络(CNN)的示意图。 CNN的设计明确假定输入是以图像数据的形式。 每个卷积层提取和保存空间信息并学习一个表示,然后典型地将其传递到输出层之前的传统完全连接的前馈神经网络。 b)循环神经网络(RNN)的示意图。 最简单实现的RNN是对标准前馈神经网络的修改,其中隐藏层中的每个神经元从模型的前一次迭代的输出接收附加输入,表示为“t-1”圆形箭头。 c)自编码器的示意图,它是用于无监督学习的神经网络。 在自动编码器中,目标是学习输入层的标识函数,并且在该过程中,隐藏层中原始数据的压缩表示被学习。
数十年的化学研究已经导致了几千种分子描述符的发展,这些描述符描述了可以想到的任何化合物的一系列性质。因此,分子描述符用作使用化学知识和直觉(即领域专业知识)构建的特征,其可用于传统的机器学习模型,其已经在计算化学应用中取得了合理的成功。传统的机器学习算法(如线性回归和决策树)非常直观,可以创建人类可以理解的简单模型。尽管如此,随着我们对具有非线性关系的更复杂属性(通常是与生物过程和材料工程相关的属性)的预测进展,通常需要依赖更复杂且不太透明的算法,如支持向量机(SVM)和随机森林 (RF)达到可接受的预测准确度。乍一看,深度学习算法属于后一类,但它有一个主要区别。与SVM和RF不同,DNN转换输入并将其重构为跨隐藏层的神经元的分布式表示。通过适当的训练方法,系统隐藏层中的神经元将学习不同的特征;这被称为自动特征提取。由于每个隐藏层都成为系统下一层的输入,并且可以沿途应用非线性转换,因此它会创建一个逐渐“学习”越来越抽象,层次和深度特征的模型。
自动特征提取是一个不需要领域知识的过程,因此是深度学习算法最重要的优点之一。这与传统的机器学习算法不同,在这种算法中,模型必须用基于化学知识和直觉的“正确”特征仔细构建,以便其执行和推广。正因为如此,深度学习已成为语音识别和计算机视觉中的主流算法。 ImageNet是用于图像分类的各种算法的年度评估和竞争。在进行深度学习之前,所采用的最先进的模型徘徊在25-30%的错误率,这与理想的匹配5.1%经过训练的人为错误率的理想目标相距甚远。 2012年,Hinton及其同事首次向这个社区介绍了深度学习算法,他们的基于DNN的模型实现了16.4%的错误率。这是当时计算机视觉中已建立的模型的显着改进,而基于传统机器学习算法的次高性能模型仅实现了26.2%的错误率。随后在基于DNN的模型中的改进最终实现了5.0%以下的错误率,超过了2015年的人类表现(图4),这是深度学习引入计算机视觉领域后仅3年对于这些领域的从业人员来说,深度学习和自动特征提取能力的影响已经发生了变革,不仅超越了该领域的“玻璃天花板”期望的超越能力,而且实现它的时间也显着缩短。近年来,深度学习在计算机科学领域以外的其他学科中也有所表现,包括高能粒子物理和生物信息学。
图4. 年度ImageNet竞赛中表现最好的图像分类算法的历史错误率。已建立的计算机视觉模型停滞在25-30%。 2012年引入深度学习使得图像分类的显着改善达到了~15%,到2015年实现了图像分类的人类精确度(~5%)。
还没有讨论过的深度学习的一个同样重要的方面是多年来非算法发展的作用。具体来说,由于上个世纪缺乏“大数据”的可行性和GPU硬件的技术进步,导致了DNN的出现不同于上个世纪的ANN。 2012年的开创性工作被广泛认为是推动深入学习受到关注的文章,是Hinton的AlexNet论文。虽然算法的发展,尤其是dropout促成了它的成功,但可以获得包含120万张图像的更大的数据集到图像中使用的10,000幅图像的数据集,也对其成功起到了关键作用。随着更深更大的神经网络的发展,训练时间通常可能延长至数天或数周。然而,就像计算化学领域如何从GPU加速计算的兴起中受益一样,该技术也减轻了DNN的训练速度问题。
在更实际的考虑中,用于在GPU上训练神经网络的开源代码和文档的可用性也可以说是近年来深度学习快速扩散的另一个原因,包括其对学术研究的影响,这可以通过自2010年以来深度学习相关出版物指数级增长看出来(图5a)。就像现代大多数计算化学家不再编写他们自己的代码来执行分子动力学模拟或运行量子化学计算一样,而是依赖于已建立的软件包,深度学习研究团队也已达到类似的成熟度水平,目前用于训练神经网络的主要软件包,包括Torch,Theano,Caffe和Tensorflow。Torch也许这四者中最古老的一个,其作为一种机器学习科学计算框架于2002年首次在纽约大学发布,自那时起,深度学习库被添加。 Theano是2008年由Benjio及其同事在蒙特利尔大学发布的第一个专门开发的深度学习框架,之后,该框架已发展成为一个由250多名贡献者组成的社区团队。 2014年由伯克利视觉与学习中心开发的Caffe的发布紧随其后。最近,由谷歌开发的Tensorflow于2015年下半年发布,可以说在深度学习社区中的吸引力激增,从谷歌搜索排名的高峰(图5b)可以看出,以及它的Github已经分别出演了33,000次和14,000次,尽管它仅仅在一年多的时间内发布了一次。此外,2015年发布的Keras等API大大简化了神经网络的构建和培训,显着降低了新的深度学习从业者的入门门槛。
图5. 来自ISI索引的 a)深度学习出版物的增长情况,以及 b)2010年以来主要深度学习软件包的年度Google趋势得分。
毫无疑问,计算机科学领域一直是从互联网上获得的可挖掘数据激增的主要援助者(图6a),毫不奇怪,深度学习的影响力也是最大的。在化学领域,我们也看到了可公开访问的数据库(如Protein Data Bank(图6b)和PubChem(图6c))中数据的相应增长,其中更多的数据来源于最新的高通量组学技术[53]。正是由于这些原因,我们对计算化学领域开始经历同样的事件汇合感到乐观,这将极大地促进我们领域的深度学习应用。我们可以利用计算机科学领域的算法突破,化学数据的日益增加的可用性,以及现在成熟的GPU加速计算技术。[ 图6d; GPU计算能力数据点来自所报道的双精度(2010),M2090(2011),K20(2012),K40(2013),K80(2014),P100(2015)计算NVIDIA Tesla系列GPU的计算能力。]
图6. a)生成的全球数据,b)保存在蛋白质数据库中的结构数量,c)保存在Pub-Chem中的化合物数量,以及d)用于科学计算的GPU计算能力(GPU计算功率数据点 (2010年),M2090(2011年),K20(2012年),K40(2013年),K80(2014年),P100(2012年),P100(2011年),NVIDIA Tesla系列GPU的双精度计算能力, 2015)),在它们向上的轨道上都有类似的相似之处
计算机辅助药物设计
在计算机辅助药物设计中,传统的机器学习算法在化学信息学领域有着悠久的历史,特别是它们对量化结构活性关系(QSAR)应用的贡献。在QSAR中,要预测的输出通常是化合物的生物活性。通常使用回归模型,并且输入数据是分子描述符,其是根据化学领域知识设计的分子的预先计算的物理化学性质。 QSAR应用的早期工作使用线性回归模型,但这些模型很快被贝叶斯神经网络所取代,随后是RFs和SVMs 。该领域的从业者历来喜欢允许可变选择的模型,以便知情的化学家可以确定选定的特征是否有意义。此外,也允许评估输出预测不确定性的模型。 QSAR领域非常广泛,我们向读者推荐以下关于历史关键技术发展的评论列表[57-60]。为了进行本次审查,我们将讨论的范围限制在基于DNN的QSAR模型的性能和适当比较传统的机器学习模型。
深入学习QSAR的第一次尝试是2012年的默克挑战。 在这个公开的挑战中,团队提供了化合物的预计算分子描述符及其相应的实验测量活动,共计15个药物靶标。 提交的模型评估了他们根据没有发布给参与者的测试集预测活动的能力。 获胜组使用DNN模型,由达尔领导,他是Hinton研究团队的一员。值得注意的是,应该强调的是,该团队没有受过正式训练的计算化学家。 他们来自计算机科学系。
图7.深度神经网络与几种传统机器学习算法的性能准确性(就AUC度量而言),包括:支持向量机(SVM),逻辑回归(LR),k-最近邻(k-NN)和商业实现 解决方案(Pipeline Pilot Bayesian分类器,分别基于Parzen-Rosenblatt KDE的方法和相似性集成方法),用于从ChEMBL获得的策展数据库的活动预测。
图8.当使用多任务深度神经网络(MT-DNN)时,与逻辑回归(LR)、随机森林和单任务神经网络(ST-NN)相比,在3个不同数据库(PCBA,MUV,Tox21)中观察到的准确性(以AUC度量指标) (RF)。
迄今为止,至少有四个DNN报告应用于QSAR,一致的观察结果表明深度学习优于传统的机器学习对手。然而,所有研究都主要集中在生物活性预测上。从概念上讲,DNN在预测其他感兴趣的性质(其可能包括ADMET性质)以及在计算机辅助药物设计的其他部分中的应用(例如在虚拟筛选中)应该具有类似的性能。
根据QSAR和毒性预测的进展,深度学习算法也开始对计算机辅助药物设计的其他方面产生影响。 2013年,Baldi和同事报告使用DNN模型预测分子溶解度[78]。 Pande及其同事还向arxiv提交了此方向最近的研究进展,他们开发了一个多任务DNN模型,用于预测不仅溶解度,而且预测ADMET性质的整个范围。深度学习在虚拟筛选方面也可能具有未来作为现有对接方法的可行替代或补充。 2016年,AtomNet提交了一份arxiv论文,该公司开发了一种DNN模型来分类停靠在蛋白质结合口袋中的小分子的活性[87]。值得注意的是,AtomNet DNN模型能够达到0.7到0.9之间的AUC指标,具体取决于所使用的测试集,它明显优于传统的对接方法,特别是Smina,[88] AutoDock Vina [89]分叉0.1到0.2。 [87]关于与计算生物学更紧密结合的应用中的深度学习的其他近期发展,我们向读者推荐以下关于该研究课题的评论。[90]
计算结构生物学
当蛋白质序列折叠成其三维结构时,预测蛋白质序列的任何两个残基的空间接近性称为蛋白质接触预测。对顺序不同残基之间接触的预测因此对其3D结构施加强约束,使其对从头蛋白质结构预测或工程特别有用。虽然使用基于物理学的模拟方法,如长时间尺度分子动力学[91,92]可用于从头算蛋白质结构预测,但计算需求是艰巨的。 Wolynes,Onuchic等人开发的互补方法,如基于知识的物理方法也是一种选择[93,94],虽然它们的计算成本较低,但仍然要求足够高,以至于不能用于大规模研究。因此,机器学习方法是可行的替代方案,包括基于人工神经网络,[95-97] SVM,[27]和隐马尔可夫模型[98]的方法。其他方法包括基于模板的方法,这些方法使用同源性或线程方法来识别结构相似的模板,以推断蛋白质接触预测。[99,100]接触预测因子的这些不同模型的评估是蛋白质关键评估的亮点之一结构预测(CASP)的挑战始于1996年。尽管多年来有所改进,但远程接触预测历史上已经达到了精确度低于30%的玻璃上限。计算蛋白质结构预测的关键历史发展是大量的,我们引用感兴趣的读者对这个主题的现有评论。[101-104]为了这次审查的目的,我们将讨论范围限制在最近的DNN-基于模型的模型,以及它们如何对突破玻璃天花板的历史预期至关重要。
2012年,Baldi和同事们开发了多阶段机器学习方法CMAPpro,将接触预测的准确性提高到36%[105]。 CMAPpro在早期模型中实现了三项具体的改进。首先是使用二维递归神经网络来预测二级结构元素之间的粗糙接触和取向。此外,一种新型的基于能量的神经网络方法被用来改进来自第一网络的预测,并用于预测残留物接触概率。最后,DNN架构被用来通过整合空间和时间信息来调整所有残差 - 接触概率的预测。 CMAPpro接受了来自ASTRAL数据库的2356个成员训练集的训练。为了交叉验证的目的,该组被分割成属于不同SCOP折叠的10个不相交的组,这意味着无论是训练还是验证都设置共享序列或结构相似性。然后对所产生的模型性能进行测试,对照在ASTRAL数据库版本1.73和1.75之间报告的364个成员的新蛋白质折叠测试集。将CMAPpro性能与多级机器学习模型的几种排列进行比较,包括单隐层神经网络(NN),单隐层神经网络,其利用由2D递归神经生成的粗接触/定向和对准预测器网络和基于能量的神经网络(NN1CA)以及深度神经网络,但没有CA特征(DNN)。基于相对性能,深度网络架构和CA特性都需要达到36%的准确度; DNN和NN1CA各占32%,而代表先前技术水平的NN仅达到26%的精度。
Eickholt和Cheng在2012年也报道了DNN用于蛋白质接触预测的不同实施。[107]在他们的算法DNCON中,它将深度学习与用于开发集合预测器的提升技术相结合。使用来自蛋白质数据库的1426个成员数据集来训练DNCON,训练(1230个成员)和确认(196个成员)组之间随机分配。显式设计的特征被用作DNN的输入。具体而言,使用了三类特征:(i)来自以所讨论的残基对为中心的两个窗口的特征(例如,预测的二级结构和溶剂可及性,来自PSSM的信息和可能性以及Acthley因子等),(ii) )成对特征(例如Levitt的接触电位,Jernigan的配对潜能等)和(iii)全局特征(例如,蛋白质长度,预测的暴露的α螺旋和β片层残基的百分比等)。使用这些工程功能,DNN模型的任务是预测是否有特定的残基对接触。此外,分类器的增强集合是通过使用从训练集中获得的较大池中的90,000个长程残留 - 残留对的样本训练几个不同的DNN而创建的。在评估其性能时,DNCON的交叉验证准确率为34.1%。该模型的性能可转移性在其性能基准中与CASP9,[108] ProC_S3,[28]和SVMcon [27]中两个分别基于RF和SVM算法的最佳预测指标进行了对比。在该评估中,每个软件都使用了相应的测试集。虽然改进不如Baldi及其同事报道的那么戏剧化,但DNCON的性能比当时最先进的算法好3%; ProC_S3(32.6%比29.7%)和SVMcon(32.9%比28.5%)。
随着在其他领域重复出现深度学习优于传统机器学习算法[18,32-35]以及计算机辅助药物设计本身[62,67,69],DNN在推动“玻璃”天花板“蛋白质接触预测和二级结构预测的界限应该不令人意外。本次审查中显然缺乏的是深度学习在RNA结构预测和建模中的应用,据我们所知尽管尚未报道。与蛋白质数据库相比,RNA上的可用结构数据更小。此外,大多数RNA结构数据不是结晶学的,而是基于核磁共振的,由于NMR结构本身是用基于物理学的力场对抗实验有界的约束来近似解决的事实,其自身受到较高的不确定性[121]。尽管如此,研究深度学习如何使RNA建模社区受益将会很有趣。
最后,与计算机辅助药物设计相比,在计算结构生物学应用中使用深度学习的一个有趣的对比是对工程特征的独占使用,并且在一些情况下,多级机器学习算法本身的体系结构的工程设计。 虽然计算机辅助药物设计领域的发现是初步的,但有一些迹象表明,明确设计的特征不一定能更好地对抗化学指纹,这可能需要较少的化学领域知识来构建。 尽管我们承认蛋白质比小分子复杂得多,但确定使用仅包含基本结构和连接性信息的输入数据的DNN模型的性能(没有任何特别设计的特征)是否能够准确预测诸如 蛋白质二级结构和远距离接触。
量子化学
使用机器学习补充或取代传统的量子力学(QM)计算已在过去几年出现。在本节中,我们将研究一些机器学习应用到量子化学,并检查类似的基于DNN的模型的相对性能。 2012年,von Lilienfeld和同事开发了一种基于非线性统计回归的机器学习算法,以预测有机分子的雾化能量[29]。该模型使用分子生成数据库(GDB)的7000个成员子集,该数据库是109个稳定且可合成处理的有机化合物库。用于训练的目标数据是使用PBE0杂种功能计算的7000种化合物的原子化能。没有明确的分子描述符被用作输入数据,相反,只有笛卡尔坐标和核电荷用于“库仑”矩阵表示。可以说,没有明确设计的特征,输入数据中的这种表示与传统分子建模方法中使用的分子指纹所提供的表达水平相同。 von Lilienfeld及其同事使用的化合物只有1000种,平均绝对误差(MAE)准确度为14.9 kcal / mol。进一步的外部6000化合物验证组测试产生了15.3 kcal / mol的相似准确度,证明了该模型在“同类”化合物中的可转移性。这项工作特别具有开创性意义的是合理概括QM计算能量的能力,平均绝对误差为15千卡/摩尔,根本没有在机器学习算法中实现薛定谔方程。更重要的是,考虑到这项工作使用了缺乏DNN优势的传统机器学习算法,并且基于DNN的历史性能,这表明基于DNN的模型应该表现得更好。
2013年,冯·利林菲尔德报道了第一个多任务DNN模型的应用,该模型不仅可以预测原子化能,还可以预测其他几种电子基态和激发态性质。在这项工作中,他们试图利用多任务学习的优势,通过预测几种电子属性并潜在地捕捉看似无关的属性和理论水平之间的相关性。数据用“库伦矩阵”的随机变量表示。[122]目标数据是使用几种不同的理论水平计算的原子化能量,静态极化率,前沿轨道特征值HOMO和LUMO,电离势和电子亲和力,例如PBE0,ZINDO,GW和SCS。原子化能量保持了0.16eV(〜3.6kcal / mol)的相似MAE精度,并且对于其他能量预测(包括HOMO,LUMO,以及其他)的MAE的准确度为0.11至0.17eV(≥2.5至3.9kcal / mol)电离电位和电子亲和力[123]。此外,这种精确度与用于构建训练集的质量管理计算中使用的相应理论水平的误差相似。
计算材料设计
量子化学领域的DNN应用的逻辑扩展是预测和设计与QM计算的特性相关或基于QM计算的特性的材料特性。定量结构特性关系(QSPR),是QSAR在非生物领域的类似版本,是预测物理性质的科学,其从更基本的物理化学特性出发,在之前的出版物中得到了广泛的综述。[129,130 ]与现代药物开发早期相似,物质发现主要是由偶然性和机构记忆驱动的[131]。这使得该领域成为探索性的试验方法,而分子材料设计的关键瓶颈在于实验的合成和表征。近年来,计算和合理材料设计的范例已被封装在材料基因组计划下[132,133]。由于这一领域的新颖性,在本节中,我们将研究使用计算材料的机器学习的一些关键成就设计并突出深度学习应用场景。
虽然材料设计中的DNN应用仍处于起步阶段,但看看它的应用如何应对传统QSPR应用和即将进行的合理材料设计工作(如预测荧光团的光谱特性[135,136]、离子液体的特性[137]、和纳米结构的活性[138]))将会很有趣。
关于深度学习和黑盒子特性的保守看法
机器学习算法虽然可能不是我们领域许多从业人员首选的工具,但无可否认在化学信息学领域以及QSAR和蛋白质结构预测等应用领域有着丰富的历史。虽然有人可能认为深度学习在某种意义上是以前的人工神经网络的复兴,但过去十年的算法和技术突破使得开发出惊人复杂的深度神经网络,允许训练具有数亿权重。加上数据和GPU加速科学计算的发展,深度学习推翻了计算机科学领域的许多应用,如语音识别和计算机视觉。鉴于化学领域中类似的相似之处,这表明深度学习可能是一个有价值的工具,可以添加到计算化学工具箱中。正如表1所总结的那样,它提出了基于DNN模型的关键初步出版物,我们注意到深度学习在计算化学许多子领域的广泛应用。此外,基于DNN的模型的性能几乎总是等同于现有的最先进的非神经网络模型,并且有时提供了优异的性能。然而,我们注意到,如果要比较DNN为其语音识别和计算机视觉的“母体”领域带来的改进,许多情况下的性能提升并不显着。解释化学领域缺乏革命性进展的一个缓解因素可能是数据的相对稀缺性。与数据便宜的计算机科学领域不同,尤其是从互联网或社交媒体获得的数据时,由于需要进行实际的实验或计算以生成有用的数据,所以化学中可用数据的数量可以理解为更小且更昂贵。此外,化学领域已经存在了几个世纪,并且考虑到化学原理基于物理定律的事实,例如分子描述符等特征的发展来解释化合物溶解度是不难想象的,例如,比开发功能来解释狗和猫之间的差异更容易,这是计算机视觉中的一项常见任务。因此,在化学中具有更精确和更好的工程特征,我们也可能看不到如此大的初始性能改进,尤其是对于相对简单的化学原理或概念。
此外,作为计算化学家,与工程师或技术人员相比,更重视概念理解,这可以说是计算机科学领域中比较流行的思维模式。 在这方面,深度学习算法目前在两个账户上不足。 首先,它缺乏基于实际物理定律的第一原理模型的概念优雅,第二,DNN本质上是一个黑盒子; 很难理解神经网络“已经学会”什么,或者它究竟如何预测感兴趣的属性。
为了解决概念优雅的第一个问题,从某种角度来看,这种反对可能更多地是科学偏好的哲学论证。在大多数计算化学应用中,除非人们精确地求解薛定谔方程,我们知道除了双体系统外其他方法都不可能,我们必须对模型进行近似。从这个意义上说,几乎所有的计算化学都是凭经验确定的,有时甚至直观地确定了薛定谔方程的“真实”第一性原理的近似值。为了说明这一点,让我们来看看古典分子模型力场的历史发展,如CHARMM [42]和AMBER。[43]例如,二面角力常数的参数化在历史上一直针对QM计算值,即以经验证的物理原理为基础的“真实”值。然而,由于真实分子的动力学行为不具有叠加作用(这本身就是经典分子模型的另一种近似),最近的重新参数化已经开始修改二面角参数,以经验拟合实验NMR分布,尽管这可能导致偏差[142,143]同样,模拟静电力的伦琴相互作用的选择也只是近似正确的,模型带电离子相互作用的最近参数开始已经开始拟合各种实验观察值,例如渗透压值,以及在建模特定的静电相互作用对时引入非物理修正项[144-146]在这些例子中,必须从第一原理进行逼近,而这个过程是一个基于经验数据或有时“化学直觉“ - 就像Raccuglia等人。已经表明,不是绝对可靠的,并不总是更准确。[131]在计算化学家所做的工作过于简单化的风险下,现有计算化学模型的发展可能被视为一种精细的曲线拟合练习。与其使用人类专家知识,可能的替代方案可能是使用深度学习算法来“建议”,或者甚至可能帮助我们“决定”应该做出什么样的近似以达到期望的结果,以朝着未来的范式转变基于DNN的人工智能(AI)辅助化学研究。这自然会导致深层学习的第二个缺点 - 不可避免的问题 - 我们如何知道深度学习模型正在学习正确的物理或化学?
我们会承认,在目前的实施中,深度学习算法仍然是一个黑匣子,并且询问它“学习”的内容是一项极具挑战性的任务。尽管如此,诸如SVM和RF之类的黑盒算法也被用于几种计算化学应用中,特别是在主要用作工具的示例中,和/或用于预测如此复杂的属性,以至于即使对于问题不一定有助于其预测。我们承认,要推动深入学习不仅仅是化学家工具包中的另一个工具,并且为了获得更广泛的适用性和科学研究的采用,显然DNN的可解释性的提高是最重要的。虽然神经网络的可解释性历来不是这一领域的从业人员强烈的研究焦点,但值得注意的是,近期有关提高可解释性的一些发展已有报道[147,148]。其他可行的选择包括使用不同的基于神经网络的机器学习模型,如为解释性而设计的影响相关性选民(IVR)。正如Baldi及其同事所做的一些计算化学应用所证明的,IRV是一种低参数神经网络,通过非线性地结合化学邻居在训练集中的影响来改进k-最近邻分类器。 IRV影响也被非线性地分解为相关成分和投票成分。因此,IRV的预测本质上是透明的,因为通过检查每个预测的影响可以从网络中提取用于进行预测的确切数据,使其更接近“白盒”神经网络方法[149,150]
结论
与目前计算化学中使用的传统机器学习算法不同,深度学习在其使用非线性函数的层次级联中有所区别。这使得它可以学习表示并从预测理想的物理化学性质所需的原始未处理数据中提取出必要的特征。正是这一特点使得深度学习在其语音识别和计算机视觉的“母体”领域中产生了重大影响和变革性影响。在计算化学中,其影响更近,更具初步性。尽管如此,根据近期一些研究的结果,我们注意到深度学习在许多计算化学领域的广泛应用,包括计算机辅助药物设计,计算结构生物学,量子化学和材料设计。在我们所研究的几乎所有应用中,基于DNN的模型的性能常常优于传统的机器学习算法。
随着问题复杂性的增加,能够应用多任务学习(即需要更多的不同属性的预测),随着数据集大小的增加,我们也看到了深入的学习从经常表现出色到始终优于传统机器学习模型。此外,一些初步研究结果表明,诸如分子描述符等明确设计的特征可能不需要构建高性能DNN模型,并且以分子指纹或库仑矩阵形式的简单表示可能就足够了。这是因为DNN能够通过隐藏层提取出自己的特征。甚至有迹象表明DNN“学习”的特征符合实际的化学概念,如毒素。加上最近关于提高神经网络可解释性的研究,它表明DNN在计算化学中的未来作用可能不仅仅是一种高性能的预测工具,而且可能也是一种假设生成装置。
参考文献
Goh G B, Hodas N O, Vishnu A. Deep learning for computational chemistry[J]. Journal of Computational Chemistry, 2017, 38(16):1291-1307.
AI 深度学习 神经网络
版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。