Bioinformatics| 生物医学网络中的图嵌入方法

网友投稿 509 2022-05-30

今天给大家介绍Bioinformatics期刊的一篇文章,“Graph embedding on biomedical networks: methods, applications and evaluations”。文章研究了图嵌入方法在生物医学网络分析上的应用,来自美国俄亥俄州立大学、美国哥伦布国家儿童医院、华中农业大学的研究者完成了该项工作。文章选取了11种具有代表性的图嵌入方法,对3个重要的生物医学链接预测任务:(1)药物-疾病关联(drug-disease association, DDA)预测,(2)药物-药物相互作用(drug- drug interaction, DDI)预测,(3)蛋白质-蛋白质相互作用(protein - protein interaction, PPI)预测; 以及2个节点分类任务:(1)医学术语语义类型分类,(2)蛋白质功能预测进行了系统的比较。通过实验结果证明了目前的图嵌入方法取得了良好的效果,在生物医学网络分析方面具有很大的潜力。

1、研究背景

图(又称网络)是一种非线性的数据结构,为了分析图数据结构,研究者提出了大量的图嵌入(又称网络嵌入或图表示学习)的方法去自动学习图中每个节点的低维特征表示。直观上看,图嵌入方法是通过学习低维表示来保留图的结构信息,从而完成像链接预测,社区检测,节点分类和聚类等相关任务。现在图数据结构已经被广泛用于表示生物医学中的实体(节点)及其关系(边)。分析生物医学的图结构对于像药物重定位,非编码RNA的功能检测以及协助临床的决策等重要的医学任务都有重要的意义。到目前为止,大多数的图嵌入方法都是在社会网络和信息网络上进行评价,而在生物医学网络上还没有进行系统的实验和分析。另一方面,各种生物医学网络分析任务,矩阵分解等传统技术(可视为一种图嵌入方法)取得了可喜的成果,因此有必要系统地评估最近的图嵌入方法(如基于随机游走和基于神经网络)在生物医学任务上的可用性和进一步发展为最先进技术的潜力。(图1总结了将各种图嵌入方法应用于生物医学任务中的流程。)

图1 各种图嵌入方法应用于生物医学任务中的流程

2、主要贡献

(1)提供了现有图嵌入方法的概述,及其在生物医学上三个重要的链接预测任务(DDAs, DDIs和PPIs)和两个节点分类任务(蛋白质功能预测与医学术语语义类型分类)上的应用。

Bioinformatics| 生物医学网络中的图嵌入方法

(2)对于以上5个任务,编制了7个基准数据集(这些数据集来源于常用的生物医学数据库或已有的研究),并使用它们来系统地评估11个不同类别中有代表性的图形嵌入方法(其中5个基于矩阵分解(MF),3个基于随机游走,3个基于神经网络)。对来自大量实验的结果进行了讨论,并且提供了如何选择嵌入方法(包括其超参数设置)的一些见解和指南。

(3)开发了易于使用的Python程序包,其中包含BioNEV(生物医学网络嵌入评估)的详细说明,可见网站: https://github.com/xiangyue9607/BioNEV,包括所有源代码和数据集,以方便研究各种生物医学任务的图形嵌入方法。

3、图嵌入方法概述

在本节中,将图嵌入方法分为三类,分别是基于MF的方法,基于随机游走的方法和基于神经网络的方法,并对这些方法进行了概述。

基于MF的方法:MF已经被广泛用于数据分析,它的目的是将一个数据矩阵分解为低维矩阵,同时保留原数据矩阵中隐藏的流形结构和拓扑特性。传统MF有许多变体,例如奇异值分解(SVD)和图分解(GF)。近年来,研究人员专注于设计各种高阶数据邻近矩阵以保留图结构,并提出了各种基于MF的图嵌入学习方法。文中介绍了GraRep, HOPE,GraRep方法的特点和区别。

基于随机游走的方法:受word2vec模型的启发,针对图数据结构开发了基于随机游走的方法,即通过随机游走生成“节点序列”来学习节点表示形式,然后再对生成的节点序列进行嵌入。DeepWalk是这种基于随机游走进行图嵌入最早的方法之一。与DeepWalk相比,node2vec采用了灵活的偏差随机游走策略, struc2vec可以更好地识别结构标识。

基于神经网络的方法:近年来神经网络模型在许多领域成功应用,在图形嵌入领域也引入了多种神经网络,例如多层感知器(MLP),自编码器,生成对抗网络(GAN)和图卷积网络(GCN)。文中具体介绍了LINE,DNGR,SDNE,GAE,GraphGAN这些方法。

4.1 链接预测

链接预测任务可以表述为:给定一组生物医学实体及其已知的相互作用,去预测实体之间潜在的相互作用。生物医学领域的传统方法主要是通过特征工程来开发生物学特征。之后,监督学习方法(例如支持向量机器(SVM),随机森林)或半监督的图推理模型(如标签传播)也被用于预测潜在的相互作用。这些方法背后的假设是,共享相似生物学特征或图特征的实体可能具有相似的关联。然而,基于生物学特征的方法通常面临两个问题:(i)生物学特征获取困难,成本高且不一定能用。(ii)生物学特征以及手工制作的图形特征(例如节点度),不足以精确的表示或描述生物医学实体,并且可能无法为许多应用程序构建健壮和准确的模型。

自动学习节点表示的图嵌入方法有望解决这两个问题。比如针对三个重要的链接预测任务:1)DDA的预测:基于MF的技术用于DDA的预测,其本质上,是将DDA矩阵分解来学习药物和疾病在潜在空间中的低维表示。在因子分解过程中,可以加入正则化项或约束来进一步提高潜在表示的质量。2)对于DDIs的预测,提出了多种正则化MF,利用Laplacian正则化来学习更好的药物表征。此外,还引入了图神经网络用于DDI的预测。3)PPIs通常使用Laplacian和SVD技术进行预测。现在有研究提出了一种基于自动编码器的模型来学习蛋白质的嵌入,其设计与SDNE相似。

4.2 节点分类

1)蛋白质功能预测

大规模的实验对蛋白质的功能注释非常昂贵,近年来提出了基于图的计算方法广泛地融合了图嵌入的思想。例如,一种基于拉普拉斯核的正则化方法来学习蛋白质的低维嵌入;Mashup方法在PPI网络上执行带有重启的随机游走(RWR),通过低秩矩阵近似方法(可通过SVD优化)学习每个蛋白质的嵌入,再将这些特征向量输入分类器以获得关于基因或蛋白质的功能性信息;DeepGO通过卷积神经网络和图形嵌入方法学习基于蛋白序列的蛋白联合表达和PPI网络(类似于DeepWalk);node2vec嵌入方法在PPI网络上进行蛋白质的节点分类也是非常有效的。OhmNet可以基于node2vec优化分层依赖目标,以学习多层组织网络中的特征表示,用于功能预测;deepNF通过一个深度自编码器来学习蛋白质的嵌入(类似于SDNE)。

2)医学术语语义类型分类

图2 (a)医学术语-术语共现图是如何构建的,(b)图中节点类型的分类

4.3 实验总结

表1

5、实验

表2

表3

表4

表5

6 总结

参考资料

Yue X, Wang Z, Huang J, et al. Graph Embedding on Biomedical Networks: Methods, Applications, and Evaluations[J].Bioinformatics, 2019.

神经网络

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:Xilinx® 7 series FPGAs CLBs专题介绍(二)
下一篇:Java---类反射(1)---类反射入门和基础
相关文章