关于机器学习的三个阶段
982
2022-05-29
深度学习作为一个相对成熟的AI技术,在过去作为互联网红利的出口被广泛应用在工业级生产和企业的发展中,但随着数据量的指数级增加和规则型数据类型的限制,深度学习的业务场景拓展变得更加困难。于是,市场开始将目光放在了图神经网络(GNN)技术上。图神经网络能够做出更精准的预测,为每一位用户提供不同的个性化服务,实现精准化营销,这也是如今互联网企业进行二次转型的技术突破口。
图神经网络的行业应用
当前的主流深度学习还是CNN、RNN等技术(对应图像识别、文本挖掘等领域)。但传统深度学习技术(CNN、RNN)并不能有效的处理结构数据,如金融领域、基因蛋白质网络、社交网络、商品推荐等。如果深度学习想要拓展到更多的关系场景,在图数据上的高阶学习采用图神经网络(GNN)技术将会取得更佳的效果。
金融网络:金融行业的数据网络是由资金交易网络,社交关系网络,媒介网络等构成的天然数据网络。并且金融网络作为最有价值的图网络之一,图神经网络GNN能挖掘出数据中巨大的潜在价值。其中一个模块是对客户的筛选,金融用户的获客成本高达几百,但图神经网络能够给予拓扑信息进行特质提取挖掘出最有价值的潜在客户,深层挖掘客户潜在需求,帮助金融业务提升效率、提高盈利。另一模块是风险控制:金融行业内部存在大量风控需求,如反洗钱、防身份欺诈、防车险骗保、防金融欺诈、信用卡伪造交易套现等等。图神经网络的拓展性和线上预测能力能够根据资金交易关系网络构建动态图模型,发现个体或群体的异常交易行为,对金融业务中的每一笔业务进行风险预测。
社交网络:社交网络是另一个典型的天然图网络,根据六度空间理论,我们的社交网络存在高度重合性。利用图表征学习和图嵌入技术,图神经网络可以在社交网络和电商领域等深度网络结构场景中,构建监督或者半监督框架进行关系挖掘和高匹配度推荐操作,挖掘更多的关系,深层次的发现用户的兴趣,精确用户的属性,为用户提供多样性的服务。现实场景下提高用户精准度意味着可以改变过去传统的高投放的营销方式,极大降低获客成本。图神经网络对于社交网络的应用并不仅限于对于用户(点)的挖掘,还可以对信息的传播方式进行舆情分析,意见领袖(KOL)的挖掘等等。
知识图谱:知识图谱作为图神经网络的应用比起技术本身它的场景更为人所熟知。生活中有很多场景都有知识图谱的身影,如语义搜索引擎,智能客服,生活小助手等。由图神经网络构建的知识图谱可以提供视频/直播字幕、内容审核、智能客服,保险赔付,医疗图谱、知识消岐等服务。借助知识图谱还可以将专属的行业知识定制成图网络,为行业信息进行分析,帮助企业进行转型升级。
基因网络:蛋白质的结构和相互作用关系是一个规则性很强的图网络,整体的蛋白质网络异常复杂,节点数量和边数量非常大,借助图神经网络GNN可以对基因蛋白质网络进行深度挖掘。利用蛋白质的相互作用信息,构建蛋白质相互作用网络、基因共表达网路推断蛋白质结构,从基因序列中预测蛋白质的属性,量化蛋白质和肿瘤异质性。
此外,除了典型的图结构网络,图神经网络还可以用于组织分析,企业投资等等拥有潜在关系的应用场景。通过图的可视化和基本指标来分析组织结构,如HR可以根据人力资源图来判断公司发展处于哪个阶段、结构是否健康、资源倾斜在哪个业务线,分析人力交叉情况、信息流通成本等。
未来,人工智能的运作将会更加接近人脑,图神经网络的出现使人工智能开始理解世界,认识世界,而不再只是进行统计拟合。如何让图深度学习充分挖掘其应用价值实现高维稀疏数据的应用场景落地,将是在接下来的十年中,同质化的企业进行重新洗牌的关键。
以华为云图神经网络为例,解析图深度学习落地的实践
2019年9月20日华为云全联接大会上,华为云重磅发布一站式AI开发管理平台ModelArts2.0。宣布华为云在图深度学习领域做出突破,华为云图神经网络正式落地。
此次ModelArts2.0发布的十余项新特性及服务,包含智能数据筛选、智能数据标注、智能数据分析、多元模型自动搜索、ModelArts SDK、图神经网络、强化学习、模型评估/诊断、模型压缩/转换、自动难例发现、在线学习等,覆盖了AI模型的全生命周期。可以看得出来,华为云ModelArts在下一盘很大的棋,图神经网络的落地是ModelArts在深度学习领域实现因果推理的一次突破,也是实现自动化AI能力必不可少的一环。
目前图深度学习依旧是AI领域最前沿的技术之一,想要设计出符合工业生产标准和企业应用的图深度学习服务仍有许多需要克服的问题。华为云图神经网络已经率先做出突破,并在一站式AI开发管理平台ModelArts完成落地。通过这个项目我们能看到更多图深度学习领域在落地过程中需要解决的问题以及实现的思路。
华为云图神经网络是GES图引擎与ModelArts联手打造的新型图神经网络技术,通过采用分布式图计算平台和深度学习计算平台并行的方式构建新的架构以此来实现大规模图神经网络分析能力。华为云图神经网络的架构师表示华为云图神经网络(GNN)框架设计原则是:职责分明,架构归一。对单个算法,将数据预处理、领域采样等稀疏处理操作下压到图引擎;深度学习层则专注于算子的优化,多种GNN算法框架统一化,复用统一的算子。
图神经网络的发展难题
分布式图计算平台进行大规模图网络处理
当前大部分图神经网络框架都是在处理静态图,这是由于大多数框架是把图神经网络算法当做离线计算任务来对待的,离线计算的数据是不变的(静态),对于每次计算,都需要将完整数据加载一遍,因此不适合处理动态图。但是图数据本身却往往是变化的(动态),算法在运行过程中需要不断的对图进行遍历,然后将图数据从内存中调用给深度学习进行建模,然后还要在建模过程中进行不断的回传,这个问题在小图上不是很明显,但是在亿级图网络中,就会变成严重的性能问题,并且遍历的时间将会呈指数级上升,甚至造成宕机。华为在动态图方面的主张是,采用自研GES图引擎来维护图数据,保证数据可以动态增删改。同时在一份数据上,执行多种不同的算法,无需重复加载数据;尤其是对于大规模图来说,能明显节省端到端时间。目前动态图的处理仍有可优化的地方,比如动态图上的数据更改可以当做是增量数据,最佳做法是设计增量算法来对增量数据进行分析,而不是对全量数据进行邻域采样、随机游走、求梯度等操作。对于增量的图神经网络算法的研究还比较前沿,尚未形成完备理论。
GES图引擎目前拥有20多种图场景算法和大量的图优化算法,性能上能将亿级图查询在秒级计算完成。在图算法上GES图引擎根据工业和企业需求,集成实现PageRank等二十多种常用算法,应用场景覆盖城市工业生产、管道监控、商品推荐、社交推荐、项目分析、企业洞察、知识图谱、金融风险管控、企业IT应用、关系挖掘等多项领域,并支持点查、边查、属性过滤等基本查询将查询存储等功能。
以Pixie算法为例,Pixie算法是华为云尝试了将多元数据构建到同一张图,并在这个异构图上配置相应的schema、点边属性、权重而设计的算法。Pixie算法是一种全新的实时推荐算法,克服了异构图的数据获取和融合问题,支持多请求节点下综合推荐,能满足各种复合型、时变、多样性推荐场景需求;大数据量下,无需预先训练模型,就能适应数据的动态变化,达到较好的实时推荐效果,可扩展性很强。
新框架解决图算法与深度学习的高频交互问题
基于原生图引擎提升数据处理的效率和统一的算法框架,是当前图神经网络平台研发的重难点,而图数据的遍历以及与深度学习的交互会导致图的运算效率大大降低,这也是图深度学习一直无法落地的瓶颈之一。
因此,如果图深度学习想要在性能上有所突破就需要重新设计一个新的GNN框架,以下是AI前线授权得到的华为云图神经网络框架图。
图1:基于图引擎的GNN新框架
(1)基于图引擎的GNN新框架:在ModelArts中的高效神经网络训练算子的基础上,结合GES既有的高性能图计算框架平台能力,利用图引擎高并发、低延时的特点,将GNN的训练过程高度并行化,如将边上的跳转概率估计、顶点邻域采样、负样本构建等等,都化解为每个顶点的局部操作;系统提供了动态调度器,让这些局部操作可高度并行化执行,就能极大提升系统的总体吞吐量。
(2)多种GNN算法框架统一化:使用统一架构实现了非监督的大规模图嵌入(例如DeepWalk, Node2Vec)和半监督的图卷积(例如GCN, GraphSage)等多类GNN算法,降低了系统的维护成本。
图2: 基于统一GNN架构的图嵌入与图卷积计算示意
(3)GNN与图数据管理一体化:企业级GNN应用通常都不会是一次性计算,而且数据规模也很大,因此这些数据必须要被维护和管理起来。而现有的GNN通常不具这样的考量,用户只能另建数据库维护,计算的时候再把数据整体导出。不仅资源消耗大,也引入数据一致性等诸多问题。而GES采用属性图数据模型(Property Graph)和生态兼容的事实标准Gremlin图查询语言进行分布式图数据管理和维护,需要训练的时候则在图引擎内本地调用(in situ)各类算子,并发执行,降低了端到端的性能损耗。
研发人员在相同平台上对比了本产品与多个开源版本在数据预处理、各类采样方式下的实验表现(来自华为云内部数据):
图3: (上)相同平台上与开源版本在数据预处理、各类采样方式下的性能对比;(下)系统可扩展性测试结果
华为云图神经网络借助ModelArts的高效神经网络训练优势,以及GES的高性能图计算优势,大幅度提升了GNN的总体计算效率,以node2vec算法为例,在PPI数据集上,华为云图神经网络从采样到训练可在2min内完成,较传统开源实现提升20倍。
精度和资源的权衡
在图神经网络模型的精度方面,华为云图神经网络通过设置参数调节模型精度,并使用CPU或者GPU来训练图神经网络算法,由于图数据的特殊性,通常情况下,对于大多数类型的数据,CPU训练的性能和效果并不逊于GPU。同时针对图嵌入和图卷积两大类算法,华为云图神经网络采用了不同的优化方式来降低资源占用率,提高计算性能,图嵌入类算法利用并行加速和存储设计进行正采样和负采样的优化;图卷积部分则由于其复杂度高的是layer和layer之间的数学变化,着重优化加速矩阵。华为云方面在未来还会考虑基于自己的人工智能芯片从混合硬件架构进一步提升图神经网络的计算性能。
华为云图神经网络模型的生命周期管理则依托华为云一站式AI开发管理平台ModelArts,训练的模型可以一键部署,且整个数据-算法-模型-推理的生命周期可以通过平台提供的溯源图查看。
目前,业界要实现大规模的图神经网络应用还需要一段时间,但华为云图神经网络的落地为后续开发者提供了可供参考的理论经验和社交,金融,基因,图像语义等多关系场景的实践基础,目前华为云图神经网络已在全球机器学习与数据挖掘类学术会议上发表多篇论文,并获得2019中国人工智能峰会“紫金龙蟠奖”。 图神经网络是人工智能实现真正智能化的一步,也是人工智能开始解决深度学习难以处理的关系数据的开端。从现在开始人工智能够认识并学习世界的复杂关系,相信接下来它会以更多姿态出现在我们的生活中。
https://www.huaweicloud.com/product/modelarts.html
神经网络
版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。