关于机器学习的三个阶段
705
2022-05-29
SoftCOM AI-专注通信领域一站
主讲人:SoftCOM AI云服务专家
黄海军
一、什么是SoftCOM AI?
谈到华为,就不能不提通信,通信是华为的立命之本。那说到AI,同样也离不开通信这个行业。那通信领域主要是要做些什么事情呢?通信领域的AI到底要包含一些什么东西呢?最终我们又希望通过AI技术来把我们的通信网络技术引向何方呢?而本篇文章来就是来回答大家的这些问题的,从而让大家知道通信和AI的关系,以及通信领域的AI主要需要做什么事情。同时也希望能有更多的人对此感兴趣,从而加入到这个行业之中来。通信行业的技术门槛和业务门槛相对来说比较高,为了保证未来我们也能达到通信网络的要求,保证我们的通信技术不落后,我们需要投入更多的开发人员,需要更多的开发人员一起去完成“把数字世界带入每个人,每个家庭,每个组织,构建万物互联的智能世界”的伟大远景。
SoftCOM AI是专注通信领域的一站式AI平台。和ModelArts的一样,SoftCOM AI也是一个云服务,也是做一站式AI开发。和ModelArts的不同点在于:1、SoftCOM AI是面向第一领域的,SoftCOM AI是基于领域来提供服务的,从而让AI开发人员能更快更好地把AI领域多年以来所积累的技术发挥出来。2、SoftCOM AI是面向一站式的部署的,我们为其建立了端到端的应用体系,能让AI的智慧直接变成商业的价值。3、虽然SoftCOM AI底层的训练能力也是利用了ModelArts的能力,但是,SoftCOM AI的体验和ModelArts的体验相比还是有一些差异。
二、电信行业需要引入自动驾驶的网络
2.1、什么是自动驾驶的网络?
自动驾驶的网络不等于自动驾驶的汽车,我们只是将其和汽车的自动驾驶的体系相匹配,来做一个类比。我们可以尝试着去思考或者是畅想一下,和汽车的自动驾驶相比,电信网络的自动驾驶要达到什么样的一个目标,要去解决什么样的问题呢?
2.2、当前的电信网络所存在的问题
当前电信网络存在的最大的一个问题就是:设备的OPEX(Operating Expense)成本是设备的CAPEX(Capital Expenditure)成本的三到四倍。
这是什么概念呢?如果买一台电信的设备假设只用了一元钱,但是却需要花三到四元钱把这个设备用起来并将其运营好。是什么导致了这样的问题呢?
一是资源利用率的问题。举个例子,当很多人齐聚一堂并且都拿出手机使用WIFI来上网的时候,我们会发现网络可能会非常卡顿。而一些举办足球赛的场地,可能有三到四万人聚集在一起,如果我们身处在一个没有自动调节能力的网络中,这时候要是我们拿出手机来上网,我们会发现上网的网速是非常非常慢的。但是有很多区域的网络资源是非常空闲的,并不是说所有区域的网络都这么拥挤,如果能把这些空闲的网络资源都用起来,那么当在场的用户一起上网的时候就不会那么卡顿了。所以在这种情况下,其实我们是很需要去充分地利用这些空闲的资源以及流量来提升用户的体验的。
二是能源消耗的问题。电信网络的数据中心是非常庞大的,同样的,它也有空闲和繁忙的时候。那怎么去降低在没有流量的情况下的能耗呢?举个例子:在公司的时候,我们所使用的WIFI可能都会放在会议室或者是办公室的楼顶上,我们在开会或者是上班的时候需要用到WIFI,但是当我们下班的时候,我们其实就用不到这些WIFI了。那怎么能去智能的对设备进行关断来降低能耗呢?这也是我们需要考虑的一个问题。
三是运维效率的问题。运维对于从事计算机行业的人而言都不陌生,不管是互联网的数据中心还是其他服务的运维都是非常消耗成本的。相比于互联网而言,电信网络更复杂的,它不仅是一个DC内部的维护,它还涉及到每一个数据中心和千家万户之间的维护,比如宽带之间的维护,基站之间的维护等。这样的维护成本当然更加的高,而现在的电信网络的维护大部分都还是依赖人工,这样也造成了其成本异常的高昂。
2.3、自动驾驶的电信网络能带来什么改变?
首先从我们的部署上来看,自动驾驶的电信网络的敏捷程度更高,部署时间更短,原来周级别的部署可以通过自动驾驶调整到分钟级别。然后,传统电信网络中一些需要人工检查的部分在自动驾驶的网络中做到了自动化。原来的人工检查通常是查看设备的一些报警、一些日志以及设备的状态。这些部分我们都可以用AI来实现自动化。还有就是对于能源的消耗以及资源的利用,自动驾驶的电信网络能根据场景下的流量、人员的分布以及接入的压力来做一些智能化的路由和调控。最后,对于自动驾驶的电信网络而言,网络的监控和业务的解决这部分是分离的,我们可以基于业务的智能分析,遇到问题时,先进行恢复然后再进行解决。运维强调的就是快速恢复,所以自动驾驶的电信网络的工作重点是电信领域的预测类、重复类、场景化类的复杂性的问题。通过自动驾驶的电信网络,能更好地降低我们运营的成本并提高效率。
三、华为SoftCOM AI使能自动驾驶网络
3.1、华为实现自动驾驶网络的创新架构
前面部分讲述了什么是自动驾驶的网络,自动驾驶的网络和传统网络相比所存在的优点,那我们是如何通过SoftCOM AI去实现电信网络的自动驾驶呢?
首先,我们有三层智能,云地联动,开放极简的创新架构。
从云端来看,我们有SoftCOM AI的云在进行模型的训练,然后云端将训练好的模型下放到控制单元进行推理决策。而我们也把这些能力都开放出来,用来支撑各种复杂的业务场景。我们开放了很多API,提供了网络规划、网络优化、自动配置和故障恢复等能力。
3.2、实现自动化驾驶网络的规划
我们参考了汽车自动驾驶的分级,按照实现自动化的难易程度把网络的自动驾驶分为了五个层面。从下图中的这五个层面去理解,可以很直观的感受到我们的人工智能逐步地代替人工的过程。
而目前,我们网络的自动驾驶才达到L2的级别,可以看出我们的前景是非常广阔的,我们要做的事情还有很多,而这之中也蕴含着非常巨大的商业价值。后面,当我们的5G上来以后,我们5G的设备的密度会比4G的设备密度更高,在这样的一个体系下面,电信网络的“自动化驾驶”将会是一个非常有前景的事业。
自动驾驶网络分级
我们期待用十年的时间迈入电信网络L5自动驾驶阶段,到那个时候,电信网络就能完全的自动,自愈,自优,自发以及完全自动的解决问题。只有到了L5级别,我们才能说真正达到了电信网络的自动驾驶。我们的商业目标是从2019年到2021年来实现局部的自动驾驶, 2022年到2025年实现高度的自动驾驶,2026年到2030年实现全面的自动驾驶。下面就是我们每一个过程的商业目标。在实现电信网络自动驾驶的过程中,电信网络的成本会不断减少,效率也会有一个较大的提升。
实现电信网络自动驾驶的目标规划
3.3、SoftCOM AI如何使能自动驾驶网络?
首先,需要明白的一点是:SoftCOM AI不等于网络的自动驾驶。如果要达到L5的这种级别,除了SoftCOM AI,我们还需要很多相关的投入,比如设备的升级改造,比如丰富平台上面的CASE。但同时,更多的问题也会暴露出来,因此我们还需要其它的方案去解决这些问题。SoftCOM AI的目标是使能这个网络的自动驾驶,我们希望通过这样的一个平台,来让更多的人去发现问题,解决问题,然后才能一步一步迈向我们最终的目标。
四、华为带来的智能、自治的网络的服务
4.1、智能的,自治的网络应该具有的结构
我们要达到的智能的,自治的网络应该具有什么样的逻辑功能呢?从下图中可以看到这样一个逻辑。
首先,我们把网络从原来的ALL IP演变成我们的SoftCOM,SoftCOM是什么意思呢?就是指网络+云,也就是ALL IP+ALL Cloud。我们把网络按照我们云的架构来进行部署,云的特点就是服务化,能去动态地调节,按需使用,就像是使用自来水一样去使用我们的网络资源。
然后,在基于SoftCOM的基础之上,我们又加上了AI,进一步变成了SoftCOM+AI。我们希望把网络往Intelligent这个方向去发展,去迁移。那我们怎么去实现呢?
第一步:我们需要让云端的AI模型训练平台能持续地接入到网络层,将获取到的数据进行实时地训练并将训练得到的模型实时更新。然后将更新后的模型部署到我们完整的网络中,该网络包含了无线网、圆周网、核心网以及数据中心等。我们所需要解决的问题就是网络的规划、建设、维护和优化。
第二步:使能我们的网络从质量的自动优化、故障的自我修护向自治的网络这个方向进行演变。我们的目标就是要使资源运用效率要倍增,运维效率要倍增,业务体验要提升。
4.2、云服务和SoftCOM AI平台相结合
基于AI的平台的SoftCOM能提供很多能力。通过这些能力,我们能去迁移我们的目标。在云服务的上层,我们能通过云服务去解决识别出来的一些问题,同时,我们能通过云服务的方式提供基站式的智能关断、智能栅格、多载波优化和Massive MIMO的广播约束优化等。而在云服务的下层,我们还提供了云服务的数据流服务、模型服务以及平台服务。
AI的关键是要获得数据,有了数据以后又要考虑怎么去管理数据、治理数据以及清洗数据。而我们的数据湖服务就提供了这样的能力。AI开发者都可以参与到我们平台上面,去基于我们数据湖的服务进行相应的AI模型的开发和训练。
模型服务主要提供的是两类服务:一类是模型的生成训练服务,它的主要目的是训练模型。另一类则是通信服务。这些服务都可以被快速地调用,当使用我们的服务去支撑应用开发的时候,能为开发者节省大量的时间以及成本。
平台的服务就不在此赘述了。
而在最下层,则是我们SoftCOM AI的平台,这里面主要包含了几块内容。从上往下看,首先是AI的模型市场,一些好的模型可以在模型市场进行发布。然后是数据湖,数据湖提供了一些数据处理的工具,包括数据采集的工具。后面是我们的一些训练平台,提供了一些开发的工具、API、SDK以及相应的电信领域的一些知识,方便开发者进行获取并使用。再后面则是推理框架。当我们把模型做成应用包以后,可以很方便地在我们的推理框架上进行部署和应用,从而解决大家在部署以及应用方面所遇到的难题。不是谁都可以在电信网络里进行部署的,这一块主要是由华为提供相应的框架去支持,但一些基于标准的输入仍然是可以在我们的推理框架上进行部署的。
4.3、数据湖服务
数据湖能提供电信领域专业、安全的数据服务,包含了我们的数据资产、数据集。特别要强调的是:我们在数据的安全管控这一块是非常严格的,我们有严格的授权和分享的机制,对于数据的使用过程也有严格的管控,包括整个生命周期的获取、传输、存储、使用还有销毁。我们能让电信领域的数据被高效地治理,能使数据处理的效率提升五倍以上。我们的数据也非常丰富,并且训练集获取的耗时降低了百分之九十。最后,我们是多租户隔离的,我们要实现的是端到端的数据安全。
4.4、训练平台
训练平台主要提供的是训练、开发的作用。我们的底层是基于华为的AI技术站去构建的。我们会在这上面提供电信领域的一些数据,主要提供的是一些结构化的数据、时序类的数据。很多开发者都有分析时序类数据的经验,那么就可以比较轻松的加入我们的AI开发者体系。当然了,如果对这些还不是很熟悉的话,我们也提供了一些SDK来方便开发者的工作。
我们的SoftCOM是一个全球分布式的数据平台,从数据的导入建模、特征的处理、训练的调测、模型验证和模型管理等方面都可以给大家提供很多的帮助。同时,我们还可以集成相关的一些能力,我们的优势主要是利用电信的经验的嵌入来帮助开发者快速地进行开发。同时我们支持联邦学习,以此满足我们的数据安全的需要。好多企业不愿意,也不方便把数据放到一个统一的环境去管理,则可以通过联邦学习的方式进行本地训练,然后在服务器端去集成。我们还支持迁移学习,还有面向向导的开发,通过这些能大大提升效率。
4.5、部署方式
我们的部署形态主要是支持公有云部署,当然也支持混合云和合营云的方式,我们也能支持各种用户的不同的诉求。
我们的部署方式有设备的嵌入、网管的集成、私有云部署以及公有云部署这四种形态,部署方式与我们实际去使用这个模型的场景是密切相关的。
4.6、开放的AI平台
我们的AI平台是非常开放的,并能使得开发效率提升80%。如果开发者觉得他的模型的效果非常好,还可以很快的地我们的平台上进行快速变现的。
五、智能网络的实例
5.1、大型DC冷冻水智能降低PUE
为了让机房里的设备运行稳定,我们往往都会在机房安装一套设备来控制机房的温度。PUE的意思就是:非计算产生的能耗,比如降低机房的温度所产生的能耗与总能耗的比值。我们的目的就是为了让这个比值尽量的小。我们可以通过冷冻方式,通过风冷水冷这样的冷却系统来降低非计算产生的能耗。如果每年我们的机房能降低百分之八到百分之十的能耗,这样,机房能节约的成本就是百万级的。如果我们能做一个相对通用的模型在各个数据中心去部署的话,那我们带来的价值是非常巨大的。
5.2、Massive MIMO广播波束优化
当我们在建模我们的基站的时候,我们需要去调整天线的方向角。我们通常是根据人的经验来去调整,利用人工来完成这样的工作。调整天线的方向角有这么重要吗?如果角度调整得比较好的话,天线能有更大的覆盖面积,能服务更多的人,能让更多的人拥有更好的体验。如果调整得不好,虽然在使用者的附近有一些基站,手机的信号可能依然不是很好。而天线的方向角的调整,是有一些方法的。3G的调节的方法有13种,4G的调节方式则有283种,而5G则有数千种,如果我们依靠人工去一次次地调整,想把天线调整到一个合适的角度,那肯定是很难的。而且人工的成本是相当的高昂的。所以我们希望通过机器学习去自动寻找到这种最优的调节的组合。而我们现在可以通过这样智能的调节,使得该网络下的流量增加百分之十八,能使得该网络服务的用户的数量增加百分之十八。这样,就能帮助运营商减少了很多成本。
六、SoftCOM的业务范围和体验
6.1、SoftCOM的官网
SoftCOM的官网入口:https://www.hwtelcloud.com/
6.2、SoftCOM AI的典型应用
SoftCOM AI的典型应用有:基站能耗节省,降低数据中心PUE,PON的故障检测,核心网的KPI的异常检测,故障工单,VoLTE的故障分析,Massive MIMO波束优化,恶意流量攻击检测等业务场景。
6.3、SoftCOM AI带给开发者的开发体验:
1、通信经验固化为算法模板与服务,用户输入数据即可快速生成模型
2、提供通信领域知识库,算法推荐,开发向导,提升算法开发效率
3、采用多地数据进行联合训练,轻松应对通信行业小数据量,数据缺失的场景
4、向导式开发工具&开放协同支持多框架助力开发者
5、数据中心PUE优化模型训练流程图
七、SoftCOM AI的操作实例
点击视频链接,观看硬盘故障预测工程示例:
https://console.huaweicloud.com/softcomaiportal/docportal/index.html
八、总结
电信行业所面临着一个巨大问题:设备的OPEX(Operating Expense)成本是设备的CAPEX(Capital Expenditure)成本的三到四倍。为了解决这样的问题,华为欲打造电信网络的“自动驾驶”,打造一个高度自治,高度智能的电信网络。而这之中一个重点介绍的部分就是SoftCOM AI,华为通过SoftCOM AI来使能电信网络的自动驾驶,计划用十年的时间迈入电信网络L5自动驾驶阶段,到那个时候,电信网络就能完全的自动,自愈,自优,自发以及完全自动的解决问题。然后,本文重点介绍了两个例子:大型DC冷冻水智能降低PUE和Massive MIMO广播波束优化。在最后,还附上了SoftCOM AI的实际操作的视频链接。同时,我们也希望更多的开发者能加入到这个行业之中来,与华为一起实现“把数字世界带入每个人,每个家庭,每个组织,构建万物互联的智能世界”的伟大远景。
视频链接:https://mp.weixin.qq.com/s/OGqycTRro--aY552b_Z-Aw
AI
版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。