关于机器学习的三个阶段
935
2022-05-29
1、AIOps简介
AIOps全称为 Artificial Intelligence for IT Operations,即人工智能IT运维。AIOps平台利用大数据,现代机器学习和其他高级分析技术,以主动、个性化和动态的见解直接或间接地增强IT操作(监视,自动化和服务台)的功能。AIOps平台可以自动在基础架构和应用程序域之间收集数据,从而在日志、性能警报、故障单,以及其他项目中查找数据。在这个过程中,AI可以自动识别基础设备、正在运行的应用程序和业务交易,并将其与上下游数据进行关联。
那如何让机器通过收集到的日志、性能警报、故障单中的数据识别警告,是实现AIOps的关键。
2、AIOps在电信网络运维实践
2.1、电信网络系统运维现状
目前电信网络系统运维挑战:
设备及软件种类多,安装部署环境复杂;
网络拓扑结构复杂,故障传播链长;
牵涉的组织、部门多,闭环难度大;
事故影响大,责任重;
电信网络系统运维目标:
故障定界、定位:快速定位故障,从故障中恢复;
KPI异常检测:及早发现、预报事故苗头;
电信网络运维有利条件:
日志齐全
命令日志、告警日志、KPI统计数据
可用于构造现网拓扑图,可挖掘故障,告警间因果关系
文档丰富
产品文档、运维文档、社区经验共享
可挖掘故障、告警间因果关系
2.2、故障告警根因定界
现状:
业务专家手工建立因果关系:因果关系是建立在schema的,不是实体上的;
专家人工分析症状传播图、猜测故障根因、并检查确认、故障恢复;
期望:
自动发现症状间因果关系;
推荐可能根因故障;
长期目标:自动检查确认、故障恢复;
2.3、KPI异常检测
2.3.1、固定阈值与时间序列法
网络运维KPI异常检测的痛点
指标数量多,人工难以全面控制;
场景变化多,难以自动更新适配;
固定阈值存在告警不准,或者告警遗漏问题;
基于时间序列的异常检测方法的问题
将时间序列当做上下文的波动曲线;
人工标准的标准无法定义;
给定上下文,业务目标的条件下谈异常才有意义;
2.3.2、利用上下文信息
原理:
目标KPI:运维团队的考核指标,异常条件人工定义;
辅助KPI:根据对目标KPI的直接或间接影响判断是否异常;
流程:
训练时,自顶向下为KPI关系图上的节点建立异常分类器,上层节点为下层节点传递监督信息;
检测异常时,自底向上检测,底层的异常可能在上层过滤;
KPI数量庞大,可以人工为一些代表性节点建立分类器,其它节点自动生成分类器。
2.4、文本规则知识抽取
针对在电信网络系统运维中存在的问题,可通过文本规则知识抽取的方法来解决。
2.4.1、会话语义解析
技术特点:
Seq2Tree Deq2Pointer-Generator等模型;
输出有预定义的Schema;
局限性:
公开数据集与技术文档差别大
2.4.2、话语表示结构解析
技术特点:
Seq2Seq等模型;
输出包含时态、模态信息;
局限性:
公开数据集与技术文档差别大;
标注成本高;
2.4.3、语义依存分析
技术特点:
Seq2Tree、transition-based等方法;
局限性:
对长语句、复杂语句效果不佳;
专业术语对效果影响较大;
2.4.4、采用分治法做语义理解
复合名分割与定义分析:获取症状、条件之间的关系;
短语、实体抽取与语义分析:获取实体位置、约束;
简单名语义分析:获取症状类型
2.4.5、复合句分析
挑战:
同一语句包含多种句法关系
十多种常见句法关系
隐匿句法关系(没有连接词)
复杂的语句结构
解决办法:语句分割
技术方案:
BERT-CRF
SegBot
3、华为AIOps介绍
华为AIOps服务作为网络AI引擎NAIE的核心能力,提供一系列AIOps原子能力以及组合编排能力,可以灵活适配各类ICT运维业务场景,助力高效快速地实现智能化运维,提升运维工作效率。华为AIOps服务具有3大核心价值。
1)集成电信知识经验和最佳AI算法实践的原子能力,覆盖主流网络运维业务场景
华为NAIE AIOps服务围绕故障预测、故障检测、根因诊断等场景,提供超过20种AI原子能力,覆盖网络运维业务大部分流程和运维业务需求,如流量预测、KPI异常检测、日志异常检测、CHR异常检测、异常关联分析、事件聚合、根因定位等。这些原子能力是基于华为电信网络知识的积累、高质量的数据样本,结合最佳算法调测实现,在拥有模型高精度的同时,也有较好的的模型泛化能力。以根因定位为例,AI传播图积累多个领域故障传播规则,覆盖无线、数通、传接等场景,只需选定场景,告警自动通过AI传播关系推理出故障根因。
2)编排框架零编码快速实现智能运维应用,大屏效果实时可视
NAIE提供的编排框架操作简单灵活,使用者可选择业务场景所需的AIOps原子能力,通过可视化方式完成流程串接,只需从组件库中拖拽数据及原子能力进行组合,即可完成应用场景端到端的图形化编排。并且,支持进行业务泛化的参数配置,包括数据接入方式、模型参数、内置电信领域泛化参数,真正支撑使用者零编码、低门槛进行作业,高效构建AI应用。同时,NAIE AIOps的编排框架还提供数据可视化服务,支持轻松按需搭建可视化大屏,其包括丰富的2D/3D可视化组件,如图表控件、地图控件、交互控件以及媒体控件等,拖拽式自由布局,快速实现DIY可视化大屏,一键预览,业务结果快速呈现,实现运维应用效果的实时可视。
3)针对典型场景,提供开箱即用的APP
NAIE AIOps服务目前针对运维最常见的业务场景,提供数十个开箱即用的APP,覆盖运营商网络、园区网络、DC网络、IT应用四大领域。运营商领域,提供跨域故障识别分析、核心网日志异常监测、基站流量预测、无线性能分析等应用;针对园区网络,提供园区5G设备故障监测、园区网络智能巡检、光模块故障预测等;在DC领域,提供硬盘故障预测、DC PUE优化、供电锂电故障预测、DC安全智能巡检等;另外在IT应用领域,提供IT应用健康监控、云服务日志异常监测等智能运维应用。
基于华为NAIE AIOps的智能化应用已经在全球110+局点实现部署和运用,效果明显。其中,智能检测系统能够提前识别网络故障,助力运营商及早发现问题和进行相关恢复处理,降低业务的影响。数据中心的智能节能方案,通过AIOps服务可以快速完成模型的泛化和方案的部署,在多个数据中心运用中,带来5%~10%的PUE降低。
华为AIOps服务,沉淀了10+开箱即用的智能APP,覆盖运营商网络、园区网络、数据中心网络和IT应用等领域,可加速网络AI应用落地,预集成丰富的AI原子能力,覆盖故障预测、检测、诊断、识别等环节。支持用户零编码开发AI应用,提升运维效率。
4、华为AIOps主要功能
华为AIOps服务具备如下功能:
4.1、数据采集治理
AIOps预置数据采集治理能力,提供一站式的数据采集、解析、治理等基础工具链,以及智能辅助数据标注能力
4.2、应用流程设计
提供零编码流程开发能力,针对不同场景,灵活自定义应用流程。
4.3、应用大屏设计
拖拽式自由布局,快速实现DIY可视化,轻松搭建大屏,一键预览。
4.4、应用货架
沉淀典型应用资产,帮助用户轻松部署、运行AI应用。
4.5、原子能力扩展
支持用户导入自定义的AI原子能力,高效扩展应用。
5、华为AIOps亮点优势
5.1、数据易对接
支持SFTP、Kafka、Rest等通用采集协议,支持华为30类网元、100多种主流设备的自动对接,满足ICT网络领域端管云的数据采集需求。
5.2、丰富的AI原子能力
20+原子能力覆盖预测、检测、诊断、识别等网络运维场景,通过100+现网局点验证,异常识别与故障诊断准确率达90%,并支持用户自定义扩展。
5.3、开箱即用的AI应用
沉淀数十个经过专家调优与局点验证的开箱即用APP,用户只需配置数据源,即可启动APP运行。免去了应用流程、可视化大屏的设计耗时,将AI应用的开发部署过程缩短到分钟级。
5.4、零编码场景化流程编排
基于丰富的原子能力,简单拖拽式设计APP流程,系统自动完成节点间的数据衔接,并根据原子能力关系,自动推荐下个可能需要的节点,避免了用户从组件库中反复筛选验证的过程,降低AI应用开发门槛。
5.5、可视化大屏按需定制
提供80+的2D/3D可视化组件,轻松DIY出包含趋势、报表、网络关系等元素的可视化大屏,通过自定义SQL灵活检索APP数据。同一APP下的多个大屏,可通过环境变量相互传参跳转,将统计呈现与钻取分析的多个页面融为一体,有效地提升运维效率。
6、华为AIOps应用场景
6.1、运营商网络智能运维
在网络日常监控中,实现KPI的智能异常检测,并进行异常隐患的预测;对KPI异常、设备告警等多维数据融合分析,智能识别根因网元和故障,推荐故障恢复措施。KPI异常检测准确率85%,根因识别准确率90%,有效提升运维效率,保障用户体验。
6.2、数字园区智能运维
在园区、智慧工厂的5G、WIFI网络中,采集网络传输、终端设备的性能、告警数据,实现网络性能智能监控与终端体验分析,故障提前预测,分钟级完成故障处理,保障生产设备实时在线,促进产线健康高效生产。
6.3、数据中心智能巡检
数据中心的网络规模大、设备布置分散,多厂商新老设备并存,较多设备无法联网支持在线监控,依赖运维人员定期巡视,效率低下,问题发现不及时。借助设备区域的监控图像,实施火情、关键设备开关与指示灯状态异常检测等,实现远程智能巡检。
6.4、IT应用健康监控
IT应用监控存在指标多,检测不准确,故障定界分析耗时等问题,通过采集IT应用日志,集成日志异常检测、KPI异常检测和根因定界等AI原子能力,实现接口时延、成功率等指标的实时异常监控,结合服务告警、调用链等信息,5分钟诊断故障根因,提升运维效率。
7、常见问题
7.1、用户的数据怎么对接到AIOps服务?
可以选择如下对接渠道:
OBS
数据目录
本地上传
更多渠道将陆续上线。
7.2、用户如何查看输出结果?
用户可以通过DLV大屏能力,丰富的图形化来呈现结果。
用户可以通过自助运维工作台,灵活的查询数据结果。
7.3、用户如何编排流程?
AIOps提供零编码流程编排能力,针对不同场景,可视化拖拽式编排:
场景化灵活组合
零编码,降低开发难度
拖拽式原子流程编排
预置20+原子能力
集成50+通信领域AI算子&项目模板
封装100+通信领域AI SDK
集成RPA实现数据采集和结果推送
扩展性强
快速集成第三方原子能力
支持自配置数据类型
支持自定义处理脚本/视图 /记录集等
7.4、用户如何制作一个原子能力包?
AIOps提供上传自定义原子能力包的能力。
首先我们需要了解如何制作一个原子能力zip包,zip包内容和目录结构必须遵循如图1所示,否则会上传失败。
图1 zip包内容和目录结构
表1 原子能力zip包目录结构
目录/文件
详细说明
来源
SampleDatas
存放初始的样例数据,供用户体验上传,可以为空。
可单击“应用货架”,单击“原子能力列表”页签,在“原子能力列表”页面中单击“新建”,在弹出的“组件导入”页面,选择“配置文件”参数对应的“配置文件样例下载”获取。
Others
预留目录,可以为空。
-
Model
存放通过模型训练生成的模型包。
通过模型训练生成模型包的具体步骤请参考快速入门。
metadata.json
原子能力配置文件介绍如下文所示。
可单击“应用货架”,单击“原子能力列表”页签,在“原子能力列表”页面中单击“新建”,在弹出的“组件导入”页面,选择“配置文件”参数对应的“配置文件样例下载”获取样例模板metadata.json。
原子能力配置文件介绍
文件介绍
原子能力描述文件,是AIOps服务提供的配置文件。原子能力按要求配置注册后,AIOps服务就能准确识别各原子能力(包含原子能力基本信息,原子能力支持的数据结构,原子能力的标注信息,以及AIOps和原子能力之前的通信方式)。
7.5、APP启动无数据流
APP应用启动时数据对接连接后却无数据输出。原因是“数据对接”内未选择数据源。
1、创建APP应用的时候未勾选数据源。
2、双击“数据对接”,勾选数据源,单击“确定”。
3、如果数据源是灰色不给选择,请查看原子能力的输入数据类型和数据源的输出数据类型是否相同。
4、选择正确的输入输出类型后,才会产生数据流。
7.6、模板导入失败
导入模板失败的原因可能是模板名称和版本已经存在,或者模板的内部json结构与样例文件的结构相同。
当上传名称已经存在的模板时,模板导入失败并提示模板名重复。
2. 查看模板内的“templateName”字段名是否已存在与模板列表中
8、成功案例
华为南方工厂
华为南方工厂的5G数字化园区,网络设备类型多,跨核心网、无线、传输多领域。出现故障时,要求分钟级响应,而人工处理时间达小时级。AIOps为华为南方工厂提供的网络体验与故障分析应用,实时采集工厂内跨领域设备的性能与告警数据,通过KPI异常检测、故障根因识别的AI能力,以及自定义的可视化大屏,实现设备故障分钟级精确识别与诊断,故障根因主动通知到运维人员,将故障处理周期缩短50%以上,显著提升了网络运维效率。
9、总结
AIOps平台是IT运营的下一代解决方案,IT平台的复杂度和集成度将继续以指数级增长,而人的能力相对保持不变,从而变成制约业务发展的内在原因,而AIOps可以真正提升运维效率,提升洞察力,让运维人员关注真正需要关注的事情-用户满意度。
10、其它
本文整理自华为云社区【内容共创】活动第13期。
查看活动详情:https://bbs.huaweicloud.com/blogs/330939
相关任务详情:任务10:如何让机器听懂我的“警告”?网络AIOps应用实践
AI
版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。