微认证NAIE AutoML 在硬盘故障检测上的应用

网友投稿 671 2022-05-28

NAIE AutoML 在硬盘故障检测上的应用

NAIE平台AutoML框架具备强大的超参优化引擎、集成学习、可扩展、可复现等关键特性,将大大降低机器学习的门槛,显著提高模型开发的效率。

AutoML背景

传统建模主要痛点:

门槛高,不稳定 :AI模型构建需要数据科学家的重度参与,建模的效率和模型的效果严重依赖建模专家的能力和经验

周期长,成本高:建模周期长、模型维护成本高

专业人才短缺:AI需要大量AI/ML专业人才.

缺少调参方法:AI/ML模型选择和调参,尤其是深度学习,完全依靠人力和经验技巧,费时费力,缺少有效的方法

AutoML:自动化,降门槛:构建自动机器学习框架(标准化专家最佳实践,自动化建模过程),提升建模效率,稳定模型质量

可复制,提高效率:提高算法的可复制性,提高模型的推广效率

AutoML技术介绍:方法分类

AutoML:

微认证之NAIE AutoML 在硬盘故障检测上的应用

机器学习:特征工程,模型选择和超参优化

深度学习:神经网络结构自动搜索和超参优化

本次课程主要讲解机器学习的AutoML

AutoML技术介绍:自动特征工程:

数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已

1.特征编码:类别特征编码:onehotEncoder,OrdinalEncoder等

离散化:K-bins离散化,特征二值化等

2.特征升维:多项式变化,指数变换,Box-Cox,分位数变换

a,单特征  b,特征之间

3.特征降维:

特征选择:试图从原始特征搜索特征的子集,常用有过过滤法,包装法,基于模型的方法等

特征投影:将原始特征转换为新的空间,例如PCA,LDA以及AutoEncoder

AutoML技术介绍:模型选择

配置算法和配置超参

超参优化算法

特性介绍-强大的超参优化引擎

强大的超参优化引擎:

支持pipeline的超参优化

支持由数据预处理,特征工程和模型所构成pipeline的超参优化,同时也支持针对模型的超参优化

支持分布式并行加速

支持超参的持续学习

100+50=150

100+50:第一次运行迭代100次,基于第一次任务再增量迭代50次

150:最终得到的结果与单次运行迭代150次的结果保持一致

集成学习:

单一算法:No Free Lunch

集成学习:三个臭皮匠顶个诸葛亮

AutoL特性介绍可扩展

可扩展

1.自定义算法模型

内置通用的几种算法解决不了所有业务问题

业务通常由几个算法组合而成

2.自定义评估指标

优化目标要与业务目标保持—致

业务目标通常与常用的评估指标不一致

如设备故障检测场景中,业务指标是满足误报率( False alarm rate)<=0.1%情况下,查全率( Fault detection rate)要尽量高。

3.自定义交叉验证

在某些业务中,需要对验证的毎一折进行操作

场景应用:分类应用,回归应用和时序分类应用(重点)

硬盘故障检测业务介绍(1)

1.业务问题

数据中心硬件故障中有48%为硬盘故障,且在故障发生后才感知,极大影响运维效率和成本

缺乏有效预测手段,无法提前有计划进行硬件迁移,硬盘长期处于亚健康状态影响业务性能;

2.传统方案

当硬盘出现故障后,加入新的硬盘,然后将数据进行恢复。

硬盘损坏->OSD变化-> CRUSH重新计算-> rebalance->/O增加->影响现网业务

传统的方案存在以下缺点:

1.被动响应:无法提前规划故障处理窗口,无法避免影响现网业务

2.数据修复:故障后进行訚雕度数据修复,需要投入大量人力、物力进行数据的恢复

3.无法预测:无法提前规避故障邻近时的设备不稳定状态对业务造成的影响

硬盘故障检测业务介绍(2)

■AI解决方案

基于硬盘 SMART特征,通过机器茡习实现硬盘故障提前预测故障时间点,估算欻据修复窗口,梖据负载制定修复计划,提前进行修复操作

优点:

1.主动响应,提前规划故障处理窗口,将现网业务的影响降到最小

2.减少大量数据恢复的人力

3.主动规划,预测故障时间点,估算数据提前规划故障的处理窗口,将运维人员被动响应、临时突发的工作状态,转变为主动规划、统一处理的节奏,提高运维人员的工作生活质量

■评估指标

硬盘Case的业务目标为:FAR<=0.1%,FDR越大越好

FDR= False detection rate,査全率,即一块硬盘实际为坏盘,而模型预测为坏盘的概率

FAR= Fault alarm rate,误报率,即一块硬盘实际为好盘,而模型预测为坏盘的概率

硬盘故障检测:传统建模

step1:数据预处理

缺失分析:缺失与标签列的相关性

如何处理:填充/缺失特征生成/....

step2:特征工程

时序特征提取:提取时序的统计特征

特征选择:筛选出重要的特征

step3:模型训练和评估

模型选择:根据经验选择模型

超参选择:根据数据量和特征数选择超参

模型评估:根据业务目标评估模型效果

机器学习 网络智能体

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:使用OBSBrowser实现云盘分享体验
下一篇:oracle asm 磁盘组信息查询相关sql
相关文章