免费薅ModelArts算力资源-拿下CCF BDCI华为Severless工作负载预测亚军-伙伴云

免费薅ModelArts算力资源-拿下CCF BDCI华为Severless工作负载预测亚军

网友投稿 796 2025-04-04

引入

赛题简介

赛题分析

方案介绍

数据分析

特征工程

模型

训练

ModelArts使用体验

使用感受

划重点-如何申请

引入

笔者是一位机器学习和数据挖掘竞赛的爱好者，经常在天池、DF和DC等平台上参加各种比赛，难免会遇到算力资源不够的情况，本文就介绍了笔者在CCF大数据与计算智能大赛华为赛道中因算力不够而薅华为ModelArts的羊毛（打华为的比赛，薅一薅华为的羊毛不过分吧），并最终获得第二名的历程。下面具体介绍建模方案和ModelArts使用体验。

赛题简介

基于历史数据和历史趋势，对Severless软件架构的工作负载进行精准预测，便于优化资源调整和提升用户服务质量。

数据提供了43个队列数天中的使用情况，其中包涵CPU使用率、磁盘使用率、提交作业数量，作业是否提交成功等信息。要求根据历史信息，预测测试集未来25分钟内，每间隔五分钟的CPU使用率和提交作业数量。赛题链接https://www.datafountain.cn/competitions/468.

赛题分析

这是一道非常典型的时间序列回归问题，目标时对未来五个时间点的CPU使用率和提交作业进行预测。可以从以下几个角度对目标进行建模。

趋势拟合：根据待预测时间点之前的使用率和作业数拟合曲线，并给出预测，参考arima等模型。

单标签回归：以5为时间间隔，对目标进行预测，例如，x1 -> x6, x2 -> x7。具体如下图所示：

多标签回归：参考pandas.shift函数，构造历史信息的平滑特征，每次预测一个时间点的目标。示意图如下：

方案介绍

笔者有幸获得该比赛的第二名（二等奖），建模方法为融合lightgbm和lstm预测结果，其中lightgbm线上第二，lstm线上第10左右。由于本方案采用的lstm结构比较简单且成绩不是特别理想，而第三名的lstm是决赛答辩队伍中线上成绩最高的神经网络模型，因此本文还介绍了第三名（同二等奖）的lstm架构。

数据分析

在特征工程和建模之前，首先来一波EDA~

下图展示了不同队列下的CPU使用率分布情况，可以发现，不同队列下的数据分布存在较大差别，因此队列号对于预测CPU使用率也是一个非常强力的特征。

免费薅ModelArts算力资源-拿下CCF BDCI华为Severless工作负载预测亚军

下图展示了某队列号下CPU使用率随小时的变化趋势，可以发现下午至凌晨3点使用率均较高，因此小时和分钟也是一个非常强力的特征。需要注意的是，赛题方对时间戳的年月日进行了脱敏，因此仅能使用小时和分钟两个特征。

特征工程

必不可少的部分，特征为王

滑动特征：对CPU使用率等特征使用pandas.shift函数构建其平滑特征。

差分特征：在平滑特征的基础上构造各阶差分特征。

基于滑窗的统计特征：在平滑特征的基础上开一个窗口，然后滑动，每次取窗口内特征的均值、方差、最大值等统计特征。

聚合统计特征：例如历史数据中不同小时下CPU使用率的均值和方差等特征。

伪穿越特征：穿越特征一般是不被允许的。那么对于时序问题，可以构建伪穿越特征，其实也就是聚合统计特征。例如，待预测的时间点是上午9点，可以根据历史数据构造上午10点的均值等统计特征，并且衍生出差值比值等特征。

模型

建模策略：见赛题分析中的多标签回归。一般来说，这种建模方式都会取得较好的效果。

lightgbm：对每一个标签都进行五折交叉验证，CPU使用率和提交作业数各五个时间点，则一共进行了十次五折交叉验证。

lstm：CPU使用率是0-100的整数，连续五个时间点的数据如"10-21-41-31-34"可以看做是nlp中的字符索引，因此可以直接用于索引embedding lookup table中的字向量，那么建模就很自然的过度到了lstm。

下图展示了本文所用的lstm架构，效果并不是十分理想，线上大约在第十左右。在赛后和队友分析讨论之后，认为我们的框架存在几个问题。首先是将每个CPU使用率当做字向量，那么lstm中的input_dim为1，效果肯定不好。其次是我们的框架很简单，并没有引入卷积或者注意力机制等。

下面给出二等奖中另一支队伍的lstm框架，该框架包括两部分：

（1）LSTM提取CPU使用率、硬盘使用率的时序信息，引入注意力机制

（2）全连接提取其他手工特征的信息，进行高阶交叉，并且设置跨层连接，构成“不同尺度的集成模型”。

训练

损失：由于数据波动较大，因此可以认为存在一定的离群点，所以采用smooth l1作为损失函数。

算力：lightgbm建模对算力的要求较小，16G内存足以。但使用上述神经网络训练时，由于是多标签回归（10个标签），对每个标签都需要训练一个模型，如果再结合五折交叉验证，那么将训练50个模型，这对算力就有一定的需求。

笔者在赛程接近尾声时才开始训练nn模型，然而本人只有一张玩具显卡gtx1650，对于该多标签任务训练数十个模型实在太过耗费时间，迫不得已去寻找算力资源。经过师兄的推荐，最后选定了华为云的ModelArts，每天两小时的免费算力，而且是V100，感觉很不错。最后让实验室兄弟多开几个号，一边训练一边保存模型，时间快到了就换号继续训练，两三天就把模型跑好了。虽然因为时限需要切换账号，但总体的使用体验还是不错的，下面就给大家简单介绍一下ModelArts的使用体验。

ModelArts使用体验

使用感受

（1）虽然是在云端训练，但是ModelArts提供了jupyter lab/notebook，就像平时在本地PC上上传数据到notebook中然后写代码一样，完全感知不到训练流程的变化。lab中集成了不同的引擎，常规的如pytorch, tf, xgboost这些都有。

（2）安装依赖包很方便，直接在cell中’!pip install xxx’就可以，原生的notebook中好像没有这个功能。比如我新建的notebook是pytorch引擎，但又需要xgboost，那么就可直接安装，见下图。

（3）目前上传数据有限制，一次只能上传大约是几百MB，可以先将数据上传至notebook中后再进行特征工程，对于比较大的数据，可以本地切分以后分批上传，所以这也是一个无关紧要的问题，毕竟免费V100太香了。

还有一些其他的细节，各位小伙伴们可以自行探索呀！

划重点-如何申请

还愣着干什么，猛点链接，抢算力呀!!! https://bbs.huaweicloud.com/forum/thread-51080-1-1.html

AI开发平台ModelArts

大数据 服务上云的思考">大数据 服务上云的思考

796 2025-04-04

国美&华为，战略合作签约！

796 2025-04-04

机器学习服务提取图片的特征向量">使用SAP Leonardo上的机器学习服务提取图片的特征向量

796 2025-04-04

免费薅ModelArts算力资源-拿下CCF BDCI华为Severless工作负载预测亚军

大数据 服务上云的思考">大数据 服务上云的思考

国美&华为，战略合作签约！

机器学习服务提取图片的特征向量">使用SAP Leonardo上的机器学习服务提取图片的特征向量

推荐文章

企业生产管理是什么，企业生产管理软件

进盘点进销存软件排行榜前十名

进销存系统哪个简单好用？进销存系统优点

工厂生产管理（工厂生产管理流程及制度）

生产管理软件，机械制造业生产管理，制造业生产过程管理软件

进销存软件和ERP有什么区别？进销存与erp软件理解

进销存如何进行库存管理

如何利用excel制作销售订单管理系统？

数据库订单管理系统有哪些功能？数据库订单管理系统怎么设计？

什么是数据库管理系统？

最近发表

热评文章

零代码开发是什么？2022低代码平台排行榜">零代码开发是什么？2022低代码平台排行榜

进销存库存管理 系统（智慧进销存）">智能进销存库存管理系统（智慧进销存）

在线文档哪家强？8款在线文档编辑软件推荐">在线文档哪家强？8款在线文档编辑软件推荐

WPS2016怎么绘制简单的价格表?

什么是在线文档？怎么发在线文档

进销存库存管理盘点">简单进销存库存管理盘点

友情链接

免费薅ModelArts算力资源-拿下CCF BDCI华为Severless工作负载预测亚军

微信扫一扫：分享

大数据服务上云的思考">大数据服务上云的思考

机器学习服务提取图片的特征向量">使用SAP Leonardo上的机器学习服务提取图片的特征向量

推荐文章

最近发表

热评文章

零代码开发是什么？2022低代码平台排行榜">零代码开发是什么？2022低代码平台排行榜

进销存库存管理系统（智慧进销存）">智能进销存库存管理系统（智慧进销存）

在线文档哪家强？8款在线文档编辑软件推荐">在线文档哪家强？8款在线文档编辑软件推荐

进销存库存管理盘点">简单进销存库存管理盘点

友情链接