MindSpore开源框架加持，如何「炼出」首个千亿参数、TB级内存的中文预训练语言模型？-伙伴云

MindSpore 开源框架加持，如何「炼出」首个千亿参数、TB级内存的中文预训练语言模型？

网友投稿 868 2022-05-28

近段时间，中文大规模预训练语言模型圈有些热闹。26 亿参数量的「悟道 · 文源」， 270 亿参数量的 PLUG，以及华为云发布的千亿级别「盘古」NLP 大模型，预训练语言模型已经成长到仅加载就需要 TB 级的内存或显存。

我们可以直观地想到，「盘古」效果理应更好，但计算量需求也更大，训练起来更困难。

然而「盘古」实际上是这样一次探索：开源框架 MindSpore，昇腾基础软硬件平台，加上超大规模中文预训练模型，意味着基础设施已然完善了。

这项工作由华为以及北京大学相关技术团队联手完成，在昇腾基础软硬件平台，以及 MindSpore 框架自动并行等黑科技的帮助下，训练出当前最大的中文预训练模型。

那么量级不断拔高的盘古大模型是如何训练出来的？

接下来，让我们细致解读下「盘古」背后的关键技术。

千亿参数，TB 级内存的模型

以盘古 2000 亿为例，如果我们训练时权重都用标准的 FP32 数据格式，那么算下来，权重占的空间就达到了 750GB，训练过程中内存开销还会数倍上升。这 750GB 参数，不是放在硬盘上，也不是加载到内存中，而是需要移到昇腾Atlas训练服务器 HBM（High Bandwidth Memory 高带宽存储器）内存中，以利用昇腾Atlas训练服务器训练模型。

模型大，意味着数据也大，而且都需要是高质量数据。为了满足数据需求，研发团队从互联网爬取了 80 TB 文本，并最后清洗为 1TB 的中文数据集。

这样的模型与数据，已经不是我们几台服务器能加载上的了，更不用说进行训练。好在研发团队会提供 API，一般算法工程师直接调用接口就能试试效果。

可以说，目前盘古是业界首创的千亿规模中文预训练模型，其中最高参数量达 2000 亿。

MindSpore开源框架加持，如何「炼出」首个千亿参数、TB级内存的中文预训练语言模型？

超大规模自动并行，算法工程师的福音

MindSpore 机器学习

最常用的报表工具有哪些？免费报表工具有哪些

868 2022-05-28

MindSpore 开源 框架 加持，如何「炼出」首个千亿参数、TB级内存的中文预训练语言模型？

最常用的报表工具有哪些？免费报表工具有哪些

佩萨罗市政因成本太高而放弃OpenOffice，重新使用Office 365

微软发布面向开发者的新Web前端开发框架，名为Office UI Fabric（web开发是）

推荐文章

企业生产管理是什么，企业生产管理软件

进盘点进销存软件排行榜前十名

进销存系统哪个简单好用？进销存系统优点

工厂生产管理（工厂生产管理流程及制度）

生产管理软件，机械制造业生产管理，制造业生产过程管理软件

进销存软件和ERP有什么区别？进销存与erp软件理解

进销存如何进行库存管理

如何利用excel制作销售订单管理系统？

数据库订单管理系统有哪些功能？数据库订单管理系统怎么设计？

什么是数据库管理系统？

最近发表

热评文章

零代码开发是什么？2022低代码平台排行榜

智能进销存库存管理系统（智慧进销存）

在线文档哪家强？8款在线文档编辑软件推荐

WPS2016怎么绘制简单的价格表?

定制订单管理系统（为特定需求定制的订单管理系统）

客户管理工具是什么？

友情链接