多人共用Notebook的使用建议

网友投稿 824 2022-05-28

在开发场景下,单人占用单张GPU卡存在利用率低的情况,所以多人共用一个GPU实例是一个普遍接受的方案。在ModelArts中,我们可以多人共用一个notebook实例,从而提升资源的ROI。

但是ModelArts的Notebook实例是基于容器化方案提供的,如果实例异常或者重启,会将整个环境恢复到初始状态。虽然可以通过镜像保存等功能进行环境配置固化,但是在多人共用的场景下可行性较差。

本文将介绍一些多人共用Notebook的注意点和使用建议。

Notebook实例的特点:

基于容器化构建:

环境修改重启后失效,需要通过镜像保存来固化。

可以通过注册自定义镜像的方式创建自有环境。

异常情况下实例会重启。异常场景包括:CPU打满、内存占满、挂载目录容量超过限额等。

节点网络:可以访问外网,可以配置ssh登陆。

挂载目录情况“

目录“/home/ma-user/work”是单独挂载的EVS盘,提供较高的访问性能,且存储内容会持久化存储。

目录“/cache”是挂载节点的NVMe SSD盘,提供超高的访问性能,但是重启后会重置,容量限额500G

SSH&VS Code配置:

建议打开对应配置,多人可以通过VS Code来使用,或者直接通过ssh以命令行方式使用。

相关配置参考博客: https://bbs.huaweicloud.com/blogs/280541

Conda环境配置:

建议每人创建自己的conda env以便进行环境隔离。建议把conda的环境和缓存改到“/home/ma-user/work”目录下,以便重启后可以快速恢复对应环境。

路径的设置可以通过编辑“/home/ma-user/.condarc”来实现。添加或修改配置"env_dirs"和"pkgs_dirs"来设置环境和缓存路径,按顺序第一个路径作为默认存储路径,搜索环境和缓存时按先后顺序在各目录中查找。

配置命令如下:

mkdir -p /home/ma-user/work/envs/ mkdir -p /home/ma-user/work/pkgs/ conda config --add envs_dirs /home/ma-user/work/envs/ conda config --add pkgs_dirs /home/ma-user/work/pkgs/

之后,我们可以使用clone的方式创建一个自己的env,然后再切换到对应的env安装自己需要的包:

conda create -n my_env_name --clone python-3.7.10

参考文档:

https://blog.csdn.net/qq_38262728/article/details/88744268

https://blog.csdn.net/ljx0951/article/details/104121844

多人共用Notebook的使用建议

https://blog.csdn.net/javastart/article/details/102563461

Notebook监控配置:

因为部分异常情况会导致容器重启,所以我们需要找到实例重启的元凶。

建议启动实例后进行实例状态的监控,这样我们就知道是哪个命令导致出错的。如果我们能要求所有用户都在启动命令里增加自己名字信息(比如大家以自己的名字为目录,命令以绝对路径启动),就可以方便的找到责任人。

针对内存和CPU的监控参考博客: https://bbs.huaweicloud.com/blogs/351255

针对/cache目录使用情况的监控,可以使用如下命令来定期查看。

while :; do date; du -hs /cache/*; sleep 300; done

镜像服务

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:云端大事件|华为云服务器升级提速,全力助战“双11”
下一篇:深度盘点丨华为云数据库布局及研发路线图
相关文章