深度学习核心技术精讲100篇(六十六)- 基于LXD的GPU算力虚拟化(附解决方案代码)

网友投稿 815 2022-05-28

搭建需求

由于当前算法和模型对GPU的强烈需求,实验室购置了一台性能强悍的GPU云服务器供大家一起使用。如果所有人对这台服务器拥有控制权是十分危险的,例如误删除他人文件,弄乱他人环境等。最简单的方法是为每位同学配置一台虚拟机,但硬件虚拟化造成大量的资源浪费,同时GPU并不支持常规的虚拟化。

•云计算资源因安全措施考虑会进行如下设置:•设置访问白名单,限制仅实验室环境下访问。外部环境若需要访问计算资源,需先通过VPN接入实验室内网•仅开放用于SSH连接的端口到公网

基于上述背景整理提出以下需求:

•独立:不同用户的环境相互独立,可同时使用。•隔离:用户不能直接操作宿主机,即用户不能逃逸至宿主机。用户访问宿主机的唯一通道是共享文件夹。•自由:用户可以像使用一台自己的Linux机器一样,通过SSH访问,并拥有主机的所有权限。•GPU:核心需求,每位同学可以直接访问GPU和使用宿主机的所有资源,包括CPU、内存、硬盘等。•可控:管理员可以较为方便对每位同学的机器进行管理,如资源争抢严重时,限制每位同学的资源使用上限(GPU, CPU, 内存等)•开销: 为满足这些需求,额外的开销应该尽可能小到可以忽略。•利用率:公用算力的资源应该能得到最大化的利用•复杂度:整套解决方案不能太复杂,便于维护

宿主机硬件配置

•GPU NVIDIA Tesla P40 *2•Memory 64G•Disk 100G SSD 系统盘 + 500G SSD 数据盘•CPU Intel Core (Broadwell, no TSX) @ 16x 2.2GHz•OS Ubuntu 20.04 LTS Server

解决方案

需求中有两个核心点:

深度学习核心技术精讲100篇(六十六)- 基于LXD的GPU算力虚拟化(附解决方案代码)

GPU加速云服务器 深度学习 虚拟化

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:【云小课】基础服务第59课 使用私有镜像/共享镜像创建云耀云服务器HECS
下一篇:在“炼丹炉”里“蒸桑拿”的那些日子
相关文章