Skip to content

MLOps使用常见问题

英博云 MLOps 系统是一套面向 AI 研发团队构建的 集群插件,旨在通过统一的算力资源管理与权限控制机制,实现多用户、多项目环境下对 GPU 集群资源的高效共享与精细化管理。系统基于 Kubernetes 等云原生技术构建,为模型训练、模型开发、推理服务等 AI 研发场景提供稳定、灵活的算力基础设施。

本文档详细介绍如何通过集群MLOps实现多租户的共享使用集群资源,并如何限制每个用户的过度使用。

MLOps系统admin管理员基础使用

⚠️ 注意
目前集群MLOps仅邀测用户支持,如需开通,请联系我们

第一步:通过英博云平台集群配置好集群配额

  1. 主账号登录英博云控制台。

  2. 在页面左侧导航栏,选择 集群,进入集群列表页面。

  3. 在集群列表页面,单击集群列表右侧操作列 调整配额,配置整个集群可用的资源总配额,详情请参考调整集群配额

imageimage

第二步:通过英博云平台集群访问MLOps系统,复制链接和管理员账号密码

  1. 主账号登录英博云控制台。

  2. 在页面左侧导航栏,选择 集群,进入集群列表页面。

  3. 在集群列表页面,单击集群列表右侧操作列 MLOps系统,弹出MLOps系统连接方式。

imageimage

第三步:访问MLOps系统链接,使用管理员admin身份登录MLOps系统

image

第四步:配置成员登录方式

  1. admin账号登录英博云MLOps系统。

  2. 在页面左侧导航栏,选择 成员,进入成员列表页面。

  3. 在成员列表页面,单击成左上角 创建成员,设置用户名和密码。

  4. 在成员列表页面,成员余额字段下支持充值和扣减。

imageimage

第五步:配置成员虚拟余额

⚠️ 注意:成员的虚拟余额虽然可以不受限制的充值,但实际使用过程中受限于英博云集群配额和英博云主账号的实际账户余额

  1. admin账号登录英博云MLOps系统。

  2. 在页面左侧导航栏,选择 成员,进入成员列表页面。

  3. 在成员列表页面,成员余额字段下支持充值和扣减。

第六步:创建和管理存储资源

  1. admin账号登录英博云MLOps系统。

  2. 在页面左侧导航栏,选择 存储,进入存储列表页面。

  3. 在存储列表页面,可以切换块存储卷和共享存储卷的Tab页签,以共享存储卷为例,单击左上角 创建共享存储卷,配置存储类型、访问权限、名称、存储空间(GB)。

image 4. 存储支持扩容、修改权限、删除等操作。

image

第七步:创建和管理开发机资源

  1. admin账号登录英博云MLOps系统。

  2. 在页面左侧导航栏,选择 开发机,进入开发机列表页面。

  3. 在开发机列表页面,单击左上角 创建开发机,配置创建开发机所需的参数。

开发机配置:

参数说明
名称根据提示的命名规则,自定义开发机名称。2-8字符,仅支持小写字母开头,内容支持包含小写字母、数字
目标节点池选择共享节点池/专属节点池,共享节点池资源通过按量付费模式计费,专属节点池可以选择英博云主账号已购买的专属包月节点。
资源类型选择GPU卡类型或CPU
GPU驱动版本选择您需要的GPU驱动版本,不同的驱动版本匹配不同的CUDA镜像版本
规格选择不同GPU或CPU资源的规格
镜像容器使用的镜像,支持选择预置镜像、自定义镜像、外部镜像以及共享镜像,其中自定义、外部镜像和共享镜像支持用户配置启动命令
Docker容器Docker容器开关,默认关闭,开启后,可以在开发机内使用docker run的命令启动docker容器
存储每个开发机默认30GB系统盘
支持通过PVC挂载多块共享存储卷,按容量计费,支持SSD和HDD两种存储类型
支持通过PVC挂载多块块存储卷,按容量计费,西北一区的集群开通的MLOps暂不支持该产品
数量支持一次创建多台同配置开发机
备注支持输入开发机备注信息

image 4. 开发机的常见操作,如制作镜像、JupyterLab等,详情请参考开发机基础使用相关文档

image

第八步:查看成员消费情况

  1. admin账号登录英博云MLOps系统。

  2. 在页面左侧导航栏,选择 费用,进入费用页面,支持查看年度汇总消费金额和按用户汇总的月度消费

MLOps系统普通成员基础使用

普通成员是由admin管理员创建出来的子用户,拥有资源的增删改查权限,但仅限于自己有权限的部分,在实际使用中受限于admin管理员授予的虚拟资金。

成员登录方式

  1. 在浏览器使用admin提供的mlops链接和用户名密码登录,例如https://saas-tenant-11012001-aka-mlops-cn-huabei1.eks.ebcloud.com/login zhangsan/mimademo1

image

成员创建存储资源

  1. 成员账号登录英博云MLOps系统。

  2. 在页面左侧导航栏,选择 存储,进入存储列表页面。

  3. 在存储列表页面,可以切换块存储卷和共享存储卷的Tab页签,以共享存储卷为例,单击左上角 创建共享存储卷,配置存储类型、访问权限、名称、存储空间(GB)。

image

成员创建按量付费开发机

  1. admin账号登录英博云MLOps系统。

  2. 在页面左侧导航栏,选择 开发机,进入开发机列表页面。

  3. 在开发机列表页面,单击左上角 创建开发机,配置创建开发机所需的参数。

开发机配置:

参数说明
名称根据提示的命名规则,自定义开发机名称。2-8字符,仅支持小写字母开头,内容支持包含小写字母、数字
目标节点池选择共享节点池/专属节点池,共享节点池资源通过按量付费模式计费,专属节点池可以选择英博云主账号已购买的专属包月节点。
资源类型选择GPU卡类型或CPU
GPU驱动版本选择您需要的GPU驱动版本,不同的驱动版本匹配不同的CUDA镜像版本
规格选择不同GPU或CPU资源的规格
镜像容器使用的镜像,支持选择预置镜像、自定义镜像、外部镜像以及共享镜像,其中自定义、外部镜像和共享镜像支持用户配置启动命令
Docker容器Docker容器开关,默认关闭,开启后,可以在开发机内使用docker run的命令启动docker容器
存储每个开发机默认30GB系统盘
支持通过PVC挂载多块共享存储卷,按容量计费,支持SSD和HDD两种存储类型
支持通过PVC挂载多块块存储卷,按容量计费,西北一区的集群开通的MLOps暂不支持该产品
数量支持一次创建多台同配置开发机
备注支持输入开发机备注信息

成员创建包年包月开发机

  1. 英博云主账号登录英博云控制台,购买包月节点,详情可以参考创建包月节点

  2. admin登录英博云MLOps系统。

  3. 在页面左侧导航栏,选择 成员,进入成员列表页面。

  4. 在成员列表页面,开启使用包月资源开关。

image 5. 成员登录MLOps系统,选择专属节点池创建开发机。

image

存储权限说明

存储权限分为公开读写、公开只读、私有读写。

  • 公开读写全局所有成员均可挂载读写

  • 公开只读全局所有成员均可挂载但仅能只读

  • 私有读写仅创建成员和admin支持挂载读写

MLOps系统成员和英博云子账号差异

  1. 英博云子账号在拥有集群权限时相当于集群管理员,和英博云主账号拥有对集群内资源同等的权限;MLOps系统成员的权限可以做到更加细粒度的控制,仅支持对归属自己的资源拥有增删改查的权限,无法操作其他成员的资源。

  2. MLOps系统成员和英博云子账号是两套用户体系,互相之间没有关联。

注意事项

  1. 成员虚拟资金变为负值后,成员名下的开发机会直接关机,存储依然保留,持续扣减成员的虚拟资金和英博云主账号的实际资金。