平台介绍
英博云是什么?
英博云提供GPU容器服务,通过融合云原生技术,基于原生kubernetes提供以容器为核心的、高度可扩展的高性能容器管理服务,用户无需购买节点即可部署工作负载,GPU容器服务还扩展支持了并行文件存储、对象存储等产品,助力用户快速构建容器化应用。
产品优势
开箱即用,简单易用: 基于原生Kubernets无缝集成英博自研高性能并行文件存储、网络等服务,帮用户省掉繁琐运维配置,接入即可开箱使用;提供一站式服务管理容器化应用,让用户可以更加专注于业务开发。
按需使用,降低成本: 按需创建训练任务,按GPU的使用时长付费,不运行不计费无闲置资源浪费,提升GPU有效利用率。
AI云原生: 支持对高性能GPU和高性能RDMA网络高效管理和调度,GPU容器云支持大模型多机多卡分布式训练场景。
极致弹性: 可以根据业务需求灵活调整资源配置,提高系统的扩展性。
产品架构
基本概念
- 集群(Vcluster): 对应 Kubernetes 中的 Cluster,是容器服务中计算、存储和网络资源的集合。
- 虚拟节点(Virtual Node): 对应 Kubernetes 中的 Node,是容器服务集群组成的基本元素。
- 容器(Container): 对应 Kubernetes 中的 Container,借助容器,用户可以在相对独立的环境中运行程序。
- 容器组(Pod): 对应 Kubernetes 中的 Pod,一个Pod封装多个应用容器(也可以只有一个容器)、存储资源、一个独立的网络IP以及管理控制容器运行方式的策略选项。
- 无状态工作负载(Deployment): 无状态工作负载表示对Kubernetes集群的一次更新操作。适用于运行完全独立、功能相同应用的场景。
- 有状态工作负载(StatefulSet): 有状态工作负载支持应用部署、扩容、滚动升级时有序进行。如果希望使用存储卷为工作负载提供持久存储,可以使用StatefulSet作为解决方案的一部分。
- 守护进程集(DaemonSet): 守护进程集确保全部(或者某些)节点上运行一个Pod。与Deployment不同,DaemonSet会在指定的节点上都部署定义的Pod,确保这些节点都运行守护进程Pod。适用集群的日志、监控等部署场景。
- 任务(Job): Job指运行一次性的任务。您可以使用Job以并行的方式运行多个 Pod。
- 定时任务(CronJob): CronJob指根据规划时间周期性地运行反复的任务。适用于执行数据备份或者发送邮件的场景。
- 自定义资源(CustomResourceDefinitions,CRD): 在庞大的Kubernetes生态系统中,您可以通过CRD添加第三方工作负载资源。CRD资源允许您定义定制资源。
- 镜像(Image): 对应 Kubernetes 中的 Image,是封装了应用程序及其所有软件依赖的二进制数据。每个镜像有特定的唯一标识(镜像的 Registry 地址+镜像名称+镜像 Tag)。
- 镜像仓库(Image Registry): 镜像仓库用于存放 Docker 镜像,Docker 镜像可用于部署容器服务。
- 服务(Service): 对应 Kubernetes 中的 Service,提供基于四层网络的容器服务暴露能力。
- 标签(Label): Labels的实质是附着在资源对象上的一系列Key/Value键值对,用于指定对用户有意义的对象的属性,标签对内核系统是没有直接意义的。标签可以在创建一个对象的时候直接赋予,也可以在后期随时修改,每一个对象可以拥有多个标签,但key值必须唯一。
- 路由(Ingress): 本质是一系列流量转发规则,这些规则基于 HTTP 和 HTTPS 协议进行命中和转发。路由规则可以通过域名和路径对访问做到更细粒度的划分。
- 配置项(ConfigMap): 配置项可用于存储细粒度信息如单个属性,或粗粒度信息如整个配置文件或JSON对象。您可以使用配置项保存不需要加密的配置信息和配置文件。
- 保密字典(Secret): 保密字典用于存储在Kubernetes集群中使用一些敏感的配置,例如密码、证书等信息。
- 存储卷(PersistentVolumeClaim,PVC): PVC是资源的使用者。类似Pod消耗节点资源一样,而PVC消耗PV资源。
- 存储类(StorageClass): 描述存储的类型,集群管理员可以为集群定义不同的存储类别。
- 并行文件存储(Ebtech Parallel File System,EPFS): 容器服务支持通过 CSI 使用 并行文件存储EPFS去创建存储卷声明。
- 对象存储(EBTech Object Storage,EOS): 对象存储EOS是英博云提供的海量、安全、低成本、易用、高可靠、高可用的分布式云存储服务。通过网络,您可以在任何应用、任何时间、任何地点管理和访问英博云对象存储上的数据。
- 节点亲和性(nodeAffinity): 对应 Kubernetes 中的 NodeAffinity,指通过节点标签控制 Pod 实例部署在特定的节点上。