Skip to content

troila-klcloud/hpc-examples

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

23 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

随着 AI 技术的发展,越来越多的学校,机构,个人加入 AI 研发大军。但是对于 AI 模型的训练存在高成本,高复杂度等问题。为了提高资源利用率,简化模型训练,通常会借助一个 HPC 平台来提交 AI 训练任务。在众多 HPC 平台的搭建方案中 slurm 无疑是一个最简单,高效,经典的方案。

但是即使有了 HPC 平台的加持,如何合理,高效,稳定的运行 AI 训练任务依然不是一个简单的话题。本仓库提供了数个示例,说明如何基于 slurm 平台,根据不同需求合理的提交训练任务。

提示 本仓库的目标人群是 AI 技术的研究人员,需要具备一定的 AI 基础知识,能熟练使用 AI 框架(本仓库绝大部分的演示示例是基于 pytorch 编写的)。本仓库不对 slurm 的安装与使用做具体讲解。对于 slurm 的使用可参考下面文档:

目录

该示例使用 pytorch 实现了一个手写数字识别模型(mnist),借助该模型演示了 slurm 平台的基本用法,包括两种训练环境创建方法:

  • conda 灵活,强大。可更具需求快速灵活的修改环境
  • docker image 简单,高效。可直接使用其他人构建好的镜像作为运行环境

三种作业运行方式:

  • CPU 低成本运行训练任务
  • 共享 GPU 多个作业运行在一个 GPU 上(作业之间可能会有竞争,导致作业运行失败)
  • 独占 GPU 一个作业独占一个 GPU

本示例展示了如何在一个节点上使用多块 GPU 上训练 AI 模型(借助 pytorch Data Parallelism)。

本示例展示一种更高效的方式(pytorch DistributedDataParallel(简称:pytorch ddp))使用多 GPU。本示例参考以下链接完成:

About

本仓库提供了数个示例用于展示如何在 slurm HPC 平台上提交 AI 训练任务。

Topics

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors