Deep Learning Training Examples with PyTorch

This repository provides a comprehensive guide and practical examples for training deep learning models using PyTorch across various parallelism strategies. Whether you are working on single-GPU training or scaling to multi-GPU setups with Distributed Data Parallel (DDP) or Fully Sharded Data Parallel (FSDP), these examples will guide you through the process.

Running PyTorch training using NVIDIA Enroot and NGC Containers on HPC.
Topics Covered:
- Importing and running NGC PyTorch containers with Enroot.
- Running single and multi-GPU PyTorch workloads inside containers.
- Using SLURM to launch containerized PyTorch jobs on GPU clusters.

Resources

Note

If you are already familiar with deep learning with PyTorchand HPC, you can skip 01. Introduction to Deep Learning and go directly to 02. Single-GPU Training.

Name		Name	Last commit message	Last commit date
Latest commit History 226 Commits
01_introduction		01_introduction
02_singlegpu_training		02_singlegpu_training
03_multigpu_dp_training		03_multigpu_dp_training
04_multigpu_ddp_training		04_multigpu_ddp_training
05_multigpu_fsdp_training		05_multigpu_fsdp_training
06_DL_container		06_DL_container
PPT		PPT
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Deep Learning Training Examples with PyTorch

Contents

01. Introduction to Deep Learning

02. Single-GPU Training

03. Multi-GPU Training with Data Parallelism (DP)

04. Distributed Data Parallel (DDP) Training

05. Fully Sharded Data Parallel (FSDP) Training

06. Containerized Training with Enroot and NGC Containers

Resources

Note

About

Releases

Packages

Languages

kishoryd/DistributedTraining

Folders and files

Latest commit

History

Repository files navigation

Deep Learning Training Examples with PyTorch

Contents

01. Introduction to Deep Learning

02. Single-GPU Training

03. Multi-GPU Training with Data Parallelism (DP)

04. Distributed Data Parallel (DDP) Training

05. Fully Sharded Data Parallel (FSDP) Training

06. Containerized Training with Enroot and NGC Containers

Resources

Note

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages