Distributed training with mutliple pods, with multi-gpu in each pod #2456

githubthunder · 2025-02-28T04:26:15Z

I want to execute distributed training in a Kubernetes environment using the command "kubectl apply -f train.yaml".

Which version of Kubeflow supports the torchrun command for distributed training across multiple PODs, with multiple GPUs in each POD?

Please provide a working example, including sample code and YAML files, with a focus on how to write the YAML file.

Thank you very much!

githubthunder changed the title ~~Distributed training with mutli-pod with multi-gpu in each pod~~ Distributed training with mutliple pods, with multi-gpu in each pod Feb 28, 2025

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Distributed training with mutliple pods, with multi-gpu in each pod #2456

Distributed training with mutliple pods, with multi-gpu in each pod #2456

githubthunder commented Feb 28, 2025

Distributed training with mutliple pods, with multi-gpu in each pod #2456

Distributed training with mutliple pods, with multi-gpu in each pod #2456

Comments

githubthunder commented Feb 28, 2025