NCCL

NCCL

Tag

当前位置:首页 > NCCL >
  • DDP分布式随机卡死,如何从0开始一步步调试解决?

    DDP分布式随机卡死,如何从0开始一步步调试解决?

    在使用PyTorch进行深度学习训练时遇到进程卡死 的问题,,利用多GPU或多机器进行大规模模型的并行训练.本文将探讨这个问题的原因及解决 方案。先说一句,我真是被这个坑折磨得够呛!一开始以为是代码逻辑问题,后来啊折腾了好几天者阝没找到原因,简直想把电脑砸了!后来才发现是 DDP 的一些细节没弄明白。 现象描述 躺赢。 在多卡训练的时候, 有时候会出现随机在某些 epoch 尾部卡住无异常栈

    查看更多 2026-03-25

提交需求或反馈

Demand feedback