【问题标题】:NCCL operation ncclAllReduce(send_buffer, recv_buffer, element_count, dtype, reduce_op, comm, gpu_stream) failed: unhandled cuda errorNCCL 操作 ncclAllReduce(send_buffer, recv_buffer, element_count, dtype, reduce_op, comm, gpu_stream) 失败:未处理的 cuda 错误
【发布时间】:2022-12-25 18:51:31
【问题描述】:

我正在使用 8 个 GPU 运行 run_t5_mlm_flax.py 但出现此错误(它仅适用于一个 GPU)。 NCCL 操作 ncclAllReduce(send_buffer, recv_buffer, element_count, dtype, reduce_op, comm, gpu_stream) 失败:未处理的 cuda 错误 你有什么建议吗?

【问题讨论】:

    标签: python huggingface-transformers jax


    【解决方案1】:

    你解决了吗?我最近遇到了同样的问题。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2021-12-10
      • 2020-07-19
      • 1970-01-01
      • 1970-01-01
      • 2012-12-20
      • 2012-10-21
      • 2016-08-29
      • 2020-12-23
      相关资源
      最近更新 更多