【发布时间】:2022-12-25 18:51:31
【问题描述】:
我正在使用 8 个 GPU 运行 run_t5_mlm_flax.py 但出现此错误(它仅适用于一个 GPU)。 NCCL 操作 ncclAllReduce(send_buffer, recv_buffer, element_count, dtype, reduce_op, comm, gpu_stream) 失败:未处理的 cuda 错误 你有什么建议吗?
【问题讨论】:
标签: python huggingface-transformers jax