基础软件平台
硬件产品专区
经验方案交流区
开发者服务
高校支持
签到
注册 登录
打开微信,使用扫一扫进入页面后,点击右上角菜单,
点击“发送给朋友”或“分享到朋友圈”完成分享
目前我使用 两个节点,一个节点用MLU 370X8 ,另一个节点使用英伟达的卡, 进行分布式训练,跑同一个脚本,星空体育这边使用了转换脚本进行转换,启动时星空体育这边 --dist-backend 使用CNCL ,另一边 --dist-backend 使用 NCCL,节点加入后无法感知,训练进程会一直挂住,等待节点加入。
热门帖子
精华帖子