📰 新闻2026年4月26日
谷歌DeepMind推出解耦式DiLoCo:200倍带宽压缩,全球分布式AI训练成现实
谷歌DeepMind发布解耦式DiLoCo分布式训练架构,跨数据中心带宽需求从198Gbps降至0.84Gbps,支持异构硬件混合使用。
来源:AIbase · 查看原文 →
谷歌DeepMind推出名为"解耦式DiLoCo"的新型分布式训练架构,旨在提升大规模AI模型训练效率并增强硬件故障容忍度。该架构将训练任务分散到多个异步、故障隔离的"计算孤岛"中,每个学习单元可在本地进行多次梯度计算后再将压缩梯度传递给外部优化器。实验数据令人印象深刻:在高硬件故障率场景下,解耦式DiLoCo仍能维持88%的利用率,而标准数据并行训练仅为27%。更关键的是,该架构将跨数据中心带宽需求从198Gbps大幅降至0.84Gbps,降低了约200倍,使得在现有商业互联网基础设施下进行全球分布式训练成为可能。此外,系统具备自愈能力,可在整个学习单元失效后继续训练,并在恢复后无缝重新整合。该架构还支持不同代际TPU芯片在同一次训练中协同工作,有效延长旧设备使用寿命。这一技术突破对降低AI训练成本、扩大全球AI基础设施可及性具有重要意义。
发布于 2026年4月26日 · 更新于 2026年4月26日