Efficient Stagewise Pretraining via Progressive Subnetworks

文章

学术资源搜索

获得 1 条结果（用时0.02秒）

我的图书馆

Efficient Stagewise Pretraining via Progressive Subnetworks

在引用文章中搜索

[PDF] arxiv.org

A Quadratic Synchronization Rule for Distributed Deep Learning

X Gu, K Lyu, S Arora, J Zhang, L Huang - arXiv preprint arXiv:2310.14423, 2023 - arxiv.org

In distributed deep learning with data parallelism, synchronizing gradients at each training
step can cause a huge communication overhead, especially when many nodes work …

高级搜索

QQ 群

Efficient Stagewise Pretraining via Progressive Subnetworks

A Quadratic Synchronization Rule for Distributed Deep Learning

引用