简介
在 Llama 的 405B 模型令人兴奋不已的情况下,很少有人能够在没有多个 H100 节点的情况下对其进行微调。Snowflake 声称使用他们修改后的 ZeRO-2 实现应该可以做到这一点,但我无法重现这一点。
在对单个节点上的 405B 进行微调的各种尝试中,我发现需要约 1.6–1.8TB 的系统 RAM 来进行卸载,因为目前 transformers 尝试将权重卸载到cpu每个等级上。我们从answer.ai了解到,我们只需要在 rank0 上执行此操作,并将参数权重加载到meta所有其他等级上的设备上。

推荐文章