
为什么所有公开的对 GPT-3 的复现都失败了?
这里,我称之为 “失败”,是指训练得出模型有接近 GPT-3
或者更大的参数量,但仍无法与 GPT-3 原始文献中报告的
性能所匹配。在这一标准下,GPT-3 和 PaLM 是 “成功” 的,
但这两个模型都不是公开的。而所有的公开模型(例如:
OPT-175B 和 BLOOM-176B)都在一定程度上 “失败” 了。
但是我们仍然可以从这些 “失败” 中吸取一些教训。
我们需要注意的是,假如能够多次尝试各种不同的训练设置,
开源社区可能最终可以复现 GPT-3。但截至目前,训练另一
个版本的 OPT-175B 的开销仍然太过高昂 —— 对于如此
大规模的模型,一次训练就将需要在约 1000 个 80G A100
GPU 上花费至少 2 个月的时间(数据来自于 OPT 的原始
文献)。
尽管一些文章(例如 OPT-175B 和 GLM-130B)声称它们
在一些任务上能够匹配甚至超过原始的 GPT-3 的表现,在
更多 GPT-3 已经测试过的任务上,这种声明仍然是存疑的。
同时,根据大多数使用者在更多样的任务上的经验,以及
HELM 的评估来看,最近的 OpenAI GPT-3 的 API 表现也
仍然比这些开源模型更好。