GPT-3(Generative Pre-trained Transformer 3)是 OpenAI 于 2020 年发布的第三代自回归语言模型,是 GPT 系列的代表作之一。相比 GPT-2,GPT-3 不仅参数规模大幅提升,在零样本学习、少样本学习方面也表现出了跨任务的惊人能力。
一、GPT-3 概述
项目 | 内容 |
---|---|
发布机构 | OpenAI |
发布时间 | 2020 年 6 月 |
模型结构 | Transformer Decoder-only(仅使用解码器结构) |
输入方式 | 自回归方式(基于上下文预测下一个 token) |
预训练任务 | 无监督语言建模(language modeling) |
主要特点 | 大规模预训练 + 零/少样本泛化能力 + 通用任务提示适应能力(prompting) |
GPT-3 不仅在自然语言生成方面表现优异,还在翻译、问答、编程、摘要、逻辑推理等多种任务上均具备能力。
二、GPT-3 的参数规模(超大)
GPT-3 有多个不同大小的模型,共计 8 种变体,其中最大的是 1750 亿个参数(175B),是 GPT-2 最大模型(1.5B)的 100 多倍。
模型名 | 参数数量 | 层数(Layers) | 隐藏维度 | 注意力头数 |
---|---|---|---|---|
Ada | 350M | 24 | 1024 | 16 |
Babbage | 1.3B | 24 | 2048 | 32 |
Curie | 6.7B | 32 | 4096 | 32 |
Davinci | 175B | 96 | 12288 | 96 |
💡 注:这些名称也出现在 OpenAI API 中(Ada、Babbage、Curie、Davinci 是模型等级代号)。
三、GPT-3 的能力来源
1. 巨大的数据规模
-
训练语料高达 45TB(未压缩)
-
包括 Common Crawl、Wikipedia、Books、WebText 等
-
多语言、多类型(问答、代码、新闻等)
2. Prompt Learning(提示学习)
GPT-3 不再依赖传统的微调训练,而是通过**输入提示(prompt)**来引导模型完成各种任务:
-
Zero-shot learning(零样本):无需示例,直接给指令
-
One-shot learning(一示例):提供一个参考例子
-
Few-shot learning(少量示例):提供多个示例提升效果
示例(翻译任务):
Translate English to French:
English: Hello, how are you?
French:
模型会自动完成:
French: Bonjour, comment ça va ?
四、GPT-3 使用方式
GPT-3 不开源,只能通过 OpenAI API 使用。
示例(Python,使用 OpenAI SDK):
import openai
openai.api_key = "your-api-key"
response = openai.Completion.create(
engine="text-davinci-003",
prompt="Write a short story about a robot that learns to love.",
max_tokens=150,
temperature=0.7,
)
print(response.choices[0].text.strip())
✅ 推荐使用 engine 为
text-davinci-003
,它是 GPT-3 的最强版本之一。
五、GPT-3 的能力与表现
GPT-3 可用于:
-
文本生成(故事、邮件、产品描述)
-
翻译、问答、对话生成
-
编程(代码生成、注释、调试)
-
写作协助(续写、润色、摘要)
-
多语言理解与生成(支持英语、法语、中文等)
典型任务表现(Few-shot)
任务类型 | 表现 |
---|---|
阅读理解 | 接近人类水平 |
常识问答 | 强 |
数学运算 | 一定程度理解能力 |
代码生成 | 准确性逐步提升 |
翻译 | 比肩专用翻译模型 |
六、GPT-3 与 GPT-2 的区别
对比项 | GPT-2 | GPT-3 |
---|---|---|
参数规模 | 最大 1.5B | 最大 175B |
训练数据 | 40GB | 45TB |
学习方式 | 微调(fine-tuning) | 提示学习(prompting) |
泛化能力 | 有限 | 强 |
API 访问 | 无官方 API | 仅通过 OpenAI API |
多任务处理能力 | 一般 | 很强 |
七、GPT-3 的局限性
输出可能不准确(尤其是逻辑问题)
会“编造”事实(hallucination)
无法持续记住上下文(固定窗口,如 2048 tokens)
不支持外部知识更新(知识冻结于训练时)
成本高、部署受限(仅限 API)
八、GPT-3 与后续模型
模型 | 发布方 | 特点 |
---|---|---|
GPT-3.5 | OpenAI | 更强推理与代码能力(如 text-davinci-003 ) |
GPT-4 | OpenAI | 多模态(图文理解)、更高准确率、更稳定 |
ChatGPT | OpenAI | 对话微调版的 GPT-3.5/GPT-4,适合交互问答 |
Claude | Anthropic | 类似 GPT 的聊天助手模型,强调安全性与对齐 |
PaLM | Pathways Language Model,支持多语言与多任务 |
九、结语
GPT-3 是当前最具代表性的生成式语言模型之一。尽管它本身并不开源,但通过 OpenAI 提供的 API,用户可以轻松访问其强大的自然语言生成能力。它是大模型趋势的开端,也为后续模型如 GPT-4 奠定了基础。