Google机器学习基础(语言模型)-CSDN博客

机器学习基础(37)-语言模型解密：从词元预测到上下文理解

语言模型就像是文字的"概率计算器"，它能估算词元序列出现的可能性。词元（Token）作为语言建模的最小单位，可以是：

图：单词"antidisestablishmentarianism"被分解为6个子词

典型子词组合：

📌 有趣事实：英语中1个词元≈4个字符≈0.75个单词，因此400词元≈300英文单词

考虑句子：

“当我听到屋顶的下雨声，我正在厨房___.”

语言模型给出的概率预测可能是：

💡 应用场景：这个概率表可用于文本生成、翻译或摘要——选择最高概率结果或随机采样

核心思想：通过相邻词序列的频率预测下一个词

典型示例：

⚠️ 局限性：上下文窗口太小，就像只记得前两个词的健忘症患者

图：RNN像传送带一样逐步处理信息

突破：

😫 痛点：

革命性创新：

🌟 典型案例：

# BERT处理多义词"orange"的上下文嵌入
"orange juice" → 水果向量
"orange shirt" → 颜色向量

人类理解语言的黄金法则：

没有上下文，"bank"可能是河岸或金融机构；"苹果"可能是水果或手机品牌

语言模型进阶之路：

N元语法：2-3个词的短时记忆

RNN：段落级的记忆能力

Transformer：整本书的全局理解

模型类型	上下文长度	典型应用场景	主要缺陷	出现年代
N元语法	2-5个词	• 早期拼写检查 • 简单文本预测	• 无法处理长距离依赖 • 需要大量统计存储	1950s
RNN	~100词元	• 早期机器翻译 • 语音识别	• 梯度消失问题 • 训练速度慢	1980s
Transformer	数万词元	• ChatGPT等LLM • 文档摘要	• 计算资源需求大 • 训练成本高	2017