53、语言模型：从基础到优化

plum99

于 2025-06-13 10:31:56 发布

阅读量10

点赞数

CC 4.0 BY-SA版权

分类专栏：探索口语处理技术的奥秘文章标签：语言模型 PCFG N-元模型

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/plum99/article/details/149645108

探索口语处理技术的奥秘专栏收录该内容

95 篇文章 ¥399.00 ¥499.90

订阅专栏

超级会员免费看

语言模型：从基础到优化

1. 概率上下文无关文法（PCFG）

概率上下文无关文法（PCFG）是一种用于语言建模的方法。它通过计算每个产生式规则在句子推导中被使用的概率，来估计规则的使用频率。具体步骤如下：
1. 计算每个句子中每个产生式规则的计数。
2. 对所有句子的计数进行求和，得到每个产生式规则在训练语料库中被使用的总次数。
3. 用每个非终结符的产生式总计数除以该非终结符的总计数，得到在最大似然估计（MLE）框架下该产生式的概率。

例如，我们有概率计算公式：
[P(A_{i,m,n,s,t}|G)=\frac{C(A_{i,m,n,s,t},G)}{C(G)}]

然而，PCFG 存在一些问题：
- 独立性假设 ：它假设任何一个非终结符的扩展与其他非终结符的扩展是独立的，不考虑节点在解析树中的位置，这与上下文相关扩展的直觉相悖。
- 对词汇信息不敏感 ：虽然词汇信息在选择歧义介词短语附着的正确解析中起着重要作用，但在 PCFG 中，词汇信息只能通过预终结节点（如动词或名词）进行词汇扩展的概率来表示。

为了解决这些问题，可以向 PCFG 中添加词汇依赖，使 PCFG 概率对周围的句法结构更加敏感。

2. N - 元语言模型

2.1 基本概念

语言模型可以表示为单词串 $W$ 上的概率分布 $P(W)$，反映了字符串 $W$ 作为句子出现的频率。例如，对于描述口语的语言模型，$P(hi) = 0.01$，因为可能每一百个句子中就有一个是“hi”；而 $P(li

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。