语言模型:从基础到优化
1. 概率上下文无关文法(PCFG)
概率上下文无关文法(PCFG)是一种用于语言建模的方法。它通过计算每个产生式规则在句子推导中被使用的概率,来估计规则的使用频率。具体步骤如下:
1. 计算每个句子中每个产生式规则的计数。
2. 对所有句子的计数进行求和,得到每个产生式规则在训练语料库中被使用的总次数。
3. 用每个非终结符的产生式总计数除以该非终结符的总计数,得到在最大似然估计(MLE)框架下该产生式的概率。
例如,我们有概率计算公式:
[P(A_{i,m,n,s,t}|G)=\frac{C(A_{i,m,n,s,t},G)}{C(G)}]
然而,PCFG 存在一些问题:
- 独立性假设 :它假设任何一个非终结符的扩展与其他非终结符的扩展是独立的,不考虑节点在解析树中的位置,这与上下文相关扩展的直觉相悖。
- 对词汇信息不敏感 :虽然词汇信息在选择歧义介词短语附着的正确解析中起着重要作用,但在 PCFG 中,词汇信息只能通过预终结节点(如动词或名词)进行词汇扩展的概率来表示。
为了解决这些问题,可以向 PCFG 中添加词汇依赖,使 PCFG 概率对周围的句法结构更加敏感。
2. N - 元语言模型
2.1 基本概念
语言模型可以表示为单词串 $W$ 上的概率分布 $P(W)$,反映了字符串 $W$ 作为句子出现的频率。例如,对于描述口语的语言模型,$P(hi) = 0.01$,因为可能每一百个句子中就有一个是“hi”;而 $P(li