传统的序列模型CRF与HMM区别

最新推荐文章于 2024-04-07 22:26:43 发布

研发咨询顾问

最新推荐文章于 2024-04-07 22:26:43 发布

阅读量1.4k

点赞数 18

CC 4.0 BY-SA版权

分类专栏：综合文章标签：大数据人工智能 HMM CRF

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43871785/article/details/135084148

综合专栏收录该内容

729 篇文章

订阅专栏

文章讨论了HMM和CRF这两种常见的序列模型，比较了它们在建模方式、隐含状态处理和特征函数上的差异，并提供了CRF在NER任务中的Python代码示例。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1. 理论解说

1.1 HMM（Hidden Markov Model）

HMM是一种统计模型，用于描述一个含有隐含未知参数的马尔可夫过程。在HMM中，状态不可见，而状态的输出可见。具体来说，HMM包括一个隐藏的马尔科夫链，其状态无法直接观察到，以及一个生成观察序列的输出模型。

HMM的基本假设包括状态转移矩阵描述状态间的转移概率，发射矩阵描述每个状态生成观察值的概率分布，和初始状态概率描述初始时刻各个状态的概率分布。

1.2 CRF（Conditional Random Field）

CRF是一种判别模型，用于标注或分割序列数据。与HMM不同，CRF没有对隐藏状态进行建模，而是直接对输入序列和输出序列之间的关系进行建模，因此CRF不受HMM中的独立性假设约束。

CRF的基本假设包括给定输入序列条件下，输出序列的联合概率分布由特征函数的加权组合决定。特征函数是关于输入序列和输出标签序列的函数，学习得到的参数可以通过对数线性模型来表示。

2. 区别

2.1 建模方式

HMM是一种生成模型，它通过对隐藏状态和观察序列之间的联合概率分布进行建模。CRF是一种判别模型，它直接对输入序列和输出序列之间的联合概率分布建模。

2.2 对隐含状态的处理

HMM中包含一个隐含的马尔科夫链来描述隐藏状态，而CRF不对隐藏状态进行建模，只对输入输出序列之间的关系进行建模。

2.3 对特征函数的处理

HMM中没有特征函数的概念，它是基于概率分布进行建模的。而CRF是基于特征函数的加权组合来描述输入输出序列之间的关系，学习得到的模型参数可以通过对数线性模型来表示。

3. 参数介绍和完整代码案例

下面是一个使用CRF进行命名实体识别（NER）的Python代码案例：

# 导入所需的库

import nltk

import sklearn_crfsuite

from sklearn_crfsuite import metrics

# 加载NER数据集

nltk.download('conll2002')

train_sents = list(nltk.corpus.conll2002.iob_sents('esp.train'))

test_sents = list(nltk.corpus.conll2002.iob_sents('esp.testb'))

# 特征提取函数

def word2features(sent, i):

word = sent[i][0]

features = {

'bias': 1.0,

'word.lower()': word.lower(),

'word[-3:]': word[-3:],

'word[-2:]': word[-2:],

'word.isupper()': word.isupper(),

'word.istitle()': word.istitle(),

'word.isdigit()': word.isdigit()

}

if i > 0:

word1 = sent[i-1][0]

features.update({

'-1:word.lower()': word1.lower(),

'-1:word.istitle()': word1.istitle(),

'-1:word.isupper()': word1.isupper()

})

else:

features['BOS'] = True

if i < len(sent)-1:

word1 = sent[i+1][0]

features.update({

'+1:word.lower()': word1.lower(),

'+1:word.istitle()': word1.istitle(),

'+1:word.isupper()': word1.isupper()

})

else:

features['EOS'] = True

return features

def sent2features(sent):

return [word2features(sent, i) for i in range(len(sent))]

def sent2labels(sent):

return [label for token, postag, label in sent]

def sent2tokens(sent):

return [token for token, postag, label in sent]

# 特征提取

X_train = [sent2features(s) for s in train_sents]

y_train = [sent2labels(s) for s in train_sents]

X_test = [sent2features(s) for s in test_sents]

y_test = [sent2labels(s) for s in test_sents]

# 训练CRF模型

crf = sklearn_crfsuite.CRF(

algorithm='lbfgs',

c1=0.1,

c2=0.1,

max_iterations=100,

all_possible_transitions=True

)

crf.fit(X_train, y_train)

# 在测试集上进行预测

y_pred = crf.predict(X_test)

# 输出模型评估结果

print(metrics.flat_classification_report(y_test, y_pred, labels=crf.classes_))

以上代码中，首先使用NLTK库加载了一个NER数据集，然后定义了特征提取函数和特征提取过程，接着使用sklearn_crfsuite库构建了一个CRF模型，并在训练集上进行了训练。最后对测试集进行了预测，并输出了模型的评估结果。

4. 总结

传统的序列模型CRF与HMM的区别主要体现在建模方式、对隐含状态的处理和对特征函数的处理上。CRF是一种判别模型，直接对输入输出序列之间的关系进行建模，不对隐藏状态进行建模，而HMM是一种生成模型，通过对隐藏状态和观察序列的联合概率分布进行建模。在实际应用中，可以根据具体任务的特点选择合适的模型进行建模和训练。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

研发咨询顾问 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。