深入解析：WUP、LIN、RES 三大语义相似度算法

原创

于 2025-03-03 06:15:31 发布 · 828 阅读

·

10

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#算法 #python

WUP、LIN、RES 介绍及 Python 实现

在自然语言处理（NLP）以及信息检索、文本挖掘等领域，基于 WordNet 的词语语义相似度计算是关键的一环。通过度量两个单词在语义层次结构中的相似程度，我们可以用于词义消歧、文本分类、自动摘要、推荐系统等诸多任务。

本文将详细介绍三种经典的基于 WordNet 的相似度算法：

WUP（Wu & Palmer）
RES（Resnik）
LIN（Lin）

除了它们各自的定义、公式、核心思想外，还会给出在 Python 中（主要基于 NLTK）的示例代码。为了确保“内容扩充至三倍以上”，本文在原有基础上增加了更多的背景知识、应用场景、示例以及常见问题分析。

一、WordNet 与语义相似度概述

1. WordNet 简介

WordNet 是普林斯顿大学开发的大型英语词库，它将英文单词按照“同义词集 (Synset)”组织起来，每个同义词集对应某一语义概念。例如：

dog.n.01 表示名词“狗”的一个主要含义；
bank.n.01 表示金融机构“银行”的含义；
bank.n.02 可能表示“河岸”的含义。

除此之外，WordNet 还在这些同义词集之间建立了“上下位”关系，形成若干棵语义层次树。比如：

animal.n.01（动物）是 dog.n.01（狗）的上位概念；
mammal.n.01（哺乳动物）则处在“动物”和“狗”之间，更加具体一些。

这种严谨的层次结构与丰富的同义词集，为衡量两个词的语义相关性提供了基础。

2. 语义相似度的意义

衡量两个词的语义相似度在 NLP 和信息检索中是非常常见的基础操作，例如：

文本分类与聚类：基于词的相似度来聚类或分类文档；
推荐系统：度量商品标签或用户标签之间的相似度用于推荐；
信息检索：根据与查询词相似的关键词进行搜索扩展；
问答系统：测量用户问题与知识库中问题的语义相似程度。

二、WUP（Wu & Palmer）相似度

1. 算法背景与动机

Wu & Palmer（1994） 提出的相似度度量方法主要基于以下几点：

通过 最小公共祖先 (Lowest Common Subsumer, LCS) 来衡量两个概念之间的共享层次位置；
考虑概念在 WordNet 层次结构中的深度（越靠近根节点越抽象，越靠近叶节点越具体）。

2. 数学公式

设：

$\text{depth}(C)$ 表示概念 $C$ 在层次树中的深度（通常根节点深度记为 0）；
$C_1$ 和 $C_2$ 是需要比较相似度的两个概念；
$C_{LCS}$ 是它们的最小公共祖先。

WUP 相似度定义如下：

$\text{sim}_{wup}(C_1, C_2) = \frac{2 \times \text{depth}(C_{LCS})}{\text{depth}(C_1) + \text{depth}(C_2)}$

最低0.47元/天解锁文章

200万优质内容无限畅学

跑起来总会有风

博客等级

码龄5年

29
原创

571
点赞

510
收藏

1111
粉丝

关注

私信

热门文章

分类专栏

上一篇：: 计算理论(4): 从NFA到DFA的子集构造详解

下一篇：: ESP32 BLE 详解与开发实战

最新评论

消息传递机制专论：图神经网络的“基本粒子”
gulinfeng8244: 谢谢，写得生动形象，写得太好了！
树莓派变身高效VPN：PiVPN设置教程
CSDN-Ada助手: 恭喜您写下了第17篇博客！标题看起来非常吸引人，我很期待阅读您关于树莓派变身高效VPN的内容。您的教程一定会对很多人有所帮助。如果可以的话，我建议您可以考虑分享一些与VPN相关的安全性和隐私保护的技巧，这将进一步丰富您的博客内容。谢谢您的分享！
深入Pandas（二）：高级数据处理技巧
CSDN-Ada助手: “恭喜您写了第15篇博客，标题为‘深入Pandas（二）：高级数据处理技巧’。您的持续创作让我非常钦佩，对Pandas的深入探索也让我受益匪浅。希望您能继续分享更多高级数据处理技巧，比如数据可视化、机器学习应用等方面的经验和见解。期待您的下一篇文章，谢谢您的付出！”
Python数据分析全攻略
CSDN-Ada助手: 恭喜您写了第13篇博客！标题“Python数据分析全攻略”听起来非常吸引人。您持续创作的努力值得赞赏，这些博客对于想要学习数据分析的人来说肯定非常有帮助。接下来，我建议您可以考虑分享一些实际案例，结合实际应用场景，让读者更深入地了解如何在实际工作中运用Python进行数据分析。期待您下一篇博客的发布，谢谢您的分享！

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

跑起来总会有风 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。