组合语义的表示学习

### 组合语义的表示学习 #### 1. 二元组合概述组合语义学的目标是通过二元组合，用基本单元构建更高级语言单元的向量表示。通常假设短语的每个组成部分都能嵌入到一个可计算的向量中，用于生成该短语的表示向量。在二元组合中，每次操作涉及两个对象。例如，对于由“machine”和“learning”组成的短语“machine learning”，已知表示这两个词的向量 $\mathbf{u}$ 和 $\mathbf{v}$，我们的主要目标是根据这两个词的表示构建短语的表示向量 $\mathbf{p}$。假设在一个简单的语义空间中，每个向量由五个整数表示，“machine”和“learning”的假设向量分别为 $[0, 3, 1, 5, 2]$ 和 $[1, 4, 2, 2, 0]$。若直接使用加法运算符表示“machine learning”，则为 $[0, 3, 1, 5, 2] + [1, 4, 2, 2, 0] = [1, 7, 3, 7, 2]$。解决这个问题的关键在于设计一个作为二元运算符的原始组合函数，基于此函数可递归应用于词序列，以推导更长文本的组合。建模二元组合函数是一个研究充分但仍具挑战性的问题，主要有加法模型和乘法模型两种视角，下面分别介绍。 #### 2. 加法模型加法模型以加法为基本操作。为简化讨论，将公式简化为 $\mathbf{p} = f(\mathbf{u}, \mathbf{v})$，省略关系和背景项。显然，若要正确执行加法，$\mathbf{p}$、$\mathbf{u}$ 和 $\mathbf{v}$ 应处于同一语义空间。 - **简单求和表示**：最简单的方法是直接使用求和来表示联合表示，即 $\mathbf{p} = \mathbf{u} + \mathbf{v}$。例如，“machine”和“learning”对应向量求和为 $\mathbf{w}(\text{machine}) + \mathbf{w}(\text{learning}) = [1, 7, 3, 7, 2]$。此方法假设不同组成部分的组合是对称函数，不考虑组成部分的顺序，存在诸多缺点，如缺乏对词序的建模能力以及背景句法或知识信息，但仍提供了一个相对较强的基线。 - **加权求和改进**：为克服词序问题，可采用加权求和，形式为 $\mathbf{p} = \alpha\mathbf{u} + \beta\mathbf{v}$，其中 $\alpha$ 和 $\beta$ 是两个向量的不同权重。当 $\alpha \neq \beta$ 时，$(\mathbf{u}, \mathbf{v})$ 和 $(\mathbf{v}, \mathbf{u})$ 有不同表示，符合真实语言现象。例如，设 $\alpha = 0.3$，$\beta = 0.7$，则 $0.3\times\mathbf{w}(\text{machine}) = [0, 0.9, 0.3, 1.5, 0.6]$，$0.7\times\mathbf{w}(\text{learning}) = [0.7, 2.8, 1.4, 1.4, 0]$，“machine learning”的表示为它们的和 $[0.7, 3.7, 1.7, 2.9, 0.6]$。 - **结合邻域语义**：可将先验知识和句法信息纳入加法模型，结合 $K$ 近邻语义进行组合，公式为 $\mathbf{p} = \mathbf{u} + \sum_{i=1}^{L} \mathbf{m}_i + \mathbf{v} + \sum_{i=1}^{K} \mathbf{n}_i$，其中 $\mathbf{m}_1, \mathbf{m}_2, \ldots, \mathbf{m}_L$ 是 $\mathbf{u}$ 的语义邻居（同义词），$\mathbf{n}_1, \mathbf{n}_2, \ldots, \mathbf{n}_K$ 是 $\mathbf{v}$ 的语义邻居。这种方法将同义词作为平滑因子纳入组合函数，降低语言的方差。例如，在“machine”和“learning”的组合中，选择“computer”和“optimizing”作为邻居，其向量分别为 $[1, 0, 0, 0, 1]$ 和 $[1, 5, 3, 2, 1]$，则“machine learning”的表示变为 $\mathbf{w}(\text{machine}) + \mathbf{w}(\text{computer}) + \mathbf{w}(\text{learning}) + \mathbf{w}(\text{optimizing}) = [3, 12, 6, 9, 4]$。 - **相似度计算**：在语义空间中，余弦函数是衡量表示之间相似度的自然方法。计算 $\

最低0.47元/天解锁专栏

买1年送3月

继续阅读点击查看下一篇

400次会员资源下载次数

300万+ 优质博客文章

1000万+ 优质下载资源

1000万+ 优质文库回答

复制全文

组合语义的表示学习

相关推荐

专栏目录

组合语义的表示学习

相关推荐

语义网络表示法PPT学习教案.pptx

语义分割Loss计算完整演示

基于词典和机器学习组合的情感分析

自然语言处理中的词表示学习与组合语义表示学习

组合语义工具包：词向量组合函数学习与处理

组合语义的表示学习：从二元到多元组合

自然语言语义表示与组合学习

自然语言处理中的词表示与语义组合学习

自然语言处理中的词表示与组合语义解读

构建文本语义表示的深度学习模型

Java新人入职——配置环境及安装开发工具（完全）

数据驱动的算法传播对文学评价范式的影响机制分析.docx

专栏目录

最新推荐

容器部署与管理实战指南

基于属性测试的深入解析与策略探讨

开源安全工具：Vuls与CrowdSec的深入剖析

信息系统集成与测试实战

实时资源管理：Elixir中的CPU与内存优化

构建交互式番茄钟应用的界面与功能

RHEL9系统存储、交换空间管理与进程监控指南

轻量级HTTP服务器与容器化部署实践

Ansible高级技术与最佳实践

PowerShell7在Linux、macOS和树莓派上的应用指南