语义增强信号的学习

m0_62653520

已于 2025-07-08 15:53:09 修改

阅读量276

点赞数 4

CC 4.0 BY-SA版权

文章标签：学习

于 2025-06-28 18:37:07 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_62653520/article/details/148979123

这是一篇纯文字帖，大家可以随便看看

语义增强的概念

语义增强是通过引入外部知识或高级语义信息，提升模型对输入数据（如图像、视频、文本）的深层理解能力的技术。其核心目标是：

弥补低级特征的不足（如像素、词向量）。
建立更贴近人类认知的语义关联（如“猫→哺乳动物→宠物”）。

为什么要进行语义增强？

可能是因为视觉局限，视频帧模糊、遮挡或者视角单一。仅靠像素级特征难以识别高阶语义

文本歧义，语言大模型生成的描述太过于笼统，比如画面是一个人在打网球，但是大模型生成的描述是一个人在运动，缺乏细节

模态鸿沟，视觉和文本特征天然存在分布差异，直接融合会导致偏差（二者在特征空间中的距离是很远的，即使是描述同一特征，大家可以看我上一篇分析的论文中有个图，我直接放在底下，大家就可以看到视觉和文本在特征空间上的距离有多远）

那么语义增强的目的肯定也是为了解决这些问题了

如何实现语义增强？

外部知识注入：融合知识图片，领域术语库。将跑步关联到有氧运动再到体育运动，提升动作分类粒度

多层级语义建模：分层提取特征低级-高级视频帧--边缘/颜色--物体检测--场景理解--行为推理

跨模态对齐增强：使用clip/blip等模型对齐视觉与文本的语义空间文本“狗”与图像中的狗特征在共享空间中距离更近

语义增强的核心技术

1.知识图谱融合

步骤：检测视频中的实体（如物体、人物）从知识图谱中提取关联属性（如网球拍--用于打网球--属于体育器材）将属性注入分类器或描述生成模块

优势：解决罕见类别或长尾问题（比如槌球这类小众运动）

2.多模态语义蒸馏

方法：用大模型生成视频的多样化描述（如“足球比赛”-激烈对抗-进球瞬间）通过对比学习，将多样性描述压缩为紧凑的语义向量

效果：增强模型对同一内容不同表述的鲁棒性

3.对抗性语义增强

思路：生成对抗文本（如遮挡视频帧），强制模型学习更本质的语义特征。示例：遮挡“网球拍”后，模型仍能通过人物姿势推断“打网球”。

大家简单看一下公式，我后面会出一个关于对抗训练的帖子

与校准策略的结合

语义增强可直接提升模态内校准（intra-c)和模态间校准（inter-C)的效果

模态内校准：更准确的语义描述--更可靠的文本特征权重比如：若LLM生成可能是狗或者狼，通过知识图谱关联属性后，偏向狗

模态间校准：跨模态语义一致性--动态调整β值若视觉检测到“球场”且文本生成“足球”，β倾向于文本模态（因场景语义明确）

举例说明

任务：视频动作识别（输入：模糊视频片段）

如果无语义增强，可能视觉看着是跑步，文本生成是一个人在快速移动。如果有的话知识图片关联快速移动+草地+穿球衣得到是足球比赛 LLM生成文本：球员在草地上冲刺得到正确分类

大家可以自己去看个语义增强的例子，加深印象这个就是纯文字描述

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。