视觉语言跨模态特征语义相似度计算改进--表征空间维度语义依赖感知聚合算法 ACM MM

论文链接Unlocking the Power of Cross-Dimensional Semantic Dependency for Image-Text Matching (ACM MM23)

代码主页GitHub - CrossmodalGroup/X-Dim

主要优势 (Highlights)

1)模型设计简单有效,仅改变视觉特征和文本特征之间相似度计算的 维度对应聚合方式,在基础基线SCAN上取得显著性能提升,达到SOTA;

2)理论上分析,所提出方法等价于在相似度计算过程中引入核函数,理论上可以将原始表征空间从有限的𝑑维变换到无限维高维空间,使特征表示更具备可区分性;

3)在可解释性上,对表征空间中维度的语义表征倾向具有可解释性,同时所提方法能够促进更好的跨模态表征学习。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值