Temporal-Relational CrossTransformers for Few-Shot Action Recognition 学习解读

本文提出了一种名为Temporal-Relational CrossTransformers (TRX)的新方法,用于小样本动作识别。与传统方法相比,TRX利用注意力机制构建特定查询的类原型,匹配并聚合支持集视频的所有子序列,而不是使用类平均值或单个最佳匹配。通过使用不同数量帧的有序元组,TRX能更好地匹配不同速度和时间偏移的动作,适用于精细分类。在Kinetics、SSv2、HMDB51和UCF101等数据集上,TRX实现了最先进的结果,并在详细消融研究中展示了其优势。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >


一作:Toby Perrett 主页介绍
作者之前主要做LSTM、元学习;这篇文章也很快就开源了,开源地址如下,作者很热心,回复很耐心。
Github源码

Abstract

Distinct from previous few-shot works, we construct class prototypes using the CrossTransformer attention mechanism to observe relevant sub-sequences of all support videos, rather than using class averages or single best matches. Video representations are formed from ordered tuples of varying numbers of frames, which allows sub-sequences of actions at different speeds and temporal offsets to be compared.

我们主要关注这两句话;首先指出了和以前的小样本学习方法的不同,然后提出解决了什么样的问题。

  1. 观察了所有支持集视频的相关子序列--------而不是 类平均值or单个最佳匹配值(之前的方法)
  2. 视频表示由不同数量帧的有序元组构成,可以比较不同速度和时间偏移下的动作子序列

Introduction

We propose a novel approach to few-shot action recognition, which we term Temporal-Relational CrossTransformers (TRX). A query-specific class prototype is constructed by using an attention mechanism to match each query sub-sequence against all sub-sequences in the support set, and aggregating this evidence. By performing the attention operation over temporally

评论 43
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值