基于多步长协作的时间重复计数与多层注意力社交推荐系统
基于多步长协作的时间重复计数
在视频处理领域,准确计算视频中重复动作的次数是一个重要任务。传统的重复计数数据集大多只关注人类重复动作计数,存在一定局限性。为了更全面地验证方法,研究人员收集了包含人类和非人类重复动作的新混合数据集 ActCount。
时间步长选择
在计数过程中,时间步长的选择至关重要。研究人员引入了一个额外的模块来回归每个视频不同步长的得分。具体操作如下:
- 训练时:将 RepSASE 的输出层替换为大小为 k 的新层。定义损失函数 (L_{str}=\frac{1}{N}\sum_{i = 1}^{N}L(s_i, -s_i)),其中 (L) 是平滑 L1 损失,(-s) 是得分地面真值。对于每个训练视频,训练好的 RepSASE 模型用一系列时间步长((str = 2, …, n, …, k),本文中 (k) 设为 8)预测计数结果,得到相应的预测值 (C_{i}^{1}, …, C_{i}^{k})。选择足以包含至少两次重复的最小步长作为步长地面真值 (C_{gt}^{i}),并通过公式 (-s_{i}^{k}=\ln(\frac{\min(C_{i}^{k}, C_{gt}^{i})}{\max(C_{i}^{k}, C_{gt}^{i})})) 计算所有步长的步长得分地面真值。
- 推理时:将来自同一视频的一系列具有不同步长的剪辑发送到网络中,选择得分最高的三个步长。
推理过程
为了稳健地输出给定视频中的重复次数,需要进行两个主要操作:
- 从周期预测器计数:得到 (R = [r_1, r_2, · · ·, r_n]) 后,对 (R)