本文投稿于极视角公众号,链接为文章链接.
也欢迎大家关注我的知乎专栏CV论文笔记及其他。
上一篇笔记介绍了 Action Recognition 领域的研究进展。Action Recognition主要是用于给分割好的视频片段分类,但实际中大部分视频都是未分割的长视频。所以这就引出了今天要介绍的领域:Temporal Action Detection(或者叫Temporal Action Localization,意思相同)。过去半年时间我也一直在做这个方向,投了两篇论文,如果能中的话应该会写笔记介绍一下~
任务特点及分析
任务目的
给定一段未分割的长视频,算法需要检测视频中的行为片段(action instance),包括其开始时间、结束时间以及类别。一段视频中可能包含一个或多个行为片段。
任务特点与难点
- action recognition与temporal action detection之间的关系同 image classfication与 object detection之间的关系非常像。基于image classification问题,发展出了许多强大的网络模型(比如ResNet,VGGNet等),这些模型在object detection的方法中起到了很大的作用。同样,action recognition的相关模型(如2stream,C3D, iDT等)也被广泛的用在temporal action detection的方法中。
- 由于temporal action detection和object detection之