Online Action Detection

Apr 25, 2024

319 views

Temporal action detection可以分为两种setting，一是offline的，在检测时视频是完整可得的，也就是可以利用完整的视频检测动作发生的时间区间（开始时间+结束时间）以及动作的类别; 二是 online的，即处理的是一个视频流，需要在线的检测（or 预测未来）发生的动作类别，但无法知道检测时间点之后的内容。online的问题设定更符合surveillance的需求，需要做实时的检测或者预警；offline的设定更符合视频搜索的需求，比如youtube可能用到的 highlight detection / preview generation。

问题演化

Early action detection -> Online action detection -> Online action anticipation：

在学术界关注online action detection之前，有一个相似的问题叫做 early event detection ，问题定义是 “detect the event as soon as possible, after it starts but before it ends”，即在某事件开始之后尽量快地检测到它。但是具体问题设定上，它假设目标事件已知，只是在每一帧上去检测有没有发生这个动作，这相当于把detection简化成了localization的问题，不需要关心分类，而只是检测起止时间。

在CVPR16时 Shugao Ma提出了early activity detection，问题强调的是观察了一段动作之后，给出这个动作的类别和开始的时间，这篇文章算是比较早（不确定是不是最早）的去做early action detection。

在ECCV 16， Geest et al 明确提出 online action detection，给出了一个比较全面的问题定义，测试方式和一个新数据集 (视频取材于美剧，长度在20分钟左右，我觉得这个数据集拿来做offline/online detection 都还是不错的)。问题定义是 “Given a streaming video as input, the system should output, ideally in realtime, whether the action is currently taking place (or not).”，即，针对一个视频流，检测何种动作正在发生。以下图片来自

在这些文章的基础上，在BMVC17发表了一篇做online action anticipation的文章，问题相比online detection更进一步，考虑能否根据过去发生的动作预测未来将要发生的动作，并将online detection作为anticipation的一种特殊情况进行处理，即预测时间为0.

这四篇文章应该能简要的勾勒出这个问题的发展，从Early action detection 到 Online action detection 再到 Online action anticipation。

#

!

Online Action Detection

问题演化

主要方法