Online Action Detection

Apr 25, 2024
2 views
3D Model

Temporal action detection可以分为两种setting, 一是offline的,在检测时视频是完整可得的,也就是可以利用完整的视频检测动作发生的时间区间(开始时间+结束时间)以及动作的类别; 二是 online的,即处理的是一个视频流,需要在线的检测(or 预测未来)发生的动作类别,但无法知道检测时间点之后的内容。online的问题设定更符合surveillance的需求,需要做实时的检测或者预警;offline的设定更符合视频搜索的需求,比如youtube可能用到的 highlight detection / preview generation。

问题演化

Early action detection -> Online action detection -> Online action anticipation:

在学术界关注online action detection之前,有一个相似的问题叫做 early event detection ,问题定义是 “detect the event as soon as possible, after it starts but before it ends”, 即 在某事件开始之后尽量快地检测到它。但是具体问题设定上,它假设目标事件已知,只是在每一帧上去检测有没有发生这个动作,这相当于把detection简化成了localization的问题,不需要关心分类,而只是检测起止时间。

在CVPR16时 Shugao Ma提出了early activity detection,问题强调的是观察了一段动作之后,给出这个动作的类别和开始的时间, 这篇文章算是比较早 (不确定是不是最早)的去做early action detection。

image

在ECCV 16, Geest et al 明确提出 online action detection,给出了一个比较全面的问题定义,测试方式和一个新数据集 (视频取材于美剧,长度在20分钟左右,我觉得这个数据集拿来做offline/online detection 都还是不错的)。问题定义是 “Given a streaming video as input, the system should output, ideally in realtime, whether the action is currently taking place (or not).”, 即,针对一个视频流,检测何种动作正在发生。以下图片来自

image

在这些文章的基础上,在BMVC17发表了一篇做online action anticipation的文章,问题相比online detection更进一步,考虑能否根据过去发生的动作预测未来将要发生的动作,并将online detection作为anticipation的一种特殊情况进行处理,即预测时间为0.

image

这四篇文章应该能简要的勾勒出这个问题的发展,从Early action detection 到 Online action detection 再到 Online action anticipation。

主要方法