知识库 - Orange

R-FCN

Computer Vision

2026-01-11

动机 Faster RCNN是首个利用CNN来完成proposals的预测的，之后的很多目标检测网络都是借助了Faster RCNN的思想。而Faster RCNN系列的网络都可以分成2个部分： 1. Fully Convolutional subnetwork before RoI Layer 1. RoIwise subnetwork 第1部分就是直接用普通分类网络的卷积层，用其来提取共享特征，然后一个RoI Pooling Layer在第1部分的最后一张特征图上进行提取针对各个RoIs的特征向量（或者说是特征图，维度变换一下即可），然后将所有RoIs的特征向量都交由第2部分来处理（分类和回归），而第二部分一般都是一些全连接层，在最后有2个并行的loss函数：softmax和smooth...

#Self-Supervised #CV

READ

Deformable Convolution系列

Computer Vision

2026-01-11

Deformable Conv v1 这篇文章其实比较老了，是 2017 年 5 月出的 1. Motivation 1.1 Task 上的难点视觉任务中一个难点就是如何 model 物体的几何变换，比如由于物体大小，pose, viewpoint 引起的。一般有两类做法：在数据集上做文章，让 training dataset 就包含所有可能的集合变换。通过 affine transformation 去做 augmentation 另一种就是设计 transformationinvariant (对那些几何变换不变）的 feature 和算法。比如 SIFT 和 sliding window 的方式。文章说上述两种方式有问题，几何变换我们是事先知道的，这种不能 generalize ...

#CV #Self-Supervised

READ

目标检测小目标问题概述

Computer Vision

2026-01-11

在深度学习目标检测中，特别是人脸检测中，由于分辨率低、图像模糊、信息少、噪声多，小目标和小人脸的检测一直是一个实用和常见的难点问题。然而，在过去几年的发展中，也出现了一些提高小目标检测性能的解决方案。本文将对这些方法进行分析、整理和总结。图像金字塔和多尺度滑动窗口检测一开始，在深学习方法成为流行之前，对于不同尺度的目标，通常是从原始图像开始，使用不同的分辨率构建图像金字塔，然后使用分类器对金字塔的每一层进行滑动窗口的目标检测。在著名的人脸检测器MTCNN中，使用图像金字塔法检测不同分辨率的人脸目标。然而，这种方法通常是缓慢的，虽然构建图像金字塔可以使用卷积核分离加速或简单粗暴地缩放，但仍需要做多个特征提取，后来有人借其想法想出一个特征金字塔网络FPN，在不同层融合特征，只需要一次正向计...

#CV #Object Detection

READ

Anchor-Free

Computer Vision

2026-01-11

简介 "Anchorfree"（无锚点）是一种目标检测方法，与传统的使用锚框（anchor boxes）的方法（例如Faster RCNN）不同。在传统方法中，锚框是预先定义的、具有不同尺寸和长宽比的矩形区域，用于捕捉不同尺寸和形状的目标。而在"anchorfree"方法中，不再使用锚框，而是直接预测目标的位置和形状，通常使用网络输出的热图和偏移信息。以下是对"anchorfree"方法的一些关键理解点：无需预定义锚框：在传统目标检测方法中，需要事先定义和生成一组锚框，这可能需要大量的人工工作。而在"anchorfree"方法中，不再需要锚框，模型可以自动学习目标的位置和形状。直接位置和形状回归： "anchorfree"方法通过输出的热图来表示目标的存在概率，并使用偏移信息来定位目...

#CV #Object Detection

READ

Yolo系列

Computer Vision

2026-01-11

YOLO的核心思想就是利用整张图作为网络的输入，直接在输出层回归bounding box的位置和bounding box所属的类别。 faster RCNN中也直接用整张图作为输入，但是fasterRCNN整体还是采用了RCNN那种 proposal+classifier的思想，只不过是将提取proposal的步骤放在CNN中实现了,而YOLO则采用直接回归的思路。 YOLO v1 将一幅图像分成SxS个网格(grid cell)，如果某个object的中心落在这个网格中，则这个网格就负责预测这个object。每个网格要预测B个bounding box，每个bounding box除了要回归自身的位置之外，还要附带预测一个confidence值。这个confidence代表了所预测的b...

#Object Detection #CV

READ

Attention mechanism

Computer Vision

2026-01-11

SENet SE模块比较简单，目的是对特征通道进行重新加权，如上图所示 CBAM: Convolutional Block Attention Module CBAM考虑了在channel和空间尺度两个层面分别进行attention，如上图所示，方法也很简单分别在channel和空间维度上进行avg pooling 和max pooling，然后汇合在一起。

#CV

READ

人脸识别Loss

Computer Vision

2026-01-11

超多分类的Softmax 2014年CVPR两篇超多分类的人脸识别论文：DeepFace和DeepID DeepFace Taigman Y, Yang M, Ranzato M A, et al. Deepface: Closing the gap to humanlevel performance in face verification [C]// CVPR, 2014. 4.4M训练集，训练6层CNN + 4096特征映射 + 4030类Softmax，综合如3D Aligement, model ensembel等技术，在LFW上达到97.35%。 DeepID Sun Y, Wang X, Tang X. Deep learning face representation fro...

#CV #人脸识别

READ

A-Softmax

Computer Vision

2026-01-11

推导回顾一下二分类下的Softmax后验概率，即： [公式] 显然决策的分界在当 𝑝_1=𝑝_2 时，所以决策界面是 (𝑊_1−𝑊_2)𝑥+𝑏_1−𝑏_2=0 。我们可以将 𝑊^𝑇_𝑖𝑥+𝑏_𝑖 写成 ‖W_i^T‖⋅‖x‖cos⁡(θ_i)+b_i ，其中 θ_i 是 W_i 与 x 的夹角，如对 W_i 归一化且设偏置 b_i 为零（ ‖W_i‖=1 ， b_i=0 ），那么当 p_1=p_2 时，我们有 cos⁡(θ_1)−cos⁡(θ_2)=0 。从这里可以看到，如里一个输入的数据特征 x_i 属于 𝑦_𝑖 类，那么 θ_{y_i} 应该比其它所有类的角度都要小，也就是说在向量空间中 W_{y_i} 要更靠近 x_i 。我们用的是Softmax Loss，对于输入 x_i ，So...

#人脸识别 #CV

READ

Online Action Detection

3D Model

2026-01-11

Temporal action detection可以分为两种setting，一是offline的，在检测时视频是完整可得的，也就是可以利用完整的视频检测动作发生的时间区间（开始时间+结束时间）以及动作的类别; 二是 online的，即处理的是一个视频流，需要在线的检测（or 预测未来）发生的动作类别，但无法知道检测时间点之后的内容。online的问题设定更符合surveillance的需求，需要做实时的检测或者预警；offline的设定更符合视频搜索的需求，比如youtube可能用到的 highlight detection / preview generation。问题演化 Early action detection Online action detection Online a...

#video

READ

Temporal Recurrent Networks for Online Action Detection (TRN)

3D Model

2026-01-11

Temporal Recurrent Networks for Online Action Detection (TRN)

简介这篇文章的思路就是之前的工作都是在利用历史信息和当前时刻的信息，而这篇文章就是要预测未来的信息来结合历史信息做分类。整体框架采用的lstm。方法传统的RNN或者LSTM并不能接收未来的信息，所以作者设计了一个TRN Cell为一个循环单元，TRN Cell 的算法流程如下：右侧的可以横过来看，输入是大lstm中的隐状态h（文中把大的lstm称作Encoder），以h为输入再经过小的lstm，将输出连接起来构成future信息。再解释一下就是，endcoder中得到了时间t的信息，那以t的信息为输入，再经过序列lstm，每个输出就可以看作是对未来 t+1...t+l_d 的预测，这些预测再经过一个FC层和 t 时刻的结合起来，作用于encoder的下一时序。从Loss的角度来说...

#video

READ

Learning to Discriminate Information for Online Action Detection (IDU)

3D Model

2026-01-11

Learning to Discriminate Information for Online Action Detection (IDU)

简介这篇文章主要的动机是，之前的RNN，LSTM，GRU这样的循环结构中，循环单元累计历史输入，但忽视了其与当前动作的联系，所以不能得到一个有效的判别性的表示。 Specifically, the recurrent unit accumulates the input information without explicitly considering its relevance to the current action, and thus the learned representation would be less discriminative. 所以，这篇文章就是在探索是否可以学习一个判别性较强的表示区分相关和不相关的信息以检测当前要动作。 how RNNs can lear...

#video

READ

OadTR: Online Action Detection with Transformers

3D Model

2026-01-11

OadTR: Online Action Detection with Transformers

简介之前的很多方法都是用RNN的结构去构建时序上的依赖关系，但是RNN的结构的缺点是不能并行操作，且存在梯度消失的现象。所以本文就是将之前的RNN的结构改为Transfomer的形式。延续了之前TRN的整个网络的框架，也是结合了对未来帧的预测与历史帧的表示相结合来对当前的动作进行预测。方法整个网络框架如上图所示， Encoder就是利用transfomer对longrange的历史和目前帧进行特征表示，其中要说明的一个点就是，这里的特征空间包含T个历史特征，当前窗口的特征以及一个task token，这个task token的作用可以从下图看出来这幅图对比的是输入进classifier的特征与网络输入的特征的相似性，可以看出w/o task token 对应的是当前t=0时刻的特征，...

#transformer #video

READ

#

!

INCOMING TRANSMISSION

R-FCN

Deformable Convolution系列

目标检测小目标问题概述

Anchor-Free

Yolo系列

Attention mechanism

人脸识别Loss

A-Softmax

Online Action Detection

Temporal Recurrent Networks for Online Action Detection (TRN)

Learning to Discriminate Information for Online Action Detection (IDU)

OadTR: Online Action Detection with Transformers