知识库 - Orange

R-FCN

Computer Vision

2026-02-26

动机 Faster R-CNN是首个利用CNN来完成proposals的预测的，之后的很多目标检测网络都是借助了Faster R-CNN的思想。而Faster R-CNN系列的网络都可以分成2个部分： Fully Convolutional subnetwork before RoI Layer RoI-wise subnetwork 第1部分就是直接用普通分类网络的卷积层，用其来提取共享特征，然后一个RoI Pooling Layer在第1部分的最后一张特征图上进行提取针对各个RoIs的特征向量（或者说是特征图，维度变换一下即可），然后将所有RoIs的特征向量都交由第2部分来处理（分类和回归），而第二部分一般都是一些全连接层，在最后有2个并行的loss函数：softmax和smoothL1，分别用来对每一个RoI进行分类和回归，这样就可以得到每个RoI的真实类别和较为精确的坐标和长宽了。...

#Self-Supervised #CV

READ

Faster R-CNN

Computer Vision

2026-02-26

总体流程 RPN RPN在Extractor输出的feature maps的基础之上，先增加了一个3x3卷积，然后利用两个1x1的卷积分别进行二分类（是否为正样本）和位置回归。进行分类的卷积核通道数为9×2（9个anchor，每个anchor二分类，使用交叉熵损失），进行回归的卷积核通道数为9×4（9个anchor，每个anchor有4个位置参数）。接下来RPN做的事情就是利用（AnchorTargetCreator）将20000多个候选的anchor选出2000个proposal并采样256个positive 进行分类和回归位置loss计算。具体过程如下： proposal 前向过程中会做 NMS ：对所有 anchors 做前背景分类和bbox regression回归（learning offset）对 foreground (iou>0.7) softmax scores由大到小排序anchors，提取 6000/12000(test/train) anchors( 已经在上一步进行好了 coord reg) 限定超出图像边界的 foreground anchors...

#CV #Object Detection

READ

Focal Loss & RetinaNet

Computer Vision

2026-02-26

Motivation 我们知道object detection的算法主要可以分为两大类： two-stage detector和one-stage detector 。前者是指类似Faster RCNN，RFCN这样需要region proposal的检测算法，这类算法可以达到很高的准确率，但是速度较慢。虽然可以通过减少proposal的数量或降低输入图像的分辨率等方式达到提速，但是速度并没有质的提升。后者是指类似YOLO，SSD这样不需要region proposal，直接回归的检测算法，这类算法速度很快，但是准确率不如前者。作者提出focal loss的出发点也是希望one-stage detector可以达到two-stage detector的准确率，同时不影响原有的速度。既然有了出发点，那么就要找one-stage detector的准确率不如two-stage detector的原因，作者认为原因是：样本的类别不均衡导致的。我们知道在object detection领域，一张图像可能生成成千上万的candidate...

#Object Detection #CV

READ

Yolo系列

Computer Vision

2026-02-26

YOLO的核心思想就是利用整张图作为网络的输入，直接在输出层回归bounding box的位置和bounding box所属的类别。 Our system divides the input image into a S × S grid. If the center of an object falls into a grid cell, that grid cell is responsible for detecting that object. faster RCNN中也直接用整张图作为输入，但是faster-RCNN整体还是采用了RCNN那种 proposal+classifier的思想，只不过是将提取proposal的步骤放在CNN中实现了,而YOLO则采用直接回归的思路。 YOLO v1 将一幅图像分成SxS个网格(grid cell)，如果某个object的中心落在这个网格中，则这个网格就负责预测这个object。每个网格要预测B个bounding box，每个bounding box除了要回归自身的位置之外，还要附带预测一个confidence值。...

#Object Detection #CV

READ

Deformable Convolution系列

Computer Vision

2026-02-26

Deformable Conv v1 这篇文章其实比较老了，是 2017 年 5 月出的 Motivation Task 上的难点视觉任务中一个难点就是如何 model 物体的几何变换，比如由于物体大小，pose, viewpoint 引起的。一般有两类做法：在数据集上做文章，让 training dataset 就包含所有可能的集合变换。通过 affine transformation 去做 augmentation 另一种就是设计 transformation-invariant (对那些几何变换不变）的 feature 和算法。比如 SIFT 和 sliding window 的方式。文章说上述两种方式有问题，几何变换我们是事先知道的，这种不能 generalize 到其它场景和任务中。以及 hand-crafted 的设计适应不了负责场景。 CNN 的缺陷对于geometric transformation 的问题，目前的 CNN 主要是通过 data augmentation 和一些手工设计，比如 max-pooling 解决的（max-pooling...

#Self-Supervised #CV

READ

Path Aggregation Blcok

Computer Vision

2026-02-26

FPN 结构区别（a）图片金字塔生成特征金字塔：缩放图片比例（b）通常的CNN网络结构（c）多尺度特征融合的方式：像SSD（Single Shot Detector）就是采用这种多尺度特征融合的方式，没有上采样过程，即从网络不同层抽取不同尺度的特征做预测，这种方式不会增加额外的计算量。作者认为SSD算法中没有用到足够低层的特征（在SSD中，最低层的特征是VGG网络的conv4_3），而在作者看来足够低层的特征对于检测小物体是很有帮助的。（d）FPN ：这是本文要讲的网络，FPN主要解决的是物体检测中的多尺度问题，通过简单的网络连接改变，在基本不增加原有模型计算量的情况下，大幅度提升了小物体检测的性能。通过高层特征进行上采样和低层特征进行自顶向下的连接，而且每一层都会进行预测。详细结构算法大致结构如下：一个自底向上的线路，一个自顶向下的线路，横向连接（lateral connection）。图中放大的区域就是横向连接，这里1*1的卷积核的主要作用是减少卷积核的个数，也就是减少了feature map的个数，并不改变feature map的尺寸大小。自底向上：...

#CV #Object Detection

READ

轻量级网络系列

Computer Vision

2026-02-26

Introduction Inception 在最初的版本 Inception/GoogleNet，其核心思想是利用多尺寸卷积核去观察输入数据。举个栗子，我们看某个景象由于远近不同，同一个物体的大小也会有所不同，那么不同尺度的卷积核观察的特征就会有这样的效果。于是就有了如下的网络结构图：于是我们的网络就变胖了，通过增加网络的宽度，提高了对于不同尺度的适应程度。但这样的话，计算量有点大了。 Point-wise Conv 为了减少在上面结构的参数量并降低计算量，于是在 Inception V1 的基础版本上加上了 \(1\times 1\) 卷积核，这就形成了 Inception V1 的最终网络结构，如下图。这个 \(1\times1 \) 卷积就是 Pointwise Convolution ，简称 PW。利用它的目的主要是为了减少维度，还用于引入更多的非线性。我们来简单计算下：假定上一层输出的 feature map 维度为 \(100\times 100 \times 128\) ，经过256个大小为 \(5\times5 \) 的卷积后，输出的 feature map...

#轻量化 #CV

READ

RLE Loss

3D Model

2026-02-12

论文地址： https://arxiv.org/pdf/2107.11291 代码地址： https://github.com/Jeff-sjtu/res-loglikelihood-regression 前言一般来说，我们可以把姿态估计任务分成两个流派：Heatmap-based和Regression-based。其主要区别在于监督信息的不同，Heatmap-based方法监督模型学习的是高斯概率分布图，即把GroundTruth中每个点渲染成一张高斯热图，最后网络输出为K张特征图对应K个关键点，然后通过argmax或soft-argmax来获取最大值点作为估计结果。这种方法由于需要渲染高斯热图，且由于热图中的最值点直接对应了结果，不可避免地需要维持一个相对高分辨率的热图（常见的是64x64，再小的话误差下界过大会造成严重的精度损失），因此也就自然而然导致了很大的计算量和内存开销。 Regression-based方法则非常简单粗暴，直接监督模型学习坐标值，计算坐标值的L1或L2...

#3D #CV

READ

Normalizing flow

Generative Model

2026-02-12

Normalizing flow（标准化流）是一类对概率分布进行建模的工具，它能完成简单的概率分布（例如高斯分布）和任意复杂分布之间的相互转换，经常被用于 data generation、density estimation、inpainting 等任务中，例如 Stability AI 提出的 Stable Diffusion 3 中用到的 rectified flow 就是 normalizing flow 的变体之一。为了便于理解，在正式开始介绍之前先简要说明一下 normalizing flow 的做法。如上图所示，为了将一个高斯分布 \(z_0\) 转换为一个复杂的分布 \(z_K\) ，normalizing flow 会对初始的分布 \(z_0\) 进行多次可逆的变换，将其逐渐转换为 \(z_K\) 。由于每一次变换都是可逆的，从 \(z_K\) 出发也能得到高斯分布 \(z_0\) 。这样，我们就实现了复杂分布与高斯分布之间的互相转换，从而能从简单的高斯分布建立任意复杂分布。对 diffusion models 比较熟悉的读者可能已经发现了，这个过程和...

#Generating Model #flow

READ

多模态模型发展

Large Model

2026-01-23

总览由于是“图文多模态”，还是要从“图”和“文”的表征方法讲起，然后讲清楚图文表征的融合方法。这里只讲两件事情：视觉表征：分为两个部分问题，一是如何合理建模视觉输入特征，二是如何通过预训练手段进行充分学习表征，这两点是基于视觉完成具体算法任务的基础；视觉与自然语言的对齐（Visul Language Alignment）或融合：目的是将视觉和自然语言建模到同一表征空间并进行融合，实现自然语言和视觉语义的互通，这点同样离不开预训练这一过程。模态对齐是处理多模态问题的基础，也是现在流行的多模态大模型技术前提。对于视觉表征，从发展上可以分为卷积神经网络（CNN）和Vision Transformer（VIT）两大脉络，二者分别都有各自的表征、预训练以及多模态对齐的发展过程。而对于VIT线，另有多模态大模型如火如荼的发展，可谓日新月异。 CNN：视觉理解的一代先驱点击展开卷积视觉表征模型和预训练...

#CV #VLM #transformer

READ

对比学习概述

Self-Supervised

2026-01-23

如果把近几年对比学习在视觉领域有代表性的工作做一下总结，那么对比学习的发展历程大概可以分为四个阶段：百花齐放这个阶段代表性工作有InstDisc（instance discrimination，）、CPC、CMC等。在这个阶段中，方法、模型、目标函数、代理任务都还没有统一，所以说是一个百花齐放的时代 CV双雄代表作有MoCo v1、SimCLR v1、MoCo v2、SimCLR v2；CPC、CMC的延伸工作、SwAV等。这个阶段发展非常迅速，有的工作间隔甚至不到一个月，ImageNet上的成绩基本上每个月都在被刷新。不用负样本 BYOL及其改进工作、SimSiam（CNN在对比学习中的总结性工作） transformer MoCo v3、DINO。这个阶段，无论是对比学习还是最新的掩码学习，都是用Vision Transformer做的。第一阶段：百花齐放（2018-2019Mid） InstDisc（instance discrimination）这篇文章提出了个体判别任务（代理任务）以及 memory bank ，非常经典，后人给它的方法起名为InstDisc。...

#对比学习 #Self-Supervised

READ

DINO系列

Self-Supervised

2026-01-23

DINO Emerging Properties in Self-Supervised Vision Transformers 论文地址： arxiv.org/pdf/2104.14294 DINO摇摆到了动量式更新，果然【加动量】还是比【只用梯度停止】香。DINO的名字来自于Self- di stillation with no labels中的蒸馏和No标签。 DINO的训练步骤其实以前的对比学习方案也可以理解为知识蒸馏，DINO里更具体得描述了知识蒸馏的含义。下图展示了一个样本通过数据增强得到一对views \((x_1,x_2)\) 。注意DINO后面还会使用更复杂的裁剪和对比方案，但这里简单起见先不考虑那些。模型将输入图像的两种不同的随机变换 \(x_1\) 和 \(x_2\) 分别传递给学生和教师网络。这两个网络具有相同的架构，但参数不同。教师网络的输出以batch内计算的平均值，进行中心化（减去均值）。每个网络输出一个 \(K\)...

#对比学习 #Self-Supervised

READ

#

!

INCOMING TRANSMISSION

R-FCN

Faster R-CNN

Focal Loss & RetinaNet

Yolo系列

Deformable Convolution系列

Path Aggregation Blcok

轻量级网络系列

RLE Loss

Normalizing flow

多模态模型发展

对比学习概述

DINO系列