知识库 - Orange

目标检测中的多尺度问题

Computer Vision

2026-02-26

传统的图像金字塔最开始在深度学习方法流行之前，对于不同尺度的目标，大家普遍使用将原图构建出不同分辨率的图像金字塔，再对每层金字塔用固定输入分辨率的分类器在该层滑动来检测目标，以求在金字塔底部检测出小目标；或者只用一个原图，在原图上，用不同分辨率的分类器来检测目标，以求在比较小的窗口分类器中检测到小目标。经典的基于简单矩形特征(Haar)+级联Adaboost与Hog特征+SVM的DPM目标识别框架，均使用图像金字塔的方式处理多尺度目标，早期的CNN目标识别框架同样采用该方式，但对图像金字塔中的每一层分别进行CNN提取特征，耗时与内存消耗均无法满足需求。但该方式毫无疑问仍然是最优的。值得一提的是，其实目前大多数深度学习算法提交结果进行排名的时候，大多使用多尺度测试。同时类似于SNIP使用多尺度训练，均是图像金字塔的多尺度处理。 SNIP 图像分类算法，比如ResNeXt-101 32 × 48d网络结构，在Imagenet数据集上的Top5准确率已经98%左右，Top1为85%。对于图像检测算法，最好的模型在coco数据集上的效果 \(AP_{50}\)...

#Object Detection #CV

READ

DETR

Computer Vision

2026-02-26

原理分析网络架构: 本文的任务是Object detection，用到的工具是Transformers，特点是End-to-end。目标检测的任务是要去预测一系列的Bounding Box的坐标以及Label，现代大多数检测器通过定义一些proposal，anchor或者windows，把问题构建成为一个分类和回归问题来间接地完成这个任务。文章所做的工作，就是将transformers运用到了object detection领域，取代了现在的模型需要手工设计的工作，并且取得了不错的结果。在object detection上DETR准确率和运行时间上和Faster RCNN相当；将模型 generalize 到 panoptic segmentation 任务上，DETR表现甚至还超过了其他的baseline。DETR第一个使用End to End的方式解决检测问题，解决的方法是把检测问题视作是一个set prediction problem，如下图所示。...

#CV #Object Detection #transformer

READ

Faster R-CNN

Computer Vision

2026-02-26

总体流程 RPN RPN在Extractor输出的feature maps的基础之上，先增加了一个3x3卷积，然后利用两个1x1的卷积分别进行二分类（是否为正样本）和位置回归。进行分类的卷积核通道数为9×2（9个anchor，每个anchor二分类，使用交叉熵损失），进行回归的卷积核通道数为9×4（9个anchor，每个anchor有4个位置参数）。接下来RPN做的事情就是利用（AnchorTargetCreator）将20000多个候选的anchor选出2000个proposal并采样256个positive 进行分类和回归位置loss计算。具体过程如下： proposal 前向过程中会做 NMS ：对所有 anchors 做前背景分类和bbox regression回归（learning offset）对 foreground (iou>0.7) softmax scores由大到小排序anchors，提取 6000/12000(test/train) anchors( 已经在上一步进行好了 coord reg) 限定超出图像边界的 foreground anchors...

#CV #Object Detection

READ

Focal Loss & RetinaNet

Computer Vision

2026-02-26

Motivation 我们知道object detection的算法主要可以分为两大类： two-stage detector和one-stage detector 。前者是指类似Faster RCNN，RFCN这样需要region proposal的检测算法，这类算法可以达到很高的准确率，但是速度较慢。虽然可以通过减少proposal的数量或降低输入图像的分辨率等方式达到提速，但是速度并没有质的提升。后者是指类似YOLO，SSD这样不需要region proposal，直接回归的检测算法，这类算法速度很快，但是准确率不如前者。作者提出focal loss的出发点也是希望one-stage detector可以达到two-stage detector的准确率，同时不影响原有的速度。既然有了出发点，那么就要找one-stage detector的准确率不如two-stage detector的原因，作者认为原因是：样本的类别不均衡导致的。我们知道在object detection领域，一张图像可能生成成千上万的candidate...

#Object Detection #CV

READ

Yolo系列

Computer Vision

2026-02-26

YOLO的核心思想就是利用整张图作为网络的输入，直接在输出层回归bounding box的位置和bounding box所属的类别。 Our system divides the input image into a S × S grid. If the center of an object falls into a grid cell, that grid cell is responsible for detecting that object. faster RCNN中也直接用整张图作为输入，但是faster-RCNN整体还是采用了RCNN那种 proposal+classifier的思想，只不过是将提取proposal的步骤放在CNN中实现了,而YOLO则采用直接回归的思路。 YOLO v1 将一幅图像分成SxS个网格(grid cell)，如果某个object的中心落在这个网格中，则这个网格就负责预测这个object。每个网格要预测B个bounding box，每个bounding box除了要回归自身的位置之外，还要附带预测一个confidence值。...

#CV #Object Detection

READ

Path Aggregation Blcok

Computer Vision

2026-02-26

FPN 结构区别（a）图片金字塔生成特征金字塔：缩放图片比例（b）通常的CNN网络结构（c）多尺度特征融合的方式：像SSD（Single Shot Detector）就是采用这种多尺度特征融合的方式，没有上采样过程，即从网络不同层抽取不同尺度的特征做预测，这种方式不会增加额外的计算量。作者认为SSD算法中没有用到足够低层的特征（在SSD中，最低层的特征是VGG网络的conv4_3），而在作者看来足够低层的特征对于检测小物体是很有帮助的。（d）FPN ：这是本文要讲的网络，FPN主要解决的是物体检测中的多尺度问题，通过简单的网络连接改变，在基本不增加原有模型计算量的情况下，大幅度提升了小物体检测的性能。通过高层特征进行上采样和低层特征进行自顶向下的连接，而且每一层都会进行预测。详细结构算法大致结构如下：一个自底向上的线路，一个自顶向下的线路，横向连接（lateral connection）。图中放大的区域就是横向连接，这里1*1的卷积核的主要作用是减少卷积核的个数，也就是减少了feature map的个数，并不改变feature map的尺寸大小。自底向上：...

#CV #Object Detection

READ

Math

Algorithm

2026-02-25

48. 旋转图像题目给定一个 \(n × n\) 的二维矩阵 matrix 表示一个图像。请你将图像顺时针旋转 90 度。你必须在原地旋转图像，这意味着你需要直接修改输入的二维矩阵。请不要使用另一个矩阵来旋转图像。示例 1：输入：matrix = [[1,2,3],[4,5,6],[7,8,9]] 输出：[[7,4,1],[8,5,2],[9,6,3]] 示例 2：输入：matrix = [[5,1,9,11],[2,4,8,10],[13,3,6,7],[15,14,12,16]] 输出：[[15,13,2,5],[14,3,4,1],[12,6,8,9],[16,7,10,11]] 提示： n == matrix.length == matrix[i].length 1 <= n <= 20 -1000 <= matrix[i][j] <= 1000 题解这是一个经典的矩阵操作问题。要在原地（In-place）将图像顺时针旋转 90 度，我们可以利用矩阵的几何性质。最直观且易于实现的方法是将...

#Algorithm

READ

算法与数据结构

Algorithm

2026-02-25

线性结构与技巧基础容器数组 (Array) 链表 (Linked List) 字符串 (String) KMP算法核心技巧双指针滑动窗口二分查找栈与队列栈 & 队列 (Stack & Queue) 单调队列树与图论树与堆 (Tree & Heap) 树的遍历二叉树堆（大顶堆&小顶堆）优先队列图 (Graph) 搜索(BFS/DFS) 最小生成树核心算法思想动态规划 (DP) 基础 DP 背包问题排序基础排序算法排序算法数据处理哈希表 Math

#Algorithm

READ

KMP算法

Algorithm

2026-02-25

kmp算法用于字符串的模式匹配，也就是找到模式字符串在目标字符串的第一次出现的位置比如 abababc 那么 bab 在其位置1处， bc 在其位置5处，我们首先想到的最简单的办法就是蛮力的一个字符一个字符的匹配，但那样的时间复杂度会是 \(O(m*n)\) 。kmp算法保证了时间复杂度为 \(O(m+n)\) 。基本原理举个例子：发现 x 与 c 不同后，进行移动 a 与 x 不同，再次移动此时比较到了 c 与 y ，于是下一步移动成了下面这样这一次的移动与前两次的移动不同，之前每次比较到上面长字符串的字符位置后，直接把模式字符串的首字符与它对齐，这次并没有，原因是这次移动之前， y 与 c 对齐，但是 y 前边的 ab 是与自己的前缀 ab 一样，于是 ab 并不用再比较，直接从第三个位置开始比较，如图：所以说 kmp算法对于这种情况就直接使用当前比较字符之前的最长相同的前后缀，然后将前缀与上面的长字符串对齐，继续比较后面的字符串。这里kmp算法中的一个重要点就来了，如何找到模式字符串中每位字符之前的最长相同前后缀呢这里继续用一个例子举例：下面的数字记录...

#Algorithm

READ

二分查找

Algorithm

2026-02-25

💡 不断排除不存在解的区间，直至最后剩下一个这里归纳最重要的部分：分析题意，挖掘题目中隐含的单调性； while (left < right) 退出循环的时候有 left == right 成立，因此无需考虑返回 left 还是 right ；始终思考下一轮搜索区间是什么，如果是 [mid, right] 就对应 left = mid ，如果是 [left, mid - 1] 就对应 right = mid - 1 ，是保留 mid 还是 +1、−1 就在这样的思考中完成；从一个元素什么时候不是解开始考虑下一轮搜索区间是什么，把区间分为 2个部分（一个部分肯定不存在目标元素，另一个部分有可能存在目标元素），问题会变得简单很多，这是一条非常有用的经验；每一轮区间被划分成 2 部分，理解区间划分决定中间数取法（无需记忆，需要练习 + 理解），在调试的过程中理解区间和中间数划分的配对关系：划分 [left, mid] 与 [mid + 1, right] ，mid 被分到左边，对应 int mid = left + (right - left) / 2 ;...

#Algorithm

READ

排序算法

Algorithm

2026-02-25

164. 最大间距题目给定一个无序的数组，找出数组在排序之后，相邻元素之间最大的差值。如果数组元素个数小于 2，则返回 0。 Example 1: Input: [3,6,9,1] Output: 3 Explanation: The sorted form of the array is [1,3,6,9], either (3,6) or (6,9) has the maximum difference 3. 题解如果进行排序，这里会超时。采用桶排序基础排序算法的思想，可以在线性时间解决。首先建立桶，每个桶中只需要存放这个桶中元素的最大值和最小值。我们期望将数组中的各个数等距离分配，也就是每个桶的长度相同，也就是对于所有桶来说，桶内最大值减去桶内最小值都是一样的。可以当成公式来记。 \[每个桶的长度=\max(1,\lfloor{{\max(nums)-\min(nums)}\over{len(nums)-1}}\rfloor)\tag{1}\]...

#Algorithm

READ

基础排序算法

Algorithm

2026-02-25

排序算法是《数据结构与算法》中最基本的算法之一。排序算法可以分为内部排序和外部排序，内部排序是数据记录在内存中进行排序，而外部排序是因排序的数据很大，一次不能容纳全部的排序记录，在排序过程中需要访问外存。常见的内部排序算法有：插入排序、希尔排序、选择排序、冒泡排序、归并排序、快速排序、堆排序、基数排序等。用一张图概括：冒泡排序冒泡排序（Bubble Sort）是一种简单的排序算法，它通过重复地遍历待排序的列表，比较相邻的元素并交换它们的位置来实现排序。该算法的名称来源于较小的元素会像"气泡"一样逐渐"浮"到列表的顶端。算法步骤比较相邻元素：从列表的第一个元素开始，比较相邻的两个元素。交换位置：如果前一个元素比后一个元素大，则交换它们的位置。重复遍历：对列表中的每一对相邻元素重复上述步骤，直到列表的末尾。这样，最大的元素会被"冒泡"到列表的最后。缩小范围：忽略已经排序好的最后一个元素，重复上述步骤，直到整个列表排序完成。假设有一个待排序的列表 [5, 3, 8, 4, 6] ，冒泡排序的过程如下：第一轮遍历：比较 5 和 3，交换位置，列表变为 [3,...

#Algorithm

READ

#

!

INCOMING TRANSMISSION

目标检测中的多尺度问题

DETR

Faster R-CNN

Focal Loss & RetinaNet

Yolo系列

Path Aggregation Blcok

Math

算法与数据结构

KMP算法

二分查找

排序算法

基础排序算法