知识库 - Orange

Object Detection

Computer Vision

2026-02-26

上图是Yolo v4中，对各种detector部件的总结：包含Input、backbone、neck、head、... Backbone 轻量级网络系列 Neck 例如：SPP 、 ASPP 、 RFB、 SAM 用来增加感受野特征融合，主要是指不同输出层直接的特征融合，主要包括FPN、PAN、SFAM、ASFF和BiFPN。结构 Path Aggregation Blcok Deformable Convolution系列 One stage Yolo系列 Focal Loss & RetinaNet Two-Stage Faster R-CNN R-FCN Anchor Free Anchor-Free Transformer DETR Problems 目标检测中的多尺度问题 NMS及其改进 IoU loss系列目标检测中mAP计算

#CV #Object Detection

READ

目标检测中mAP计算

Computer Vision

2026-02-26

mAP定义及相关概念 mAP: mean Average Precision, 即各类别AP的平均值 AP: PR曲线下面积，后文会详细讲解 PR曲线: Precision-Recall曲线 Precision: TP / (TP + FP) Recall: TP / (TP + FN) TP: IoU>0.5的检测框数量（同一Ground Truth只计算一次） FP: IoU<=0.5的检测框，或者是检测到同一个GT的多余检测框的数量 FN: 没有检测到的GT的数量 mAP的具体计算由前面定义，我们可以知道，要计算mAP必须先绘出各类别PR曲线，计算出AP。而如何采样PR曲线，VOC采用过两种不同方法。在VOC2010以前，只需要选取当Recall >= 0, 0.1, 0.2, ..., 1共11个点时的Precision最大值，然后AP就是这11个Precision的平均值。在VOC2010及以后，需要针对每一个不同的Recall值（包括0和1），选取其大于等于这些Recall值时的Precision最大值，然后计算PR曲线下面积作为AP值。 mAP计算示例假设，对于...

#Object Detection #DL基础 #CV

READ

Anchor-Free

Computer Vision

2026-02-26

简介 "Anchor-free"（无锚点）是一种目标检测方法，与传统的使用锚框（anchor boxes）的方法（例如Faster R-CNN）不同。在传统方法中，锚框是预先定义的、具有不同尺寸和长宽比的矩形区域，用于捕捉不同尺寸和形状的目标。而在"anchor-free"方法中，不再使用锚框，而是直接预测目标的位置和形状，通常使用网络输出的热图和偏移信息。以下是对"anchor-free"方法的一些关键理解点：无需预定义锚框：在传统目标检测方法中，需要事先定义和生成一组锚框，这可能需要大量的人工工作。而在"anchor-free"方法中，不再需要锚框，模型可以自动学习目标的位置和形状。直接位置和形状回归： "anchor-free"方法通过输出的热图来表示目标的存在概率，并使用偏移信息来定位目标的中心和形状。这些热图和偏移信息通常通过卷积神经网络预测。适用于不规则目标：传统的锚框在捕捉不规则形状的目标时可能会有困难，而"anchor-free"方法可以更好地适应不规则目标的检测。减少计算复杂性：...

#Object Detection #CV

READ

IoU loss系列

Computer Vision

2026-02-26

IOU(Intersection over Union) 特性(优点) IoU就是我们所说的交并比，是目标检测中最常用的指标，在anchor-based的方法中，他的作用不仅用来确定正样本和负样本，还可以用来评价输出框（predict box）和ground-truth的距离。 \[IoU = \frac{|A \cap B|}{|A \cup B|} \] 可以说它可以反映预测检测框与真实检测框的检测效果。还有一个很好的特性就是尺度不变性，也就是对尺度不敏感（scale invariant），在regression任务中，判断predict box和gt的距离最直接的指标就是IoU。 (满足非负性；同一性；对称性；三角不等性) import numpy as np def Iou(box1, box2, wh=False): if wh == False: xmin1, ymin1, xmax1, ymax1 = box1 xmin2, ymin2, xmax2, ymax2 = box2 else: xmin1, ymin1 =...

#Object Detection #CV

READ

NMS及其改进

Computer Vision

2026-02-26

过程：根据分类概率从小到大排序ABCDEF 从最大概率F开始，F与A～E的IOU是否大于阈值大于的扔掉，从剩下的当中继续重复2～3 import numpy as np def nms(bbox, scores, Nt): if len(bbox) == 0: return [] bboxes = np.array(bbox) x1 = bboxes[:, 0] y1 = bboxes[:, 1] x2 = bboxes[:, 2] y2 = bboxes[:, 3] area = (x2 - x1 + 1) * (y2 - y1 + 1) order = np.argsort(scores) res = [] while order.size > 0: index = order[-1] res.append(bboxes[index]) x11 = np.maximum(x1[index], x1[order[:-1]]) ...

#Object Detection #CV

READ

目标检测中的多尺度问题

Computer Vision

2026-02-26

传统的图像金字塔最开始在深度学习方法流行之前，对于不同尺度的目标，大家普遍使用将原图构建出不同分辨率的图像金字塔，再对每层金字塔用固定输入分辨率的分类器在该层滑动来检测目标，以求在金字塔底部检测出小目标；或者只用一个原图，在原图上，用不同分辨率的分类器来检测目标，以求在比较小的窗口分类器中检测到小目标。经典的基于简单矩形特征(Haar)+级联Adaboost与Hog特征+SVM的DPM目标识别框架，均使用图像金字塔的方式处理多尺度目标，早期的CNN目标识别框架同样采用该方式，但对图像金字塔中的每一层分别进行CNN提取特征，耗时与内存消耗均无法满足需求。但该方式毫无疑问仍然是最优的。值得一提的是，其实目前大多数深度学习算法提交结果进行排名的时候，大多使用多尺度测试。同时类似于SNIP使用多尺度训练，均是图像金字塔的多尺度处理。 SNIP 图像分类算法，比如ResNeXt-101 32 × 48d网络结构，在Imagenet数据集上的Top5准确率已经98%左右，Top1为85%。对于图像检测算法，最好的模型在coco数据集上的效果 \(AP_{50}\)...

#CV #Object Detection

READ

DETR

Computer Vision

2026-02-26

原理分析网络架构: 本文的任务是Object detection，用到的工具是Transformers，特点是End-to-end。目标检测的任务是要去预测一系列的Bounding Box的坐标以及Label，现代大多数检测器通过定义一些proposal，anchor或者windows，把问题构建成为一个分类和回归问题来间接地完成这个任务。文章所做的工作，就是将transformers运用到了object detection领域，取代了现在的模型需要手工设计的工作，并且取得了不错的结果。在object detection上DETR准确率和运行时间上和Faster RCNN相当；将模型 generalize 到 panoptic segmentation 任务上，DETR表现甚至还超过了其他的baseline。DETR第一个使用End to End的方式解决检测问题，解决的方法是把检测问题视作是一个set prediction problem，如下图所示。...

#CV #transformer #Object Detection

READ

#

!

INCOMING TRANSMISSION

Object Detection

目标检测中mAP计算

Anchor-Free

IoU loss系列

NMS及其改进

目标检测中的多尺度问题

DETR