知识库 - Orange

Focal Loss的一些列改进

Computer Vision

2026-04-09

Focal Loss 在早期的目标检测中，最头疼的问题是正负样本极度不平衡（背景太多，物体太少），且大量背景是“容易分类的负样本”。传统的交叉熵损失（BCE）会被这些海量的简单样本淹没。为了解决这个问题，Focal Loss (FL) 引入了一个动态缩放因子：对于正样本，损失大致为： \(-(1-p)^\gamma \log(p)\) 核心逻辑：如果模型已经预测得很准了（概率 \(p\) 接近 \(1\) ），那么 \((1−p)^\gamma\) 就会趋近于 \(0\) ，从而降低简单样本的权重，强迫模型去关注那些还没学好的“困难样本”。 focal loss 形式如下 \[\text{FL}(p,y) = \begin{cases} -\alpha(1-p)^\gamma log(p) & y = 1 \\ -(1-\alpha)p^\gamma log(1-p) & y=0 \end{cases}\tag{1}\] 详情参考： Focal Loss & RetinaNet GFL(Generalized Focal Loss) 论文地址：...

#Object Detection #CV

READ

DETR

Computer Vision

2026-04-08

原理分析网络架构本文的任务是Object detection，用到的工具是Transformers，特点是End-to-end。目标检测的任务是要去预测一系列的Bounding Box的坐标以及Label，现代大多数检测器通过定义一些proposal，anchor或者windows，把问题构建成为一个分类和回归问题来间接地完成这个任务。文章所做的工作，就是将transformers运用到了object detection领域，取代了现在的模型需要手工设计的工作，并且取得了不错的结果。在object detection上DETR准确率和运行时间上和Faster RCNN相当；将模型 generalize 到 panoptic segmentation 任务上，DETR表现甚至还超过了其他的baseline。DETR第一个使用End to End的方式解决检测问题，解决的方法是把检测问题视作是一个set prediction problem，如下图所示。...

#Object Detection #CV #transformer

READ

Attention长度外推

NLP

2026-03-26

这篇文章主要去“复盘”一下主流的长度外推结果，并试图从中发现免训练长度外推的关键之处。问题定义顾名思义，免训练长度外推，就是不需要用长序列数据进行额外的训练，只用短序列语料对模型进行训练，就可以得到一个能够处理和预测长序列的模型，即“Train Short, Test Long”。那么如何判断一个模型能否用于长序列呢？最基本的指标就是模型的长序列Loss或者PPL不会爆炸，更加符合实践的评测则是输入足够长的Context，让模型去预测答案，然后跟真实答案做对比，算BLEU、ROUGE等， LongBench 就是就属于这类榜单。但要注意的是，长度外推应当不以牺牲远程依赖为代价——否则考虑长度外推就没有意义了，倒不如直接截断文本——这意味着通过显式地截断远程依赖的方案都需要谨慎选择，比如ALIBI，还有带显式Decay的线性RNN ，这些方案当序列长度足够大时都表现为局部注意力，即便有可能实现长度外推，也会有远程依赖不足的风险，需要根据自己的场景斟酌使用。如何判断在长度外推的同时有没有损失远程依赖呢？比较严谨的是像 ReRoPE...

#位置编码 #transformer

READ

多摸位置编码的进一步探索--MHRoPE / MRoPE-I

Large Model

2026-03-18

简介论文：《REVISITING MULTIMODAL POSITIONAL ENCODING IN VISION–LANGUAGE MODELS》通过对多模态旋转位置嵌入（RoPE）的两个核心组件——位置设计和频率分配进行综合分析。通过实验，确定了三个关键指南：位置一致性、频率全利用和保留文本先验。基于这些见解，提出了多头RoPE（MHRoPE）和MRoPE-Interleave（MRoPE-I），这两种简单且即插即用的变体不需要任何架构更改。为了构建更稳健的多模态位置编码，作者在MRoPE的基础上，系统地探索了三个未充分研究的方案：位置设计——如何为文本和视觉标记分配无歧义、分离良好的坐标；频率分配——如何将旋转频率分配到每个位置轴的嵌入维度；与纯文本RoPE的兼容性——确保设计默认为标准RoPE，以便进行有效的迁移学习。 Vanilla RoPE RoPE与加性位置嵌入不同，RoPE对query和key向量应用旋转变换，从而将相对位置依赖直接纳入自注意力机制。给定位置 \(m\) 的查询向量 \(q\) 和位置 \(n\) 的键向量 \(k\) ，注意力分数...

#位置编码 #VLM

READ

Transformer位置编码

NLP

2026-03-16

不同于RNN、CNN等模型，对于Transformer模型来说，位置编码的加入是必不可少的，因为纯粹的Attention模块是无法捕捉输入顺序的，即无法区分不同位置的Token。为此我们大体有两个选择：想办法将位置信息融入到输入中，这构成了绝对位置编码的一般做法；想办法微调一下Attention结构，使得它有能力分辨不同位置的Token，这构成了相对位置编码的一般做法。虽然说起来主要就是绝对位置编码和相对位置编码两大类，但每一类其实又能衍生出各种各样的变种，为此研究人员可算是煞费苦心、绞尽脑汁了，此外还有一些不按套路出牌的位置编码。本文就让我们来欣赏一下研究人员为了更好地表达位置信息所构建出来的“八仙过海，各显神通”般的编码方案。绝对位置编码形式上来看，绝对位置编码是相对简单的一种方案，但即便如此，也不妨碍各路研究人员的奇思妙想，也有不少的变种。一般来说，绝对位置编码会加到输入中：在输入的第 𝑘 个向量 \(𝑥_𝑘\) 中加入位置向量 \(𝑝_𝑘\) 变为 \(\boldsymbol{x}_k + \boldsymbol{p}_k\) ，其中 \(...

#位置编码 #transformer

READ

上采样、反卷积与上池化

Deep Learning

2026-03-02

通过卷积和池化等技术可以将图像进行降维，因此，一些研究人员也想办法恢复原分辨率大小的图像，特别是在语义分割领域应用很成熟。 Upsampling（上采样）[没有学习过程] 在FCN、U-net等网络结构中，涉及到了上采样。上采样概念：上采样指的是任何可以让图像变成更高分辨率的技术。最简单的方式是重采样和插值：将输入图片进行rescale到一个想要的尺寸，而且计算每个点的像素点，使用如双线性插值等插值方法对其余点进行插值来完成上采样过程。在PyTorch中，上采样的层被封装在 torch.nn 中的 Vision Layers 里面，一共有4种： PixelShuffle Upsample UpsamplingNearest2d UpsamplingBilinear2d PixelShuffle 当stride = (1/r) < 1时，可以让卷积后的feature map变大——即分辨率变大，这个新的操作叫做sub-pixel convolution，具体原理可以看 “PixelShuffle：Real-Time Single Image and Video...

#DL基础 #CNN

READ

卷积总结

Deep Learning

2026-02-28

现代深度学习库对大多数操作都具有生产级的、高度优化的实现，这并不奇怪。但这些库究竟是什么魔法？他们如何能够将性能提高100倍？究竟怎样才能“优化”或加速神经网络的运行呢？在讨论高性能/高效DNNs时，我经常会问(也经常被问到)这些问题。在这篇文章中，我将尝试带你了解在DNN库中卷积层是如何实现的。它不仅是在模型中最常见的和最重的操作，我还发现卷积高性能实现的技巧特别具有代表性——一点点算法的小聪明，非常多的仔细的调优和低层架构的开发。我在这里介绍的很多内容都来自Goto等人的开创性论文：Anatomy of a high-performance matrix multiplication，该论文为OpenBLAS等线性代数库中使用的算法奠定了基础。最原始的卷积实现 “过早的优化是万恶之源”——Donald Knuth 在进行优化之前，我们先了解一下基线和瓶颈。这是一个朴素的numpy/for循环卷积： ''' Convolve `input` with `kernel` to generate `output` input.shape =...

#CNN #DL基础

READ

Object Detection

Computer Vision

2026-02-26

上图是Yolo v4中，对各种detector部件的总结：包含Input、backbone、neck、head、... Backbone 轻量级网络系列 Neck 例如：SPP 、 ASPP 、 RFB、 SAM 用来增加感受野特征融合，主要是指不同输出层直接的特征融合，主要包括FPN、PAN、SFAM、ASFF和BiFPN。结构 Path Aggregation Blcok Deformable Convolution系列 One stage Yolo系列 Focal Loss & RetinaNet Two-Stage Faster R-CNN R-FCN Anchor Free Anchor-Free Transformer DETR Problems 目标检测中的多尺度问题 NMS及其改进 IoU loss系列目标检测中mAP计算

#CV #Object Detection

READ

目标检测中mAP计算

Computer Vision

2026-02-26

mAP定义及相关概念 mAP: mean Average Precision, 即各类别AP的平均值 AP: PR曲线下面积，后文会详细讲解 PR曲线: Precision-Recall曲线 Precision: TP / (TP + FP) Recall: TP / (TP + FN) TP: IoU>0.5的检测框数量（同一Ground Truth只计算一次） FP: IoU<=0.5的检测框，或者是检测到同一个GT的多余检测框的数量 FN: 没有检测到的GT的数量 mAP的具体计算由前面定义，我们可以知道，要计算mAP必须先绘出各类别PR曲线，计算出AP。而如何采样PR曲线，VOC采用过两种不同方法。在VOC2010以前，只需要选取当Recall >= 0, 0.1, 0.2, ..., 1共11个点时的Precision最大值，然后AP就是这11个Precision的平均值。在VOC2010及以后，需要针对每一个不同的Recall值（包括0和1），选取其大于等于这些Recall值时的Precision最大值，然后计算PR曲线下面积作为AP值。 mAP计算示例假设，对于...

#CV #Object Detection #DL基础

READ

Anchor-Free

Computer Vision

2026-02-26

简介 "Anchor-free"（无锚点）是一种目标检测方法，与传统的使用锚框（anchor boxes）的方法（例如Faster R-CNN）不同。在传统方法中，锚框是预先定义的、具有不同尺寸和长宽比的矩形区域，用于捕捉不同尺寸和形状的目标。而在"anchor-free"方法中，不再使用锚框，而是直接预测目标的位置和形状，通常使用网络输出的热图和偏移信息。以下是对"anchor-free"方法的一些关键理解点：无需预定义锚框：在传统目标检测方法中，需要事先定义和生成一组锚框，这可能需要大量的人工工作。而在"anchor-free"方法中，不再需要锚框，模型可以自动学习目标的位置和形状。直接位置和形状回归： "anchor-free"方法通过输出的热图来表示目标的存在概率，并使用偏移信息来定位目标的中心和形状。这些热图和偏移信息通常通过卷积神经网络预测。适用于不规则目标：传统的锚框在捕捉不规则形状的目标时可能会有困难，而"anchor-free"方法可以更好地适应不规则目标的检测。减少计算复杂性：...

#CV #Object Detection

READ

IoU loss系列

Computer Vision

2026-02-26

IOU(Intersection over Union) 特性(优点) IoU就是我们所说的交并比，是目标检测中最常用的指标，在anchor-based的方法中，他的作用不仅用来确定正样本和负样本，还可以用来评价输出框（predict box）和ground-truth的距离。 \[IoU = \frac{|A \cap B|}{|A \cup B|} \] 可以说它可以反映预测检测框与真实检测框的检测效果。还有一个很好的特性就是尺度不变性，也就是对尺度不敏感（scale invariant），在regression任务中，判断predict box和gt的距离最直接的指标就是IoU。 (满足非负性；同一性；对称性；三角不等性) import numpy as np def Iou(box1, box2, wh=False): if wh == False: xmin1, ymin1, xmax1, ymax1 = box1 xmin2, ymin2, xmax2, ymax2 = box2 else: xmin1, ymin1 =...

#CV #Object Detection

READ

NMS及其改进

Computer Vision

2026-02-26

过程：根据分类概率从小到大排序ABCDEF 从最大概率F开始，F与A～E的IOU是否大于阈值大于的扔掉，从剩下的当中继续重复2～3 import numpy as np def nms(bbox, scores, Nt): if len(bbox) == 0: return [] bboxes = np.array(bbox) x1 = bboxes[:, 0] y1 = bboxes[:, 1] x2 = bboxes[:, 2] y2 = bboxes[:, 3] area = (x2 - x1 + 1) * (y2 - y1 + 1) order = np.argsort(scores) res = [] while order.size > 0: index = order[-1] res.append(bboxes[index]) x11 = np.maximum(x1[index], x1[order[:-1]]) ...

#Object Detection #CV

READ

#

!

INCOMING TRANSMISSION

Focal Loss的一些列改进

DETR

Attention长度外推

多摸位置编码的进一步探索--MHRoPE / MRoPE-I

Transformer位置编码

上采样、反卷积与上池化

卷积总结

Object Detection

目标检测中mAP计算

Anchor-Free

IoU loss系列

NMS及其改进