知识库 - Orange

投机采样之Medusa

Large Model

2026-01-11

概述 Medusa 是自投机领域较早的一篇工作，对后续工作启发很大，其主要思想是 multidecoding head + tree attention + typical acceptance(threshold)。Medusa 没有使用独立的草稿模型，而是在原始模型的基础上增加多个解码头（MEDUSA heads），并行预测多个后续 token。正常的LLM只有一个用于预测 t 时刻token的head。Medusa 在 LLM 的最后一个 Transformer层之后保留原始的 LM Head，然后额外增加多个（假设是 k 个）可训练的Medusa Head（解码头），分别负责预测 ...

#LLM #Acceleration

READ

Object-detection中mAP计算

Computer Vision

2026-01-11

mAP定义及相关概念 mAP: mean Average Precision, 即各类别AP的平均值 AP: PR曲线下面积，后文会详细讲解 PR曲线: PrecisionRecall曲线 Precision: TP / (TP + FP) Recall: TP / (TP + FN) TP: IoU0.5的检测框数量（同一Ground Truth只计算一次） FP: IoU= 0, 0.1, 0.2, ..., 1共11个点时的Precision最大值，然后AP就是这11个Precision的平均值。在VOC2010及以后，需要针对每一个不同的Recall值（包括0和1），选取其大于等于这些Recall值时的Precision最大值，然后计算PR曲线下面积作为AP值。 mAP计算示例假...

#CV #Object Detection #DL基础

READ

投机采样之EAGLE

Large Model

2026-01-11

概述 MTP（Multitoken Prediction）的总体思路是：让模型使用n个独立的输出头来预测接下来的n个token，这n个独立的输出头共享同一个模型主干。这样通过解码阶段的优化，将1token的生成，转变成multitoken的生成，从而提升训练和推理的性能。在DeepSeek之前也有几个MTP方案，其侧重点各自不同。侧重推理时解码加速。比如论文“MEDUSA: Simple LLM Inference Acceleration Framework with Multiple Decoding Heads”、论文“EAGLE: Speculative Sampling Requires Rethinking Feature Uncertainty”等。这些方案通过一次生成多个...

#Large Model #Acceleration

READ

NMS系列

Computer Vision

2026-01-11

NMS 过程： 1. 根据分类概率从小到大排序ABCDEF 1. 从最大概率F开始，F与A～E的IOU是否大于阈值 1. 大于的扔掉，从剩下的当中继续重复2～3 [代码] SoftNMS NMS算法保留score最高的预测框，并将与当前预测框重叠较多的proposals视作冗余，显然，在实际的检测任务中，这种思路有明显的缺点，比如对于稠密物体检测，当同类的两个目标距离较近时，如果使用原生的nms，就会导致其中一个目标不能被召回，为了提高这种情况下目标检测的召回率，SoftNMS应运而生。对于FasterRCNN在MSCOCO数据集上的结果，将NMS改成SoftNMS，mAP提升了1.1%。它认为重叠较多的proposals也有可能包含有效目标，只不过重叠区域越大可能性越小。参见下图，NMS...

#Object Detection #CV

READ

投机采样

Large Model

2026-01-11

概述投机解码（Speculative Decoding）也叫预测解码/投机采样，它会利用小模型来预测大型模型的行为，从而提升模型在解码（decoding）阶段的解码效率问题，加速大型模型的执行。其核心思路如下图所示，首先以低成本的方式（以小模型为主，也有多头，检索，Early Exit 等方式）快速生成多个候选 Token（串行序列、树、多头树等），然后通过一次并行验证阶段快速验证多个 Token的正确性，只要平均每个 Step 验证的 Token 数 1，就可以一次性生成多个token，进而减少总的 Decoding 步数，实现加速的目的。下图左侧是自回归解码模型，右侧是投机解码机制。从本质上来说，投机解码希望在推理阶段在不大幅度改变模型的情况下，通过更好利用冗余算力来并行"投机"地...

#LLM #Acceleration

READ

Object Detection

Computer Vision

2026-01-11

上图是Yolo v4中，对各种detector部件的总结：包含Input、backbone、neck、head、... Backbone Neck 例如：SPP 、 ASPP 、 RFB、 SAM 用来增加感受野特征融合，主要是指不同输出层直接的特征融合，主要包括FPN、PAN、SFAM、ASFF和BiFPN。结构 One stage TwoStage Anchor Free Transformer Problems

#Object Detection #CV

READ

ATSS

Computer Vision

2026-01-11

Introduction 由于FPN和Focal loss 的加入，anchorfree模型变得越来越多。在仔细比对了anchorbased和anchorfree目标检测方法后，结合实验结果，论文认为两者的性能差异主要来源于正负样本的定义，假如训练过程中使用相同的正负样本，两者的最终性能将会相差无几。作者将目前的Anchorfree分为两个大类： 1. keypointbased methods：以CornerNet和ExtremeNet为代表，首先定位几个预定义或自学习的关键点，然后限制物体的空间范围； 1. centerbased methods：以FCOS和Foveabox为代表，使用物体的中心点或区域定义基准点，然后预测从该点到物体边界的四个距离。为此，论文提出ATSS( Ada...

#CV #Object Detection

READ

CornerNet

Computer Vision

2026-01-11

简介 CornerNet是密歇根大学Hei Law等人在发表ECCV2018的一篇论文，作者总结目前anchorbased方法存在两个缺点： 1. 提取的anchor boxes数量较多，比如DSSD使用40k， RetinaNet使用100k，anchor boxes众多造成anchor boxes正负样本的不均衡； 1. anchor boxes需要调整很多超参数，比如anchor boxes数量、尺寸、比率，影响模型的训练和推断速率。作者的思路其实来源于一篇多人姿态估计的论文"Endtoend learning for joint detection and grouping"。基于CNN的2D多人姿态估计方法，通常有2个思路（BottomUp Approaches和TopDown ...

#CV #Object Detection

READ

Softmax-based Loss的演化史

Computer Vision

2026-01-11

近期，人脸识别研究领域的主要进展之一集中在了 Softmax Loss 的改进之上；本文从两种主要的改进方式——做归一化以及增加类间 margin——展开梳理，介绍了近年来基于 Softmax 的 Loss 的研究进展。 Softmax简介 Softmax Loss 因为其易于优化，收敛快等特性被广泛应用于图像分类领域。然而，直接使用 softmax loss 训练得到的 feature 拿到 retrieval，verification 等“需要设阈值”的任务时，往往并不够好。这其中的原因还得从 Softmax 的本身的定义说起，Softmax loss 在形式上是 softmax 函数加上交叉熵损失，它的目的是让所有的类别在概率空间具有最大的对数似然，也就是保证所有的类别都能分类正确，...

#人脸识别 #CV

READ

Focal Loss & RetinaNet

Computer Vision

2026-01-11

Motivation 我们知道object detection的算法主要可以分为两大类：twostage detector和onestage detector。前者是指类似Faster RCNN，RFCN这样需要region proposal的检测算法，这类算法可以达到很高的准确率，但是速度较慢。虽然可以通过减少proposal的数量或降低输入图像的分辨率等方式达到提速，但是速度并没有质的提升。后者是指类似YOLO，SSD这样不需要region proposal，直接回归的检测算法，这类算法速度很快，但是准确率不如前者。作者提出focal loss的出发点也是希望onestage detector可以达到twostage detector的准确率，同时不影响原有的速度。既然有了出发点，那么...

#Object Detection #CV

READ

FCOS

Computer Vision

2026-01-11

先要明确的知道，FCOS是一个基于FCN（全卷积网络用于目标检测）、一阶段（one stage）、anchor free、proposal free、参考语义分割思想实现的逐像素目标检测的模型。简要介绍下FCOS几个核心点：（1）FCOS方法借鉴了FCN的思想，对 feature map 上每个特征点做回归操作，预测四个值，分别代表特征点到Ground Truth Bounding box上、下、左、右边界的距离。（2）特征点映射会原图后对应多个GT Bounding box，无法准确判断原图像素所属类别，因此模型引入 FPN 结构，利用不同的层来处理不同尺寸的目标框。（3）远离目标中心点可能会产生劣质预测结果，为了增强中心点选取的准确性，模型引入了Centerness lay...

#CV #Object Detection

READ

Deformable DETR

Computer Vision

2026-01-11

Deformable Convolution 在正式介绍这个工作之前很有必要先了解什么是 Deformable Convolution 。 Deformable Convolution 是MSRA的代季峰老师以及实习生在2017年提出的一种全新的卷积结构。这种方法将固定形状的卷积过程改造成了能适应物体形状的可变的卷积过程，从而使结构适应物体形变的能力更强。传统的CNN只能靠一些简单的方法(比如max pooling)来适应物体的形变，如果形变的太厉害就无能为力了。因为CNN的卷积核的geometric structure是fixed的，也就是固定住的。卷积核总是在固定位置对输入特征特征进行采样。为了改变这种情况专家们想了很多方法，最常见的有两种： 1. 使用大量的数据进行训练。比如用Im...

#Object Detection #transformer #CV

READ

#

!

INCOMING TRANSMISSION

投机采样之Medusa

Object-detection中mAP计算

投机采样之EAGLE

NMS系列

投机采样

Object Detection

ATSS

CornerNet

Softmax-based Loss的演化史

Focal Loss & RetinaNet

FCOS

Deformable DETR