知识库 - Orange

Path Aggregation Blcok

Computer Vision

2026-04-15

FPN 结构区别（a）图片金字塔生成特征金字塔：缩放图片比例（b）通常的CNN网络结构（c）多尺度特征融合的方式：像SSD（Single Shot Detector）就是采用这种多尺度特征融合的方式，没有上采样过程，即从网络不同层抽取不同尺度的特征做预测，这种方式不会增加额外的计算量。作者认为SSD算法中没有用到足够低层的特征（在SSD中，最低层的特征是VGG网络的conv4_3），而在作者看来足够低层的特征对于检测小物体是很有帮助的。（d）FPN ：这是本文要讲的网络，FPN主要解决的是物体检测中的多尺度问题，通过简单的网络连接改变，在基本不增加原有模型计算量的情况下，大幅度提升了小物体检测的性能。通过高层特征进行上采样和低层特征进行自顶向下的连接，而且每一层都会进行预测。详细结构算法大致结构如下：一个自底向上的线路，一个自顶向下的线路，横向连接（lateral connection）。图中放大的区域就是横向连接，这里1*1的卷积核的主要作用是减少卷积核的个数，也就是减少了feature map的个数，并不改变feature map的尺寸大小。自底向上：...

#Object Detection #CV

READ

DETR

Computer Vision

2026-04-15

原理分析网络架构本文的任务是Object detection，用到的工具是Transformers，特点是End-to-end。目标检测的任务是要去预测一系列的Bounding Box的坐标以及Label，现代大多数检测器通过定义一些proposal，anchor或者windows，把问题构建成为一个分类和回归问题来间接地完成这个任务。文章所做的工作，就是将transformers运用到了object detection领域，取代了现在的模型需要手工设计的工作，并且取得了不错的结果。在object detection上DETR准确率和运行时间上和Faster RCNN相当；将模型 generalize 到 panoptic segmentation 任务上，DETR表现甚至还超过了其他的baseline。DETR第一个使用End to End的方式解决检测问题，解决的方法是把检测问题视作是一个set prediction problem，如下图所示。...

#transformer #CV #Object Detection

READ

Faster R-CNN

Computer Vision

2026-04-15

总体流程 RPN RPN在Extractor输出的feature maps的基础之上，先增加了一个3x3卷积，然后利用两个1x1的卷积分别进行二分类（是否为正样本）和位置回归。进行分类的卷积核通道数为9×2（9个anchor，每个anchor二分类，使用交叉熵损失），进行回归的卷积核通道数为9×4（9个anchor，每个anchor有4个位置参数）。接下来RPN做的事情就是利用（AnchorTargetCreator）将20000多个候选的anchor选出2000个proposal并采样256个positive 进行分类和回归位置loss计算。具体过程如下： proposal 前向过程中会做 NMS ：对所有 anchors 做前背景分类和bbox regression回归（learning offset）对 foreground (iou>0.7) softmax scores由大到小排序anchors，提取 6000/12000(test/train) anchors( 已经在上一步进行好了 coord reg) 限定超出图像边界的 foreground anchors...

#CV #Object Detection

READ

Focal Loss & RetinaNet

Computer Vision

2026-04-15

Motivation 我们知道object detection的算法主要可以分为两大类： two-stage detector和one-stage detector 。前者是指类似Faster RCNN，RFCN这样需要region proposal的检测算法，这类算法可以达到很高的准确率，但是速度较慢。虽然可以通过减少proposal的数量或降低输入图像的分辨率等方式达到提速，但是速度并没有质的提升。后者是指类似YOLO，SSD这样不需要region proposal，直接回归的检测算法，这类算法速度很快，但是准确率不如前者。作者提出focal loss的出发点也是希望one-stage detector可以达到two-stage detector的准确率，同时不影响原有的速度。既然有了出发点，那么就要找one-stage detector的准确率不如two-stage detector的原因，作者认为原因是：样本的类别不均衡导致的。我们知道在object detection领域，一张图像可能生成成千上万的candidate...

#CV #Object Detection

READ

Anchor-Free

Computer Vision

2026-04-15

简介 "Anchor-free"（无锚点）是一种目标检测方法，与传统的使用锚框（anchor boxes）的方法（例如Faster R-CNN）不同。在传统方法中，锚框是预先定义的、具有不同尺寸和长宽比的矩形区域，用于捕捉不同尺寸和形状的目标。而在"anchor-free"方法中，不再使用锚框，而是直接预测目标的位置和形状，通常使用网络输出的热图和偏移信息。以下是对"anchor-free"方法的一些关键理解点：无需预定义锚框：在传统目标检测方法中，需要事先定义和生成一组锚框，这可能需要大量的人工工作。而在"anchor-free"方法中，不再需要锚框，模型可以自动学习目标的位置和形状。直接位置和形状回归： "anchor-free"方法通过输出的热图来表示目标的存在概率，并使用偏移信息来定位目标的中心和形状。这些热图和偏移信息通常通过卷积神经网络预测。适用于不规则目标：传统的锚框在捕捉不规则形状的目标时可能会有困难，而"anchor-free"方法可以更好地适应不规则目标的检测。减少计算复杂性：...

#Object Detection #CV

READ

Yolo系列

Computer Vision

2026-04-15

YOLO的核心思想就是利用整张图作为网络的输入，直接在输出层回归bounding box的位置和bounding box所属的类别。 Our system divides the input image into a S × S grid. If the center of an object falls into a grid cell, that grid cell is responsible for detecting that object. faster RCNN中也直接用整张图作为输入，但是faster-RCNN整体还是采用了RCNN那种 proposal+classifier的思想，只不过是将提取proposal的步骤放在CNN中实现了,而YOLO则采用直接回归的思路。 YOLO v1 将一幅图像分成SxS个网格(grid cell)，如果某个object的中心落在这个网格中，则这个网格就负责预测这个object。每个网格要预测B个bounding box，每个bounding box除了要回归自身的位置之外，还要附带预测一个confidence值。...

#Object Detection #CV

READ

目标检测中mAP计算

Computer Vision

2026-04-15

mAP定义及相关概念 mAP: mean Average Precision, 即各类别AP的平均值 AP: PR曲线下面积，后文会详细讲解 PR曲线: Precision-Recall曲线 Precision: TP / (TP + FP) Recall: TP / (TP + FN) TP: IoU>0.5的检测框数量（同一Ground Truth只计算一次） FP: IoU<=0.5的检测框，或者是检测到同一个GT的多余检测框的数量 FN: 没有检测到的GT的数量 mAP的具体计算由前面定义，我们可以知道，要计算mAP必须先绘出各类别PR曲线，计算出AP。而如何采样PR曲线，VOC采用过两种不同方法。在VOC2010以前，只需要选取当Recall >= 0, 0.1, 0.2, ..., 1共11个点时的Precision最大值，然后AP就是这11个Precision的平均值。在VOC2010及以后，需要针对每一个不同的Recall值（包括0和1），选取其大于等于这些Recall值时的Precision最大值，然后计算PR曲线下面积作为AP值。 mAP计算示例假设，对于...

#CV #Object Detection #DL基础

READ

微调LLaMA模型

Large Model

2026-04-15

Stanford Alpaca 结合英文语料通过Self Instruct方式微调LLaMA 7B Stanford Alpaca简介 2023年3月中旬，斯坦福的Rohan Taori等人发布Alpaca(中文名：羊驼)：号称只花100美元，人人都可微调Meta家70亿参数的LLaMA大模型(即LLaMA 7B)，具体做法是通过52k指令数据，然后在8个80GB A100上训练3个小时，使得Alpaca版的LLaMA 7B在单纯对话上的性能比肩GPT-3.5(text-davinci-003) ，这便是指令调优LLaMA的意义所在论文《Alpaca: A Strong Open-Source Instruction-Following Model》 GitHub地址： https://github.com/tatsu-lab/stanford_alpaca 数据地址 (即斯坦福团队微调LLaMA 7B所用的52K英文指令数据)： raw.githubusercontent.com/tatsu-lab/stanford_alpaca/main/alpaca_data.json...

#LLM #Fine-tuning

READ

LLM Finetuning方法

Large Model

2026-04-15

Adapter tuning Adapter Tuning试图在Transformer Layer的Self-Attetion+FFN之后插入一个先降维再升维的MLP（以及一层残差和LayerNormalization）来学习模型微调的知识。在预训练模型每一层(或某些层)中添加Adapter模块(如上图左侧结构所示)，微调时冻结预训练模型主体，由Adapter模块学习特定下游任务的知识。每个Adapter模块由两个前馈子层组成，第一个前馈子层将Transformer块的输出作为输入，将原始输入维度 \(d\) 投影到 \(m\) ，通过控制 \(m\) 的大小来限制Adapter模块的参数量，通常情况下 \(m\ll d\) 。在输出阶段，通过第二个前馈子层还原输入维度，将 \(m\) 重新投影到 \(d\)...

#Fine-tuning #LLM

READ

GLaMM

Large Model

2026-04-15

简介该工作建立了一个 GCG（Grounded Conversation Generation ）的数据集和对应多模态大模型，与之前的工作主要的区别在于针对输入图像，可以生成grounding pixel-level理解的语言对话，如下图示例所示： Model Automated Dataset Annotation Pipeline level 1: Object locatlization and attributes 1. Landmark Categorization 基于 LLaVA 模型对图像做场景的分类，包含主要场景和细粒度场景。就是对数据集整体做一个大的类别标签和子类别标签，做场景的划分 def get_main_prompt(model, conv_mode="llava_v1"): options = ["Indoor scene", "Outdoor scene", "Transportation scene", "Sports and recreation scene"] qs = (f"Categorize the image...

#VLM

READ

LLaMA系列

Large Model

2026-04-15

LLaMA 论文名称：LLaMA: Open and Efficient Foundation Language Models 论文地址： https://arxiv.org/pdf/2302.13971.pdf 代码链接： https://github.com/facebookresearch/llama 模型参数量级的积累，或者训练数据的增加，哪个对性能提升帮助更大？以 GPT-3 为代表的大语言模型 (Large language models, LLMs) 在海量文本集合上训练，展示出了惊人的涌现能力以及零样本迁移和少样本学习能力。GPT-3 把模型的量级缩放到了 175B，也使得后面的研究工作继续去放大语言模型的量级。大家好像有一个共识，就是：模型参数量级的增加就会带来同样的性能提升。但是事实确实如此吗？最近的 "Training Compute-Optimal Large Language Models" 这篇论文提出一种缩放定律 (Scaling Law)：训练大语言模型时，在计算成本达到最优情况下，模型大小和训练数据 (token)...

#LLM

READ

DPO(Direct Preference Optimization)

Reinforcement Learning

2026-04-15

背景 RLHF 通常包括三个阶段：有监督微调（SFT） RLHF首先通过在高质量数据上进行监督学习来微调预训练的语言模型，得到模型 \(\pi_{SFT}\) 。奖励建模阶段（Reward Model）在第二阶段，SFT模型根据提示 \(x\) 生成答案对 \((y_1, y_2) \sim \pi_{SFT}(y|x)\) 。这些答案对呈现给人类标注者，他们表达对一个答案的偏好，表示为 \(y_w \succ y_l|x\) ，其中 \(y_w\) 和 \(y_l\) 分别表示在 \((y_1, y_2)\) 中更受偏好和不受偏好的答案。这些偏好被假定由某个潜在的奖励模型 \(r^*(y, x)\) 生成，我们无法直接访问该模型。一种流行的建模偏好的方法是Bradley-Terry（BT）模型，该模型规定人类偏好分布 \(p^*\) 可以写为： \[p^*(y_1 \succ y_2|x) = \frac{\exp(r^*(x, y_1))}{\exp(r^*(x, y_1)) + \exp(r^*(x, y_2))} \] 假设我们有一个从 \(p^*\)...

#Reinforcement Learning #LLM

READ

#

!

INCOMING TRANSMISSION

Path Aggregation Blcok

DETR

Faster R-CNN

Focal Loss & RetinaNet

Anchor-Free

Yolo系列

目标检测中mAP计算

微调LLaMA模型

LLM Finetuning方法

GLaMM

LLaMA系列

DPO(Direct Preference Optimization)