知识库 - Orange

TridentNet

Computer Vision

2026-01-11

在正式介绍之前，先简单回顾一下现有的两大类方法。第一大类，也是从非Deep时代，乃至CV初期就被就被广泛使用的方法叫做image pyramid。在image pyramid中，我们直接对图像进行不同尺度的缩放，然后将这些图像直接输入到detector中去进行检测。虽然这样的方法十分简单，但其效果仍然是最佳，也后续启发了SNIP这一系列的工作。单论性能而言，multiscale training/testing仍然是一个不可缺少的组件。然而其缺点也是很明显的，测试时间大幅度提高，对于实际使用并不友好。另外一大类方法，也是Deep方法所独有的，也就是feature pyramid。最具代表性的工作便是经典的FPN了。这一类方法的思想是直接在feature层面上来近似image pyramid...

#Object Detection #CV

READ

目标检测小目标问题概述

Computer Vision

2026-01-11

在深度学习目标检测中，特别是人脸检测中，由于分辨率低、图像模糊、信息少、噪声多，小目标和小人脸的检测一直是一个实用和常见的难点问题。然而，在过去几年的发展中，也出现了一些提高小目标检测性能的解决方案。本文将对这些方法进行分析、整理和总结。图像金字塔和多尺度滑动窗口检测一开始，在深学习方法成为流行之前，对于不同尺度的目标，通常是从原始图像开始，使用不同的分辨率构建图像金字塔，然后使用分类器对金字塔的每一层进行滑动窗口的目标检测。在著名的人脸检测器MTCNN中，使用图像金字塔法检测不同分辨率的人脸目标。然而，这种方法通常是缓慢的，虽然构建图像金字塔可以使用卷积核分离加速或简单粗暴地缩放，但仍需要做多个特征提取，后来有人借其想法想出一个特征金字塔网络FPN，在不同层融合特征，只需要一次正向计...

#Object Detection #CV

READ

Anchor-Free

Computer Vision

2026-01-11

简介 "Anchorfree"（无锚点）是一种目标检测方法，与传统的使用锚框（anchor boxes）的方法（例如Faster RCNN）不同。在传统方法中，锚框是预先定义的、具有不同尺寸和长宽比的矩形区域，用于捕捉不同尺寸和形状的目标。而在"anchorfree"方法中，不再使用锚框，而是直接预测目标的位置和形状，通常使用网络输出的热图和偏移信息。以下是对"anchorfree"方法的一些关键理解点：无需预定义锚框：在传统目标检测方法中，需要事先定义和生成一组锚框，这可能需要大量的人工工作。而在"anchorfree"方法中，不再需要锚框，模型可以自动学习目标的位置和形状。直接位置和形状回归： "anchorfree"方法通过输出的热图来表示目标的存在概率，并使用偏移信息来定位目...

#Object Detection #CV

READ

Yolo系列

Computer Vision

2026-01-11

YOLO的核心思想就是利用整张图作为网络的输入，直接在输出层回归bounding box的位置和bounding box所属的类别。 faster RCNN中也直接用整张图作为输入，但是fasterRCNN整体还是采用了RCNN那种 proposal+classifier的思想，只不过是将提取proposal的步骤放在CNN中实现了,而YOLO则采用直接回归的思路。 YOLO v1 将一幅图像分成SxS个网格(grid cell)，如果某个object的中心落在这个网格中，则这个网格就负责预测这个object。每个网格要预测B个bounding box，每个bounding box除了要回归自身的位置之外，还要附带预测一个confidence值。这个confidence代表了所预测的b...

#CV #Object Detection

READ

流模型Flow的基本概念与实现

Generative Model

2026-01-11

背景本文主要是《NICE: Nonlinear Independent Components Estimation》一文的介绍和实现。这篇文章也是glow这个模型的基础文章之一，可以说它就是glow的奠基石。艰难的分布众所周知，目前主流的生成模型包括VAE和GAN，但事实上除了这两个之外，还有基于flow的模型（flow可以直接翻译为“流”，它的概念我们后面再介绍）。事实上flow的历史和VAE、GAN它们一样悠久，但是flow却鲜为人知。在我看来，大概原因是flow找不到像GAN一样的诸如“造假者鉴别者”的直观解释吧，因为flow整体偏数学化，加上早期效果没有特别好但计算量又特别大，所以很难让人提起兴趣来。不过现在看来，OpenAI的这个好得让人惊叹的、基于flow的glow模型，估...

#Generating Model #flow

READ

Rectified Flow

Generative Model

2026-01-11

💡 原本随机采样的DDPM模型中，也隐含了一个确定性的采样过程DDIM，它的连续极限也是一个ODE。细想上述过程，可以发现不管是“DDPM→DDIM”还是“SDE→ODE”，都是从随机采样模型过渡到确定性模型，而如果我们一开始的目标就是ODE，那么该过程未免显得有点“迂回”了。在本文中，笔者尝试给出ODE扩散模型的直接推导，并揭示了它与雅可比行列式、热传导方程等内容的联系。 Rectified Flow 理论推导微分方程像GAN这样的生成模型，它本质上是希望找到一个确定性变换，能将从简单分布（如标准正态分布）采样出来的随机变量，变换为特定数据分布的样本。flow模型也是生成模型之一，它的思路是反过来，先找到一个能将数据分布变换简单分布的可逆变换，再求解相应的逆变换来得到一个生成模型。 ...

#diffusion #Generating Model #flow

READ

Additional blocks

Computer Vision

2026-01-11

SPP (spatial pyramid pooling layer) SPP applies a slightly different strategy in detecting objects of different scales. It replaces the last pooling layer (after the last convolutional layer) with a spatial pyramid pooling layer. The feature maps are spatially divided into m×m bins with m, say, equals 1, 2, and 4 respectively. Then a maximum pool i...

#CV #Object Detection

READ

RealNVP与Glow：流模型的传承与升华

Generative Model

2026-01-11

精巧的flow 不得不说，flow模型是一个在设计上非常精巧的模型。总的来看，flow就是想办法得到一个encoder将输入 𝑥 编码为隐变量 𝑧，并且使得 𝑧 服从标准正态分布。得益于flow模型的精巧设计，这个encoder是可逆的，从而我们可以立马从encoder写出相应的decoder（生成器）出来，因此，只要encoder训练完成，我们就能同时得到decoder，完成生成模型的构建。为了完成这个构思，不仅仅要使得模型可逆，还要使得对应的雅可比行列式容易计算，为此，NICE提出了加性耦合层，通过多个加性耦合层的堆叠，使得模型既具有强大的拟合能力，又具有单位雅可比行列式。就这样，一种不同于VAE和GAN的生成模型——flow模型就这样出来了，它通过巧妙的构造，让我们能直接去拟合概率分...

#Generating Model #flow

READ

Flow Matching

Generative Model

2026-01-11

💡 Flowbased Models Normalizing Flow Normalizing Flow 是一种基于变换对概率分布进行建模的模型，其通过一系列离散且可逆的变换实现任意分布与先验分布（例如标准高斯分布）之间的相互转换。在 Normalizing Flow 训练完成后，就可以直接从高斯分布中进行采样，并通过逆变换得到原始分布中的样本，实现生成的过程。（有关 Normalizing Flow 的详细理论）从这个角度看，Normalizing Flow 和 Diffusion Model 是有一些相通的，其做法的对比如下表所示。从表中可以看到，两者大致的过程是非常类似的，尽管依然有些地方不一样，但这两者应该可以通过一定的方法得到一个比较统一的表示。 Continuous Norma...

#diffusion #flow #Generating Model

READ

DETR

Computer Vision

2026-01-11

原理分析网络架构: 本文的任务是Object detection，用到的工具是Transformers，特点是Endtoend。目标检测的任务是要去预测一系列的Bounding Box的坐标以及Label，现代大多数检测器通过定义一些proposal，anchor或者windows，把问题构建成为一个分类和回归问题来间接地完成这个任务。文章所做的工作，就是将transformers运用到了object detection领域，取代了现在的模型需要手工设计的工作，并且取得了不错的结果。在object detection上DETR准确率和运行时间上和Faster RCNN相当；将模型 generalize 到 panoptic segmentation 任务上，DETR表现甚至还超过了其他...

#Object Detection #CV #transformer

READ

Autoregressive models 概述

Generative Model

2026-01-11

给定一个包含 n 维数据 x 的数据集 D , 简单起见，假设数据 [Math] . 由于真正对联合分布建模的时候， x，y 都是随机变量，故而只需讨论 p(X)=p(x_1,...,x_n) 即可，毕竟只需要令 x_n=y 即可。给定一个具体的任务，如MNIST中的手写数字二值图分类，从Generative的角度进行Represent，并在Inference中Learning. 下面先介绍：描述如何对这个MINST任务建模 p(X,Y) （Representation）对MNIST任务建模对于一张pixel为 [Math] 大小的图片，令 x_1 表示第一个pixel的随机变量， [Math] ，需明确：任务目标：学习一个模型分布 [Math] ，使采样时 [Math] ， x ...

#Generating Model #Autoregressive

READ

Stable Diffusion 3

Generative Model

2026-01-11

🔖 https://stability.ai/news/stablediffusion3researchpaper 概述 SD3 模型与训练策略改进细节 SD3除了将去噪网络从 UNet 改成 DiT 外，SD3 还在模型结构与训练策略上做了很多小改进：改变训练时噪声采样方法将一维位置编码改成二维位置编码提升 VAE 隐空间通道数对注意力 QK 做归一化以确保高分辨率下训练稳定本文会简单介绍这些改进。论文阅读核心贡献介绍 Stable Diffusion 3 (SD3) 的文章标题为 Scaling Rectified Flow Transformers for HighResolution Image Synthesis。与其说它是一篇技术报告，更不如说它是一篇论文，因为它...

#flow #diffusion #Generating Model

READ

#

!

INCOMING TRANSMISSION

TridentNet

目标检测小目标问题概述

Anchor-Free

Yolo系列

流模型Flow的基本概念与实现

Rectified Flow

Additional blocks

RealNVP与Glow：流模型的传承与升华

Flow Matching

DETR

Autoregressive models 概述

Stable Diffusion 3