知识库 - Orange

Stable Diffusion系列

2026-03-04

SD模型原理 SD是CompVis、Stability AI和LAION等公司研发的一个文生图模型，它的模型和代码是开源的，而且训练数据LAION-5B也是开源的。SD在开源90天github仓库就收获了 33K的stars ，可见这个模型是多受欢迎。 SD是一个基于latent的扩散模型，它在UNet中引入text condition来实现基于文本生成图像。SD的核心来源于 Latent Diffusion 这个工作，常规的扩散模型是基于pixel的生成模型，而Latent Diffusion是基于latent的生成模型，它先采用一个autoencoder将图像压缩到latent空间，然后用扩散模型来生成图像的latents，最后送入autoencoder的decoder模块就可以得到生成的图像。基于latent的扩散模型的优势在于计算效率更高效，因为图像的latent空间要比图像pixel空间要小，这也是SD的核心优势...

#transformer #Generating Model #diffusion #flow

READ

Deep Generative Models概述

Generative Model

2026-03-04

简介如果以概率的视角看待世界的生成模型。在这样的世界观中，我们可以将任何类型的观察数据（例如 \(D\) ）视为来自底层分布（例如 \( p_{data}\) ）的有限样本集。任何生成模型的目标都是在访问数据集 \(D\) 的情况下近似该数据分布。如果我们能够学习到一个好的生成模型，我们可以将学习到的模型用于下游推理。我们主要对数据分布的参数近似感兴趣，在一组有限的参数中，它总结了关于数据集 \(D\) 的所有信息。与非参数模型相比，参数模型在处理大型数据集时能够更有效地扩展，但受限于可以表示的分布族。在参数的设置中，我们可以将学习生成模型的任务视为在模型分布族中挑选参数，以最小化模型分布和数据分布之间的距离。如上图，给定一个狗的图像数据集，我们的目标是学习模型族 \(M\) 中生成模型 θ 的参数，使得模型分布 \(p_θ\) 接近 \(p_{data}\) 上的数据分布。在数学上，我们可以将我们的目标指定为以下优化问题: \[\mathop{min}\limits_{\theta\in M}d(p_\theta,p_{data})\] 其中， \(d()\)...

#Generating Model #VAE #Autoregressive

READ

Flow Matching

Generative Model

2026-03-04

Flow Matching 其实是将 flow 的离散形式转换为连续形式（连续标准化流CNF），进而可以看成是一个ODE方程，实际求解的是这个ODE 求解的核心思路是：构建速度场通过数值积分求解位移，也就是通过预测速度场，从而转为ode求解从概率路径的角度上来说，解是无穷多的，不同的方法本质上讲是在于构造尽可能简单、直接、易解的概率路径通过不同的条件概率路径，可以构造出VP（score matching）、 VE（diffusion）、OT（1-rectified flow）等形式实际的边缘概率分布路径并不是一条直线，我们是通过拟合条件速度场来逼近边缘速度场，即使我们证明了对于参数 \(\theta\) 来说优化目标是等价的，但终究还是有一些gap Flow-based Models Normalizing Flow Normalizing Flow 是一种基于变换对概率分布进行建模的模型，其通过一系列离散且可逆的变换实现任意分布与先验分布（例如标准高斯分布）之间的相互转换。在 Normalizing Flow...

#diffusion #Generating Model #flow

READ

RealNVP与Glow：流模型的传承与升华

Generative Model

2026-03-04

精巧的flow 不得不说，flow模型是一个在设计上非常精巧的模型。总的来看，flow就是想办法得到一个encoder将输入 𝑥 编码为隐变量 𝑧，并且使得 𝑧 服从标准正态分布。得益于flow模型的精巧设计，这个encoder是可逆的，从而我们可以立马从encoder写出相应的decoder（生成器）出来，因此，只要encoder训练完成，我们就能同时得到decoder，完成生成模型的构建。为了完成这个构思，不仅仅要使得模型可逆，还要使得对应的雅可比行列式容易计算，为此，NICE提出了加性耦合层，通过多个加性耦合层的堆叠，使得模型既具有强大的拟合能力，又具有单位雅可比行列式。就这样，一种不同于VAE和GAN的生成模型——flow模型就这样出来了，它通过巧妙的构造，让我们能直接去拟合概率分布本身。待探索的空间...

#Generating Model #flow

READ

Rectified Flow

Generative Model

2026-03-03

1-Rectified Flow 可以认为是 flow matching的ot最优传输形式 Rectified Flow目的是将多对多无约束映射转变成一对一有约束映射。 ode会保证路径是“因果”的，也就是避免相交的情况 2-Rectified Flow或者叫Reflow 核心的实际上是加噪过程的样本交点数目降低，交点处模型无法精确学习向量场，交点数少了，模型在每个点预测都更准了，加噪过程是直线，所以能更少步数走到起点(但整体采样过程不是直线) 原本随机采样的DDPM模型中，也隐含了一个确定性的采样过程DDIM，它的连续极限也是一个ODE 。细想上述过程，可以发现不管是“DDPM→DDIM”还是“SDE→ODE”，都是从随机采样模型过渡到确定性模型，而如果我们一开始的目标就是ODE，那么该过程未免显得有点“迂回”了。在本文中，笔者尝试给出ODE扩散模型的直接推导，并揭示了它与雅可比行列式、热传导方程等内容的联系。 Rectified Flow 理论推导微分方程...

#Generating Model #flow #diffusion

READ

EDM

Generative Model

2026-03-03

基于文章《Elucidating the Design Space of Diffusion-Based Generative Models》来统一扩散模型框架通用扩散模型框架推导加噪公式 Flow Matching的一步加噪公式 \[\mathbf{x}_t=(1-t)\mathbf{x}_0+t\varepsilon\] 写成概率分布形式： \[p(\mathbf{x}_t|\mathbf{x}_0)=\mathcal{N}(\mathbf{x}_t;(1-t)\mathbf{x}_0,t^2\mathbf{I})\] Score Matching的一步加噪公式 \[\mathbf{x}_t=\mathbf{x}_0+\sigma_t\varepsilon \] 写成概率分布形式： \[p(\mathbf{x}_t|\mathbf{x}_0)=\mathcal{N}(\mathbf{x}_t;\mathbf{x}_0,\sigma_t^2\mathbf{I})\] DDPM/DDIM的一步加噪公式...

#SDE #ODE #Generating Model #flow #diffusion

READ

流模型Flow的基本概念与实现

Generative Model

2026-03-03

背景本文主要是《NICE: Non-linear Independent Components Estimation》一文的介绍和实现。这篇文章也是glow这个模型的基础文章之一，可以说它就是glow的奠基石。艰难的分布众所周知，目前主流的生成模型包括VAE和GAN，但事实上除了这两个之外，还有基于flow的模型（flow可以直接翻译为“流”，它的概念我们后面再介绍）。事实上flow的历史和VAE、GAN它们一样悠久，但是flow却鲜为人知。在我看来，大概原因是flow找不到像GAN一样的诸如“造假者-鉴别者”的直观解释吧，因为flow整体偏数学化，加上早期效果没有特别好但计算量又特别大，所以很难让人提起兴趣来。不过现在看来，OpenAI的这个好得让人惊叹的、基于flow的glow模型，估计会让更多的人投入到flow模型的改进中。 glow模型生成的高清人脸生成模型的本质，就是希望用一个我们知道的概率模型来拟合所给的数据样本，也就是说，我们得写出一个带参数 \(𝜃\) 的分布 \(q_{\boldsymbol{\theta}}(\boldsymbol{x})\)...

#Generating Model #flow

READ

R-FCN

Computer Vision

2026-02-26

动机 Faster R-CNN是首个利用CNN来完成proposals的预测的，之后的很多目标检测网络都是借助了Faster R-CNN的思想。而Faster R-CNN系列的网络都可以分成2个部分： Fully Convolutional subnetwork before RoI Layer RoI-wise subnetwork 第1部分就是直接用普通分类网络的卷积层，用其来提取共享特征，然后一个RoI Pooling Layer在第1部分的最后一张特征图上进行提取针对各个RoIs的特征向量（或者说是特征图，维度变换一下即可），然后将所有RoIs的特征向量都交由第2部分来处理（分类和回归），而第二部分一般都是一些全连接层，在最后有2个并行的loss函数：softmax和smoothL1，分别用来对每一个RoI进行分类和回归，这样就可以得到每个RoI的真实类别和较为精确的坐标和长宽了。...

#Self-Supervised #CV

READ

Deformable Convolution系列

Computer Vision

2026-02-26

Deformable Conv v1 这篇文章其实比较老了，是 2017 年 5 月出的 Motivation Task 上的难点视觉任务中一个难点就是如何 model 物体的几何变换，比如由于物体大小，pose, viewpoint 引起的。一般有两类做法：在数据集上做文章，让 training dataset 就包含所有可能的集合变换。通过 affine transformation 去做 augmentation 另一种就是设计 transformation-invariant (对那些几何变换不变）的 feature 和算法。比如 SIFT 和 sliding window 的方式。文章说上述两种方式有问题，几何变换我们是事先知道的，这种不能 generalize 到其它场景和任务中。以及 hand-crafted 的设计适应不了负责场景。 CNN 的缺陷对于geometric transformation 的问题，目前的 CNN 主要是通过 data augmentation 和一些手工设计，比如 max-pooling 解决的（max-pooling...

#CV #Self-Supervised

READ

Normalizing flow

Generative Model

2026-02-12

Normalizing flow（标准化流）是一类对概率分布进行建模的工具，它能完成简单的概率分布（例如高斯分布）和任意复杂分布之间的相互转换，经常被用于 data generation、density estimation、inpainting 等任务中，例如 Stability AI 提出的 Stable Diffusion 3 中用到的 rectified flow 就是 normalizing flow 的变体之一。为了便于理解，在正式开始介绍之前先简要说明一下 normalizing flow 的做法。如上图所示，为了将一个高斯分布 \(z_0\) 转换为一个复杂的分布 \(z_K\) ，normalizing flow 会对初始的分布 \(z_0\) 进行多次可逆的变换，将其逐渐转换为 \(z_K\) 。由于每一次变换都是可逆的，从 \(z_K\) 出发也能得到高斯分布 \(z_0\) 。这样，我们就实现了复杂分布与高斯分布之间的互相转换，从而能从简单的高斯分布建立任意复杂分布。对 diffusion models 比较熟悉的读者可能已经发现了，这个过程和...

#Generating Model #flow

READ

对比学习概述

Self-Supervised

2026-01-23

如果把近几年对比学习在视觉领域有代表性的工作做一下总结，那么对比学习的发展历程大概可以分为四个阶段：百花齐放这个阶段代表性工作有InstDisc（instance discrimination，）、CPC、CMC等。在这个阶段中，方法、模型、目标函数、代理任务都还没有统一，所以说是一个百花齐放的时代 CV双雄代表作有MoCo v1、SimCLR v1、MoCo v2、SimCLR v2；CPC、CMC的延伸工作、SwAV等。这个阶段发展非常迅速，有的工作间隔甚至不到一个月，ImageNet上的成绩基本上每个月都在被刷新。不用负样本 BYOL及其改进工作、SimSiam（CNN在对比学习中的总结性工作） transformer MoCo v3、DINO。这个阶段，无论是对比学习还是最新的掩码学习，都是用Vision Transformer做的。第一阶段：百花齐放（2018-2019Mid） InstDisc（instance discrimination）这篇文章提出了个体判别任务（代理任务）以及 memory bank ，非常经典，后人给它的方法起名为InstDisc。...

#对比学习 #Self-Supervised

READ

DINO系列

Self-Supervised

2026-01-23

DINO Emerging Properties in Self-Supervised Vision Transformers 论文地址： arxiv.org/pdf/2104.14294 DINO摇摆到了动量式更新，果然【加动量】还是比【只用梯度停止】香。DINO的名字来自于Self- di stillation with no labels中的蒸馏和No标签。 DINO的训练步骤其实以前的对比学习方案也可以理解为知识蒸馏，DINO里更具体得描述了知识蒸馏的含义。下图展示了一个样本通过数据增强得到一对views \((x_1,x_2)\) 。注意DINO后面还会使用更复杂的裁剪和对比方案，但这里简单起见先不考虑那些。模型将输入图像的两种不同的随机变换 \(x_1\) 和 \(x_2\) 分别传递给学生和教师网络。这两个网络具有相同的架构，但参数不同。教师网络的输出以batch内计算的平均值，进行中心化（减去均值）。每个网络输出一个 \(K\)...

#Self-Supervised #对比学习

READ

#

!

INCOMING TRANSMISSION

Stable Diffusion系列

Deep Generative Models概述

Flow Matching

RealNVP与Glow：流模型的传承与升华

Rectified Flow

EDM

流模型Flow的基本概念与实现

R-FCN

Deformable Convolution系列

Normalizing flow

对比学习概述

DINO系列