知识库 - Orange

Consistency Models

2026-01-11

Diffusion Models from SDE 连续扩散模型 (Continuous Diffusion Models) 将传统的离散时间扩散过程扩展到连续时间域,可以被视为一个随机过程，使用随机微分方程(SDE)来描述。其前向过程可以写成如下形式： [公式] 其中， f(x,t) 可以看成偏移系数， g(t) 可以看成是扩散系数， dw 是标准布朗运动。这个SDE 描述了数据在连续时间域内如何被噪声逐渐破坏。这个随机过程的逆向过程存在（更准确的描述：下面的逆向时间SDE具有与正向过程SDE相同的联合分布）为 [公式] 前面我们得到了扩散过程的逆向过程可以用一个SDE描述(逆向随机过程),事实上，存在一个确定性过程 (用ODE描述)也是它的逆向过程 (更准确的描述：这个ODE过程的在任...

#Generating Model #ODE #SDE #diffusion

READ

Flow Matching

Generative Model

2026-01-11

💡 Flowbased Models Normalizing Flow Normalizing Flow 是一种基于变换对概率分布进行建模的模型，其通过一系列离散且可逆的变换实现任意分布与先验分布（例如标准高斯分布）之间的相互转换。在 Normalizing Flow 训练完成后，就可以直接从高斯分布中进行采样，并通过逆变换得到原始分布中的样本，实现生成的过程。（有关 Normalizing Flow 的详细理论）从这个角度看，Normalizing Flow 和 Diffusion Model 是有一些相通的，其做法的对比如下表所示。从表中可以看到，两者大致的过程是非常类似的，尽管依然有些地方不一样，但这两者应该可以通过一定的方法得到一个比较统一的表示。 Continuous Norma...

#flow #diffusion #Generating Model

READ

条件控制生成

Generative Model

2026-01-11

技术分析从方法上来看，条件控制生成的方式分两种：事后修改（ClassifierGuidance）和事前训练（ClassifierFree）。对于大多数人来说，一个SOTA级别的扩散模型训练成本太大了，而分类器（Classifier）的训练还能接受，所以就想着直接复用别人训练好的无条件扩散模型，用一个分类器来调整生成过程以实现控制生成，这就是事后修改的ClassifierGuidance方案；而对于“财大气粗”的Google、OpenAI等公司来说，它们不缺数据和算力，所以更倾向于往扩散模型的训练过程中就加入条件信号，达到更好的生成效果，这就是事前训练的ClassifierFree方案。 ClassifierGuidance方案最早出自《Diffusion Models Beat GANs...

#Generating Model #diffusion

READ

Stable Diffusion

Generative Model

2026-01-11

SD模型原理 SD是CompVis、Stability AI和LAION等公司研发的一个文生图模型，它的模型和代码是开源的，而且训练数据LAION5B也是开源的。SD在开源90天github仓库就收获了33K的stars，可见这个模型是多受欢迎。 SD是一个基于latent的扩散模型，它在UNet中引入text condition来实现基于文本生成图像。SD的核心来源于Latent Diffusion这个工作，常规的扩散模型是基于pixel的生成模型，而Latent Diffusion是基于latent的生成模型，它先采用一个autoencoder将图像压缩到latent空间，然后用扩散模型来生成图像的latents，最后送入autoencoder的decoder模块就可以得到生成的图像。 ...

#Generating Model #transformer #diffusion

READ

ControlNet

Generative Model

2026-01-11

ControlNet应该算是2023年文生图领域最重要的工作，它让文生图模型Stable Diffusion实现了文本之外的可控生成，让AI绘画实现了质的飞跃。这篇文章我们将简单总结一下ControlNet技术细节。模型设计 ControlNet的模型结构如下所示，这里是直接复制一份SD的上半部分：Encoder和中间的Middle Block。 ControlNet的输入和原始的SD一样，包括noisy latents、time embedding以及text embedding。除此之外，ControlNet还需要引入额外的condition，这个condition是和原图一样大小的图像，比如canny边界图或者人体骨架图。这里并没有像SD那样采用VAE对condition进行编码，而...

#Generating Model #diffusion

READ

UI-TARS

Large Model

2026-01-11

UITARS 简介 UITARS（User Interface Task Automation and Reasoning System）是由字节跳动（ByteDance）研发的原生 GUI 智能体模型：输入方式：仅使用屏幕截图作为视觉输入交互方式：执行类人操作（键盘输入、鼠标点击、拖拽等）模型特性：端到端的原生智能体模型，无需复杂的中间件或框架传统 GUI 智能体的开发往往依赖于文本信息，例如 HTML 结构和可访问性树。虽然这些方法取得了一些进展，但它们也存在一些局限性：平台不一致性：不同平台的 GUI 结构差异很大，导致智能体难以跨平台通用。信息冗余：文本信息往往过于冗长，增加了模型的处理负担。访问限制：获取系统底层的文本信息通常需要较高的权限，限制了应用的范围。模块化...

#VLM #Agent

READ

SDE和扩散模型

Generative Model

2026-01-11

💡 随机微分在DDPM中，扩散过程被划分为了固定的T步，还是用DDPM中的类比来说，就是“拆楼”和“建楼”都被事先划分为了T步，这个划分有着相当大的人为性。事实上，真实的“拆”、“建”过程应该是没有刻意划分的步骤的，我们可以将它们理解为一个在时间上连续的变换过程，可以用随机微分方程（Stochastic Differential Equation，SDE）来描述。为此，我们用下述SDE描述前向过程（“拆楼”）： [公式] 相信很多读者都对SDE很陌生，笔者也只是在硕士阶段刚好接触过一段时间，略懂皮毛。不过不懂不要紧，我们只需要将它看成是下述离散形式在 [Math] 时的极限： [公式] 再直白一点，如果假设拆楼需要1天，那么拆楼就是 [Math] 从 t=0 到 t=1 的变化过程，每一...

#Generating Model #diffusion #SDE

READ

RLE Loss

3D Model

2026-01-11

论文地址： 🔖 https://arxiv.org/pdf/2107.11291 代码地址：前言一般来说，我们可以把姿态估计任务分成两个流派：Heatmapbased和Regressionbased。其主要区别在于监督信息的不同，Heatmapbased方法监督模型学习的是高斯概率分布图，即把GroundTruth中每个点渲染成一张高斯热图，最后网络输出为K张特征图对应K个关键点，然后通过argmax或softargmax来获取最大值点作为估计结果。这种方法由于需要渲染高斯热图，且由于热图中的最值点直接对应了结果，不可避免地需要维持一个相对高分辨率的热图（常见的是64x64，再小的话误差下界过大会造成严重的精度损失），因此也就自然而然导致了很大的计算量和内存开销。 Regression...

#3D #CV

READ

Stable Diffusion 3

Generative Model

2026-01-11

🔖 https://stability.ai/news/stablediffusion3researchpaper 概述 SD3 模型与训练策略改进细节 SD3除了将去噪网络从 UNet 改成 DiT 外，SD3 还在模型结构与训练策略上做了很多小改进：改变训练时噪声采样方法将一维位置编码改成二维位置编码提升 VAE 隐空间通道数对注意力 QK 做归一化以确保高分辨率下训练稳定本文会简单介绍这些改进。论文阅读核心贡献介绍 Stable Diffusion 3 (SD3) 的文章标题为 Scaling Rectified Flow Transformers for HighResolution Image Synthesis。与其说它是一篇技术报告，更不如说它是一篇论文，因为它...

#flow #diffusion #Generating Model

READ

Gaze Estimation

3D Model

2026-01-11

概述问题定义广义的 Gaze Estimation 泛指与眼球、眼动、视线等相关的研究，因此有不少做 saliency 和 egocentric 的论文也以 gaze 为关键词。而本文介绍的 Gaze Estimation 主要以眼睛图像或人脸图像为处理对象，估算人的视线方向或注视点位置，如下图所示。 gaze角度的表示一般使用一个3d向量作为表示，也可以转换为pitch 和yaw角度，具体可参考 Model Gaze模型一般使用回归模型，所以这里基本只介绍一些在gaze model中使用的小技巧 Rle Loss 实际问题

#3D

READ

#

!

INCOMING TRANSMISSION

Consistency Models

Flow Matching

条件控制生成

Stable Diffusion

ControlNet

UI-TARS

SDE和扩散模型

RLE Loss

Stable Diffusion 3

Gaze Estimation