知识库 - Orange

离散扩散模型用于文本生成

Large Model

2026-01-20

引言 Diffusion模型近年来在图像生成这一连续域任务中取得了显著成果，展现出强大的生成能力。然而，在文本生成这一离散域任务中整体效果仍不尽如人意，未能在该领域引起广泛关注。去年，一篇研究离散扩散模型在文本生成的文章《Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution》获得ICML 2024的Best Paper，引发了学术界的广泛兴趣，也激发了新一轮的研究热潮。随后在2025年，越来越多高校和企业也开始积极探索基于Diffusion的文本生成方法。其中，近期备受关注的Block Diffusion也成功入选ICLR oral，进一步推动了该方向的发展。...

#diffusion #LLM

READ

DDPM

Generative Model

2026-01-19

💡 扩散模型：通过加噪的方式去学习原始数据的分布，从学到的分布中去生成样本 DDPM 关键点： 1. 正向加噪是离散时间马尔可夫链：从 \(x_0\) 逐步加噪得到 \(x_1,x_2,...,x_T\) ；在合适的噪声调度与足够大的 \(T\) 下， \(x_T\) 近似服从 \( N(0,I) \) 的各向同性高斯。 2. 每一步噪声方差 \(β_t\) 满足 \(0<β_t<1\) ，通常随 \(t\) 增大；因此 \(q(x_t|x_{t-1}) \) 的均值缩放系数 \(\sqrt{1-β_t} \) 逐渐减小。 3. 训练通过最大化对数似然的变分下界（ELBO）来学习反向过程 \( p_θ(x_{t-1}|x_t)\) ，并将其参数化为高斯分布（神经网络预测均值/噪声或 score）。 4. 将目标写成 score/DSM 形式时，loss 的权重与对应噪声层的方差尺度（如 \(1-\bar{α}_t\) 或相关量）有关；采样通常是按学习到的反向转移逐步生成（祖先采样），与经典 Langevin MCMC 更新形式不同，但可在 SDE 视角下统一理解。...

#diffusion #Generating Model

READ

EDM

Generative Model

2026-01-19

基于文章《Elucidating the Design Space of Diffusion-Based Generative Models》来统一扩散模型框架通用扩散模型框架推导加噪公式 Flow Matching的一步加噪公式 \[\mathbf{x}_t=(1-t)\mathbf{x}_0+t\varepsilon\] 写成概率分布形式： \[p(\mathbf{x}_t|\mathbf{x}_0)=\mathcal{N}(\mathbf{x}_t;(1-t)\mathbf{x}_0,t^2\mathbf{I})\] Score Matching的一步加噪公式 \[\mathbf{x}_t=\mathbf{x}_0+\sigma_t\varepsilon \] 写成概率分布形式： \[p(\mathbf{x}_t|\mathbf{x}_0)=\mathcal{N}(\mathbf{x}_t;\mathbf{x}_0,\sigma_t^2\mathbf{I})\] DDPM/DDIM的一步加噪公式...

#Generating Model #ODE #diffusion #flow #SDE

READ

TridentNet

Computer Vision

2026-01-11

在正式介绍之前，先简单回顾一下现有的两大类方法。第一大类，也是从非Deep时代，乃至CV初期就被就被广泛使用的方法叫做image pyramid。在image pyramid中，我们直接对图像进行不同尺度的缩放，然后将这些图像直接输入到detector中去进行检测。虽然这样的方法十分简单，但其效果仍然是最佳，也后续启发了SNIP这一系列的工作。单论性能而言，multiscale training/testing仍然是一个不可缺少的组件。然而其缺点也是很明显的，测试时间大幅度提高，对于实际使用并不友好。另外一大类方法，也是Deep方法所独有的，也就是feature pyramid。最具代表性的工作便是经典的FPN了。这一类方法的思想是直接在feature层面上来近似image pyramid...

#Object Detection #CV

READ

目标检测小目标问题概述

Computer Vision

2026-01-11

在深度学习目标检测中，特别是人脸检测中，由于分辨率低、图像模糊、信息少、噪声多，小目标和小人脸的检测一直是一个实用和常见的难点问题。然而，在过去几年的发展中，也出现了一些提高小目标检测性能的解决方案。本文将对这些方法进行分析、整理和总结。图像金字塔和多尺度滑动窗口检测一开始，在深学习方法成为流行之前，对于不同尺度的目标，通常是从原始图像开始，使用不同的分辨率构建图像金字塔，然后使用分类器对金字塔的每一层进行滑动窗口的目标检测。在著名的人脸检测器MTCNN中，使用图像金字塔法检测不同分辨率的人脸目标。然而，这种方法通常是缓慢的，虽然构建图像金字塔可以使用卷积核分离加速或简单粗暴地缩放，但仍需要做多个特征提取，后来有人借其想法想出一个特征金字塔网络FPN，在不同层融合特征，只需要一次正向计...

#Object Detection #CV

READ

Anchor-Free

Computer Vision

2026-01-11

简介 "Anchorfree"（无锚点）是一种目标检测方法，与传统的使用锚框（anchor boxes）的方法（例如Faster RCNN）不同。在传统方法中，锚框是预先定义的、具有不同尺寸和长宽比的矩形区域，用于捕捉不同尺寸和形状的目标。而在"anchorfree"方法中，不再使用锚框，而是直接预测目标的位置和形状，通常使用网络输出的热图和偏移信息。以下是对"anchorfree"方法的一些关键理解点：无需预定义锚框：在传统目标检测方法中，需要事先定义和生成一组锚框，这可能需要大量的人工工作。而在"anchorfree"方法中，不再需要锚框，模型可以自动学习目标的位置和形状。直接位置和形状回归： "anchorfree"方法通过输出的热图来表示目标的存在概率，并使用偏移信息来定位目...

#Object Detection #CV

READ

Yolo系列

Computer Vision

2026-01-11

YOLO的核心思想就是利用整张图作为网络的输入，直接在输出层回归bounding box的位置和bounding box所属的类别。 faster RCNN中也直接用整张图作为输入，但是fasterRCNN整体还是采用了RCNN那种 proposal+classifier的思想，只不过是将提取proposal的步骤放在CNN中实现了,而YOLO则采用直接回归的思路。 YOLO v1 将一幅图像分成SxS个网格(grid cell)，如果某个object的中心落在这个网格中，则这个网格就负责预测这个object。每个网格要预测B个bounding box，每个bounding box除了要回归自身的位置之外，还要附带预测一个confidence值。这个confidence代表了所预测的b...

#Object Detection #CV

READ

PointNet系列

3D Model

2026-01-11

三维深度学习简介多视角（multiview）：通过多视角二维图片组合为三维物体，此方法将传统CNN应用于多张二维视角的图片，特征被view pooling procedure聚合起来形成三维物体；体素（volumetric）：通过将物体表现为空间中的体素进行类似于二维的三维卷积（例如，卷积核大小为5x5x5），是规律化的并且易于类比二维的，但同时因为多了一个维度出来，时间和空间复杂度都非常高，目前已经不是主流的方法了；点云（point clouds）：直接将三维点云抛入网络进行训练，数据量小。主要任务有分类、分割以及大场景下语义分割；非欧式（manifold，graph）：在流形或图的结构上进行卷积，三维点云可以表现为mesh结构，可以通过点对之间临接关系表现为图的结构。点云的特性...

#3D

READ

PointConv

3D Model

2026-01-11

概括这篇文章将卷积比较自然地拓展到点云的情形，思路很赞！文章的主要创新点：“weight function”和“density function”，并能实现translationinvariance和permutationinvariance，可以实现层级化特征提取，而且能自然推广到其deconvolution的情形实现分割，在二维CIFAR10图像分类任务中精度堪比CNN（表明能够充分近似卷积网络），达到了SOTA的性能。缺点：每个kernel都需要由“kernel function”生成，而“kernel function”实质上是一个CNN网络，计算量比较大。思想察觉到：二维卷积中pixel的相对centroid位置与kernel vector的生成方式有关。以二维卷积为例...

#3D

READ

VoteNet

3D Model

2026-01-11

Hough Voting 本文的标题是Deep Hough Voting，先来说一下Hough Voting。用Hough变换检测直线大家想必都听过：对于一条直线，可以使用(r, θ)两个参数进行描述，那么对于图像中的一点，过这个点的直线有很多条，可以生成一系列的(r, θ)，在参数平面内就是一条曲线，也就是说，一个点对应着参数平面内的一个曲线。那如果有很多个点，则会在参数平面内生成很多曲线。那么，如果这些点是能构成一条直线的，那么这条直线的参数(r, θ)就在每条曲线中都存在，所以看起来就像是多条曲线相交在（r,θ）。可以用多条曲线投票的方式来看，其他点都是很少的票数，而（r,θ）则票数很多，所以直线的参数就是（r,θ）。所以Hough变换的思想就是在于，在参数空间内进行投票，投票得数...

#3D

READ

SO-Net

3D Model

2026-01-11

概括针对一些网络在处理point cloud时的缺点，如：不能对点的空间分布进行建模（例如PointNet++，只是能获取局部信息不能得到局部区域之间的空间关系），提出了SONet。SO的含义是利用Selforganizing map的Net。结果：它具有能够对点的空间分布进行建模、层次化特征提取、可调节的感受野范围的优点，并能够用于多种任务如重建、分类、分割等等。取得了相似或超过SOTA的性能，因为可并行化和架构简单使得训练速度很快。贡献： TODO IDEA：作者发现将CNN直接用于SOM图上性能不升反降，为什么（推测：可能是SOM的2D map并不是保持了原本的空间对应关系，可能nodes之间是乱序的，导致用conv2d时精度反而降低）？难点如何对local regions之...

#3D

READ

Stacked Hourglass Networks

3D Model

2026-01-11

论文介绍了一种新的网络结构用于人体姿态检测，作者在论文中展现了不断重复bottomup、topdown过程以及运用intermediate supervison（中间监督）对于网络性能的提升，下面来介绍Stacked Hourglass Networks. 简介理解人类的姿态对于一些高级的任务比如行为识别来说特别重要，而且也是一些人机交互任务的基础。作者提出了一种新的网络结构Stacked Hourglass Networks来对人体的姿态进行识别，这个网络结构能够捕获并整合图像所有尺度的信息。之所以称这种网络为Stacked Hourglass Networks，主要是它长得很像堆叠起来的沙漏，如下图所示：这种堆叠在一起的Hourglass模块结构是对称的，bottomup过程将图片从...

#3D

READ

#

!

INCOMING TRANSMISSION

离散扩散模型用于文本生成

DDPM

EDM

TridentNet

目标检测小目标问题概述

Anchor-Free

Yolo系列

PointNet系列

PointConv

VoteNet

SO-Net

Stacked Hourglass Networks