知识库 - Orange

强化学习Model-Free之时序差分

2026-03-30

引言时序差分（Temporal-Difference，TD）方法是强化学习中的一类核心算法，它结合了动态规划与蒙特卡洛方法的优点。TD方法是无模型（model-free）学习方法，不需要环境模型即可学习价值函数和最优策略。 TD方法的核心特点是通过比较不同时间步骤的估计值之间的差异来更新价值函数，这种差异被称为"时序差分误差"（TD error）。TD方法可以被视为解决贝尔曼方程或贝尔曼最优方程的特殊随机逼近算法。基础TD算法：状态值函数学习给定策略 $\pi$ ，基础TD算法用于估计状态值函数 $v_\pi(s)$ 。假设我们有一些按照策略 $\pi$ 生成的经验样本 $(s_0, r_1, s_1, ..., s_t, r_{t+1}, s_{t+1}, ...)$ ，TD算法的更新规则为： \[\begin{equation}\begin{aligned}v_{t+1}(s_t) &= v_t(s_t) - \alpha_t(s_t)[v_t(s_t) - (r_{t+1} + \gamma v_t(s_{t+1}))]\\ v_{t+1}(s) &=...

#Reinforcement Learning #Q-Learning

READ

强化学习Model-Free之蒙特卡洛

Reinforcement Learning

2026-03-30

引言与背景蒙特卡洛方法是强化学习中的重要算法类别，它标志着从基于模型到无模型算法的转变。这类算法不依赖环境模型，而是通过与环境的直接交互获取经验数据来学习最优策略。蒙特卡洛方法在强化学习算法谱系中处于"无模型"方法的起始位置，是从基于模型的方法（如值迭代和策略迭代）向无模型方法过渡的第一步。无模型强化学习的核心理念可以简述为：如果没有模型，我们必须有数据；如果没有数据，我们必须有模型；如果两者都没有，我们就无法找到最优策略。在强化学习中，"数据"通常指智能体与环境交互的经验。均值估计问题在介绍蒙特卡洛强化学习算法之前，我们首先需要理解均值估计问题，这是理解从数据而非模型中学习的基础。考虑一个可以取有限实数集合 $X$ 中值的随机变量 $X$ ，我们的任务是计算 $X$ 的均值或期望值： $E[X]$ 有两种方法可以计算 $E[X]$ ：基于模型的方法：当已知随机变量的概率分布时，可以直接根据期望值的定义计算： \[E[X] = \sum_{x \in X} p(x) \cdot x\] 其中 $p(x)$ 是 $X$ 取值为 $x$...

#Reinforcement Learning #Q-Learning

READ

Score-based Generative Models

Generative Model

2026-03-04

Score based generative model SMLD的关键点：以多个不同量级的噪声对数据进行扰动，并训练一个分数网络来估计不同噪声下的分数加噪的量级有大有小，都是在原始数据上进行加噪，最终的分布趋向于 $\mathcal{N}(0,max_i{\sigma_i^2})$ 运用分数匹配的方式来训练基于U-Net结构的MCSN网络，使得MCSN能够估计任意加噪后分布的分数基于任意加噪分布的分数和退火的郎之万动力学应用到采样来生成准确的原始数据分布的新样本正式开始介绍之前首先解答一下这个问题： score-based 模型是什么东西，微分方程在这个模型里到底有什么用？我们知道生成模型基本都是从某个现有的分布中进行采样得到生成的样本，为此模型需要完成对分布的建模。根据建模方式的不同可以分为隐式建模（例如 GAN、diffusion models）和显式建模（例如 VAE、normalizing flows）。和上述的模型相同，score-based 模型也是用一定方式对分布进行了建模。具体而言，这类模型建模的对象是概率分布函数 log 的梯度，也就是 score...

#Generating Model #SDE #ODE

READ

Consistency Models

Generative Model

2026-03-04

Diffusion Models from SDE 连续扩散模型 (Continuous Diffusion Models) 将传统的离散时间扩散过程扩展到连续时间域,可以被视为一个随机过程，使用随机微分方程(SDE)来描述。其前向过程可以写成如下形式： \[\mathrm d\mathbf x=\mathbf f(\mathbf x,t)\mathrm dt+g(t)\mathrm d\mathbf w\tag{1}\] 其中， $f(x,t)$ 可以看成偏移系数， $g(t)$ 可以看成是扩散系数， $dw$ 是标准布朗运动。这个SDE 描述了数据在连续时间域内如何被噪声逐渐破坏。这个随机过程的逆向过程存在（更准确的描述：下面的逆向时间SDE具有与正向过程SDE相同的联合分布）为 \[d\mathbf{x}=[\mathbf{f}(\mathbf{x},t)-g^2(t)\nabla_{\mathbf{x}}\log p_t(\mathbf{x})]dt+g(t)d\bar{\mathbf{w}}\tag{2}\]...

#Generating Model #ODE #diffusion #SDE

READ

EDM

Generative Model

2026-03-03

基于文章《Elucidating the Design Space of Diffusion-Based Generative Models》来统一扩散模型框架通用扩散模型框架推导加噪公式 Flow Matching的一步加噪公式 \[\mathbf{x}_t=(1-t)\mathbf{x}_0+t\varepsilon\] 写成概率分布形式： \[p(\mathbf{x}_t|\mathbf{x}_0)=\mathcal{N}(\mathbf{x}_t;(1-t)\mathbf{x}_0,t^2\mathbf{I})\] Score Matching的一步加噪公式 \[\mathbf{x}_t=\mathbf{x}_0+\sigma_t\varepsilon \] 写成概率分布形式： \[p(\mathbf{x}_t|\mathbf{x}_0)=\mathcal{N}(\mathbf{x}_t;\mathbf{x}_0,\sigma_t^2\mathbf{I})\] DDPM/DDIM的一步加噪公式...

#flow #ODE #Generating Model #diffusion #SDE

READ

SDE和扩散模型

Generative Model

2026-03-03

- SMLD 和 DDPM 中使用的噪声扰动可以看作是两个不同 SDE 的离散化 - 扩散模型和评分模型在连续时间极限下完全等价，也就是说将有限次数的加噪过程推广到无穷次，也就是推广到连续的情况下，可以得到一个更加一般的扩散过程，这个过程可以用SDE来表示，求解更加方便 - 两种方法的目标函数可以互相转换随机微分在DDPM中，扩散过程被划分为了固定的T步，还是用DDPM中的类比来说，就是“拆楼”和“建楼”都被事先划分为了T步，这个划分有着相当大的人为性。事实上，真实的“拆”、“建”过程应该是没有刻意划分的步骤的，我们可以将它们理解为一个在时间上连续的变换过程，可以用随机微分方程（Stochastic Differential Equation，SDE）来描述。为此，我们用下述SDE描述前向过程（“拆楼”）： \[d\boldsymbol{x} = \boldsymbol{f}_t(\boldsymbol{x}) dt + g_t d\boldsymbol{w}\tag{1}\]...

#Generating Model #SDE #diffusion

READ

CV数据增强

Deep Learning

2026-03-02

Random erasing data augmentation 论文名称：Random erasing data augmentation 论文地址： https://arxiv.org/pdf/1708.04896v2.pdf 随机擦除增强，非常容易理解。作者提出的目的主要是模拟遮挡，从而提高模型泛化能力，这种操作其实非常make sense，因为我把物体遮挡一部分后依然能够分类正确，那么肯定会迫使网络利用局部未遮挡的数据进行识别，加大了训练难度，一定程度会提高泛化能力。其也可以被视为add noise的一种，并且与随机裁剪、随机水平翻转具有一定的互补性，综合应用他们，可以取得更好的模型表现，尤其是对噪声和遮挡具有更好的鲁棒性。具体操作就是：随机选择一个区域，然后采用随机值进行覆盖，模拟遮挡场景。在细节上，可以通过参数控制擦除的面积比例和宽高比，如果随机到指定数目还无法满足设置条件，则强制返回。一些可视化效果如下： Cutout 论文名称：Improved Regularization of Convolutional Neural Networks with Cutout...

#DL基础 #CV

READ

上采样、反卷积与上池化

Deep Learning

2026-03-02

通过卷积和池化等技术可以将图像进行降维，因此，一些研究人员也想办法恢复原分辨率大小的图像，特别是在语义分割领域应用很成熟。 Upsampling（上采样）[没有学习过程] 在FCN、U-net等网络结构中，涉及到了上采样。上采样概念：上采样指的是任何可以让图像变成更高分辨率的技术。最简单的方式是重采样和插值：将输入图片进行rescale到一个想要的尺寸，而且计算每个点的像素点，使用如双线性插值等插值方法对其余点进行插值来完成上采样过程。在PyTorch中，上采样的层被封装在 torch.nn 中的 Vision Layers 里面，一共有4种： PixelShuffle Upsample UpsamplingNearest2d UpsamplingBilinear2d PixelShuffle 当stride = (1/r) < 1时，可以让卷积后的feature map变大——即分辨率变大，这个新的操作叫做sub-pixel convolution，具体原理可以看 “PixelShuffle：Real-Time Single Image and Video...

#DL基础 #CNN

READ

卷积总结

Deep Learning

2026-02-28

现代深度学习库对大多数操作都具有生产级的、高度优化的实现，这并不奇怪。但这些库究竟是什么魔法？他们如何能够将性能提高100倍？究竟怎样才能“优化”或加速神经网络的运行呢？在讨论高性能/高效DNNs时，我经常会问(也经常被问到)这些问题。在这篇文章中，我将尝试带你了解在DNN库中卷积层是如何实现的。它不仅是在模型中最常见的和最重的操作，我还发现卷积高性能实现的技巧特别具有代表性——一点点算法的小聪明，非常多的仔细的调优和低层架构的开发。我在这里介绍的很多内容都来自Goto等人的开创性论文：Anatomy of a high-performance matrix multiplication，该论文为OpenBLAS等线性代数库中使用的算法奠定了基础。最原始的卷积实现 “过早的优化是万恶之源”——Donald Knuth 在进行优化之前，我们先了解一下基线和瓶颈。这是一个朴素的numpy/for循环卷积： ''' Convolve `input` with `kernel` to generate `output` input.shape =...

#DL基础 #CNN

READ

SAM 系列

Computer Vision

2026-02-27

Segment Anything Segment Anything（SA）项目：一个用于图像分割的新任务、新模型和新数据集通过FM（基础模型）+prompt解决了CV中难度较大的分割任务，给计算机视觉实现基础模型+提示学习+指令学习提供了一种思路关键：加大模型容量（构造海量的训练数据，或者构造合适的自监督任务来预训练） Segment Anything Task SAM的一部分灵感是来源于NLP中的基座模型(Foundation Model)，Foundation Model是OpenAI提出的一个概念，它指的是在超大量数据集上预训练过的大模型（如GPT系列、BERT），这些模型具有非常强大的 zero-shot 和 few-shot能力，结合prompt engineering和fine tuning等技术可以将基座模型应用在各种下游任务中并实现惊人的效果。 SAM就是想构建一个这样的图像分割基座模型，即使是一个未见过的数据集，模型也能自动或半自动（基于prompt）地完成下游的分割任务。为了实现这个目标，SAM定义了一种可提示化的分割任务（promptable...

#Segmentation #transformer #CV

READ

Swin-Transformer

Computer Vision

2026-02-27

前言首先看论文题目。Swin Transformer： Hierarchical Vision Transformer using Shifted Windows。即：Swin Transformer是一个用了移动窗口的层级式Vision Transformer 所以Swin来自于 Shifted Windows ，它能够使Vision Transformer像卷积神经网络一样，做层级式的特征提取，这样提取出来的特征具有多尺度的概念，这也是 Swin Transformer这篇论文的主要贡献。标准的Transformer直接用到视觉领域有一些挑战，即：多尺度问题：比如一张图片里的各种物体尺度不统一，NLP中没有这个问题；分辨率太大：如果将图片的每一个像素值当作一个token直接输入Transformer，计算量太大，不利于在多种机器视觉任务中的应用。基于这两点，本文提出了 hierarchical Transformer，通过移动窗口来学习特征。移动窗口学习，即只在滑动窗口内部计算自注意力，所以称为W-MSA（Window Multi-Self-Attention）。...

#transformer #CV

READ

DeepLab系列

Computer Vision

2026-02-27

空洞卷积 Dilated/Atrous Convolution 或者是 Convolution with holes 从字面上就很好理解，是在标准的 convolution map 里注入空洞，以此来增加 reception field。相比原来的正常convolution，dilated convolution 多了一个 hyper-parameter 称之为 dilation rate 指的是kernel的间隔数量(e.g. 正常的 convolution 是 dilatation rate 1)。一个简单的例子一维情况下空洞卷积的公式如下 \[y[i]=\sum_{k=1}^Kx[i+r\cdot k]w[k]\] 不过光理解他的工作原理还是远远不够的，要充分理解这个概念我们得重新审视卷积本身，并去了解他背后的设计直觉。以下主要讨论 dilated convolution 在语义分割 (semantic segmentation) 的应用。重新思考卷积： Rethinking Convolution...

#Segmentation #CV

READ

#

!

INCOMING TRANSMISSION

强化学习Model-Free之时序差分

强化学习Model-Free之蒙特卡洛

Score-based Generative Models

Consistency Models

EDM

SDE和扩散模型

CV数据增强

上采样、反卷积与上池化

卷积总结

SAM 系列

Swin-Transformer

DeepLab系列