知识库 - Orange

Autograd

Python

2026-01-11

PyTorch中，所有神经网络的核心是 autograd 包。 autograd 包为张量上的所有操作提供了自动求导机制。它是一个在运行时定义(definebyrun）的框架，这意味着反向传播是根据代码如何运行来决定的，并且每次迭代可以是不同的. 让我们用一些简单的例子来看看吧。张量 torch.Tensor 是这个包的核心类。如果设置它的属性 .requires_grad 为 True，那么它将会追踪对于该张量的所有操作。当完成计算后可以通过调用 .backward()，来自动计算所有的梯度。这个张量的所有梯度将会自动累加到.grad属性. 要阻止一个张量被跟踪历史，可以调用 .detach() 方法将其与计算历史分离，并阻止它未来的计算记录被跟踪。为了防止跟踪历史记录(和使用内存），...

#pytorch

READ

上采样、反卷积与上池化

Deep Learning

2026-01-11

通过卷积和池化等技术可以将图像进行降维，因此，一些研究人员也想办法恢复原分辨率大小的图像，特别是在语义分割领域应用很成熟。 1、Upsampling（上采样）[没有学习过程] 在FCN、Unet等网络结构中，涉及到了上采样。上采样概念：上采样指的是任何可以让图像变成更高分辨率的技术。最简单的方式是重采样和插值：将输入图片进行rescale到一个想要的尺寸，而且计算每个点的像素点，使用如双线性插值等插值方法对其余点进行插值来完成上采样过程。在PyTorch中，上采样的层被封装在torch.nn中的Vision Layers里面，一共有4种： PixelShuffle Upsample UpsamplingNearest2d UpsamplingBilinear2d 0）PixelShuffl...

#DL基础 #CNN

READ

ControlNet

Generative Model

2026-01-11

ControlNet应该算是2023年文生图领域最重要的工作，它让文生图模型Stable Diffusion实现了文本之外的可控生成，让AI绘画实现了质的飞跃。这篇文章我们将简单总结一下ControlNet技术细节。模型设计 ControlNet的模型结构如下所示，这里是直接复制一份SD的上半部分：Encoder和中间的Middle Block。 ControlNet的输入和原始的SD一样，包括noisy latents、time embedding以及text embedding。除此之外，ControlNet还需要引入额外的condition，这个condition是和原图一样大小的图像，比如canny边界图或者人体骨架图。这里并没有像SD那样采用VAE对condition进行编码，而...

#Generating Model #diffusion

READ

SDE和扩散模型

Generative Model

2026-01-11

💡 随机微分在DDPM中，扩散过程被划分为了固定的T步，还是用DDPM中的类比来说，就是“拆楼”和“建楼”都被事先划分为了T步，这个划分有着相当大的人为性。事实上，真实的“拆”、“建”过程应该是没有刻意划分的步骤的，我们可以将它们理解为一个在时间上连续的变换过程，可以用随机微分方程（Stochastic Differential Equation，SDE）来描述。为此，我们用下述SDE描述前向过程（“拆楼”）： [公式] 相信很多读者都对SDE很陌生，笔者也只是在硕士阶段刚好接触过一段时间，略懂皮毛。不过不懂不要紧，我们只需要将它看成是下述离散形式在 [Math] 时的极限： [公式] 再直白一点，如果假设拆楼需要1天，那么拆楼就是 [Math] 从 t=0 到 t=1 的变化过程，每一...

#diffusion #Generating Model #SDE

READ

优化器系列

Deep Learning

2026-01-11

AdamW目前是大语言模型训练的默认优化器，而大部分资料对Adam跟AdamW区别的介绍都不是很明确，在此梳理一下Adam与AdamW的计算流程，明确一下二者的区别。 TLDR：AdamW将优化过程中使用的针对网络权重的衰减项（或者叫正则项）从loss中单独拿了出来，不参与Adam中一二阶动量的计算。下面是二者的详细对比： Adam 首先是Adam，给定在迭代步数 t 时模型的参数 [Math] 与梯度 g_t ，Adam的计算公式如下： [公式] 式(1)用于计算梯度的一阶指数滑动平均式(2)用于计算梯度的二阶项的指数滑动平均式(3)与(4)对计算得到的指数滑动平均值进行消偏式(5)为Adam的更新公式，其可以拆成两部分理解：动量更新与自适应学习率。 AdamW AdamW 相对与...

#DL基础

READ

nn 与 nn.functional

Python

2026-01-11

相同点 nn.Xxx和nn.functional.xxx的实际功能是相同的，即nn.Conv2d和nn.functional.conv2d 都是进行卷积，nn.Dropout 和nn.functional.dropout都是进行dropout，。。。。。；运行效率也是近乎相同。 nn.functional.xxx是函数接口，而nn.Xxx是nn.functional.xxx的类封装，并且nn.Xxx都继承于一个共同祖先nn.Module。这一点导致nn.Xxx除了具有nn.functional.xxx功能之外，内部附带了nn.Module相关的属性和方法，例如train(), eval(),load_state_dict, state_dict 等。不同点两者的调用方式不同。 nn.X...

#pytorch

READ

Stable Diffusion 3

Generative Model

2026-01-11

🔖 https://stability.ai/news/stablediffusion3researchpaper 概述 SD3 模型与训练策略改进细节 SD3除了将去噪网络从 UNet 改成 DiT 外，SD3 还在模型结构与训练策略上做了很多小改进：改变训练时噪声采样方法将一维位置编码改成二维位置编码提升 VAE 隐空间通道数对注意力 QK 做归一化以确保高分辨率下训练稳定本文会简单介绍这些改进。论文阅读核心贡献介绍 Stable Diffusion 3 (SD3) 的文章标题为 Scaling Rectified Flow Transformers for HighResolution Image Synthesis。与其说它是一篇技术报告，更不如说它是一篇论文，因为它...

#flow #diffusion #Generating Model

READ

状态空间模型SSM到Mamba

NLP

2026-01-11

概述 SSM的概念由来已久，但这里我们特指深度学习中的SSM，一般认为其开篇之作是2021年的 S4，不算太老，而SSM最新最火的变体大概是Mamba。当然，当我们谈到SSM时，也可能泛指一切线性RNN模型，这样RWKV、RetNet还有此前LRU都可以归入此类。不少SSM变体致力于成为Transformer的竞争者，尽管笔者并不认为有完全替代的可能性，但SSM本身优雅的数学性质也值得学习一番。尽管我们说SSM起源于S4，但在S4之前，SSM有一篇非常强大的奠基之作《HiPPO: Recurrent Memory with Optimal Polynomial Projections》（简称HiPPO），所以本文从HiPPO开始说起。另外值得一提的是，SSM代表作HiPPO、S4、Mam...

#NLP #Linear Attention

READ

N-Gram

NLP

2026-01-11

1. 什么是NGram模型 NGram是一种基于统计语言模型的算法。它的基本思想是将文本里面的内容按照字节进行大小为N的滑动窗口操作，形成了长度是N的字节片段序列。每一个字节片段称为gram，对所有gram的出现频度进行统计，并且按照事先设定好的阈值进行过滤，形成关键gram列表，也就是这个文本的向量特征空间，列表中的每一种gram就是一个特征向量维度。该模型基于这样一种假设，第N个词的出现只与前面N1个词相关，而与其它任何词都不相关，整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计N个词同时出现的次数得到。常用的是二元的BiGram和三元的TriGram。说完了ngram模型的概念之后，下面讲解ngram的一般应用。 2. NGram模型用于评估语句是否合理如果...

#NLP

READ

词向量与Embedding

NLP

2026-01-11

词向量，英文名叫Word Embedding，按照字面意思，应该是词嵌入。说到词向量，不少读者应该会立马想到Google出品的Word2Vec，大牌效应就是不一样。另外，用Keras之类的框架还有一个Embedding层，也说是将词ID映射为向量。由于先入为主的意识，大家可能就会将词向量跟Word2Vec等同起来，而反过来问“Embedding是哪种词向量？”这类问题，尤其是对于初学者来说，应该是很混淆的。事实上，哪怕对于老手，也不一定能够很好地说清楚。这一切，还得从one hot说起... 五十步笑百步 one hot，中文可以翻译为“独热”，是最原始的用来表示字、词的方式。为了简单，本文以字为例，词也是类似的。假如词表中有“科、学、空、间、不、错”六个字，one hot就是给这六个字分...

#NLP

READ

Object-detection中mAP计算

Computer Vision

2026-01-11

mAP定义及相关概念 mAP: mean Average Precision, 即各类别AP的平均值 AP: PR曲线下面积，后文会详细讲解 PR曲线: PrecisionRecall曲线 Precision: TP / (TP + FP) Recall: TP / (TP + FN) TP: IoU0.5的检测框数量（同一Ground Truth只计算一次） FP: IoU= 0, 0.1, 0.2, ..., 1共11个点时的Precision最大值，然后AP就是这11个Precision的平均值。在VOC2010及以后，需要针对每一个不同的Recall值（包括0和1），选取其大于等于这些Recall值时的Precision最大值，然后计算PR曲线下面积作为AP值。 mAP计算示例假...

#Object Detection #CV #DL基础

READ

CV数据增强

Deep Learning

2026-01-11

Random erasing data augmentation 论文名称：Random erasing data augmentation 论文地址：https://arxiv.org/pdf/1708.04896v2.pdf 随机擦除增强，非常容易理解。作者提出的目的主要是模拟遮挡，从而提高模型泛化能力，这种操作其实非常make sense，因为我把物体遮挡一部分后依然能够分类正确，那么肯定会迫使网络利用局部未遮挡的数据进行识别，加大了训练难度，一定程度会提高泛化能力。其也可以被视为add noise的一种，并且与随机裁剪、随机水平翻转具有一定的互补性，综合应用他们，可以取得更好的模型表现，尤其是对噪声和遮挡具有更好的鲁棒性。具体操作就是：随机选择一个区域，然后采用随机值进行覆盖，模拟遮...

#DL基础 #CV

READ

#

!

INCOMING TRANSMISSION

Autograd

上采样、反卷积与上池化

ControlNet

SDE和扩散模型

优化器系列

nn 与 nn.functional

Stable Diffusion 3

状态空间模型SSM到Mamba

N-Gram

词向量与Embedding

Object-detection中mAP计算

CV数据增强