知识库 - Orange

从Wasserstein距离、对偶理论到WGAN

2026-03-03

本文受启发于著名的国外博文《Wasserstein GAN and the Kantorovich-Rubinstein Duality》，内容跟它大体上相同，但是删除了一些冗余的部分，对不够充分或者含糊不清的地方作了补充。 Wasserstein距离显然，整篇文章必然围绕着Wasserstein距离（ \(\mathcal{W}\) 距离）来展开。假设我们有了两个概率分布 \(p(x),q(x)\) ，那么Wasserstein距离的定义为 \[\mathcal{W}[p,q]=\inf_{\gamma\in \Pi[p,q]} \iint \gamma(\boldsymbol{x},\boldsymbol{y}) d(\boldsymbol{x},\boldsymbol{y}) d\boldsymbol{x}d\boldsymbol{y}\] 事实上，这也算是最优传输理论中最核心的定义了。成本函数首先 \(d(x,y)\) ，它不一定是距离，其准确含义应该是一个成本函数，代表着从 \(x\) 运输到 \(y\) 的成本。常用的 \(d\) 是基于 \(l\)...

#GAN #Generating Model

READ

上采样、反卷积与上池化

Deep Learning

2026-03-02

通过卷积和池化等技术可以将图像进行降维，因此，一些研究人员也想办法恢复原分辨率大小的图像，特别是在语义分割领域应用很成熟。 Upsampling（上采样）[没有学习过程] 在FCN、U-net等网络结构中，涉及到了上采样。上采样概念：上采样指的是任何可以让图像变成更高分辨率的技术。最简单的方式是重采样和插值：将输入图片进行rescale到一个想要的尺寸，而且计算每个点的像素点，使用如双线性插值等插值方法对其余点进行插值来完成上采样过程。在PyTorch中，上采样的层被封装在 torch.nn 中的 Vision Layers 里面，一共有4种： PixelShuffle Upsample UpsamplingNearest2d UpsamplingBilinear2d PixelShuffle 当stride = (1/r) < 1时，可以让卷积后的feature map变大——即分辨率变大，这个新的操作叫做sub-pixel convolution，具体原理可以看 “PixelShuffle：Real-Time Single Image and Video...

#CNN #DL基础

READ

卷积总结

Deep Learning

2026-02-28

现代深度学习库对大多数操作都具有生产级的、高度优化的实现，这并不奇怪。但这些库究竟是什么魔法？他们如何能够将性能提高100倍？究竟怎样才能“优化”或加速神经网络的运行呢？在讨论高性能/高效DNNs时，我经常会问(也经常被问到)这些问题。在这篇文章中，我将尝试带你了解在DNN库中卷积层是如何实现的。它不仅是在模型中最常见的和最重的操作，我还发现卷积高性能实现的技巧特别具有代表性——一点点算法的小聪明，非常多的仔细的调优和低层架构的开发。我在这里介绍的很多内容都来自Goto等人的开创性论文：Anatomy of a high-performance matrix multiplication，该论文为OpenBLAS等线性代数库中使用的算法奠定了基础。最原始的卷积实现 “过早的优化是万恶之源”——Donald Knuth 在进行优化之前，我们先了解一下基线和瓶颈。这是一个朴素的numpy/for循环卷积： ''' Convolve `input` with `kernel` to generate `output` input.shape =...

#CNN #DL基础

READ

VQGAN

Generative Model

2026-01-18

2022年中旬，以扩散模型为核心的图像生成模型将AI绘画带入了大众的视野。实际上，在更早的一年之前，就有了一个能根据文字生成高清图片的模型——VQGAN。VQGAN不仅本身具有强大的图像生成能力，更是传承了前作VQVAE把图像压缩成离散编码的思想，推广了「先压缩，再生成」的两阶段图像生成思路，启发了无数后续工作。 VQGAN 核心思想 VQGAN的论文名为 Taming Transformers for High-Resolution Image Synthesis，直译过来是「驯服Transformer模型以实现高清图像合成」。可以看出，该方法是在用Transformer生成图像。可是，为什么这个模型叫做VQGAN，是一个GAN呢？这是因为，VQGAN使用了两阶段的图像生成方法：训练时，先训练一个图像压缩模型（包括编码器和解码器两个子模型），再训练一个生成压缩图像的模型。生成时，先用第二个模型生成出一个压缩图像，再用第一个模型复原成真实图像。其中，第一个图像压缩模型叫做VQGAN，第二个压缩图像生成模型是一个基于Transformer的模型。...

#GAN #VAE #Generating Model

READ

Generative Adversarial Networks (GAN)

Generative Model

2026-01-18

简介生成对抗网络 ( Generative Adversarial Network, GAN ) 是由 Goodfellow 于 2014 年提出的一种对抗网络。这个网络框架包含两个部分，一个生成模型 (generative model) 和一个判别模型 (discriminative model)。其中，生成模型可以理解为一个伪造者，试图通过构造假的数据骗过判别模型的甄别；判别模型可以理解为一个警察，尽可能甄别数据是来自于真实样本还是伪造者构造的假数据。两个模型都通过不断的学习提高自己的能力，即生成模型希望生成更真的假数据骗过判别模型，而判别模型希望能学习如何更准确的识别生成模型的假数据。网络框架 GAN 由两部分构成，一个生成器 ( Generator ) 和一个判别器 ( Discriminator )。对于生成器，我们需要学习关于数据 \(x\) 的一个分布 \(p_g\) ，首先定义一个输入数据的先验分布 \(p_z(z)\) ，其次定义一个映射 \(G \left(\boldsymbol{z}; \theta_g\right): \boldsymbol{z}...

#Generating Model #GAN

READ

#

!

INCOMING TRANSMISSION

从Wasserstein距离、对偶理论到WGAN

上采样、反卷积与上池化

卷积总结

VQGAN

Generative Adversarial Networks (GAN)