知识库 -

VQGAN

Generative Model

2025-01-02

2022年中旬，以扩散模型为核心的图像生成模型将AI绘画带入了大众的视野。实际上，在更早的一年之前，就有了一个能根据文字生成高清图片的模型——VQGAN。VQGAN不仅本身具有强大的图像生成能力，更是传承了前作VQVAE把图像压缩成离散编码的思想，推广了「先压缩，再生成」的两阶段图像生成思路，启发了无数后续工作。 VQGAN 核心思想 VQGAN的论文名为 Taming Transformers for HighResolution Image Synthesis，直译过来是「驯服Transformer模型以实现高清图像合成」。可以看出，该方法是在用Transformer生成图像。可是，为什么这个模型叫做VQGAN，是一个GAN呢？这是因为，VQGAN使用了两阶段的图像生成方法：训练时，先...

#GAN #VAE #Generating Model

READ

从Wasserstein距离、对偶理论到WGAN

Generative Model

2025-01-02

本文受启发于著名的国外博文《Wasserstein GAN and the KantorovichRubinstein Duality》，内容跟它大体上相同，但是删除了一些冗余的部分，对不够充分或者含糊不清的地方作了补充。 Wasserstein距离显然，整篇文章必然围绕着Wasserstein距离（ [Math] 距离）来展开。假设我们有了两个概率分布 p(x),q(x) ，那么Wasserstein距离的定义为 [公式] 事实上，这也算是最优传输理论中最核心的定义了。成本函数首先 d(x,y) ，它不一定是距离，其准确含义应该是一个成本函数，代表着从 x 运输到 y 的成本。常用的 d 是基于 l 范数衍生出来的，比如 [公式] 都是常见的选择，其中 [公式] 特别指出，其实哪种距...

#GAN #Generating Model

READ

Generative Adversarial Networks (GAN)

Generative Model

2025-01-02

简介生成对抗网络 (Generative Adversarial Network, GAN) 是由 Goodfellow 于 2014 年提出的一种对抗网络。这个网络框架包含两个部分，一个生成模型 (generative model) 和一个判别模型 (discriminative model)。其中，生成模型可以理解为一个伪造者，试图通过构造假的数据骗过判别模型的甄别；判别模型可以理解为一个警察，尽可能甄别数据是来自于真实样本还是伪造者构造的假数据。两个模型都通过不断的学习提高自己的能力，即生成模型希望生成更真的假数据骗过判别模型，而判别模型希望能学习如何更准确的识别生成模型的假数据。网络框架 GAN 由两部分构成，一个生成器 (Generator) 和一个判别器 (Discrimin...

#GAN #Generating Model

READ

INCOMING TRANSMISSION

VQGAN

从Wasserstein距离、对偶理论到WGAN

Generative Adversarial Networks (GAN)