INCOMING TRANSMISSION

LATEST UPDATES
2022年中旬,以扩散模型为核心的图像生成模型将AI绘画带入了大众的视野。实际上,在更早的一年之前,就有了一个能根据文字生成高清图片的模型——VQGAN。VQGAN不仅本身具有强大的图像生成能力,更是传承了前作VQVAE把图像压缩成离散编码的思想,推广了「先压缩,再生成」的两阶段图像生成思路,启发了无数后续工作。 VQGAN 核心思想 VQGAN的论文名为 Taming Transformers for HighResolution Image Synthesis,直译过来是「驯服Transformer模型以实现高清图像合成」。可以看出,该方法是在用Transformer生成图像。可是,为什么这个模型叫做VQGAN,是一个GAN呢?这是因为,VQGAN使用了两阶段的图像生成方法: 训练时,先...
本文受启发于著名的国外博文《Wasserstein GAN and the KantorovichRubinstein Duality》,内容跟它大体上相同,但是删除了一些冗余的部分,对不够充分或者含糊不清的地方作了补充。 Wasserstein距离 显然,整篇文章必然围绕着Wasserstein距离( [Math] 距离)来展开。假设我们有了两个概率分布 p(x),q(x) ,那么Wasserstein距离的定义为 [公式] 事实上,这也算是最优传输理论中最核心的定义了。 成本函数 首先 d(x,y) ,它不一定是距离,其准确含义应该是一个成本函数,代表着从 x 运输到 y 的成本。常用的 d 是基于 l 范数衍生出来的,比如 [公式] 都是常见的选择,其中 [公式] 特别指出,其实哪种距...
简介 生成对抗网络 (Generative Adversarial Network, GAN) 是由 Goodfellow 于 2014 年提出的一种对抗网络。这个网络框架包含两个部分,一个生成模型 (generative model) 和一个判别模型 (discriminative model)。其中,生成模型可以理解为一个伪造者,试图通过构造假的数据骗过判别模型的甄别;判别模型可以理解为一个警察,尽可能甄别数据是来自于真实样本还是伪造者构造的假数据。两个模型都通过不断的学习提高自己的能力,即生成模型希望生成更真的假数据骗过判别模型,而判别模型希望能学习如何更准确的识别生成模型的假数据。 网络框架 GAN 由两部分构成,一个生成器 (Generator) 和一个判别器 (Discrimin...