Deep Learning
2025-01-11
文章从连续情形出发开始介绍重参数,主要的例子是正态分布的重参数;然后引入离散分布的重参数,这就涉及到了Gumbel Softmax,包括Gumbel Softmax的一些证明和讨论;最后再讲讲重参数背后的一些故事,这主要跟梯度估计有关。 基本概念 重参数(Reparameterization)实际上是处理如下期望形式的目标函数的一种技巧: [公式] 这样的目标在VAE中会出现,在文本GAN也会出现,在强化学习中也会出现( f(z) 对应于奖励函数),所以深究下去,我们会经常碰到这样的目标函数。取决于 z 的连续性,它对应不同的形式: [公式] 当然,离散情况下我们更喜欢将记号 z 换成 y 或者 c 。 为了最小化 [Math] ,我们就需要把 [Math] 明确地写出来,这意味着我们要实现...