知识库 - Orange

SigLIP系列

Large Model

2026-01-23

SigLIP 概述 CLIP自提出以来在zero-shot分类、跨模态搜索、多模态对齐等多个领域得到广泛应用。得益于其令人惊叹的能力，激起了研究者广泛的关注和优化。目前对CLIP的优化主要可以分为两大类：其一是如何降低CLIP的训练成本；其二是如何提升CLIP的performance。对于第一类优化任务的常见思路有3种。优化训练架构，如 LiT 通过freezen image encoder，单独训练text encoder来进行text 和image的对齐来加速训练；减少训练token，如 FLIP 通过引入视觉mask，通过只计算非mask区域的视觉表征来实现加速（MAE中的思路）优化目标函数，如 CatLIP 将caption转为class label，用分类任务来代替对比学习任务来实现加速。对于第二类提升CLIP的performance最常用和有效的手段就是数据治理，即构建高质量、大规模、高多样性的图文数据，典型的工作如：DFN。 SigLIP这篇paper 提出用sigmoid...

#VLM #pretrain

READ

BLIP系列：统一理解和生成的自举多模态模型

Large Model

2026-01-22

BLIP 论文名称：BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation (ICML 2022) 论文地址： https://arxiv.org/pdf/2201.12086.pdf 代码地址： https://github.com/salesforce/BLIP 官方解读博客： https://blog.salesforceairesearch.com/blip-bootstrapping-language-image-pretraining/ 背景和动机视觉语言训练 (Vision-Language Pre-training, VLP) 最近在各种多模态下游任务上取得了巨大的成功。然而，现有方法有两个主要限制：模型层面：大多数现有的预训练模型仅在基于理解的任务或者基于生成的任务方面表现出色，很少有可以兼顾的模型。比如，基于编码器的模型，像 CLIP，ALBEF 不能直接转移到文本生成任务...

#pretrain #VLM

READ

CLIP

Large Model

2026-01-22

CLIP算法原理 CLIP 不预先定义图像和文本标签类别，直接利用从互联网爬取的 400 million 个image-text pair 进行图文匹配任务的训练，并将其成功迁移应用于30个现存的计算机视觉分类。简单的说，CLIP 无需利用 ImageNet 的数据和标签进行训练，就可以达到 ResNet50 在 ImageNet数据集上有监督训练的结果，所以叫做 Zero-shot。 CLIP（contrastive language-image pre-training）主要的贡献就是利用无监督的文本信息，作为监督信号来学习视觉特征。 CLIP 作者先是回顾了并总结了和上述相关的两条表征学习路线：构建image和text的联系，比如利用已有的image-text pair数据集，从text中学习image的表征；获取更多的数据（不要求高质量，也不要求full...

#pretrain #VLM

READ

VQGAN

Generative Model

2026-01-18

2022年中旬，以扩散模型为核心的图像生成模型将AI绘画带入了大众的视野。实际上，在更早的一年之前，就有了一个能根据文字生成高清图片的模型——VQGAN。VQGAN不仅本身具有强大的图像生成能力，更是传承了前作VQVAE把图像压缩成离散编码的思想，推广了「先压缩，再生成」的两阶段图像生成思路，启发了无数后续工作。 VQGAN 核心思想 VQGAN的论文名为 Taming Transformers for High-Resolution Image Synthesis，直译过来是「驯服Transformer模型以实现高清图像合成」。可以看出，该方法是在用Transformer生成图像。可是，为什么这个模型叫做VQGAN，是一个GAN呢？这是因为，VQGAN使用了两阶段的图像生成方法：训练时，先训练一个图像压缩模型（包括编码器和解码器两个子模型），再训练一个生成压缩图像的模型。生成时，先用第二个模型生成出一个压缩图像，再用第一个模型复原成真实图像。其中，第一个图像压缩模型叫做VQGAN，第二个压缩图像生成模型是一个基于Transformer的模型。...

#VAE #Generating Model #GAN

READ

从Wasserstein距离、对偶理论到WGAN

Generative Model

2026-01-18

本文受启发于著名的国外博文《Wasserstein GAN and the Kantorovich-Rubinstein Duality》，内容跟它大体上相同，但是删除了一些冗余的部分，对不够充分或者含糊不清的地方作了补充。 Wasserstein距离显然，整篇文章必然围绕着Wasserstein距离（ \(\mathcal{W}\) 距离）来展开。假设我们有了两个概率分布 \(p(x),q(x)\) ，那么Wasserstein距离的定义为 \[\mathcal{W}[p,q]=\inf_{\gamma\in \Pi[p,q]} \iint \gamma(\boldsymbol{x},\boldsymbol{y}) d(\boldsymbol{x},\boldsymbol{y}) d\boldsymbol{x}d\boldsymbol{y}\] 事实上，这也算是最优传输理论中最核心的定义了。成本函数首先 \(d(x,y)\) ，它不一定是距离，其准确含义应该是一个成本函数，代表着从 \(x\) 运输到 \(y\) 的成本。常用的 \(d\) 是基于 \(l\)...

#Generating Model #GAN

READ

Generative Adversarial Networks (GAN)

Generative Model

2026-01-18

简介生成对抗网络 ( Generative Adversarial Network, GAN ) 是由 Goodfellow 于 2014 年提出的一种对抗网络。这个网络框架包含两个部分，一个生成模型 (generative model) 和一个判别模型 (discriminative model)。其中，生成模型可以理解为一个伪造者，试图通过构造假的数据骗过判别模型的甄别；判别模型可以理解为一个警察，尽可能甄别数据是来自于真实样本还是伪造者构造的假数据。两个模型都通过不断的学习提高自己的能力，即生成模型希望生成更真的假数据骗过判别模型，而判别模型希望能学习如何更准确的识别生成模型的假数据。网络框架 GAN 由两部分构成，一个生成器 ( Generator ) 和一个判别器 ( Discriminator )。对于生成器，我们需要学习关于数据 \(x\) 的一个分布 \(p_g\) ，首先定义一个输入数据的先验分布 \(p_z(z)\) ，其次定义一个映射 \(G \left(\boldsymbol{z}; \theta_g\right): \boldsymbol{z}...

#Generating Model #GAN

READ

从DPG到DDPG

Reinforcement Learning

2026-01-11

引言 DDPG同样使用了ActorCritic的结构，Deterministic的确定性策略是和随机策略相对而言的，对于某一些动作集合来说，它可能是连续值，或者非常高维的离散值，这样动作的空间维度极大。如果我们使用随机策略，即像DQN一样研究它所有的可能动作的概率，并计算各个可能的动作的价值的话，那需要的样本量是非常大才可行的。于是有人就想出使用确定性策略来简化这个问题。作为随机策略，在相同的策略，在同一个状态 s 处，采用的动作 [Math] 是基于一个概率分布的，即是不确定的。而确定性策略则决定简单点，虽然在同一个状态处，采用的动作概率不同，但是最大概率只有一个，如果我们只取最大概率的动作，去掉这个概率分布，那么就简单多了。即作为确定性策略，相同的策略，在同一个状态处，动作是唯一确定的...

#Reinforcement Learning #Policy Gradient

READ

Actor-Critic Methods

Reinforcement Learning

2026-01-11

概述与理论背景 ActorCritic方法是强化学习中的一类重要算法，它巧妙地结合了基于策略(policybased)和基于价值(valuebased)的方法。在这种结构中，"Actor"指策略更新步骤，负责根据策略执行动作；而"Critic"指价值更新步骤，负责评估Actor的表现。从另一个角度看，ActorCritic方法本质上仍是策略梯度算法，可以通过扩展策略梯度算法获得。 ActorCritic方法在强化学习中的位置非常重要，它既保留了策略梯度方法直接优化策略的优势，又利用了值函数方法的效率。这种结合使得ActorCritic方法成为解决复杂强化学习问题的强大工具。最简单的ActorCritic算法(QAC) QAC算法通过扩展策略梯度方法得到。策略梯度方法的核心思想是通过最大化标...

#Reinforcement Learning #Policy Gradient

READ

Kimi k1.5—CoT强化训练

Large Model

2026-01-11

概述 Kimi k1.5采用了一种简化而有效的强化学习框架，其核心在于长上下文扩展和改进的策略优化方法，而不依赖于更复杂的技术如蒙特卡洛树搜索、价值函数和过程奖励模型。问题设定给定训练数据集 D = \{(x_i, y^_i)\}_{i=1}^n ，其中包含问题 x_i 和对应的真实答案 y^_i ，目标是训练一个策略模型 [Math] 来准确解决测试问题。在复杂推理场景中，思维链(CoT)方法提出使用一系列中间步骤 z = (z_1, z_2, ..., z_m) 来连接问题 x 和答案 y ，每个 z_i 是解决问题的重要中间步骤。当解决问题 x 时，思维 [Math] 被自回归采样，最终答案 [Math] 。强化学习目标基于真实答案 y^ ，分配一个值 [Math] , Ki...

#LLM #Large Model #Policy Gradient #Reinforcement Learning

READ

Policy Gradient 优化：TRPO，PPO

Reinforcement Learning

2026-01-11

💡 引言 Trust Region Policy Optimization (TRPO) 是2015年的ICML会议上提出的一种强大的基于策略的强化学习算法。TRPO 解决了传统策略梯度方法中的一些关键问题，特别是训练不稳定和步长选择困难的问题。与传统策略梯度算法相比，TRPO 具有更高的稳健性和样本效率，能够在复杂环境中取得更好的性能。优化基础在深入了解 TRPO 之前，我们需要先简单回顾一些优化方法的基础知识。梯度上升法梯度上升法是一种迭代优化算法，用于寻找函数的局部最大值。目标：找到使目标函数 [Math] 最大化的参数 [Math] ： [公式] 梯度上升迭代过程： 1. 在当前参数 [Math] 处计算梯度： [Math] 1. 更新参数：梯度上升法的主要问题是学习率的...

#Reinforcement Learning #Policy Gradient

READ

策略梯度方法（Policy Gradient Methods）

Reinforcement Learning

2026-01-11

引言与背景策略梯度方法是强化学习中的一种重要方法，它标志着从基于价值的方法向基于策略的方法的重要转变。之前我们主要讨论了基于价值的方法（valuebased），而策略梯度方法则直接优化策略函数(policybased)，这是一个重要的进步。当策略用函数表示时，策略梯度方法的核心思想是通过优化某些标量指标来获得最优策略。与传统的表格表示策略不同，策略梯度方法使用参数化函数 [Math] 来表示策略，其中 [Math] 是参数向量。这种表示方法也可以写成其他形式，如 [Math] 、 [Math] 或 [Math] 。策略梯度方法具有多种优势：更高效地处理大型状态/动作空间具有更强的泛化能力样本使用效率更高策略表示：从表格到函数当策略的表示从表格转变为函数时，存在以下几个关键区别...

#Policy Gradient #Reinforcement Learning

READ

GRPO(Group Relative Policy Optimization)

Reinforcement Learning

2026-01-11

GRPO(Group Relative Policy Optimization)

💡 GRPO相比PPO主要优势：背景 GRPO是 DeepSeekMath model中提出的对PPO方法的改进策略：强化学习(RL)在提升模型数学推理能力方面被证明是有效的传统PPO算法需要较大训练资源 GRPO作为PPO的变体被提出,可以更高效地优化模型 PPO回顾 PPO的目标函数为: [公式] 其中: [Math] 和 [Math] 分别是当前和旧策略模型 A_t 是优势函数 [Math] 是裁剪相关的超参数模型训练如图1上所示，PPO需要同时训练一个Value Model [Math] 和策略模型，同时需要reference model（通常从SFT model初始化）来限制策略模型训练保持和reference model的行为接近，而 Reward model用来计算...

#Reinforcement Learning #Policy Gradient #LLM

READ

#

!

INCOMING TRANSMISSION

SigLIP系列

BLIP系列：统一理解和生成的自举多模态模型

CLIP

VQGAN

从Wasserstein距离、对偶理论到WGAN

Generative Adversarial Networks (GAN)

从DPG到DDPG

Actor-Critic Methods

Kimi k1.5—CoT强化训练

Policy Gradient 优化：TRPO，PPO

策略梯度方法（Policy Gradient Methods）

GRPO(Group Relative Policy Optimization)