知识库 - Orange

GRPO(Group Relative Policy Optimization)

2026-01-11

💡 GRPO相比PPO主要优势：背景 GRPO是 DeepSeekMath model中提出的对PPO方法的改进策略：强化学习(RL)在提升模型数学推理能力方面被证明是有效的传统PPO算法需要较大训练资源 GRPO作为PPO的变体被提出,可以更高效地优化模型 PPO回顾 PPO的目标函数为: [公式] 其中: [Math] 和 [Math] 分别是当前和旧策略模型 A_t 是优势函数 [Math] 是裁剪相关的超参数模型训练如图1上所示，PPO需要同时训练一个Value Model [Math] 和策略模型，同时需要reference model（通常从SFT model初始化）来限制策略模型训练保持和reference model的行为接近，而 Reward model用来计算...

#Policy Gradient #LLM #Reinforcement Learning

READ

投机采样

Large Model

2026-01-11

概述投机解码（Speculative Decoding）也叫预测解码/投机采样，它会利用小模型来预测大型模型的行为，从而提升模型在解码（decoding）阶段的解码效率问题，加速大型模型的执行。其核心思路如下图所示，首先以低成本的方式（以小模型为主，也有多头，检索，Early Exit 等方式）快速生成多个候选 Token（串行序列、树、多头树等），然后通过一次并行验证阶段快速验证多个 Token的正确性，只要平均每个 Step 验证的 Token 数 1，就可以一次性生成多个token，进而减少总的 Decoding 步数，实现加速的目的。下图左侧是自回归解码模型，右侧是投机解码机制。从本质上来说，投机解码希望在推理阶段在不大幅度改变模型的情况下，通过更好利用冗余算力来并行"投机"地...

#LLM #Acceleration

READ

RLHF in LLM

Reinforcement Learning

2026-01-11

引言大语言模型（LLMs）在近年来取得了显著进展，展现出上下文学习、指令跟随和逐步推理等突出特性。然而，由于这些模型是在包含高质量和低质量数据的预训练语料库上训练的，它们可能会表现出编造事实、生成有偏见或有毒文本等意外行为。因此，将LLMs与人类价值观对齐变得至关重要，特别是在帮助性、诚实性和无害性（3H）方面。基于人类反馈的强化学习（RLHF）已被验证为有效的对齐方法，但训练过程复杂且不稳定。本文深入分析了RLHF框架，特别是PPO算法的内部工作原理，并提出了PPOmax算法，以提高策略模型训练的稳定性和效果。 RLHF的基本框架 RLHF训练过程包括三个主要阶段： 1. 监督微调（SFT）：模型通过模仿人类标注的对话示例来学习一般的人类对话方式，优化模型的指令跟随能力 1. 奖励模...

#Reinforcement Learning #Policy Gradient #LLM

READ

Softmax-based Loss的演化史

Computer Vision

2026-01-11

近期，人脸识别研究领域的主要进展之一集中在了 Softmax Loss 的改进之上；本文从两种主要的改进方式——做归一化以及增加类间 margin——展开梳理，介绍了近年来基于 Softmax 的 Loss 的研究进展。 Softmax简介 Softmax Loss 因为其易于优化，收敛快等特性被广泛应用于图像分类领域。然而，直接使用 softmax loss 训练得到的 feature 拿到 retrieval，verification 等“需要设阈值”的任务时，往往并不够好。这其中的原因还得从 Softmax 的本身的定义说起，Softmax loss 在形式上是 softmax 函数加上交叉熵损失，它的目的是让所有的类别在概率空间具有最大的对数似然，也就是保证所有的类别都能分类正确，...

#人脸识别 #CV

READ

#

!

INCOMING TRANSMISSION

GRPO(Group Relative Policy Optimization)

投机采样

RLHF in LLM

Softmax-based Loss的演化史