知识库 - Orange

RLHF in LLM

2026-03-31

引言大语言模型（LLMs）在近年来取得了显著进展，展现出上下文学习、指令跟随和逐步推理等突出特性。然而，由于这些模型是在包含高质量和低质量数据的预训练语料库上训练的，它们可能会表现出编造事实、生成有偏见或有毒文本等意外行为。因此，将LLMs与人类价值观对齐变得至关重要，特别是在帮助性、诚实性和无害性（3H）方面。基于人类反馈的强化学习（RLHF）已被验证为有效的对齐方法，但训练过程复杂且不稳定。本文深入分析了RLHF框架，特别是PPO算法的内部工作原理，并提出了PPO-max算法，以提高策略模型训练的稳定性和效果。 RLHF的基本框架 RLHF训练过程包括三个主要阶段：监督微调（SFT）：模型通过模仿人类标注的对话示例来学习一般的人类对话方式，优化模型的指令跟随能力奖励模型（RM）训练：模型学习基于人类反馈比较不同回复的偏好近端策略优化（PPO）：模型基于奖励模型的反馈进行更新，通过探索和利用来发现优化的策略奖励建模（Reward Model）奖励模型使用预训练的基于Transformer的语言模型，...

#Reinforcement Learning #LLM #Policy Gradient

READ

Policy Gradient 优化：TRPO，PPO

Reinforcement Learning

2026-03-31

概念符号定义来源用途特点 Reward \(r_t\) 即时奖励环境基础信号局部、即时 Return \(G_t\) \(Σ γ^k·r_{t+k}\) 计算 Value训练目标实际、高方差 Value \(V(s)\) \(E[G_t|s_t=s]\) 模型状态评估预测、期望 Q-Value \(Q(s,a)\) \(E[G_t|s_t=s,a_t=a]\) 模型动作评估更细粒度 Advantage \(A(s,a)\) \(Q(s,a) - V(s)\) 计算 Policy更新相对、低方差 GAE \(GAE(λ)\) 加权Advantage 算法优势估计平衡bias-variance 引言 Trust Region Policy Optimization (TRPO) 是2015年的ICML会议上提出的一种强大的基于策略的强化学习算法。TRPO 解决了传统策略梯度方法中的一些关键问题，特别是训练不稳定和步长选择困难的问题。与传统策略梯度算法相比，TRPO 具有更高的稳健性和样本效率，能够在复杂环境中取得更好的性能。优化基础...

#Policy Gradient #Reinforcement Learning

READ

Actor-Critic Methods

Reinforcement Learning

2026-03-31

概述与理论背景 Actor-Critic方法是强化学习中的一类重要算法，它巧妙地结合了基于策略(policy-based)和基于价值(value-based)的方法。在这种结构中， "Actor"指策略更新步骤，负责根据策略执行动作；而"Critic"指价值更新步骤，负责评估Actor的表现。从另一个角度看，Actor-Critic方法本质上仍是策略梯度算法，可以通过扩展策略梯度算法获得。 Actor-Critic方法在强化学习中的位置非常重要，它既保留了策略梯度方法直接优化策略的优势，又利用了值函数方法的效率。这种结合使得Actor-Critic方法成为解决复杂强化学习问题的强大工具。最简单的Actor-Critic算法(QAC) QAC算法通过扩展策略梯度方法得到。策略梯度方法的核心思想是通过最大化标量度量 \(J(\theta)\) 来搜索最优策略。其梯度上升算法为： \[\begin{equation}\begin{aligned}\theta_{t+1} &= \theta_t + \alpha\nabla_\theta J(\theta_t)\\&=...

#Policy Gradient #Reinforcement Learning

READ

策略梯度方法（Policy Gradient Methods）

Reinforcement Learning

2026-03-31

引言与背景策略梯度方法是强化学习中的一种重要方法，它标志着从基于价值的方法向基于策略的方法的重要转变。之前我们主要讨论了基于价值的方法（value-based），而策略梯度方法则直接优化策略函数(policy-based)，这是一个重要的进步。当策略用函数表示时，策略梯度方法的核心思想是通过优化某些标量指标来获得最优策略。与传统的表格表示策略不同，策略梯度方法使用参数化函数 \(\pi(a|s, \theta)\) 来表示策略，其中 \(\theta \in \mathbb{R}^m\) 是参数向量。这种表示方法也可以写成其他形式，如 \(\pi_\theta(a|s)\) 、 \(\pi_\theta(a, s)\) 或 \(\pi(a, s, \theta)\) 。策略梯度方法具有多种优势：更高效地处理大型状态/动作空间具有更强的泛化能力样本使用效率更高策略表示：从表格到函数当策略的表示从表格转变为函数时，存在以下几个关键区别：最优策略的定义：表格表示：最优策略是使每个状态值最大化的策略函数表示：最优策略是使某些标量指标最大化的策略策略更新方式：...

#Reinforcement Learning #Policy Gradient

READ

从DPG到DDPG

Reinforcement Learning

2026-03-30

引言 DDPG同样使用了Actor-Critic的结构，Deterministic的确定性策略是和随机策略相对而言的，对于某一些动作集合来说，它可能是连续值，或者非常高维的离散值，这样动作的空间维度极大。如果我们使用随机策略，即像DQN一样研究它所有的可能动作的概率，并计算各个可能的动作的价值的话，那需要的样本量是非常大才可行的。于是有人就想出使用确定性策略来简化这个问题。作为随机策略，在相同的策略，在同一个状态 \(s\) 处，采用的动作 \(\pi_\theta(a|s)\) 是基于一个概率分布的，即是不确定的。而确定性策略则决定简单点，虽然在同一个状态处，采用的动作概率不同，但是最大概率只有一个，如果我们只取最大概率的动作，去掉这个概率分布，那么就简单多了。即作为确定性策略，相同的策略，在同一个状态处，动作是唯一确定的，即策略变成 \[a = \mu(s, \theta)\] 所以DDPG基于确定性策略梯度(DPG)算法，结合了DQN的成功经验。使用回放缓冲区中的样本进行离策略训练，以减少样本之间的相关性使用目标Q网络在时序差分更新过程中提供一致的目标...

#Reinforcement Learning #Policy Gradient

READ

GRPO(Group Relative Policy Optimization)

Reinforcement Learning

2026-03-27

GRPO(Group Relative Policy Optimization)

💡 GRPO相比PPO主要优势： 1. 训练更稳定引入 KL 散度惩罚项，有效控制策略更新的幅度，避免策略崩溃，提高训练的稳定性 GRPO用组内相对优势替代value model，消除了value估计误差通过组内归一化，自动消除reward scale和bias的影响实验中发现GRPO的advantage方差比PPO小30%左右，训练崩溃率更低 2. 工程更简单只需要1-2个模型（policy + reference），而PPO需要4个显存占用减少50%以上，训练速度提升2-3倍超参数更少，更容易调优 3. 相对奖励机制通过对同一输入生成的多个输出进行比较，GRPO 能够更稳定地估计优势函数，减少了训练过程中的方差背景 GRPO是 DeepSeek-Math model中提出的对PPO方法的改进策略：强化学习(RL)在提升模型数学推理能力方面被证明是有效的传统PPO算法需要较大训练资源 GRPO作为PPO的变体被提出,可以更高效地优化模型 PPO Vs GRPO PPO回顾 PPO的目标函数为: \[\begin{aligned}J_{PPO}(\theta) =...

#LLM #Policy Gradient #Reinforcement Learning

READ

词向量与Embedding

NLP

2026-03-26

词向量，英文名叫Word Embedding，按照字面意思，应该是词嵌入。说到词向量，不少读者应该会立马想到Google出品的Word2Vec，大牌效应就是不一样。另外，用Keras之类的框架还有一个Embedding层，也说是将词ID映射为向量。由于先入为主的意识，大家可能就会将词向量跟Word2Vec等同起来，而反过来问“Embedding是哪种词向量？”这类问题，尤其是对于初学者来说，应该是很混淆的。事实上，哪怕对于老手，也不一定能够很好地说清楚。这一切，还得从one hot说起... 五十步笑百步 one hot，中文可以翻译为“独热”，是最原始的用来表示字、词的方式。为了简单，本文以字为例，词也是类似的。假如词表中有“科、学、空、间、不、错”六个字，one hot就是给这六个字分别用一个0-1编码： \[\begin{array}{c|c}\hline\text{科} & [1, 0, 0, 0, 0, 0]\\ \text{学} & [0, 1, 0, 0, 0, 0]\\ \text{空} & [0, 0, 1, 0, 0, 0]\\ \text{间} &...

#NLP

READ

N-Gram

NLP

2026-03-26

什么是N-Gram模型 N-Gram是一种基于统计语言模型的算法。它的基本思想是将文本里面的内容按照字节进行大小为 \(N\) 的滑动窗口操作，形成了长度是 \(N\) 的字节片段序列。每一个字节片段称为gram，对所有gram的出现频度进行统计，并且按照事先设定好的阈值进行过滤，形成关键gram列表，也就是这个文本的向量特征空间，列表中的每一种gram就是一个特征向量维度。该模型基于这样一种假设，第 \(N\) 个词的出现只与前面 \(N-1\) 个词相关，而与其它任何词都不相关，整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计 \(N\) 个词同时出现的次数得到。常用的是二元的Bi-Gram和三元的Tri-Gram。说完了n-gram模型的概念之后，下面讲解n-gram的一般应用。 N -Gram模型用于评估语句是否合理如果我们有一个由 m 个词组成的序列（或者说一个句子），我们希望算得概率 \(p(w_1,w_2,...,w_m)\) ，根据链式规则，可得...

#NLP

READ

状态空间模型SSM到Mamba

NLP

2026-03-26

概述 SSM的概念由来已久，但这里我们特指深度学习中的SSM，一般认为其开篇之作是2021年的 S4 ，不算太老，而SSM最新最火的变体大概是 Mamba 。当然，当我们谈到SSM时，也可能泛指一切线性RNN模型，这样 RWKV 、 RetNet 还有此前LRU都可以归入此类。不少SSM变体致力于成为Transformer的竞争者，尽管笔者并不认为有完全替代的可能性，但SSM本身优雅的数学性质也值得学习一番。尽管我们说SSM起源于S4，但在S4之前，SSM有一篇非常强大的奠基之作《HiPPO: Recurrent Memory with Optimal Polynomial Projections》（简称HiPPO），所以本文从HiPPO开始说起。另外值得一提的是，SSM代表作HiPPO、S4、Mamba的一作都是 Albert Gu ，他还有很多篇SSM相关的作品，毫不夸张地说，这些工作筑起了SSM大厦的基础。不论SSM前景如何，这种坚持不懈地钻研同一个课题的精神都值得我们由衷地敬佩。今天，基本上你能叫出的任何语言模型都是 Transformer 模型。OpenAI 的...

#NLP #Linear Attention

READ

Transformer结构及其应用

NLP

2026-03-25

取代RNN——Transformer 在介绍Transformer前我们来回顾一下RNN的结构对RNN有一定了解的话，一定会知道，RNN有两个很明显的问题效率问题：需要逐个词进行处理，后一个词要等到前一个词的隐状态输出以后才能开始处理如果传递距离过长还会有梯度消失、梯度爆炸和遗忘问题为了缓解传递间的梯度和遗忘问题，设计了各种各样的RNN cell，最著名的两个就是LSTM和GRU了 LSTM (Long Short Term Memory) GRU (Gated Recurrent Unit) 但是，引用网上一个博主的比喻，这么做就像是在给马车换车轮，为什么不直接换成汽车呢？于是就有了 Transformer 。Transformer 是Google Brain 2017的提出的一篇工作，它针对RNN的弱点进行重新设计，解决了RNN效率问题和传递中的缺陷等，在很多问题上都超过了RNN的表现。Transfromer的基本结构如下图所示，...

#NLP #transformer

READ

RNN与LSTM

NLP

2026-03-23

RNN 概述在前面讲到的DNN和CNN中，训练样本的输入和输出是比较的确定的。但是有一类问题DNN和CNN不好解决，就是训练样本输入是连续的序列,且序列的长短不一，比如基于时间的序列：一段段连续的语音，一段段连续的手写文字。这些序列比较长，且长度不一，比较难直接的拆分成一个个独立的样本来通过DNN/CNN进行训练。而对于这类问题，RNN则比较的擅长。那么RNN是怎么做到的呢？RNN假设我们的样本是基于序列的。比如是从序列索引1到序列索引 \(τ\) 。对于这其中的任意序列索引号 \(t\) ,它对应的输入是对应的样本序列中的 \(x(t)\) 。而模型在序列索引号 \(t\) 位置的隐藏状态 \(h(t)\) ，则由 \(x(t)\) 和在 \(t−1\) 位置的隐藏状态 \(h(t−1)\) 共同决定。在任意序列索引号 \(t\) ，我们也有对应的模型预测输出 \(o(t)\) 。通过预测输出 \(o(t)\) 和训练序列真实输出 \(y(t)\) ,以及损失函数 \(L(t)\) ，我们就可以用DNN类似的方法来训练模型，接着用来预测测试序列中的一些位置的输出。...

#NLP

READ

Word2Vec 之 Skip-Gram 模型

NLP

2026-03-23

什么是Word2Vec和Embeddings？ Word2Vec是从大量文本语料中以无监督的方式学习语义知识的一种模型，它被大量地用在自然语言处理（NLP）中。那么它是如何帮助我们做自然语言处理呢？Word2Vec其实就是通过学习文本来用词向量的方式表征词的语义信息，即通过一个嵌入空间使得语义上相似的单词在该空间内距离很近。Embedding其实就是一个映射，将单词从原先所属的空间映射到新的多维空间中，也就是把原先词所在空间嵌入到一个新的空间中去。我们从直观角度上来理解一下，cat这个单词和kitten属于语义上很相近的词，而dog和kitten则不是那么相近，iphone这个单词和kitten的语义就差的更远了。通过对词汇表中单词进行这种数值表示方式的学习（也就是将单词转换为词向量），能够让我们基于这样的数值进行向量化的操作从而得到一些有趣的结论。比如说，如果我们对词向量kitten、cat以及dog执行这样的操作：kitten - cat + dog，那么最终得到的嵌入向量（embedded vector）将与puppy这个词向量十分相近。第一部分模型...

#NLP

READ

#

!

INCOMING TRANSMISSION

RLHF in LLM

Policy Gradient 优化：TRPO，PPO

Actor-Critic Methods

策略梯度方法（Policy Gradient Methods）

从DPG到DDPG

GRPO(Group Relative Policy Optimization)

词向量与Embedding

N-Gram

状态空间模型SSM到Mamba

Transformer结构及其应用

RNN与LSTM

Word2Vec 之 Skip-Gram 模型