知识库 - Orange

贝尔曼方程（Bellman Equation)

2026-03-27

状态价值（State values）定义状态价值是强化学习中的核心概念，用于衡量Agent从某个状态出发、遵循特定策略后所能获得的期望回报。数学表达为： \[ v_\pi(s) = \mathbb{E}[G_t | S_t = s] \tag{1}\] 其中： \(v_\pi(s)\) ：状态 \(s\) 的状态价值函数（state-value function）或者简称为状态价值（state value）； \(\pi\) ：智能体遵循的策略； \(G_t = R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + \dots\) ：从当前时间步 \(t\) 开始的折扣回报； \(\gamma \in (0, 1)\) ：折扣因子，用于平衡即时奖励和未来奖励。状态价值的特点依赖于状态 \(s\) ：状态价值是条件期望，条件是智能体从状态 \(s\) 开始。依赖于策略 \(\pi\) ：不同策略会生成不同的轨迹，从而影响状态价值。与时间步无关：状态价值是一个固定值，与当前时间步 \(t\) 无关。代表一个状态的价值。...

#Reinforcement Learning

READ

价值迭代和策略迭代

Reinforcement Learning

2026-03-27

引言强化学习中，找到最优策略是核心目标。本文详细介绍三种能够找到最优策略的基础算法：价值迭代、策略迭代和截断策略迭代。这些算法属于动态规划范畴，需要系统模型，是后续无模型强化学习算法的重要基础。在强化学习的发展路线中，这些算法处于"基础工具"到"算法/方法"的过渡阶段，是从"有模型"到"无模型"学习的重要桥梁。价值迭代（Value iteration）价值迭代算法基于收缩映射定理求解贝尔曼最优方程。其核心迭代公式为： \[\begin{equation}v_{k+1} = \max_{\pi \in \Pi} (r_\pi + \gamma P_\pi v_k), k = 0, 1, 2, ...\tag{1}\end{equation}\] 根据收缩映射定理，当 \(k \to \infty\) 时， \(v_k\) 和 \(\pi_k\) 分别收敛到最优状态值和最优策略。每次迭代包含两个步骤：策略更新步骤（policy update step）：找到能解决以下优化问题的策略 \[\pi_{k+1} = \arg\max_\pi (r_\pi +...

#Reinforcement Learning

READ

RL基础概念

Reinforcement Learning

2026-03-27

基础概念 Grid-Word Example 环境描述：网格世界是一个直观的二维环境，包含：白色格子：可通行区域。橙色格子：禁止进入的区域（禁区）。目标格子：代理需要到达的目标位置。任务目标：找到一条“好的”策略，使代理从任意初始位置到达目标格子。策略应避免进入禁区、碰撞边界或走不必要的弯路。什么是强化学习：依据策略执行动作-感知状态-得到奖励所谓强化学习(Reinforcement Learning，简称RL)，是指基于智能体在复杂、不确定的环境中最大化它能获得的奖励，从而达到自主决策的目的。 a computational approach to learning whereby an agent tries to maximize the total amount of reward it receives while interacting with a complex and uncertain environment 经典的强化学习模型可以总结为下图的形式（你可以理解为任何强化学习都包含这几个基本部分：智能体、行为、环境、状态、奖励）：...

#Reinforcement Learning

READ

GRPO(Group Relative Policy Optimization)

Reinforcement Learning

2026-03-27

GRPO(Group Relative Policy Optimization)

💡 GRPO相比PPO主要优势： 1. 训练更稳定引入 KL 散度惩罚项，有效控制策略更新的幅度，避免策略崩溃，提高训练的稳定性 GRPO用组内相对优势替代value model，消除了value估计误差通过组内归一化，自动消除reward scale和bias的影响实验中发现GRPO的advantage方差比PPO小30%左右，训练崩溃率更低 2. 工程更简单只需要1-2个模型（policy + reference），而PPO需要4个显存占用减少50%以上，训练速度提升2-3倍超参数更少，更容易调优 3. 相对奖励机制通过对同一输入生成的多个输出进行比较，GRPO 能够更稳定地估计优势函数，减少了训练过程中的方差背景 GRPO是 DeepSeek-Math model中提出的对PPO方法的改进策略：强化学习(RL)在提升模型数学推理能力方面被证明是有效的传统PPO算法需要较大训练资源 GRPO作为PPO的变体被提出,可以更高效地优化模型 PPO Vs GRPO PPO回顾 PPO的目标函数为: \[\begin{aligned}J_{PPO}(\theta) =...

#Reinforcement Learning #Policy Gradient #LLM

READ

#

!

NOTEBOOK

贝尔曼方程（Bellman Equation)

价值迭代和策略迭代

RL基础概念

GRPO(Group Relative Policy Optimization)