知识库 - Orange

Reinforce Learning 概述

2026-03-27

强化学习基础 RL基础概念贝尔曼方程（Bellman Equation) 贝尔曼最优方程(Bellman Optimality Equation) 价值迭代和策略迭代强化学习Model-Free之蒙特卡洛改进算法 LLM中的RL DPO(Direct Preference Optimization)

#Reinforcement Learning

READ

引言与背景蒙特卡洛方法是强化学习中的重要算法类别，它标志着从基于模型到无模型算法的转变。这类算法不依赖环境模型，而是通过与环境的直接交互获取经验数据来学习最优策略。蒙特卡洛方法在强化学习算法谱系中处于"无模型"方法的起始位置，是从基于模型的方法（如值迭代和策略迭代）向无模型方法过渡的第一步。无模型强化学习的核心理念可以简述为：如果没有模型，我们必须有数据；如果没有数据，我们必须有模型；如果两者都没有，我们就无法找到最优策略。在强化学习中，"数据"通常指智能体与环境交互的经验。均值估计问题在介绍蒙特卡洛强化学习算法之前，我们首先需要理解均值估计问题，这是理解从数据而非模型中学习的基础。考虑一个可以取有限实数集合 $X$ 中值的随机变量 $X$ ，我们的任务是计算 $X$ 的均值或期望值： $E[X]$ 有两种方法可以计算 $E[X]$ ：基于模型的方法：当已知随机变量的概率分布时，可以直接根据期望值的定义计算： \[E[X] = \sum_{x \in X} p(x) \cdot x\] 其中 $p(x)$ 是 $X$ 取值为 $x$...

#Q-Learning #Reinforcement Learning

READ

贝尔曼最优方程(Bellman Optimality Equation)

Reinforcement Learning

2026-03-27

最优策略（Optimal Policy ）之前在贝尔曼方程（Bellman Equation) 中说过，状态值可以用来评估一个策略是好是坏，这里给出正式的概念： \[v_{\pi_1}(s) \geq v_{\pi_2}(s) \quad \text { for all } s \in \mathcal{S}\] 那么此时 $\pi_1$ 比 $\pi_2$ ”更好“ 最优状态值（Optimal State Value）：对于任意状态 $s$ ，最优状态值 $v^*(s)$ 是所有可能策略中状态值的最大值： \[v^*(s) = \max_{\pi} v_{\pi}(s)\] 其中 $v_{\pi}(s)$ 是策略 $\pi$ 下的状态值。最优策略（Optimal Policy）：如果一个策略的状态值在所有状态中均大于或等于其他策略的状态值，则该策略为最优策略： \[\pi^* = \arg\max_{\pi} v_{\pi}(s), \forall s \in S\] 即最优策略总是选择使得状态值最大的动作。性质：存在性...

#Reinforcement Learning

READ

贝尔曼方程（Bellman Equation)

Reinforcement Learning

2026-03-27

状态价值（State values）定义状态价值是强化学习中的核心概念，用于衡量Agent从某个状态出发、遵循特定策略后所能获得的期望回报。数学表达为： \[ v_\pi(s) = \mathbb{E}[G_t | S_t = s] \tag{1}\] 其中： $v_\pi(s)$ ：状态 $s$ 的状态价值函数（state-value function）或者简称为状态价值（state value）； $\pi$ ：智能体遵循的策略； $G_t = R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + \dots$ ：从当前时间步 $t$ 开始的折扣回报； $\gamma \in (0, 1)$ ：折扣因子，用于平衡即时奖励和未来奖励。状态价值的特点依赖于状态 $s$ ：状态价值是条件期望，条件是智能体从状态 $s$ 开始。依赖于策略 $\pi$ ：不同策略会生成不同的轨迹，从而影响状态价值。与时间步无关：状态价值是一个固定值，与当前时间步 $t$ 无关。代表一个状态的价值。...

#Reinforcement Learning

READ

价值迭代和策略迭代

Reinforcement Learning

2026-03-27

引言强化学习中，找到最优策略是核心目标。本文详细介绍三种能够找到最优策略的基础算法：价值迭代、策略迭代和截断策略迭代。这些算法属于动态规划范畴，需要系统模型，是后续无模型强化学习算法的重要基础。在强化学习的发展路线中，这些算法处于"基础工具"到"算法/方法"的过渡阶段，是从"有模型"到"无模型"学习的重要桥梁。价值迭代（Value iteration）价值迭代算法基于收缩映射定理求解贝尔曼最优方程。其核心迭代公式为： \[\begin{equation}v_{k+1} = \max_{\pi \in \Pi} (r_\pi + \gamma P_\pi v_k), k = 0, 1, 2, ...\tag{1}\end{equation}\] 根据收缩映射定理，当 $k \to \infty$ 时， $v_k$ 和 $\pi_k$ 分别收敛到最优状态值和最优策略。每次迭代包含两个步骤：策略更新步骤（policy update step）：找到能解决以下优化问题的策略 \[\pi_{k+1} = \arg\max_\pi (r_\pi +...

#Reinforcement Learning

READ

RL基础概念

Reinforcement Learning

2026-03-27

基础概念 Grid-Word Example 环境描述：网格世界是一个直观的二维环境，包含：白色格子：可通行区域。橙色格子：禁止进入的区域（禁区）。目标格子：代理需要到达的目标位置。任务目标：找到一条“好的”策略，使代理从任意初始位置到达目标格子。策略应避免进入禁区、碰撞边界或走不必要的弯路。什么是强化学习：依据策略执行动作-感知状态-得到奖励所谓强化学习(Reinforcement Learning，简称RL)，是指基于智能体在复杂、不确定的环境中最大化它能获得的奖励，从而达到自主决策的目的。 a computational approach to learning whereby an agent tries to maximize the total amount of reward it receives while interacting with a complex and uncertain environment 经典的强化学习模型可以总结为下图的形式（你可以理解为任何强化学习都包含这几个基本部分：智能体、行为、环境、状态、奖励）：...

#Reinforcement Learning

READ

GRPO(Group Relative Policy Optimization)

Reinforcement Learning

2026-03-27

GRPO(Group Relative Policy Optimization)

💡 GRPO相比PPO主要优势： 1. 训练更稳定引入 KL 散度惩罚项，有效控制策略更新的幅度，避免策略崩溃，提高训练的稳定性 GRPO用组内相对优势替代value model，消除了value估计误差通过组内归一化，自动消除reward scale和bias的影响实验中发现GRPO的advantage方差比PPO小30%左右，训练崩溃率更低 2. 工程更简单只需要1-2个模型（policy + reference），而PPO需要4个显存占用减少50%以上，训练速度提升2-3倍超参数更少，更容易调优 3. 相对奖励机制通过对同一输入生成的多个输出进行比较，GRPO 能够更稳定地估计优势函数，减少了训练过程中的方差背景 GRPO是 DeepSeek-Math model中提出的对PPO方法的改进策略：强化学习(RL)在提升模型数学推理能力方面被证明是有效的传统PPO算法需要较大训练资源 GRPO作为PPO的变体被提出,可以更高效地优化模型 PPO Vs GRPO PPO回顾 PPO的目标函数为: \[\begin{aligned}J_{PPO}(\theta) =...

#Reinforcement Learning #Policy Gradient #LLM

READ

Attention长度外推

NLP

2026-03-26

这篇文章主要去“复盘”一下主流的长度外推结果，并试图从中发现免训练长度外推的关键之处。问题定义顾名思义，免训练长度外推，就是不需要用长序列数据进行额外的训练，只用短序列语料对模型进行训练，就可以得到一个能够处理和预测长序列的模型，即“Train Short, Test Long”。那么如何判断一个模型能否用于长序列呢？最基本的指标就是模型的长序列Loss或者PPL不会爆炸，更加符合实践的评测则是输入足够长的Context，让模型去预测答案，然后跟真实答案做对比，算BLEU、ROUGE等， LongBench 就是就属于这类榜单。但要注意的是，长度外推应当不以牺牲远程依赖为代价——否则考虑长度外推就没有意义了，倒不如直接截断文本——这意味着通过显式地截断远程依赖的方案都需要谨慎选择，比如ALIBI，还有带显式Decay的线性RNN ，这些方案当序列长度足够大时都表现为局部注意力，即便有可能实现长度外推，也会有远程依赖不足的风险，需要根据自己的场景斟酌使用。如何判断在长度外推的同时有没有损失远程依赖呢？比较严谨的是像 ReRoPE...

#transformer #位置编码

READ

多摸位置编码的进一步探索--MHRoPE / MRoPE-I

Large Model

2026-03-18

简介论文：《REVISITING MULTIMODAL POSITIONAL ENCODING IN VISION–LANGUAGE MODELS》通过对多模态旋转位置嵌入（RoPE）的两个核心组件——位置设计和频率分配进行综合分析。通过实验，确定了三个关键指南：位置一致性、频率全利用和保留文本先验。基于这些见解，提出了多头RoPE（MHRoPE）和MRoPE-Interleave（MRoPE-I），这两种简单且即插即用的变体不需要任何架构更改。为了构建更稳健的多模态位置编码，作者在MRoPE的基础上，系统地探索了三个未充分研究的方案：位置设计——如何为文本和视觉标记分配无歧义、分离良好的坐标；频率分配——如何将旋转频率分配到每个位置轴的嵌入维度；与纯文本RoPE的兼容性——确保设计默认为标准RoPE，以便进行有效的迁移学习。 Vanilla RoPE RoPE与加性位置嵌入不同，RoPE对query和key向量应用旋转变换，从而将相对位置依赖直接纳入自注意力机制。给定位置 $m$ 的查询向量 $q$ 和位置 $n$ 的键向量 $k$ ，注意力分数...

#位置编码 #VLM

READ

Transformer位置编码

NLP

2026-03-16

不同于RNN、CNN等模型，对于Transformer模型来说，位置编码的加入是必不可少的，因为纯粹的Attention模块是无法捕捉输入顺序的，即无法区分不同位置的Token。为此我们大体有两个选择：想办法将位置信息融入到输入中，这构成了绝对位置编码的一般做法；想办法微调一下Attention结构，使得它有能力分辨不同位置的Token，这构成了相对位置编码的一般做法。虽然说起来主要就是绝对位置编码和相对位置编码两大类，但每一类其实又能衍生出各种各样的变种，为此研究人员可算是煞费苦心、绞尽脑汁了，此外还有一些不按套路出牌的位置编码。本文就让我们来欣赏一下研究人员为了更好地表达位置信息所构建出来的“八仙过海，各显神通”般的编码方案。绝对位置编码形式上来看，绝对位置编码是相对简单的一种方案，但即便如此，也不妨碍各路研究人员的奇思妙想，也有不少的变种。一般来说，绝对位置编码会加到输入中：在输入的第 𝑘 个向量 $𝑥_𝑘$ 中加入位置向量 $𝑝_𝑘$ 变为 $\boldsymbol{x}_k + \boldsymbol{p}_k$ ，其中 \(...

#transformer #位置编码

READ

Kimi

Large Model

2026-03-10

k1.5—CoT强化训练概述 Kimi k1.5采用了一种简化而有效的强化学习框架，其核心在于长上下文扩展和改进的策略优化方法，而不依赖于更复杂的技术如蒙特卡洛树搜索、价值函数和过程奖励模型。问题设定给定训练数据集 $D = \{(x_i, y^*_i)\}_{i=1}^n$ ，其中包含问题 $x_i$ 和对应的真实答案 $y^*_i$ ，目标是训练一个策略模型 $\pi_\theta$ 来准确解决测试问题。在复杂推理场景中，思维链(CoT)方法提出使用一系列中间步骤 $z = (z_1, z_2, ..., z_m)$ 来连接问题 $x$ 和答案 $y$ ，每个 $z_i$ 是解决问题的重要中间步骤。当解决问题 $x$ 时，思维 $z_t \sim \pi_\theta(\cdot|x, z_1, ..., z_{t-1})$ 被自回归采样，最终答案 $y \sim \pi_\theta(\cdot|x, z_1, ..., z_m)$ 。强化学习目标基于真实答案 $y^*$ ，分配一个值 \(r(x, y, y^*)...

#Large Model #Reinforcement Learning #Policy Gradient #LLM

READ

Score-based Generative Models

Generative Model

2026-03-04

Score based generative model SMLD的关键点：以多个不同量级的噪声对数据进行扰动，并训练一个分数网络来估计不同噪声下的分数加噪的量级有大有小，都是在原始数据上进行加噪，最终的分布趋向于 $\mathcal{N}(0,max_i{\sigma_i^2})$ 运用分数匹配的方式来训练基于U-Net结构的MCSN网络，使得MCSN能够估计任意加噪后分布的分数基于任意加噪分布的分数和退火的郎之万动力学应用到采样来生成准确的原始数据分布的新样本正式开始介绍之前首先解答一下这个问题： score-based 模型是什么东西，微分方程在这个模型里到底有什么用？我们知道生成模型基本都是从某个现有的分布中进行采样得到生成的样本，为此模型需要完成对分布的建模。根据建模方式的不同可以分为隐式建模（例如 GAN、diffusion models）和显式建模（例如 VAE、normalizing flows）。和上述的模型相同，score-based 模型也是用一定方式对分布进行了建模。具体而言，这类模型建模的对象是概率分布函数 log 的梯度，也就是 score...

#ODE #SDE #Generating Model

READ

#

!

INCOMING TRANSMISSION

Reinforce Learning 概述

强化学习Model-Free之蒙特卡洛

贝尔曼最优方程(Bellman Optimality Equation)

贝尔曼方程（Bellman Equation)

价值迭代和策略迭代

RL基础概念

GRPO(Group Relative Policy Optimization)

Attention长度外推

多摸位置编码的进一步探索--MHRoPE / MRoPE-I

Transformer位置编码

Kimi

Score-based Generative Models