知识库 - Orange

Policy Gradient 优化：TRPO，PPO

2026-01-11

💡 引言 Trust Region Policy Optimization (TRPO) 是2015年的ICML会议上提出的一种强大的基于策略的强化学习算法。TRPO 解决了传统策略梯度方法中的一些关键问题，特别是训练不稳定和步长选择困难的问题。与传统策略梯度算法相比，TRPO 具有更高的稳健性和样本效率，能够在复杂环境中取得更好的性能。优化基础在深入了解 TRPO 之前，我们需要先简单回顾一些优化方法的基础知识。梯度上升法梯度上升法是一种迭代优化算法，用于寻找函数的局部最大值。目标：找到使目标函数 [Math] 最大化的参数 [Math] ： [公式] 梯度上升迭代过程： 1. 在当前参数 [Math] 处计算梯度： [Math] 1. 更新参数：梯度上升法的主要问题是学习率的...

#Reinforcement Learning #Policy Gradient

READ

Structured Generation

Large Model

2026-01-11

引言 Structured Generation with LLM，是指让LLM按照预先定义的schema，输出符合schema的结构化结果。常见的应用场景有： 1. 数据处理。主要功能为a b，即从源文本中抽取/生成符合schema的结果，例如给定新闻，进行分类、抽取关键词、生成总结等； 1. Agent。主要功能是Tool Calling，即根据用户query，选择适当的tool和入参。将 LLM 限制为始终生成符合特定模式的、有效的 JSON 或 YAML，是许多应用的关键功能。 Kor Kor，一个基于prompt的技术方案；Kor比较适合数据处理场景，且原理简单、易于理解，适合作为入门, 并且Kor适用于那些不支持function calling的比较旧的模型。使用Kor进行...

#Large Model #LLM

READ

投机采样之Medusa

Large Model

2026-01-11

概述 Medusa 是自投机领域较早的一篇工作，对后续工作启发很大，其主要思想是 multidecoding head + tree attention + typical acceptance(threshold)。Medusa 没有使用独立的草稿模型，而是在原始模型的基础上增加多个解码头（MEDUSA heads），并行预测多个后续 token。正常的LLM只有一个用于预测 t 时刻token的head。Medusa 在 LLM 的最后一个 Transformer层之后保留原始的 LM Head，然后额外增加多个（假设是 k 个）可训练的Medusa Head（解码头），分别负责预测 ...

#Acceleration #LLM

READ

证明调和级数敛散

Math

2026-01-11

调和级数记住下面的公式就够了： [Formula] 证明方法就是下面这张图

#math

READ

泊松分布和指数分布

Math

2026-01-11

一、泊松分布日常生活中，大量事件是有固定频率的。某医院平均每小时出生3个婴儿某公司平均每10分钟接到1个电话某超市平均每天销售4包xx牌奶粉某网站平均每分钟有2次访问它们的特点就是，我们可以预估这些事件的总数，但是没法知道具体的发生时间。已知平均每小时出生3个婴儿，请问下一个小时，会出生几个？有可能一下子出生6个，也有可能一个都不出生。这是我们没法知道的。泊松分布就是描述某段时间内，事件具体的发生概率。 [Formula] 上面就是泊松分布的公式。等号的左边， P 表示概率， N 表示某种函数关系， t 表示时间， n 表示数量，1小时内出生3个婴儿的概率，就表示为 P(N(1...

#math

READ

强化学习Model-Free之时序差分

Reinforcement Learning

2026-01-11

引言时序差分（TemporalDifference，TD）方法是强化学习中的一类核心算法，它结合了动态规划与蒙特卡洛方法的优点。TD方法是无模型（modelfree）学习方法，不需要环境模型即可学习价值函数和最优策略。 TD方法的核心特点是通过比较不同时间步骤的估计值之间的差异来更新价值函数，这种差异被称为"时序差分误差"（TD error）。TD方法可以被视为解决贝尔曼方程或贝尔曼最优方程的特殊随机逼近算法。基础TD算法：状态值函数学习给定策略 [Math] ，基础TD算法用于估计状态值函数 [Math] 。假设我们有一些按照策略 [Math] 生成的经验样本 (s_0, r_1, s_1, ..., s_t, r_{t+1}, s_{t+1}, ...) ，TD算法的更新规则为： ...

#Reinforcement Learning #Q-Learning

READ

投机采样之EAGLE

Large Model

2026-01-11

概述 MTP（Multitoken Prediction）的总体思路是：让模型使用n个独立的输出头来预测接下来的n个token，这n个独立的输出头共享同一个模型主干。这样通过解码阶段的优化，将1token的生成，转变成multitoken的生成，从而提升训练和推理的性能。在DeepSeek之前也有几个MTP方案，其侧重点各自不同。侧重推理时解码加速。比如论文“MEDUSA: Simple LLM Inference Acceleration Framework with Multiple Decoding Heads”、论文“EAGLE: Speculative Sampling Requires Rethinking Feature Uncertainty”等。这些方案通过一次生成多个...

#Acceleration #Large Model

READ

价值迭代和策略迭代

Reinforcement Learning

2026-01-11

引言强化学习中，找到最优策略是核心目标。本文详细介绍三种能够找到最优策略的基础算法：价值迭代、策略迭代和截断策略迭代。这些算法属于动态规划范畴，需要系统模型，是后续无模型强化学习算法的重要基础。在强化学习的发展路线中，这些算法处于"基础工具"到"算法/方法"的过渡阶段，是从"有模型"到"无模型"学习的重要桥梁。价值迭代（Value iteration）价值迭代算法基于收缩映射定理求解贝尔曼最优方程。其核心迭代公式为： [公式] 根据收缩映射定理，当 [Math] 时， v_k 和 [Math] 分别收敛到最优状态值和最优策略。每次迭代包含两个步骤： 1. 策略更新步骤（policy update step）：找到能解决以下优化问题的策略 1. 价值更新步骤（value updat...

#Reinforcement Learning

READ

SSM奠基之作-HiPPO

NLP

2026-01-11

概述 HiPPO（Highorder Polynomial Projection Operators）是目前大热的structured state space model (S4)及其后续工作的backbone. State space mode主要是控制学科里的内容，最近被引入深度学习领域来解决长距离依赖问题。长距离依赖建模的核心问题是如何通过有限的memory来尽可能记住之前所有的历史信息。当前的主流序列建模模型（即Transformer和RNN) 存在着普遍的遗忘问题 fixedsize context windows: Transformer的window size通常是有限的，一般来说quadratic的attention最多建模到大约10k的token就到计算极限了 vanish...

#math

READ

策略梯度方法（Policy Gradient Methods）

Reinforcement Learning

2026-01-11

引言与背景策略梯度方法是强化学习中的一种重要方法，它标志着从基于价值的方法向基于策略的方法的重要转变。之前我们主要讨论了基于价值的方法（valuebased），而策略梯度方法则直接优化策略函数(policybased)，这是一个重要的进步。当策略用函数表示时，策略梯度方法的核心思想是通过优化某些标量指标来获得最优策略。与传统的表格表示策略不同，策略梯度方法使用参数化函数 [Math] 来表示策略，其中 [Math] 是参数向量。这种表示方法也可以写成其他形式，如 [Math] 、 [Math] 或 [Math] 。策略梯度方法具有多种优势：更高效地处理大型状态/动作空间具有更强的泛化能力样本使用效率更高策略表示：从表格到函数当策略的表示从表格转变为函数时，存在以下几个关键区别...

#Reinforcement Learning #Policy Gradient

READ

GRPO(Group Relative Policy Optimization)

Reinforcement Learning

2026-01-11

GRPO(Group Relative Policy Optimization)

💡 GRPO相比PPO主要优势：背景 GRPO是 DeepSeekMath model中提出的对PPO方法的改进策略：强化学习(RL)在提升模型数学推理能力方面被证明是有效的传统PPO算法需要较大训练资源 GRPO作为PPO的变体被提出,可以更高效地优化模型 PPO回顾 PPO的目标函数为: [公式] 其中: [Math] 和 [Math] 分别是当前和旧策略模型 A_t 是优势函数 [Math] 是裁剪相关的超参数模型训练如图1上所示，PPO需要同时训练一个Value Model [Math] 和策略模型，同时需要reference model（通常从SFT model初始化）来限制策略模型训练保持和reference model的行为接近，而 Reward model用来计算...

#LLM #Policy Gradient #Reinforcement Learning

READ

#

!

INCOMING TRANSMISSION

Policy Gradient 优化：TRPO，PPO

Structured Generation

投机采样之Medusa

证明调和级数敛散

泊松分布和指数分布

强化学习Model-Free之时序差分

投机采样之EAGLE

价值迭代和策略迭代

SSM奠基之作-HiPPO

策略梯度方法（Policy Gradient Methods）

GRPO(Group Relative Policy Optimization)