知识库 - Orange

Performer

NLP

2026-01-11

Preformer Performer的出发点还是标准的Attention，所以在它那里还是有 [Math] ，然后它希望将复杂度线性化，那就是需要找到新的 [Math] ，使得： [公式] 如果找到合理的从 [Math] 到 [Math] 的映射方案，便是该思路的最大难度了。激活函数线性Attention的常见形式如式3，其中 [Math] 、 [Math] 是值域非负的激活函数。那么如何选取这个激活函数呢？Performer告诉我们，应该选择指数函数 [公式] 首先，我们来看它跟已有的结果有什么不一样。在 Transformers are RNNs 给出的选择是： [公式] 我们知道 1+x 正是 e^x 在 x=0 处的一阶泰勒展开，因此 [Math] 这个选择其实已经相当接近 ...

#Linear Attention #transformer

READ

The Devil in Linear Transformer

NLP

2026-01-11

简介承接 Transformers are RNNs 这篇论文目的：为了分析之前linear transformer的效果为什么不好。发现主要是两个原因造成的： 1. 无界梯度（unbounded gradient），会导致模型在训练时不稳定，收敛不好； 1. 注意力稀释（attention dilution），transformer在lower level时应该更关注局部特征，而higher level更关注全局特征，但线性transformer中的attention往往weight 更均匀化，不能聚焦在local区域上，因此称为attention稀释。解决方案： 1. 对linear attention算出来的output接着做个normalization，形成NormForme...

#Linear Attention

READ

Bagel

Large Model

2026-01-11

简介 🔖 https://bagelai.org/ BAGEL 模型原生支持统一的多模态理解和生成，是一个 decoderonly 的模型，BAGEL 在包含文本、图像、视频和网络数据的大量多模态数据上进行了预训练，包括数万亿 tokens。尽管有一些研究尝试扩展其统一模型，但它们主要仍然依赖于标准图像生成和理解任务中的图像文本配对数据进行训练。然而，最近的研究发现，学术模型与 GPT4o 和 Gemini 2.0 等专有系统在统一多模态理解和生成方面存在显著差距，而这些专有系统的底层技术并未公开。作者认为，弥合这一差距的关键在于使用精心构建的多模态交错数据进行规模化训练。这种多模态交错数据整合了文本、图像、视频和网络来源。通过使用这种多样化的多模态交错数据进行扩展时，模型展现出复杂的、新...

#VLM #Large Model #Generating Model

READ

GRPO(Group Relative Policy Optimization)

Reinforcement Learning

2026-01-11

GRPO(Group Relative Policy Optimization)

💡 GRPO相比PPO主要优势：背景 GRPO是 DeepSeekMath model中提出的对PPO方法的改进策略：强化学习(RL)在提升模型数学推理能力方面被证明是有效的传统PPO算法需要较大训练资源 GRPO作为PPO的变体被提出,可以更高效地优化模型 PPO回顾 PPO的目标函数为: [公式] 其中: [Math] 和 [Math] 分别是当前和旧策略模型 A_t 是优势函数 [Math] 是裁剪相关的超参数模型训练如图1上所示，PPO需要同时训练一个Value Model [Math] 和策略模型，同时需要reference model（通常从SFT model初始化）来限制策略模型训练保持和reference model的行为接近，而 Reward model用来计算...

#LLM #Policy Gradient #Reinforcement Learning

READ

投机采样

Large Model

2026-01-11

概述投机解码（Speculative Decoding）也叫预测解码/投机采样，它会利用小模型来预测大型模型的行为，从而提升模型在解码（decoding）阶段的解码效率问题，加速大型模型的执行。其核心思路如下图所示，首先以低成本的方式（以小模型为主，也有多头，检索，Early Exit 等方式）快速生成多个候选 Token（串行序列、树、多头树等），然后通过一次并行验证阶段快速验证多个 Token的正确性，只要平均每个 Step 验证的 Token 数 1，就可以一次性生成多个token，进而减少总的 Decoding 步数，实现加速的目的。下图左侧是自回归解码模型，右侧是投机解码机制。从本质上来说，投机解码希望在推理阶段在不大幅度改变模型的情况下，通过更好利用冗余算力来并行"投机"地...

#Acceleration #LLM

READ

RLHF in LLM

Reinforcement Learning

2026-01-11

引言大语言模型（LLMs）在近年来取得了显著进展，展现出上下文学习、指令跟随和逐步推理等突出特性。然而，由于这些模型是在包含高质量和低质量数据的预训练语料库上训练的，它们可能会表现出编造事实、生成有偏见或有毒文本等意外行为。因此，将LLMs与人类价值观对齐变得至关重要，特别是在帮助性、诚实性和无害性（3H）方面。基于人类反馈的强化学习（RLHF）已被验证为有效的对齐方法，但训练过程复杂且不稳定。本文深入分析了RLHF框架，特别是PPO算法的内部工作原理，并提出了PPOmax算法，以提高策略模型训练的稳定性和效果。 RLHF的基本框架 RLHF训练过程包括三个主要阶段： 1. 监督微调（SFT）：模型通过模仿人类标注的对话示例来学习一般的人类对话方式，优化模型的指令跟随能力 1. 奖励模...

#Reinforcement Learning #LLM #Policy Gradient

READ

transformers中generate方法

Large Model

2026-01-11

比起两年前，NLG任务已经得到了非常有效的发展，transformers模块的使用广泛程度也达到前所未有的程度。在模型推理预测时，一个核心的语句就是model.generate()，本文就来详细介绍一下generate方法是如何运作的。在生成的过程中，包含了诸多生成策略，本文将以最常用的beam search为例，尽可能详细地展开介绍。随着各种LLM的出现，transformers中与generate相关的代码发生了一些变化，主要区别在于： generate的源码位置发生了改变； generate方法中，采用一个generation_config参数来管理生成相关的各种配置，并优化了逻辑，使得逻辑更加清晰。 1. generate的代码位置在之前版本的transformers中（tran...

#LLM #transformer

READ

#

!

INCOMING TRANSMISSION

Performer

The Devil in Linear Transformer

Bagel

GRPO(Group Relative Policy Optimization)

投机采样

RLHF in LLM

transformers中generate方法