知识库 - Orange

Kimi k1.5—CoT强化训练

Large Model

2026-01-11

概述 Kimi k1.5采用了一种简化而有效的强化学习框架，其核心在于长上下文扩展和改进的策略优化方法，而不依赖于更复杂的技术如蒙特卡洛树搜索、价值函数和过程奖励模型。问题设定给定训练数据集 D = \{(x_i, y^_i)\}_{i=1}^n ，其中包含问题 x_i 和对应的真实答案 y^_i ，目标是训练一个策略模型 [Math] 来准确解决测试问题。在复杂推理场景中，思维链(CoT)方法提出使用一系列中间步骤 z = (z_1, z_2, ..., z_m) 来连接问题 x 和答案 y ，每个 z_i 是解决问题的重要中间步骤。当解决问题 x 时，思维 [Math] 被自回归采样，最终答案 [Math] 。强化学习目标基于真实答案 y^ ，分配一个值 [Math] , Ki...

#Policy Gradient #Reinforcement Learning #LLM #Large Model

READ

Gaze Estimation

3D Model

2026-01-11

概述问题定义广义的 Gaze Estimation 泛指与眼球、眼动、视线等相关的研究，因此有不少做 saliency 和 egocentric 的论文也以 gaze 为关键词。而本文介绍的 Gaze Estimation 主要以眼睛图像或人脸图像为处理对象，估算人的视线方向或注视点位置，如下图所示。 gaze角度的表示一般使用一个3d向量作为表示，也可以转换为pitch 和yaw角度，具体可参考 Model Gaze模型一般使用回归模型，所以这里基本只介绍一些在gaze model中使用的小技巧 Rle Loss 实际问题

#3D

READ

Structured Generation

Large Model

2026-01-11

引言 Structured Generation with LLM，是指让LLM按照预先定义的schema，输出符合schema的结构化结果。常见的应用场景有： 1. 数据处理。主要功能为a b，即从源文本中抽取/生成符合schema的结果，例如给定新闻，进行分类、抽取关键词、生成总结等； 1. Agent。主要功能是Tool Calling，即根据用户query，选择适当的tool和入参。将 LLM 限制为始终生成符合特定模式的、有效的 JSON 或 YAML，是许多应用的关键功能。 Kor Kor，一个基于prompt的技术方案；Kor比较适合数据处理场景，且原理简单、易于理解，适合作为入门, 并且Kor适用于那些不支持function calling的比较旧的模型。使用Kor进行...

#Large Model #LLM

READ

投机采样之EAGLE

Large Model

2026-01-11

概述 MTP（Multitoken Prediction）的总体思路是：让模型使用n个独立的输出头来预测接下来的n个token，这n个独立的输出头共享同一个模型主干。这样通过解码阶段的优化，将1token的生成，转变成multitoken的生成，从而提升训练和推理的性能。在DeepSeek之前也有几个MTP方案，其侧重点各自不同。侧重推理时解码加速。比如论文“MEDUSA: Simple LLM Inference Acceleration Framework with Multiple Decoding Heads”、论文“EAGLE: Speculative Sampling Requires Rethinking Feature Uncertainty”等。这些方案通过一次生成多个...

#Acceleration #Large Model

READ

Bagel

Large Model

2026-01-11

简介 🔖 https://bagelai.org/ BAGEL 模型原生支持统一的多模态理解和生成，是一个 decoderonly 的模型，BAGEL 在包含文本、图像、视频和网络数据的大量多模态数据上进行了预训练，包括数万亿 tokens。尽管有一些研究尝试扩展其统一模型，但它们主要仍然依赖于标准图像生成和理解任务中的图像文本配对数据进行训练。然而，最近的研究发现，学术模型与 GPT4o 和 Gemini 2.0 等专有系统在统一多模态理解和生成方面存在显著差距，而这些专有系统的底层技术并未公开。作者认为，弥合这一差距的关键在于使用精心构建的多模态交错数据进行规模化训练。这种多模态交错数据整合了文本、图像、视频和网络来源。通过使用这种多样化的多模态交错数据进行扩展时，模型展现出复杂的、新...

#VLM #Large Model #Generating Model

READ

从GRPO到GSPO、DAPO

Reinforcement Learning

2026-01-11

回顾 PPO [公式] 其中 (q, a) 是数据集 [Math] 中采样的 questionanswer pair, [Math] 是重要性采样比的clip范围, [Math] 是时间步 t 的优势估计量. 给定 value function V 和 reward function R , [Math] 使用广义优势估计 (GAE) 来计算: [公式] 其中， [公式] GRPO 相比于 PPO, GRPO 去掉了value function 并以分组的方式估计优势。对于特定的问答对 (q, a), behavior policy [Math] 生成了一组 G 个 response \{o...

#Reinforcement Learning #Large Model

READ

#

!

INCOMING TRANSMISSION

Kimi k1.5—CoT强化训练

Gaze Estimation

Structured Generation

投机采样之EAGLE

Bagel

从GRPO到GSPO、DAPO