知识库 - Orange

Kimi

Large Model

2026-04-15

k1.5—CoT强化训练概述 Kimi k1.5采用了一种简化而有效的强化学习框架，其核心在于长上下文扩展和改进的策略优化方法，而不依赖于更复杂的技术如蒙特卡洛树搜索、价值函数和过程奖励模型。问题设定给定训练数据集 \(D = \{(x_i, y^*_i)\}_{i=1}^n\) ，其中包含问题 \(x_i\) 和对应的真实答案 \(y^*_i\) ，目标是训练一个策略模型 \(\pi_\theta\) 来准确解决测试问题。在复杂推理场景中，思维链(CoT)方法提出使用一系列中间步骤 \(z = (z_1, z_2, ..., z_m)\) 来连接问题 \(x\) 和答案 \(y\) ，每个 \(z_i\) 是解决问题的重要中间步骤。当解决问题 \(x\) 时，思维 \(z_t \sim \pi_\theta(\cdot|x, z_1, ..., z_{t-1})\) 被自回归采样，最终答案 \(y \sim \pi_\theta(\cdot|x, z_1, ..., z_m)\) 。强化学习目标基于真实答案 \(y^*\) ，分配一个值 \(r(x, y, y^*)...

#Policy Gradient #Reinforcement Learning #Large Model #LLM

READ

Seed模型

Large Model

2026-04-15

Seed-Thinking-v1.5 https://github.com/ByteDance-Seed/Seed-Thinking-v1.5 Seed-Thinking-v1.5 是 ByteDance Seed 团队开发的一个先进推理模型，采用 Mixture-of-Experts (MoE) 架构，具有 200B 总参数和 20B 激活参数。该模型的核心创新在于其"思考后回答"的机制，在数学、编程、科学推理等任务上取得了卓越的性能。相比DeepSeek R1 ，在很多数据指标上都取得了一定程度的进步。数据训练数据分为两大类：可验证问题（有明确答案）和不可验证问题（无明确答案）。模型的推理能力主要来自第一部分，并能泛化到第二部分。可验证问题数据可验证数据主要包含 STEM数据，编程数据，以及逻辑推理数据 STEM 数据数据组成：包含数十万道高质量竞赛级别问题，涵盖数学、物理、化学，其中数学占比超过 80%；数据清洗：初步删除问题陈述不完整、符号不一致或要求不明确的问题；进一步过滤过于简单的数据以及有可能答案是错误的数据...

#LLM

READ

MiMo-VL

Large Model

2026-04-15

概述小米团队近日发布了MIMO-VL-7B-SFT和MIMO-VL-7B-RL，这是两个强大的视觉语言模型，MIMO-VL-7B-RL在40个评估任务中的35个上优于QWEN2.5-VL-7B，对于GUI Grounding任务，它在OSWorld-G上设置了一个新标准，甚至超过了UI-TARS等专业模型。模型通过四个阶段的预训练（2.4T Token）与Mixed On-policy 强化（MORL）整合了多样化的奖励信号。在文章中，作者提到了两个重要的发现：从Pre-Traing 训练阶段中加入高质量且覆盖广的推理数据对于强化模型性能至关重要。 Mixed On-policy 强化学习进一步增强了模型的性能，同时实现了稳定的同时改进仍然在性能方面具有挑战性。 Pre-Training 模型结构整个模型还是采用了VIT-MLP-LLM的结构，具体来说，视觉模型采用了Qwen2.5-VL中的视觉encoder，LLM采用了自家的语言模型MiMo-7B-Base。整个Pretraining采用了四个阶段的训练，每个阶段采用的数据，模型训练参数和模型参数如下面两表所示...

#VLM #Large Model

READ

Structured Generation

Large Model

2026-04-15

引言 Structured Generation with LLM，是指让LLM按照预先定义的schema，输出符合schema的结构化结果。常见的应用场景有：数据处理。主要功能为a -> b，即从源文本中抽取/生成符合schema的结果，例如给定新闻，进行分类、抽取关键词、生成总结等； Agent 。主要功能是Tool Calling，即根据用户query，选择适当的tool和入参。将 LLM 限制为始终生成符合特定模式的、有效的 JSON 或 YAML，是许多应用的关键功能。 Kor Kor ，一个基于prompt的技术方案；Kor比较适合数据处理场景，且原理简单、易于理解，适合作为入门, 并且Kor适用于那些不支持function calling的比较旧的模型。使用Kor进行structured generation的流程如下：定义schema，包括结构、注释还有例子； Kor用特定的 prompt template ，将用户提供的schema和待处理的raw text，组装成prompt；将prompt发送给LLM，借助其通用的In...

#Acceleration #LLM #Large Model

READ

从MHA、MQA、GQA到MLA

Large Model

2026-04-15

DeepSeek-V2 的发布引起了大家的热烈讨论。首先，最让人哗然的是1块钱100万token的价格，普遍比现有的各种竞品API便宜了两个数量级，以至于有人调侃“这个价格哪怕它输出乱码，我也会认为这个乱码是一种艺术”；其次，从模型的技术报告看，如此便宜的价格背后的关键技术之一是它新提出的MLA（ M ulti-head L atent A ttention），这是对GQA的改进，据说能比GQA更省更好，也引起了读者的广泛关注。接下来，本文将跟大家一起梳理一下从MHA、MQA、GQA到MLA的演变历程，并着重介绍一下MLA的设计思路。 MHA MHA（ M ulti- H ead A ttention），也就是多头注意力，是开山之作《Attention is all you need》所提出的一种Attention形式，可以说它是当前主流LLM的基础工作。在数学上，多头注意力MHA等价于多个独立的单头注意力的拼接，假设输入的（行）向量序列为 \(\boldsymbol{x}_1,\boldsymbol{x}_2,\cdots,\boldsymbol{x}_l\) ，其中...

#LLM

READ

贝尔曼最优方程(Bellman Optimality Equation)

Reinforcement Learning

2026-04-15

最优策略（Optimal Policy ）之前在贝尔曼方程（Bellman Equation) 中说过，状态值可以用来评估一个策略是好是坏，这里给出正式的概念： \[v_{\pi_1}(s) \geq v_{\pi_2}(s) \quad \text { for all } s \in \mathcal{S}\] 那么此时 \(\pi_1\) 比 \(\pi_2\) ”更好“ 最优状态值（Optimal State Value）：对于任意状态 \(s\) ，最优状态值 \(v^*(s)\) 是所有可能策略中状态值的最大值： \[v^*(s) = \max_{\pi} v_{\pi}(s)\] 其中 \(v_{\pi}(s)\) 是策略 \(\pi\) 下的状态值。最优策略（Optimal Policy）：如果一个策略的状态值在所有状态中均大于或等于其他策略的状态值，则该策略为最优策略： \[\pi^* = \arg\max_{\pi} v_{\pi}(s), \forall s \in S\] 即最优策略总是选择使得状态值最大的动作。性质：存在性...

#Reinforcement Learning

READ

贝尔曼方程（Bellman Equation)

Reinforcement Learning

2026-04-15

状态价值（State values）定义状态价值是强化学习中的核心概念，用于衡量Agent从某个状态出发、遵循特定策略后所能获得的期望回报。数学表达为： \[ v_\pi(s) = \mathbb{E}[G_t | S_t = s] \tag{1}\] 其中： \(v_\pi(s)\) ：状态 \(s\) 的状态价值函数（state-value function）或者简称为状态价值（state value）； \(\pi\) ：智能体遵循的策略； \(G_t = R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + \dots\) ：从当前时间步 \(t\) 开始的折扣回报； \(\gamma \in (0, 1)\) ：折扣因子，用于平衡即时奖励和未来奖励。状态价值的特点依赖于状态 \(s\) ：状态价值是条件期望，条件是智能体从状态 \(s\) 开始。依赖于策略 \(\pi\) ：不同策略会生成不同的轨迹，从而影响状态价值。与时间步无关：状态价值是一个固定值，与当前时间步 \(t\) 无关。代表一个状态的价值。...

#Reinforcement Learning

READ

强化学习Model-Free之时序差分

Reinforcement Learning

2026-04-15

引言时序差分（Temporal-Difference，TD）方法是强化学习中的一类核心算法，它结合了动态规划与蒙特卡洛方法的优点。TD方法是无模型（model-free）学习方法，不需要环境模型即可学习价值函数和最优策略。 TD方法的核心特点是通过比较不同时间步骤的估计值之间的差异来更新价值函数，这种差异被称为"时序差分误差"（TD error）。TD方法可以被视为解决贝尔曼方程或贝尔曼最优方程的特殊随机逼近算法。基础TD算法：状态值函数学习给定策略 \(\pi\) ，基础TD算法用于估计状态值函数 \(v_\pi(s)\) 。假设我们有一些按照策略 \(\pi\) 生成的经验样本 \((s_0, r_1, s_1, ..., s_t, r_{t+1}, s_{t+1}, ...)\) ，TD算法的更新规则为： \[\begin{equation}\begin{aligned}v_{t+1}(s_t) &= v_t(s_t) - \alpha_t(s_t)[v_t(s_t) - (r_{t+1} + \gamma v_t(s_{t+1}))]\\ v_{t+1}(s) &=...

#Q-Learning #Reinforcement Learning

READ

#

!

INCOMING TRANSMISSION

Kimi

Seed模型

MiMo-VL

Structured Generation

从MHA、MQA、GQA到MLA

贝尔曼最优方程(Bellman Optimality Equation)

贝尔曼方程（Bellman Equation)

强化学习Model-Free之时序差分