知识库 - Orange

LLaMA 2

Large Model

2026-01-11

简介模型结构 32K词表大小 2T训练数据 4K上下文长度模型种类：7B、13B、70B(用了GQA) LLaMA 2Chat：三个版本——7B 13B 70B 同时 Meta 还发布了 LLaMA 2CHAT，其是基于 LLAMA 2 针对对话场景微调的版本，同样 7B、13B 和 70B 参数三个版本，具体的训练方法与ChatGPT类似 1. 先是监督微调LLaMA2得到SFT版本 (接受了成千上万个人类标注数据的训练，本质是问题答案对 ) 1. 然后使用人类反馈强化学习(RLHF)进行迭代优化先训练一个奖励模型然后在奖励模型/优势函数的指引下，通过拒绝抽样(rejection sampling)和近端策略优化(PPO)的方法迭代模型的生成策略 LLAMA 2 的性能表现更加接近...

#LLM

READ

Kimi k1.5—CoT强化训练

Large Model

2026-01-11

概述 Kimi k1.5采用了一种简化而有效的强化学习框架，其核心在于长上下文扩展和改进的策略优化方法，而不依赖于更复杂的技术如蒙特卡洛树搜索、价值函数和过程奖励模型。问题设定给定训练数据集 D = \{(x_i, y^_i)\}_{i=1}^n ，其中包含问题 x_i 和对应的真实答案 y^_i ，目标是训练一个策略模型 [Math] 来准确解决测试问题。在复杂推理场景中，思维链(CoT)方法提出使用一系列中间步骤 z = (z_1, z_2, ..., z_m) 来连接问题 x 和答案 y ，每个 z_i 是解决问题的重要中间步骤。当解决问题 x 时，思维 [Math] 被自回归采样，最终答案 [Math] 。强化学习目标基于真实答案 y^ ，分配一个值 [Math] , Ki...

#Policy Gradient #Reinforcement Learning #LLM #Large Model

READ

Structured Generation

Large Model

2026-01-11

引言 Structured Generation with LLM，是指让LLM按照预先定义的schema，输出符合schema的结构化结果。常见的应用场景有： 1. 数据处理。主要功能为a b，即从源文本中抽取/生成符合schema的结果，例如给定新闻，进行分类、抽取关键词、生成总结等； 1. Agent。主要功能是Tool Calling，即根据用户query，选择适当的tool和入参。将 LLM 限制为始终生成符合特定模式的、有效的 JSON 或 YAML，是许多应用的关键功能。 Kor Kor，一个基于prompt的技术方案；Kor比较适合数据处理场景，且原理简单、易于理解，适合作为入门, 并且Kor适用于那些不支持function calling的比较旧的模型。使用Kor进行...

#Large Model #LLM

READ

投机采样之Medusa

Large Model

2026-01-11

概述 Medusa 是自投机领域较早的一篇工作，对后续工作启发很大，其主要思想是 multidecoding head + tree attention + typical acceptance(threshold)。Medusa 没有使用独立的草稿模型，而是在原始模型的基础上增加多个解码头（MEDUSA heads），并行预测多个后续 token。正常的LLM只有一个用于预测 t 时刻token的head。Medusa 在 LLM 的最后一个 Transformer层之后保留原始的 LM Head，然后额外增加多个（假设是 k 个）可训练的Medusa Head（解码头），分别负责预测 ...

#Acceleration #LLM

READ

投机采样之EAGLE

Large Model

2026-01-11

概述 MTP（Multitoken Prediction）的总体思路是：让模型使用n个独立的输出头来预测接下来的n个token，这n个独立的输出头共享同一个模型主干。这样通过解码阶段的优化，将1token的生成，转变成multitoken的生成，从而提升训练和推理的性能。在DeepSeek之前也有几个MTP方案，其侧重点各自不同。侧重推理时解码加速。比如论文“MEDUSA: Simple LLM Inference Acceleration Framework with Multiple Decoding Heads”、论文“EAGLE: Speculative Sampling Requires Rethinking Feature Uncertainty”等。这些方案通过一次生成多个...

#Acceleration #Large Model

READ

背包问题

Algorithm

2026-01-11

01背包描述有N件物品和一个容量为V的背包。第i件物品的体积是vi，价值是wi。求解将哪些物品装入背包，可使这些物品的总体积不超过背包流量，且总价值最大。二维动态规划 f[i][j] 表示只看前i个物品，总体积是j的情况下，总价值最大是多少。 result = max(f[n][0V]) f[i][j]: 不选第i个物品：f[i][j] = f[i1][j]; 选第i个物品：f[i][j] = f[i1][jv[i]] + w[i]（v[i]是第i个物品的体积）两者之间取最大。初始化：f[0][0] = 0 代码如下： [代码] 一维动态优化从上面二维的情况来看，f[i] 只与f[i1]相关，因此只用使用一个一维数组[0v]来存储前一个状态。那么如何来实现呢？第一个问题：状...

#Algorithm

READ

Bagel

Large Model

2026-01-11

简介 🔖 https://bagelai.org/ BAGEL 模型原生支持统一的多模态理解和生成，是一个 decoderonly 的模型，BAGEL 在包含文本、图像、视频和网络数据的大量多模态数据上进行了预训练，包括数万亿 tokens。尽管有一些研究尝试扩展其统一模型，但它们主要仍然依赖于标准图像生成和理解任务中的图像文本配对数据进行训练。然而，最近的研究发现，学术模型与 GPT4o 和 Gemini 2.0 等专有系统在统一多模态理解和生成方面存在显著差距，而这些专有系统的底层技术并未公开。作者认为，弥合这一差距的关键在于使用精心构建的多模态交错数据进行规模化训练。这种多模态交错数据整合了文本、图像、视频和网络来源。通过使用这种多样化的多模态交错数据进行扩展时，模型展现出复杂的、新...

#VLM #Large Model #Generating Model

READ

python heapq源码分析

Algorithm

2026-01-11

起步 heapq 模块实现了适用于Python列表的最小堆排序算法。堆是一个树状的数据结构，其中的子节点都与父母排序顺序关系。因为堆排序中的树是满二叉树，因此可以用列表来表示树的结构，使得元素 N 的子元素位于 2N + 1 和 2N + 2 的位置（对于从零开始的索引）。本文内容将分为三个部分，第一个部分简单介绍 heapq 模块的使用；第二部分回顾堆排序算法；第三部分分析heapq中的实现。 heapq 的使用创建堆有两个基本的方法：heappush() 和 heapify()，取出堆顶元素用 heappop()。 heappush() 是用来向已有的堆中添加元素，一般从空列表开始构建： [代码] 如果数据已经在列表中，则使用 heapify() 进行重排： [代码] 回顾堆排序算...

#Algorithm

READ

#

!

INCOMING TRANSMISSION

LLaMA 2

Kimi k1.5—CoT强化训练

Structured Generation

投机采样之Medusa

投机采样之EAGLE

背包问题

Bagel

python heapq源码分析