知识库 - Orange

39&40. 组合总和

Algorithm

2026-01-11

1. 可以重复选取给定一个无重复元素的数组 candidates 和一个目标数 target ，找出 candidates 中所有可以使数字和为 target 的组合。 candidates 中的数字可以无限制重复被选取。画出树状搜索图如下，为了去除重复的情况，我们需要按照某种顺序搜索，具体做法是：每一次搜索的时候，设置下一轮搜索的起点 [代码] 2. 不能被重复选取与上面的区别在于 1. index每次不要重复搜索，而是去寻找下一个 1. 排除重复的元素 [代码]

#Algorithm

READ

Kimi k1.5—CoT强化训练

Large Model

2026-01-11

概述 Kimi k1.5采用了一种简化而有效的强化学习框架，其核心在于长上下文扩展和改进的策略优化方法，而不依赖于更复杂的技术如蒙特卡洛树搜索、价值函数和过程奖励模型。问题设定给定训练数据集 D = \{(x_i, y^_i)\}_{i=1}^n ，其中包含问题 x_i 和对应的真实答案 y^_i ，目标是训练一个策略模型 [Math] 来准确解决测试问题。在复杂推理场景中，思维链(CoT)方法提出使用一系列中间步骤 z = (z_1, z_2, ..., z_m) 来连接问题 x 和答案 y ，每个 z_i 是解决问题的重要中间步骤。当解决问题 x 时，思维 [Math] 被自回归采样，最终答案 [Math] 。强化学习目标基于真实答案 y^ ，分配一个值 [Math] , Ki...

#Policy Gradient #Reinforcement Learning #LLM #Large Model

READ

N-Gram

NLP

2026-01-11

1. 什么是NGram模型 NGram是一种基于统计语言模型的算法。它的基本思想是将文本里面的内容按照字节进行大小为N的滑动窗口操作，形成了长度是N的字节片段序列。每一个字节片段称为gram，对所有gram的出现频度进行统计，并且按照事先设定好的阈值进行过滤，形成关键gram列表，也就是这个文本的向量特征空间，列表中的每一种gram就是一个特征向量维度。该模型基于这样一种假设，第N个词的出现只与前面N1个词相关，而与其它任何词都不相关，整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计N个词同时出现的次数得到。常用的是二元的BiGram和三元的TriGram。说完了ngram模型的概念之后，下面讲解ngram的一般应用。 2. NGram模型用于评估语句是否合理如果...

#NLP

READ

词向量与Embedding

NLP

2026-01-11

词向量，英文名叫Word Embedding，按照字面意思，应该是词嵌入。说到词向量，不少读者应该会立马想到Google出品的Word2Vec，大牌效应就是不一样。另外，用Keras之类的框架还有一个Embedding层，也说是将词ID映射为向量。由于先入为主的意识，大家可能就会将词向量跟Word2Vec等同起来，而反过来问“Embedding是哪种词向量？”这类问题，尤其是对于初学者来说，应该是很混淆的。事实上，哪怕对于老手，也不一定能够很好地说清楚。这一切，还得从one hot说起... 五十步笑百步 one hot，中文可以翻译为“独热”，是最原始的用来表示字、词的方式。为了简单，本文以字为例，词也是类似的。假如词表中有“科、学、空、间、不、错”六个字，one hot就是给这六个字分...

#NLP

READ

Policy Gradient 优化：TRPO，PPO

Reinforcement Learning

2026-01-11

💡 引言 Trust Region Policy Optimization (TRPO) 是2015年的ICML会议上提出的一种强大的基于策略的强化学习算法。TRPO 解决了传统策略梯度方法中的一些关键问题，特别是训练不稳定和步长选择困难的问题。与传统策略梯度算法相比，TRPO 具有更高的稳健性和样本效率，能够在复杂环境中取得更好的性能。优化基础在深入了解 TRPO 之前，我们需要先简单回顾一些优化方法的基础知识。梯度上升法梯度上升法是一种迭代优化算法，用于寻找函数的局部最大值。目标：找到使目标函数 [Math] 最大化的参数 [Math] ： [公式] 梯度上升迭代过程： 1. 在当前参数 [Math] 处计算梯度： [Math] 1. 更新参数：梯度上升法的主要问题是学习率的...

#Reinforcement Learning #Policy Gradient

READ

背包问题

Algorithm

2026-01-11

01背包描述有N件物品和一个容量为V的背包。第i件物品的体积是vi，价值是wi。求解将哪些物品装入背包，可使这些物品的总体积不超过背包流量，且总价值最大。二维动态规划 f[i][j] 表示只看前i个物品，总体积是j的情况下，总价值最大是多少。 result = max(f[n][0V]) f[i][j]: 不选第i个物品：f[i][j] = f[i1][j]; 选第i个物品：f[i][j] = f[i1][jv[i]] + w[i]（v[i]是第i个物品的体积）两者之间取最大。初始化：f[0][0] = 0 代码如下： [代码] 一维动态优化从上面二维的情况来看，f[i] 只与f[i1]相关，因此只用使用一个一维数组[0v]来存储前一个状态。那么如何来实现呢？第一个问题：状...

#Algorithm

READ

python heapq源码分析

Algorithm

2026-01-11

起步 heapq 模块实现了适用于Python列表的最小堆排序算法。堆是一个树状的数据结构，其中的子节点都与父母排序顺序关系。因为堆排序中的树是满二叉树，因此可以用列表来表示树的结构，使得元素 N 的子元素位于 2N + 1 和 2N + 2 的位置（对于从零开始的索引）。本文内容将分为三个部分，第一个部分简单介绍 heapq 模块的使用；第二部分回顾堆排序算法；第三部分分析heapq中的实现。 heapq 的使用创建堆有两个基本的方法：heappush() 和 heapify()，取出堆顶元素用 heappop()。 heappush() 是用来向已有的堆中添加元素，一般从空列表开始构建： [代码] 如果数据已经在列表中，则使用 heapify() 进行重排： [代码] 回顾堆排序算...

#Algorithm

READ

排序算法

Algorithm

2026-01-11

计数排序、基数排序、桶排序则属于非比较排序，算法时间复杂度O(n)，优于比较排序。但是也有弊端，会多占用一些空间，相当于是用空间换时间。 1. 计数排序：计数排序的基本思想是：对每一个输入的元素a[i]，确定小于 a[i] 的元素个数。所以可以直接把 a[i] 放到它输出数组中的位置上。假设有5个数小于 a[i]，所以 a[i] 应该放在数组的第6个位置上。实现代码如下： [代码] 2. 桶排序：桶排序的基本思想是：把数组a划分为n个大小相同子区间（桶），每个子区间各自排序，最后合并。桶排序要求数据的分布必须均匀，不然可能会失效。计数排序是桶排序的一种特殊情况，可以把计数排序当成每个桶里只有一个元素的情况。 [代码] 算法实现步骤 1. 根据待排序集合中最大元素和最小元素的差值范围和映...

#Algorithm

READ

215. 第k大元素

Algorithm

2026-01-11

题目说明在未排序的数组中找到第 k 个最大的元素。请注意，你需要找的是数组排序后的第 k 个最大的元素，而不是第 k 个不同的元素。示例 1: 输入: [3,2,1,5,6,4] 和 k = 2 输出: 5 示例 2: 输入: [3,2,3,1,2,4,5,5,6] 和 k = 4 输出: 4 题解使用快排的思想 [代码]

#Algorithm

READ

策略梯度方法（Policy Gradient Methods）

Reinforcement Learning

2026-01-11

引言与背景策略梯度方法是强化学习中的一种重要方法，它标志着从基于价值的方法向基于策略的方法的重要转变。之前我们主要讨论了基于价值的方法（valuebased），而策略梯度方法则直接优化策略函数(policybased)，这是一个重要的进步。当策略用函数表示时，策略梯度方法的核心思想是通过优化某些标量指标来获得最优策略。与传统的表格表示策略不同，策略梯度方法使用参数化函数 [Math] 来表示策略，其中 [Math] 是参数向量。这种表示方法也可以写成其他形式，如 [Math] 、 [Math] 或 [Math] 。策略梯度方法具有多种优势：更高效地处理大型状态/动作空间具有更强的泛化能力样本使用效率更高策略表示：从表格到函数当策略的表示从表格转变为函数时，存在以下几个关键区别...

#Reinforcement Learning #Policy Gradient

READ

二分查找

Algorithm

2026-01-11

💡 不断排除不存在解的区间，直至最后剩下一个这里归纳最重要的部分：分析题意，挖掘题目中隐含的单调性； while (left < right) 退出循环的时候有 left == right 成立，因此无需考虑返回left还是right；始终思考下一轮搜索区间是什么，如果是 [mid, right] 就对应 left = mid ，如果是 [left, mid 1] 就对应 right = mid 1，是保留 mid 还是 +1、−1 就在这样的思考中完成；从一个元素什么时候不是解开始考虑下一轮搜索区间是什么，把区间分为 2个部分（一个部分肯定不存在目标元素，另一个部分有可能存在目标元素），问题会变得简单很多，这是一条非常有用的经验；每一轮区间被划分成 2 部分，理解区间划...

#Algorithm

READ

GRPO(Group Relative Policy Optimization)

Reinforcement Learning

2026-01-11

GRPO(Group Relative Policy Optimization)

💡 GRPO相比PPO主要优势：背景 GRPO是 DeepSeekMath model中提出的对PPO方法的改进策略：强化学习(RL)在提升模型数学推理能力方面被证明是有效的传统PPO算法需要较大训练资源 GRPO作为PPO的变体被提出,可以更高效地优化模型 PPO回顾 PPO的目标函数为: [公式] 其中: [Math] 和 [Math] 分别是当前和旧策略模型 A_t 是优势函数 [Math] 是裁剪相关的超参数模型训练如图1上所示，PPO需要同时训练一个Value Model [Math] 和策略模型，同时需要reference model（通常从SFT model初始化）来限制策略模型训练保持和reference model的行为接近，而 Reward model用来计算...

#LLM #Policy Gradient #Reinforcement Learning

READ

#

!

INCOMING TRANSMISSION

39&40. 组合总和

Kimi k1.5—CoT强化训练

N-Gram

词向量与Embedding

Policy Gradient 优化：TRPO，PPO

背包问题

python heapq源码分析

排序算法

215. 第k大元素

策略梯度方法（Policy Gradient Methods）

二分查找

GRPO(Group Relative Policy Optimization)