知识库 - Orange

88. 合并两个（K个）有序数组

Algorithm

2026-01-11

题目 Given two sorted integer arrays nums1 and nums2, merge nums2 into nums1 as one sorted array. Note: The number of elements initialized in nums1 and nums2 are m and n respectively. You may assume that nums1 has enough space (size that is equal to m + n) to hold additional elements from nums2. Example: [代码] Constraints: 10^9 <= nums1[i], nums2[i] <...

#Algorithm

READ

搜索

Algorithm

2026-01-11

DFS

#Algorithm

READ

hive lateral view 与 explode

杂七杂八

2026-01-11

1. explode hive wiki对于expolde的解释如下： explode() takes in an array (or a map) as an input and outputs the elements of the array (map) as separate rows. UDTFs can be used in the SELECT expression list and as a part of LATERAL VIEW. As an example of using explode() in the SELECT expression list, consider a table named myTable that has a single column (m...

#大数据

READ

计算几何

Algorithm

2026-01-11

计算几何（Computational Geometry），是一系列使用计算机解决几何问题的算法。与解析几何相比，计算几何更适合计算机运算，精度较高，运算速度较快，并且易于编写。浮点误差程序设计中，考虑到浮点数 double 有精度误差，在比较时，通常允许一定的误差，即对于两个数 a 、 b ，如果 [Math] ，则认为 a=b 。一般根据题目要求， d （代码中命名为 EPS）取一个较小值，如 10^{8} 。 [代码] 向量向量（vector）是一个有大小和方向的量，在几何中，它被表示为带箭头的线段。向量可以用起点和终点的坐标来表示 —— 从点 A到点B 的向量表示为 [Math] 。向量的书写，两个大写字母上加一个箭头（表示方向） [Math] 向量没有位置，即向量可以在平面内...

#Algorithm

READ

UI-TARS

Large Model

2026-01-11

UITARS 简介 UITARS（User Interface Task Automation and Reasoning System）是由字节跳动（ByteDance）研发的原生 GUI 智能体模型：输入方式：仅使用屏幕截图作为视觉输入交互方式：执行类人操作（键盘输入、鼠标点击、拖拽等）模型特性：端到端的原生智能体模型，无需复杂的中间件或框架传统 GUI 智能体的开发往往依赖于文本信息，例如 HTML 结构和可访问性树。虽然这些方法取得了一些进展，但它们也存在一些局限性：平台不一致性：不同平台的 GUI 结构差异很大，导致智能体难以跨平台通用。信息冗余：文本信息往往过于冗长，增加了模型的处理负担。访问限制：获取系统底层的文本信息通常需要较高的权限，限制了应用的范围。模块化...

#Agent #VLM

READ

从DPG到DDPG

Reinforcement Learning

2026-01-11

引言 DDPG同样使用了ActorCritic的结构，Deterministic的确定性策略是和随机策略相对而言的，对于某一些动作集合来说，它可能是连续值，或者非常高维的离散值，这样动作的空间维度极大。如果我们使用随机策略，即像DQN一样研究它所有的可能动作的概率，并计算各个可能的动作的价值的话，那需要的样本量是非常大才可行的。于是有人就想出使用确定性策略来简化这个问题。作为随机策略，在相同的策略，在同一个状态 s 处，采用的动作 [Math] 是基于一个概率分布的，即是不确定的。而确定性策略则决定简单点，虽然在同一个状态处，采用的动作概率不同，但是最大概率只有一个，如果我们只取最大概率的动作，去掉这个概率分布，那么就简单多了。即作为确定性策略，相同的策略，在同一个状态处，动作是唯一确定的...

#Policy Gradient #Reinforcement Learning

READ

Actor-Critic Methods

Reinforcement Learning

2026-01-11

概述与理论背景 ActorCritic方法是强化学习中的一类重要算法，它巧妙地结合了基于策略(policybased)和基于价值(valuebased)的方法。在这种结构中，"Actor"指策略更新步骤，负责根据策略执行动作；而"Critic"指价值更新步骤，负责评估Actor的表现。从另一个角度看，ActorCritic方法本质上仍是策略梯度算法，可以通过扩展策略梯度算法获得。 ActorCritic方法在强化学习中的位置非常重要，它既保留了策略梯度方法直接优化策略的优势，又利用了值函数方法的效率。这种结合使得ActorCritic方法成为解决复杂强化学习问题的强大工具。最简单的ActorCritic算法(QAC) QAC算法通过扩展策略梯度方法得到。策略梯度方法的核心思想是通过最大化标...

#Policy Gradient #Reinforcement Learning

READ

164. 最大间距（乱序数组排序后最大间距）

Algorithm

2026-01-11

题目给定一个无序的数组，找出数组在排序之后，相邻元素之间最大的差值。如果数组元素个数小于 2，则返回 0。 Example 1: [代码] 解题思路：如果进行排序，这里会超时。采用桶排序排序算法的思想，可以在线性时间解决。 1. 首先建立桶，每个桶中只需要存放这个桶中元素的最大值和最小值。 1. 我们期望将数组中的各个数等距离分配，也就是每个桶的长度相同，也就是对于所有桶来说，桶内最大值减去桶内最小值都是一样的。可以当成公式来记。 1. 确定桶的数量，最后的加一保证了数组的最大值也能分到一个桶。为什么需要这样规定桶的尺寸呢？因为这样可以让最大的间距的两个元素在两个不同的桶中。可以证明一下，因为我们用元素范围之差除以元素个数，所以桶的尺寸就是平均的元素间距，显然最大间距的两个元素不可能...

#Algorithm

READ

39&40. 组合总和

Algorithm

2026-01-11

1. 可以重复选取给定一个无重复元素的数组 candidates 和一个目标数 target ，找出 candidates 中所有可以使数字和为 target 的组合。 candidates 中的数字可以无限制重复被选取。画出树状搜索图如下，为了去除重复的情况，我们需要按照某种顺序搜索，具体做法是：每一次搜索的时候，设置下一轮搜索的起点 [代码] 2. 不能被重复选取与上面的区别在于 1. index每次不要重复搜索，而是去寻找下一个 1. 排除重复的元素 [代码]

#Algorithm

READ

Kimi k1.5—CoT强化训练

Large Model

2026-01-11

概述 Kimi k1.5采用了一种简化而有效的强化学习框架，其核心在于长上下文扩展和改进的策略优化方法，而不依赖于更复杂的技术如蒙特卡洛树搜索、价值函数和过程奖励模型。问题设定给定训练数据集 D = \{(x_i, y^_i)\}_{i=1}^n ，其中包含问题 x_i 和对应的真实答案 y^_i ，目标是训练一个策略模型 [Math] 来准确解决测试问题。在复杂推理场景中，思维链(CoT)方法提出使用一系列中间步骤 z = (z_1, z_2, ..., z_m) 来连接问题 x 和答案 y ，每个 z_i 是解决问题的重要中间步骤。当解决问题 x 时，思维 [Math] 被自回归采样，最终答案 [Math] 。强化学习目标基于真实答案 y^ ，分配一个值 [Math] , Ki...

#Reinforcement Learning #LLM #Large Model #Policy Gradient

READ

Policy Gradient 优化：TRPO，PPO

Reinforcement Learning

2026-01-11

💡 引言 Trust Region Policy Optimization (TRPO) 是2015年的ICML会议上提出的一种强大的基于策略的强化学习算法。TRPO 解决了传统策略梯度方法中的一些关键问题，特别是训练不稳定和步长选择困难的问题。与传统策略梯度算法相比，TRPO 具有更高的稳健性和样本效率，能够在复杂环境中取得更好的性能。优化基础在深入了解 TRPO 之前，我们需要先简单回顾一些优化方法的基础知识。梯度上升法梯度上升法是一种迭代优化算法，用于寻找函数的局部最大值。目标：找到使目标函数 [Math] 最大化的参数 [Math] ： [公式] 梯度上升迭代过程： 1. 在当前参数 [Math] 处计算梯度： [Math] 1. 更新参数：梯度上升法的主要问题是学习率的...

#Policy Gradient #Reinforcement Learning

READ

背包问题

Algorithm

2026-01-11

01背包描述有N件物品和一个容量为V的背包。第i件物品的体积是vi，价值是wi。求解将哪些物品装入背包，可使这些物品的总体积不超过背包流量，且总价值最大。二维动态规划 f[i][j] 表示只看前i个物品，总体积是j的情况下，总价值最大是多少。 result = max(f[n][0V]) f[i][j]: 不选第i个物品：f[i][j] = f[i1][j]; 选第i个物品：f[i][j] = f[i1][jv[i]] + w[i]（v[i]是第i个物品的体积）两者之间取最大。初始化：f[0][0] = 0 代码如下： [代码] 一维动态优化从上面二维的情况来看，f[i] 只与f[i1]相关，因此只用使用一个一维数组[0v]来存储前一个状态。那么如何来实现呢？第一个问题：状...

#Algorithm

READ

#

!

INCOMING TRANSMISSION

88. 合并两个（K个）有序数组

搜索

hive lateral view 与 explode

计算几何

UI-TARS

从DPG到DDPG

Actor-Critic Methods

164. 最大间距（乱序数组排序后最大间距）

39&40. 组合总和

Kimi k1.5—CoT强化训练

Policy Gradient 优化：TRPO，PPO

背包问题