知识库 - Orange

题目给定一个二叉树, 找到该树中两个指定节点的最近公共祖先。百度百科中最近公共祖先的定义为：“对于有根树 T 的两个节点 p、q，最近公共祖先表示为一个节点 x，满足 x 是 p、q 的祖先且 x 的深度尽可能大（一个节点也可以是它自己的祖先）。” 示例 1：输入：root = [3,5,1,6,2,0,8,null,null,7,4], p = 5, q = 1 输出：3 解释：节点 5 和节点 1 的最近公共祖先是节点 3 。示例 2：输入：root = [3,5,1,6,2,0,8,null,null,7,4], p = 5, q = 4 输出：5 解释：节点 5 和节点 4 的最近公共祖先是节点 5 。因为根据定义最近公共祖先节点可以为节点本身。示例 3：输入：root...

#Algorithm

READ

88. 合并两个（K个）有序数组

Algorithm

2026-01-11

题目 Given two sorted integer arrays nums1 and nums2, merge nums2 into nums1 as one sorted array. Note: The number of elements initialized in nums1 and nums2 are m and n respectively. You may assume that nums1 has enough space (size that is equal to m + n) to hold additional elements from nums2. Example: [代码] Constraints: 10^9 <= nums1[i], nums2[i] <...

#Algorithm

READ

LLM Finetuning— Prompt & Instruct&Chain-of-Thought

Large Model

2026-01-11

PrefixTuning Paper: 2021.1 Optimizing Continuous Prompts for GenerationGithub：https://github.com/XiangLi1999/PrefixTuningPrompt: Continus Prefix PromptTask & Model：BART(Summarization), GPT2(Table2Text) 最早提出Prompt微调的论文之一，其实是可控文本生成领域的延伸，因此只针对摘要和Table2Text这两个生成任务进行了评估。 PrefixTuning可以理解是CTRL模型的连续化升级版，为了生成不同领域和话题的文本，CTRL是在预训练阶段在输入文本前加入了control code，例如好评...

#LLM #Fine-tuning

READ

LLM Finetuning— Adapter Tuning

Large Model

2026-01-11

背景随着预训练语言模型进入LLM时代，其参数量愈发庞大。全量微调模型所有参数所需的显存早已水涨船高。例如：全参微调Qwen1.57BChat预估要2张80GB的A800，160GB显存全参微调Qwen1.572BChat预估要20张80GB的A800，至少1600GB显存。而且，通常不同的下游任务还需要LLM的全量参数，对于算法服务部署来说简直是个灾难当然，一种折衷做法就是全量微调后把增量参数进行SVD分解保存，推理时再合并参数为了寻求一个不更新全部参数的廉价微调方案，之前一些预训练语言模型的高效微调(Parameter Efficient finetuning, PEFT)工作，要么插入一些参数或学习外部模块来适应新的下游任务。 Adapter tuning Adapter ...

#Fine-tuning #LLM

READ

搜索

Algorithm

2026-01-11

DFS

#Algorithm

READ

VQ-VAE

Generative Model

2026-01-11

简介作为一个自编码器，VQVAE的一个明显特征是它编码出的编码向量是离散的，换句话说，它最后得到的编码向量的每个元素都是一个整数，这也就是“Quantised”的含义，我们可以称之为“量子化”（跟量子力学的“量子”一样，都包含离散化的意思）。明明整个模型都是连续的、可导的，但最终得到的编码向量却是离散的，并且重构效果看起来还很清晰（如文章开头的图），这至少意味着VQVAE会包含一些有意思、有价值的技巧，值得我们学习一番。首先，VQVAE其实就是一个AE（自编码器）而不是VAE（变分自编码器），我不知道作者出于什么目的非得用概率的语言来沾VAE的边，这明显加大了读懂这篇论文的难度。其次，VQVAE的核心步骤之一是StraightThrough Estimator，这是将引变量离散化后的优...

#Generating Model #VAE

READ

强化学习Model-Free之蒙特卡洛

Reinforcement Learning

2026-01-11

引言与背景蒙特卡洛方法是强化学习中的重要算法类别，它标志着从基于模型到无模型算法的转变。这类算法不依赖环境模型，而是通过与环境的直接交互获取经验数据来学习最优策略。蒙特卡洛方法在强化学习算法谱系中处于"无模型"方法的起始位置，是从基于模型的方法（如值迭代和策略迭代）向无模型方法过渡的第一步。无模型强化学习的核心理念可以简述为：如果没有模型，我们必须有数据；如果没有数据，我们必须有模型；如果两者都没有，我们就无法找到最优策略。在强化学习中，"数据"通常指智能体与环境交互的经验。均值估计问题在介绍蒙特卡洛强化学习算法之前，我们首先需要理解均值估计问题，这是理解从数据而非模型中学习的基础。考虑一个可以取有限实数集合 X 中值的随机变量 X ，我们的任务是计算 X 的均值或期望值： E[...

#Q-Learning #Reinforcement Learning

READ

计算几何

Algorithm

2026-01-11

计算几何（Computational Geometry），是一系列使用计算机解决几何问题的算法。与解析几何相比，计算几何更适合计算机运算，精度较高，运算速度较快，并且易于编写。浮点误差程序设计中，考虑到浮点数 double 有精度误差，在比较时，通常允许一定的误差，即对于两个数 a 、 b ，如果 [Math] ，则认为 a=b 。一般根据题目要求， d （代码中命名为 EPS）取一个较小值，如 10^{8} 。 [代码] 向量向量（vector）是一个有大小和方向的量，在几何中，它被表示为带箭头的线段。向量可以用起点和终点的坐标来表示 —— 从点 A到点B 的向量表示为 [Math] 。向量的书写，两个大写字母上加一个箭头（表示方向） [Math] 向量没有位置，即向量可以在平面内...

#Algorithm

READ

LLM Finetuning— Lora

Large Model

2026-01-11

背景随着预训练语言模型进入LLM时代，其参数量愈发庞大。全量微调模型所有参数所需的显存早已水涨船高。例如：全参微调Qwen1.57BChat预估要2张80GB的A800，160GB显存全参微调Qwen1.572BChat预估要20张80GB的A800，至少1600GB显存。而且，通常不同的下游任务还需要LLM的全量参数，对于算法服务部署来说简直是个灾难当然，一种折衷做法就是全量微调后把增量参数进行SVD分解保存，推理时再合并参数为了寻求一个不更新全部参数的廉价微调方案，之前一些预训练语言模型的高效微调(Parameter Efficient finetuning, PEFT)工作，要么插入一些参数或学习外部模块来适应新的下游任务。 LoRA LoRA（LowRank Adapt...

#LLM #Fine-tuning

READ

从价值函数到DQN

Reinforcement Learning

2026-01-11

引言与背景价值函数方法是强化学习中的核心技术，它解决了传统表格方法在处理大型状态或动作空间时的效率问题。本文探讨了从表格表示向函数表示的转变，这是强化学习算法发展的重要里程碑。在强化学习的发展路径中，价值函数方法位于从基于模型到无模型、从表格表示到函数表示的演进过程中。它结合了时序差分学习的思想，并通过函数近似技术来处理复杂环境。价值表示：从表格到函数表格与函数表示的对比传统的表格方法将状态值存储在一个表格中：而函数近似方法则使用参数化函数来表示这些值，例如： [公式] 其中 [Math] 称作是状态 s 的特征向量， w 是参数向量。两种不同的表现形式的区别主要体现在以下几个方面：值的检索方式值的更新方式函数复杂度与近似能力函数的复杂度决定了其近似的能力：一阶线性函...

#Reinforcement Learning #Q-Learning

READ

#

!

INCOMING TRANSMISSION

动态规划

排序

236. 二叉树的最近公共祖先

88. 合并两个（K个）有序数组

LLM Finetuning— Prompt & Instruct&Chain-of-Thought

LLM Finetuning— Adapter Tuning

搜索

VQ-VAE

强化学习Model-Free之蒙特卡洛

计算几何

LLM Finetuning— Lora

从价值函数到DQN