知识库 - Orange

策略梯度方法（Policy Gradient Methods）

2026-01-11

引言与背景策略梯度方法是强化学习中的一种重要方法，它标志着从基于价值的方法向基于策略的方法的重要转变。之前我们主要讨论了基于价值的方法（valuebased），而策略梯度方法则直接优化策略函数(policybased)，这是一个重要的进步。当策略用函数表示时，策略梯度方法的核心思想是通过优化某些标量指标来获得最优策略。与传统的表格表示策略不同，策略梯度方法使用参数化函数 [Math] 来表示策略，其中 [Math] 是参数向量。这种表示方法也可以写成其他形式，如 [Math] 、 [Math] 或 [Math] 。策略梯度方法具有多种优势：更高效地处理大型状态/动作空间具有更强的泛化能力样本使用效率更高策略表示：从表格到函数当策略的表示从表格转变为函数时，存在以下几个关键区别...

#Reinforcement Learning #Policy Gradient

READ

二分查找

Algorithm

2026-01-11

💡 不断排除不存在解的区间，直至最后剩下一个这里归纳最重要的部分：分析题意，挖掘题目中隐含的单调性； while (left < right) 退出循环的时候有 left == right 成立，因此无需考虑返回left还是right；始终思考下一轮搜索区间是什么，如果是 [mid, right] 就对应 left = mid ，如果是 [left, mid 1] 就对应 right = mid 1，是保留 mid 还是 +1、−1 就在这样的思考中完成；从一个元素什么时候不是解开始考虑下一轮搜索区间是什么，把区间分为 2个部分（一个部分肯定不存在目标元素，另一个部分有可能存在目标元素），问题会变得简单很多，这是一条非常有用的经验；每一轮区间被划分成 2 部分，理解区间划...

#Algorithm

READ

GRPO(Group Relative Policy Optimization)

Reinforcement Learning

2026-01-11

GRPO(Group Relative Policy Optimization)

💡 GRPO相比PPO主要优势：背景 GRPO是 DeepSeekMath model中提出的对PPO方法的改进策略：强化学习(RL)在提升模型数学推理能力方面被证明是有效的传统PPO算法需要较大训练资源 GRPO作为PPO的变体被提出,可以更高效地优化模型 PPO回顾 PPO的目标函数为: [公式] 其中: [Math] 和 [Math] 分别是当前和旧策略模型 A_t 是优势函数 [Math] 是裁剪相关的超参数模型训练如图1上所示，PPO需要同时训练一个Value Model [Math] 和策略模型，同时需要reference model（通常从SFT model初始化）来限制策略模型训练保持和reference model的行为接近，而 Reward model用来计算...

#LLM #Policy Gradient #Reinforcement Learning

READ

Object Detection

Computer Vision

2026-01-11

上图是Yolo v4中，对各种detector部件的总结：包含Input、backbone、neck、head、... Backbone Neck 例如：SPP 、 ASPP 、 RFB、 SAM 用来增加感受野特征融合，主要是指不同输出层直接的特征融合，主要包括FPN、PAN、SFAM、ASFF和BiFPN。结构 One stage TwoStage Anchor Free Transformer Problems

#CV #Object Detection

READ

KMP算法

Algorithm

2026-01-11

kmp算法用于字符串的模式匹配，也就是找到模式字符串在目标字符串的第一次出现的位置比如abababc那么bab在其位置1处，bc在其位置5处，我们首先想到的最简单的办法就是蛮力的一个字符一个字符的匹配，但那样的时间复杂度会是O(mn)。kmp算法保证了时间复杂度为O(m+n)。基本原理举个例子：发现x与c不同后，进行移动 a与x不同，再次移动此时比较到了c与y，于是下一步移动成了下面这样这一次的移动与前两次的移动不同，之前每次比较到上面长字符串的字符位置后，直接把模式字符串的首字符与它对齐，这次并没有，原因是这次移动之前，y与c对齐，但是y前边的ab是与自己的前缀ab一样，于是ab并不用再比较，直接从第三个位置开始比较，如图：所以说kmp算法对于这种情况就直接使用当前比较字符之...

#Algorithm

READ

RLHF in LLM

Reinforcement Learning

2026-01-11

引言大语言模型（LLMs）在近年来取得了显著进展，展现出上下文学习、指令跟随和逐步推理等突出特性。然而，由于这些模型是在包含高质量和低质量数据的预训练语料库上训练的，它们可能会表现出编造事实、生成有偏见或有毒文本等意外行为。因此，将LLMs与人类价值观对齐变得至关重要，特别是在帮助性、诚实性和无害性（3H）方面。基于人类反馈的强化学习（RLHF）已被验证为有效的对齐方法，但训练过程复杂且不稳定。本文深入分析了RLHF框架，特别是PPO算法的内部工作原理，并提出了PPOmax算法，以提高策略模型训练的稳定性和效果。 RLHF的基本框架 RLHF训练过程包括三个主要阶段： 1. 监督微调（SFT）：模型通过模仿人类标注的对话示例来学习一般的人类对话方式，优化模型的指令跟随能力 1. 奖励模...

#Reinforcement Learning #LLM #Policy Gradient

READ

CV数据增强

Deep Learning

2026-01-11

Random erasing data augmentation 论文名称：Random erasing data augmentation 论文地址：https://arxiv.org/pdf/1708.04896v2.pdf 随机擦除增强，非常容易理解。作者提出的目的主要是模拟遮挡，从而提高模型泛化能力，这种操作其实非常make sense，因为我把物体遮挡一部分后依然能够分类正确，那么肯定会迫使网络利用局部未遮挡的数据进行识别，加大了训练难度，一定程度会提高泛化能力。其也可以被视为add noise的一种，并且与随机裁剪、随机水平翻转具有一定的互补性，综合应用他们，可以取得更好的模型表现，尤其是对噪声和遮挡具有更好的鲁棒性。具体操作就是：随机选择一个区域，然后采用随机值进行覆盖，模拟遮...

#DL基础 #CV

READ

478. 在圆内随机生成点

Algorithm

2026-01-11

题意给定平面上一个圆的圆心位置和半径，从圆中以均匀的概率随机选取点。分析拒绝取样其实我的第一反应是用拒绝取样（Rejection Sampling）的思路来做：首先从这个圆的与坐标轴平行的外切正方形中均匀随机选取点，然后判断点是否位于圆中；如果不在，重新生成一个新的点，再次进行判断；否则直接返回。直觉上来说，拒绝取样显然是正确的；不过我们可以用一种稍微更加形式化的方法来描述。（以下内容参考了拒绝采样（reject sampling）的简单认识，非常直观形象。）下图是一个随机变量的密度函数曲线，试问如何获得这个随机变量的样本呢？如果你像我一样，已经把概率论与数理统计统统还给数学老师了，那么提示一下，概率密度函数（PDF）是累积分布函数（CDF）的导数，反映的是概率的“密集程度”。...

#Algorithm

READ

先序遍历和后序遍历为什么不能唯一地确定一棵树？

Algorithm

2026-01-11

根据一棵树的先序遍历和中序遍历，或者后序遍历和中序遍历序列，都可以唯一地确定一棵树。树中的节点，分为度为0，1，2的结点。如果树中只有一个节点，那么可以唯一确定一棵树，即只有一个节点的树。当树中结点个数大于等于2的情况，树中的叶子结点和它的父亲结点中，至少有一种存在如下的情况。（为方便起见，我们先从叶子节点入手） case 1: case2: case 3: A D F / \ / \ B C E G 即，叶子结点的父亲有两个孩子，只有左孩子，只有右孩子的情况。我们只需要证明，如果树存在这三种结构中的哪一种，可以唯一确定一棵树，什么情况下又不能唯一确定一棵树呢? 1. case 1: A / \ B C 前序遍历： ABC，后序遍历： BCA 现在，我们根据遍历序列，看看能否得到另一种...

#Algorithm

READ

ATSS

Computer Vision

2026-01-11

Introduction 由于FPN和Focal loss 的加入，anchorfree模型变得越来越多。在仔细比对了anchorbased和anchorfree目标检测方法后，结合实验结果，论文认为两者的性能差异主要来源于正负样本的定义，假如训练过程中使用相同的正负样本，两者的最终性能将会相差无几。作者将目前的Anchorfree分为两个大类： 1. keypointbased methods：以CornerNet和ExtremeNet为代表，首先定位几个预定义或自学习的关键点，然后限制物体的空间范围； 1. centerbased methods：以FCOS和Foveabox为代表，使用物体的中心点或区域定义基准点，然后预测从该点到物体边界的四个距离。为此，论文提出ATSS( Ada...

#CV #Object Detection

READ

CornerNet

Computer Vision

2026-01-11

简介 CornerNet是密歇根大学Hei Law等人在发表ECCV2018的一篇论文，作者总结目前anchorbased方法存在两个缺点： 1. 提取的anchor boxes数量较多，比如DSSD使用40k， RetinaNet使用100k，anchor boxes众多造成anchor boxes正负样本的不均衡； 1. anchor boxes需要调整很多超参数，比如anchor boxes数量、尺寸、比率，影响模型的训练和推断速率。作者的思路其实来源于一篇多人姿态估计的论文"Endtoend learning for joint detection and grouping"。基于CNN的2D多人姿态估计方法，通常有2个思路（BottomUp Approaches和TopDown ...

#CV #Object Detection

READ

Softmax-based Loss的演化史

Computer Vision

2026-01-11

近期，人脸识别研究领域的主要进展之一集中在了 Softmax Loss 的改进之上；本文从两种主要的改进方式——做归一化以及增加类间 margin——展开梳理，介绍了近年来基于 Softmax 的 Loss 的研究进展。 Softmax简介 Softmax Loss 因为其易于优化，收敛快等特性被广泛应用于图像分类领域。然而，直接使用 softmax loss 训练得到的 feature 拿到 retrieval，verification 等“需要设阈值”的任务时，往往并不够好。这其中的原因还得从 Softmax 的本身的定义说起，Softmax loss 在形式上是 softmax 函数加上交叉熵损失，它的目的是让所有的类别在概率空间具有最大的对数似然，也就是保证所有的类别都能分类正确，...

#人脸识别 #CV

READ

#

!

INCOMING TRANSMISSION

策略梯度方法（Policy Gradient Methods）

二分查找

GRPO(Group Relative Policy Optimization)

Object Detection

KMP算法

RLHF in LLM

CV数据增强

478. 在圆内随机生成点

先序遍历和后序遍历为什么不能唯一地确定一棵树？

ATSS

CornerNet

Softmax-based Loss的演化史