知识库 - Orange

二分查找

Algorithm

2026-01-11

💡 不断排除不存在解的区间，直至最后剩下一个这里归纳最重要的部分：分析题意，挖掘题目中隐含的单调性； while (left < right) 退出循环的时候有 left == right 成立，因此无需考虑返回left还是right；始终思考下一轮搜索区间是什么，如果是 [mid, right] 就对应 left = mid ，如果是 [left, mid 1] 就对应 right = mid 1，是保留 mid 还是 +1、−1 就在这样的思考中完成；从一个元素什么时候不是解开始考虑下一轮搜索区间是什么，把区间分为 2个部分（一个部分肯定不存在目标元素，另一个部分有可能存在目标元素），问题会变得简单很多，这是一条非常有用的经验；每一轮区间被划分成 2 部分，理解区间划...

#Algorithm

READ

KMP算法

Algorithm

2026-01-11

kmp算法用于字符串的模式匹配，也就是找到模式字符串在目标字符串的第一次出现的位置比如abababc那么bab在其位置1处，bc在其位置5处，我们首先想到的最简单的办法就是蛮力的一个字符一个字符的匹配，但那样的时间复杂度会是O(mn)。kmp算法保证了时间复杂度为O(m+n)。基本原理举个例子：发现x与c不同后，进行移动 a与x不同，再次移动此时比较到了c与y，于是下一步移动成了下面这样这一次的移动与前两次的移动不同，之前每次比较到上面长字符串的字符位置后，直接把模式字符串的首字符与它对齐，这次并没有，原因是这次移动之前，y与c对齐，但是y前边的ab是与自己的前缀ab一样，于是ab并不用再比较，直接从第三个位置开始比较，如图：所以说kmp算法对于这种情况就直接使用当前比较字符之...

#Algorithm

READ

CV数据增强

Deep Learning

2026-01-11

Random erasing data augmentation 论文名称：Random erasing data augmentation 论文地址：https://arxiv.org/pdf/1708.04896v2.pdf 随机擦除增强，非常容易理解。作者提出的目的主要是模拟遮挡，从而提高模型泛化能力，这种操作其实非常make sense，因为我把物体遮挡一部分后依然能够分类正确，那么肯定会迫使网络利用局部未遮挡的数据进行识别，加大了训练难度，一定程度会提高泛化能力。其也可以被视为add noise的一种，并且与随机裁剪、随机水平翻转具有一定的互补性，综合应用他们，可以取得更好的模型表现，尤其是对噪声和遮挡具有更好的鲁棒性。具体操作就是：随机选择一个区域，然后采用随机值进行覆盖，模拟遮...

#DL基础 #CV

READ

478. 在圆内随机生成点

Algorithm

2026-01-11

题意给定平面上一个圆的圆心位置和半径，从圆中以均匀的概率随机选取点。分析拒绝取样其实我的第一反应是用拒绝取样（Rejection Sampling）的思路来做：首先从这个圆的与坐标轴平行的外切正方形中均匀随机选取点，然后判断点是否位于圆中；如果不在，重新生成一个新的点，再次进行判断；否则直接返回。直觉上来说，拒绝取样显然是正确的；不过我们可以用一种稍微更加形式化的方法来描述。（以下内容参考了拒绝采样（reject sampling）的简单认识，非常直观形象。）下图是一个随机变量的密度函数曲线，试问如何获得这个随机变量的样本呢？如果你像我一样，已经把概率论与数理统计统统还给数学老师了，那么提示一下，概率密度函数（PDF）是累积分布函数（CDF）的导数，反映的是概率的“密集程度”。...

#Algorithm

READ

先序遍历和后序遍历为什么不能唯一地确定一棵树？

Algorithm

2026-01-11

根据一棵树的先序遍历和中序遍历，或者后序遍历和中序遍历序列，都可以唯一地确定一棵树。树中的节点，分为度为0，1，2的结点。如果树中只有一个节点，那么可以唯一确定一棵树，即只有一个节点的树。当树中结点个数大于等于2的情况，树中的叶子结点和它的父亲结点中，至少有一种存在如下的情况。（为方便起见，我们先从叶子节点入手） case 1: case2: case 3: A D F / \ / \ B C E G 即，叶子结点的父亲有两个孩子，只有左孩子，只有右孩子的情况。我们只需要证明，如果树存在这三种结构中的哪一种，可以唯一确定一棵树，什么情况下又不能唯一确定一棵树呢? 1. case 1: A / \ B C 前序遍历： ABC，后序遍历： BCA 现在，我们根据遍历序列，看看能否得到另一种...

#Algorithm

READ

从GRPO到GSPO、DAPO

Reinforcement Learning

2026-01-11

回顾 PPO [公式] 其中 (q, a) 是数据集 [Math] 中采样的 questionanswer pair, [Math] 是重要性采样比的clip范围, [Math] 是时间步 t 的优势估计量. 给定 value function V 和 reward function R , [Math] 使用广义优势估计 (GAE) 来计算: [公式] 其中， [公式] GRPO 相比于 PPO, GRPO 去掉了value function 并以分组的方式估计优势。对于特定的问答对 (q, a), behavior policy [Math] 生成了一组 G 个 response \{o...

#Reinforcement Learning #Large Model

READ

Hadoop

杂七杂八

2026-01-11

Apache Hadoop 是一款支持数据密集型分布式应用程序并以Apache 2.0许可协议发布的开源软件框架。它支持在商用硬件构建的大型集群上运行的应用程序。Hadoop是根据谷歌公司发表的MapReduce 和Google文件系统的论文自行实现而成。所有的Hadoop模块都有一个基本假设，即硬件故障是常见情况，应该由框架自动处理。具体参考官方教程。 Hadoop架构 HDFS: 分布式文件存储 YARN: 分布式资源管理 MapReduce: 分布式计算 Others: 利用YARN的资源管理功能实现其他的数据处理方式内部各个节点基本都是采用MasterWoker架构 Hadoop HDFS 架构 Block数据块; NameNode Secondary NameNode DataN...

#大数据

READ

CV-正则化方法

Deep Learning

2026-01-11

DropBlock 论文题目：DropBlock: A regularization method for convolutional networks 论文地址：https://arxiv.org/abs/1810.12890 由于dropBlock其实是dropout在卷积层上的推广，故很有必须先说明下dropout操作。 dropout，训练阶段在每个minibatch中，依概率P随机屏蔽掉一部分神经元，只训练保留下来的神经元对应的参数，屏蔽掉的神经元梯度为0，参数不参数与更新。而测试阶段则又让所有神经元都参与计算。 dropout操作流程：参数是丢弃率p 1）在训练阶段，每个minibatch中，按照伯努利概率分布(采样得到0或者1的向量，0表示丢弃)随机的丢弃一部分神经元（即神经元...

#CV #DL基础

READ

#

!

INCOMING TRANSMISSION

二分查找

KMP算法

CV数据增强

478. 在圆内随机生成点

先序遍历和后序遍历为什么不能唯一地确定一棵树？

从GRPO到GSPO、DAPO

Hadoop

CV-正则化方法