知识库 - Orange

优先队列

Algorithm

2026-02-25

堆和优先队列的关系这是一个非常经典且核心的计算机科学概念问题。一言以蔽之：优先队列（Priority Queue）是逻辑接口（ADT），而堆（Heap）是实现这个接口最高效的物理数据结构。它们的关系可以类比为 “接口（Interface）” 与 “实现类（Implementation）” 的关系，或者 “汽车（功能）”与 “发动机（核心组件）” 的关系。优先队列 (Priority Queue) —— 逻辑层 (ADT) 定义：它是一种抽象数据类型 (Abstract Data Type, ADT) 。它定义了数据的行为，而不是数据的存储方式。规则：普通的队列是“先进先出”（FIFO），而优先队列是 “优先级最高的先出” 。核心操作： insert(item, priority) : 插入一个带优先级的元素。 deleteMax() 或 deleteMin() : 取出并删除优先级最高（或最低）的元素。 peek() : 查看优先级最高的元素。堆 (Heap) —— 物理层 (Data Structure) 定义：它是一种具体的数据结构。通常指二叉堆...

#Algorithm

READ

背包问题

Algorithm

2026-02-13

引入在具体讲何为「背包 dp」前，先来看如下的例题：题意概要：有 \( 𝑛\) 个物品和一个容量为 \( 𝑊\) 的背包，每个物品有重量 \(𝑤_𝑖\) 和价值 \(𝑣_𝑖\) 两种属性，要求选若干物品放入背包使背包中物品的总价值最大且背包中物品的总重量不超过背包的容量．在上述例题中，由于每个物体只有两种可能的状态（取与不取），对应二进制中的 0 和 1，这类问题便被称为「0-1 背包问题」． 0-1背包解释例题中已知条件有第 \(𝑖\) 个物品的重量 \(𝑤_𝑖\) ，价值 \(𝑣_𝑖\) ，以及背包的总容量 \(𝑊\) ．设 DP 状态 \(𝑓_{𝑖,𝑗} \) 为在只能放前 \(𝑖\) 个物品的情况下，容量为 \(𝑗\) 的背包所能达到的最大总价值．考虑转移．假设当前已经处理好了前 \(𝑖 −1 \) 个物品的所有状态，那么对于第 \(𝑖\) 个物品，当其不放入背包时，背包的剩余容量不变，背包中物品的总价值也不变，故这种情况的最大价值为 \(𝑓_{𝑖−1,𝑗}\) ；当其放入背包时，背包的剩余容量会减小 \(𝑤_𝑖\) ，背包中物品的总价值会增大 \(𝑣_𝑖\)...

#Algorithm

READ

最小生成树

Algorithm

2026-02-13

简介生成树（spanning tree）在图论中，无向图 \(G=(V,E)\) 的生成树（spanning tree)是具有 \(G\) 的全部顶点，但边数最少的联通子图。假设 \(G\) 中一共有 \(n\) 个顶点，一颗生成树满足下列条件 \(n\) 个顶点； \(n-1\) 条边； \(n\) 个顶点联通；一个图的生成树可能有多个。最小生成树（minimum spanning tree， MST）/最小生成森林：联通加权无向图中边缘权重加和最小的生成树。给定无向图 \(G=(V,E)\) ， \((u,v)\) 代表顶点 \(u\) 与顶点 \(v\) 的边， \(w(u,v)\) 代表此边的权重，若存在生成树T使得： \[w(T) = \sum_{(u,v)\in T}w(w,v)\] 最小，则 \(T\) 为 \(G\) 的最小生成树。对于非连通无向图来说，它的每一连通分量同样有最小生成树，它们的并被称为最小生成森林。最小生成树除了继承生成树的性质之外，还存在下面两个特点：当图的每一条边的权值都相同时，该图的所有生成树都是最小生成树；...

#Algorithm

READ

VoteNet

3D Model

2026-02-12

Hough Voting 本文的标题是Deep Hough Voting，先来说一下Hough Voting。用Hough变换检测直线大家想必都听过：对于一条直线，可以使用 \((r,θ)\) 两个参数进行描述，那么对于图像中的一点，过这个点的直线有很多条，可以生成一系列的 \((r,θ)\) ，在参数平面内就是一条曲线，也就是说，一个点对应着参数平面内的一个曲线。那如果有很多个点，则会在参数平面内生成很多曲线。那么，如果这些点是能构成一条直线的，那么这条直线的参数 \((r,θ)\) 就在每条曲线中都存在，所以看起来就像是多条曲线相交在 \((r,θ)\) 。可以用多条曲线投票的方式来看，其他点都是很少的票数，而 \((r,θ)\) 则票数很多，所以直线的参数就是 \((r,θ)\) 。所以Hough变换的思想就是在于，在参数空间内进行投票，投票得数高的就是要得到的值。文中提到的Hough Voting如下： A traditional Hough voting 2D detector comprises an offline and an online step....

#3D #PointCloud

READ

PointNet系列

3D Model

2026-02-12

三维深度学习简介多视角（multi-view）：通过多视角二维图片组合为三维物体，此方法将传统CNN应用于多张二维视角的图片，特征被view pooling procedure聚合起来形成三维物体；体素（volumetric）：通过将物体表现为空间中的体素进行类似于二维的三维卷积（例如，卷积核大小为5x5x5），是规律化的并且易于类比二维的，但同时因为多了一个维度出来，时间和空间复杂度都非常高，目前已经不是主流的方法了；点云（point clouds）：直接将三维点云抛入网络进行训练，数据量小。主要任务有分类、分割以及大场景下语义分割；非欧式（manifold，graph）：在流形或图的结构上进行卷积，三维点云可以表现为mesh结构，可以通过点对之间临接关系表现为图的结构。点云的特性无序性...

#3D #PointCloud

READ

PointConv

3D Model

2026-02-12

概括这篇文章将卷积比较自然地拓展到点云的情形，思路很赞！文章的主要创新点：“weight function”和“density function”，并能实现translation-invariance和permutation-invariance，可以实现层级化特征提取，而且能自然推广到其deconvolution的情形实现分割，在二维CIFAR-10图像分类任务中精度堪比CNN（表明能够充分近似卷积网络），达到了SOTA的性能。缺点：每个kernel都需要由“kernel function”生成，而“kernel function”实质上是一个CNN网络，计算量比较大。思想察觉到：二维卷积中pixel的相对centroid位置与kernel vector的生成方式有关。以二维卷积为例说明一下如何将卷积拓展到点云。这里只考虑使用一个kernel在一个location的一次卷积操作。对于二维图像，我们可以将图像的pixels看作是一个点，那么图像就是整齐排列的点阵。每个point都有维度为 \(C_{in}\)...

#3D #PointCloud

READ

链表

Algorithm

2026-01-29

160. 相交链表题目给你两个单链表的头节点 headA 和 headB ，请你找出并返回两个单链表相交的起始节点。如果两个链表不存在相交节点，返回 null 。图示两个链表在节点 c1 开始相交：题目数据保证整个链式结构中不存在环。注意，函数返回结果后，链表必须保持其原始结构。自定义评测：评测系统的输入如下（你设计的程序不适用此输入）： intersectVal - 相交的起始节点的值。如果不存在相交节点，这一值为 0 listA - 第一个链表 listB - 第二个链表 skipA - 在 listA 中（从头节点开始）跳到交叉节点的节点数 skipB - 在 listB 中（从头节点开始）跳到交叉节点的节点数评测系统将根据这些输入创建链式数据结构，并将两个头节点 headA 和 headB 传递给你的程序。如果程序能够正确返回相交节点，那么你的解决方案将被视作正确答案。示例 1：输入：intersectVal = 8, listA = [4,1,8,4,5], listB = [5,6,1,8,4,5], skipA = 2,...

#Algorithm

READ

旋转式位置编码 RoPE

NLP

2026-01-24

旋转式位置编码（ROPE）原始的Sinusoidal位置编码总的感觉是一种“想要成为相对位置编码的绝对位置编码”。一般来说，绝对位置编码具有实现简单、计算速度快等优点，而相对位置编码则直接地体现了相对位置信号，跟我们的直观理解吻合，实际性能往往也更好。由此可见，如果可以通过绝对位置编码的方式实现相对位置编码，那么就是“集各家之所长”、“鱼与熊掌兼得”了。Sinusoidal位置编码隐约做到了这一点，但并不够好。本文将会介绍我们自研的Rotary Transformer（RoFormer）模型，它的主要改动是应用了笔者构思的“旋转式位置编码（Rotary Position Embedding，RoPE）”，这是一种配合Attention机制能达到“绝对位置编码的方式实现相对位置编码”的设计。而也正因为这种设计，它还是目前唯一一种可用于线性Attention的相对位置编码。 RoFormer：https://github.com/ZhuiyiTechnology/roformer 基本思路这里简要介绍过RoPE： Transformer位置编码...

#transformer #位置编码

READ

多模态模型发展

Large Model

2026-01-23

总览由于是“图文多模态”，还是要从“图”和“文”的表征方法讲起，然后讲清楚图文表征的融合方法。这里只讲两件事情：视觉表征：分为两个部分问题，一是如何合理建模视觉输入特征，二是如何通过预训练手段进行充分学习表征，这两点是基于视觉完成具体算法任务的基础；视觉与自然语言的对齐（Visul Language Alignment）或融合：目的是将视觉和自然语言建模到同一表征空间并进行融合，实现自然语言和视觉语义的互通，这点同样离不开预训练这一过程。模态对齐是处理多模态问题的基础，也是现在流行的多模态大模型技术前提。对于视觉表征，从发展上可以分为卷积神经网络（CNN）和Vision Transformer（VIT）两大脉络，二者分别都有各自的表征、预训练以及多模态对齐的发展过程。而对于VIT线，另有多模态大模型如火如荼的发展，可谓日新月异。 CNN：视觉理解的一代先驱点击展开卷积视觉表征模型和预训练...

#CV #VLM #transformer

READ

BEiT：视觉BERT预训练模型

Self-Supervised

2026-01-22

BERT 方法回顾在大规模预训练模型BERT 里面我们介绍了 BERT 的自监督预训练的方法，BERT 可以做的事情也就是Transformer 的 Encoder 可以做的事情，就是输入一排向量，输出另外一排向量，输入和输出的维度是一致的。那么不仅仅是一句话可以看做是一个sequence，一段语音也可以看做是一个sequence，甚至一个image也可以看做是一个sequence。所以BERT其实不仅可以用在NLP上，还可以用在CV里面。所以BERT其实输入的是一段文字，如下图所示。 BERT的架构就是Transformer 的 Encoder 接下来要做的事情是把这段输入文字里面的一部分随机盖住。随机盖住有 2 种，一种是直接用一个Mask 把要盖住的token (对中文来说就是一个字)给Mask掉，具体是换成一个特殊的字符。另一种做法是把这个token替换成一个随机的token。把这段输入文字里面的一部分随机盖住具体BERT详情可以参考：大规模预训练模型BERT BERT 可以直接用在视觉任务上吗？上面的 BERT 都是在 NLP 任务上使用，因为 NLP...

#Self-Supervised #transformer

READ

大规模预训练模型BERT

NLP

2026-01-22

Self-Supervised Learning ，又称为自监督学习，我们知道一般机器学习分为有监督学习，无监督学习和强化学习。而 Self-Supervised Learning 是无监督学习里面的一种，主要是希望能够学习到一种通用的特征表达用于下游任务 (Downstream Tasks) 。其主要的方式就是通过自己监督自己。作为代表作的 kaiming 的 MoCo 引发一波热议， Yann Lecun也在 AAAI 上讲 Self-Supervised Learning 是未来的大势所趋。所以在这个系列中，我会系统地解读 Self-Supervised Learning 的经典工作。本文主要介绍 Self-Supervised Learning 在 NLP领域的经典工作：BERT模型的原理及其变体。本文来自台湾大学李宏毅老师PPT： https://speech.ee.ntu.edu.tw/~hylee/ml/ml2021-course-data/bert_v8.pdf 芝麻街在介绍 Self-Supervised Learning...

#NLP #Self-Supervised #transformer

READ

MAE(Masked Autoencoders)

Computer Vision

2026-01-21

导言自监督学习（Self-Supervised Learning）能利用大量无标注的数据进行表征学习，然后在特定下游任务上对参数进行微调。通过这样的方式，能够在较少有标注数据上取得优于有监督学习方法的精度。近年来，自监督学习受到了越来越多的关注，如Yann Lecun也在 AAAI 上讲 Self-Supervised Learning 是未来的大势所趋。在CV领域涌现了如SwAV、MOCO、DINO、MoBY等一系列工作。MAE是kaiming继MOCO之后在自监督学习领域的又一力作。首先，本文会对MAE进行解读，然后基于EasyCV库的精度复现过程及其中遇到的一些问题作出解答。概述 MAE的做法很简单：随机mask掉图片中的一些patch，然后通过模型去重建这些丢失的区域。包括两个核心的设计：1.非对称编码-解码结构 2.用较高的掩码率（75%）。通过这两个设计MAE在预训练过程中可以取得3倍以上的训练速度和更高的精度，如ViT-Huge能够通过ImageNet-1K数据上取得87.8%的准确率。模型拆解...

#CV #Self-Supervised #transformer

READ

#

!

INCOMING TRANSMISSION

优先队列

背包问题

最小生成树

VoteNet

PointNet系列

PointConv

链表

旋转式位置编码 RoPE

多模态模型发展

BEiT：视觉BERT预训练模型

大规模预训练模型BERT

MAE(Masked Autoencoders)