知识库 - Orange

CLIP

Large Model

2026-01-22

CLIP算法原理 CLIP 不预先定义图像和文本标签类别，直接利用从互联网爬取的 400 million 个image-text pair 进行图文匹配任务的训练，并将其成功迁移应用于30个现存的计算机视觉分类。简单的说，CLIP 无需利用 ImageNet 的数据和标签进行训练，就可以达到 ResNet50 在 ImageNet数据集上有监督训练的结果，所以叫做 Zero-shot。 CLIP（contrastive language-image pre-training）主要的贡献就是利用无监督的文本信息，作为监督信号来学习视觉特征。 CLIP 作者先是回顾了并总结了和上述相关的两条表征学习路线：构建image和text的联系，比如利用已有的image-text pair数据集，从text中学习image的表征；获取更多的数据（不要求高质量，也不要求full...

#pretrain #VLM

READ

数据结构

Algorithm

2026-01-22

数组&链表&字符串双指针滑动窗口哈希表哈希表栈&队列单调队列树与堆图数学 Math

#Algorithm

READ

DeepSeek-R1

Large Model

2026-01-15

简介后训练（post-training）已成为完整训练流程中的重要组成部分。相比于预训练，后训练需要的计算资源相对较少，但能够：提高推理任务的准确性使模型与社会价值观保持一致适应用户偏好 OpenAI 的 o1 系列模型首次引入了通过增加思维链（Chain-of-Thought）推理过程长度来实现推理时间，扩展这种方法在数学、编程和科学推理等各种推理任务上取得了显著改进研究界已探索多种方法来提高模型的推理能力：比如基于过程的奖励模型（Process-based Reward Models）强化学习（Reinforcement Learning）, 代表工作：InstructGPT，以及搜索算法（蒙特卡洛树搜索（Monte Carlo Tree Search）、束搜索（Beam Search））。然而，这些方法尚未达到与 OpenAI o1 系列模型相当的通用推理性能。 DeepSeek-R1-Zero 本文首先探索使用纯强化学习（RL）来提高语言模型的推理能力，重点关注：探索 LLM 在没有任何监督数据的情况下，通过纯 RL 过程的自我进化来发展推理能力...

#LLM #Reinforcement Learning

READ

最小生成树

Algorithm

2026-01-11

简介生成树（spanning tree）在图论中，无向图 G=(V,E) 的生成树（spanning tree)是具有G的全部顶点，但边数最少的联通子图。假设G中一共有n个顶点，一颗生成树满足下列条件：（1）n个顶点；（2）n1条边；（3）n个顶点联通；（4）一个图的生成树可能有多个。最小生成树（minimum spanning tree， MST）/最小生成森林：联通加权无向图中边缘权重加和最小的生成树。给定无向图 G=(V,E) ， (u,v) 代表顶点 u 与顶点 v 的边， w(u,v) 代表此边的权重，若存在生成树T使得： [公式] 最小，则 T 为 G 的最小生成树。对于非连通无向图来说，它的每一连通分量同样有最小生成树，它们的并被称为最小生成森林。最小生成树除了继承...

#Algorithm

READ

判断无向图是否为二叉树

Algorithm

2026-01-11

给一个无向图，判断其是否为一棵树。如果是树的话，所有的节点必须是连接的，也就是说必须是连通图，而且不能有环，所以就变成了验证是否是连通图和是否含有环。 [代码]

#Algorithm

READ

295. 数据流的中位数

Algorithm

2026-01-11

题目中位数是有序列表中间的数。如果列表长度是偶数，中位数则是中间两个数的平均值。例如， [2,3,4] 的中位数是 3 [2,3] 的中位数是 (2 + 3) / 2 = 2.5 设计一个支持以下两种操作的数据结构： void addNum(int num) 从数据流中添加一个整数到数据结构中。 double findMedian() 返回目前所有元素的中位数。示例： addNum(1) addNum(2) findMedian() 1.5 addNum(3) findMedian() 2 题解维护两个堆：大顶堆和小顶堆。并且需满足如下条件：小顶堆的所有元素都大于等于大顶堆的所有元素。大顶堆中的元素数量大于等于小顶堆中的元素数量。大顶堆对应排序后的列表的左半部分；小顶堆对应排序...

#Algorithm

READ

heapq实现小顶堆（TopK大）、大顶堆（BtmK小）

Algorithm

2026-01-11

[代码] 自己实现小顶堆 [代码] 变态的需求来了：给出N长的序列，求出BtmK小的元素，即使用大顶堆。概括一种最简单的：将push(e)改为push(e)、pop(e)改为pop(e)。也就是说，在存入堆、从堆中取出的时候，都用相反数，而其他逻辑与TopK完全相同，看代码： [代码] 自己实现大顶堆 [代码]

#Algorithm

READ

树的遍历

Algorithm

2026-01-11

二叉树结构 [代码] 递归时间复杂度：O(n)，n为节点数，访问每个节点恰好一次。空间复杂度：空间复杂度：O(h)，h为树的高度。最坏情况下需要空间O(n)，平均情况为O(logn) 递归1: 二叉树遍历最易理解和实现版本 [代码] 递归2: 通用模板可以适应不同的题目，添加参数、增加返回条件、修改进入递归条件、自定义返回值 [代码] 迭代时间复杂度：O(n)，n为节点数，访问每个节点恰好一次。空间复杂度：O(h)，h为树的高度。取决于树的结构，最坏情况存储整棵树，即O(n) 迭代1: 前序遍历最常用模板（后序同样可以用） [代码] 迭代2: 前、中、后序遍历通用模板（只需一个栈的空间） [代码] 迭代3：标记法迭代（需要双倍的空间来存储访问状态）前、中、后、层序通用模板，只需改...

#Algorithm

READ

PointNet系列

3D Model

2026-01-11

三维深度学习简介多视角（multiview）：通过多视角二维图片组合为三维物体，此方法将传统CNN应用于多张二维视角的图片，特征被view pooling procedure聚合起来形成三维物体；体素（volumetric）：通过将物体表现为空间中的体素进行类似于二维的三维卷积（例如，卷积核大小为5x5x5），是规律化的并且易于类比二维的，但同时因为多了一个维度出来，时间和空间复杂度都非常高，目前已经不是主流的方法了；点云（point clouds）：直接将三维点云抛入网络进行训练，数据量小。主要任务有分类、分割以及大场景下语义分割；非欧式（manifold，graph）：在流形或图的结构上进行卷积，三维点云可以表现为mesh结构，可以通过点对之间临接关系表现为图的结构。点云的特性...

#3D

READ

PointConv

3D Model

2026-01-11

概括这篇文章将卷积比较自然地拓展到点云的情形，思路很赞！文章的主要创新点：“weight function”和“density function”，并能实现translationinvariance和permutationinvariance，可以实现层级化特征提取，而且能自然推广到其deconvolution的情形实现分割，在二维CIFAR10图像分类任务中精度堪比CNN（表明能够充分近似卷积网络），达到了SOTA的性能。缺点：每个kernel都需要由“kernel function”生成，而“kernel function”实质上是一个CNN网络，计算量比较大。思想察觉到：二维卷积中pixel的相对centroid位置与kernel vector的生成方式有关。以二维卷积为例...

#3D

READ

VoteNet

3D Model

2026-01-11

Hough Voting 本文的标题是Deep Hough Voting，先来说一下Hough Voting。用Hough变换检测直线大家想必都听过：对于一条直线，可以使用(r, θ)两个参数进行描述，那么对于图像中的一点，过这个点的直线有很多条，可以生成一系列的(r, θ)，在参数平面内就是一条曲线，也就是说，一个点对应着参数平面内的一个曲线。那如果有很多个点，则会在参数平面内生成很多曲线。那么，如果这些点是能构成一条直线的，那么这条直线的参数(r, θ)就在每条曲线中都存在，所以看起来就像是多条曲线相交在（r,θ）。可以用多条曲线投票的方式来看，其他点都是很少的票数，而（r,θ）则票数很多，所以直线的参数就是（r,θ）。所以Hough变换的思想就是在于，在参数空间内进行投票，投票得数...

#3D

READ

SO-Net

3D Model

2026-01-11

概括针对一些网络在处理point cloud时的缺点，如：不能对点的空间分布进行建模（例如PointNet++，只是能获取局部信息不能得到局部区域之间的空间关系），提出了SONet。SO的含义是利用Selforganizing map的Net。结果：它具有能够对点的空间分布进行建模、层次化特征提取、可调节的感受野范围的优点，并能够用于多种任务如重建、分类、分割等等。取得了相似或超过SOTA的性能，因为可并行化和架构简单使得训练速度很快。贡献： TODO IDEA：作者发现将CNN直接用于SOM图上性能不升反降，为什么（推测：可能是SOM的2D map并不是保持了原本的空间对应关系，可能nodes之间是乱序的，导致用conv2d时精度反而降低）？难点如何对local regions之...

#3D

READ

#

!

INCOMING TRANSMISSION

CLIP

数据结构

DeepSeek-R1

最小生成树

判断无向图是否为二叉树

295. 数据流的中位数

heapq实现小顶堆（TopK大）、大顶堆（BtmK小）

树的遍历

PointNet系列

PointConv

VoteNet

SO-Net