知识库 - Orange

链表

Algorithm

2026-01-29

160. 相交链表题目给你两个单链表的头节点 headA 和 headB ，请你找出并返回两个单链表相交的起始节点。如果两个链表不存在相交节点，返回 null 。图示两个链表在节点 c1 开始相交：题目数据保证整个链式结构中不存在环。注意，函数返回结果后，链表必须保持其原始结构。自定义评测：评测系统的输入如下（你设计的程序不适用此输入）： intersectVal - 相交的起始节点的值。如果不存在相交节点，这一值为 0 listA - 第一个链表 listB - 第二个链表 skipA - 在 listA 中（从头节点开始）跳到交叉节点的节点数 skipB - 在 listB 中（从头节点开始）跳到交叉节点的节点数评测系统将根据这些输入创建链式数据结构，并将两个头节点 headA 和 headB 传递给你的程序。如果程序能够正确返回相交节点，那么你的解决方案将被视作正确答案。示例 1：输入：intersectVal = 8, listA = [4,1,8,4,5], listB = [5,6,1,8,4,5], skipA = 2,...

#Algorithm

READ

Math

Algorithm

2026-01-28

48. 旋转图像题目给定一个 \(n × n\) 的二维矩阵 matrix 表示一个图像。请你将图像顺时针旋转 90 度。你必须在原地旋转图像，这意味着你需要直接修改输入的二维矩阵。请不要使用另一个矩阵来旋转图像。示例 1：输入：matrix = [[1,2,3],[4,5,6],[7,8,9]] 输出：[[7,4,1],[8,5,2],[9,6,3]] 示例 2：输入：matrix = [[5,1,9,11],[2,4,8,10],[13,3,6,7],[15,14,12,16]] 输出：[[15,13,2,5],[14,3,4,1],[12,6,8,9],[16,7,10,11]] 提示： n == matrix.length == matrix[i].length 1 <= n <= 20 -1000 <= matrix[i][j] <= 1000 题解这是一个经典的矩阵操作问题。要在原地（In-place）将图像顺时针旋转 90 度，我们可以利用矩阵的几何性质。最直观且易于实现的方法是将...

#Algorithm

READ

SigLIP系列

Large Model

2026-01-23

SigLIP 概述 CLIP自提出以来在zero-shot分类、跨模态搜索、多模态对齐等多个领域得到广泛应用。得益于其令人惊叹的能力，激起了研究者广泛的关注和优化。目前对CLIP的优化主要可以分为两大类：其一是如何降低CLIP的训练成本；其二是如何提升CLIP的performance。对于第一类优化任务的常见思路有3种。优化训练架构，如 LiT 通过freezen image encoder，单独训练text encoder来进行text 和image的对齐来加速训练；减少训练token，如 FLIP 通过引入视觉mask，通过只计算非mask区域的视觉表征来实现加速（MAE中的思路）优化目标函数，如 CatLIP 将caption转为class label，用分类任务来代替对比学习任务来实现加速。对于第二类提升CLIP的performance最常用和有效的手段就是数据治理，即构建高质量、大规模、高多样性的图文数据，典型的工作如：DFN。 SigLIP这篇paper 提出用sigmoid...

#pretrain #VLM

READ

BLIP系列：统一理解和生成的自举多模态模型

Large Model

2026-01-22

BLIP 论文名称：BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation (ICML 2022) 论文地址： https://arxiv.org/pdf/2201.12086.pdf 代码地址： https://github.com/salesforce/BLIP 官方解读博客： https://blog.salesforceairesearch.com/blip-bootstrapping-language-image-pretraining/ 背景和动机视觉语言训练 (Vision-Language Pre-training, VLP) 最近在各种多模态下游任务上取得了巨大的成功。然而，现有方法有两个主要限制：模型层面：大多数现有的预训练模型仅在基于理解的任务或者基于生成的任务方面表现出色，很少有可以兼顾的模型。比如，基于编码器的模型，像 CLIP，ALBEF 不能直接转移到文本生成任务...

#VLM #pretrain

READ

CLIP

Large Model

2026-01-22

CLIP算法原理 CLIP 不预先定义图像和文本标签类别，直接利用从互联网爬取的 400 million 个image-text pair 进行图文匹配任务的训练，并将其成功迁移应用于30个现存的计算机视觉分类。简单的说，CLIP 无需利用 ImageNet 的数据和标签进行训练，就可以达到 ResNet50 在 ImageNet数据集上有监督训练的结果，所以叫做 Zero-shot。 CLIP（contrastive language-image pre-training）主要的贡献就是利用无监督的文本信息，作为监督信号来学习视觉特征。 CLIP 作者先是回顾了并总结了和上述相关的两条表征学习路线：构建image和text的联系，比如利用已有的image-text pair数据集，从text中学习image的表征；获取更多的数据（不要求高质量，也不要求full...

#VLM #pretrain

READ

重参数化：从正态分布到Gumbel Softmax

Deep Learning

2026-01-22

文章从连续情形出发开始介绍重参数，主要的例子是正态分布的重参数；然后引入离散分布的重参数，这就涉及到了Gumbel Softmax，包括Gumbel Softmax的一些证明和讨论；最后再讲讲重参数背后的一些故事，这主要跟梯度估计有关。基本概念重参数（Reparameterization）实际上是处理如下期望形式的目标函数的一种技巧： \[L_{\theta}=\mathbb{E}_{z\sim p_{\theta}(z)}[f(z)]\tag{1}\] 这样的目标在VAE中会出现，在文本GAN也会出现，在强化学习中也会出现（ \(f(z)\) 对应于奖励函数），所以深究下去，我们会经常碰到这样的目标函数。取决于 \(z\) 的连续性，它对应不同的形式： \[\int p_{\theta}(z) f(z)dz\,\,\,\text{(连续情形)}\qquad\qquad \sum_{z} p_{\theta}(z) f(z)\,\,\,\text{(离散情形)}\tag{2}\] 当然，离散情况下我们更喜欢将记号 \(z\) 换成 \(y\) 或者 \(c\) 。为了最小化...

#VAE #DL基础

READ

数据结构

Algorithm

2026-01-22

数组&链表&字符串双指针滑动窗口哈希表哈希表栈&队列单调队列树与堆图数学 Math

#Algorithm

READ

EfficientNet

Computer Vision

2026-01-11

简介 EfficientNet源自Google Brain的论文EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks. 从标题也可以看出，这篇论文最主要的创新点是Model Scaling. 论文提出了compound scaling，混合缩放，把网络缩放的三种方式：深度、宽度、分辨率，组合起来按照一定规则缩放，从而提高网络的效果。EfficientNet在网络变大时效果提升明显，把精度上限进一步提升，成为了当前最强网络。EfficientNetB7在ImageNet上获得了最先进的 84.4%的top1精度和 97.1%的top5精度，比之前最好的卷积网络（GPipe, Top1: 84.3%, ...

#轻量化 #CV

READ

深度学习什么情况下要偏置（bias）

Deep Learning

2026-01-11

1.深度学习偏置的作用？我们在学深度学习的时候，最早接触到的神经网络应该属于感知器（感知器本身就是一个很简单的神经网络，也许有人认为它不属于神经网络，当然认为它和神经网络长得像也行）要想激活这个感知器，使得 y=1 ，就必须使 x_1w_1 + x_2w_2 +....+x_nw_n T （ T 为一个阈值），而 T 越大，想激活这个感知器的难度越大，人工选择一个阈值并不是一个好的方法，因为样本那么多，我不可能手动选择一个阈值，使得模型整体表现最佳，那么我们可以使得T变成可学习的，这样一来， T 会自动学习到一个数，使得模型的整体表现最佳。当把T移动到左边，它就成了偏置， x_1w_1 + x_2w_2 +....+x_nw_n T 0 xw +b 0 ，总之，偏置的大小控制着激活这个感...

#CNN #DL基础

READ

函数光滑化：不可导函数的可导逼近

Deep Learning

2026-01-11

一般来说，神经网络处理的东西都是连续的浮点数，标准的输出也是连续型的数字。但实际问题中，我们很多时候都需要一个离散的结果，比如分类问题中我们希望输出正确的类别，“类别”是离散的，“类别的概率”才是连续的；又比如我们很多任务的评测指标实际上都是离散的，比如分类问题的正确率和F1、机器翻译中的BLEU，等等。还是以分类问题为例，常见的评测指标是正确率，而常见的损失函数是交叉熵。交叉熵的降低与正确率的提升确实会有一定的关联，但它们不是绝对的单调相关关系。换句话说，交叉熵下降了，正确率不一定上升。显然，如果能用正确率的相反数做损失函数，那是最理想的，但正确率是不可导的（涉及到 [Math] 等操作），所以没法直接用。这时候一般有两种解决方案；一是动用强化学习，将正确率设为奖励函数，这是“用牛刀杀...

#DL基础

READ

最小生成树

Algorithm

2026-01-11

简介生成树（spanning tree）在图论中，无向图 G=(V,E) 的生成树（spanning tree)是具有G的全部顶点，但边数最少的联通子图。假设G中一共有n个顶点，一颗生成树满足下列条件：（1）n个顶点；（2）n1条边；（3）n个顶点联通；（4）一个图的生成树可能有多个。最小生成树（minimum spanning tree， MST）/最小生成森林：联通加权无向图中边缘权重加和最小的生成树。给定无向图 G=(V,E) ， (u,v) 代表顶点 u 与顶点 v 的边， w(u,v) 代表此边的权重，若存在生成树T使得： [公式] 最小，则 T 为 G 的最小生成树。对于非连通无向图来说，它的每一连通分量同样有最小生成树，它们的并被称为最小生成森林。最小生成树除了继承...

#Algorithm

READ

CNN感受野

Deep Learning

2026-01-11

如何计算RF 公式一：这个算法从top往下层层迭代直到追溯回input image，从而计算出RF。 [公式] 其中，RF是感受野。RF和RF有点像，N代表 neighbour，指的是第n层的 a feature在n1层的RF，记住N_RF只是一个中间变量，不要和RF混淆。 stride是步长，ksize是卷积核大小。

#CNN #DL基础

READ

#

!

INCOMING TRANSMISSION

链表

Math

SigLIP系列

BLIP系列：统一理解和生成的自举多模态模型

CLIP

重参数化：从正态分布到Gumbel Softmax

数据结构

EfficientNet

深度学习什么情况下要偏置（bias）

函数光滑化：不可导函数的可导逼近

最小生成树

CNN感受野