知识库 - Orange

CLIP

Large Model

2026-01-22

CLIP算法原理 CLIP 不预先定义图像和文本标签类别，直接利用从互联网爬取的 400 million 个image-text pair 进行图文匹配任务的训练，并将其成功迁移应用于30个现存的计算机视觉分类。简单的说，CLIP 无需利用 ImageNet 的数据和标签进行训练，就可以达到 ResNet50 在 ImageNet数据集上有监督训练的结果，所以叫做 Zero-shot。 CLIP（contrastive language-image pre-training）主要的贡献就是利用无监督的文本信息，作为监督信号来学习视觉特征。 CLIP 作者先是回顾了并总结了和上述相关的两条表征学习路线：构建image和text的联系，比如利用已有的image-text pair数据集，从text中学习image的表征；获取更多的数据（不要求高质量，也不要求full...

#VLM #pretrain

READ

数据结构

Algorithm

2026-01-22

数组&链表&字符串双指针滑动窗口哈希表哈希表栈&队列单调队列树与堆图数学 Math

#Algorithm

READ

VQGAN

Generative Model

2026-01-18

2022年中旬，以扩散模型为核心的图像生成模型将AI绘画带入了大众的视野。实际上，在更早的一年之前，就有了一个能根据文字生成高清图片的模型——VQGAN。VQGAN不仅本身具有强大的图像生成能力，更是传承了前作VQVAE把图像压缩成离散编码的思想，推广了「先压缩，再生成」的两阶段图像生成思路，启发了无数后续工作。 VQGAN 核心思想 VQGAN的论文名为 Taming Transformers for High-Resolution Image Synthesis，直译过来是「驯服Transformer模型以实现高清图像合成」。可以看出，该方法是在用Transformer生成图像。可是，为什么这个模型叫做VQGAN，是一个GAN呢？这是因为，VQGAN使用了两阶段的图像生成方法：训练时，先训练一个图像压缩模型（包括编码器和解码器两个子模型），再训练一个生成压缩图像的模型。生成时，先用第二个模型生成出一个压缩图像，再用第一个模型复原成真实图像。其中，第一个图像压缩模型叫做VQGAN，第二个压缩图像生成模型是一个基于Transformer的模型。...

#Generating Model #GAN #VAE

READ

从Wasserstein距离、对偶理论到WGAN

Generative Model

2026-01-18

本文受启发于著名的国外博文《Wasserstein GAN and the Kantorovich-Rubinstein Duality》，内容跟它大体上相同，但是删除了一些冗余的部分，对不够充分或者含糊不清的地方作了补充。 Wasserstein距离显然，整篇文章必然围绕着Wasserstein距离（ \(\mathcal{W}\) 距离）来展开。假设我们有了两个概率分布 \(p(x),q(x)\) ，那么Wasserstein距离的定义为 \[\mathcal{W}[p,q]=\inf_{\gamma\in \Pi[p,q]} \iint \gamma(\boldsymbol{x},\boldsymbol{y}) d(\boldsymbol{x},\boldsymbol{y}) d\boldsymbol{x}d\boldsymbol{y}\] 事实上，这也算是最优传输理论中最核心的定义了。成本函数首先 \(d(x,y)\) ，它不一定是距离，其准确含义应该是一个成本函数，代表着从 \(x\) 运输到 \(y\) 的成本。常用的 \(d\) 是基于 \(l\)...

#Generating Model #GAN

READ

Generative Adversarial Networks (GAN)

Generative Model

2026-01-18

简介生成对抗网络 ( Generative Adversarial Network, GAN ) 是由 Goodfellow 于 2014 年提出的一种对抗网络。这个网络框架包含两个部分，一个生成模型 (generative model) 和一个判别模型 (discriminative model)。其中，生成模型可以理解为一个伪造者，试图通过构造假的数据骗过判别模型的甄别；判别模型可以理解为一个警察，尽可能甄别数据是来自于真实样本还是伪造者构造的假数据。两个模型都通过不断的学习提高自己的能力，即生成模型希望生成更真的假数据骗过判别模型，而判别模型希望能学习如何更准确的识别生成模型的假数据。网络框架 GAN 由两部分构成，一个生成器 ( Generator ) 和一个判别器 ( Discriminator )。对于生成器，我们需要学习关于数据 \(x\) 的一个分布 \(p_g\) ，首先定义一个输入数据的先验分布 \(p_z(z)\) ，其次定义一个映射 \(G \left(\boldsymbol{z}; \theta_g\right): \boldsymbol{z}...

#Generating Model #GAN

READ

EfficientNet

Computer Vision

2026-01-11

简介 EfficientNet源自Google Brain的论文EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks. 从标题也可以看出，这篇论文最主要的创新点是Model Scaling. 论文提出了compound scaling，混合缩放，把网络缩放的三种方式：深度、宽度、分辨率，组合起来按照一定规则缩放，从而提高网络的效果。EfficientNet在网络变大时效果提升明显，把精度上限进一步提升，成为了当前最强网络。EfficientNetB7在ImageNet上获得了最先进的 84.4%的top1精度和 97.1%的top5精度，比之前最好的卷积网络（GPipe, Top1: 84.3%, ...

#CV #轻量化

READ

最小生成树

Algorithm

2026-01-11

简介生成树（spanning tree）在图论中，无向图 G=(V,E) 的生成树（spanning tree)是具有G的全部顶点，但边数最少的联通子图。假设G中一共有n个顶点，一颗生成树满足下列条件：（1）n个顶点；（2）n1条边；（3）n个顶点联通；（4）一个图的生成树可能有多个。最小生成树（minimum spanning tree， MST）/最小生成森林：联通加权无向图中边缘权重加和最小的生成树。给定无向图 G=(V,E) ， (u,v) 代表顶点 u 与顶点 v 的边， w(u,v) 代表此边的权重，若存在生成树T使得： [公式] 最小，则 T 为 G 的最小生成树。对于非连通无向图来说，它的每一连通分量同样有最小生成树，它们的并被称为最小生成森林。最小生成树除了继承...

#Algorithm

READ

判断无向图是否为二叉树

Algorithm

2026-01-11

给一个无向图，判断其是否为一棵树。如果是树的话，所有的节点必须是连接的，也就是说必须是连通图，而且不能有环，所以就变成了验证是否是连通图和是否含有环。 [代码]

#Algorithm

READ

295. 数据流的中位数

Algorithm

2026-01-11

题目中位数是有序列表中间的数。如果列表长度是偶数，中位数则是中间两个数的平均值。例如， [2,3,4] 的中位数是 3 [2,3] 的中位数是 (2 + 3) / 2 = 2.5 设计一个支持以下两种操作的数据结构： void addNum(int num) 从数据流中添加一个整数到数据结构中。 double findMedian() 返回目前所有元素的中位数。示例： addNum(1) addNum(2) findMedian() 1.5 addNum(3) findMedian() 2 题解维护两个堆：大顶堆和小顶堆。并且需满足如下条件：小顶堆的所有元素都大于等于大顶堆的所有元素。大顶堆中的元素数量大于等于小顶堆中的元素数量。大顶堆对应排序后的列表的左半部分；小顶堆对应排序...

#Algorithm

READ

heapq实现小顶堆（TopK大）、大顶堆（BtmK小）

Algorithm

2026-01-11

[代码] 自己实现小顶堆 [代码] 变态的需求来了：给出N长的序列，求出BtmK小的元素，即使用大顶堆。概括一种最简单的：将push(e)改为push(e)、pop(e)改为pop(e)。也就是说，在存入堆、从堆中取出的时候，都用相反数，而其他逻辑与TopK完全相同，看代码： [代码] 自己实现大顶堆 [代码]

#Algorithm

READ

树的遍历

Algorithm

2026-01-11

二叉树结构 [代码] 递归时间复杂度：O(n)，n为节点数，访问每个节点恰好一次。空间复杂度：空间复杂度：O(h)，h为树的高度。最坏情况下需要空间O(n)，平均情况为O(logn) 递归1: 二叉树遍历最易理解和实现版本 [代码] 递归2: 通用模板可以适应不同的题目，添加参数、增加返回条件、修改进入递归条件、自定义返回值 [代码] 迭代时间复杂度：O(n)，n为节点数，访问每个节点恰好一次。空间复杂度：O(h)，h为树的高度。取决于树的结构，最坏情况存储整棵树，即O(n) 迭代1: 前序遍历最常用模板（后序同样可以用） [代码] 迭代2: 前、中、后序遍历通用模板（只需一个栈的空间） [代码] 迭代3：标记法迭代（需要双倍的空间来存储访问状态）前、中、后、层序通用模板，只需改...

#Algorithm

READ

动态规划

Algorithm

2026-01-11

背包问题

#Algorithm

READ

#

!

INCOMING TRANSMISSION

CLIP

数据结构

VQGAN

从Wasserstein距离、对偶理论到WGAN

Generative Adversarial Networks (GAN)

EfficientNet

最小生成树

判断无向图是否为二叉树

295. 数据流的中位数

heapq实现小顶堆（TopK大）、大顶堆（BtmK小）

树的遍历

动态规划