知识库 - Orange

双指针

Algorithm

2026-01-28

11. 盛最多水的容器题目给定一个长度为 n 的整数数组 height 。有 n 条垂线，第 i 条线的两个端点是 (i, 0) 和 (i, height[i]) 。找出其中的两条线，使得它们与 x 轴共同构成的容器可以容纳最多的水。返回容器可以储存的最大水量。说明：你不能倾斜容器。示例 1：输入：[1,8,6,2,5,4,8,3,7] 输出：49 解释：图中垂直线代表输入数组 [1,8,6,2,5,4,8,3,7]。在此情况下，容器能够容纳水（表示为蓝色部分）的最大值为 49。示例 2：输入：height = [1,1] 输出：1 提示： n == height.length 2 <= n <= 10 5 0 <= height[i] <= 10 4 题解在初始时，左右指针分别指向数组的左右两端，它们可以容纳的水量为 \(min(1,7)∗8=8\) 。此时我们需要移动一个指针。移动哪一个呢？直觉告诉我们，应该移动对应数字较小的那个指针（即此时的左指针）。这是因为，由于容纳的水量是由两个指针指向的数字中较小值∗指针之间的距离...

#Greedy

READ

大规模预训练模型BERT

NLP

2026-01-22

Self-Supervised Learning ，又称为自监督学习，我们知道一般机器学习分为有监督学习，无监督学习和强化学习。而 Self-Supervised Learning 是无监督学习里面的一种，主要是希望能够学习到一种通用的特征表达用于下游任务 (Downstream Tasks) 。其主要的方式就是通过自己监督自己。作为代表作的 kaiming 的 MoCo 引发一波热议， Yann Lecun也在 AAAI 上讲 Self-Supervised Learning 是未来的大势所趋。所以在这个系列中，我会系统地解读 Self-Supervised Learning 的经典工作。本文主要介绍 Self-Supervised Learning 在 NLP领域的经典工作：BERT模型的原理及其变体。本文来自台湾大学李宏毅老师PPT： https://speech.ee.ntu.edu.tw/~hylee/ml/ml2021-course-data/bert_v8.pdf 芝麻街在介绍 Self-Supervised Learning...

#Self-Supervised #NLP #transformer

READ

深度学习什么情况下要偏置（bias）

Deep Learning

2026-01-11

1.深度学习偏置的作用？我们在学深度学习的时候，最早接触到的神经网络应该属于感知器（感知器本身就是一个很简单的神经网络，也许有人认为它不属于神经网络，当然认为它和神经网络长得像也行）要想激活这个感知器，使得 y=1 ，就必须使 x_1w_1 + x_2w_2 +....+x_nw_n T （ T 为一个阈值），而 T 越大，想激活这个感知器的难度越大，人工选择一个阈值并不是一个好的方法，因为样本那么多，我不可能手动选择一个阈值，使得模型整体表现最佳，那么我们可以使得T变成可学习的，这样一来， T 会自动学习到一个数，使得模型的整体表现最佳。当把T移动到左边，它就成了偏置， x_1w_1 + x_2w_2 +....+x_nw_n T 0 xw +b 0 ，总之，偏置的大小控制着激活这个感...

#DL基础 #CNN

READ

SentencePiece

NLP

2026-01-11

Tokenizer 诸如GPT3/4以及LlaMA/LlaMA2大语言模型都采用了token的作为模型的输入输出，其输入是文本，然后将文本转为token（正整数），然后从一串token（对应于文本）预测下一个token。进入OpenAI官网提供的tokenizer可以看到GPT3tokenizer采用的方法。这里以Hello World为例说明。总共30个token，英文单词一般会用单独的token表示，大小写也会区分不同的token，如Hello和hello，另外有一些由空格前导的单词也会单独编码，这会使得编码整个句子效率更高（这将省去每个空格的编码），对于中文token化，会使用两到三个ID（正整数表示），比如上面的中英文的！。在英语等空白隔开的语言中，文本被预标记化，通常使用不跨...

#NLP

READ

Word2Vec 之 Skip-Gram 模型

NLP

2026-01-11

什么是Word2Vec和Embeddings？ Word2Vec是从大量文本语料中以无监督的方式学习语义知识的一种模型，它被大量地用在自然语言处理（NLP）中。那么它是如何帮助我们做自然语言处理呢？Word2Vec其实就是通过学习文本来用词向量的方式表征词的语义信息，即通过一个嵌入空间使得语义上相似的单词在该空间内距离很近。Embedding其实就是一个映射，将单词从原先所属的空间映射到新的多维空间中，也就是把原先词所在空间嵌入到一个新的空间中去。我们从直观角度上来理解一下，cat这个单词和kitten属于语义上很相近的词，而dog和kitten则不是那么相近，iphone这个单词和kitten的语义就差的更远了。通过对词汇表中单词进行这种数值表示方式的学习（也就是将单词转换为词向量），能...

#NLP

READ

RNN与LSTM

NLP

2026-01-11

RNN 概述在前面讲到的DNN和CNN中，训练样本的输入和输出是比较的确定的。但是有一类问题DNN和CNN不好解决，就是训练样本输入是连续的序列,且序列的长短不一，比如基于时间的序列：一段段连续的语音，一段段连续的手写文字。这些序列比较长，且长度不一，比较难直接的拆分成一个个独立的样本来通过DNN/CNN进行训练。而对于这类问题，RNN则比较的擅长。那么RNN是怎么做到的呢？RNN假设我们的样本是基于序列的。比如是从序列索引1到序列索引 τ 。对于这其中的任意序列索引号 t ,它对应的输入是对应的样本序列中的 x(t) 。而模型在序列索引号 t 位置的隐藏状态 h(t) ，则由 x(t) 和在 t−1 位置的隐藏状态 h(t−1) 共同决定。在任意序列索引号 t ，我们也有对应的模型预测...

#NLP

READ

CNN感受野

Deep Learning

2026-01-11

如何计算RF 公式一：这个算法从top往下层层迭代直到追溯回input image，从而计算出RF。 [公式] 其中，RF是感受野。RF和RF有点像，N代表 neighbour，指的是第n层的 a feature在n1层的RF，记住N_RF只是一个中间变量，不要和RF混淆。 stride是步长，ksize是卷积核大小。

#CNN #DL基础

READ

大模型训练基础

Large Model

2026-01-11

梯度检查点（Gradient Checkpointing）大模型的参数量巨大，即使将batch_size设置为1并使用梯度累积的方式更新，也仍然会OOM。原因是通常在计算梯度时，我们需要将所有前向传播时的激活值保存下来，这消耗大量显存。还有另外一种延迟计算的思路，丢掉前向传播时的激活值，在计算梯度时需要哪部分的激活值就重新计算哪部分的激活值，这样做倒是解决了显存不足的问题，但加大了计算量同时也拖慢了训练。梯度检查点（Gradient Checkpointing）在上述两种方式之间取了一个平衡，这种方法采用了一种策略选择了计算图上的一部分激活值保存下来，其余部分丢弃，这样被丢弃的那一部分激活值需要在计算梯度时重新计算。下面这个动图展示了一种简单策略：前向传播过程中计算节点的激活值并保存...

#NLP #Large Model

READ

Transformer结构及其应用

NLP

2026-01-11

取代RNN——Transformer 在介绍Transformer前我们来回顾一下RNN的结构对RNN有一定了解的话，一定会知道，RNN有两个很明显的问题效率问题：需要逐个词进行处理，后一个词要等到前一个词的隐状态输出以后才能开始处理如果传递距离过长还会有梯度消失、梯度爆炸和遗忘问题为了缓解传递间的梯度和遗忘问题，设计了各种各样的RNN cell，最著名的两个就是LSTM和GRU了 LSTM (Long Short Term Memory) GRU (Gated Recurrent Unit) 但是，引用网上一个博主的比喻，这么做就像是在给马车换车轮，为什么不直接换成汽车呢？于是就有了Transformer。Transformer 是Google Brain 2017的提出的一篇工...

#transformer #NLP

READ

上采样、反卷积与上池化

Deep Learning

2026-01-11

通过卷积和池化等技术可以将图像进行降维，因此，一些研究人员也想办法恢复原分辨率大小的图像，特别是在语义分割领域应用很成熟。 1、Upsampling（上采样）[没有学习过程] 在FCN、Unet等网络结构中，涉及到了上采样。上采样概念：上采样指的是任何可以让图像变成更高分辨率的技术。最简单的方式是重采样和插值：将输入图片进行rescale到一个想要的尺寸，而且计算每个点的像素点，使用如双线性插值等插值方法对其余点进行插值来完成上采样过程。在PyTorch中，上采样的层被封装在torch.nn中的Vision Layers里面，一共有4种： PixelShuffle Upsample UpsamplingNearest2d UpsamplingBilinear2d 0）PixelShuffl...

#DL基础 #CNN

READ

状态空间模型SSM到Mamba

NLP

2026-01-11

概述 SSM的概念由来已久，但这里我们特指深度学习中的SSM，一般认为其开篇之作是2021年的 S4，不算太老，而SSM最新最火的变体大概是Mamba。当然，当我们谈到SSM时，也可能泛指一切线性RNN模型，这样RWKV、RetNet还有此前LRU都可以归入此类。不少SSM变体致力于成为Transformer的竞争者，尽管笔者并不认为有完全替代的可能性，但SSM本身优雅的数学性质也值得学习一番。尽管我们说SSM起源于S4，但在S4之前，SSM有一篇非常强大的奠基之作《HiPPO: Recurrent Memory with Optimal Polynomial Projections》（简称HiPPO），所以本文从HiPPO开始说起。另外值得一提的是，SSM代表作HiPPO、S4、Mam...

#Linear Attention #NLP

READ

N-Gram

NLP

2026-01-11

1. 什么是NGram模型 NGram是一种基于统计语言模型的算法。它的基本思想是将文本里面的内容按照字节进行大小为N的滑动窗口操作，形成了长度是N的字节片段序列。每一个字节片段称为gram，对所有gram的出现频度进行统计，并且按照事先设定好的阈值进行过滤，形成关键gram列表，也就是这个文本的向量特征空间，列表中的每一种gram就是一个特征向量维度。该模型基于这样一种假设，第N个词的出现只与前面N1个词相关，而与其它任何词都不相关，整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计N个词同时出现的次数得到。常用的是二元的BiGram和三元的TriGram。说完了ngram模型的概念之后，下面讲解ngram的一般应用。 2. NGram模型用于评估语句是否合理如果...

#NLP

READ

#

!

INCOMING TRANSMISSION

双指针

大规模预训练模型BERT

深度学习什么情况下要偏置（bias）

SentencePiece

Word2Vec 之 Skip-Gram 模型

RNN与LSTM

CNN感受野

大模型训练基础

Transformer结构及其应用

上采样、反卷积与上池化

状态空间模型SSM到Mamba

N-Gram