知识库 - Orange

RNN与LSTM

NLP

2026-01-11

RNN 概述在前面讲到的DNN和CNN中，训练样本的输入和输出是比较的确定的。但是有一类问题DNN和CNN不好解决，就是训练样本输入是连续的序列,且序列的长短不一，比如基于时间的序列：一段段连续的语音，一段段连续的手写文字。这些序列比较长，且长度不一，比较难直接的拆分成一个个独立的样本来通过DNN/CNN进行训练。而对于这类问题，RNN则比较的擅长。那么RNN是怎么做到的呢？RNN假设我们的样本是基于序列的。比如是从序列索引1到序列索引 τ 。对于这其中的任意序列索引号 t ,它对应的输入是对应的样本序列中的 x(t) 。而模型在序列索引号 t 位置的隐藏状态 h(t) ，则由 x(t) 和在 t−1 位置的隐藏状态 h(t−1) 共同决定。在任意序列索引号 t ，我们也有对应的模型预测...

#NLP

READ

CNN感受野

Deep Learning

2026-01-11

如何计算RF 公式一：这个算法从top往下层层迭代直到追溯回input image，从而计算出RF。 [公式] 其中，RF是感受野。RF和RF有点像，N代表 neighbour，指的是第n层的 a feature在n1层的RF，记住N_RF只是一个中间变量，不要和RF混淆。 stride是步长，ksize是卷积核大小。

#DL基础 #CNN

READ

VLM评价指标

Large Model

2026-01-11

这是OpenCompass的offitial ranking 榜单 🔖 https://rank.opencompass.org.cn/home MMBench 鉴于现行评测方式所存在的问题，我们重新定义了一套针对当前多模态大模型的评测流程——MMBench。其主要包含两个方面: 自上而下的能力维度设计，根据定义的能力维度构造了一个评测数据集引入 ChatGPT，以及提出了 CircularEval 的评测方式，使得评测的结果更加稳定 Paper 链接: 🔖 https://arxiv.org/pdf/2307.06281 github：数据集数据集构造主要目的是对模型的各种能力进行全方位的考察，所以我们自上而下定义了三级能力维度 (L1L3)，第一级维度（L1）包含感知与推理两项...

#VLM

READ

大模型训练基础

Large Model

2026-01-11

梯度检查点（Gradient Checkpointing）大模型的参数量巨大，即使将batch_size设置为1并使用梯度累积的方式更新，也仍然会OOM。原因是通常在计算梯度时，我们需要将所有前向传播时的激活值保存下来，这消耗大量显存。还有另外一种延迟计算的思路，丢掉前向传播时的激活值，在计算梯度时需要哪部分的激活值就重新计算哪部分的激活值，这样做倒是解决了显存不足的问题，但加大了计算量同时也拖慢了训练。梯度检查点（Gradient Checkpointing）在上述两种方式之间取了一个平衡，这种方法采用了一种策略选择了计算图上的一部分激活值保存下来，其余部分丢弃，这样被丢弃的那一部分激活值需要在计算梯度时重新计算。下面这个动图展示了一种简单策略：前向传播过程中计算节点的激活值并保存...

#NLP #Large Model

READ

激活函数系列

Deep Learning

2026-01-11

最近，似乎现在每个大型语言模型（LLM）和新闻中提到的复杂神经网络架构都使用略有不同的激活函数，而就在几年前，最常见的做法只是在神经网络的内部层中使用 ReLU。曾经优秀的 ReLUs 怎么了，以及是什么促使最新的大型语言模型（LLMs）的创造者们开始使用不同的（更高级的）激活函数？ Threshold activation (Perceptron) 1957 年，罗森布拉特建造了“感知机” 最古老的激活函数是基本感知器。它由芝加哥大学精神病学系的爱德华·麦克洛奇和沃尔特·皮茨构思，后来由弗兰克·罗森布拉特在 1957 年于康奈尔航空实验室为美国海军在硬件上更著名地实现了。该算法非常简单，其基本规则是：如果某个值超过某个阈值，则返回 1，否则返回 0。有些变体会返回 1 或1。由于其二元...

#DL基础

READ

Transformer结构及其应用

NLP

2026-01-11

取代RNN——Transformer 在介绍Transformer前我们来回顾一下RNN的结构对RNN有一定了解的话，一定会知道，RNN有两个很明显的问题效率问题：需要逐个词进行处理，后一个词要等到前一个词的隐状态输出以后才能开始处理如果传递距离过长还会有梯度消失、梯度爆炸和遗忘问题为了缓解传递间的梯度和遗忘问题，设计了各种各样的RNN cell，最著名的两个就是LSTM和GRU了 LSTM (Long Short Term Memory) GRU (Gated Recurrent Unit) 但是，引用网上一个博主的比喻，这么做就像是在给马车换车轮，为什么不直接换成汽车呢？于是就有了Transformer。Transformer 是Google Brain 2017的提出的一篇工...

#NLP #transformer

READ

随机近似（Stochastic Approximation）

Deep Learning

2026-01-11

引言与背景随机逼近（Stochastic Approximation）是一类用于求解寻根或优化问题的随机迭代算法，其特点是不需要知道目标函数或其导数的表达式。随机逼近的核心优势在于：能够处理带有随机噪声的观测数据不需要目标函数的解析表达式可以在线学习，每获得一个新样本就更新估计值均值估计问题考虑一个随机变量 X ，其取值来自有限集合 [Math] 。我们的目标是估计 E[X] 。假设我们有一个独立同分布的样本序列 \{x_i\}_{i=1}^n ，那么 X 的期望值可以近似为： [公式] 非增量方法与增量方法非增量方法：先收集所有样本，然后计算平均值。缺点是如果样本数量很大，可能需要等待很长时间。增量方法：定义 [公式] 可以推导出递归公式： [公式] 这个算法可以增量式地...

#Reinforcement Learning #DL基础

READ

上采样、反卷积与上池化

Deep Learning

2026-01-11

通过卷积和池化等技术可以将图像进行降维，因此，一些研究人员也想办法恢复原分辨率大小的图像，特别是在语义分割领域应用很成熟。 1、Upsampling（上采样）[没有学习过程] 在FCN、Unet等网络结构中，涉及到了上采样。上采样概念：上采样指的是任何可以让图像变成更高分辨率的技术。最简单的方式是重采样和插值：将输入图片进行rescale到一个想要的尺寸，而且计算每个点的像素点，使用如双线性插值等插值方法对其余点进行插值来完成上采样过程。在PyTorch中，上采样的层被封装在torch.nn中的Vision Layers里面，一共有4种： PixelShuffle Upsample UpsamplingNearest2d UpsamplingBilinear2d 0）PixelShuffl...

#DL基础 #CNN

READ

Kimi-VL

Large Model

2026-01-11

模型概述 KimiVL 是一个高效的开源混合专家视觉语言模型(VLM)，它提供先进的多模态推理、长上下文理解和强大的代理能力，同时在语言解码器中仅激活 2.8B 参数(KimiVLA3B)。该模型在多种挑战性任务中表现出色，包括一般用途的视觉语言理解、多轮代理任务、大学水平的图像和视频理解、OCR、数学推理和多图像理解等. 模型架构 KimiVL 的架构由三个主要部分组成： MoE语言模型 Moonlight MoE language model with only 2.8B activated (16B total) parameters 视觉模型 400M nativeresolution MoonViT vision encoder. MLP Projector MoonViT: 原生...

#VLM #Reinforcement Learning #Large Model

READ

UI-TARS

Large Model

2026-01-11

UITARS 简介 UITARS（User Interface Task Automation and Reasoning System）是由字节跳动（ByteDance）研发的原生 GUI 智能体模型：输入方式：仅使用屏幕截图作为视觉输入交互方式：执行类人操作（键盘输入、鼠标点击、拖拽等）模型特性：端到端的原生智能体模型，无需复杂的中间件或框架传统 GUI 智能体的开发往往依赖于文本信息，例如 HTML 结构和可访问性树。虽然这些方法取得了一些进展，但它们也存在一些局限性：平台不一致性：不同平台的 GUI 结构差异很大，导致智能体难以跨平台通用。信息冗余：文本信息往往过于冗长，增加了模型的处理负担。访问限制：获取系统底层的文本信息通常需要较高的权限，限制了应用的范围。模块化...

#Agent #VLM

READ

优化器系列

Deep Learning

2026-01-11

AdamW目前是大语言模型训练的默认优化器，而大部分资料对Adam跟AdamW区别的介绍都不是很明确，在此梳理一下Adam与AdamW的计算流程，明确一下二者的区别。 TLDR：AdamW将优化过程中使用的针对网络权重的衰减项（或者叫正则项）从loss中单独拿了出来，不参与Adam中一二阶动量的计算。下面是二者的详细对比： Adam 首先是Adam，给定在迭代步数 t 时模型的参数 [Math] 与梯度 g_t ，Adam的计算公式如下： [公式] 式(1)用于计算梯度的一阶指数滑动平均式(2)用于计算梯度的二阶项的指数滑动平均式(3)与(4)对计算得到的指数滑动平均值进行消偏式(5)为Adam的更新公式，其可以拆成两部分理解：动量更新与自适应学习率。 AdamW AdamW 相对与...

#DL基础

READ

状态空间模型SSM到Mamba

NLP

2026-01-11

概述 SSM的概念由来已久，但这里我们特指深度学习中的SSM，一般认为其开篇之作是2021年的 S4，不算太老，而SSM最新最火的变体大概是Mamba。当然，当我们谈到SSM时，也可能泛指一切线性RNN模型，这样RWKV、RetNet还有此前LRU都可以归入此类。不少SSM变体致力于成为Transformer的竞争者，尽管笔者并不认为有完全替代的可能性，但SSM本身优雅的数学性质也值得学习一番。尽管我们说SSM起源于S4，但在S4之前，SSM有一篇非常强大的奠基之作《HiPPO: Recurrent Memory with Optimal Polynomial Projections》（简称HiPPO），所以本文从HiPPO开始说起。另外值得一提的是，SSM代表作HiPPO、S4、Mam...

#Linear Attention #NLP

READ

#

!

INCOMING TRANSMISSION

RNN与LSTM

CNN感受野

VLM评价指标

大模型训练基础

激活函数系列

Transformer结构及其应用

随机近似（Stochastic Approximation）

上采样、反卷积与上池化

Kimi-VL

UI-TARS

优化器系列

状态空间模型SSM到Mamba