知识库 - Orange

取代RNN——Transformer 在介绍Transformer前我们来回顾一下RNN的结构对RNN有一定了解的话，一定会知道，RNN有两个很明显的问题效率问题：需要逐个词进行处理，后一个词要等到前一个词的隐状态输出以后才能开始处理如果传递距离过长还会有梯度消失、梯度爆炸和遗忘问题为了缓解传递间的梯度和遗忘问题，设计了各种各样的RNN cell，最著名的两个就是LSTM和GRU了 LSTM (Long Short Term Memory) GRU (Gated Recurrent Unit) 但是，引用网上一个博主的比喻，这么做就像是在给马车换车轮，为什么不直接换成汽车呢？于是就有了Transformer。Transformer 是Google Brain 2017的提出的一篇工...

#transformer #NLP

READ

随机近似（Stochastic Approximation）

Deep Learning

2026-01-11

引言与背景随机逼近（Stochastic Approximation）是一类用于求解寻根或优化问题的随机迭代算法，其特点是不需要知道目标函数或其导数的表达式。随机逼近的核心优势在于：能够处理带有随机噪声的观测数据不需要目标函数的解析表达式可以在线学习，每获得一个新样本就更新估计值均值估计问题考虑一个随机变量 X ，其取值来自有限集合 [Math] 。我们的目标是估计 E[X] 。假设我们有一个独立同分布的样本序列 \{x_i\}_{i=1}^n ，那么 X 的期望值可以近似为： [公式] 非增量方法与增量方法非增量方法：先收集所有样本，然后计算平均值。缺点是如果样本数量很大，可能需要等待很长时间。增量方法：定义 [公式] 可以推导出递归公式： [公式] 这个算法可以增量式地...

#Reinforcement Learning #DL基础

READ

Stable Diffusion

Generative Model

2026-01-11

SD模型原理 SD是CompVis、Stability AI和LAION等公司研发的一个文生图模型，它的模型和代码是开源的，而且训练数据LAION5B也是开源的。SD在开源90天github仓库就收获了33K的stars，可见这个模型是多受欢迎。 SD是一个基于latent的扩散模型，它在UNet中引入text condition来实现基于文本生成图像。SD的核心来源于Latent Diffusion这个工作，常规的扩散模型是基于pixel的生成模型，而Latent Diffusion是基于latent的生成模型，它先采用一个autoencoder将图像压缩到latent空间，然后用扩散模型来生成图像的latents，最后送入autoencoder的decoder模块就可以得到生成的图像。 ...

#Generating Model #diffusion #transformer

READ

强化学习Model-Free之蒙特卡洛

Reinforcement Learning

2026-01-11

引言与背景蒙特卡洛方法是强化学习中的重要算法类别，它标志着从基于模型到无模型算法的转变。这类算法不依赖环境模型，而是通过与环境的直接交互获取经验数据来学习最优策略。蒙特卡洛方法在强化学习算法谱系中处于"无模型"方法的起始位置，是从基于模型的方法（如值迭代和策略迭代）向无模型方法过渡的第一步。无模型强化学习的核心理念可以简述为：如果没有模型，我们必须有数据；如果没有数据，我们必须有模型；如果两者都没有，我们就无法找到最优策略。在强化学习中，"数据"通常指智能体与环境交互的经验。均值估计问题在介绍蒙特卡洛强化学习算法之前，我们首先需要理解均值估计问题，这是理解从数据而非模型中学习的基础。考虑一个可以取有限实数集合 X 中值的随机变量 X ，我们的任务是计算 X 的均值或期望值： E[...

#Reinforcement Learning #Q-Learning

READ

RL基础概念

Reinforcement Learning

2026-01-11

基础概念 GridWord Example 环境描述：网格世界是一个直观的二维环境，包含：任务目标：什么是强化学习：依据策略执行动作感知状态得到奖励所谓强化学习(Reinforcement Learning，简称RL)，是指基于智能体在复杂、不确定的环境中最大化它能获得的奖励，从而达到自主决策的目的。 a computational approach to learning whereby an agent tries to maximize the total amount of reward it receives while interacting with a complex and uncertain environment 经典的强化学习模型可以总结为下图的形式（你可以理解...

#Reinforcement Learning

READ

DPO(Direct Preference Optimization)

Reinforcement Learning

2026-01-11

背景 RLHF 通常包括三个阶段：有监督微调（SFT）奖励建模阶段（Reward Model） RL微调阶段直接偏好优化（DPO）传统的RLHF方法分两步走： 1. 先训练一个奖励模型来判断哪个回答更好 1. 然后用强化学习让语言模型去最大化这个奖励这个过程很复杂，就像绕了一大圈：先学习"什么是好的"，再学习"如何做好"。 DPO发现了一个数学上的捷径： 1. 关键发现：对于任何奖励函数，都存在一个对应的最优策略（语言模型）；反过来说，任何语言模型也隐含着一个它认为最优的奖励函数 1. 直接优化：与其先训练奖励模型再训练语言模型，不如直接训练语言模型，让它自己内化"什么是好的" 1. 数学转换：DPO将"学习判断好坏"和"学习生成好内容"这两个任务合二为一，通过一个简单的数学变换...

#LLM #Reinforcement Learning

READ

Kimi-VL

Large Model

2026-01-11

模型概述 KimiVL 是一个高效的开源混合专家视觉语言模型(VLM)，它提供先进的多模态推理、长上下文理解和强大的代理能力，同时在语言解码器中仅激活 2.8B 参数(KimiVLA3B)。该模型在多种挑战性任务中表现出色，包括一般用途的视觉语言理解、多轮代理任务、大学水平的图像和视频理解、OCR、数学推理和多图像理解等. 模型架构 KimiVL 的架构由三个主要部分组成： MoE语言模型 Moonlight MoE language model with only 2.8B activated (16B total) parameters 视觉模型 400M nativeresolution MoonViT vision encoder. MLP Projector MoonViT: 原生...

#Large Model #Reinforcement Learning #VLM

READ

计算几何

Algorithm

2026-01-11

计算几何（Computational Geometry），是一系列使用计算机解决几何问题的算法。与解析几何相比，计算几何更适合计算机运算，精度较高，运算速度较快，并且易于编写。浮点误差程序设计中，考虑到浮点数 double 有精度误差，在比较时，通常允许一定的误差，即对于两个数 a 、 b ，如果 [Math] ，则认为 a=b 。一般根据题目要求， d （代码中命名为 EPS）取一个较小值，如 10^{8} 。 [代码] 向量向量（vector）是一个有大小和方向的量，在几何中，它被表示为带箭头的线段。向量可以用起点和终点的坐标来表示 —— 从点 A到点B 的向量表示为 [Math] 。向量的书写，两个大写字母上加一个箭头（表示方向） [Math] 向量没有位置，即向量可以在平面内...

#Algorithm

READ

DETR

Computer Vision

2026-01-11

原理分析网络架构: 本文的任务是Object detection，用到的工具是Transformers，特点是Endtoend。目标检测的任务是要去预测一系列的Bounding Box的坐标以及Label，现代大多数检测器通过定义一些proposal，anchor或者windows，把问题构建成为一个分类和回归问题来间接地完成这个任务。文章所做的工作，就是将transformers运用到了object detection领域，取代了现在的模型需要手工设计的工作，并且取得了不错的结果。在object detection上DETR准确率和运行时间上和Faster RCNN相当；将模型 generalize 到 panoptic segmentation 任务上，DETR表现甚至还超过了其他...

#CV #transformer #Object Detection

READ

Transformers are RNNs

NLP

2026-01-11

摘掉Softmax 制约Attention性能的关键因素，其实是定义里边的Softmax！事实上，简单地推导一下就可以得到这个结论。 [Math] 这一步我们得到一个 [Math] 的矩阵，就是这一步决定了Attention的复杂度是 [Math] ；如果没有Softmax，那么就是三个矩阵连乘 [Math] ，而矩阵乘法是满足结合率的，所以我们可以先算 [Math] ，得到一个 [Math] 的矩阵，然后再用 [Math] 左乘它，由于 [Math] ，所以这样算大致的复杂度只是 [Math] （就是 [Math] 左乘那一步占主导）。也就是说，去掉Softmax的Attention的复杂度可以降到最理想的线性级别 [Math] ！这显然就是我们的终极追求：Linear Attentio...

#Linear Attention #transformer

READ

FLASH：高效Transformer设计

NLP

2026-01-11

概述本文介绍一个比较有意思的高效Transformer工作——来自Google的《Transformer Quality in Linear Time》，经过细读之后，笔者认为论文里边真算得上是“惊喜满满”了～什么样的结果值得我们用“惊喜”来形容？有没有言过其实？我们不妨先来看看论文做到了什么： 1. 提出了一种新的Transformer变体，它依然具有二次的复杂度，但是相比标准的Transformer，它有着更快的速度、更低的显存占用以及更好的效果； 1. 提出一种新的线性化Transformer方案，它不但提升了原有线性Attention的效果，还保持了做Decoder的可能性，并且做Decoder时还能保持高效的训练并行性。说实话，笔者觉得做到以上任意一点都是非常难得的，而这篇论...

#transformer #Linear Attention

READ

#

!

INCOMING TRANSMISSION

搜索

Transformer结构及其应用

随机近似（Stochastic Approximation）

Stable Diffusion

强化学习Model-Free之蒙特卡洛

RL基础概念

DPO(Direct Preference Optimization)

Kimi-VL

计算几何

DETR

Transformers are RNNs

FLASH：高效Transformer设计