知识库 - Orange

生成理解统一模型概述

Large Model

2026-04-07

Chameleon 论文： https://arxiv.org/pdf/2405.09818 Chameleon 是一个既能做图像理解，又可以做图像或者文本生成任务的，从头训练的 Transformer 模型。完整记录了为实现 mixed-modal 模型的架构设计，稳定训练方法，对齐的配方。并在一系列全面的任务上进行评估：有纯文本任务，也有图像文本任务 (视觉问答、图像字幕)，也有图像生成任务，还有混合模态的生产任务。如下图所示，Chameleon 将所有模态数据 (图像、文本和代码) 都表示为离散 token，并使用统一的 Transformer 架构。训练数据是交错混合模态数据 ∼10T token，以端到端的方式从头开始训练。文本 token 用绿色表示，图像 token 用蓝色表示研究背景 Chameleon 开创了一种新的模型范式，生成理解统一架构。多模态基础模型的一般特点是单独去建模不同的模块，一般而言通过 modal-specific 的编码器或者解码器。这带来了一个问题就是可能会限制模型跨模态整合信息的能力，以及生成可以包含任意图像和文本序列的多模态文档...

#生成理解模型 #VLM

READ

Bagel

Large Model

2026-04-07

简介 bagel-ai.org BAGEL 模型原生支持统一的多模态理解和生成，是一个 decoder-only 的模型，BAGEL 在包含文本、图像、视频和网络数据的大量多模态数据上进行了预训练，包括数万亿 tokens。尽管有一些研究尝试扩展其统一模型，但它们主要仍然依赖于标准图像生成和理解任务中的图像-文本配对数据进行训练。然而，最近的研究发现，学术模型与 GPT-4o 和 Gemini 2.0 等专有系统在统一多模态理解和生成方面存在显著差距，而这些专有系统的底层技术并未公开。作者认为，弥合这一差距的关键在于使用精心构建的多模态交错数据进行规模化训练。这种多模态交错数据整合了文本、图像、视频和网络来源。通过使用这种多样化的多模态交错数据进行扩展时，模型展现出复杂的、新兴的多模态推理能力。这种规模化不仅增强了核心的多模态理解和生成能力，还促进了复杂的组合能力，例如自由形式的视觉操作和需要长上下文推理的多模态生成。论文主要贡献：数据策略创新，融合多源数据。包含：架构设计理念，采用 Mixture-of-Transformer-Experts...

#生成理解模型 #VLM

READ

Janus 系列

Large Model

2026-04-03

Janus 论文名称: Janus: Decoupling Visual Encoding for Unified Multimodal Understanding and Generation 论文地址: arxiv.org/pdf/2410.13848 项目主页 : github.com/deepseek-ai/Janus 模型 Janus 是使用一个统一的 Transformer 架构来统一多模态图像理解和多模态图像生成任务的模型。这种方法通常使用单个视觉编码器来处理这 2 个任务的输入。然而，多模态理解和生成任务所需的表征差异很大：多模态理解任务中，视觉编码器的目的是提取高级语义信息。理解任务的输出不仅涉及从图像中提取信息，还涉及复杂的语义推理。因此，视觉编码器表示的粒度往往主要集中在高维语义的表征上。相比之下，视觉生成任务中，主要关注点是生成局部细节并保持图像中的全局一致性。在这种情况下，表征需要表示出细粒度的空间结构，以及纹理细节。在同一空间中统一这两个任务的表示将导致冲突...

#生成理解模型 #VLM

READ

MoE(Mixture-of-Experts) 概述

Deep Learning

2026-03-02

简短总结混合专家模型 (MoEs): 与稠密模型相比，预训练速度更快与具有相同参数数量的模型相比，具有更快的推理速度需要大量显存，因为所有专家系统都需要加载到内存中在微调方面存在诸多挑战，但近期的研究表明，对混合专家模型进行指令调优具有很大的潜力。什么是混合专家模型？模型规模是提升模型性能的关键因素之一。在有限的计算资源预算下，用更少的训练步数训练一个更大的模型，往往比用更多的步数训练一个较小的模型效果更佳。混合专家模型 (MoE) 的一个显著优势是它们能够在远少于稠密模型所需的计算资源下进行有效的预训练。这意味着在相同的计算预算条件下，您可以显著扩大模型或数据集的规模。特别是在预训练阶段，与稠密模型相比，混合专家模型通常能够更快地达到相同的质量水平。那么，究竟什么是一个混合专家模型 (MoE) 呢？作为一种基于 Transformer 架构的模型，混合专家模型主要由两个关键部分组成: 稀疏 MoE 层 : 这些层代替了传统 Transformer 模型中的前馈网络 (FFN) 层。MoE 层包含若干“专家”(例如 8...

#MoE #transformer

READ

双指针

Algorithm

2026-01-28

11. 盛最多水的容器题目给定一个长度为 n 的整数数组 height 。有 n 条垂线，第 i 条线的两个端点是 (i, 0) 和 (i, height[i]) 。找出其中的两条线，使得它们与 x 轴共同构成的容器可以容纳最多的水。返回容器可以储存的最大水量。说明：你不能倾斜容器。示例 1：输入：[1,8,6,2,5,4,8,3,7] 输出：49 解释：图中垂直线代表输入数组 [1,8,6,2,5,4,8,3,7]。在此情况下，容器能够容纳水（表示为蓝色部分）的最大值为 49。示例 2：输入：height = [1,1] 输出：1 提示： n == height.length 2 <= n <= 10 5 0 <= height[i] <= 10 4 题解在初始时，左右指针分别指向数组的左右两端，它们可以容纳的水量为 \(min(1,7)∗8=8\) 。此时我们需要移动一个指针。移动哪一个呢？直觉告诉我们，应该移动对应数字较小的那个指针（即此时的左指针）。这是因为，由于容纳的水量是由两个指针指向的数字中较小值∗指针之间的距离...

#Greedy

READ

#

!

INCOMING TRANSMISSION

生成理解统一模型概述

Bagel

Janus 系列

MoE(Mixture-of-Experts) 概述

双指针