知识库 - Orange

Janus 系列

Large Model

2026-04-15

Janus 论文名称: Janus: Decoupling Visual Encoding for Unified Multimodal Understanding and Generation 论文地址: arxiv.org/pdf/2410.13848 项目主页 : github.com/deepseek-ai/Janus 模型 Janus 是使用一个统一的 Transformer 架构来统一多模态图像理解和多模态图像生成任务的模型。这种方法通常使用单个视觉编码器来处理这 2 个任务的输入。然而，多模态理解和生成任务所需的表征差异很大：多模态理解任务中，视觉编码器的目的是提取高级语义信息。理解任务的输出不仅涉及从图像中提取信息，还涉及复杂的语义推理。因此，视觉编码器表示的粒度往往主要集中在高维语义的表征上。相比之下，视觉生成任务中，主要关注点是生成局部细节并保持图像中的全局一致性。在这种情况下，表征需要表示出细粒度的空间结构，以及纹理细节。在同一空间中统一这两个任务的表示将导致冲突...

#生成理解模型 #VLM

READ

Bagel

Large Model

2026-04-15

简介 bagel-ai.org BAGEL 模型原生支持统一的多模态理解和生成，是一个 decoder-only 的模型，BAGEL 在包含文本、图像、视频和网络数据的大量多模态数据上进行了预训练，包括数万亿 tokens。尽管有一些研究尝试扩展其统一模型，但它们主要仍然依赖于标准图像生成和理解任务中的图像-文本配对数据进行训练。然而，最近的研究发现，学术模型与 GPT-4o 和 Gemini 2.0 等专有系统在统一多模态理解和生成方面存在显著差距，而这些专有系统的底层技术并未公开。作者认为，弥合这一差距的关键在于使用精心构建的多模态交错数据进行规模化训练。这种多模态交错数据整合了文本、图像、视频和网络来源。通过使用这种多样化的多模态交错数据进行扩展时，模型展现出复杂的、新兴的多模态推理能力。这种规模化不仅增强了核心的多模态理解和生成能力，还促进了复杂的组合能力，例如自由形式的视觉操作和需要长上下文推理的多模态生成。论文主要贡献：数据策略创新，融合多源数据。包含：架构设计理念，采用 Mixture-of-Transformer-Experts...

#生成理解模型 #VLM

READ

生成理解统一模型概述

Large Model

2026-04-15

Chameleon 论文： https://arxiv.org/pdf/2405.09818 Chameleon 是一个既能做图像理解，又可以做图像或者文本生成任务的，从头训练的 Transformer 模型。完整记录了为实现 mixed-modal 模型的架构设计，稳定训练方法，对齐的配方。并在一系列全面的任务上进行评估：有纯文本任务，也有图像文本任务 (视觉问答、图像字幕)，也有图像生成任务，还有混合模态的生产任务。如下图所示，Chameleon 将所有模态数据 (图像、文本和代码) 都表示为离散 token，并使用统一的 Transformer 架构。训练数据是交错混合模态数据 ∼10T token，以端到端的方式从头开始训练。文本 token 用绿色表示，图像 token 用蓝色表示研究背景 Chameleon 开创了一种新的模型范式，生成理解统一架构。多模态基础模型的一般特点是单独去建模不同的模块，一般而言通过 modal-specific 的编码器或者解码器。这带来了一个问题就是可能会限制模型跨模态整合信息的能力，以及生成可以包含任意图像和文本序列的多模态文档...

#生成理解模型 #VLM

READ

transformers中generate方法

Large Model

2026-04-15

比起两年前，NLG任务已经得到了非常有效的发展，transformers模块的使用广泛程度也达到前所未有的程度。在模型推理预测时，一个核心的语句就是 model.generate() ，本文就来详细介绍一下generate方法是如何运作的。在生成的过程中，包含了诸多生成策略，本文将以最常用的beam search为例，尽可能详细地展开介绍。随着各种LLM的出现，transformers中与generate相关的代码发生了一些变化，主要区别在于： generate的源码位置发生了改变； generate方法中，采用一个 generation_config 参数来管理生成相关的各种配置，并优化了逻辑，使得逻辑更加清晰。 generate的代码位置在之前版本的transformers中（transformers~=4.9），generate方法位于 transformers.generation_utils.py ，这个方法是 GenerationMixin 类的一个方法。而在新版本的transformers中（transformers~=4.42），generate方法被转移到了...

#LLM #transformer

READ

多模态模型发展

Large Model

2026-04-15

总览由于是“图文多模态”，还是要从“图”和“文”的表征方法讲起，然后讲清楚图文表征的融合方法。这里只讲两件事情：视觉表征：分为两个部分问题，一是如何合理建模视觉输入特征，二是如何通过预训练手段进行充分学习表征，这两点是基于视觉完成具体算法任务的基础；视觉与自然语言的对齐（Visul Language Alignment）或融合：目的是将视觉和自然语言建模到同一表征空间并进行融合，实现自然语言和视觉语义的互通，这点同样离不开预训练这一过程。模态对齐是处理多模态问题的基础，也是现在流行的多模态大模型技术前提。对于视觉表征，从发展上可以分为卷积神经网络（CNN）和Vision Transformer（VIT）两大脉络，二者分别都有各自的表征、预训练以及多模态对齐的发展过程。而对于VIT线，另有多模态大模型如火如荼的发展，可谓日新月异。 CNN：视觉理解的一代先驱点击展开卷积视觉表征模型和预训练...

#transformer #VLM #CV

READ

#

!

NOTEBOOK

Janus 系列

Bagel

生成理解统一模型概述

transformers中generate方法

多模态模型发展