知识库 - Orange

Chameleon：生成理解统一模型的开山之作

DRAFT

Large Model

2026-03-10

🔖 https://arxiv.org/pdf/2405.09818 Chameleon 是一个既能做图像理解，又可以做图像或者文本生成任务的，从头训练的 Transformer 模型。完整记录了为实现 mixed-modal 模型的架构设计，稳定训练方法，对齐的配方。并在一系列全面的任务上进行评估：有纯文本任务，也有图像文本任务 (视觉问答、图像字幕)，也有图像生成任务，还有混合模态的生产任务。如下图所示，Chameleon 将所有模态数据 (图像、文本和代码) 都表示为离散 token，并使用统一的 Transformer 架构。训练数据是交错混合模态数据 ∼10T token，以端到端的方式从头开始训练。文本 token 用绿色表示，图像 token 用蓝色表示 Transfusion：使用一个模型完成图像生成和理解任务概述 Transfusion 是一种从头训练的 Transformer 模型，专为图像理解和生成任务设计。它使用图像文本混合数据进行训练，目标函数包括 Diffusion Loss 和 Language Modeling Loss。 Transfusion...

#Large Model #VLM #LLM

READ

#

!

DRAFTS

Chameleon：生成理解统一模型的开山之作