Chameleon:生成理解统一模型的开山之作
DRAFT
Large Model
2026-03-10
🔖 https://arxiv.org/pdf/2405.09818 Chameleon 是一个既能做图像理解,又可以做图像或者文本生成任务的,从头训练的 Transformer 模型。完整记录了为实现 mixed-modal 模型的架构设计,稳定训练方法,对齐的配方。并在一系列全面的任务上进行评估:有纯文本任务,也有图像文本任务 (视觉问答、图像字幕),也有图像生成任务,还有混合模态的生产任务。 如下图所示,Chameleon 将所有模态数据 (图像、文本和代码) 都表示为离散 token,并使用统一的 Transformer 架构。训练数据是交错混合模态数据 ∼10T token,以端到端的方式从头开始训练。文本 token 用绿色表示,图像 token 用蓝色表示 Transfusion:使用一个模型完成图像生成和理解任务 概述 Transfusion 是一种从头训练的 Transformer 模型,专为图像理解和生成任务设计。它使用图像文本混合数据进行训练,目标函数包括 Diffusion Loss 和 Language Modeling Loss。 Transfusion...