UI-TARS

Oct 20, 2025
4 views
Large Model

UI-TARS

简介

UI-TARSUser Interface - Task Automation and Reasoning System)是由字节跳动(ByteDance)研发的原生 GUI 智能体模型:

  • 输入方式:仅使用屏幕截图作为视觉输入
  • 交互方式:执行类人操作(键盘输入、鼠标点击、拖拽等)
  • 模型特性:端到端的原生智能体模型,无需复杂的中间件或框架
    传统 GUI 智能体的开发往往依赖于文本信息,例如 HTML 结构和可访问性树。虽然这些方法取得了一些进展,但它们也存在一些局限性:

  • 平台不一致性:不同平台的 GUI 结构差异很大,导致智能体难以跨平台通用。

  • 信息冗余:文本信息往往过于冗长,增加了模型的处理负担。
  • 访问限制:获取系统底层的文本信息通常需要较高的权限,限制了应用的范围。
  • 模块化架构:许多现有的 GUI 系统采用模块化框架,将不同功能分配给不同的组件,例如视觉语言模型(VLM)负责理解和推理,而其他模块则负责接地或记忆。这种架构依赖于人工设计和专家知识,难以扩展和适应新的环境。
    因此,基于纯视觉的端到端模型 成为了 GUI 智能体发展的新趋势。这种模型直接以屏幕截图为输入,绕开了文本信息的限制,更符合人类的认知过程,同时端到端的架构可以优化信息流动,提高效率

GUI Agents 发展

image

Stage1: Rule-based Agents

这些 Agent 通常通过将用户指令与预定义规则进行匹配并相应地调用 API 来处理用户指令。尽管这些系统对于定义明确的重复性任务很有效,但受到对人类定义的启发式和显式指令的依赖的限制,阻碍了它们处理新颖和复杂场景的能力。

在此阶段,Agent无法从其环境或以前的经验中学习,并且对工作流的任何更改都需要人工干预。此外,这些Agent需要直接访问 API 或底层系统权限,这使得它不适合此类访问受到限制或不可用的情况。

这种固有的刚性限制了它们在不同环境中扩展的适用性。 基于规则的局限性强调了过渡到基于 GUI 智能体的重要性

Stage2: Agent Framework

具体来说,这些代理系统主要利用高级基础模型(例如 GPT-4 和 GPT-4o等) 的理解和推理能力来增强任务执行的灵活性,从而成为更灵活的、基于框架的智能体。这些智能体通过实现更加自动化和灵活的交互,标志着纯粹基于规则的系统的重大进步。AutoGPT 和 LangChain 等框架允许Agent集成多个外部工具、API 和服务,从而实现更加动态和适应性更强的工作流程。

为了增强基于基础模型的Agent框架的性能,通常涉及设计特定于任务的工作流程和优化每个组件的提示。例如,一些方法通过专门的模块(例如短期或长期记忆)来增强这些框架,以提供特定于任务的知识或存储作经验以进行自我改进。

尽管智能体框架相比基于规则的系统具有更强的适应性,但它们仍然依赖人工定义的工作流程来构建行动结构。"智能体工作流知识"通过自定义提示词、外部脚本或工具使用启发式方法手动编码,主要体现在:

  1. 脆弱性与高维护成本
  2. 割裂的学习范式
  3. 模块不兼容性
    虽然智能体框架在狭窄范围内能够提供快速演示和一定的灵活性,但它们在真实世界部署中最终仍然是脆弱的

核心矛盾

  • ✅ 优势:比规则系统更灵活,适合快速原型开发
  • ❌ 劣势:依赖人工定义工作流,无法自主学习和适应,本质上不可扩展
    演进方向:需要从"设计驱动"转向"学习驱动",使智能体能够从经验中自主学习,无需持续人工干预即可泛化到新任务和环境。

Stage 3: Native Agent Model

原生智能体模型代表了自主智能体发展的未来方向,其核心特征是:

  • 工作流知识直接嵌入模型内部,通过定向学习实现
  • 端到端方式学习和执行任务
  • 将感知、推理、记忆和行动统一在单一的、持续演进的模型
  • 数据驱动而非设计驱动
    Native Agent Model 的优势:
  1. 整体性学习与适应 (Holistic Learning and Adaptation)
  2. 减少人工工程 (Reduced Human Engineering)
  3. 通过统一参数实现强泛化 (Strong Generalization via Unified Parameters)
  4. 持续自我改进 (Continuous Self-Improvement)
    代表性工作

当前 GUI 智能体的发展已逐步进入这一阶段,代表性工作包括:

  • Claude Computer-Use (Anthropic, 2024)
  • Aguvis (Xu et al., 2024)
  • ShowUI (Lin et al., 2024)
  • OS-Atlas (Wu et al., 2024)
  • Octopus v2-4 (Chen & Li, 2024)
    共同特点:这些模型主要利用现有的世界数据,专门为 GUI 交互领域定制大型视觉语言模型(VLM)。

Stage 4: Action and Lifelong Agent

尽管原生智能体在适应性方面有所改进,但仍存在着限制:严重依赖人类专家进行数据标注和训练指导,这种依赖性本质上限制了其能力,使其依赖于人类提供的数据和知识的质量和广度

主动与终身学习(Active and Lifelong Learning)的转变代表了 GUI 智能体演进的关键下一步,包含:主动环境交互,自主奖励机制和自主探索与学习

这些智能体迭代式地开发和修改技能,类似于机器人学中的持续学习:从成功和失败中学习,逐步增强在越来越广泛的任务和场景中的泛化能力,持续演进和自我改进

核心内容

image

UI-TARS 的核心创新在于它是一个完全基于视觉的、端到端的 GUI 智能体模型。它主要有以下几个关键贡献:

  • 增强的感知能力: UI-TARS 通过大规模的 GUI 屏幕截图数据集进行训练,从而能够理解 UI 元素的上下文,并进行精确的标注。这包括:
  • 统一的动作建模:UI-TARS 将不同平台上的操作标准化为一个统一的空间,并通过大规模的动作轨迹实现了精确的Grounding和交互。
  • System-2 推理:UI-TARS 在多步骤决策中融入了深思熟虑的推理,包括任务分解、反思思考、里程碑识别等多种推理模式。
  • 长短期记忆:原生智能体模型与智能体框架不同,它们将任务的长期操作经验编码在其内部参数中,将可观察的交互过程转换为隐式的参数化存储。可以采用上下文学习(ICL)或思维链(CoT)推理等技术来激活这种内部记忆。
    UI-TARS 的端到端架构使其能够直接处理原始的屏幕截图,避免了对文本信息的依赖。同时,系统 2 推理 能力使其能够执行复杂的、多步骤的任务,而不是仅仅执行简单的、反应式的操作。

方法解析

下面我们来更深入地了解一下 UI-TARS 的技术细节:

  1. 数据构建
  2. 动作建模和接地
  3. 系统 2 推理

  4. 迭代改进

  5. 训练

模型性能

image

UI-TARS2

背景&挑战

  • 数据缺失
  • 多轮强化学习训练
  • GUI操作的局限性
  • RL环境的可扩展性和稳定性
    论文也是针对以上四点进行的展开,针对性的构建了基于四大支柱的系统化方法。

  • 针对数据稀缺的问题,设计了一个可扩展的数据飞轮(Data Flywheel),可以持续预训练、监督微调、拒绝采样与多回合RL使模型与训练语料协同演化,不断提升模型能力;

  • 针对多轮RL困难的问题,设计了稳定优化的训练框架(后面展开);
  • 针对纯GUI交互局限性的问题,设计了以GUI为中心的混合工具环境,将文件系统、终端和其他外部工具合并;
  • 针对RL训练和测评的环境问题,搭建了统一的沙箱平台,可以在一致的API下编排异构环境——从用于GUI交互的云端虚拟机到基于浏览器的游戏沙箱。

UI-TARS-2主要方法

image

格式

还是延用UI-TARS中原生智能体模型的视角,其中的Agent被建模为参数化策略:将历史上下文、记忆状态和当前环境映射到行为输出中。在时间步骤 \(t\),智能体遵循ReAct范式,将推理、行动和观察交错在一个结构化循环中:

  • 推理(\(t_t\)):内部认知处理,包括上下文分析、记忆回忆、计划和自我反思
  • 动作(\(a_t\)):外部交互,例如 GUI操作、系统命令或工具调用
  • 观察(\(o_t\)):来自用于更新Agent状态的环境反馈。
    对于动作空间整体分文两个大类:
  1. GUI动作:遵循UI-Tars的直接界面操作
  2. SDK函数:用于文件管理和软件开发的直接终端命令,以及用于编排外部服务与多工具推理的MCP工具调用。
    如果将GUI轨迹看做是一个马尔科夫链,其过程是LLM不断ReAct的过程,可以表示成以下格式(假设轨迹的总时间步是 \(T\) ):
\[ τ = {(t_0,a_0,o_0),(t_1,a_1,o_1),...,(t_T,a_T,o_T)} \]

对于长时间步的轨迹来说,肯定不能将所有记忆(之前步骤的三元组内容)都输入给模型,一是模型上下文有限,二是每个图片会切分成很多token,很长的输入会使得模型计算耗时严重。

论文中是使用了一个关键组成部分是分层记忆状态

\[ \mathcal{M}_t = (\mathcal{W}_t, \mathcal{E}_t) \]

其中 \(\mathcal{W}_t\)( working memory) 以存储最近的步骤(\(t_{t−k}\)\(a_{t−k}\)\(o_{t−k}\))以进行短期推理,而 \(\mathcal{E}_t\)(Episodic Memory) 则保持过去情节的语义压缩摘要,保留关键意图和结果以进行长期回忆。在每个时间步,策略预测下一步的推理和行动可以表达为: