知识库 - Orange

UI-TARS

Large Model

2026-01-11

UITARS 简介 UITARS（User Interface Task Automation and Reasoning System）是由字节跳动（ByteDance）研发的原生 GUI 智能体模型：输入方式：仅使用屏幕截图作为视觉输入交互方式：执行类人操作（键盘输入、鼠标点击、拖拽等）模型特性：端到端的原生智能体模型，无需复杂的中间件或框架传统 GUI 智能体的开发往往依赖于文本信息，例如 HTML 结构和可访问性树。虽然这些方法取得了一些进展，但它们也存在一些局限性：平台不一致性：不同平台的 GUI 结构差异很大，导致智能体难以跨平台通用。信息冗余：文本信息往往过于冗长，增加了模型的处理负担。访问限制：获取系统底层的文本信息通常需要较高的权限，限制了应用的范围。模块化...

#Agent #VLM

READ

Autoregressive models 概述

Generative Model

2026-01-11

给定一个包含 n 维数据 x 的数据集 D , 简单起见，假设数据 [Math] . 由于真正对联合分布建模的时候， x，y 都是随机变量，故而只需讨论 p(X)=p(x_1,...,x_n) 即可，毕竟只需要令 x_n=y 即可。给定一个具体的任务，如MNIST中的手写数字二值图分类，从Generative的角度进行Represent，并在Inference中Learning. 下面先介绍：描述如何对这个MINST任务建模 p(X,Y) （Representation）对MNIST任务建模对于一张pixel为 [Math] 大小的图片，令 x_1 表示第一个pixel的随机变量， [Math] ，需明确：任务目标：学习一个模型分布 [Math] ，使采样时 [Math] ， x ...

#Generating Model #Autoregressive

READ

LLM Finetuning— Lora

Large Model

2026-01-11

背景随着预训练语言模型进入LLM时代，其参数量愈发庞大。全量微调模型所有参数所需的显存早已水涨船高。例如：全参微调Qwen1.57BChat预估要2张80GB的A800，160GB显存全参微调Qwen1.572BChat预估要20张80GB的A800，至少1600GB显存。而且，通常不同的下游任务还需要LLM的全量参数，对于算法服务部署来说简直是个灾难当然，一种折衷做法就是全量微调后把增量参数进行SVD分解保存，推理时再合并参数为了寻求一个不更新全部参数的廉价微调方案，之前一些预训练语言模型的高效微调(Parameter Efficient finetuning, PEFT)工作，要么插入一些参数或学习外部模块来适应新的下游任务。 LoRA LoRA（LowRank Adapt...

#Fine-tuning #LLM

READ

#

!

INCOMING TRANSMISSION

UI-TARS

Autoregressive models 概述

LLM Finetuning— Lora