INCOMING TRANSMISSION

LATEST UPDATES
SigLIP 概述 CLIP自提出以来在zeroshot分类、跨模态搜索、多模态对齐等多个领域得到广泛应用。得益于其令人惊叹的能力,激起了研究者广泛的关注和优化。 目前对CLIP的优化主要可以分为两大类: 其一是如何降低CLIP的训练成本; 其二是如何提升CLIP的performance。 对于第一类优化任务的常见思路有3种。 1. 优化训练架构,如 LiT 通过freezen image encoder,单独训练text encoder来进行text 和image的对齐来加速训练; 1. 减少训练token,如 FLIP 通过引入视觉mask,通过只计算非mask区域的视觉表征来实现加速(MAE中的思路) 1. 优化目标函数,如 CatLIP 将caption转为class label,用...
BLIP:统一理解和生成的自举多模态模型 论文名称:BLIP: Bootstrapping LanguageImage Pretraining for Unified VisionLanguage Understanding and Generation (ICML 2022) 论文地址: https://arxiv.org/pdf/2201.12086.pdfarxiv.org/pdf/2201.12086.pdf 代码地址: https://github.com/salesforce/BLIPgithub.com/salesforce/BLIP 官方解读博客: https://blog.salesforceairesearch.com/blipbootstrappinglanguagei...
多模态 模态(modal)是事情经历和发生的方式,我们生活在一个由多种模态(Multimodal)信息构成的世界,包括视觉信息、听觉信息、文本信息、嗅觉信息等等,当研究的问题或者数据集包含多种这样的模态信息时我们称之为多模态问题,研究多模态问题是推动人工智能更好的了解和认知我们周围世界的关键。 通常主要研究模态包括"3V":即Verbal(文本)、Vocal(语音)、Visual(视觉)。 多模态发展历史 实际上,多模态学习不是近几年才火起来,而是近几年因为深度学习使得多模态效果进一步提升。下面梳理一下从1970年代起步,多模态技术经历的4个发展阶段,在2012后迎来 Deep Learning 阶段,在2016年后进入目前真正的多模态阶段。 第一阶段为基于行为的时代(1970s until...
总结 BLIP2 是一种多模态 Transformer 模型,主要针对以往的视觉语言预训练 (VisionLanguage Pretraining, VLP) 模型端到端训练导致计算代价过高的问题。 所以,如果能够使用预训练好的视觉模型和语言模型,我把参数冻结,应该能够节约不少的计算代价。 BLIP2 就是这样,这个工作提出了一种借助现成的冻结参数的预训练视觉模型和大型语言模型的,高效的视觉语言预训练方法。 但是,简单的冻结预训练好的视觉模型的参数或者语言模型的参数会带来一个问题:就是视觉特征的空间和文本特征的空间,它不容易对齐。那么为了解决这个问题,BLIP2 提出了一个轻量级的 Querying Transformer,该 Transformer 分两个阶段进行预训练。第一阶段从冻结的视...