知识库 - Orange

InternVL系列

Large Model

2026-01-26

InternVL Blog： https://internvl.github.io/blog/ Github： https://github.com/OpenGVLab/InternVL InternVL 1.0 对齐策略语言模型和视觉模型各自发展，各有突破，但如何让语言模型会看图，或者让视觉模型会说话？为了将视觉模型与语言模型进行连接，对齐如同“胶水”,将两种模型链接在一起，如使用QFormer或线性投影这样的轻量级“胶水”层，来形成视觉-语言模型，如InstructBLIP和LLaVA，但均存在局限性。现有对齐策略的局限性参数规模的不一致： LLM的参数规模已经达到1000亿，而广泛使用的VLLM的视觉编码器仍在10亿参数左右。这种差距可能导致LLM的能力无法被充分利用。特征表示的不一致：在纯视觉数据上训练的视觉模型或与BERT系列对齐的模型往往与LLM存在表示上的不一致。连接效率低下： “胶水”层通常是轻量的、随机初始化的，可能无法捕捉到多模态理解和生成所需的丰富的跨模态交互和依赖关系。 InternVL引入全新的对齐策略...

#VLM #Large Model

READ

DeepSeek-v3

Large Model

2026-01-15

简介 24年12月,研究团队开发了 DeepSeek-V3，这是一个基于 MoE 架构的大模型，总参数量达到 671B，其中每个 token 会激活 37B 个参数。基于提升性能和降低成本的双重目标，在架构设计方面，DeepSeek-V3 采用了 MLA 来确保推理效率，并使用 DeepSeekMoE 来实现经济高效的训练。这两种架构在 DeepSeek-V2 中已经得到验证，证实了它们能够在保持模型性能的同时实现高效的训练和推理。除了延续这些基础架构外，研究团队还引入了两项创新策略来进一步提升模型性能。首先，DeepSeek-V3 首创了无辅助损失的负载均衡策略(auxiliary-loss-free strategy for load balancing)，有效降低了负载均衡对模型性能的负面影响。另外，DeepSeek-V3 采用了多 token 预测训练目标，这种方法在评估基准测试中展现出了显著的性能提升。为了提高训练效率，该研究采用了 FP8 混合精度训练技术...

#LLM #Large Model

READ

从GRPO到GSPO、DAPO

Reinforcement Learning

2026-01-11

回顾 PPO [公式] 其中 (q, a) 是数据集 [Math] 中采样的 questionanswer pair, [Math] 是重要性采样比的clip范围, [Math] 是时间步 t 的优势估计量. 给定 value function V 和 reward function R , [Math] 使用广义优势估计 (GAE) 来计算: [公式] 其中， [公式] GRPO 相比于 PPO, GRPO 去掉了value function 并以分组的方式估计优势。对于特定的问答对 (q, a), behavior policy [Math] 生成了一组 G 个 response \{o...

#Reinforcement Learning #Large Model

READ

#

!

INCOMING TRANSMISSION

InternVL系列

DeepSeek-v3

从GRPO到GSPO、DAPO