知识库 - Orange

优先队列

Algorithm

2026-02-25

堆和优先队列的关系这是一个非常经典且核心的计算机科学概念问题。一言以蔽之：优先队列（Priority Queue）是逻辑接口（ADT），而堆（Heap）是实现这个接口最高效的物理数据结构。它们的关系可以类比为 “接口（Interface）” 与 “实现类（Implementation）” 的关系，或者 “汽车（功能）”与 “发动机（核心组件）” 的关系。优先队列 (Priority Queue) —— 逻辑层 (ADT) 定义：它是一种抽象数据类型 (Abstract Data Type, ADT) 。它定义了数据的行为，而不是数据的存储方式。规则：普通的队列是“先进先出”（FIFO），而优先队列是 “优先级最高的先出” 。核心操作： insert(item, priority) : 插入一个带优先级的元素。 deleteMax() 或 deleteMin() : 取出并删除优先级最高（或最低）的元素。 peek() : 查看优先级最高的元素。堆 (Heap) —— 物理层 (Data Structure) 定义：它是一种具体的数据结构。通常指二叉堆...

#Algorithm

READ

背包问题

Algorithm

2026-02-13

引入在具体讲何为「背包 dp」前，先来看如下的例题：题意概要：有 \( 𝑛\) 个物品和一个容量为 \( 𝑊\) 的背包，每个物品有重量 \(𝑤_𝑖\) 和价值 \(𝑣_𝑖\) 两种属性，要求选若干物品放入背包使背包中物品的总价值最大且背包中物品的总重量不超过背包的容量．在上述例题中，由于每个物体只有两种可能的状态（取与不取），对应二进制中的 0 和 1，这类问题便被称为「0-1 背包问题」． 0-1背包解释例题中已知条件有第 \(𝑖\) 个物品的重量 \(𝑤_𝑖\) ，价值 \(𝑣_𝑖\) ，以及背包的总容量 \(𝑊\) ．设 DP 状态 \(𝑓_{𝑖,𝑗} \) 为在只能放前 \(𝑖\) 个物品的情况下，容量为 \(𝑗\) 的背包所能达到的最大总价值．考虑转移．假设当前已经处理好了前 \(𝑖 −1 \) 个物品的所有状态，那么对于第 \(𝑖\) 个物品，当其不放入背包时，背包的剩余容量不变，背包中物品的总价值也不变，故这种情况的最大价值为 \(𝑓_{𝑖−1,𝑗}\) ；当其放入背包时，背包的剩余容量会减小 \(𝑤_𝑖\) ，背包中物品的总价值会增大 \(𝑣_𝑖\)...

#Algorithm

READ

最小生成树

Algorithm

2026-02-13

简介生成树（spanning tree）在图论中，无向图 \(G=(V,E)\) 的生成树（spanning tree)是具有 \(G\) 的全部顶点，但边数最少的联通子图。假设 \(G\) 中一共有 \(n\) 个顶点，一颗生成树满足下列条件 \(n\) 个顶点； \(n-1\) 条边； \(n\) 个顶点联通；一个图的生成树可能有多个。最小生成树（minimum spanning tree， MST）/最小生成森林：联通加权无向图中边缘权重加和最小的生成树。给定无向图 \(G=(V,E)\) ， \((u,v)\) 代表顶点 \(u\) 与顶点 \(v\) 的边， \(w(u,v)\) 代表此边的权重，若存在生成树T使得： \[w(T) = \sum_{(u,v)\in T}w(w,v)\] 最小，则 \(T\) 为 \(G\) 的最小生成树。对于非连通无向图来说，它的每一连通分量同样有最小生成树，它们的并被称为最小生成森林。最小生成树除了继承生成树的性质之外，还存在下面两个特点：当图的每一条边的权值都相同时，该图的所有生成树都是最小生成树；...

#Algorithm

READ

链表

Algorithm

2026-01-29

160. 相交链表题目给你两个单链表的头节点 headA 和 headB ，请你找出并返回两个单链表相交的起始节点。如果两个链表不存在相交节点，返回 null 。图示两个链表在节点 c1 开始相交：题目数据保证整个链式结构中不存在环。注意，函数返回结果后，链表必须保持其原始结构。自定义评测：评测系统的输入如下（你设计的程序不适用此输入）： intersectVal - 相交的起始节点的值。如果不存在相交节点，这一值为 0 listA - 第一个链表 listB - 第二个链表 skipA - 在 listA 中（从头节点开始）跳到交叉节点的节点数 skipB - 在 listB 中（从头节点开始）跳到交叉节点的节点数评测系统将根据这些输入创建链式数据结构，并将两个头节点 headA 和 headB 传递给你的程序。如果程序能够正确返回相交节点，那么你的解决方案将被视作正确答案。示例 1：输入：intersectVal = 8, listA = [4,1,8,4,5], listB = [5,6,1,8,4,5], skipA = 2,...

#Algorithm

READ

MiMo-VL

Large Model

2026-01-26

概述小米团队近日发布了MIMO-VL-7B-SFT和MIMO-VL-7B-RL，这是两个强大的视觉语言模型，MIMO-VL-7B-RL在40个评估任务中的35个上优于QWEN2.5-VL-7B，对于GUI Grounding任务，它在OSWorld-G上设置了一个新标准，甚至超过了UI-TARS等专业模型。模型通过四个阶段的预训练（2.4T Token）与Mixed On-policy 强化（MORL）整合了多样化的奖励信号。在文章中，作者提到了两个重要的发现：从Pre-Traing 训练阶段中加入高质量且覆盖广的推理数据对于强化模型性能至关重要。 Mixed On-policy 强化学习进一步增强了模型的性能，同时实现了稳定的同时改进仍然在性能方面具有挑战性。 Pre-Training 模型结构整个模型还是采用了VIT-MLP-LLM的结构，具体来说，视觉模型采用了Qwen2.5-VL中的视觉encoder，LLM采用了自家的语言模型MiMo-7B-Base。整个Pretraining采用了四个阶段的训练，每个阶段采用的数据，模型训练参数和模型参数如下面两表所示...

#VLM #Large Model

READ

MiniCPM-V系列

Large Model

2026-01-26

MiniCPM-V系列是面壁智能推出的小参数量的开源多模态大模型，没有超过9B的版本。主打小而强。 MiniCPM-Llama3-V 2.5 这版有论文了，详细写。应该也是2.6的基础。这一版在 OpenCompass 评估中优于强大的 GPT-4V-1106、Gemini Pro 和 Claude 3。能力支持最高1.8M像素的高分辨率图像输入（例如1344*1344），支持任意长宽比图像强大的OCR，OCRBench 上优于 GPT-4V、Gemini Pro 和 Qwen-VL-Max，支持table-to-markdown 可信，基于RLAIF-V技术做了对齐，减少幻觉，更符合人类喜好多语言，基于VisCPM技术，支持30多种语言系统地集成了一套端侧部署优化技术模型架构基本架构三部分：visual encoder, 压缩层, LLM visual encoder：SigLIP SoViT-400m/14 压缩层：单层交叉注意力 LLM：每一代都不同 Adaptive Visual Encoding...

#Large Model #VLM

READ

InternVL系列

Large Model

2026-01-26

InternVL Blog： https://internvl.github.io/blog/ Github： https://github.com/OpenGVLab/InternVL InternVL 1.0 对齐策略语言模型和视觉模型各自发展，各有突破，但如何让语言模型会看图，或者让视觉模型会说话？为了将视觉模型与语言模型进行连接，对齐如同“胶水”,将两种模型链接在一起，如使用QFormer或线性投影这样的轻量级“胶水”层，来形成视觉-语言模型，如InstructBLIP和LLaVA，但均存在局限性。现有对齐策略的局限性参数规模的不一致： LLM的参数规模已经达到1000亿，而广泛使用的VLLM的视觉编码器仍在10亿参数左右。这种差距可能导致LLM的能力无法被充分利用。特征表示的不一致：在纯视觉数据上训练的视觉模型或与BERT系列对齐的模型往往与LLM存在表示上的不一致。连接效率低下： “胶水”层通常是轻量的、随机初始化的，可能无法捕捉到多模态理解和生成所需的丰富的跨模态交互和依赖关系。 InternVL引入全新的对齐策略...

#VLM #Large Model

READ

DeepSeek-v3

Large Model

2026-01-15

简介 24年12月,研究团队开发了 DeepSeek-V3，这是一个基于 MoE 架构的大模型，总参数量达到 671B，其中每个 token 会激活 37B 个参数。基于提升性能和降低成本的双重目标，在架构设计方面，DeepSeek-V3 采用了 MLA 来确保推理效率，并使用 DeepSeekMoE 来实现经济高效的训练。这两种架构在 DeepSeek-V2 中已经得到验证，证实了它们能够在保持模型性能的同时实现高效的训练和推理。除了延续这些基础架构外，研究团队还引入了两项创新策略来进一步提升模型性能。首先，DeepSeek-V3 首创了无辅助损失的负载均衡策略(auxiliary-loss-free strategy for load balancing)，有效降低了负载均衡对模型性能的负面影响。另外，DeepSeek-V3 采用了多 token 预测训练目标，这种方法在评估基准测试中展现出了显著的性能提升。为了提高训练效率，该研究采用了 FP8 混合精度训练技术...

#LLM #Large Model

READ

从GRPO到GSPO、DAPO

Reinforcement Learning

2026-01-11

回顾 PPO [公式] 其中 (q, a) 是数据集 [Math] 中采样的 questionanswer pair, [Math] 是重要性采样比的clip范围, [Math] 是时间步 t 的优势估计量. 给定 value function V 和 reward function R , [Math] 使用广义优势估计 (GAE) 来计算: [公式] 其中， [公式] GRPO 相比于 PPO, GRPO 去掉了value function 并以分组的方式估计优势。对于特定的问答对 (q, a), behavior policy [Math] 生成了一组 G 个 response \{o...

#Reinforcement Learning #Large Model

READ

#

!

INCOMING TRANSMISSION

优先队列

背包问题

最小生成树

链表

MiMo-VL

MiniCPM-V系列

InternVL系列

DeepSeek-v3

从GRPO到GSPO、DAPO