知识库 - Orange

Kimi-VL

Large Model

2026-01-11

模型概述 KimiVL 是一个高效的开源混合专家视觉语言模型(VLM)，它提供先进的多模态推理、长上下文理解和强大的代理能力，同时在语言解码器中仅激活 2.8B 参数(KimiVLA3B)。该模型在多种挑战性任务中表现出色，包括一般用途的视觉语言理解、多轮代理任务、大学水平的图像和视频理解、OCR、数学推理和多图像理解等. 模型架构 KimiVL 的架构由三个主要部分组成： MoE语言模型 Moonlight MoE language model with only 2.8B activated (16B total) parameters 视觉模型 400M nativeresolution MoonViT vision encoder. MLP Projector MoonViT: 原生...

#VLM #Large Model #Reinforcement Learning

READ

DeepSpeed

Large Model

2026-01-11

背景：大模型 vs. GPU Memory 大模型最大的特点是模型参数多，训练时需要很大的GPU显存。举个例子，帮助大家的理解：对于一个常见的7B规模参数的大模型（如LLaMA-2 7B），基于16-bit混合精度训练时，在仅考虑模型参数、梯度、优化器情况下，显存占用就有112GB，显然目前A100、H100这样主流的显卡单张是放不下的，更别提国内中小厂喜欢用的A6000/5000、甚至消费级显卡。上面的例子中，参数占GPU 显存近 14GB（每个参数2字节）。再考虑到训练时梯度的存储占14GB（每个参数对应一个梯度，也是2字节）、优化器Optimizer假设是用目前主流的AdamW则是8...

#Large Model

READ

二次型优化问题

Math

2026-01-11

问题定义多元二次多项式，维度为 n ，那么可以用以下公式描述该函数： [Formula] 其中 a_{i,j} 为二次项系数，共有 n^2 项， 1≤i,j≤n ，且所有的 a 不全为0，即 ∃a_{i,j}≠0 ; b_k 为一次项系数，共 n 项， 1≤k≤n ; c 为常数项。记 f(x)=[x_1,x_2,...,x_n]^T ，则上述函数可以写作二次型的形式：转化过程中A,b满足： A 为n阶对称方阵， A_{i,j}=a_{i,j} 因为 ∃a_{i,j}≠0 ，A不为零矩阵 b_i=b_i 为了后续计算简便，我们将二次型稍作改动： [Formula] 我们的目标就是寻找该函...

#math

READ

生成理解统一模型概述

Large Model

2026-01-11

Chameleon：生成理解统一模型的开山之作 🔖 https://arxiv.org/pdf/2405.09818 Chameleon 是一个既能做图像理解，又可以做图像或者文本生成任务的，从头训练的 Transformer 模型。完整记录了为实现 mixedmodal 模型的架构设计，稳定训练方法，对齐的配方。并在一系列全面的任务上进行评估：有纯文本任务，也有图像文本任务 (视觉问答、图像字幕)，也有图像生成任务，还有混合模态的生产任务。如下图所示，Chameleon 将所有模态数据 (图像、文本和代码) 都表示为离散 token，并使用统一的 Transformer 架构。训练数据是交错混合模态数据 ∼10T token，以端到端的方式从头开始训练。文本 token 用绿色表示，图像...

#VLM #LLM #Large Model

READ

方向导数与梯度

Math

2026-01-11

基本概念方向导数：是一个数；反映的是 f(x,y) 在 P_0 点沿方向 v 的变化率。偏导数：是多个数（每元有一个）；是指多元函数沿坐标轴方向的方向导数，因此二元函数就有两个偏导数。偏导函数：是一个函数；是一个关于点的偏导数的函数。梯度：是一个向量；每个元素为函数对一元变量的偏导数；它既有大小（其大小为最大方向导数），也有方向。方向导数反映的是 f(x,y) 在 P_0 点沿方向 v 的变化率。例子如下：题目设二元函数 f(x, y) = x^2 + y^2 ，分别计算此函数在点 (1, 2) 沿方向 w=\{3, 4\} 与方向 u=\{1, 0\} 的方向导数。解： ...

#math

READ

Dify安装

Large Model

2026-01-11

🔖 https://docs.dify.ai/zhhans/gettingstarted/installselfhosted Docker 按照官方文档说明配置即可 https://docs.dify.ai/zhhans/gettingstarted/installselfhosted/dockercompose 源码安装参考官方步骤，需要补充一些内容 https://docs.dify.ai/zhhans/gettingstarted/installselfhosted/localsourcecode 在启动API 服务之前需要安装PostgreSQL数据库和Redis Postgres安装配置(非Root) 下载二进制编译好的安装包，下载地址在这里解压并创建data目录初始化d...

#Large Model

READ

Kimi k1.5—CoT强化训练

Large Model

2026-01-11

概述 Kimi k1.5采用了一种简化而有效的强化学习框架，其核心在于长上下文扩展和改进的策略优化方法，而不依赖于更复杂的技术如蒙特卡洛树搜索、价值函数和过程奖励模型。问题设定给定训练数据集 D = \{(x_i, y^_i)\}_{i=1}^n ，其中包含问题 x_i 和对应的真实答案 y^_i ，目标是训练一个策略模型 [Math] 来准确解决测试问题。在复杂推理场景中，思维链(CoT)方法提出使用一系列中间步骤 z = (z_1, z_2, ..., z_m) 来连接问题 x 和答案 y ，每个 z_i 是解决问题的重要中间步骤。当解决问题 x 时，思维 [Math] 被自回归采样，最终答案 [Math] 。强化学习目标基于真实答案 y^ ，分配一个值 [Math] , Ki...

#Large Model #Policy Gradient #Reinforcement Learning #LLM

READ

Structured Generation

Large Model

2026-01-11

引言 Structured Generation with LLM，是指让LLM按照预先定义的schema，输出符合schema的结构化结果。常见的应用场景有： 1. 数据处理。主要功能为a b，即从源文本中抽取/生成符合schema的结果，例如给定新闻，进行分类、抽取关键词、生成总结等； 1. Agent。主要功能是Tool Calling，即根据用户query，选择适当的tool和入参。将 LLM 限制为始终生成符合特定模式的、有效的 JSON 或 YAML，是许多应用的关键功能。 Kor Kor，一个基于prompt的技术方案；Kor比较适合数据处理场景，且原理简单、易于理解，适合作为入门, 并且Kor适用于那些不支持function calling的比较旧的模型。使用Kor进行...

#LLM #Large Model

READ

证明调和级数敛散

Math

2026-01-11

调和级数记住下面的公式就够了： [Formula] 证明方法就是下面这张图

#math

READ

泊松分布和指数分布

Math

2026-01-11

一、泊松分布日常生活中，大量事件是有固定频率的。某医院平均每小时出生3个婴儿某公司平均每10分钟接到1个电话某超市平均每天销售4包xx牌奶粉某网站平均每分钟有2次访问它们的特点就是，我们可以预估这些事件的总数，但是没法知道具体的发生时间。已知平均每小时出生3个婴儿，请问下一个小时，会出生几个？有可能一下子出生6个，也有可能一个都不出生。这是我们没法知道的。泊松分布就是描述某段时间内，事件具体的发生概率。 [Formula] 上面就是泊松分布的公式。等号的左边， P 表示概率， N 表示某种函数关系， t 表示时间， n 表示数量，1小时内出生3个婴儿的概率，就表示为 P(N(1...

#math

READ

投机采样之EAGLE

Large Model

2026-01-11

概述 MTP（Multitoken Prediction）的总体思路是：让模型使用n个独立的输出头来预测接下来的n个token，这n个独立的输出头共享同一个模型主干。这样通过解码阶段的优化，将1token的生成，转变成multitoken的生成，从而提升训练和推理的性能。在DeepSeek之前也有几个MTP方案，其侧重点各自不同。侧重推理时解码加速。比如论文“MEDUSA: Simple LLM Inference Acceleration Framework with Multiple Decoding Heads”、论文“EAGLE: Speculative Sampling Requires Rethinking Feature Uncertainty”等。这些方案通过一次生成多个...

#Large Model #Acceleration

READ

SSM奠基之作-HiPPO

NLP

2026-01-11

概述 HiPPO（Highorder Polynomial Projection Operators）是目前大热的structured state space model (S4)及其后续工作的backbone. State space mode主要是控制学科里的内容，最近被引入深度学习领域来解决长距离依赖问题。长距离依赖建模的核心问题是如何通过有限的memory来尽可能记住之前所有的历史信息。当前的主流序列建模模型（即Transformer和RNN) 存在着普遍的遗忘问题 fixedsize context windows: Transformer的window size通常是有限的，一般来说quadratic的attention最多建模到大约10k的token就到计算极限了 vanish...

#math

READ

#

!

INCOMING TRANSMISSION

Kimi-VL

DeepSpeed

二次型优化问题

生成理解统一模型概述

方向导数与梯度

Dify安装

Kimi k1.5—CoT强化训练

Structured Generation

证明调和级数敛散

泊松分布和指数分布

投机采样之EAGLE

SSM奠基之作-HiPPO