知识库 - Orange

DeepSeek 系列

Large Model

2026-01-15

🔖 https://www.deepseek.com/ DeepSeek LLM 代码地址： https://github.com/deepseek-ai/DeepSeek-LLM 背景量化巨头幻方探索AGI（通用人工智能）新组织“深度求索”在成立半年后，发布的第一代大模型，免费商用，完全开源。作为一家隐形的AI巨头，幻方拥有1万枚英伟达A100芯片，有手撸的HAI-LLM训练框架HAI-LLM：高效且轻量的大模型训练工具。概述 DeepSeek LLMs，这是一系列在2万亿标记的英语和中文大型数据集上从头开始训练的开源模型在本文中，深入解释了超参数选择、Scaling Laws以及做过的各种微调尝试。校准了先前工作中的Scaling Laws，并提出了新的最优模型/数据扩展-缩放分配策略。此外，还提出了一种方法，使用给定的计算预算来预测近似的batch-size和learning-rate。进一步得出结论，Scaling Laws与数据质量有关，这可能是不同工作中不同扩展行为的原因。在Scaling Laws的指导下，使用最佳超参数进行预训练，并进行全面评估。...

#LLM #Large Model

READ

DeepSeek-R1

Large Model

2026-01-15

简介后训练（post-training）已成为完整训练流程中的重要组成部分。相比于预训练，后训练需要的计算资源相对较少，但能够：提高推理任务的准确性使模型与社会价值观保持一致适应用户偏好 OpenAI 的 o1 系列模型首次引入了通过增加思维链（Chain-of-Thought）推理过程长度来实现推理时间，扩展这种方法在数学、编程和科学推理等各种推理任务上取得了显著改进研究界已探索多种方法来提高模型的推理能力：比如基于过程的奖励模型（Process-based Reward Models）强化学习（Reinforcement Learning）, 代表工作：InstructGPT，以及搜索算法（蒙特卡洛树搜索（Monte Carlo Tree Search）、束搜索（Beam Search））。然而，这些方法尚未达到与 OpenAI o1 系列模型相当的通用推理性能。 DeepSeek-R1-Zero 本文首先探索使用纯强化学习（RL）来提高语言模型的推理能力，重点关注：探索 LLM 在没有任何监督数据的情况下，通过纯 RL 过程的自我进化来发展推理能力...

#LLM #Reinforcement Learning

READ

DeepSeek-v3

Large Model

2026-01-15

简介 24年12月,研究团队开发了 DeepSeek-V3，这是一个基于 MoE 架构的大模型，总参数量达到 671B，其中每个 token 会激活 37B 个参数。基于提升性能和降低成本的双重目标，在架构设计方面，DeepSeek-V3 采用了 MLA 来确保推理效率，并使用 DeepSeekMoE 来实现经济高效的训练。这两种架构在 DeepSeek-V2 中已经得到验证，证实了它们能够在保持模型性能的同时实现高效的训练和推理。除了延续这些基础架构外，研究团队还引入了两项创新策略来进一步提升模型性能。首先，DeepSeek-V3 首创了无辅助损失的负载均衡策略(auxiliary-loss-free strategy for load balancing)，有效降低了负载均衡对模型性能的负面影响。另外，DeepSeek-V3 采用了多 token 预测训练目标，这种方法在评估基准测试中展现出了显著的性能提升。为了提高训练效率，该研究采用了 FP8 混合精度训练技术...

#LLM #Large Model

READ

Deep InfoMax(DIM)

Self-Supervised

2026-01-11

相关内容自监督学习（Selfsupervised）：属于无监督学习，其核心是自动为数据打标签（伪标签或其他角度的可信标签，包括图像的旋转、分块等等），通过让网络按照既定的规则，对数据打出正确的标签来更好地进行特征表示，从而应用于各种下游任务。互信息（Mutual Information）：表示两个变量 X 和 Y 之间的关系，定义为：噪声对抗估计（Noise Contrastive Estimation, NCE）：在NLP任务中一种降低计算复杂度的方法，将语言模型估计问题简化为一个二分类问题。 Introduction 无监督学习一个重要的问题就是学习有用的 representation，本文的目的就是训练一个 representation learning 函数（即编码器encod...

#Self-Supervised #对比学习

READ

SentencePiece

NLP

2026-01-11

Tokenizer 诸如GPT3/4以及LlaMA/LlaMA2大语言模型都采用了token的作为模型的输入输出，其输入是文本，然后将文本转为token（正整数），然后从一串token（对应于文本）预测下一个token。进入OpenAI官网提供的tokenizer可以看到GPT3tokenizer采用的方法。这里以Hello World为例说明。总共30个token，英文单词一般会用单独的token表示，大小写也会区分不同的token，如Hello和hello，另外有一些由空格前导的单词也会单独编码，这会使得编码整个句子效率更高（这将省去每个空格的编码），对于中文token化，会使用两到三个ID（正整数表示），比如上面的中英文的！。在英语等空白隔开的语言中，文本被预标记化，通常使用不跨...

#NLP

READ

Word2Vec 之 Skip-Gram 模型

NLP

2026-01-11

什么是Word2Vec和Embeddings？ Word2Vec是从大量文本语料中以无监督的方式学习语义知识的一种模型，它被大量地用在自然语言处理（NLP）中。那么它是如何帮助我们做自然语言处理呢？Word2Vec其实就是通过学习文本来用词向量的方式表征词的语义信息，即通过一个嵌入空间使得语义上相似的单词在该空间内距离很近。Embedding其实就是一个映射，将单词从原先所属的空间映射到新的多维空间中，也就是把原先词所在空间嵌入到一个新的空间中去。我们从直观角度上来理解一下，cat这个单词和kitten属于语义上很相近的词，而dog和kitten则不是那么相近，iphone这个单词和kitten的语义就差的更远了。通过对词汇表中单词进行这种数值表示方式的学习（也就是将单词转换为词向量），能...

#NLP

READ

RNN与LSTM

NLP

2026-01-11

RNN 概述在前面讲到的DNN和CNN中，训练样本的输入和输出是比较的确定的。但是有一类问题DNN和CNN不好解决，就是训练样本输入是连续的序列,且序列的长短不一，比如基于时间的序列：一段段连续的语音，一段段连续的手写文字。这些序列比较长，且长度不一，比较难直接的拆分成一个个独立的样本来通过DNN/CNN进行训练。而对于这类问题，RNN则比较的擅长。那么RNN是怎么做到的呢？RNN假设我们的样本是基于序列的。比如是从序列索引1到序列索引 τ 。对于这其中的任意序列索引号 t ,它对应的输入是对应的样本序列中的 x(t) 。而模型在序列索引号 t 位置的隐藏状态 h(t) ，则由 x(t) 和在 t−1 位置的隐藏状态 h(t−1) 共同决定。在任意序列索引号 t ，我们也有对应的模型预测...

#NLP

READ

最小生成树

Algorithm

2026-01-11

简介生成树（spanning tree）在图论中，无向图 G=(V,E) 的生成树（spanning tree)是具有G的全部顶点，但边数最少的联通子图。假设G中一共有n个顶点，一颗生成树满足下列条件：（1）n个顶点；（2）n1条边；（3）n个顶点联通；（4）一个图的生成树可能有多个。最小生成树（minimum spanning tree， MST）/最小生成森林：联通加权无向图中边缘权重加和最小的生成树。给定无向图 G=(V,E) ， (u,v) 代表顶点 u 与顶点 v 的边， w(u,v) 代表此边的权重，若存在生成树T使得： [公式] 最小，则 T 为 G 的最小生成树。对于非连通无向图来说，它的每一连通分量同样有最小生成树，它们的并被称为最小生成森林。最小生成树除了继承...

#Algorithm

READ

判断无向图是否为二叉树

Algorithm

2026-01-11

给一个无向图，判断其是否为一棵树。如果是树的话，所有的节点必须是连接的，也就是说必须是连通图，而且不能有环，所以就变成了验证是否是连通图和是否含有环。 [代码]

#Algorithm

READ

295. 数据流的中位数

Algorithm

2026-01-11

题目中位数是有序列表中间的数。如果列表长度是偶数，中位数则是中间两个数的平均值。例如， [2,3,4] 的中位数是 3 [2,3] 的中位数是 (2 + 3) / 2 = 2.5 设计一个支持以下两种操作的数据结构： void addNum(int num) 从数据流中添加一个整数到数据结构中。 double findMedian() 返回目前所有元素的中位数。示例： addNum(1) addNum(2) findMedian() 1.5 addNum(3) findMedian() 2 题解维护两个堆：大顶堆和小顶堆。并且需满足如下条件：小顶堆的所有元素都大于等于大顶堆的所有元素。大顶堆中的元素数量大于等于小顶堆中的元素数量。大顶堆对应排序后的列表的左半部分；小顶堆对应排序...

#Algorithm

READ

heapq实现小顶堆（TopK大）、大顶堆（BtmK小）

Algorithm

2026-01-11

[代码] 自己实现小顶堆 [代码] 变态的需求来了：给出N长的序列，求出BtmK小的元素，即使用大顶堆。概括一种最简单的：将push(e)改为push(e)、pop(e)改为pop(e)。也就是说，在存入堆、从堆中取出的时候，都用相反数，而其他逻辑与TopK完全相同，看代码： [代码] 自己实现大顶堆 [代码]

#Algorithm

READ

树的遍历

Algorithm

2026-01-11

二叉树结构 [代码] 递归时间复杂度：O(n)，n为节点数，访问每个节点恰好一次。空间复杂度：空间复杂度：O(h)，h为树的高度。最坏情况下需要空间O(n)，平均情况为O(logn) 递归1: 二叉树遍历最易理解和实现版本 [代码] 递归2: 通用模板可以适应不同的题目，添加参数、增加返回条件、修改进入递归条件、自定义返回值 [代码] 迭代时间复杂度：O(n)，n为节点数，访问每个节点恰好一次。空间复杂度：O(h)，h为树的高度。取决于树的结构，最坏情况存储整棵树，即O(n) 迭代1: 前序遍历最常用模板（后序同样可以用） [代码] 迭代2: 前、中、后序遍历通用模板（只需一个栈的空间） [代码] 迭代3：标记法迭代（需要双倍的空间来存储访问状态）前、中、后、层序通用模板，只需改...

#Algorithm

READ

#

!

INCOMING TRANSMISSION

DeepSeek 系列

DeepSeek-R1

DeepSeek-v3

Deep InfoMax(DIM)

SentencePiece

Word2Vec 之 Skip-Gram 模型

RNN与LSTM

最小生成树

判断无向图是否为二叉树

295. 数据流的中位数

heapq实现小顶堆（TopK大）、大顶堆（BtmK小）

树的遍历