知识库 - Orange

哈希表

Algorithm

2026-01-21

128. 最长连续序列题目给定一个未排序的整数数组 nums ，找出数字连续的最长序列（不要求序列元素在原数组中连续）的长度。请你设计并实现时间复杂度为 O(n) 的算法解决此问题。示例 1：输入：nums = [100,4,200,1,3,2] 输出：4 解释：最长数字连续序列是 [1, 2, 3, 4]。它的长度为 4。示例 2：输入：nums = [0,3,7,2,5,8,4,6,0,1] 输出：9 示例 3：输入：nums = [1,0,1,2] 输出：3 提示： 0 <= nums.length <= 10 5 -10 9 <= nums[i] <= 10 9 题解我们需要在 \(O(1)\) 的时间内查找某个数是否存在。因此，首先将数组中的所有元素放入一个 HashSet 中。这不仅能去重，还能支持快速查找。避免冗余计算 (关键优化) 如果我们对集合中的每一个数都尝试去向后计数（例如，对于 x ，尝试找 x+1 , x+2 ...），最坏情况下的时间复杂度会退化到 \(O(n^2)\) 。优化策略：我们只从序列的起点开始计数。...

#Hash Set

READ

滑动窗口

Algorithm

2026-01-21

76. 最小覆盖子串题目给定两个字符串 s 和 t ，长度分别是 m 和 n ，返回 s 中的最短窗口子串，使得该子串包含 t 中的每一个字符（包括重复字符）。如果没有这样的子串，返回空字符串 "" 。测试用例保证答案唯一。示例 1：输入：s = "ADOBECODEBANC", t = "ABC" 输出："BANC" 解释：最小覆盖子串 "BANC" 包含来自字符串 t 的 'A'、'B' 和 'C'。示例 2：输入：s = "a", t = "a" 输出："a" 解释：整个字符串 s 是最小覆盖子串。示例 3: 输入: s = "a", t = "aa" 输出: "" 解释: t 中两个字符 'a' 均应包含在 s 的子串中，因此没有符合条件的子字符串，返回空字符串。提示： m == s.length n == t.length 1 <= m, n <= 10 5 s 和 t 由英文字母组成题解这是一个经典的滑动窗口 (Sliding Window) 问题我们需要维护一个动态的窗口 [left, right] ：右移扩大：不断移动...

#滑动窗口 #Hash Set

READ

LLaDA--扩散模型LLM

Large Model

2026-01-20

这是一篇尝试改变LLM「范式」的文章：当前主流的LLM架构都是「自回归」的，通俗地理解就是必须「从左到右依次生成」。这篇文章挑战了这一范式，探索扩散模型在 LLMs 上的可行性，通过随机掩码 - 预测的逆向思维，让模型学会「全局思考」。论文： [2502.09992] Large Language Diffusion Models 背景主流大语言模型架构：自回归模型 (Autoregressive LLMs) 过去几年，自回归模型（Autoregressive Models, ARMs）一直是大语言模型(LLM)的主流架构。典型的自回归语言模型以Transformer解码器为基础，按照从左到右的顺序依次预测下一个词元(token)。形式化地，自回归模型将一个长度为 \(N\) 的文本序列 \(X=(x_1, x_2, ..., x_N)\) 的概率分解为各位置的条件概率连乘积： \[P_{\theta}(x_1, x_2, \dots, x_N) = \prod_{i=1}^{N} P_{\theta}(x_i \mid x_1, x_2, \dots,...

#diffusion #LLM

READ

离散扩散模型用于文本生成

Large Model

2026-01-20

引言 Diffusion模型近年来在图像生成这一连续域任务中取得了显著成果，展现出强大的生成能力。然而，在文本生成这一离散域任务中整体效果仍不尽如人意，未能在该领域引起广泛关注。去年，一篇研究离散扩散模型在文本生成的文章《Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution》获得ICML 2024的Best Paper，引发了学术界的广泛兴趣，也激发了新一轮的研究热潮。随后在2025年，越来越多高校和企业也开始积极探索基于Diffusion的文本生成方法。其中，近期备受关注的Block Diffusion也成功入选ICLR oral，进一步推动了该方向的发展。...

#LLM #diffusion

READ

DeepSeek 系列

Large Model

2026-01-15

🔖 https://www.deepseek.com/ DeepSeek LLM 代码地址： https://github.com/deepseek-ai/DeepSeek-LLM 背景量化巨头幻方探索AGI（通用人工智能）新组织“深度求索”在成立半年后，发布的第一代大模型，免费商用，完全开源。作为一家隐形的AI巨头，幻方拥有1万枚英伟达A100芯片，有手撸的HAI-LLM训练框架HAI-LLM：高效且轻量的大模型训练工具。概述 DeepSeek LLMs，这是一系列在2万亿标记的英语和中文大型数据集上从头开始训练的开源模型在本文中，深入解释了超参数选择、Scaling Laws以及做过的各种微调尝试。校准了先前工作中的Scaling Laws，并提出了新的最优模型/数据扩展-缩放分配策略。此外，还提出了一种方法，使用给定的计算预算来预测近似的batch-size和learning-rate。进一步得出结论，Scaling Laws与数据质量有关，这可能是不同工作中不同扩展行为的原因。在Scaling Laws的指导下，使用最佳超参数进行预训练，并进行全面评估。...

#LLM #Large Model

READ

DeepSeek-R1

Large Model

2026-01-15

简介后训练（post-training）已成为完整训练流程中的重要组成部分。相比于预训练，后训练需要的计算资源相对较少，但能够：提高推理任务的准确性使模型与社会价值观保持一致适应用户偏好 OpenAI 的 o1 系列模型首次引入了通过增加思维链（Chain-of-Thought）推理过程长度来实现推理时间，扩展这种方法在数学、编程和科学推理等各种推理任务上取得了显著改进研究界已探索多种方法来提高模型的推理能力：比如基于过程的奖励模型（Process-based Reward Models）强化学习（Reinforcement Learning）, 代表工作：InstructGPT，以及搜索算法（蒙特卡洛树搜索（Monte Carlo Tree Search）、束搜索（Beam Search））。然而，这些方法尚未达到与 OpenAI o1 系列模型相当的通用推理性能。 DeepSeek-R1-Zero 本文首先探索使用纯强化学习（RL）来提高语言模型的推理能力，重点关注：探索 LLM 在没有任何监督数据的情况下，通过纯 RL 过程的自我进化来发展推理能力...

#Reinforcement Learning #LLM

READ

DeepSeek-v3

Large Model

2026-01-15

简介 24年12月,研究团队开发了 DeepSeek-V3，这是一个基于 MoE 架构的大模型，总参数量达到 671B，其中每个 token 会激活 37B 个参数。基于提升性能和降低成本的双重目标，在架构设计方面，DeepSeek-V3 采用了 MLA 来确保推理效率，并使用 DeepSeekMoE 来实现经济高效的训练。这两种架构在 DeepSeek-V2 中已经得到验证，证实了它们能够在保持模型性能的同时实现高效的训练和推理。除了延续这些基础架构外，研究团队还引入了两项创新策略来进一步提升模型性能。首先，DeepSeek-V3 首创了无辅助损失的负载均衡策略(auxiliary-loss-free strategy for load balancing)，有效降低了负载均衡对模型性能的负面影响。另外，DeepSeek-V3 采用了多 token 预测训练目标，这种方法在评估基准测试中展现出了显著的性能提升。为了提高训练效率，该研究采用了 FP8 混合精度训练技术...

#LLM #Large Model

READ

人脸识别Loss

Computer Vision

2026-01-11

超多分类的Softmax 2014年CVPR两篇超多分类的人脸识别论文：DeepFace和DeepID DeepFace Taigman Y, Yang M, Ranzato M A, et al. Deepface: Closing the gap to humanlevel performance in face verification [C]// CVPR, 2014. 4.4M训练集，训练6层CNN + 4096特征映射 + 4030类Softmax，综合如3D Aligement, model ensembel等技术，在LFW上达到97.35%。 DeepID Sun Y, Wang X, Tang X. Deep learning face representation fro...

#人脸识别 #CV

READ

A-Softmax

Computer Vision

2026-01-11

推导回顾一下二分类下的Softmax后验概率，即： [公式] 显然决策的分界在当 𝑝_1=𝑝_2 时，所以决策界面是 (𝑊_1−𝑊_2)𝑥+𝑏_1−𝑏_2=0 。我们可以将 𝑊^𝑇_𝑖𝑥+𝑏_𝑖 写成 ‖W_i^T‖⋅‖x‖cos⁡(θ_i)+b_i ，其中 θ_i 是 W_i 与 x 的夹角，如对 W_i 归一化且设偏置 b_i 为零（ ‖W_i‖=1 ， b_i=0 ），那么当 p_1=p_2 时，我们有 cos⁡(θ_1)−cos⁡(θ_2)=0 。从这里可以看到，如里一个输入的数据特征 x_i 属于 𝑦_𝑖 类，那么 θ_{y_i} 应该比其它所有类的角度都要小，也就是说在向量空间中 W_{y_i} 要更靠近 x_i 。我们用的是Softmax Loss，对于输入 x_i ，So...

#CV #人脸识别

READ

LLM Finetuning— Prompt & Instruct&Chain-of-Thought

Large Model

2026-01-11

LLM Finetuning— Prompt & Instruct&Chain-of-Thought

PrefixTuning Paper: 2021.1 Optimizing Continuous Prompts for GenerationGithub：https://github.com/XiangLi1999/PrefixTuningPrompt: Continus Prefix PromptTask & Model：BART(Summarization), GPT2(Table2Text) 最早提出Prompt微调的论文之一，其实是可控文本生成领域的延伸，因此只针对摘要和Table2Text这两个生成任务进行了评估。 PrefixTuning可以理解是CTRL模型的连续化升级版，为了生成不同领域和话题的文本，CTRL是在预训练阶段在输入文本前加入了control code，例如好评...

#Fine-tuning #LLM

READ

LLM Finetuning— Adapter Tuning

Large Model

2026-01-11

背景随着预训练语言模型进入LLM时代，其参数量愈发庞大。全量微调模型所有参数所需的显存早已水涨船高。例如：全参微调Qwen1.57BChat预估要2张80GB的A800，160GB显存全参微调Qwen1.572BChat预估要20张80GB的A800，至少1600GB显存。而且，通常不同的下游任务还需要LLM的全量参数，对于算法服务部署来说简直是个灾难当然，一种折衷做法就是全量微调后把增量参数进行SVD分解保存，推理时再合并参数为了寻求一个不更新全部参数的廉价微调方案，之前一些预训练语言模型的高效微调(Parameter Efficient finetuning, PEFT)工作，要么插入一些参数或学习外部模块来适应新的下游任务。 Adapter tuning Adapter ...

#Fine-tuning #LLM

READ

Llama 3.1

Large Model

2026-01-11

🔖 https://ai.meta.com/research/publications/thellama3herdofmodels/ 简介本文归纳llm的训练分为两个主要阶段：预训练阶段 pretraining，模型通过使用简单的任务如预测下一个词或caption进行大规模训练后训练阶段 posttraining，模型经过调整以遵循指令、与人类偏好保持一致，并提高特定能力, 例如编码和推理。 Llama 3.1 发布，在 15.6T 多语言 tokens 上训练，支持多语言，编程，推理和工具使用。新模型支持 128K tokens 长度的上下文。最大的旗舰模型参数量为 405B，效果达到了闭源模型的 SOTA。模型结构 Llama 3.1 的模型和 Llama 3 是一样的，只是做了...

#LLM

READ

#

!

INCOMING TRANSMISSION

哈希表

滑动窗口

LLaDA--扩散模型LLM

离散扩散模型用于文本生成

DeepSeek 系列

DeepSeek-R1

DeepSeek-v3

人脸识别Loss

A-Softmax

LLM Finetuning— Prompt & Instruct&Chain-of-Thought

LLM Finetuning— Adapter Tuning

Llama 3.1