知识库 - Orange

CTR预估及DeepFM

Search&Rec

2026-01-11

CTR预测问题简介点击率(Click Through Rate, CTR)预估是程序化广告里的一个最基本而又最重要的问题。比如在竞价广告里，排序的依据就是 𝑐𝑡𝑟×𝑏𝑖𝑑 。通过选择 𝑐𝑡𝑟×𝑏𝑖𝑑 最大的广告就能最大化平台的eCPM。从机器学习的角度来说这是一个普通的回归问题，但是它的特殊性在于训练数据只有0/1的值——因为我们没有办法给同一个用户展示同一个广告1万次，然后统计点击的次数来估计真实的点击率。另外有人也许会有这样的看法：对于某一个特定的曝光，某个用户是否点击某个广告是确定的，第一次不点，第二次也不会点，因此点击率是一个0/1的固定值而不是一个01之间的概率值。这个说法有一些道理，原因是第二次实验和第一次使用不是独立同分布的。“真正”的做法是第二次做实验前要擦除用户第一次实验...

#搜索推荐

READ

FM及其变体

Search&Rec

2026-01-11

FM：Factorization Machines, 2010 —— 隐向量学习提升模型表达参考 Untitled 优势：可以有效处理稀疏场景下的特征学习具有线性时间复杂度对训练集中未出现的交叉特征信息也可进行泛化不足： 2way的FM仅枚举了所有特征的二阶交叉信息，没有考虑高阶特征的信息 2way的FM仅枚举了所有特征的二阶交叉信息，没有考虑高阶特征的信息 FFM（Fieldaware Factorization Machine）是Yuchin Juan等人在2015年的比赛中提出的一种对FM改进算法，主要是引入了field概念，即认为每个feature对于不同field的交叉都有不同的特征表达。FFM相比于FM的计算时间复杂度更高，但同时也提高了本身模型的表达能力。FM也可以看...

#搜索推荐

READ

大模型训练基础

Large Model

2026-01-11

梯度检查点（Gradient Checkpointing）大模型的参数量巨大，即使将batch_size设置为1并使用梯度累积的方式更新，也仍然会OOM。原因是通常在计算梯度时，我们需要将所有前向传播时的激活值保存下来，这消耗大量显存。还有另外一种延迟计算的思路，丢掉前向传播时的激活值，在计算梯度时需要哪部分的激活值就重新计算哪部分的激活值，这样做倒是解决了显存不足的问题，但加大了计算量同时也拖慢了训练。梯度检查点（Gradient Checkpointing）在上述两种方式之间取了一个平衡，这种方法采用了一种策略选择了计算图上的一部分激活值保存下来，其余部分丢弃，这样被丢弃的那一部分激活值需要在计算梯度时重新计算。下面这个动图展示了一种简单策略：前向传播过程中计算节点的激活值并保存...

#NLP #Large Model

READ

Packing & rmpad

Large Model

2026-01-11

简介基于lmmsengine中的训练时对数据packing操作以及use_rmpad消除了所有padding计算的逻辑 Packing 总体逻辑基于packing_length 将不同的数据填充到一个sequence中，具体来说在Datsset中，如下代码所示，将不同的数据append到buffer列表中 [代码] 在 Collator 组合成batch的形式传入到模型的输入，这里还是将数据padding [代码] rmpad 项目中，是以 monkey patch的形式（也就是打热补丁）替换rmpad操作的，如下代码所示，主要就是替换模型中的forward操作 [代码] Qwen3VLModel.forward 显式调用了 _unpad_input。它计算了非 padding 元...

#Large Model

READ

ANN (Approximate Nearest Neighbor)

Search&Rec

2026-01-11

1. 概述新闻推荐系统从海量新闻中推荐出你感兴趣的新闻，百度从海量的搜索结果中找到最优的结果，短视频推荐出你每天都停不下来的视频流，这些里面都包含ANN方法。当然，在现在的检索系统中，往往是多分支并行触发的效果，虽然DNN 大行其道，但是 ANN 一直不可或缺。通用理解上，ANN（Approximate Nearest Neighbor）是在向量空间中搜索向量最近邻的优化问题。目前业界常用nmslib、Annoy算法作为实现。在实际的工程应用中，ANN是作为一种向量检索技术应用，用于解决长尾Query召回问题。将一个资讯的ANN 召回系统抽象出来大概是下面的样子。 Ann（approximate nearest neighbor）是指一系列用于解决最近邻查找问题的近似算法。最近邻查找问题...

#搜索推荐

READ

美团搜索框架

Search&Rec

2026-01-11

当前，美团搜索整体架构主要由搜索数据平台、在线检索框架及云搜平台、在线AI服务及实验平台三大体系构成。在AI服务及实验平台中，模型训练平台Poker和在线预估框架Augur是搜索AI化的核心组件，解决了模型从离线训练到在线服务的一系列系统问题，极大地提升了整个搜索策略迭代效率、在线模型预估的性能以及排序稳定性，并助力商户、外卖、内容等核心搜索场景业务指标的飞速提升。首先，美团App内的一次完整的搜索行为主要涉的技术模块。如下图所示，从点击输入框到最终的结果展示，从热门推荐，到动态补全、最终的商户列表展示、推荐理由的展示等，每一个模块都要经过若干层的模型处理或者规则干预，才会将最适合用户（指标）的结果展示在大家的眼前。为了保证良好的用户体验，技术团队对模型预估能力的要求变得越来越高，同时模...

#搜索推荐

READ

搜索流程

Search&Rec

2026-01-11

1.倒排索引召回 1）召回模型有三种： 1.基于行为的召回：根据用户的购买行为推荐相关/相似的商品；（长期行为和实时行为） 2.基于用户偏好的召回：用户画像和多屏互通（移动端到PC端）； 3.基于地域的召回； 4.基于搜索词的召回（倒排索引）； 2）倒排索引倒排是指由属性值来确定记录的位置。倒排索引由单词词典和倒排文件组成，单词词典是由文档集合中出现过的所有单词构成的字符串集合，单词词典内每条索引项记载单词本身的一些信息以及指向“倒排列表”的指针。倒排文件记录所有单词的倒排列表顺序。好处是在找含有该词的文件时，不需要扫描所有文件，而只需要在单词词典中找到该词，然后找到该词对应的倒排列表即可。 Lucene倒排步骤： 1.取得关键词； 2.建立倒排索引；lucene将上面三列分别作为...

#搜索推荐

READ

正排索引VS倒排索引

Search&Rec

2026-01-11

一句话总结正排索引：一个未经处理的数据库中，一般是以文档ID作为索引，以文档内容作为记录。倒排索引：Inverted index，指的是将单词或记录作为索引，将文档ID作为记录，这样便可以方便地通过单词或记录查找到其所在的文档。倒排索引创建索引的流程形成文档列表首先对原始文档数据进行编号（DocID），形成列表，就是一个文档列表。创建倒排索引列表对文档中数据进行分词，得到词条。对词条进行编号，以词条创建索引。保存包含这些词条的文档的编号信息。搜索的过程当用户输入任意的词条时，首先对用户输入的数据进行分词，得到用户要搜索的所有词条，然后拿着这些词条去倒排索引列表中进行匹配。找到这些词条就能找到包含这些词条的所有文档的编号。然后根据这些编号去文档列表中找到文档正排和倒排正...

#搜索推荐

READ

Flash-Attention

Large Model

2026-01-11

引言与背景 FlashAttention的关键创新在于使用类似于在线Softmax的思想来对自注意力计算进行分块（tiling），从而能够融合整个多头注意力层的计算，而无需访问GPU全局内存来存储中间的logits和注意力分数在深度学习中，Transformer模型的自注意力机制是计算密集型操作。传统实现需要在GPU全局内存中存储大量中间结果，这导致：内存瓶颈：中间矩阵占用大量显存 I/O开销：频繁的全局内存访问降低效率扩展性限制：难以处理超长序列 FlashAttention通过算法创新解决了这些问题。 SelfAtention 自注意力机制的计算可以总结为（为简化说明，忽略头数和批次维度，也省略注意力掩码和缩放因子 [Math] ）： [公式] 其中： Q, K, V, O 都是形...

#Large Model #Acceleration

READ

上采样、反卷积与上池化

Deep Learning

2026-01-11

通过卷积和池化等技术可以将图像进行降维，因此，一些研究人员也想办法恢复原分辨率大小的图像，特别是在语义分割领域应用很成熟。 1、Upsampling（上采样）[没有学习过程] 在FCN、Unet等网络结构中，涉及到了上采样。上采样概念：上采样指的是任何可以让图像变成更高分辨率的技术。最简单的方式是重采样和插值：将输入图片进行rescale到一个想要的尺寸，而且计算每个点的像素点，使用如双线性插值等插值方法对其余点进行插值来完成上采样过程。在PyTorch中，上采样的层被封装在torch.nn中的Vision Layers里面，一共有4种： PixelShuffle Upsample UpsamplingNearest2d UpsamplingBilinear2d 0）PixelShuffl...

#DL基础 #CNN

READ

Kimi-VL

Large Model

2026-01-11

模型概述 KimiVL 是一个高效的开源混合专家视觉语言模型(VLM)，它提供先进的多模态推理、长上下文理解和强大的代理能力，同时在语言解码器中仅激活 2.8B 参数(KimiVLA3B)。该模型在多种挑战性任务中表现出色，包括一般用途的视觉语言理解、多轮代理任务、大学水平的图像和视频理解、OCR、数学推理和多图像理解等. 模型架构 KimiVL 的架构由三个主要部分组成： MoE语言模型 Moonlight MoE language model with only 2.8B activated (16B total) parameters 视觉模型 400M nativeresolution MoonViT vision encoder. MLP Projector MoonViT: 原生...

#VLM #Reinforcement Learning #Large Model

READ

DeepSpeed

Large Model

2026-01-11

背景：大模型 vs. GPU Memory 大模型最大的特点是模型参数多，训练时需要很大的GPU显存。举个例子，帮助大家的理解：对于一个常见的7B规模参数的大模型（如LLaMA-2 7B），基于16-bit混合精度训练时，在仅考虑模型参数、梯度、优化器情况下，显存占用就有112GB，显然目前A100、H100这样主流的显卡单张是放不下的，更别提国内中小厂喜欢用的A6000/5000、甚至消费级显卡。上面的例子中，参数占GPU 显存近 14GB（每个参数2字节）。再考虑到训练时梯度的存储占14GB（每个参数对应一个梯度，也是2字节）、优化器Optimizer假设是用目前主流的AdamW则是8...

#Large Model

READ

#

!

INCOMING TRANSMISSION

CTR预估及DeepFM

FM及其变体

大模型训练基础

Packing & rmpad

ANN (Approximate Nearest Neighbor)

美团搜索框架

搜索流程

正排索引VS倒排索引

Flash-Attention

上采样、反卷积与上池化

Kimi-VL

DeepSpeed