知识库 - Orange

CTR预估及DeepFM

Search&Rec

2026-01-11

CTR预测问题简介点击率(Click Through Rate, CTR)预估是程序化广告里的一个最基本而又最重要的问题。比如在竞价广告里，排序的依据就是 𝑐𝑡𝑟×𝑏𝑖𝑑 。通过选择 𝑐𝑡𝑟×𝑏𝑖𝑑 最大的广告就能最大化平台的eCPM。从机器学习的角度来说这是一个普通的回归问题，但是它的特殊性在于训练数据只有0/1的值——因为我们没有办法给同一个用户展示同一个广告1万次，然后统计点击的次数来估计真实的点击率。另外有人也许会有这样的看法：对于某一个特定的曝光，某个用户是否点击某个广告是确定的，第一次不点，第二次也不会点，因此点击率是一个0/1的固定值而不是一个01之间的概率值。这个说法有一些道理，原因是第二次实验和第一次使用不是独立同分布的。“真正”的做法是第二次做实验前要擦除用户第一次实验...

#搜索推荐

READ

FM及其变体

Search&Rec

2026-01-11

FM：Factorization Machines, 2010 —— 隐向量学习提升模型表达参考 Untitled 优势：可以有效处理稀疏场景下的特征学习具有线性时间复杂度对训练集中未出现的交叉特征信息也可进行泛化不足： 2way的FM仅枚举了所有特征的二阶交叉信息，没有考虑高阶特征的信息 2way的FM仅枚举了所有特征的二阶交叉信息，没有考虑高阶特征的信息 FFM（Fieldaware Factorization Machine）是Yuchin Juan等人在2015年的比赛中提出的一种对FM改进算法，主要是引入了field概念，即认为每个feature对于不同field的交叉都有不同的特征表达。FFM相比于FM的计算时间复杂度更高，但同时也提高了本身模型的表达能力。FM也可以看...

#搜索推荐

READ

ANN (Approximate Nearest Neighbor)

Search&Rec

2026-01-11

1. 概述新闻推荐系统从海量新闻中推荐出你感兴趣的新闻，百度从海量的搜索结果中找到最优的结果，短视频推荐出你每天都停不下来的视频流，这些里面都包含ANN方法。当然，在现在的检索系统中，往往是多分支并行触发的效果，虽然DNN 大行其道，但是 ANN 一直不可或缺。通用理解上，ANN（Approximate Nearest Neighbor）是在向量空间中搜索向量最近邻的优化问题。目前业界常用nmslib、Annoy算法作为实现。在实际的工程应用中，ANN是作为一种向量检索技术应用，用于解决长尾Query召回问题。将一个资讯的ANN 召回系统抽象出来大概是下面的样子。 Ann（approximate nearest neighbor）是指一系列用于解决最近邻查找问题的近似算法。最近邻查找问题...

#搜索推荐

READ

美团搜索框架

Search&Rec

2026-01-11

当前，美团搜索整体架构主要由搜索数据平台、在线检索框架及云搜平台、在线AI服务及实验平台三大体系构成。在AI服务及实验平台中，模型训练平台Poker和在线预估框架Augur是搜索AI化的核心组件，解决了模型从离线训练到在线服务的一系列系统问题，极大地提升了整个搜索策略迭代效率、在线模型预估的性能以及排序稳定性，并助力商户、外卖、内容等核心搜索场景业务指标的飞速提升。首先，美团App内的一次完整的搜索行为主要涉的技术模块。如下图所示，从点击输入框到最终的结果展示，从热门推荐，到动态补全、最终的商户列表展示、推荐理由的展示等，每一个模块都要经过若干层的模型处理或者规则干预，才会将最适合用户（指标）的结果展示在大家的眼前。为了保证良好的用户体验，技术团队对模型预估能力的要求变得越来越高，同时模...

#搜索推荐

READ

搜索流程

Search&Rec

2026-01-11

1.倒排索引召回 1）召回模型有三种： 1.基于行为的召回：根据用户的购买行为推荐相关/相似的商品；（长期行为和实时行为） 2.基于用户偏好的召回：用户画像和多屏互通（移动端到PC端）； 3.基于地域的召回； 4.基于搜索词的召回（倒排索引）； 2）倒排索引倒排是指由属性值来确定记录的位置。倒排索引由单词词典和倒排文件组成，单词词典是由文档集合中出现过的所有单词构成的字符串集合，单词词典内每条索引项记载单词本身的一些信息以及指向“倒排列表”的指针。倒排文件记录所有单词的倒排列表顺序。好处是在找含有该词的文件时，不需要扫描所有文件，而只需要在单词词典中找到该词，然后找到该词对应的倒排列表即可。 Lucene倒排步骤： 1.取得关键词； 2.建立倒排索引；lucene将上面三列分别作为...

#搜索推荐

READ

正排索引VS倒排索引

Search&Rec

2026-01-11

一句话总结正排索引：一个未经处理的数据库中，一般是以文档ID作为索引，以文档内容作为记录。倒排索引：Inverted index，指的是将单词或记录作为索引，将文档ID作为记录，这样便可以方便地通过单词或记录查找到其所在的文档。倒排索引创建索引的流程形成文档列表首先对原始文档数据进行编号（DocID），形成列表，就是一个文档列表。创建倒排索引列表对文档中数据进行分词，得到词条。对词条进行编号，以词条创建索引。保存包含这些词条的文档的编号信息。搜索的过程当用户输入任意的词条时，首先对用户输入的数据进行分词，得到用户要搜索的所有词条，然后拿着这些词条去倒排索引列表中进行匹配。找到这些词条就能找到包含这些词条的所有文档的编号。然后根据这些编号去文档列表中找到文档正排和倒排正...

#搜索推荐

READ

上采样、反卷积与上池化

Deep Learning

2026-01-11

通过卷积和池化等技术可以将图像进行降维，因此，一些研究人员也想办法恢复原分辨率大小的图像，特别是在语义分割领域应用很成熟。 1、Upsampling（上采样）[没有学习过程] 在FCN、Unet等网络结构中，涉及到了上采样。上采样概念：上采样指的是任何可以让图像变成更高分辨率的技术。最简单的方式是重采样和插值：将输入图片进行rescale到一个想要的尺寸，而且计算每个点的像素点，使用如双线性插值等插值方法对其余点进行插值来完成上采样过程。在PyTorch中，上采样的层被封装在torch.nn中的Vision Layers里面，一共有4种： PixelShuffle Upsample UpsamplingNearest2d UpsamplingBilinear2d 0）PixelShuffl...

#DL基础 #CNN

READ

Autoregressive models 概述

Generative Model

2026-01-11

给定一个包含 n 维数据 x 的数据集 D , 简单起见，假设数据 [Math] . 由于真正对联合分布建模的时候， x，y 都是随机变量，故而只需讨论 p(X)=p(x_1,...,x_n) 即可，毕竟只需要令 x_n=y 即可。给定一个具体的任务，如MNIST中的手写数字二值图分类，从Generative的角度进行Represent，并在Inference中Learning. 下面先介绍：描述如何对这个MINST任务建模 p(X,Y) （Representation）对MNIST任务建模对于一张pixel为 [Math] 大小的图片，令 x_1 表示第一个pixel的随机变量， [Math] ，需明确：任务目标：学习一个模型分布 [Math] ，使采样时 [Math] ， x ...

#Autoregressive #Generating Model

READ

LTR方法小结

Search&Rec

2026-01-11

Learning to rank 排序学习是推荐、搜索、广告的核心方法。排序结果的好坏很大程度影响用户体验、广告收入等。排序学习可以理解为机器学习中用户排序的方法，这里首先推荐一本微软亚洲研究院刘铁岩老师关于LTR的著作，Learning to Rank for Information Retrieval，书中对排序学习的各种方法做了很好的阐述和总结。我这里是一个超级精简版。排序学习是一个有监督的机器学习过程，对每一个给定的查询－文档对，抽取特征，通过日志挖掘或者人工标注的方法获得真实数据标注。然后通过排序模型，使得输入能够和实际的数据相似。常用的排序学习分为三种类型：PointWise，PairWise和ListWise。 PointWise 单文档方法的处理对象是单独的一篇文档，将文档...

#搜索推荐

READ

#

!

INCOMING TRANSMISSION

CTR预估及DeepFM

FM及其变体

ANN (Approximate Nearest Neighbor)

美团搜索框架

搜索流程

正排索引VS倒排索引

上采样、反卷积与上池化

Autoregressive models 概述

LTR方法小结