知识库 - Orange

Stacked Hourglass Networks

3D Model

2026-01-11

论文介绍了一种新的网络结构用于人体姿态检测，作者在论文中展现了不断重复bottomup、topdown过程以及运用intermediate supervison（中间监督）对于网络性能的提升，下面来介绍Stacked Hourglass Networks. 简介理解人类的姿态对于一些高级的任务比如行为识别来说特别重要，而且也是一些人机交互任务的基础。作者提出了一种新的网络结构Stacked Hourglass Networks来对人体的姿态进行识别，这个网络结构能够捕获并整合图像所有尺度的信息。之所以称这种网络为Stacked Hourglass Networks，主要是它长得很像堆叠起来的沙漏，如下图所示：这种堆叠在一起的Hourglass模块结构是对称的，bottomup过程将图片从...

#3D

READ

End-to-End Learning for Joint Detection and Grouping

3D Model

2026-01-11

End-to-End Learning for Joint Detection and Grouping

简介作者认为许多计算机视觉的任务可以看作是检测和分组问题检测一些小的单元，然后将它们组合成更大的单元，例如，多人目标检测可以通过检测人的关节点然后再将它们进行分组（属于同一个人的关节点为一组）解决；实例分割问题可以看作是检测一些相关的像素然后将它们组合成一个目标实例。 Associative Embedding是一种表示关节检测和分组任务的输出的新方法，其基本思想是为每次检测引入一个实数，用作识别对象所属组的“tag”，换句话说，标签将每个检测与同一组中的其他检测相关联。作者使用一个损失函数使得如果相应的检测属于ground truth中的相同组则促使这一对标签具有相似的值。需要注意的是，这里标签具体的值并不重要，重要的是不同标签之间的差异。这篇其实是源自Stacked Hourglas...

#3D

READ

随机森林（Random Forest）

Machine Learning

2026-01-11

随机森林 (Random Forests) 是一种利用CART决策树作为基学习器的 Bagging 集成学习算法。随机森林模型的构建过程如下：数据采样作为一种 Bagging 集成算法，随机森林同样采用有放回的采样，对于总体训练集 T ，抽样一个子集 T_{sub} 作为训练样本集。除此之外，假设训练集的特征个数为 d ，每次仅选择 k(k<d) 个构建决策树。因此，随机森林除了能够做到样本扰动外，还添加了特征扰动，对于特征的选择个数，推荐值为 k=log_2⁡d 。树的构建每次根据采样得到的数据和特征构建一棵决策树。在构建决策树的过程中，会让决策树生长完全而不进行剪枝。构建出的若干棵决策树则组成了最终的随机森林。随机森林在众多分类算法中表现十分出众，其主要的优点包括： 1. 由于...

#Ensemble Learning #Machine Learning

READ

AdaBoost

Machine Learning

2026-01-11

AdaBoost基本思路分类问题 Adaboost 是 Boosting 算法中有代表性的一个。原始的 Adaboost 算法用于解决二分类问题，因此对于一个训练集 [公式] 其中 [Math] ，，首先初始化训练集的权重 [公式] 根据每一轮训练集的权重 D_m ，对训练集数据进行抽样得到 T_m ，再根据 T_m 训练得到每一轮的基学习器 h_m 。通过计算可以得出基学习器 h_m 的误差为 e_m [公式] 根据基学习器的误差计算得出该基学习器在最终学习器中的权重系数 [公式] 为什么这样计算弱学习器权重系数？从上式可以看出，如果分类误差率 𝑒_𝑘 越大，则对应的弱分类器权重系数 [Math] 越小。也就是说，误差率小的弱分类器权重系数越大。具体为什么采用这个权重系数公式，见AdaB...

#Ensemble Learning #Machine Learning

READ

GBDT（梯度提升树）

Machine Learning

2026-01-11

GBDT (Gradient Boosting Decision Tree) 是另一种基于 Boosting 思想的集成算法，除此之外 GBDT 还有很多其他的叫法，例如：GBM (Gradient Boosting Machine)，GBRT (Gradient Boosting Regression Tree)，MART (Multiple Additive Regression Tree) 等等。GBDT 算法由 3 个主要概念构成：Gradient Boosting (GB)，Regression Decision Tree (DT 或 RT) 和 Shrinkage。 0. Decision Tree：CART回归树首先，GBDT使用的决策树是CART回归树，无论是处理回归问题还...

#Machine Learning #Ensemble Learning

READ

Gaze采集标定方案

3D Model

2026-01-11

整体流程： [代码] 0. 数据预处理这个步骤主要是crop四路数据，及生成后续步骤所需要的yaml文件。 1. 四路相机与双路相机标定内参标定 [代码] 这里主要的函数就是： pts = cv2.findChessboardCorners(img, (board_width, board_height))[1] cv2.cornerSubPix(gray, pts, (12, 12), (1, 1), (cv2.TERM_CRITERIA_EPS + cv2.TERM_CRITERIA_COUNT, 30, 0.1)) det, intr, dist, _, _ = cv2.calibrateCamera(obj_pts, img_pts, self.imgSize, None, No...

#3D

READ

LLM Finetuning— Prompt & Instruct&Chain-of-Thought

Large Model

2026-01-11

PrefixTuning Paper: 2021.1 Optimizing Continuous Prompts for GenerationGithub：https://github.com/XiangLi1999/PrefixTuningPrompt: Continus Prefix PromptTask & Model：BART(Summarization), GPT2(Table2Text) 最早提出Prompt微调的论文之一，其实是可控文本生成领域的延伸，因此只针对摘要和Table2Text这两个生成任务进行了评估。 PrefixTuning可以理解是CTRL模型的连续化升级版，为了生成不同领域和话题的文本，CTRL是在预训练阶段在输入文本前加入了control code，例如好评...

#LLM #Fine-tuning

READ

LLM Finetuning— Adapter Tuning

Large Model

2026-01-11

背景随着预训练语言模型进入LLM时代，其参数量愈发庞大。全量微调模型所有参数所需的显存早已水涨船高。例如：全参微调Qwen1.57BChat预估要2张80GB的A800，160GB显存全参微调Qwen1.572BChat预估要20张80GB的A800，至少1600GB显存。而且，通常不同的下游任务还需要LLM的全量参数，对于算法服务部署来说简直是个灾难当然，一种折衷做法就是全量微调后把增量参数进行SVD分解保存，推理时再合并参数为了寻求一个不更新全部参数的廉价微调方案，之前一些预训练语言模型的高效微调(Parameter Efficient finetuning, PEFT)工作，要么插入一些参数或学习外部模块来适应新的下游任务。 Adapter tuning Adapter ...

#LLM #Fine-tuning

READ

Llama 3.1

Large Model

2026-01-11

🔖 https://ai.meta.com/research/publications/thellama3herdofmodels/ 简介本文归纳llm的训练分为两个主要阶段：预训练阶段 pretraining，模型通过使用简单的任务如预测下一个词或caption进行大规模训练后训练阶段 posttraining，模型经过调整以遵循指令、与人类偏好保持一致，并提高特定能力, 例如编码和推理。 Llama 3.1 发布，在 15.6T 多语言 tokens 上训练，支持多语言，编程，推理和工具使用。新模型支持 128K tokens 长度的上下文。最大的旗舰模型参数量为 405B，效果达到了闭源模型的 SOTA。模型结构 Llama 3.1 的模型和 Llama 3 是一样的，只是做了...

#LLM

READ

Llama系列

Large Model

2026-01-11

LLaMA 一直致力于LLM模型研究的国外TOP 3大厂除了OpenAI、Google，便是Meta(原来的Facebook) Meta曾第一个发布了基于LLM的聊天机器人——BlenderBot 3，但输出不够安全，很快下线；再后来，Meta发布一个专门为科学研究设计的模型Galactica，但用户期望过高，发布三天后又下线 23年2.24日，Meta通过论文《LLaMA: Open and Efficient Foundation Language Models》发布了自家的大型语言模型LLaMA，有多个参数规模的版本(7B 13B 33B 65B)，并于次月3.8日被迫开源 LLaMA只使用公开的数据(总计1.4T即1,400GB的token，其中CommonCrawl的数据占比67%...

#LLM

READ

LLM中的幻觉问题

Large Model

2026-01-11

概述在大型语言模型（LLM）中，幻觉（Hallucination）通常指模型生成不实、虚构、不一致或无意义的内容。本文将幻觉问题聚焦于模型输出未被上下文或世界知识所支撑的情况。幻觉的分类幻觉主要分为两类： 1. 内在幻觉（Incontext hallucination）：模型输出和上下文（prompt+input）不一致。 1. 外在幻觉（Extrinsic hallucination）：不符合事实知识。具体来说，模型输出应基于预训练数据集。由于预训练数据规模庞大，验证成本高昂，因此需要确保模型输出：后文重点关注外在幻觉问题。幻觉产生的原因预训练数据问题预训练数据量巨大，通常从公开互联网爬取，数据中存在过时、缺失或错误的信息，模型通过最大化对数似然进行记忆，可能错误地学习这些信...

#LLM

READ

XGBoost

Machine Learning

2026-01-11

1. 从GBDT到XGBoost 作为GBDT的高效实现，XGBoost是一个上限特别高的算法，因此在算法竞赛中比较受欢迎。简单来说，对比原算法GBDT，XGBoost主要从下面三个方面做了优化：一是算法本身的优化：在算法的弱学习器模型选择上，对比GBDT只支持决策树，还可以选择很多其他的弱学习器。在算法的损失函数上，除了本身的损失，还加上了正则化部分。在算法的优化方式上，GBDT的损失函数只对误差部分做负梯度（一阶泰勒）展开，而XGBoost损失函数对误差部分做二阶泰勒展开，更加准确。算法本身的优化是我们后面讨论的重点。二是算法运行效率的优化：对每个弱学习器，比如决策树建立的过程做并行选择，找到合适的子树分裂特征和特征值。在并行选择之前，先对所有的特征的值进行排序分组，方便前面说的并行...

#Machine Learning #Ensemble Learning

READ

#

!

INCOMING TRANSMISSION

Stacked Hourglass Networks

End-to-End Learning for Joint Detection and Grouping

随机森林（Random Forest）

AdaBoost

GBDT（梯度提升树）

Gaze采集标定方案

LLM Finetuning— Prompt & Instruct&Chain-of-Thought

LLM Finetuning— Adapter Tuning

Llama 3.1

Llama系列

LLM中的幻觉问题

XGBoost