知识库 - Orange

XGBoost

2026-01-11

1. 从GBDT到XGBoost 作为GBDT的高效实现，XGBoost是一个上限特别高的算法，因此在算法竞赛中比较受欢迎。简单来说，对比原算法GBDT，XGBoost主要从下面三个方面做了优化：一是算法本身的优化：在算法的弱学习器模型选择上，对比GBDT只支持决策树，还可以选择很多其他的弱学习器。在算法的损失函数上，除了本身的损失，还加上了正则化部分。在算法的优化方式上，GBDT的损失函数只对误差部分做负梯度（一阶泰勒）展开，而XGBoost损失函数对误差部分做二阶泰勒展开，更加准确。算法本身的优化是我们后面讨论的重点。二是算法运行效率的优化：对每个弱学习器，比如决策树建立的过程做并行选择，找到合适的子树分裂特征和特征值。在并行选择之前，先对所有的特征的值进行排序分组，方便前面说的并行...

#Ensemble Learning #Machine Learning

READ

DDP

Python

2026-01-11

Quick Start 一个最简单的DDP Pytorch例子！环境准备 PyTorch(gpu)=1.5，python=3.6 推荐使用官方打好的PyTorch docker，避免乱七八糟的环境问题影响心情。 [代码] 代码单GPU代码 [代码] 加入DDP的代码 [代码] DDP的基本原理大白话原理假如我们有N张显卡， 1. （缓解GIL限制）在DDP模式下，会有N个进程被启动，每个进程在一张卡上加载一个模型，这些模型的参数在数值上是相同的。 1. （RingReduce加速）在模型训练时，各个进程通过一种叫RingReduce的方法与其他进程通讯，交换各自的梯度，从而获得所有进程的梯度； 1. （实际上就是Data Parallelism）各个进程用平均后的梯度更新自己的参数，...

#pytorch

READ

Tensorflow-@tf_export

Python

2026-01-11

@tf_export为函数取了个名字！ Tensorflow经常看到定义的函数前面加了@tf_export。例如，tensorflow/python/platform/app.py中有： [代码] 首先，@tf_export是一个修饰符。修饰符的本质是一个函数 tf_export的实现在tensorflow/python/util/tf_export.py中： [代码] 等号的右边的理解分两步： 1. functools.partial 1. api_export functools.partial是偏函数,它的本质简而言之是为函数固定某些参数。如：functools.partial(FuncA, p1)的作用是把函数FuncA的第一个参数固定为p1；又如functools.partial(...

#pytorch

READ

Ensemble Learning概述

Machine Learning

2026-01-11

这篇博客介绍一下集成学习的几类：Bagging，Boosting以及Stacking。传统机器学习算法 (例如：决策树，人工神经网络，支持向量机，朴素贝叶斯等) 的目标都是寻找一个最优分类器尽可能的将训练数据分开。集成学习 (Ensemble Learning) 算法的基本思想就是将多个分类器组合，从而实现一个预测效果更好的集成分类器。集成算法可以说从一方面验证了中国的一句老话：三个臭皮匠，赛过诸葛亮。 Thomas G. Dietterich 指出了集成算法在统计，计算和表示上的有效原因：统计上的原因一个学习算法可以理解为在一个假设空间 H 中选找到一个最好的假设。但是，当训练样本的数据量小到不够用来精确的学习到目标假设时，学习算法可以找到很多满足训练样本的分类器。所以，学习算法选择...

#Ensemble Learning #Machine Learning

READ

Autograd

Python

2026-01-11

PyTorch中，所有神经网络的核心是 autograd 包。 autograd 包为张量上的所有操作提供了自动求导机制。它是一个在运行时定义(definebyrun）的框架，这意味着反向传播是根据代码如何运行来决定的，并且每次迭代可以是不同的. 让我们用一些简单的例子来看看吧。张量 torch.Tensor 是这个包的核心类。如果设置它的属性 .requires_grad 为 True，那么它将会追踪对于该张量的所有操作。当完成计算后可以通过调用 .backward()，来自动计算所有的梯度。这个张量的所有梯度将会自动累加到.grad属性. 要阻止一个张量被跟踪历史，可以调用 .detach() 方法将其与计算历史分离，并阻止它未来的计算记录被跟踪。为了防止跟踪历史记录(和使用内存），...

#pytorch

READ

上采样、反卷积与上池化

Deep Learning

2026-01-11

通过卷积和池化等技术可以将图像进行降维，因此，一些研究人员也想办法恢复原分辨率大小的图像，特别是在语义分割领域应用很成熟。 1、Upsampling（上采样）[没有学习过程] 在FCN、Unet等网络结构中，涉及到了上采样。上采样概念：上采样指的是任何可以让图像变成更高分辨率的技术。最简单的方式是重采样和插值：将输入图片进行rescale到一个想要的尺寸，而且计算每个点的像素点，使用如双线性插值等插值方法对其余点进行插值来完成上采样过程。在PyTorch中，上采样的层被封装在torch.nn中的Vision Layers里面，一共有4种： PixelShuffle Upsample UpsamplingNearest2d UpsamplingBilinear2d 0）PixelShuffl...

#DL基础 #CNN

READ

nn 与 nn.functional

Python

2026-01-11

相同点 nn.Xxx和nn.functional.xxx的实际功能是相同的，即nn.Conv2d和nn.functional.conv2d 都是进行卷积，nn.Dropout 和nn.functional.dropout都是进行dropout，。。。。。；运行效率也是近乎相同。 nn.functional.xxx是函数接口，而nn.Xxx是nn.functional.xxx的类封装，并且nn.Xxx都继承于一个共同祖先nn.Module。这一点导致nn.Xxx除了具有nn.functional.xxx功能之外，内部附带了nn.Module相关的属性和方法，例如train(), eval(),load_state_dict, state_dict 等。不同点两者的调用方式不同。 nn.X...

#pytorch

READ

Pytorch 报错汇总

Python

2026-01-11

unsupported operation: more than one element of the writtento tensor refers to a single memory location. Please clone() the tensor before performing the operation. 出现这种情况可能是在.backward()之前使用了 .expand()或者.expand_as()函数。具体原因可以看看这个老哥的提问：link 解决办法：在 .expand()或者.expand_as()函数后面添加.clone()就可以解决。

#pytorch

READ

#

!

INCOMING TRANSMISSION

XGBoost

DDP

Tensorflow-@tf_export

Ensemble Learning概述

Autograd

上采样、反卷积与上池化

nn 与 nn.functional

Pytorch 报错汇总