知识库 - Orange

Hadoop

杂七杂八

2026-04-02

Apache Hadoop 是一款支持数据密集型分布式应用程序并以Apache 2.0许可协议发布的开源软件框架。它支持在商用硬件构建的大型集群上运行的应用程序。Hadoop是根据谷歌公司发表的MapReduce 和Google文件系统的论文自行实现而成。所有的Hadoop模块都有一个基本假设，即硬件故障是常见情况，应该由框架自动处理。具体参考官方教程。 Hadoop架构 HDFS: 分布式文件存储 YARN: 分布式资源管理 MapReduce: 分布式计算 Others: 利用YARN的资源管理功能实现其他的数据处理方式内部各个节点基本都是采用Master-Woker架构 Hadoop HDFS 架构 Block数据块; 基本存储单位，一般大小为64M（配置大的块主要是因为：1）减少搜寻时间，一般硬盘传输速率比寻道时间要快，大的块可以减少寻道时间；2）减少管理块的数据开销，每个块都需要在NameNode上有对应的记录；3）对数据块进行读写，减少建立网络的连接成本）...

#大数据

READ

Pytorch中的分布式训练--DDP

杂七杂八

2026-03-27

Quick Start 一个最简单的DDP Pytorch例子！环境准备 PyTorch(gpu)>=1.5，python>=3.6 推荐使用官方打好的PyTorch docker，避免乱七八糟的环境问题影响心情。 # Dockerfile# Start FROM Nvidia PyTorch image https://ngc.nvidia.com/catalog/containers/nvidia:pytorch # FROM nvcr.io/nvidia/pytorch:20.03-py3 代码单GPU代码 ## main.py文件 import torch # 构造模型 model = nn.Linear(10, 10).to(local_rank) # 前向传播 outputs = model(torch.randn(20, 10).to(rank)) labels = torch.randn(20, 10).to(rank) loss_fn = nn.MSELoss() loss_fn(outputs, labels).backward() #...

#pytorch

READ

NLP分词算法概述

NLP

2026-03-20

Tokenizer 背景与基础目前的机器学习模型都是数学模型，其对应的输入要求必须是数字形式（number）的，而我们处理的真实场景往往会包含许多非数字形式的输入（有时候即使原始输入是数字形式，我们也需要转换），最典型的就是 NLP 中的文字(string)，为了让文字能够作为输入参与到模型的计算中去，我们就需要构建一个映射关系(mapping)：将对应的文字映射到一个数字形式上去，而其对应的数字就是 token。而对应的这个映射关系，就是我们的 tokenizer：他可以将文字映射到其对应的数字上去(encode)，也可以将数字映射回对应的文字上(decode)。诸如GPT-3/4以及LlaMA/LlaMA2大语言模型都采用了token的作为模型的输入输出，其输入是文本，然后将文本转为token（正整数），然后从一串token（对应于文本）预测下一个token。进入OpenAI官网提供的tokenizer可以看到GPT-3tokenizer采用的方法。这里以Hello World为例说明。...

#NLP #Tokenizer

READ

#

!

INCOMING TRANSMISSION

Hadoop

Pytorch中的分布式训练--DDP

NLP分词算法概述