知识库 - Orange

Hadoop、Hive、Spark 之间是什么关系？

杂七杂八

2026-01-11

大数据本身是个很宽泛的概念，Hadoop生态圈(或者泛生态圈)基本上都是为了处理超过单机尺度的数据处理而诞生的。你可以把它比作一个厨房所以需要的各种工具。锅碗瓢盆，各有各的用处，互相之间又有重合。你可以用汤锅直接当碗吃饭喝汤，你可以用小刀或者刨子去皮。但是每个工具有自己的特性，虽然奇怪的组合也能工作，但是未必是最佳选择。大数据，首先你要能存的下大数据传统的文件系统是单机的，不能横跨不同的机器。HDFS(Hadoop Distributed FileSystem)的设计本质上是为了大量的数据能横跨成百上千台机器，但是你看到的是一个文件系统而不是很多文件系统。比如你说我要获取/hdfs/tmp/file1的数据，你引用的是一个文件路径，但是实际的数据存放在很多不同的机器上。你作为用户，不需要...

#大数据

READ

LLM Finetuning— Prompt & Instruct&Chain-of-Thought

Large Model

2026-01-11

LLM Finetuning— Prompt & Instruct&Chain-of-Thought

PrefixTuning Paper: 2021.1 Optimizing Continuous Prompts for GenerationGithub：https://github.com/XiangLi1999/PrefixTuningPrompt: Continus Prefix PromptTask & Model：BART(Summarization), GPT2(Table2Text) 最早提出Prompt微调的论文之一，其实是可控文本生成领域的延伸，因此只针对摘要和Table2Text这两个生成任务进行了评估。 PrefixTuning可以理解是CTRL模型的连续化升级版，为了生成不同领域和话题的文本，CTRL是在预训练阶段在输入文本前加入了control code，例如好评...

#Fine-tuning #LLM

READ

LLM Finetuning— Adapter Tuning

Large Model

2026-01-11

背景随着预训练语言模型进入LLM时代，其参数量愈发庞大。全量微调模型所有参数所需的显存早已水涨船高。例如：全参微调Qwen1.57BChat预估要2张80GB的A800，160GB显存全参微调Qwen1.572BChat预估要20张80GB的A800，至少1600GB显存。而且，通常不同的下游任务还需要LLM的全量参数，对于算法服务部署来说简直是个灾难当然，一种折衷做法就是全量微调后把增量参数进行SVD分解保存，推理时再合并参数为了寻求一个不更新全部参数的廉价微调方案，之前一些预训练语言模型的高效微调(Parameter Efficient finetuning, PEFT)工作，要么插入一些参数或学习外部模块来适应新的下游任务。 Adapter tuning Adapter ...

#LLM #Fine-tuning

READ

hive lateral view 与 explode

杂七杂八

2026-01-11

1. explode hive wiki对于expolde的解释如下： explode() takes in an array (or a map) as an input and outputs the elements of the array (map) as separate rows. UDTFs can be used in the SELECT expression list and as a part of LATERAL VIEW. As an example of using explode() in the SELECT expression list, consider a table named myTable that has a single column (m...

#大数据

READ

LLM Finetuning— Lora

Large Model

2026-01-11

背景随着预训练语言模型进入LLM时代，其参数量愈发庞大。全量微调模型所有参数所需的显存早已水涨船高。例如：全参微调Qwen1.57BChat预估要2张80GB的A800，160GB显存全参微调Qwen1.572BChat预估要20张80GB的A800，至少1600GB显存。而且，通常不同的下游任务还需要LLM的全量参数，对于算法服务部署来说简直是个灾难当然，一种折衷做法就是全量微调后把增量参数进行SVD分解保存，推理时再合并参数为了寻求一个不更新全部参数的廉价微调方案，之前一些预训练语言模型的高效微调(Parameter Efficient finetuning, PEFT)工作，要么插入一些参数或学习外部模块来适应新的下游任务。 LoRA LoRA（LowRank Adapt...

#Fine-tuning #LLM

READ

Transformers are RNNs

NLP

2026-01-11

摘掉Softmax 制约Attention性能的关键因素，其实是定义里边的Softmax！事实上，简单地推导一下就可以得到这个结论。 [Math] 这一步我们得到一个 [Math] 的矩阵，就是这一步决定了Attention的复杂度是 [Math] ；如果没有Softmax，那么就是三个矩阵连乘 [Math] ，而矩阵乘法是满足结合率的，所以我们可以先算 [Math] ，得到一个 [Math] 的矩阵，然后再用 [Math] 左乘它，由于 [Math] ，所以这样算大致的复杂度只是 [Math] （就是 [Math] 左乘那一步占主导）。也就是说，去掉Softmax的Attention的复杂度可以降到最理想的线性级别 [Math] ！这显然就是我们的终极追求：Linear Attentio...

#Linear Attention #transformer

READ

FLASH：高效Transformer设计

NLP

2026-01-11

概述本文介绍一个比较有意思的高效Transformer工作——来自Google的《Transformer Quality in Linear Time》，经过细读之后，笔者认为论文里边真算得上是“惊喜满满”了～什么样的结果值得我们用“惊喜”来形容？有没有言过其实？我们不妨先来看看论文做到了什么： 1. 提出了一种新的Transformer变体，它依然具有二次的复杂度，但是相比标准的Transformer，它有着更快的速度、更低的显存占用以及更好的效果； 1. 提出一种新的线性化Transformer方案，它不但提升了原有线性Attention的效果，还保持了做Decoder的可能性，并且做Decoder时还能保持高效的训练并行性。说实话，笔者觉得做到以上任意一点都是非常难得的，而这篇论...

#Linear Attention #transformer

READ

状态空间模型SSM到Mamba

NLP

2026-01-11

概述 SSM的概念由来已久，但这里我们特指深度学习中的SSM，一般认为其开篇之作是2021年的 S4，不算太老，而SSM最新最火的变体大概是Mamba。当然，当我们谈到SSM时，也可能泛指一切线性RNN模型，这样RWKV、RetNet还有此前LRU都可以归入此类。不少SSM变体致力于成为Transformer的竞争者，尽管笔者并不认为有完全替代的可能性，但SSM本身优雅的数学性质也值得学习一番。尽管我们说SSM起源于S4，但在S4之前，SSM有一篇非常强大的奠基之作《HiPPO: Recurrent Memory with Optimal Polynomial Projections》（简称HiPPO），所以本文从HiPPO开始说起。另外值得一提的是，SSM代表作HiPPO、S4、Mam...

#Linear Attention #NLP

READ

LinearAttention 概述

NLP

2026-01-11

概述众所周知，尽管基于Attention机制的Transformer类模型有着良好的并行性能，但它的空间和时间复杂度都是 [Math] 级别的， n 是序列长度，所以当 n 比较大时Transformer模型的计算量难以承受。近来，也有不少工作致力于降低Transformer模型的计算量，比如模型剪枝、量化、蒸馏等精简技术，又或者修改Attention结构，使得其复杂度能降低到 [Math] 甚至 [Math] 。改变这一复杂度的思路主要有两种：一是走稀疏化的思路，比如OpenAI的Sparse Attention，通过“只保留小区域内的数值、强制让大部分注意力为零”的方式，来减少Attention的计算量。经过特殊设计之后，Attention矩阵的大部分元素都是0，因此理论上它也能节...

#Linear Attention #transformer

READ

Performer

NLP

2026-01-11

Preformer Performer的出发点还是标准的Attention，所以在它那里还是有 [Math] ，然后它希望将复杂度线性化，那就是需要找到新的 [Math] ，使得： [公式] 如果找到合理的从 [Math] 到 [Math] 的映射方案，便是该思路的最大难度了。激活函数线性Attention的常见形式如式3，其中 [Math] 、 [Math] 是值域非负的激活函数。那么如何选取这个激活函数呢？Performer告诉我们，应该选择指数函数 [公式] 首先，我们来看它跟已有的结果有什么不一样。在 Transformers are RNNs 给出的选择是： [公式] 我们知道 1+x 正是 e^x 在 x=0 处的一阶泰勒展开，因此 [Math] 这个选择其实已经相当接近 ...

#Linear Attention #transformer

READ

The Devil in Linear Transformer

NLP

2026-01-11

简介承接 Transformers are RNNs 这篇论文目的：为了分析之前linear transformer的效果为什么不好。发现主要是两个原因造成的： 1. 无界梯度（unbounded gradient），会导致模型在训练时不稳定，收敛不好； 1. 注意力稀释（attention dilution），transformer在lower level时应该更关注局部特征，而higher level更关注全局特征，但线性transformer中的attention往往weight 更均匀化，不能聚焦在local区域上，因此称为attention稀释。解决方案： 1. 对linear attention算出来的output接着做个normalization，形成NormForme...

#Linear Attention

READ

Hadoop

杂七杂八

2026-01-11

Apache Hadoop 是一款支持数据密集型分布式应用程序并以Apache 2.0许可协议发布的开源软件框架。它支持在商用硬件构建的大型集群上运行的应用程序。Hadoop是根据谷歌公司发表的MapReduce 和Google文件系统的论文自行实现而成。所有的Hadoop模块都有一个基本假设，即硬件故障是常见情况，应该由框架自动处理。具体参考官方教程。 Hadoop架构 HDFS: 分布式文件存储 YARN: 分布式资源管理 MapReduce: 分布式计算 Others: 利用YARN的资源管理功能实现其他的数据处理方式内部各个节点基本都是采用MasterWoker架构 Hadoop HDFS 架构 Block数据块; NameNode Secondary NameNode DataN...

#大数据

READ

#

!

INCOMING TRANSMISSION

Hadoop、Hive、Spark 之间是什么关系？

LLM Finetuning— Prompt & Instruct&Chain-of-Thought

LLM Finetuning— Adapter Tuning

hive lateral view 与 explode

LLM Finetuning— Lora

Transformers are RNNs

FLASH：高效Transformer设计

状态空间模型SSM到Mamba

LinearAttention 概述

Performer

The Devil in Linear Transformer

Hadoop