知识库 - Orange

VAE 变分自编码器

2026-01-18

分布变换通常我们会拿VAE跟GAN比较，的确，它们两个的目标基本是一致的——希望构建一个从隐变量 \(Z\) 生成目标数据 \(X\) 的模型，但是实现上有所不同。更准确地讲，它们是假设了 \(Z\) 服从某些常见的分布（比如正态分布或均匀分布），然后希望训练一个模型 \(X=g(Z)\) ，这个模型能够将原来的概率分布映射到训练集的概率分布，也就是说，它们的目的都是进行分布之间的变换。生成模型的难题就是判断生成分布与真实分布的相似度，因为我们只知道两者的采样结果，不知道它们的分布表达式那现在假设 \(Z\) 服从标准的正态分布，那么我就可以从中采样得到若干个 \(Z_1, Z_2, \dots, Z_n\) ，然后对它做变换得到 \(\hat{X}_1 = g(Z_1),\hat{X}_2 = g(Z_2),\dots,\hat{X}_n = g(Z_n)\) ，我们怎么判断这个通过 \(g\)...

#Generating Model #VAE

READ

Deep InfoMax(DIM)

Self-Supervised

2026-01-11

相关内容自监督学习（Selfsupervised）：属于无监督学习，其核心是自动为数据打标签（伪标签或其他角度的可信标签，包括图像的旋转、分块等等），通过让网络按照既定的规则，对数据打出正确的标签来更好地进行特征表示，从而应用于各种下游任务。互信息（Mutual Information）：表示两个变量 X 和 Y 之间的关系，定义为：噪声对抗估计（Noise Contrastive Estimation, NCE）：在NLP任务中一种降低计算复杂度的方法，将语言模型估计问题简化为一个二分类问题。 Introduction 无监督学习一个重要的问题就是学习有用的 representation，本文的目的就是训练一个 representation learning 函数（即编码器encod...

#Self-Supervised #对比学习

READ

LLM Finetuning— Prompt & Instruct&Chain-of-Thought

Large Model

2026-01-11

LLM Finetuning— Prompt & Instruct&Chain-of-Thought

PrefixTuning Paper: 2021.1 Optimizing Continuous Prompts for GenerationGithub：https://github.com/XiangLi1999/PrefixTuningPrompt: Continus Prefix PromptTask & Model：BART(Summarization), GPT2(Table2Text) 最早提出Prompt微调的论文之一，其实是可控文本生成领域的延伸，因此只针对摘要和Table2Text这两个生成任务进行了评估。 PrefixTuning可以理解是CTRL模型的连续化升级版，为了生成不同领域和话题的文本，CTRL是在预训练阶段在输入文本前加入了control code，例如好评...

#Fine-tuning #LLM

READ

LLM Finetuning— Adapter Tuning

Large Model

2026-01-11

背景随着预训练语言模型进入LLM时代，其参数量愈发庞大。全量微调模型所有参数所需的显存早已水涨船高。例如：全参微调Qwen1.57BChat预估要2张80GB的A800，160GB显存全参微调Qwen1.572BChat预估要20张80GB的A800，至少1600GB显存。而且，通常不同的下游任务还需要LLM的全量参数，对于算法服务部署来说简直是个灾难当然，一种折衷做法就是全量微调后把增量参数进行SVD分解保存，推理时再合并参数为了寻求一个不更新全部参数的廉价微调方案，之前一些预训练语言模型的高效微调(Parameter Efficient finetuning, PEFT)工作，要么插入一些参数或学习外部模块来适应新的下游任务。 Adapter tuning Adapter ...

#Fine-tuning #LLM

READ

VQ-VAE

Generative Model

2026-01-11

简介作为一个自编码器，VQVAE的一个明显特征是它编码出的编码向量是离散的，换句话说，它最后得到的编码向量的每个元素都是一个整数，这也就是“Quantised”的含义，我们可以称之为“量子化”（跟量子力学的“量子”一样，都包含离散化的意思）。明明整个模型都是连续的、可导的，但最终得到的编码向量却是离散的，并且重构效果看起来还很清晰（如文章开头的图），这至少意味着VQVAE会包含一些有意思、有价值的技巧，值得我们学习一番。首先，VQVAE其实就是一个AE（自编码器）而不是VAE（变分自编码器），我不知道作者出于什么目的非得用概率的语言来沾VAE的边，这明显加大了读懂这篇论文的难度。其次，VQVAE的核心步骤之一是StraightThrough Estimator，这是将引变量离散化后的优...

#Generating Model #VAE

READ

LLM Finetuning— Lora

Large Model

2026-01-11

背景随着预训练语言模型进入LLM时代，其参数量愈发庞大。全量微调模型所有参数所需的显存早已水涨船高。例如：全参微调Qwen1.57BChat预估要2张80GB的A800，160GB显存全参微调Qwen1.572BChat预估要20张80GB的A800，至少1600GB显存。而且，通常不同的下游任务还需要LLM的全量参数，对于算法服务部署来说简直是个灾难当然，一种折衷做法就是全量微调后把增量参数进行SVD分解保存，推理时再合并参数为了寻求一个不更新全部参数的廉价微调方案，之前一些预训练语言模型的高效微调(Parameter Efficient finetuning, PEFT)工作，要么插入一些参数或学习外部模块来适应新的下游任务。 LoRA LoRA（LowRank Adapt...

#LLM #Fine-tuning

READ

#

!

INCOMING TRANSMISSION

VAE 变分自编码器

Deep InfoMax(DIM)

LLM Finetuning— Prompt & Instruct&Chain-of-Thought

LLM Finetuning— Adapter Tuning

VQ-VAE

LLM Finetuning— Lora