【AI大模型应用开发】【基础】5.Prompt-Tuning方法入门Prompt-Tuning方法进阶

发布时间:2026/6/24 12:46:22
【AI大模型应用开发】【基础】5.Prompt-Tuning方法入门Prompt-Tuning方法进阶 一.Prompt-Tuning(提示-微调)方法入门1. 什么是NLP四范式目前学术界一般将NLP任务的发展分为四个阶段即NLP四范式第一范式:基于「传统机器学习模型」的范式如TF-IDF特征朴素贝叶斯等机器算法第二范式:基于「深度学习模型」的范式如 word2vec特征LSTM等深度学习算法 相比于第一范式模型准确有所提高 特征工程的工作也有所减少第三范式:基于「预训练模型fine-tuning」的 范式如Bertfine-tuning的NLP任务相比于第二范式模型准确度显著提高模型也随之变得更大但小数据集就可训练出好模型第四范式:基于「预训练模型Prompt预测」的 范式如BertPrompt的范式相比于 第三范式模型训练所需的训练数据显著减少在整个NLP领域整个发展历程是朝着精度更高、少监督甚至无监督的方向发展的,而Prompt-Tuning是目前学术 界向这个方向进军最新也是最火的研究成果2.Fine-Tuning(微调)回顾Fine-Tuning属于一种迁移学习方式在自然语言处理NLP中Fine-Tuning是用于将预训练的语言模型适应于特定任务或领域。Fine-Tuning的基本思想是采用已经在大量文本上进行训练的预训练语言模型然后在小规模的任务特定文本上继续训练它解决方法Prompt-Tuning 通过添加模板的方法来避免引入额外的参数从而让模型可以在小样本few-shot或者零样本zero-shot场景下达到理想的效果3. Prompt-Tuning技术介绍基于Fine-Tuning的方法是让预训练模型去迁就下游任务,基于Prompt-Tuning的方法可以让下游任务去迁就预训练模型,其目的是将Fine-tuning的下游任务目标转换为Pre-training的任务Prompt-Tuning是一种参数高效微调PEFT方法其核心思想是在输入序列前添加一组可学习的“软提示”Soft Prompts通过仅优化这些提示的嵌入向量来适配下游任务而冻结预训练模型的全部权重。技术原理与实现方式软提示机制不同于人工设计的离散文本提示如“请总结以下内容”Prompt-Tuning 使用连续的、可训练的虚拟 token 作为提示。这些 token 在模型输入阶段与真实文本拼接但其嵌入向量是随机初始化并通过反向传播优化的。参数冻结策略整个预训练模型的权重如 Qwen2.5 的 7B 参数保持不变仅训练新增的软提示参数通常仅几千到几万个从而大幅降低显存占用和计算开销。任务适配能力通过在输入端注入任务特定的语义信号软提示能有效弥合预训练目标如因果语言建模与下游任务如分类、摘要之间的语义鸿沟提升小样本或零样本场景下的表现。与相关技术的对比vs. P-TuningP-Tuning 在 Prompt-Tuning 基础上引入了 LSTM 或MLP 编码器对软提示进行重参数化使提示更具表达能力而原始 Prompt-Tuning 直接优化嵌入层结构更简单。vs. LoRALoRA 通过在注意力层的权重矩阵上叠加低秩适配器来微调而 Prompt-Tuning 仅在输入端操作不修改模型内部结构更适合需要保持模型纯净性的场景。vs. 全量微调全量微调更新所有参数效果上限高但成本巨大Prompt-Tuning 以极小代价实现快速适配特别适合资源受限或多任务并行部署。实际应用建议适用场景当你的数据集较小、算力有限或需要在同一基座模型上快速切换多个下游任务时Prompt-Tuning 是理想选择。例如为 Qwen3.7-Plus 快速适配法律合同审查、医疗报告生成等垂直领域。工具支持主流框架如 Hugging Face PEFT、Llama-Factory 均支持 Prompt-Tuning可通过配置PromptEncoderConfig快速启动训练。性能预期在小样本任务中Prompt-Tuning 常能接近甚至超越全量微调的效果但在大规模数据下其性能上限可能低于 LoRA 或全量微调需根据实际需求权衡MLP 介绍在深度学习和大模型如 Prefix-Tuning 和 P-Tuning的语境下MLP的全称是Multi-Layer Perceptron多层感知机。简单来说它是神经网络中最基础、最核心的前馈神经网络结构。你可以把它理解为一个“特征提取与转换的黑盒”或一个“复杂的数学函数”。1. MLP 的核心结构一个标准的 MLP 通常由以下几个部分组成输入层接收原始数据或向量。隐藏层一层或多层神经元。每一层都会对输入数据进行线性变换乘以权重矩阵并加上偏置然后经过一个非线性激活函数如 ReLU、GELU 等。输出层输出最终的结果向量。2. 为什么 Prefix-Tuning 和 P-Tuning 要用 MLP在参数高效微调PEFT中如果我们直接随机初始化可训练的提示参数Soft Prompts模型在训练初期可能会因为找不到正确的优化方向而崩溃即梯度不稳定。因此研究者引入了 MLP 作为“重参数化Reparameterization”的编码器在 P-Tuning 中它没有直接去优化 Embedding 层的离散向量而是随机初始化一个小型的LSTM MLP网络。训练时只更新这个 LSTMMLP 的参数然后由这个网络输出一组连续的 Prompt Embeddings 喂给大模型。MLP 在这里起到了“平滑映射”的作用让生成的提示向量在语义空间中更加连续和稳定。在 Prefix-Tuning 中它在每一层都添加了可学习的参数但这些参数也是通过一个MLP来生成和初始化的。MLP 能够根据极少量的初始参数映射出适合每一层 Attention 机制的 Key 和 Value 前缀向量。如果把大模型比作一台极其精密、参数被锁死的超级计算机而你想让它适应新任务直接随机调参就像是在键盘上胡乱敲击很难敲出正确的指令。MLP 的作用就像是一个“智能翻译官”或“指令编译器”。你只需要给这个翻译官输入几个简单的指令极少的初始参数翻译官MLP就能通过它学到的复杂逻辑将其翻译成超级计算机能完美理解的、连贯的底层指令Prompt Embeddings。总结在这两种微调技术中MLP 本质上是一个小型的、可训练的神经网络模块它的任务是生成和优化那些用来引导大模型的提示向量Prompts而不是直接去修改大模型本身的庞大参数那么具体如何工作呢接下来将以一个二分类的情感分析为例子进行简单理解定一个句子 [CLS] I like the Disney films very much. [SEP]传统的Fine-tuning方法 : 将其通过BERT模型获得 [CLS] 表征之后再喂入新增加的MLP分类器进行二分类预测该句子是积极的positive还是消极的negative因此需要一定量的训练数据来训练Prompt-tuning执行步骤构建模板 (Template) :生成与给定句子相关的一个含有[MASK]标记的模板. 例如It was [MASK], 并拼接到原始的 文本中获得Prompt-Tuning的输入 [CLS] I like the Disney films very much. [SEP] It was [MASK]. [SEP]. 将其喂入BERT模型中并复用预训练好的MLM分类器即可直接得到[MASK]预测的各个token的概率分布标签词(字典:{positive: [great, good, nice] {negative: [bad, terrible,ugly])})映射(Verbalizer): 因为[MASK]只对部分词感兴趣因此需要建立一个映射关系. 例如如果[MASK]预测的词 是“great ”则认为是positive类如果是“terrible ”,则认为是negative类训练:根据Verbalizer则可以获得指定label word的预测概率分布并采用交叉信息熵进行训练。此时因为只对预训练好的MLM head进行微调所以避免了过拟合问题不同的任务应该有不同的template和label word因此如何最大化的寻找当前任务更加合适的template和label word是Prompt-tuning非常重要的挑战总结:1.NLP任务四范式1.传统机器学习2.深度学习模型3.预训练fine-tuning;4.预训练prompt预测2. 什么是Fine-Tuning采用已经在大量文本上进行训练的预训练语言模型,然后在小规模的任务特定文本上继续训练它3. Prompt-Tuning的实现1.构建模版2.标签词映射3.训练4. Prompt-Tuning入门方法4.1 Prompt-Tuning的鼻祖-GPT3GPT-3开创性的提出了In-context Learning(ICL)的思想:即无须修改模型即可实现few-shot、zero-shot的 learning,同时引入了Demonstrate Learning(示范学习),即让模型知道与标签相似的语义描述提升推理能力4.2 PET模型PETPattern-Exploiting Training出自《Exploiting Cloze Questions for Few Shot Text Classification and Natural Language Inference》 EACL2021根据论文题目则可以看出Prompt-Tuning启发于文本分类任务 并且试图将所有的分类任务转换为与MLM一致的完形填空.PET模型提出两个很重要的组件(简称PVP) :PatternTemplate: 记作T, 即上文提到的Template其为额外添加的带有[mask]标记的短文本通常一个样本只有一个Pattern, 由于不同的任务、不同的样本可能会有其更加合适的pattern因此如何构建合适的pattern是Prompt-Tuning的研究点之一Verbalizer :记作V, 即标签词的映射对于具体的分类任务需要选择指定的标签词label word).例如情感分析中期望Verbalizer可能是 positive和negative是类标签. 同样不同的任务有其相应的label word但需要注意的是Verbalizer的构建需要取决于对应的Pattern, 因此如何构建Verbalizer是另一个研究挑战基于Pattern-Verbalizer-PairPVP组件训练目标目前基于PVP框架, 最需要关注的问题是如何选择或构建合适的Pattern(模板)和Verbalizer(标签词映射),一种简单的方法是根据特定任务的性质和先验知识人工设计模板注意在同样的数据集和训练条件下,选择不同的Pattern和Verbalizer会产生差异很大的结果缺陷:人工设计方法缺陷:采用人工构建的方法成本高需要与领域任务相关的先验知识人工设计的Pattern和Verbalizer不能保证获得最优解训练不稳定不同的PVP对结果产生的差异明显方差大在预训练阶段MLM任务并非完全按照PVP的模式进行训练的因此人工构建的Pattern和Verbalizer使得Prompt-Tuning与MLM在语义和分布上依然存在差异因此如何能够自动地挑选合适的PVP? 接下来根据使用场景的不同分别介绍几种成熟的Prompt-Tuning方法4.3 Prompt-Oriented Fine-Tuning(提示词-对象 微调)Prompt-Oriented Fine-Tuning训练方法的本质是将目标任务转换为适应预训练模型的预训练任务以适应预训练模型的学习体系以情感分析任务为例Prompt-Oriented Fine-Tuning方法中预训练模型参数是可变的, 本质是Prompt-TuningFine-Tuning的结合体,该方法在Bert类相对较小的模型上表现较好但是随着模型越来越大如果每次针对下游任务都需要更新预训练模型的参数资源成本及时间成本都会很高因此后续陆续提出了不更新预训练模型参数单纯只针对prompt进行调优的方法,针对Prompt调优方法的分类Hard Prompt(离散提示目标模板) 和 Soft Prompt(连续提示模板)常见下游任务的Prompt设计模板类别Hard Prompt(离散提示目标模板)Hard Prompt 离散提示: 是一种固定的提示模板通过将特定的关键词或短语(真实的文本字符串) 直接嵌入到文本中引导模型生成符合要求的文本.特点: 提示模板是固定的不能根据不同的任务和需求进行调整.缺陷: 依赖人工改变prompt中的单个单词会给实验结果带来巨大的差异Soft Prompt(连续提示模板)Soft Prompt 连续提示是指通过给模型输入一个可参数化的提示模板从而引导模型生成符合特定要求的文本.特点:提示模板中的参数可以根据具体任务和需求进行调整以达到最佳的生成效果优点:不需要显式地指定这些模板中各个token具体是什么而只需要在语义空间中表示一个向量即可Soft Prompt理解基于Soft Prompt, 不同的任务、数据可以自适应地在语义空间中寻找若干合适的向量来代表模板中的每一个词相较于显式的token这类token称为伪标记Pseudo Token).下面给出基于连续提示的模板定义 :假设针对分类任务给定一个输入句子x连续提示的模板可以定义为T[x], [v1], [v2],..., [vn] [MASK]其中[vn] 则是伪标记其仅代表一个抽象的token并没有实际的含义本质上是一个向量.总结来说Soft Prompt方法, 是将模板变为可训练的参数不同的样本可以在连续的向量空间中寻找合适的伪标记 同时也增加模型的泛化能力. 因此, 连续法需要引入少量的参数并在训练时进行参数更新但预训练模型参数是不变的变的是prompt token对应的词向量Word Embedding表征及其他引入的少量参数. 接下来将基于Prompt-Tuning讲解三种典型方法4.4 Prompt Tuning方法 (NLG任务)4.4.1 方法介绍Prompt Tuning 是2021年谷歌在论文《The Power of Scale for Parameter-Efficient Prompt Tuning》 中提出的微调方法该方法基于T5模型(最大参数11B)为每一个输入文本假设一个固定前缀提示该提示由神经网络参数化并在下游任务微调时进行更新整个过程中预训练的大模型参数被冻结4.4.2 Prompt Tuning方法的特点优点大模型的微调新范式模型参数规模大了之后可以将大模型参数固定指定附加参数来适配下游任务 而且适配性能基本和全参数微调相当缺点在小样本学习场景上表现不太行收敛速度比较慢调参比较复杂4.5 P-Tuning V1方法NLU任务P-Tuning V1 直接对Embedding 参数进行优化会存在两个挑战Discretenes(不连续性) 对输入正常语料的 Embedding 层已经经过预训练而如果直接对输入的 prompt embedding进行随机初始化训练容易陷入局部最优Association(关联性分析)没法捕捉到 prompt embedding 之间的相关关系P-Tuning的特点与Prompt-Tuning的区别:Prompt Tuning 是将额外的 embedding 加在开头看起来更像是模仿 Instruction 指令而P-Tuning 的位置则不固定Prompt Tuning 需要加入MLP来参数初始化而 P-Tuning 通过LSTMMLP来初始化4.6 P-Tuning V2P-Tuning V2是升级版本主要解决P-Tuning V1 在小参数量模型上表现差的问题,详细信息可参考《[P-Tuning v2 : Prompt Tuning Can Be Comparable to Fine-tuning Universally Across Scales and Tasks》P-Tuning v2 方法的核心思想在模型的每一层都应用连续的 prompts, 并对 prompts 参数进行更新优化. 同时, 该方法也是针对NLU任务优化和适配的总结:1.什么是Prompt-Tuning通过添加模板的方法来避免引入额外的参数从而让模型可以在小样本few-shot或者零样本zero-shot场景下达到理想的效果2.PET模型的主要组件Pattern(模板)与Verbalizer(标签词映射)3.P-tuning V1 的核心思想P-tuning固定 LLM 参数, 利用多层感知机 (MLP)和 LSTM 对Prompt 进行编码编码之后与其他向量进行拼接之后正常输入LLM,注意训练之后只保留Prompt 编码之后的向量即可无需保留编码器二.Prompt-Tuning方法进阶1. 超大规模参数模型Prompt-Tuning方法近两年来随着Prompt-Tuning技术的发展对于超过10亿参数量的模型来说Prompt-Tuning所带来的增益远远高于标准的Fine-tuning.如GPT-3模型, 只需要设计合适的模板或指令即可以实现免参数训练的零样本学习.根本原因模型参数量足够大训练过程中使用了足够多的语料同时设计的预训练任务足够有效.面向超大规模的模型的Prompt-Tuning方法上下文学习 In-Context Learning(ICL):直接挑选少量的样本作为该任务的提示指令学习 Instruction- Tuning:构建任务指令集促使模型根据任务指令做出反馈思维链 Chain-of- Thought(COT):给予或激发模型具有推理和解释的信息通过线性链式的模式指导模型生成合理的结果2.上下文学习 In-Context Learning(ICL)方法的应用In-Context learningICL最早在GPT3中提出, 旨在从训练集中挑选少量的标注样本设计任务相关的指令形成提示模板用于指导测试样本生成相应的结果zero-shot learning:给出任务的描述, 然后提供测试数据对其进行预测,直接让预训练好的模型去进行任务测试one-shot learning:给出任务的描述, 在进行新数据预测前,插入一个样本做指导相当于给一个例子让模型理解然后再提供测试数据对其进行预测few-shot learning:给出任务的描述, 在进行新数据预测前,插入N个样本做指导,相当于给N个例子让模型理解, 然后再提供测试数据对其进行预测3. 指令学习方法的应用指令学习 Instruction- Tuning:其实Prompt-Tuning本质上是对下游任务的指令简单的来说就是告诉模型需要做什么任务输出什么内容. 上文提及到的离散或连续的模板本质上就是一种对任务的提示, 因此, 在对大规模模型进行微调时, 可以为各种类型的任务定义指令, 并进行训练来提高模型对不同任务的泛化能力.Prompt VS InstructionInstruction-Tuning和Prompt-Tuning的核心一样就是去发掘语言模型本身具备的知识. Instruct-Tuning的形式以电影评论二分类举例在对电影评论进行二分类的时候最简单的提示模板(Prompt)是“. It was [mask]. ”但是其并没有突出该任务的具体特性可以为其设计一个能够突出该任务特性的模板(加上 Instruction)例如“The movie review is . It was [mask]. ”然后根据mask位置的输出结果通过Verbalizer映射到具体的标签上,这一类具备任务特性的模板可以称之为指令 Instruction.如何实现Instruction-Tuning?指令学习和提示学习的不同点Prompt是去激发语言模型的补全能力 比如给出上半句生成下半句、或者做完形填空Instruction-Tuning则是激发语言模型的理解能力 通过给出更明显的指令/指示让模型去理解并做出正确的actionPromp-Tuningt在没有精调的模型上也能有一定效 果但是Instruct- Tuning则必须对模型精调, 让模型知道这种指令模式总结:1.什么是指令学习通过给出更明显的指令/指示让模型去理解并做出正确的action.2. 指令学习和Prompt的区别指令学习激发语言模型的理解能力Prompt学习激发语言模型的补全能力.4. 思维链方法的实现思维链 Chain-of- Thought(COT)思维链 (Chain-of-thoughtCoT) 的概念是在 Google 的论文 Chain-of-Thought Prompting Elicits Reasoning in Large Language Models 中被首次提出思维链CoT是一种改进的提示策略用于提高 LLM 在复杂推理任务中的性能如算术推理、常识推理和符号推理思维链是一种离散式提示学习更具体地大模型下的上下文学习即不进行训练将例子添加到当前样本输入的前面让模型一次输入这些文本进行输出完成任务相比于之前传统的上下文学习即通过x1,y1,x2,y2,....xtest作为输入来让大模型补全输出y test思维链多了中间的推导提示.Chain-of-Thought理解求解一个数学题为例, 理解cot思想Chain-of-Thought分类:Few-shot CoT:ICL 的一种特殊情况它通过融合CoT推理步骤将每个演示〈input output〉扩充为〈input,CoT, output〉Zero-shot CoT:直接生成推理步骤然后使用生成的 CoT 来导出答案.其中 LLM 首先由 “Lets think step by step ” 提示生成推理步骤然后由 “Therefore, the answer is ” 提示得出最终答案。发现当模型规模超过一定规模时这种策略会大大提高性能但对小规模模型无效显示出显著的涌现能力模式Chain-of-Thought特点:逻辑性:思维链中的每个思考步骤都应该是有逻辑关系的它们应该相互连接从而形 成一个完整的思考过程.全面性:思维链应该尽可能地全面和细致地考虑问题, 以确保不会忽略任何可能的因素和影响全面性:思维链中的每个思考步骤都应该是可行的也就是说它们应该可以被实际操作和实施可验证性:思维链中的每个思考步骤都应该是可以验证的也就是说它们应该可以通过 实际的数据和事实来验证其正确性和有效性总结:1.什么是思维链方法相比于之前传统的上下文学习即通过x1,y1,x2,y2,....xtest 作为输入来让大模型补全输出y test思维链多了中间的推导提示2. 思维链的分类Few-shot CoT以及Zero-shot CoT4. PEFT大模型参数高效微调方法原理PEFTParameter-Efficient Fine-Tuning参数高效微调方法是目前大模型在工业界应用的主流方式之 一(PEFT其实就是一个库,里面有很多微调方法)PEFT方法仅微调少量或额外的模型参数固定大部分预训练参数大大降低了计算和存储成本同时最先进的PEFT技术也能实现了与全量微调相当的性能PEFT的优势该方法可以使PLM(预训练语言模型)高效适应各种下游应用任务而无需微调预训练模型的所有参数且让大模型在消费级硬件上进行全量微调Full Fine-Tuning变得可行.PEFT 方法分类:Prefix/Prompt-Tuning:在模型的输入或隐层添加k个额外可训练的前缀伪tokens只训练这些前缀参数Adapter-Tuning:将较小的神经网络层或模块插入预训练模型的每一层这些新插入的神经模块称为adapter适配器下游任务微调时也只训练这些适配器参数LoRA:通过学习小参数的低秩矩阵来近似模型权重矩阵 W 的参数更新训练时只优化低秩矩阵参数Prefix-Tuning2021年论文《Prefix-Tuning: Optimizing Continuous Prompts for Generation》中提出了 Prefix Tuning 方法该方法是在输入 token 之前构造一段任务相关的 virtual tokens 作为 Prefix然 后训练的时候只更新Prefix部分的参数而Transformer 中的其他部分参数固定Prefix-Tuning任务形式:Prefix-Tuning特点对比之前的微调方式对比P-TuningPrefix-Tuning 是将额外的embedding加在开头看起来更像模仿Instruction指令而P- Tuning 位置不固定Prefix-Tuning 通过在每个层都添加可训练参数通过MLP初始化 而P-Tuning只在输入的时候加入embedding,并通过LSTMMLP初始化对比Prompt-TuningPrompt Tuning 方式可以看做是 Prefix Tuning 的简化只在输入层加入prompt tokens并不需要加入MLP 进行调整来解决难训练的问题总结:1.什么是Prefix Tuning该方法是在输入 token 之前构造一段任务相关的 virtual tokens 作为 Prefix然后训练的时候只更新 Prefix 部分的参数 而 Transformer 中的其他部分参数固定..2.Prefix-Tuning和P-Tuing的区别1.Prefix-Tuning 是将额外的embedding加在开头而P-Tuning位置不固定2.Prefix-Tuning 通过在每个层都添加可训练参数通过MLP初始化而P-Tuning只在输入的时候加入embedding, 并通过 LSTMMLP初始化.3.Prefix-Tuning和Prompt-Tuing的区别Prompt Tuning 方式可以看做是Prefix Tuning 的简化只在输 入层加入prompt tokens并不需要加入MLP 进行调整来解决难训练的问题Adapter Tuning2019年谷歌的研究人员首次在论文《Parameter-Efficient Transfer Learning for NLP》提出针对BERT 的 PEFT微调方式拉开了PEFT 研究的序幕. 不同于Prefix Tuning这类在输入前添加可训练prompt参数 以少量参数适配下游任务Adapter Tuning 则是在预训练模型内部的网络层之间添加新的网络层或模块来适配下游任务.当模型训练时固定住原来 预训练模型的参数不变只对新增的Adapter结构进行微调LoRA低秩适应Low-Rank Adaptation是一种参数高效的微调技术其核心思想是对大型模型的权重矩阵进行隐式的低秩转换也就是通过一个较低维度的表示来近似表示一个高维矩阵或数据集.LoRA的产生上述Adapter Tuning 方法在 PLM 基础上添加适配器层会引入额外的计算带来推理延迟问题而 Prefix Tuning 方法难以优化其性能随可训练参数规模非单调变化更根本的是为前缀保留部分序列长度必然会减少用于处理下游任务的序列长度. 因此微软推出了LoRA方法在 LoRA 技术中B 矩阵被初始化为全零其核心目的是确保模型在训练开始时完全保持预训练权重的原始行为从而避免对模型造成任何初始扰动保证训练的平稳启动。为什么是 B 而不是 ALoRA 的更新公式为ΔW B × A其中 A 是降维矩阵d → rB 是升维矩阵r → d。如果 B 初始化为 0则无论 A 的值是多少ΔW 都恒等于 0这意味着模型在第一步前向传播时输出与未加 LoRA 时完全一致。而 A 矩阵必须使用高斯分布随机初始化如 N(0, σ²)原因如下保证梯度流动如果 A 也初始化为 0那么 A 的输出就是 0导致 B 的输入梯度也为 0B 无法被有效更新整个 LoRA 路径会“死掉”。提供探索空间随机初始化的 A 为模型提供了足够的“探索方向”使其能在训练初期快速找到有效的优化路径。工程实践中的关键细节在实际部署中LoRA 通常会引入一个缩放因子 αalpha最终更新量为 (α/r) × B × A。这个缩放因子的作用是控制 LoRA 更新的幅度防止低秩矩阵在训练后期对原模型造成过大冲击。即使 B 初始化为 0随着训练进行B 会逐渐学习到非零值从而逐步“激活”LoRA 的适配能力。这种“A 随机 B 为零”的初始化策略是 LoRA 能够在极小参数量下实现高效微调的关键设计之一它巧妙地平衡了“保持原模型稳定性”和“允许新任务学习”之间的矛盾总结:1.什么是Adapter Tuning在预训练模型内部的网络层之间添加新的网络层或模块来适配下游任务2.什么是LoRA一种特殊的adapter,一种高效参数微调方法,对大型模型的权重矩阵进行隐式的低秩转换3.LoRA原理冻结预训练模型的权重并在每个Transformer块中注入可训练层称为秩分解矩阵即在模型的Linear层的旁边增加一个“旁 支 ”A和B。其中A将数据从d维降到r维这个r是LoRA的秩是一个重要的超参数B将数据从r维升到d维B部分的参数初始为0。模型训 练结束后需要将AB部分的参数与原大模型的参数合并在一起使用【上一篇】【AI大模型应用开发】【基础】4.LLM主流开源大模型介绍【下一篇】【AI大模型应用开发】【基础】6.LLM的提示词工程应用-金融行业动态方向评估项目