原始权重 Wq 冻结;
新增低秩矩阵 A∈Rr×d,B∈Rd×r,形成:
Wq′=Wq+BA若 r=0,直接用原始 Wq。
相对于全量微调,LoRA微调提出了一种低秩分解的方法,只需在原模型参数基础上增加少量的可训练参数,大幅降低计算成本和内存占用。具体而言,对于原始的预训练权重矩阵W,LORA做以下改进:
W′=W+B×A
W为原始权重(冻结不变),B∈Rd×r和 A∈Rr×d为新增的低秩矩阵,r<<d,秩r一般很小。微调时只更新 A、B这两个矩阵,显著减少训练的参数数量。请实现支持LoRA的Attention计算