1. LoRA 思路

原始权重 $W_q$ 冻结；
新增低秩矩阵 $A\in \mathbb{R}^{r\times d}, B\in \mathbb{R}^{d\times r}$ ，形成：
$W_q' = W_q + BA$
若 $r=0$ ，直接用原始 $W_q$ 。

题目内容

相对于全量微调， $LoRA$ 微调提出了一种低秩分解的方法，只需在原模型参数基础上增加少量的可训练参数，大幅降低计算成本和内存占用。具体而言，对于原始的预训练权重矩阵 $W$ ， $LORA$ 做以下改进：

$W'=W+B×A$

$W$ 为原始权重(冻结不变)， $B∈R^{d×r}$ 和 $A ∈R^{r×d}$ 为新增的低秩矩阵， $r<<d$ ，秩 $r$ 一般很小。微调时只更新 $A、B$ 这两个矩阵，显著减少训练的参数数量。请实现支持 $LoRA$ 的 $Attention$ 计算