按题意用“暴力模拟”完整走一遍计算图:
已知大模型常用的 Attention 模块定义如下:
Y=softmax(hQKT)V
此处考虑二维情况,其中
Q,K,V=XW1,XW2,XW3∈Rn×h,X∈Rn×m,W1,W2,W3∈Rm×h
为简便起见,所有输入初始化为全1矩阵,所有权重矩阵初始化为上三角全 1 矩阵。
对任意矩阵 ( M ) 的 softmax 计算简化为:
softmax(M)ij=MiMij,Mi=∑jMij
输入为维度参数 n,m和h,参数间使用空格隔开,均为小于 100 的正整数
输出为结果矩阵 Y∈Rn×h的所有元素之和,例如 15,输出在四舍五入后保留整数
输入
3 3 3
输出
18
说明
$X = \begin{pmatrix} 1 & 1 & 1 \\ 1 & 1 & 1 \\ 1 & 1 & 1 \end{pmatrix}, \quad W_1, W_2, W_3 = \begin{pmatrix} 1 & 1 & 1 \\ 0 & 1 & 1 \\ 0 & 0 & 1 \end{pmatrix}$
$Q, K, V = \begin{pmatrix} 1 & 2 & 3 \\ 1 & 2 & 3 \\ 1 & 2 & 3 \end{pmatrix}, \quad Y = \begin{pmatrix} 1 & 2 & 3 \\ 1 & 2 & 3 \\ 1 & 2 & 3 \end{pmatrix}$
输出为:18
输入
2 3 1
输出
2
说明
X=(111111),W1,W2,W3=100
Q,K,V=(11),Y=(11)
输出为:2
输入参数不包含 0,为正整数