题目内容
已知大模型常用的 Attention 模块定义如下:
Y=softmax(hQKT)V
此处考虑二维情况,其中
Q,K,V=XW1,XW2,XW3∈Rn×h,X∈Rn×m,W1,W2,W3∈Rm×h
注意:
-
为简便起见,所有输入初始化为全1矩阵,所有权重矩阵初始化为上三角全 1 矩阵。
-
对任意矩阵 ( M ) 的 softmax 计算简化为:
softmax(M)ij=MiMij,Mi=∑jMij
输入描述
输入为维度参数 n,m和h,参数间使用空格隔开,均为小于 100 的正整数
输出描述
输出为结果矩阵 Y∈Rn×h的所有元素之和,例如 15,输出在四舍五入后保留整数
样例1
输入
3 3 3
输出
18
说明
X=111111111,W1,W2,W3=100110111
Q,K,V=111222333,Y=111222333
输出为:18
样例2
输入
2 3 1
输出
2
说明
X=(111111),W1,W2,W3=100
Q,K,V=(11),Y=(11)
输出为:2
提示
输入参数不包含 0,为正整数