按题意用“暴力模拟”完整走一遍计算图:
已知大模型常用的 Attention 模块定义如下:
Y=softmax(QKTh)VY = \text{softmax}\left(\frac{QK^T}{\sqrt{h}}\right)VY=softmax(hQKT)V
此处考虑二维情况,其中
Q,K,V=XW1,XW2,XW3∈Rn×h,X∈Rn×m,W1,W2,W3∈Rm×hQ, K, V = XW_1, XW_2, XW_3 \in \mathbb{R}^{n \times h}, \quad X \in \mathbb{R}^{n \times m}, \quad W_1, W_2, W_3 \in \mathbb{R}^{m \times h}Q,K,V=XW1,XW2,XW3∈Rn×h,X∈Rn×m,W1,W2,W3∈Rm×h
本题属于以下题库,请选择所需题库进行购买
ScanQRCodePrompt
请使用微信扫描下方二维码完成注册