本题要求手写「带因果掩码」的多头自注意力(Decoder常用),输入为:
num_headsX:形状 [batch_size, seq_len, d_model]Q, K, V, W_O:均为形状 [d_model, d_model] 的线性投影矩阵(对应 $W_Q, W_K, W_V, W_O$)整体流程(Scaled Dot-Product Attention + 多头并行):
在Transformer模型中,Multi-Head Self-Attention是核心组件,用于捕捉序列中的依赖关系。你需要从头实现一个Masked Multi-Head Self-Attention函数,支持自注意力(即queries、keys和values来自同一输入序列),并处理编码(mask)以防止未来位置的信息泄露(常见于Decoder中)。
具体要求: