解题思路

本题要求手写「带因果掩码」的多头自注意力（Decoder常用），输入为：

num_heads
X：形状 [batch_size, seq_len, d_model]
Q, K, V, W_O：均为形状 [d_model, d_model] 的线性投影矩阵（对应 $W_Q, W_K, W_V, W_O$）

整体流程（Scaled Dot-Product Attention + 多头并行）：

题目内容

在Transformer模型中，Multi-Head Self-Attention是核心组件，用于捕捉序列中的依赖关系。你需要从头实现一个Masked Multi-Head Self-Attention函数，支持自注意力（即queries、keys和values来自同一输入序列），并处理编码（mask）以防止未来位置的信息泄露（常见于Decoder中）。

具体要求：

支持多头注意力：将注意力机制并行分成多个"头"，每个头学习不同的注意力模式，增强模型对多维度特征的捕捉能力。
计算过程：
1. 生成Q、K、V矩阵对输入序列X（维度：[batch_size, seq_len, d_model]）通过3个线性层分别生成查询（Query, Q）、键（Key, K）、值（Value, V）矩阵：（ $Q = X \cdot W_Q$ ， $K = X \cdot W_K$ ， $V = X \cdot W_V$ ），其中 $W_Q, W_K, W_V \in \mathbb{R}^{d_{model} \times d_{model}}$ 。

请从“运行结果”或“历史提交”选择一条记录

选择提交后开始分析

#P3843. 第3题-Masked Multi-Head Self-Attention 实现

第3题-Masked Multi-Head Self-Attention 实现

解题思路

题目内容

Status

Development

Support

About

#P3843. 第3题-Masked Multi-Head Self-Attention 实现

第3题-Masked Multi-Head Self-Attention 实现

解题思路

题目内容

Status

Development

Support

About

Login