解题思路

本题的核心是在资源约束下最大化注意力信息总量。问题可以分解为以下几个步骤进行求解：

首先需要对所有特征向量进行RMSNorm归一化处理。对于每个d维特征向量，计算其均方根值，然后将向量的每个分量除以该均方根值。这一步保证了后续注意力得分计算的标准化基础。

接着计算所有位置对之间的注意力得分。对于任意两个位置i和j（其中i<j），使用归一化后的向量进行缩放点积运算，得到注意力得分 $A_{ij}$ ，并计算其平方值 $A_{ij}^2$ 。由于最终目标函数中使用的是平方值，因此可以直接存储平方值以便后续使用。

问题的关键在于构造路径矩阵M。对于每个位置j，需要从前面的所有位置中选择最多 $c_j$ 个位置建立连接。为了最大化目标函数S，应当采用贪心策略：对于每个位置j，将所有前置位置按照 $A_{ij}^2$ 的值从大到小排序，然后选择前 $c_j$ 个最大的值。这样可以保证每个位置获得的注意力信息量最大。

题目内容

你正在设计一种跨模态知的大模型精准度机制，给定一个长度为 $n$ 的输入 $token$ 序列，每个位置 $j$ 拥有一个 $d$ 维特征向量 $X_j \in \mathbb{R}^d$ 和一个正整数计算容量 $c_j$ ，表示该位置最多可接收来自前 $j$ 位置的信息连接数。

系统需完成以下步骤：

$RMSNorm$ 归一化：对所有特征向量进行 $RMSNorm$ 归一化本题取 $(\gamma = 1, \epsilon = 0)$ ：

每个特征向量记为 $x_i \in \mathbb{R}^d$ ，其第 $k$ 个分量为 $x_i[k]$ 。 $RMSNorm$ 定义为：

开通会员即可查看完整视频题解： 1.题目讲解 2.思路分析 3.逐行代码手写

请从“运行结果”或“历史提交”选择一条记录

选择提交后开始分析

#P4227. 第2题-动态注意力掩码调度问题

第2题-动态注意力掩码调度问题

解题思路

题目内容

Status

Development

Support

About

#P4227. 第2题-动态注意力掩码调度问题

第2题-动态注意力掩码调度问题

解题思路

题目内容

Status

Development

Support

About

Login