本题的核心是在资源约束下最大化注意力信息总量。问题可以分解为以下几个步骤进行求解:
首先需要对所有特征向量进行RMSNorm归一化处理。对于每个d维特征向量,计算其均方根值,然后将向量的每个分量除以该均方根值。这一步保证了后续注意力得分计算的标准化基础。
接着计算所有位置对之间的注意力得分。对于任意两个位置i和j(其中i<j),使用归一化后的向量进行缩放点积运算,得到注意力得分Aij,并计算其平方值Aij2。由于最终目标函数中使用的是平方值,因此可以直接存储平方值以便后续使用。
问题的关键在于构造路径矩阵M。对于每个位置j,需要从前面的所有位置中选择最多cj个位置建立连接。为了最大化目标函数S,应当采用贪心策略:对于每个位置j,将所有前置位置按照Aij2的值从大到小排序,然后选择前cj个最大的值。这样可以保证每个位置获得的注意力信息量最大。
你正在设计一种跨模态知的大模型精准度机制,给定一个长度为 n 的输入 token 序列,每个位置 j 拥有一个 d维特征向量 Xj∈Rd和一个正整数计算容量 cj,表示该位置最多可接收来自前 j 位置的信息连接数。
系统需完成以下步骤:
RMSNorm 归一化:对所有特征向量进行 RMSNorm 归一化本题取(γ=1,ϵ=0):
每个特征向量记为xi∈Rd,其第 k 个分量为 xi[k]。RMSNorm 定义为:
开通会员即可查看完整视频题解: 1.题目讲解 2.思路分析 3.逐行代码手写