解题思路

长序列下，将历史 token 划分为固定大小的空间连续块，每块做均值池化后经一个两层 MLP 压缩成向量，再用固定查询向量 $q=\mathbf{1}$ 与压缩结果做打分。得到的压缩分数序列 $A=(a_1,\dots,a_m)$ 之后，需要将其划分为恰好两个连续非空子数组，使两段和的最小值最大。整体可分为两部分：

数值构造：分块 + 池化 + MLP + 打分

设序列长度为 $n$ 、维度为 $d$ 、块大小为 $b$ ，块数 $m=\lceil n/b\rceil$ 。
第 $k$ 个块的均值池化

题目内容

在大语言模型推理过程中，随着上下文长度增加，标准 $Attention$ 的计算开销以 $O(n^2)$ 增长，成为性能瓶颈。为提升长序列处理效率，提出一种基于空间连续块的稀疏注意力机制。

具体流程如下：

一个长度为 $n$ 的历史 $token$ 序列，每个 $token$ 表示为 $1$ 个 $d$ 维特征向量 $\mathbf{x}_j \in \mathbb{R}^d$

。按固定块大小 $b$ ，将序列划分为 $m = ceil(n/b)$ 个空间连续块（最后一个块可不满）

请从“运行结果”或“历史提交”选择一条记录

选择提交后开始分析

#P4275. 第3题-基于空间连续块的稀疏注意力机制

第3题-基于空间连续块的稀疏注意力机制

解题思路

题目内容

Status

Development

Support

About

#P4275. 第3题-基于空间连续块的稀疏注意力机制

第3题-基于空间连续块的稀疏注意力机制

解题思路

题目内容

Status

Development

Support

About

Login