长序列下,将历史 token 划分为固定大小的空间连续块,每块做均值池化后经一个两层 MLP 压缩成向量,再用固定查询向量 q=1 与压缩结果做打分。得到的压缩分数序列 A=(a1,…,am) 之后,需要将其划分为恰好两个连续非空子数组,使两段和的最小值最大。整体可分为两部分:
在大语言模型推理过程中,随着上下文长度增加,标准 Attention 的计算开销以 O(n2) 增长,成为性能瓶颈。为提升长序列处理效率,提出一种基于空间连续块的稀疏注意力机制。
具体流程如下:
一个长度为 n 的历史 token 序列,每个 token 表示为 1 个 d 维特征向量 xj∈Rd
。按固定块大小b,将序列划分为 m=ceil(n/b)个空间连续块(最后一个块可不满)