研究生中文 | 分层稀疏注意力的长度泛化

研究生要点

论文系统拆解分层稀疏注意力模型，指出三条关键设计原则，能够实现“无需长上下文再训练”的长度外推：在 4K 训练上下文下，测试可扩展至 32M tokens（RULER、BABILong）。

研究生 · 中文 Hierarchical Sparse Attention Length Extrapolation

论文信息

作者：Jiaqi Leng, Xiang Hu, Junxiong Wang, Jianguo Li, Wei Wu, Yucheng Lu

日期：2025-10-20

会议/期刊：arXiv (cs.CL) 预印本

arXiv：2510.17196

DOI：10.48550/arXiv.2510.17196

Problem setup / 背景

标准注意力具有二次复杂度，长上下文推理成本极高。稀疏或线性替代方案虽然可扩展，但往往牺牲长程信息。分层稀疏注意力通过“块级编码 + 选择性检索”降低成本，但哪些结构真正决定长度外推能力尚不清晰。

Method / 方法

作者构建统一框架并进行系统消融，结合理论动机解释块内处理与“landmark”生成的必要性，归纳出三条核心设计：

强表达块编码器 + CLS 汇总 token： 需要非线性块内表示与专用汇总 token，才能可靠检索相关块。
Bypassing Residual Path (BRP)： 检索得到的全局信息必须回流到 token 表示，避免只在选择层生效。
训练时强制稀疏选择： 通过稀疏化选择减少训练/测试分布漂移，提升长上下文外推。

Experiments & Results / 实验与结果

消融实验验证三条原则缺一不可；组合后的设计在不增加长上下文再训练的情况下实现 SOTA 级别的长度泛化。

4K → 32M

训练 4K tokens，测试可到 3,200 万。

RULER + BABILong

长上下文评测基准。

Training-free

无需长文本再训练即可外推。

消融结论

任一核心设计移除都会显著下降。

Limitations / 局限

摘要未列出明确局限。可预期的限制包括：结果集中在特定基准，代码/项目页未在 arXiv 标注，实际部署的时延与内存开销尚不明确。建议后续在检索增强、多文档 QA 与长对话等场景进一步验证。

Resources / 资源

论文摘要（arXiv）打开

PDF 下载

DOI 10.48550/arXiv.2510.17196

Suggested citation / 推荐引用

Leng, Jiaqi, Xiang Hu, Junxiong Wang, Jianguo Li, Wei Wu, and Yucheng Lu. 2025. “Understanding and Improving Length Generalization in Hierarchical Sparse Attention Models.” arXiv:2510.17196. https://doi.org/10.48550/arXiv.2510.17196.