研究生要点
论文系统拆解分层稀疏注意力模型,指出三条关键设计原则,能够实现“无需长上下文再训练”的长度外推:在 4K 训练上下文下,测试可扩展至 32M tokens(RULER、BABILong)。
研究生 · 中文
Hierarchical Sparse Attention
Length Extrapolation
论文信息
作者:Jiaqi Leng, Xiang Hu, Junxiong Wang, Jianguo Li, Wei Wu, Yucheng Lu
日期:2025-10-20
会议/期刊:arXiv (cs.CL) 预印本
arXiv:2510.17196
DOI:10.48550/arXiv.2510.17196
Problem setup / 背景
标准注意力具有二次复杂度,长上下文推理成本极高。稀疏或线性替代方案虽然可扩展,但往往牺牲长程信息。分层稀疏注意力通过“块级编码 + 选择性检索”降低成本,但哪些结构真正决定长度外推能力尚不清晰。
Method / 方法
作者构建统一框架并进行系统消融,结合理论动机解释块内处理与“landmark”生成的必要性,归纳出三条核心设计:
- 强表达块编码器 + CLS 汇总 token: 需要非线性块内表示与专用汇总 token,才能可靠检索相关块。
- Bypassing Residual Path (BRP): 检索得到的全局信息必须回流到 token 表示,避免只在选择层生效。
- 训练时强制稀疏选择: 通过稀疏化选择减少训练/测试分布漂移,提升长上下文外推。
Experiments & Results / 实验与结果
消融实验验证三条原则缺一不可;组合后的设计在不增加长上下文再训练的情况下实现 SOTA 级别的长度泛化。
4K → 32M
训练 4K tokens,测试可到 3,200 万。
RULER + BABILong
长上下文评测基准。
Training-free
无需长文本再训练即可外推。
消融结论
任一核心设计移除都会显著下降。
Limitations / 局限
摘要未列出明确局限。可预期的限制包括:结果集中在特定基准,代码/项目页未在 arXiv 标注,实际部署的时延与内存开销尚不明确。建议后续在检索增强、多文档 QA 与长对话等场景进一步验证。
Suggested citation / 推荐引用
Leng, Jiaqi, Xiang Hu, Junxiong Wang, Jianguo Li, Wei Wu, and Yucheng Lu. 2025. “Understanding and Improving Length Generalization in Hierarchical Sparse Attention Models.” arXiv:2510.17196. https://doi.org/10.48550/arXiv.2510.17196.