WAP PAPER

分层稀疏注意力的长度泛化

研究生要点

论文系统拆解分层稀疏注意力模型,指出三条关键设计原则,能够实现“无需长上下文再训练”的长度外推:在 4K 训练上下文下,测试可扩展至 32M tokens(RULER、BABILong)。

研究生 · 中文 Hierarchical Sparse Attention Length Extrapolation

论文信息

作者:Jiaqi Leng, Xiang Hu, Junxiong Wang, Jianguo Li, Wei Wu, Yucheng Lu
日期:2025-10-20
会议/期刊:arXiv (cs.CL) 预印本
arXiv:2510.17196
DOI:10.48550/arXiv.2510.17196

Problem setup / 背景

标准注意力具有二次复杂度,长上下文推理成本极高。稀疏或线性替代方案虽然可扩展,但往往牺牲长程信息。分层稀疏注意力通过“块级编码 + 选择性检索”降低成本,但哪些结构真正决定长度外推能力尚不清晰。

Method / 方法

作者构建统一框架并进行系统消融,结合理论动机解释块内处理与“landmark”生成的必要性,归纳出三条核心设计:

Experiments & Results / 实验与结果

消融实验验证三条原则缺一不可;组合后的设计在不增加长上下文再训练的情况下实现 SOTA 级别的长度泛化。

4K → 32M

训练 4K tokens,测试可到 3,200 万。

RULER + BABILong

长上下文评测基准。

Training-free

无需长文本再训练即可外推。

消融结论

任一核心设计移除都会显著下降。

Limitations / 局限

摘要未列出明确局限。可预期的限制包括:结果集中在特定基准,代码/项目页未在 arXiv 标注,实际部署的时延与内存开销尚不明确。建议后续在检索增强、多文档 QA 与长对话等场景进一步验证。

Resources / 资源

论文摘要(arXiv) 打开
PDF 下载

Suggested citation / 推荐引用

Leng, Jiaqi, Xiang Hu, Junxiong Wang, Jianguo Li, Wei Wu, and Yucheng Lu. 2025. “Understanding and Improving Length Generalization in Hierarchical Sparse Attention Models.” arXiv:2510.17196. https://doi.org/10.48550/arXiv.2510.17196.