WAP PAPER

分层稀疏注意力的长度泛化

通俗要点

论文解释了如何让“超长文本”模型真正可用。它研究分块稀疏注意力,并提出三条关键设计规则,使在 4K tokens 上训练的模型能在最多 3200 万 tokens 的测试中保持效果。

高中 · 中文 长上下文 稀疏注意力

论文信息

作者:Jiaqi Leng, Xiang Hu, Junxiong Wang, Jianguo Li, Wei Wu, Yucheng Lu
日期:2025-10-20
会议/期刊:arXiv (cs.CL) 预印本
arXiv:2510.17196
DOI:10.48550/arXiv.2510.17196

Problem setup / 背景

普通注意力需要“看完所有词”,越长越慢。分层稀疏注意力把文本切成块,只挑重要块阅读,但不同设计差异很大,哪些部件真正决定长文本效果并不清楚。

Method / 方法

作者拆解模型结构,提炼出三条必需设计:

Experiments & Results / 实验与结果

论文做了系统消融实验,验证三条原则缺一不可。完整设计可以不额外训练就实现长度外推。

4K → 32M

训练 4K,上到 3,200 万 tokens。

基准

RULER 与 BABILong。

无需长上下文微调

训练后直接外推。

关键结论

三条原则缺一不可。

Limitations / 局限

摘要未明确写出局限,以下为合理提醒:结果主要来自特定长文本基准,论文仍是预印本,且 arXiv 上未列出代码/资源。真实场景下的效率和鲁棒性仍需验证。

Resources / 资源

论文摘要(arXiv) 打开
PDF 下载

Suggested citation / 推荐引用

Leng, Jiaqi, Xiang Hu, Junxiong Wang, Jianguo Li, Wei Wu, and Yucheng Lu. 2025. “Understanding and Improving Length Generalization in Hierarchical Sparse Attention Models.” arXiv:2510.17196. https://doi.org/10.48550/arXiv.2510.17196.