高中 · 中文

VTP:让视觉分词器学到“语义”,而不只是像素。

VTP 用多种训练信号预训练视觉分词器,使生成模型在扩大数据和算力时仍能提升。

视觉分词器 预训练 图像生成

论文信息

  • 标题:Towards Scalable Pre-training of Visual Tokenizers for Generation
  • 作者:Jingfeng Yao, Yuda Song, Yucong Zhou, Xinggang Wang
  • 提交日期:2025 年 12 月 15 日(v1)
  • 机构:华中科技大学、MiniMax
  • 发表:arXiv(cs.CV)
  • DOI:10.48550/arXiv.2512.13687
零样本准确率78.2
rFID0.36
FID 提升65.8%
收敛速度4.1×

问题背景(通俗版)

  • 图像生成模型先把图片压缩成离散“token”。
  • 传统分词器只关注像素重建,学到的 token 不够“有语义”。
  • 因此即使增加算力,生成质量也很难继续提升。

方法概览

VTP 是一个 ViT 结构的自编码器,同时使用三种训练信号:

  • 对比学习:把图像和文字对应起来,让 token 学会语义。
  • 自监督:遮住图像块再预测,并加入自蒸馏。
  • 重建:先用 MSE 重建,再用 GAN 微调细节。

这样既保留细节,又增强语义表达。

实验与结果

  • 使用 DataComp-1B(2.77 亿图文对)预训练,在 ImageNet 上评测。
  • 零样本准确率 78.2,重建 rFID 仅 0.36。
  • 随着预训练 FLOPs 增加,DiT 的 FID 可提升 65.8%。
  • 训练收敛速度比蒸馏方法快 4.1×。

局限(论文未明确列出)

论文没有专门的局限章节。从实验设置来看,VTP 依赖大规模数据和算力,主要在 ImageNet 与 DiT 场景验证,是否能推广到其他领域或生成器还需要更多证据。

资源

推荐引用

Yao, J., Song, Y., Zhou, Y., & Wang, X. (2025). Towards Scalable Pre-training of Visual Tokenizers for Generation. arXiv:2512.13687.