研究生 · 中文

VTP:面向可扩展生成的多目标视觉分词器预训练。

使用对比学习 + 自监督 + 重建的联合目标,让分词器在扩大训练计算量时持续提升生成能力。

VQ 分词器 多目标预训练 DiT 生成

论文信息

  • 标题:Towards Scalable Pre-training of Visual Tokenizers for Generation
  • 作者:Jingfeng Yao, Yuda Song, Yucong Zhou, Xinggang Wang
  • 提交日期:2025 年 12 月 15 日(v1)
  • 机构:华中科技大学、MiniMax
  • 发表:arXiv(cs.CV)
  • DOI:10.48550/arXiv.2512.13687
零样本准确率78.2
rFID0.36
FID 提升65.8%
收敛速度4.1×

问题定义

视觉分词器(如 VQ-VAE)把图像压缩成离散码本,作为自回归或扩散生成的输入。作者指出“预训练扩展性问题”:单纯依赖像素重建的分词器在算力扩大时难以提升语义生成质量。

方法细节

结构。ViT 编码器 + 向量量化;12 层文本编码器(维度 768);4 层 ViT-L 像素解码器;latent 维度 64(另做 256 消融);使用 QKNorm 稳定注意力。

联合目标。

  • 自监督:DINOv2 风格 MIM + 自蒸馏。
  • 对比学习:CLIP 风格图文对齐,蒸馏 OpenCLIP 文本嵌入,输入含噪图像。
  • 重建:MSE 训练后用 GAN 微调,加入 LPIPS 与对抗损失。

实验与结果

  • 预训练使用 DataComp-1B(2.77 亿图文样本),设置参考 DINOv2 与 OpenCLIP;评测在 ImageNet-1K。
  • 零样本准确率 78.2,重建 rFID 0.36。
  • 随预训练 FLOPs 增长,DiT FID 提升 65.8%,而现有分词器趋于饱和。
  • 训练收敛速度比蒸馏方案快 4.1×。

论文还报告了视觉理解指标与生成质量之间的强相关性。

局限(论文未明确列出)

论文没有专门局限章节。根据实验设置可推测:VTP 依赖大规模图文数据与算力,主要在 ImageNet/DiT 场景验证;迁移到其他领域或生成器的效果尚需进一步验证。

资源

推荐引用

Yao, J., Song, Y., Zhou, Y., & Wang, X. (2025). Towards Scalable Pre-training of Visual Tokenizers for Generation. arXiv:2512.13687.