研究生 · 中文
VTP:面向可扩展生成的多目标视觉分词器预训练。
使用对比学习 + 自监督 + 重建的联合目标,让分词器在扩大训练计算量时持续提升生成能力。
VQ 分词器
多目标预训练
DiT 生成
论文信息
- 标题:Towards Scalable Pre-training of Visual Tokenizers for Generation
- 作者:Jingfeng Yao, Yuda Song, Yucong Zhou, Xinggang Wang
- 提交日期:2025 年 12 月 15 日(v1)
- 机构:华中科技大学、MiniMax
- 发表:arXiv(cs.CV)
- DOI:10.48550/arXiv.2512.13687
零样本准确率78.2
rFID0.36
FID 提升65.8%
收敛速度4.1×
问题定义
视觉分词器(如 VQ-VAE)把图像压缩成离散码本,作为自回归或扩散生成的输入。作者指出“预训练扩展性问题”:单纯依赖像素重建的分词器在算力扩大时难以提升语义生成质量。
方法细节
结构。ViT 编码器 + 向量量化;12 层文本编码器(维度 768);4 层 ViT-L 像素解码器;latent 维度 64(另做 256 消融);使用 QKNorm 稳定注意力。
联合目标。
- 自监督:DINOv2 风格 MIM + 自蒸馏。
- 对比学习:CLIP 风格图文对齐,蒸馏 OpenCLIP 文本嵌入,输入含噪图像。
- 重建:MSE 训练后用 GAN 微调,加入 LPIPS 与对抗损失。
实验与结果
- 预训练使用 DataComp-1B(2.77 亿图文样本),设置参考 DINOv2 与 OpenCLIP;评测在 ImageNet-1K。
- 零样本准确率 78.2,重建 rFID 0.36。
- 随预训练 FLOPs 增长,DiT FID 提升 65.8%,而现有分词器趋于饱和。
- 训练收敛速度比蒸馏方案快 4.1×。
论文还报告了视觉理解指标与生成质量之间的强相关性。
局限(论文未明确列出)
论文没有专门局限章节。根据实验设置可推测:VTP 依赖大规模图文数据与算力,主要在 ImageNet/DiT 场景验证;迁移到其他领域或生成器的效果尚需进一步验证。
资源
推荐引用
Yao, J., Song, Y., Zhou, Y., & Wang, X. (2025). Towards Scalable Pre-training of Visual Tokenizers for Generation. arXiv:2512.13687.