研究生 · 中文

VTP：面向可扩展生成的多目标视觉分词器预训练。

使用对比学习 + 自监督 + 重建的联合目标，让分词器在扩大训练计算量时持续提升生成能力。

VQ 分词器多目标预训练 DiT 生成

论文信息

零样本准确率78.2

rFID0.36

FID 提升65.8%

收敛速度4.1×

视觉分词器（如 VQ-VAE）把图像压缩成离散码本，作为自回归或扩散生成的输入。作者指出“预训练扩展性问题”：单纯依赖像素重建的分词器在算力扩大时难以提升语义生成质量。

结构。ViT 编码器 + 向量量化；12 层文本编码器（维度 768）；4 层 ViT-L 像素解码器；latent 维度 64（另做 256 消融）；使用 QKNorm 稳定注意力。

联合目标。

论文还报告了视觉理解指标与生成质量之间的强相关性。

论文没有专门局限章节。根据实验设置可推测：VTP 依赖大规模图文数据与算力，主要在 ImageNet/DiT 场景验证；迁移到其他领域或生成器的效果尚需进一步验证。

论文页 PDF 代码模型