压缩之外,Visual Tokenizer 也要理解世界?


机器之心PRO · 会员通讯 Week 52

— 本周为您解读 值得细品的 AI & Robotics 业内要事 —

1. 压缩之外,Visual Tokenizer 也要理解世界?

Visual Tokenizer 下一步进化的关键在于理解世界?相比 2D 网格序列,采用 1D 序列形式的 tokenizer 更适合大规模训练?也许目前的离散 tokenizer 可能只是阶段性的过渡性方案?生成采样阶段的分布偏移,导致了「重建强、生成弱」的普遍现象?离散 tokenizer 如何在不牺牲压缩效率的前提下超过连续潜在空间的重建质量?

2.  Demis Hassabis 深度访谈:为什么做 AGI 需要回到「AlphaGo 模式」?

什么是「锯齿状智能」?为什么 AGI 需要回到「AlphaGo」模式?SIMA 与 Genie 如何协同「好奇心」创造无限训练资源?如何通过「物理基准测试」消除模拟世界的幻觉?「根节点问题」如何产生连锁反应?AGI 会如何推动经济重构?…

本期完整版通讯含 2 项专题解读 + 24 项本周 AI & Robotics 赛道要事速递,其中技术方面 9  项,国内方面 10 项,国外方面 5 项。

本期通讯总计  20946  字,可免费试读至 10% 

 消耗 288 微信豆可兑换完整本期解读(约合人民币 28.8 元) 

要事解读①  压缩之外,Visual Tokenizer 也要理解世界?

引言 :近期,MiniMax 在发布招股书之外,开源的 VTP 工作也引发了业内热议。VTP 进一步关注了「重建更准不等于生成更好」的问题,也为视觉 tokenizer 的研究提供了一个新的视角。或许当视觉 tokenizer 的 Scaling Law 被证明可行之后,视觉生成模型的能力可能还会「再上一个台阶」。

MiniMax 新研究引起热议,视频生成模型 scale 之路的关键问题或是 Visual Tokenizer ?

1、近期,MiniMax 和华中科技大学的研究者发布了一项有关视觉 tokenizer 的新研究 VTP(Visual Tokenizer Pre-training),引发了业界热议。[1-1]

① 传统的视觉生成模型通常分为两步:先通过 tokenizer(如 VAE)压缩图像,后在潜空间(Latent Space)训练生成模型。

② 过去的研究发现,如果第一阶段的 tokenizer 质量没有提升,即使无限增加上述第二阶段(如 DiT)的算力,生成效果会很快达到饱和。

2、该研究提供了一个不同以往的视角,即提升生成模型性能,不仅可以依赖主模型的扩展,也可以通过扩展 tokenizer 来实现。[1-1]

3、业内以往的常见做法是在扩散模型框架中训练一个 VAE 作为图像离散表示工具,然后固定该 VAE,再专注于扩大小模型(如扩散 Transformer)的规模。[1-2]

4、然而研究者发现,如果仅追求像素级重建的精度,投入更多算力让自编码器重建得更逼真,可能会降低下游生成质量。[1-1]

5、此次的 VTP 工作通过实验在一定程度上揭示了问题根源,即传统仅以重建为目标训练的视觉 tokenizer,其潜在空间偏向低层次像素信息,缺乏对高层语义的简洁表示。而扩散模型对这种低级细节并不敏感,导致更强的重建能力并未转化为更好的生成能力。[1-1]

6、为解决上述问题,研究者进一步提出需要在 tokenizer 预训练中引入语义理解,让 latent 表示对高级语义信息更敏感,而不过度记忆像素细节。[1-1]

7、此外,研究者也发现了 visual tokenizer 的 Scaling Law 现象,即传统自编码器在预训练算力达到一定规模后,性能基本停滞,而 VTP 的性能会持续提升。[1-1]

① 在实验中,普通 VAE 在使用不到原来十分之一的计算量时就会达到生成性能瓶颈,而 VTP 即使将预训练计算量提高 10 倍,生成效果仍在不断变好。[1-1]

8、这项工作在热度之中也有一些争议,外媒一位分析师指出,该研究未系统探讨 VTP 如何与不同的 DiT 架构交互,且实验采用的是特定配置,不明确语义潜在空间是否对 flow matching 和 rectified flowd 等方法同样有效。[1-2]

9、但整体来说,VTP 工作为视觉 tokenizer 的研究提供了一个新的视角,当视觉 tokenizer 的 Scaling Law 被证明可行之后,视觉生成模型的能力可能还会「再上一个台阶」。

「重建好不等于生成好」,tokenizer 语义理解加强方面,近期有哪些值得关注的实践发现?

1、具体而言,VTP 框架将图像-文本对比学习(如 CLIP)、自监督学习(如 DINOv2)和传统的重建损失结合起来,统一优化视觉 tokenizer 的潜在空间,使其同时具备高层语义理解能力和细节重建能力。[1-1]

2、细节上,VTP 框架在保留轻量级重建损失来确保视觉保真度的同时,引入了两项语义导向任务:

① 一是基于 DINOv2 的自监督损失,通过掩码图像建模与自蒸馏机制,使潜在表示在局部空间结构和全局语义一致性上得到了增强。

② 二是基于 CLIP 风格的图像-文本对比损失,利用大规模图文配对数据,将语言先验显式注入视觉潜在空间,提升其对高级语义的敏感度。

③ 整体目标函数为三项损失的加权和,训练过程在 ViT-L 框架的 64 维瓶颈处统一优化。

④ 同时为了为兼顾对比学习对大 batch 的需求和计算效率,研究者在实现中采用了分层采样策略,图文对比任务使用 16 K 大 batch,而自监督与重建任务分别使用 4 K 与 2 K 小 batch。

3、实验表明,潜在空间的语义质量(用零样本分类准确率度量)与生成性能(FID 指标)呈高度正相关,当 tokenizer latent 更善于表征语义概念时,下游生成效果显著提升。[1-1]

① 在 ImageNet 上,VTP 最大模型(约 7 亿参数)达到了 78.2%的零样本分类准确率,同时其压缩重建保真度 rFID=0.36,与一些专门表征学习模型性能相当。

② 此外,在不改变扩散模型结构和计算量的情况下,将该 tokenizer 替换进标准扩散模型训练后,生成图像的 FID 相对基准降低了 65.8%,收敛速度提升了约 4 倍。

③ 这意味着,仅通过在 tokenizer 预训练上投入更多算力,就能大幅提升下游的生成质量,而不需要额外增加生成模型的复杂度。

4、VTP 的「重建好不等于生成好」的研究思路也并非是孤立的,此前也有一些工作提出了不同的解决方案。

            <!-- 非定向300*250按钮    17/09  wenjing  begin -->
            <!-- 非定向300*250按钮  end -->
        </div>



Source link

未经允许不得转载:紫竹林-程序员中文网 » 压缩之外,Visual Tokenizer 也要理解世界?

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址
关于我们 免责申明 意见反馈 隐私政策
程序员中文网:公益在线网站,帮助学习者快速成长!
关注微信 技术交流
推荐文章
每天精选资源文章推送
推荐文章
随时随地碎片化学习
推荐文章
发现有趣的