3D生成告别「穿模」噩梦！VASTx清华将蒙皮权重Token化，统一生成骨骼与权重，GRPO微调形变平滑

<p cms-style="font-L">VAST张嘉鹏 投稿 </p>

量子位 | 公众号 QbitAI

3D模型生成容易，让它“动起来”却很难——骨骼不准、蒙皮扭曲，一动就穿模。

SkinTokens 换了个思路：把连续的蒙皮权重“离散化”成一串Token，让骨骼和蒙皮在同一个自回归框架里生成，再拿GRPO强化学习打磨。结果蒙皮准确率比现有方法提升近一倍，面对非常规模型也更稳了。

随着3D生成模型的快速发展，生成精美的3D静态模型变得越来越容易。但要让这些模型在游戏或动画中动起来，还需要经过一道复杂的工序—— 绑定（Rigging），这包含生成骨骼（Skeleton）和绘制蒙皮权重（Skinning）。

在传统的自动化管线中，现有的AI绑定算法往往将“骨骼生成”和“蒙皮预测”拆分为两个孤立的模型。这导致生成的骨骼缺乏对表面蒙皮形变的感知，而预测蒙皮时又只能基于固定的骨架去推算。当模型进行较大动作时，经常会出现体积塌陷、穿模拉扯等问题，难以达到实际动画生产线的要求。

近期，一项名为 SkinTokens 的研究提出了一种新思路。该工作将连续的蒙皮权重预测转化为“离散Token生成”问题，构建了统一的自回归生成框架 TokenRig 。此外，研究还引入了 GRPO强化学习算法进行模型优化，显著提升了AI自动绑定的精度，使其能够更好地服务于实际的动画生产。

△ 上图展示了SkinTokens如何将静态的3D模型一键转化为高质量、可直接驱动的动画资产

核心痛点：传统AI蒙皮算法的局限

在动画管线中，蒙皮权重（Skinning Weights）决定了骨骼在运动时，模型表面的顶点该跟随哪个骨骼移动以及移动的比例。这是一个处于0到1之间的连续值。

以往的AI算法试图通过高维回归（如基于图神经网络）直接预测这个矩阵。但高维连续空间较为庞大，AI难以准确学习这种高度稀疏又关键的权重分布。结果往往是预测出的蒙皮权重边界模糊，绑定到动画后，模型的关节处（如手肘、膝盖）容易发生不自然的扭曲和折叠，难以满足实际动画蒙皮绘制的标准。

解决思路：SkinTokens——将蒙皮离散化

针对连续回归的难点，研究团队提出了一种新方法：将蒙皮权重离散化（Tokenize）。

这是 SkinTokens 的核心机制：

1. 采用有限标量量化变分自编码器（FSQ-CVAE）进行训练。

2. 将原本庞大、连续且稀疏的蒙皮权重矩阵，压缩为一小段离散的Token序列。

3. 通过这一步，传统的“高维连续回归”任务被转化为了类似语言模型的“序列预测”问题。

△ t-SNE可视化结果显示，SkinTokens能够有效地在离散潜空间中捕捉并聚类不同的蒙皮权重分布特征

TokenRig：骨骼与蒙皮的统一自回归框架

基于SkinTokens这种离散表达，研究团队进一步提出了统一自回归（Autoregressive）框架 TokenRig 。

在TokenRig中，骨骼和蒙皮不再是独立的模块，整个绑定过程被建模为一个序列生成过程：前半部分为骨架的拓扑结构和位置（Skeleton Sequence），后半部分为对应的蒙皮权重（SkinTokens）。

二者在同一个Transformer模型中进行顺序生成，使模型能够更好地理解“骨骼位置”与“皮肤形变”之间的关联。这种统一建模方式提升了生成的骨架与表面几何的契合度，为生成高质量的动画资产提供了技术保障。实验数据显示，SkinTokens使蒙皮准确率相比现有方法提升了 98%～133% 。

强化学习微调：引入GRPO增强泛化能力

在强化学习领域， GRPO （Group Relative Policy Optimization）算法近期在推理大模型中表现出色。TokenRig同样引入了该强化学习算法来进行模型的自我迭代与完善。

由于包含高质量“骨骼+蒙皮”标注的3D数据集相对稀缺，仅依靠监督学习的模型在面对非常规的“野生模型” （Out-of-Distribution assets）时容易出现偏差。为此，研究团队设计了四项奖励函数（Reward Functions）：

体积关节覆盖率（Volumetric Joint Coverage）

骨骼-网格包围度（Bone-Mesh Containment）

蒙皮覆盖率与稀疏度（Skinning Coverage and Sparsity）

形变平滑度（Deformation Smoothness）

借助这些基于几何与物理规则的奖励函数，TokenRig使用GRPO在无标注的3D数据集上进行了自我完善。经过强化学习微调后，TokenRig的骨骼预测性能提升了 17%～22% ，在面对复杂或非常规的3D资产时表现出了更强的泛化能力，其形变也更为平滑自然。

△ 经过GRPO强化学习后，模型在未见过的复杂资产上表现出了更好的泛化性和更自然的形变

结语：助力3D动画自动生产

长期以来，3D内容的生成与实际动画驱动之间存在着断层。自动绑定和蒙皮质量往往成为阻碍AI生成模型落地的一大瓶颈。

SkinTokens与TokenRig框架通过“蒙皮Token化”、统一自回归生成以及强化学习等技术手段，提升了AI自动化绑定的准确性和稳定性，使其具备了高保真、抗扭曲且可直接用于动画生产的潜力。这一工作为3D创作者和游戏开发者优化工作流提供了一种有价值的新方案。

了解更多技术细节与动画演示，可访问项目。

主页：

https://zjp-shadow.github.io/works/SkinTokens/

代码：

https://github.com/VAST-AI-Research/SkinTokens

Demo：

https://huggingface.co/spaces/VAST-AI/SkinTokens

欢迎在评论区留下你的想法！

— 完 —

]article_adlist–>

                            <!-- 声明 -->
                                                                <p style="text-indent:2em;text-align:left;">
                                    <span style="font-family: KaiTi_GB2312,KaiTi;font-size:14px;">
                                        （声明：本文仅代表作者观点，不代表新浪网立场。）
                                    </span>
                                </p>                                
                       </div>

Source link

3D生成告别「穿模」噩梦！VASTx清华将蒙皮权重Token化，统一生成骨骼与权重，GRPO微调形变平滑

相关推荐

近期文章