3D生成告别「穿模」噩梦!VASTx清华将蒙皮权重Token化,统一生成骨骼与权重,GRPO微调形变平滑


<p cms-style="font-L">VAST张嘉鹏 投稿 </p>

量子位 | 公众号 QbitAI

3D模型生成容易,让它“动起来”却很难——骨骼不准、蒙皮扭曲,一动就穿模。

SkinTokens 换了个思路:把连续的蒙皮权重“离散化”成一串Token,让骨骼和蒙皮在同一个自回归框架里生成,再拿GRPO强化学习打磨。结果蒙皮准确率比现有方法提升近一倍,面对非常规模型也更稳了。

随着3D生成模型的快速发展,生成精美的3D静态模型变得越来越容易。但要让这些模型在游戏或动画中动起来,还需要经过一道复杂的工序—— 绑定 (Rigging) ,这包含生成骨骼 (Skeleton) 和绘制蒙皮权重 (Skinning)

在传统的自动化管线中,现有的AI绑定算法往往将“骨骼生成”和“蒙皮预测”拆分为两个孤立的模型。这导致生成的骨骼缺乏对表面蒙皮形变的感知,而预测蒙皮时又只能基于固定的骨架去推算。当模型进行较大动作时,经常会出现 体积塌陷、穿模拉扯 等问题,难以达到实际动画生产线的要求。

近期,一项名为 SkinTokens 的研究提出了一种新思路。该工作将连续的蒙皮权重预测转化为“离散Token生成”问题,构建了统一的自回归生成框架 TokenRig 。此外,研究还引入了 GRPO强化学习算法 进行模型优化,显著提升了AI自动绑定的精度,使其能够更好地服务于实际的动画生产。

△ 上图展示了SkinTokens如何将静态的3D模型一键转化为高质量、可直接驱动的动画资产  上图展示了SkinTokens如何将静态的3D模型一键转化为高质量、可直接驱动的动画资产

核心痛点:传统AI蒙皮算法的局限

在动画管线中, 蒙皮权重 (Skinning Weights) 决定了骨骼在运动时,模型表面的顶点该跟随哪个骨骼移动以及移动的比例。这是一个处于0到1之间的连续值。

以往的AI算法试图通过高维回归 (如基于图神经网络) 直接预测这个矩阵。但高维连续空间较为庞大,AI难以准确学习这种高度稀疏又关键的权重分布。结果往往是预测出的蒙皮权重边界模糊,绑定到动画后,模型的关节处 (如手肘、膝盖) 容易发生不自然的扭曲和折叠, 难以满足实际动画蒙皮绘制的标准

解决思路:SkinTokens——将蒙皮离散化

针对连续回归的难点,研究团队提出了一种新方法: 将蒙皮权重离散化 (Tokenize)

这是 SkinTokens 的核心机制:

1. 采用有限标量量化变分自编码器 (FSQ-CVAE) 进行训练。

2. 将原本庞大、连续且稀疏的蒙皮权重矩阵,压缩为一小段 离散的Token序列

3. 通过这一步,传统的“高维连续回归”任务被转化为了类似语言模型的“序列预测”问题。

△ t-SNE可视化结果显示,SkinTokens能够有效地在离散潜空间中捕捉并聚类不同的蒙皮权重分布特征  t-SNE可视化结果显示,SkinTokens能够有效地在离散潜空间中捕捉并聚类不同的蒙皮权重分布特征

TokenRig:骨骼与蒙皮的统一自回归框架

基于SkinTokens这种离散表达,研究团队进一步提出了统一自回归 (Autoregressive) 框架 TokenRig

在TokenRig中, 骨骼和蒙皮不再是独立的模块,整个绑定过程被建模为一个序列生成过程: 前半部分 为骨架的拓扑结构和位置 (Skeleton Sequence) 后半部分 为对应的蒙皮权重 (SkinTokens)

二者在同一个Transformer模型中进行顺序生成, 使模型能够 更好地理解“骨骼位置”与“皮肤形变”之间的关联 这种统一建模方式提升了生成的骨架与表面几何的契合度, 为生成高质量的动画资产提供了技术保障 。实验数据显示,SkinTokens使蒙皮准确率相比现有方法提升了 98%~133%

强化学习微调:引入GRPO增强泛化能力

在强化学习领域, GRPO (Group Relative Policy Optimization) 算法近期在推理大模型中表现出色。TokenRig同样引入了该强化学习算法来进行模型的自我迭代与完善。

由于包含高质量“骨骼+蒙皮”标注的3D数据集相对稀缺,仅依靠监督学习的模型在面对非常规的“野生模型” (Out-of-Distribution assets) 时容易出现偏差。为此,研究团队设计了四项奖励函数 (Reward Functions)

体积关节覆盖率 (Volumetric Joint Coverage)

骨骼-网格包围度 (Bone-Mesh Containment)

蒙皮覆盖率与稀疏度 (Skinning Coverage and Sparsity)

形变平滑度 (Deformation Smoothness)

借助这些基于几何与物理规则的奖励函数,TokenRig使用GRPO在无标注的3D数据集上进行了自我完善。经过强化学习微调后,TokenRig的骨骼预测性能提升了 17%~22% ,在面对复杂或非常规的3D资产时表现出了更强的泛化能力,其形变也更为平滑自然。

△ 经过GRPO强化学习后,模型在未见过的复杂资产上表现出了更好的泛化性和更自然的形变  经过GRPO强化学习后,模型在未见过的复杂资产上表现出了更好的泛化性和更自然的形变

结语:助力3D动画自动生产

长期以来,3D内容的生成与实际动画驱动之间存在着断层。自动绑定和蒙皮质量往往成为阻碍AI生成模型落地的一大瓶颈。

SkinTokens与TokenRig框架 通过“蒙皮Token化”、统一自回归生成以及强化学习等技术手段,提升了AI自动化绑定的准确性和稳定性,使其具备了 高保真、抗扭曲且可直接用于动画生产 的潜力。这一工作为3D创作者和游戏开发者优化工作流提供了一种有价值的新方案。

了解更多技术细节与动画演示,可访问项目。

主页:

https://zjp-shadow.github.io/works/SkinTokens/

代码:

https://github.com/VAST-AI-Research/SkinTokens

Demo:

https://huggingface.co/spaces/VAST-AI/SkinTokens

欢迎在评论区留下你的想法!

—   —

]article_adlist–>

                            <!-- 声明 -->
                                                                <p style="text-indent:2em;text-align:left;">
                                    <span style="font-family: KaiTi_GB2312,KaiTi;font-size:14px;">
                                        (声明:本文仅代表作者观点,不代表新浪网立场。)
                                    </span>
                                </p>                                
                       </div>



Source link

未经允许不得转载:紫竹林-程序员中文网 » 3D生成告别「穿模」噩梦!VASTx清华将蒙皮权重Token化,统一生成骨骼与权重,GRPO微调形变平滑
关于我们 免责申明 意见反馈 隐私政策
程序员中文网:公益在线网站,帮助学习者快速成长!
关注微信 技术交流
推荐文章
每天精选资源文章推送
推荐文章
随时随地碎片化学习
推荐文章
发现有趣的